Keep wandering, keep wondering

De heilige graal van encryptie

Onderzoekers van Microsoft en Princeton hebben een Cryptonet gebouwd, waarmee je analyses kunt maken van versleutelde data. De ontdekking biedt ongekende mogelijkheden voor het privacy-vriendelijk gebruik van big data.

Stel je voor: iedere patiënt heeft een persoonlijk gezondheidsdossier in de
cloud. Alle gegevens zijn versleuteld opgeslagen, en de patiënt bepaalt zelf met wie hij of zij de informatie deelt middels een geheime sleutel. Handig, en ook nog veilig.

Er is echter een probleem: omdat de gegevens versleuteld zijn, kan je er verder niks mee: je kunt ze niet analyseren, of gebruiken voor medisch of wetenschappelijk onderzoek. Einde oefening voor de belofte van
big data, zou je zeggen. Tenzij je de data decodeert, maar dat heeft weer funeste gevolgen voor de privacy van de patiënt. Een schijnbaar onoplosbaar dilemma. 

Toch is er een oplossing: sommige vormen van versleuteling (denk aan
RSA) maken het mogelijk om zinvolle berekeningen uit te voeren op data (zoals optellen en vermenigvuldigen) zonder die te decoderen.

Homomorfie
Dat werkt zo: stel je hebt de zin HELLO WORLD. Als je die woorden ‘optelt’, krijg je HELLOWORLD. Vervolgens doe je hetzelfde met de versleutelde versie van die woorden. Gebruik makend van het 
Ceasar-alfabet (waarbij elke letter wordt vervangen door een letter 13 plaatsen verderop in het alfabet), krijg je  dan URYYB + JBEYQ = URYYBJBEYQ. Als je dat antwoord decodeert, krijg je weer HELLOWORLD.  De som van de versleutelde tekst levert dus hetzelfde resultaat op als de som van de ‘platte tekst’.  

akjwaw

Deze vorm van versleuteling staat bekend als
homomorfe encryptieVolledige homomorfe encryptie, waarbij je een willekeurig aantal berekeningen kan loslaten op de versleutelde gegevens, wordt gezien als de heilige graal van versleuteling. 

Lange tijd werd gedacht dat volledige homomorfie onmogelijk was, omdat onze computers gewoon niet snel genoeg zijn om deze complexe berekeningen aan te kunnen. Zo zou een simpele zoekopdracht in Google met versleutelde zoektermen, de zoektijd maar liefst een
biljoen keer langer maken. 

Doorbraak
Onderzoek van onder meer
Gentry in 2010 heeft echter geleid tot een doorbraak. En nu is er weer een belangrijke stap gezet op weg naar privacy-bestendig gebruik van big data. Onderzoekers van Microsoft en Princeton hebben namelijk een Cryptonet gebouwd. Daarmee kun je intelligente algoritmes (zogeheten ‘neurale netwerken’) analyses laten uitvoeren op versleutelde data. 

In een
proefopstelling, waarbij de bekende MNIST-dataset werd gebruikt (een collectie van 60.000 afbeeldingen van handgeschreven cijfers), werden indrukwekkende resultaten behaald: de Cryptonets wisten binnen een uur maar liefst 51.000 voorspellingen te doen, met een nauwkeurigheid van 99 procent!

Daarbij moet wel worden opgemerkt dat de onderzoekers geen volledige homomorfe encryptie hebben gebruikt. Ze gebruikten een aangepaste variant, die uitgaat van een vooraf bekende hoeveelheid berekeningen. In de praktijk blijkt dat minstens zulke goede resultaten op te leveren, en dan ook nog veel sneller.

Mogelijkheden
De onderzoekers geven toe dat er nog veel verbeterd kan worden aan hun Cryptonets. Ook is het probleem van de
training set nog niet goed opgelost. Neurale netwerken werken namelijk alleen als ze kunnen oefenen op echte data, en daarvoor zijn onversleutelde gegevens nodig. 

Maar in principe bieden de Cryptonets ongekende mogelijkheden voor Machine Learning as a Service (MLAS). Daarbij huren bedrijven slimme algoritmes in de cloud om hun versleutelde data op een veilige en privacy-bestendige manier te laten analyseren.

Denk aan advertentiebedrijven die gebruik willen maken van gevoelige contextuele gegevens van consumenten, of aan investeringsbedrijven die willen weten welke bedrijven rendabel zijn, en daarvoor bedrijfsgevoelige gegevens en rekenmodellen gebruiken.