Keep wandering, keep wondering

Deel makkelijk data met datatags

health-data-inline-660x660

Als je niet kunt delen, kun je ook niet vermenigvuldigen, wordt vaak gezegd. Datatags kunnen helpen om gevoelige informatie frictieloos te delen zonder dat de privacy of veiligheid van betrokkenen in gevaar komt.


De echte waarde van informatie openbaart zich vaak pas als je haar deelt. Het is de belofte van Big Data, maar het drijft ook de wetenschap, waar gedeelde data de zuurstof zijn voor nieuwe inzichten over hoe de mens en de wereld functioneert.


Nu is het delen van informatie niet frictieloos. Informatie is vaak geheim of beschermd door copyright, de manier waarop we onze data beschrijven is niet universeel, en - minstens zo belangrijk - er zijn allerlei wettelijke regels die het delen van data belemmeren.


Dat is niet voor niks: zeker voor gevoelige gegevens over bijv. onze gezondheid gelden strenge regels die garanderen dat de veiligheid en de privacy zijn gewaarborgd. Natuurlijk is de situatie niet zwart-wit, niet alle data zijn gevoelig. Toch zie je dat de al maar strengere privacy-wetgeving (zie de nieuwe Europese verordening die over een paar jaar ingaat) bedrijven en organisaties kopschuw maakt als het gaat om delen van gevoelige informatie.


Om die mensen te helpen heeft Latanya Sweeney, directeur van het Data Privacy Lab aan Harvard, samen met een aantal andere wetenschappers een interessante tool bedacht: het Datatags-systeem. Datatags vertaalt de vaak complexe regels en wetgeving rond gevoelige informatie en privacy in een aantal overzichtelijke metadata. Deze tags beschrijven onder welke voorwaarden bestanden mogen worden gedeeld. Sweeney gaat ervan uit dat de bestanden en de bijbehorende metadata worden verzameld in een centrale opslagplaats (een datatags repository), waar iedereen die toegang heeft, gebruik van kan maken.


Denk aan een medische onderzoeker, die zijn bronmateriaal wil delen met andere wetenschappers, of aan een grote multinational, waar persoonlijke en bedrijfsgevoelige informatie moet worden gedeeld met andere bedrijfsonderdelen. Door de data precies te beschrijven, en erbij te zeggen welke regels er gelden voor opslag, uitwisseling en toegang, weet iedereen waar hij aan toe is.


Voila_Capture 2016-03-15_11-35-46_AM

Sweeney c.s. heeft ter illustratie een eenvoudig tagging-systeem ontworpen dat uitgaat van zes niveau’s (zie tabel). Elk niveau heeft een eigen kleur. Hoe hoger het niveau, hoe strenger de regels. Het gaat hier om een voorbeeld, afhankelijk van de situatie kunnen deskundigen een andere indeling bedenken, als het aantal tags maar beperkt blijft. Zo nodig krijgen de experts hulp van intelligente algoritmen, die de vele honderden regels en categorieën clusteren in een overzichtelijk aantal metadata.


Ook het taggen zelf kan door experts gebeuren. Maar handiger is het natuurlijk als ook relatieve leken er mee aan de slag kunnen, zeker als het gaat om grote hoeveelheden data. Hiervoor heeft Sweeney een online tool ontwikkeld, die mensen die data willen delen met de repository helpen om hun bestanden te taggen. Als je de vragenlijst doorloopt, krijg je uiteindelijk een lijst met metadata, die precies aangeeft wat er met de data mag gebeuren. Op deze website kun je zelf aan de gang met het tagging-systeem. Let op: het is een demo die gebaseerd is op de Amerikaanse privacy-wetgeving voor gezondheidsdata.


Het interessante van een datatags-repository is dat er niet alleen data mee kan delen, maar ook kan volgen wie welke data op welk moment heeft gedeeld. Het kan dus ook een tool worden voor auditing en handhaving.


Al met al biedt het werk van Sweeney interessante mogelijkheden voor het frictieloos delen van gevoelige data op een privacy-bestendige en veilige manier. Maar er is nog veel werk te doen. Alleen al het ontwerpen van de tags is een complex en tijdrovend proces. Het best werkt waarschijnlijk een stap-voor-stapproces, waar deskundigen per domein en rechtsgebied aan de slag gaan, al of niet geholpen door het brede publiek (crowdsourcing).