data anonimiseren

Bescherm privacy gevoelige data in niet-productie databases, voldoe aan wet en regelgeving en voorkom datalekken in QA omgevingen

Software is erg belangrijk in de ondersteuning van bedrijfsprocessen. De meeste van deze software en applicaties bevatten vaker en meer privacygevoelige persoonsgegevens of kritische bedrijfsinformatie. Toch worden de databases achter deze applicaties veel gebruikt voor andere doeleinden dan het primaire proces. Databases worden gekopieerd voor ontwikkeling, testen, acceptatie, training, etc. met alle risico’s van dien. Hoe kun je deze risico’s beperken zonder dat je dagelijkse werkzaamheden te beïnvloeden?

1. Definitie van data anonimisering / maskering

“Het maskeren van gegevens is het proces waarbij originele gegevens worden getransformeerd met behulp van maskeringstechnieken om te voldoen aan databeveiliging en privacyregels.”

Deze definitie is vergelijkbaar met die op wikipedia, maar we denken dat dit proces vaak (of juist) zal worden uitgevoerd om aan beleid te voldoen. Dat is de reden waarom we de naleving van wet- en regelgeving (zoals AVG, PCI en HIPAA) hebben toegevoegd.

Er zijn verschillende termen die worden gebruikt voor de definitie van maskering van gegevens, zoals data anonimiseren of data pseudonimiseren. Uit gemak gebruiken wij overal de term data maskeren.

Betekenis

Maskeren van data is het verbergen van persoonlijke of privacygevoelige gegevens. De belangrijkste reden is om ervoor te zorgen dat de gegevens niet naar een bepaalde persoon kunnen verwijzen. Er zijn verschillende methodes om gegevens te anonimiseren. De methode die je kiest, is afhankelijk van het type gegevens dat je wilt anonimiseren.

Anonieme data voor testdoeleinden

Anonimiseren of maskeren van productiedata wordt in niet-productieomgevingen steeds vaker toegepast. Hierdoor worden persoonsgegevens van klanten steeds beschermd en kan de (test)data nog wel gebruikt worden voor het ontwikkelen en verbeteren van applicaties.

2. Waarom data maskeren?

Organisaties gebruiken geanonimiseerde data om te voldoen aan wet- en regelgeving of om data te beveiligen. Het maskeren van gegevens wordt meestal gedaan voor niet-productie doeleinden zoals softwareontwikkeling, testwerkzaamheden of trainingsdoeleinden. Het proces is niet slechts datavelden blanco maken; het omvat een transformatie van persoonlijke data naar karakteristiek onherleidbare gegevens.

De voordelen

Data anonimiseren biedt verschillende voordelen, maar de belangrijkste reden voor organisaties om te starten is om de kwetsbaarheid van gegevensbeveiliging te verminderen. De bescherming van klanten/burgers wordt steeds meer gereguleerd, nieuwe dataregels worden opgesteld of bijgewerkt. Maskering van persoonlijke informatie zorgt er echter voor dat softwareontwikkelings- en testteams toegang hebben tot data met een sterk verminderd risico.

De uitdagingen

Het anonimiseren van data is een project op zich en heeft wat aandacht nodig. De eerste uitdaging is het onherleidbaar maken van gevoelige gegevens, terwijl deze als kenmerkend voor de productie (kwaliteit) houden blijft. Dus onherleidbaar maken en tegelijkertijd bruikbaar houden voor testen. De tweede uitdaging is het creëren van gemaskeerde gegevens die consistent zijn over meerdere systemen en databases. De derde is het omgaan met de triggers, beperkingen, bedrijfsregels en indexen tijdens het uitvoeren van de transformaties.

3. Gegevensbescherming met AVG

Productie databases worden minimaal één keer gekopieerd. In veel gevallen worden er zelfs wel 4 tot 10 kopieën gemaakt voor één database in productie. Een database kopiëren betekent dat je nu niet één maar bijvoorbeeld tien databases moet beveiligen. Daarom hebben de meeste regeringen gegevensprivacywetten uitgevaardigd om de klanten, burgers, tegen wangedrag te beschermen. Met geen bescherming bieden, riskeer je het volgende:

  • Niet voldoen aan data-privacy wetgeving van de Europese Unie
  • Verlies van privacy gevoelige informatie aan ongeautoriseerde gebruikers (ex-medewerkers, externen)
  • Datalek veroorzaakt imagoschade door slechte publiciteit
  • Klanten beëindigen de relatie: verlies in vertrouwen in je organisatie

Privacygevoelige data

Wanneer zijn gegevens persoonlijk of privacygevoelig? Een naam is bijvoorbeeld persoonlijk, maar niet per definitie privacygevoelig. De stad waarin je woont is ook niet privacygevoelig. Het is openbare informatie. Het feit dat je een enorme schuld of een ziekte hebt, maakt je gegevens privacy gevoelig. Echter, wanneer je deze gegevens (naam, woonplaats, schuld, ziekte) lostrekt van elkaar, kan niet meer terugverwezen worden naar een bepaalde persoon. Op die manier heb je geen privacygevoelige data meer.

4. Data maskeer methodes

Wanneer je hebt bepaald welke data dient te worden gemaskeerd of geanonimiseerd, kun je kiezen welke techniek of methode je daarvoor gaat gebruiken. Een veelgebruikte methode is om gegevens zoals voornaam en achternaam in willekeurige volgorde te ‘husselen’, zodat je nieuwe voornaam/achternaam combinaties krijgt. Een andere methode om data te maskeren is om een kolom, die je niet nodig hebt voor je test, leeg te maken (blank). Op die manier worden privacygevoelige gegevens en alles risico’s ervan letterlijk uit het veld geruimd. Het ‘scramblen’ van data is een derde methode die data onherkenbaar maakt: het vervangt tekens door x en cijfers door 1.

Synthetische data generatie

Een andere maskeermethode is het genereren van synthetische data. Deze methode vervangt privacygevoelige informatie door synthetisch gegenereerde gegevens. Het grote voordeel van deze aanpak is dat schema’s en structuren van je oorspronkelijke data behouden blijven. Deterministic Masking vervangt alle data consistent door dezelfde gegenereerde data, ongeacht in welke applicatie, platform of systeem de data zich bevindt.

Tutorial: hoe anonimiseer je testdata?

Wat is data maskering? Waar begin je? Waar moet je rekening mee houden?

5. voorbeelden

Wanneer je begint met implementeren van data maskeer regels, krijg je uiteindelijk representatieve maar onherkenbare testdata. Er zijn veel technieken die kunnen worden gebruikt, zoals hierboven getoond. Bekijk de video om te zien hoe dat er in de praktijk uitziet.

DATPROF Privacy data maskeren

Best practices 

Er zijn verschillende praktische tips die je kunt gebruiken als je data wilt maskeren.

Allereerst: welke data maskeer je? Wanneer anonimiseer je voldoende data om aan de regels te voldoen, maar om de testdata zo representatief mogelijk te houden zodat de testdata nog steeds bruikbaar is voor de testorganisatie?

Wat belangrijk is, is dat je moet weten waar de data is opgeslagen. Als je weet waar en hoe data is opgeslagen, kun je regels voor datamaskering toepassen. Een belangrijke best practice op dataniveau is: iets doen met geboortedata en postcodes. Uit onderzoek blijk dat wanneer je deze data ongemaskeerd laat, je behoorlijk herkenbaar bent als persoon.

Op organisatieniveau kun je bespreken waar datamaskering wordt uitgevoerd. Het is belangrijk dat dit zo veilig mogelijk is. Het is dus een goede gewoonte om dit in een staging omgeving te zien gebeuren.

Tips

We kunnen verschillende tips geven, maar de belangrijkste is: probeer eenvoudig te beginnen. We zien dat veel organisaties een data-maskeerproject opblazen. Wij raden aan om op een eenvoudige manier te beginnen en de regels voor het maskeren van data beetje bij beetje te verbeteren. Uiteindelijk kan het omgezet worden naar een groot project, wat waarschijnlijk ook zal gebeuren. Aan de andere kant; niets doen is nog erger. Dus ook al is je eerste maskeringsrun verre van perfect – het is beter dan niets!

Nog een paar tips: begin met analyseren waar de data is opgeslagen. Bespreek de maskeerregels met je CISO (Chief Information Security Officer) of DPO (Data Protection Officer). Vertel hem of haar dat het simpelweg vervangen van gegevens met ‘xxxxxxxx’ jullie organisatie niet zal helpen. Ontdek waar gemeenschappelijke gronden te vinden zijn. Mocht je externe hulp kunnen gebruiken neem dan gerust contact met ons op.

6. Data maskeren in databases

DATPROF is van toepassing op de softwarelevenscyclus van de databaseleveranciers. We willen ervoor zorgen dat je data kunt anonimiseren in de applicatie van jouw keuze. Daarom ondersteunen we alle belangrijke relationele DB’s, zoals weergegeven in de onderstaande tabel. Als jouw platform niet in de lijst staat, betekent dit niet dat we deze niet ondersteunen – in de meeste gevallen vinden we een manier om het te laten werken (of we ontwikkelen aanvullende ondersteuning).

Oracle11.2 and above
Microsoft SQL Server2008
2012
2014
2016*
2017*
2019*
DB2 LUW10.5 and above
DB2 for i7.2 | 7.3
PostgreSQL9.5 | 9.6 | 10.5 | 11 | 11.2 | 11.6 | 12 | 12.1
MySQL8.0
MariaDB10.4

* Check the Powershell module remarks

7. Software om te anonimiseren

De meeste organisaties en bedrijven hebben minimaal één of meer omgevingen met privacygevoelige data die ze willen (of moeten) maskeren en beschermen: in de cloud zijn, on premise of in een flat file bijvoorbeeld. Om deze data te transformeren op een consistente manier, kunnen specifieke data maskeer tools gebruikt worden.

Er zijn heel veel data anonimiseer tools. Waar wij ons in onderscheiden is gebruiksgemak en maatwerkoplossingen. Elke klant en elk maskeerproject is anders. Daarom heeft iedere organisatie een custom made template nodig, waar wij bij ondersteunen tijdens de initiele PoC fase. Het gebruiksgemak van DATPROF Privacy stelt de gebruiker in staat om eenvoudig aanpassingen te maken of een eigen template te ontwikkelen.

Probeer gratis

datprof privacy

Mask privacy sensitive data and generate synthetic test data with DATPROF Privacy. Try 14 days for free. No credit card required.

FAQ

Wat is data anonimisatie?

Het anonimiseren van data is het proces van het verbergen van persoonlijke en gevoelige informatie. De belangrijkste reden is ervoor te zorgen dat data niet kan terugverwijzen naar een natuurlijke persoon.

Waarom data anonimiseren?

Om persoonlijk identificeerbare informatie te beschermen moet data worden geanonimiseerd voordat je het kunt gebruiken voor doeleinden zoals testen en ontwikkelen.

Hoe moet je data anonimiseren?

Data kan worden gemaskeerd of geanonimiseerd met behulp van maskeerregels (shuffle, blank, scramble) en synthetische data generatie. Een goede data maskeer tool combineert verschillende technieken om een goed maskeer template te bouwen.

Wanneer is data privacy gevoelig?

Een naam is persoonlijk, maar niet privacy-gevoelig. De stad waar je woont is ook niet privacy-gevoelig. Het is publieke informatie. Echter, het feit dat je schulden of een ziekte hebt maakt je data privacy-gevoelig.

Data Masking

DATPROF Privacy

Data Automation

DATPROF Runtime

Data Discovery

DATPROF Analyze