DATPROF stelt synthetische testdata beschikbaar

DATPROF maakt nu ook synthetische testdata

15 APRIL, 2016 – HARALD KIKKERS

Met de producten DATPROF Subset en DATPROF Privacy stellen we onze gebruikers al een aantal jaren in staat om gereduceerde en geanonimiseerde testsets te genereren uit productiedata. Soms is het wenselijk om voor het vullen van bepaalde delen van de testsets synthetische data te gebruiken. Die data is niet afgeleid van productie-data. Het is fictieve, ‘bedachte’ data, in ons geval gecreëerd door een regels-gestuurd, geautomatiseerd proces.

Op deze pagina wordt eerst de generatie van testsets vanuit productie-databases beschreven. Vervolgens wordt de generatie van synthetische testdata beschreven. Daarna volgen beschrijvingen en download-links van een aantal vrij, voor eigen risico, te gebruiken downloadbestanden met synthetische data.

Generatie van geanonimiseerde testsets uit een productie-databases

Met behulp van DATPROF Subset en DATPROF Privacy kunnen op gestructureerde en gecontroleerde wijze representatieve testsets worden gegenereerde vanuit productie-databases (zie onderstaand schema van een mogelijke architectuur voor generatie van geanonimiseerde testsets uit een productie-database).

In bepaalde gevallen kan het gebruik van synthetische data nodig zijn voor het (aan)vullen van testsets of voor het gericht vervangen van gevoelige waarden in testsets die van productie-databases zijn afgeleid.

Generatie van synthetische data

DATPROF Integrate wordt gebruikt voor geautomatiseerde generatie van dergelijk synthetische data. Specifieke metadata-templates bevatten de voor de synthetische data gewenste datastructuren en de regels waaraan de synthetische data inhoudelijk dient te voldoen. De templates zijn aanpasbaar en uitbreidbaar.

De generatie kan worden gevoed met ruwe tekstbestanden, zoals lijsten met willekeurige voornamen, achternamen, straatnamen, plaatsnamen etc. Via parameters kan worden gestuurd op aantallen en verdelingen (zie onderstaand schema voor generatie van synthetische data).

Fictief medisch behandelinstituut

De via deze pagina gepubliceerde downloadbestanden zijn gegenereerd met behulp van DATPROF Integrate. Deze omgeving omvat twee databases van een fictief medisch behandelinstituut. De ene database (PAS – Patient Planning System) betreft de patienten planning en de andere database (HCS – Health Care System) de patient status en behandel resultaat (zie onderstaande screen-shot met daarin weergegeven de data-structuren).

De downloadbestanden

Via de hierna volgende hyperlinks kunnen twee zip-bestanden worden gedownload. Voor gebruik ervan zijn de voorwaarden van toepassing die onderaan deze pagina staan weergegeven.

Het eerste zip-bestand bevat de volgende onderdelen:

  • txt (ca. 10.000 fictieve NAW+ records)
  • ctl (Oracle CTL loader-template)
  • cre (Oracle CREATE TABLE template)

Downloadlink PAS_PAT_PATIENTPAS_PAT_PATIENT.ZIP

Het tweede zip-bestand bevat de volgende onderdelen:

  • txt (ca. 45.000 fictieve records met behandelresultaten)
  • ctl (Oracle CTL loader-template)
  • cre (Oracle CREATE TABLE template)

Downloadlink HCS_CAR_CARE_RECORD: HCS_CAR_CARE_RECORD.ZIP

Voorwaarden voor het gebruik van downloadbestanden met synthetische data

De bestanden met synthetische data die DATPROF op deze pagina via download links beschikbaar stelt mogen vrij worden gebruikt, waarbij het gebruik volledig voor eigen risico van de gebruiker is. De data kan waarden of combinaties van waarden bevatten die in de werkelijkheid ook voor kunnen komen. DATPROF aanvaart geen enkele aansprakelijkheid voor welke schade dan ook die uit het gebruik van de data, op welke wijze dan ook, zou kunnen voortvloeien.

AANMELDEN NIEUWSBRIEF

Ontvang vrijblijvend updates over nieuwe blogs, webinars en tutorials. 

Laat ons weten hoe we je kunnen bereiken. We houden je op de hoogte van de laatste ontwikkelingen met betrekking tot testdata, testdatamangement, subsetten en anonimiseren. Je kunt je op ieder moment weer uitschrijven.

Data Masking

DATPROF Privacy

Data Automation

DATPROF Runtime

Data Discovery

DATPROF Analyze