5 Redenen om te subsetten

Redenen voor data subset projecten

Klanten hebben verschillende redenen waarom ze beginnen met data subsetten. Met deze blog wil ik deze inzichten delen. Dit is slechts een selectie van de meest voorkomende redenen en verschillende organisaties hebben hun eigen redenen.

Voordat we beginnen de redenen te analyseren, moeten we eerst een common sense hebben over wat we test data subsets noemen. Een test data subset is een (referentieel integer) kleinere extractie van een productie dataset naar een niet-productie omgeving. Meer informatie over data subsetten kun je vinden op onze solutions pagina Data Subsetten.

Dus wat zijn de 5 belangrijkste redenen waarom subsetprojecten worden gestart:

1. Niet-productie omgevingen groeien 3 keer zo snel als productie

Veel organisaties besluiten dat de niet-productie omgevingen zoals ontwikkeling, testen en acceptatie niet meer mogen groeien. Er is bijvoorbeeld besloten dat een niet-productie omgeving een beperkte opslagruimte zou moeten hebben. Vanwege deze beslissing moet je je gegevensopslag en infrastructuur efficiënter gebruiken.

De behoefte aan opslag neemt toe, vooral met trends als ‘internet of things’ en big data. Wanneer de productie groeit met 1 terabyte aan gegevens, nemen niet-productie databases toe met 3 terabyte in de huidige staat. Dat komt doordat we een productiedatabase kopiëren naar databases voor acceptatie, testen en ontwikkeling. Om de data in niet-productie te beheren en verminderen, starten organisaties met data subset projecten.

2. De productie van testdata geeft geen resultaat in geldige testgevallen

Vaak genereren of maken organisaties handmatig eigen testcases of testdata. Het gebruik van deze synthetische testdata heeft enkele voor- en nadelen. Het is bijvoorbeeld erg handig voor de ontwikkeling van een nieuwe functie of het toevoegen van nieuwe producten aan een toepassing, maar het heeft ook zo zijn beperkingen:

→ Testdata wordt helemaal opnieuw gegenereerd, dat kost ontzettend veel tijd

Je wilt toch liever dat je hoogopgeleide ontwikkelaars en testers iets nuttigers doen met hun tijd? Het genereren van testdata met dezelfde variatie als de productiedatabase heeft veel creativiteit nodig (telefoonnummers, bankrekeningnummers etc.), waar lang niet altijd aan kan worden voldoen.

De belangrijkste reden voor organisaties om data te subsetten in plaats van synthetische testdata te gebruiken is dat ze de testdata willen kunnen vertrouwen. Een subset bevat echte data en is daarom betrouwbaarder dan synthetisch gegenereerde testdata.

3. Het is te intensief om synthetische testdata voor een datamodel met meer dan 1.000 tabellen te creëren

Het hebben van een groot datamodel, bijvoorbeeld meer dan 1.000 tabellen, is een goede reden om subsetting-technologie te gaan gebruiken. Waarom? Omdat het genereren van bruikbare testdata voor een dergelijk datamodel een grote uitdaging is.

Het genereren of synthetisch aanmaken van testdata is mogelijk wanneer een organisatie minder dan 200 tabellen heeft. Ik zou het niet aanbevelen, maar met deze omvang is het mogelijk. Voor meer dan 500 tabellen kun je ook data genereren, maar het maken van bruikbare testgegevens wordt moeilijker. Wanneer het aantal tabellen groeit, wordt het maken van bruikbare testdata steeds moeilijker. Het kan waarschijnlijk worden gedaan, maar je resultaten zijn niet geloofwaardig. Voor organisaties met grote datamodellen kan subset technologie het verschil maken.

4. Test automatisering

De laatste tijd vragen steeds meer klanten ons om subsets voor testautomatisering te maken. Veel organisaties zijn al begonnen na te denken over het gebruik van testautomatisering. Het implementeren van deze automatisering beweegt naar een meer volwassen testorganisatie.

Veel organisaties kiezen een tool, implementeren het en gebruiken het. Hier zijn we met testautomatisering… zonder de anekdotes over een dwaas en een tool te gebruiken, ontdekken veel organisaties later dat ze niet weten welke data kan worden gebruikt voor testautomatisering.

Ze hebben data nodig om hun tests te automatiseren. Dus om hun tools te kunnen gebruiken, zien we organisaties de volgende oplossingen implementeren:

  • We gaan testdata genereren, met alle voors en tegens
  • We gebruiken een kopie van productie; de grootste nadelen van het gebruik van een kopie is dat dit minder efficiënt is vanwege de grote dataset.

En zo kunnen subsets van testdata een ideaal middel zijn om automatisering te testen, minder testdata – meer resultaat.

 

5. Verkort de niet-actieve tijd

Als laatste reden testen veel organisaties batchprocessen. Normaal gesproken kan een batchproces 24 uur of langer duren. Een van de redenen voor dit lange proces is het gebruik van een kopie van de productie om hun batch te testen. De verbetering van subsets van testdata in dit proces heeft meteen effect. Dus het creëren van subset van productie zal resulteren in verbetering.

Misschien herken je enkele redenen, misschien heb je andere redenen. Ik ben nieuwsgierig en hoop dat dit jou en je organisatie zal helpen! Als je vragen hebt, aarzel dan niet om contact met ons op te nemen.

AANMELDEN NIEUWSBRIEF

Ontvang vrijblijvend updates over nieuwe blogs, webinars en tutorials. 

Laat ons weten hoe we je kunnen bereiken. We houden je op de hoogte van de laatste ontwikkelingen met betrekking tot testdata, testdatamangement, subsetten en anonimiseren. Je kunt je op ieder moment weer uitschrijven.

Data Masking

DATPROF Privacy

Data Automation

DATPROF Runtime

Data Discovery

DATPROF Analyze