5 redenen om je test database te subsetten

Mensen hebben verschillende redenen om hun testdatabase te subsetten. Sommige van deze redenen hebben te maken met snelheid, andere met bepaalde test data criteria en prestaties. Voordat we ingaan op de meest gehoorde redenen, moeten we het eens zijn over wat we subsets van testg data noemen. In onze opinie is data subsetting het kopiëren van een kleinere, geëxtraheerde, referentiële, volledige dataset van een productie-/livedatabase naar een niet-productdatabase omgeving.

Laten we doorgaan met de top 5 redenen voor subsetten van (test) data.

1. Niet-productie omgevingen groeien 3 keer zo snel als productie

Veel organisaties besluiten dat de niet-productie omgevingen zoals ontwikkeling, testen en acceptatie niet meer mogen groeien. Er is bijvoorbeeld besloten dat een niet-productie omgeving een beperkte opslagruimte zou moeten hebben. Vanwege deze beslissing moet je je gegevensopslag en infrastructuur efficiënter gebruiken.

De behoefte aan opslag neemt toe, vooral met trends als ‘internet of things’ en big data. Wanneer de productie groeit met 1 terabyte aan gegevens, nemen niet-productie databases toe met 3 terabyte in de huidige staat. Dat komt doordat we een productiedatabase kopiëren naar databases voor acceptatie, testen en ontwikkeling. Om de data in niet-productie te beheren en verminderen, starten organisaties met data subset projecten.

2. De productie van testdata geeft geen resultaat in geldige testgevallen

Vaak genereren of maken organisaties handmatig eigen testcases of testdata. Het gebruik van deze synthetische testdata heeft enkele voor- en nadelen. Het is bijvoorbeeld erg handig voor de ontwikkeling van een nieuwe functie of het toevoegen van nieuwe producten aan een toepassing, maar het heeft ook zo zijn beperkingen:

→ Testdata wordt helemaal opnieuw gegenereerd, dat kost ontzettend veel tijd

Je wilt toch liever dat je hoogopgeleide ontwikkelaars en testers iets nuttigers doen met hun tijd? Het genereren van testdata met dezelfde variatie als de productiedatabase heeft veel creativiteit nodig (telefoonnummers, bankrekeningnummers etc.), waar lang niet altijd aan kan worden voldoen.

De belangrijkste reden voor organisaties om data te subsetten in plaats van synthetische testdata te gebruiken is dat ze de testdata willen kunnen vertrouwen. Een subset bevat echte data en is daarom betrouwbaarder dan synthetisch gegenereerde testdata.

3. Het is te intensief om synthetische testdata voor een datamodel met meer dan 1.000 tabellen te creëren

Het hebben van een groot datamodel, bijvoorbeeld meer dan 1.000 tabellen, is een goede reden om subsetting-technologie te gaan gebruiken. Waarom? Omdat het genereren van bruikbare testdata voor een dergelijk datamodel een grote uitdaging is.

Het genereren of synthetisch aanmaken van testdata is mogelijk wanneer een organisatie minder dan 200 tabellen heeft. Ik zou het niet aanbevelen, maar met deze omvang is het mogelijk. Voor meer dan 500 tabellen kun je ook data genereren, maar het maken van bruikbare testgegevens wordt moeilijker. Wanneer het aantal tabellen groeit, wordt het maken van bruikbare testdata steeds moeilijker. Het kan waarschijnlijk worden gedaan, maar je resultaten zijn niet geloofwaardig. Voor organisaties met grote datamodellen kan subset technologie het verschil maken.

4. Test automatisering

De laatste tijd vragen steeds meer klanten ons om subsets voor testautomatisering te maken. Veel organisaties zijn al begonnen na te denken over het gebruik van testautomatisering. Het implementeren van deze automatisering beweegt naar een meer volwassen testorganisatie.

Veel organisaties kiezen een tool, implementeren het en gebruiken het. Hier zijn we met testautomatisering… zonder de anekdotes over een dwaas en een tool te gebruiken, ontdekken veel organisaties later dat ze niet weten welke data kan worden gebruikt voor testautomatisering.

Ze hebben data nodig om hun tests te automatiseren. Dus om hun tools te kunnen gebruiken, zien we organisaties de volgende oplossingen implementeren:

  • We gaan testdata genereren, met alle voors en tegens
  • We gebruiken een kopie van productie; de grootste nadelen van het gebruik van een kopie is dat dit minder efficiënt is vanwege de grote dataset.

En zo kunnen subsets van testdata een ideaal middel zijn om automatisering te testen, minder testdata – meer resultaat.

 

5. Verkort de niet-actieve tijd

Als laatste reden testen veel organisaties batchprocessen. Normaal gesproken kan een batchproces 24 uur of langer duren. Een van de redenen voor dit lange proces is het gebruik van een kopie van de productie om hun batch te testen. De verbetering van subsets van testdata in dit proces heeft meteen effect. Dus het creëren van subset van productie zal resulteren in verbetering.

Misschien herken je enkele redenen, misschien heb je andere redenen. Ik ben nieuwsgierig en hoop dat dit jou en je organisatie zal helpen! Als je vragen hebt, aarzel dan niet om contact met ons op te nemen.

Start jouw
DATPROF Subset free trial

Subset de juiste hoeveelheid test data en verminder de opslagkosten en wachttijden voor nieuwe testomgevingen.

Free Trial - Subset

"*" geeft vereiste velden aan

Stap 1 van 2