Steekproef en forensisch bestandsonderzoek

Steekproef en forensisch bestandsonderzoek DNa Digitaal rechercheurs passen verschillende digitaalforensische technieken toe. Zo bestaat er een zoge- het lezen van een nieuwsbericht over een kinderpornozaak [NU. NL10] rezen bij ons de volgende naamde hash-set met unieke waarden van reeds vragen: Hebben de rechercheurs precies bekend kinderpornomateriaal en is er software 200.000 kinderpornografische beschikbaar om huidskleur op afbeeldingen te afbeeldingen aangetroffen op de computers van de verdachte? signaleren. Na het toepassen van dergelijke technieken dient een gecertificeerde zedenrechercheur geduurd voordat kon worden vast- Hoe lang heeft het onderzoek gesteld wat de omvang van de hoeveelheid kinderporno op die com- iedere geselecteerde afbeelding te beoordelen of deze ook aan de criteria van kinderporno puters was? Heeft de exacte omvang of een voldoet. schatting van een minimum aan kinderpornografisch materiaal invloed op de straf van de verdachte? Aangezien de opslagcapaciteit van gegevensdragers nog steeds in rap HEIN KLOOSTERMAN EN ROBERT-JAN MORA tempo toeneemt en daarmee ook de hoeveelheid bestanden per gegevensdrager, dient er een slimme methode te worden toegepast, en eventueel bedacht, om deze grote hoeveelheden aan te kunnen. In dit artikel willen wij een aantal mogelijkheden voor het toepassen van steekproeven bij forensische onderzoeken onder de aandacht brengen. Door steekproeven te nemen op de verzameling bestanden die niet met technieken voor dataanalyse als schoon konden worden aangewezen, kan de beperkt beschikbare hoeveelheid tijd in een onderzoek beter worden benut. Wij zien de toepassing van steekproeven op basis van statistische methoden als één van de mogelijkheden om slimmer met de beschikbare tijd om te gaan. De beschikbare tijd die digitaal onderzoekers hebben om kinderpornozaken te onderzoeken is vooral schaars doordat zij te maken hebben met de volgende problemen: De hoeveelheid te onderzoeken data per kinderpornozaak neemt ieder jaar toe evenals het aantal zaken waarin sprake is van kinderporno [PARO10-1]. Forensische onderzoekssoftware is instabiel, dat wil zeggen selecteert niet goed genoeg bij het onderzoeken van grote hoeveelheden data. Politie en Openbaar Ministerie hebben een enorme achterstand in het behandelen en verwerken van kinderpornozaken [DEFE10]. De huidige werkwijze bij het behandelen van kinderpornozaken levert capaciteitsproblemen op [PARO10-2]. Er ontstaat steeds meer (emotionele) druk op digitaal forensisch onderzoekers en gecertificeerde zedenrechercheurs om sneller betrouwbare resultaten te leveren. de IT-Auditor nummer 2 2012 33

Om de berg aan kinderpornozaken die bij de politie en het Openbaar Ministerie ligt te laten slinken, is het nodig om óf (nog) meer mensen in te zetten óf meer methoden en technieken te gaan toepassen 1 die het te verrichten werk kunnen versnellen. Het doel van dit artikel is om uit te leggen: dat door het toepassen van wiskundige steekproeven bij een kinderpornozaak veel sneller en meer beheersbaar dan met de huidige werkwijze inzichtelijk wordt welke gegevensdragers wel en welke gegevensdragers waarschijnlijk geen kinderporno bevatten; dat door het toepassen van wiskundige steekproeven de hoeveelheid werk per casus kan worden gereduceerd, waardoor zaken minder personele capaciteit kosten; hoe in grote lijnen de technieken van een wiskundige steekproef werken. Volgens de auteurs is het gebruik van het toepassen van wiskundige steekproeven bij digitaal forensisch onderzoek nog steeds vrij beperkt. [GARF10], [MORA10] Volgens ons heeft dat te maken met een zekere mate van koudwatervrees omdat immers het toepassen van steekproeven, althans statistiek, bij andere forensische onderzoeken binnen het strafrecht klaarblijkelijk geaccepteerd is. Zo worden er bijvoorbeeld schattingen gemaakt door middel van monstername hoeveel van een bepaalde illegale drug er aanwezig is en van welke kwaliteit. Als er bijvoorbeeld een grote hoeveelheid tabletten, zeg 200.000 stuks, in beslag wordt genomen, dan kan met behulp van het nemen van monsters, ofwel steekproeven, worden vastgesteld of die tabletten amfetamines bevatten en welk gehalte zij daaraan bevatten. Niet ieder afzonderlijk tablet hoeft daarbij te worden onderzocht. De monstername, ofwel de steekproef heeft een zodanige omvang dat de strafrechter voldoende bewijs heeft om aan te nemen dat de hele partij van dezelfde aard is (soort stof: amfetamine, en gehalte aan amfetamines). In deze publicatie beschrijven we een onderzoeksmethode die ons inziens geschikt is om toe te passen bij kinderpornozaken. De methode maakt gebruik van wiskundige steekproeven. In het volgende hoofdstuk leggen wij de methode uit. Daarna werken wij een fictief voorbeeld van een onderzoek uit. Het voorbeeld is mede gebaseerd op wat er in de pers over de zaak Robert M. is gepubliceerd. Tenslotte volgt onze conclusie. WAT EN HOE VAN STEEKPROEVEN In enkele subparagrafen gebruiken wij wiskundige notatie. Wij willen hiermee bereiken dat andere geïnteresseerden dezelfde methoden kunnen gaan gebruiken en hopelijk de methoden en technieken die wij voorstellen zullen verbeteren. Dat betekent dat die paragrafen niet voor iedereen even toegankelijk zijn. Wij zullen de desbetreffende paragrafen als moeilijker leesbaar herkenbaar maken. De te behandelen stof in de overige paragrafen is in voldoende mate behandeld om de deze wiskundig getinte subparagrafen te kunnen overslaan. Wanneer steekproeven? Steekproeven worden in de regel toegepast als het onderzoek van een hele populatie óf onmogelijk is 2 óf op economische gronden niet verantwoord wordt gevonden (te duur). Daarnaast kan een integraal onderzoek (emotioneel) te belastend zijn voor de onderzoeker. Ook dan is er op langere termijn sprake van verspilling van middelen (in dit geval: personele). Deze argumenten rechtvaardigen een onderzoeksmethode die voor degenen die een oordeel moeten vellen over de uitkomsten gelijkwaardig is, of nagenoeg gelijkwaardig, aan een onderzoek van de hele populatie. Onder populatie verstaan wij hier de hele verzameling bestanden waarin mogelijk kinderporno voorkomt. Statistiek is in dergelijke gevallen een redmiddel. Het is daarmee zaak te kijken naar zowel degenen die het uiteindelijke oordeel moeten vellen als naar de manier waarop statistici te werk gaan. De besluitvorming belicht Met behulp van statistiek is het mogelijk slechts een deel van een verzameling bestanden te beoordelen en een uitspraak te doen over het geheel. Wel geldt altijd: hoe meer er van zo n verzameling bestanden wordt bekeken hoe preciezer de uitspraak erover kan zijn, gegeven een statistische betrouwbaarheid van het onderzoek. Maar een redmiddel vraagt ook eigenlijk vooral kennis van het beslissingsproces van de gebruiker. En de gebruiker is in dit geval degene die een (eind) oordeel moet vellen: de strafrechter. Dat betekent dus: achterhaald zal moeten worden hoe de rechters tot een beslissing komen; welke statistische betrouwbaarheid het rechterlijk forum [GROO81, pag. 28] 3 hanteert en welke precisie men eist bij welke categorie onderzoek. Hierna gaan wij in op zowel de rol van de statisticus als die van de rechter. De statisticus schat een percentage Statistiek maakt het mogelijk een uitspraak over een gehele populatie te doen, terwijl daar slechts een deel van is onderzocht. In het geval van mogelijke kinderporno in een verzameling bestanden, kan het onderzoek worden ingericht om een uitspraak te doen over de vraag of er sprake is van kinderporno en wat het gehalte kinderporno van die totale voorraad bestanden is. In statistische termen luidt de uitspraak over de populatie als volgt: Van de totale hoeveelheid bestanden, aantal N, zijn er n aselect 4 aangewezen en onderzocht. Er zijn k vervuilde 5 34 de IT-Auditor nummer 2 2012

In welke mate er sprake is van kinderporno Pas als er tijdens het onderzoek kinderporno op de computer(schijf ) wordt aangetroffen zal de vraag rijzen om hoeveel kinderporno het gaat. We gaan in dit artikel niet in op de ernst van de afzonderlijke beelden of video s die kinderporno bevatten. We gaan ook niet in op vraag of de grens tussen wel of geen kinderporno vaag of duidelijk is. Wij nemen hier aan dat die grens eenduidig is te bepalen. In welke mate er sprake is van kinderporno wil dan zeggen: de fractie bestanden die als kinderporno kan worden aangemerkt. Wij gaan ervan uit dat de hoeveelbestanden aangetroffen in de steekproef. Met een zekerheid van (1 - ) is de fractie vervuilde bestanden ten minste (p o) en ten hoogste (p + o) waarbij de o onnauwkeurigheid is die volgt uit het onderzoek. Daarbij is: N = totale hoeveelheid bestanden; n = steekproefomvang; k = aantal vervuilde elementen in de steekproef; p = fractie vervuilde elementen in de steekproef = k_ n ; o = onnauwkeurigheid van de fractie; (1 - ) = statistische betrouwbaarheid. Die wiskundige taal is nodig om op een consistente en navolgbare manier het pad zichtbaar te maken tussen uitgangspunten en gevolgtrekkingen. Verderop zullen wij een voorbeeld uitwerken waarin wij een toetsingssteekproef uitwerken en voor (onbetrouwbaarheid) en o (onnauwkeurigheid) concrete waarden invullen. De hoeveelheid werk In de inleiding hebben wij gesteld dat de hoeveelheid werk per onderzoek een belangrijk knelpunt is. Zodra er sprake is van een rechtszaak zal de officier van justitie aan de rechter duidelijk willen maken dat de onderzoekers in deze zaak hebben geconstateerd dat er sprake is van kinderporno. Of er sprake is van kinderporno kan men al duidelijk maken met slechts één voorbeeld. Daarbij lijkt het ons dat een rechter wil zien of de onderzoekers een voldoende aantal beoordelingen hebben verricht om tot een redelijke conclusie te komen. Representant van dat aantal beoordelingen is de omvang van de steekproef. Hoeveel kinderporno een gegevensdrager bevat, is een ander verhaal. Ons inziens is het daarom verstandig om die twee mogelijke conclusies afzonderlijk te behandelen. In de eerste plaats gaat het dan om het toetsen of een gegevensdrager van een persoon kinderporno bevat. En als die gegevensdrager kinderporno bevat, gaat het in de tweede plaats om de ernst van de kinderporno. Daarbij kan een redelijke schatting van de hoeveelheid kinderporno een rol spelen. 6 Of er sprake is van kinderporno Wij stellen uiteindelijk voor om een toetsingsonderzoek in te richten naar het aanwezig zijn van kinderporno. Als we niet alle bestanden van een gegevensdrager onderzoeken, maar in plaats daarvan een steekproef en er wordt in de steekproef geen kinderporno aangetroffen kan de conclusie slechts zijn dat er hoogstwaarschijnlijk geen sprake is van kinderporno op die gegevensdrager. Hoeveel onderzoek moet men daarvoor doen? Deze vraag kan het best beantwoord worden met een tegenvraag: Hoeveel werk heeft men ervoor over om te concluderen dat een computer schoon is? Een aantal extremen leert het volgende. Het raadplegen van één bestand is evident veel te weinig. Het raadplegen van 20 procent van de bestanden 7 lijkt heel weinig, maar op een beetje intensief gebruikte computer staan al gauw zo n 500.000 bestanden. Dus dan maar 100.000 bestanden bekijken? Of misschien 500.000? 8 Wat toch aanmerkelijk minder is? Kan men dan ook de zekerheid die men heeft becijferen? Als we beginnen bij een statistische betrouwbaarheid van 95 procent 9 en er worden geen vervuilde bestanden gevonden, hoeveel werk moet er dan gedaan worden om tot de conclusie te komen er is hoogstwaarschijnlijk geen sprake van kinderporno op deze computer? Andersom kunnen we nog via een professioneel discussieforum 10 proberen te benaderen bij welke omvang een schone hoeveelheid bestanden in voldoende mate gerust stelt. In het vakgebied auditing kiest men vaak voor een onnauwkeurigheid van 1 procent. Als men met de Poissonverdeling 11 gaat rekenen komt dat neer op een hoeveelheid te beoordelen bestanden van 300. De vraag aan het discussieforum wordt daarmee iets concreter: Is er voldoende werk verricht aan een bepaalde computer(schijf ) als van alle bestanden die erop staan, er 300 aselect zijn getrokken, zijn onderzocht en daarbij geen enkel bestand met kinderporno werd aangetroffen? 12 Stel dat een onderzoeksteam een procedure volgt waarin de hiervoor genoemde parameters (95 procent betrouwbaarheid en 1 procent onnauwkeurigheid) worden toegepast, hoe luidt dan de conclusie in statistische termen en hoe in voor niet-statistici begrijpelijke taal? In statistische termen Als op een computer(schijf ) 1 procent van de bestanden kinderporno bevat en er wordt in de steekproef geen enkel bestand met kinderporno aangetroffen, dan is er een kans van hoogstens 5 procent dat de onderzoeker zo n schone steekproef heeft kunnen aantreffen. In niet-statistische taal De onderzoeker heeft er voldoende werk in gestoken om te ontdekken of er überhaupt wel sprake was van kinderporno. Omdat er in de steekproef geen kinderporno werd aangetroffen, leidde dat werk niet tot de conclusie dat er sprake is van kinderporno op deze computer(schijf ). De conclusie dat er sprake is van geen kinderporno op deze computer(schijf ), is niet met absolute zekerheid te trekken. de IT-Auditor nummer 2 2012 35

heid kinderporno die bij een pleger is aangetroffen (geschat, dan wel vastgesteld) een medebepalend element is voor de beslissing die de rechters moeten nemen over het vervolgen, de strafmaat en een eventuele psychiatrische behandeling van de dader. 13 In besliskundige taal Grof gezegd kan de informatiebehoefte van de rechters als volgt worden beschreven: als de intensiteit 14 van de kinderporno ten hoogste p 1kritisch is, zal geen vervolging worden ingesteld; als de intensiteit van de kinderporno tenminste p 2kritisch is, zal de strafmaat niet boven de minimale straf 15 uitkomen; als de intensiteit van de kinderporno ten hoogste p 3kritisch is, zal de strafmaat boven de minimale straf uitkomen; als de intensiteit van de kinderporno tenminste p 4kritisch is, zal de strafmaat op de maximale straf uitkomen. In niet-besliskundige taal De vraag voor diegene die het onderzoek moet verrichten, is vervolgens hoe die verschillende kritische grenzen moeten worden bepaald. Uit voetnoot 12 bij de vorige paragraaf waarin de samenhang tussen steekproefomvang en foutfractie wordt toegelicht (n*p = 3), volgt dat iedere kritieke grens een (mogelijk verschillende) hoeveelheid werk met zich meebrengt. Uit onder meer [SJER05] hebben wij afgeleid dat rechters uitgaan van de wens van de maatschappij dat die rechters een redelijke zekerheid moeten geven over het oordeel dat zij uitspreken. 16 In de volgende paragraaf zullen wij een voorbeeld uitwerken waarin wij de verschillende grenzen uitwerken en daarmee verschillende hoeveelheden werk de revue laten passeren. Besliskundige benadering In de vorige paragraaf hebben we een aantal mogelijke kritische grenzen aangegeven. Hier werken we de statistische betekenis uit van de kritische grenzen, samengevat in tabel 1. Zoals eerder al aangeduid gaan wij in dit artikel uit van een statistische betrouwbaarheid van (1 - ) = 95 procent en passen wij de Poissonbenadering toe. Wij gaan a priori uit van een zeer geringe foutdichtheid 17 oftewel de mogelijkheid van een schone schijf (p 1kritisch ). Dat leidt tot een zo klein mogelijke steekproefomvang waarbij wordt goedgekeurd. Een zelfde technische benadering kunnen wij kiezen als wij als a priori het omgekeerde veronderstellen, namelijk dat alle bestanden op de schijf als kinderporno zijn aan te merken. Waar in het geval van de mogelijk schone schijven de bestanden die kinderporno bevatten als fouten of hits werden aangemerkt, worden in het geval van de mogelijk geheel met kinderpornobestanden gevulde schijven de schone bestanden als hits aangemerkt. p 1kritisch = bovengrens (geen) vervolging p 2kritisch = ondergrens; straf is minimale strafmaat p 3kritisch = bovengrens; straf groter dan minimale strafmaat p 4kritisch = ondergrens; straf maximale strafmaat Tabel 1: Verschillende kritische grenzen Toelichting p 1 kritisch Wij gaan er gezien de ernst van het bezit van kinderporno van uit dat p 1kritisch een parameter is waarbij in de steekproef geen vervuilde elementen mogen voorkomen. Hiervoor is al aangeduid dat uit de statistische betrouwbaarheid, het toepassen van de Poissonverdeling en p 1kritisch, de steekproefomvang volgt. Andersom geldt ook dat p 1kritisch volgt uit de (minimaal) te verrichten hoeveelheid werk de steekproefomvang dus, het toepassen van de Poissonverdeling en de statistische betrouwbaarheid. Wij hebben deze grens genoemd omdat gegeven de statistische betrouwbaarheid en toepassen van de Poissonverdeling een steekproef waarin geen fouten mogen voorkomen de kleinste omvang heeft. Op deze manier kan dus zo snel mogelijk het koren (de goede gegevensdragers) van het kaf (de dragers met kinderporno) worden gescheiden. Toelichting p 4kritisch Deze parameter geeft aan wanneer de maximale strafmaat zal worden toegepast. Zolang de betrouwbaarheidsondergrens p 4kritisch wordt onderschreden zal nog niet de maximale straf worden opgelegd. Het ligt voor de hand te veronderstellen dat een hoge foutdichtheid een grond is voor een maximale strafmaat, althans voor zover de hoeveelheid kinderporno er toe doet. In dit geval zijn dus de schone bestanden een uitzondering. Mogelijk is de zeldzaamheid van schone bestanden dan net zo groot als de aanwezigheid van vervuilde bestanden op een schone schijf. Toelichting p 2kritisch en p 3kritisch Wij achten het mogelijk dat de rechter bepaalde hoeveelheden kinderporno als minder ernstig aanmerkt. In dit artikel laten wij die criteria buiten beschouwing. Rekenvoorbeeld Stel men hanteert de parameters in tabel 2. Men past de Poissonverdeling toe. Stel dat 95 procent statistische betrouwbaarheid toereikend is. Op basis hiervan en p 1kritisch stelt men de hoeveelheid werk vast. Als p 1kritisch = 1% dan is de steekproefomvang, de hoeveelheid werk, 300 aselect aangewezen bestanden. Als geen fouten worden gevonden dan wordt p 1kritisch niet overschreden. Als één fout of meer wordt gevonden wordt p 1kritisch overschreden. 18 36 de IT-Auditor nummer 2 2012

Uit de opstelling in tabel 3 wordt duidelijk dat men als initiële steekproefomvang n= 60 kan 20 nemen en bij nul hits (alle 60 bestanden zijn schone bestanden) trekt men er alsnog 240 bij en controleert die. Als alle 60 bestanden vervuild zijn kan men de conclusie trekken dat de verwachting is dat alle bestanden kinderporno bevatten. In het geval dat er sprake is van een partieel schone schijf, kan men beslissen om door te gaan tot alle 300 exemplaren zijn bekeken. Met behulp van statistiek kan men zowel de bovengrenzen als de ondergrenzen berekenen. Bij fout- of goed-dichtheden tot 10 procent kan men die berekening met behulp van de Poissonverdeling uitvoeren (een zogenoemde Poissonbenadering). Is de fractie boven de 10 procent dan verdient het de voorkeur te gaan rekenen met de, complexere, binomiale verdeling. 21 Waarom dergelijke parameters In de voorgaande paragrafen is geprobeerd een paar beslissingen op een rijtje te zetten die rechters zoal zouden kunnen nemen. Uiteindelijk willen wij enkele handvatten geven die in voldoende mate overeenstemmen met het gedrag van strafrechters zoals dat bekend is uit literatuur, o.a. [SJER05]. Wij hebben daarop een voorschot genomen door ervan uit te gaan dat rechters evenals de leiding van de onderzoekers willen dat er niet te veel tijd in het zoeken naar kinderporno wordt gestoken als een gegevensdrager schoon zou kunnen zijn, als tegenhanger van het ten onrechte goedkeuren van een als vuil aan te merken populatie. Wij zijn er verder van uitgegaan dat de rechter er voldoende zeker van wil zijn dat zijn oordeel in verhouding staat tot de ernst van het vergrijp: de fractie vuile bestanden moet uitkomen boven (mogelijk verschillende) minimale grenzen. 22 Afsluitend over het kwantificeren Wij hebben een besliskundige uiteenzetting gegeven om als basis te dienen voor de hoeveelheid werk die een p 1kritisch = 1% bovengrens p 4kritisch = 95% bovengrens Tabel 2: Kritische foutpercentages zoals gebruikt in het rekenvoorbeeld onderzoeker zal moeten uitvoeren om een toereikende schatting te geven van de hoeveelheid besmet materiaal die op een gegevensdrager is aangetroffen. Het feitelijk onderzoek om vast te stellen of en in hoeverre er sprake is van een bestand met als kinderporno te kwalificeren beeldmateriaal is mentaal zeer belastend. Daarom zijn wij bij onze voorlopige kwantitatieve duidingen uitgegaan van een zo klein mogelijke omvang van een steekproef. Die heeft voldoende onderscheidend vermogen om verdachten van kinderporno op te sporen, maar leidt niet tot eindeloos onderzoek bij gegevensdragers die schoon zijn. EEN VOORBEELD Wij hebben ons voorbeeld gebaseerd op wat er in de pers is gepubliceerd over de casus Robert M. in Amsterdam. Bij hem is een groot aantal dataverzamelingen aangetroffen en die dataverzamelingen bevatten een grote hoeveelheid kinderporno. Zowel foto s als films. Uit de weergave van deze zaak in de pers valt niet af te leiden hoe justitie en politie de onderzoeken hebben verricht. Uit de weergave werd ons duidelijk dat de gegevensdragers en mogelijk zelfs individuele bestanden met wachtwoorden waren beveiligd. Doordat Robert M. de wachtwoorden zelf heeft verstrekt was het ontsluiten van de gegevens daarna geen probleem meer. Daarnaast heeft Robert M. een groot aantal gevallen zelf bekend. Uit de publicaties in de pers is verder gebleken dat veel materiaal is herleid tot de kinderen waarmee ontucht is gepleegd. Hier en daar lazen we zaken Als p 1kritisch = 1% (bovengrens); k = 0 en R = 3 dan n = 3 / 0,01 = 300 Als p 4kritisch = 5% 19 (bovengrens); k = 0 en R = 3 dan n = 3 / 0,05 = 60 Tabel 3: Berekening steekproefomvang. als veel schijven waarop kinderporno zou voorkomen. De vraag die bij ons rees was: Waartoe had het toepassen van steekproeven bij een onderzoek naar de computers en gegevensdragers van Robert M. kunnen leiden, en waartoe niet. De mogelijkheden van steekproeven Als de suggestie die bij ons werd gewekt juist is, dan was er sprake van veel gegevensdragers. Het is volgens ons noodzakelijk om in zo n situatie zo snel mogelijke de goede van de slechte gegevensdragers te scheiden. Daar kan men steekproeven bij gebruiken op de manier zoals beschreven is in de paragraaf Het wat en hoe van steekproeven. De onderzoekers moeten dan de vraag beantwoorden met welke (on) nauwkeurigheid zij bereid zijn het eerste deel van hun onderzoek te verrichten. Stel dat de onderzoekers bereid zijn uit te gaan van een statistische betrouwbaarheid van 95 procent en een onnauwkeurigheid van 5 procent. 23 De steekproef bestaat dan per gegevensdrager uit 60 aselect gekozen bestanden. De onderzoekers moeten vervolgens die bestanden gaan beoordelen. Als er sprake is van één of meer bestanden die kinderporno bevatten, dan zullen die gegevensdragers aan een nader onderzoek moeten worden onderworpen. Men kan zelfs besluiten dat een gegevensdrager nader onderzocht moet worden zodra er één bestand met kinderporno is aangetroffen. Men kapt dan als het ware het vooronderzoek af. de IT-Auditor nummer 2 2012 37

n k R(low) R(up) p(low) p(^) p(up) K(low) K(^) K(up) 60 14 8,46 21,88 0,1410 0,2333 0,3648 49.372 81.666 127.671 300 79 64,97 95,2583 0,2165 0,2633 0,3176 75.798 92.166 111.134 Tabel 4: Cijfermatige uitwerking van het voorbeeld bij 95% enkelzijdig betrouwbaarheidsinterval p(onder) = ondergrens van de fractie besmette bestanden p(^) = verwachte fractie besmette bestanden p(up) = bovengrens van de fractie besmette bestanden K(onder) = ondergrens hoeveelheid besmette bestanden K(^) = verwachte hoeveelheid besmette bestanden K(up) = bovengrens hoeveelheid besmette bestanden. Bevat de steekproef geen enkel bestand met kinderporno dan kan de schijf op de stapel schoon genoeg worden geplaatst. Aan het eind van deze voorselectie eindigen de onderzoekers met een stapel goede schijven en een stapel slechte. Aan de goede hoeft geen nadere aandacht te worden geschonken. De slechte worden aan een nader onderzoek onderworpen om eventueel per schijf te schatten wat het percentage bestanden met kinderporno is. Er is vooraf geen goede richtlijn te geven omtrent de ideale omvang van zo n schattingssteekproef. Wel weten we uit eigen ervaring dat een steekproef van plusminus 300 elementen doorgaans leidt tot een redelijk nauwkeurige schatting. We veronderstellen in dit voorbeeld dat er zestien gegevensdragers zijn onderzocht, waarvan er vijf als schoon werden aangemerkt. Van elk van de elf besmette gegevensdragers is reeds een steekproef van 60 elementen getrokken, dat betekent dat van die elf gegevensdragers er een aanvullende steekproef moet worden getrokken. Als we inschatten dat die steekproefomvang van 300 tot een toereikende schatting zal kunnen leiden, dienen er nog 240 elementen per gegevensdrager bij getrokken te worden. We beschouwen nu een van de besmette gegevensdragers. Stel, die bevat in totaal 350.000 bestanden en de steekproef van 60 bestanden liet na totale inspectie 14 bestanden met kinderporno zien en de aanvullende steekproef van 240 liet 65 bestanden met kinderporno zien. Het totaal aan kinderpornobestanden bedroeg in de steekproef van 300 dan 65 plus 14 is 79 bestanden. Als we deze gegevens uitwerken met behulp van de genoemde Poissonbenadering in de paragraaf Het wat en hoe van steekproeven krijgen we het overzicht in tabel 4. 24 De uitkomsten zijn te interpreteren als: een populatie van N = 350.000 elementen zou op basis van de steekproef van 300 met een betrouwbaarheid van 95 procent tenminste 75.798 elementen met kinderporno bevatten. Ook geldt: een populatie van N = 350.000 elementen zou op basis van de steekproef van 300 met een betrouwbaarheid van 95 procent ten hoogste 111.134 elementen met kinderporno bevatten. De onder- en bovengrens gelden in deze opstelling niet gelijktijdig. Als men dat wel wil weten, is er met de huidige uitgerekende gegevens sprake van een 90 procent-betrouwbaarheidsinterval. Een 95 procent tweezijdig betrouwbaarheidsinterval is gebaseerd op, gegeven de uitkomsten van de steekproef, de cijfers in tabel 5. 25 Dit zijn de uitkomsten waarmee de mensen die het besluit moeten nemen het zouden moeten doen. Zij kunnen besluiten dat hiermee het onderzoek is voltooid: er is voldoende zekerheid om tot veroordeling over te kunnen gaan. Men kan ook besluiten dat er nog meer of andere data nodig is. Wat een steekproef niet kan Uit de krantenberichten over Robert M. komt naar voren dat de onderzoekers geprobeerd hebben de beschikbare beelden zoveel mogelijk te herleiden tot concrete gevallen van misbruik. Het mag duidelijk zijn dat als er gewerkt wordt met een steekproef, het herleiden naar slachtoffertjes slechts beperkt mogelijk is. Het hangt van de besluitvormers af of en in hoeverre het herleiden van beelden naar slachtoffers nodig is. Is het nodig voor de strafmaat? Is het nodig voor de opvang van de slachtoffers? Op deze vragen kunnen wij geen antwoord geven. TOT SLOT Wij hebben in dit artikel aangegeven dat het mogelijk is om bij verdenking van het bezit van kinderporno het onderzoek aan te pakken met behulp van steekproeven. Steekproeven zijn uitermate geschikt om snel schone of vrijwel schone gegevensdragers te onderscheiden van gegevensdragers die veel kinderporno bevatten. Wij hebben aangegeven dat het afhangt van de beschikbare capaciteit of men snel (het voorbeeld met een steekproefomvang van 60) of minder snel (bijvoorbeeld een steekproefomvang van 300) een gegevensdrager als schoon terzijde wil leggen. n k R(low) R(up) p(low) p(^) p(up) K(low) K(^) K(up) 60 14 7,6539 23,4897 0,1275 0,2333 0,3915 44.647 81.666 137.022 300 79 64,5450 98,4576 0,2084 0,2633 0,3282 72.969 92.166 114.867 Tabel 5: Cijfermatige uitwerking van het voorbeeld bij 95% dubbelzijdig betrouwbaarheidsinterval 38 de IT-Auditor nummer 2 2012

Wij hebben met een voorbeeld duidelijk gemaakt dat hoe groter de steekproef is hoe nauwkeuriger de schatting wordt, gegeven de gewenste betrouwbaarheid. Wij hebben tenslotte het dilemma aangegeven dat men vaak de afbeeldingen van kinderporno naar herkomst en slachtoffers wil kunnen herleiden, terwijl dit extra tijd en extra mentale belasting van de rechercheurs kost. Wij kunnen in dit artikel geen antwoord geven op de vraag hoe die maatschappelijk kosten af te wegen zijn tegenover een mogelijk opsporen van daders en de mogelijke verlichting van de gevolgen voor de slachtoffertjes. Evenmin kunnen wij antwoord geven op de vraag of het laten oplopen van de onbehandelde stapel zaken met kinderporno opweegt tegen dit herleiden van de beelden tot daders en slachtoffertjes van een beperkte hoeveelheid zaken. Wij hebben bij de start van ons betoog aangegeven dat digitaal-forensische technieken worden toegepast. Dergelijke technieken, die meer algemeen als data-analyse plegen te worden aangeduid, kunnen zich nog verder ontwikkelen tot meer volkomen beeldherkenning, analoog aan de geluidsherkenning die het programma Shazam verricht voor bekende liederen. Wij zien het toepassen van steekproeven als een methodologische aanvulling. Steekproeven geven naast de mogelijkheid tot kwantificering van de hoeveelheid kinderporno, de onderzoeker voldoende zekerheid dat hij een populatie die hij heeft onderzocht als schoon mag aanmerken. Copyright Hoffmann B.V., Almere Noten 1. Beide kan natuurlijk ook; meestal zijn dergelijke technieken geschikt om een geringere toename van de inzet van menskracht mogelijk te maken. 2. In het aangehaalde onderzoek met betrekking tot pillen bijvoorbeeld: het onderzoek kan alleen als de onderzochte pil wordt opgeofferd. Als alle pillen worden onderzocht verdwijnt dus het totale onderliggende bewijsmateriaal. 3. Het komt erop neer dat de waarheid niet uit de lucht komt vallen, evenmin als de normen voor de (kwantitatieve) toereikendheid van een onderzoek. In casu kan als het forum worden beschouwd de interactie tussen degenen die een juridische rol spelen bij het rechtspreken, en degenen die het bewijs met wetenschappelijk onderzoek en redeneringen ondersteunen. Literatuur als [SJER05] speelt hierbij een rol. Naar wij hopen levert dit artikel ook een bijdrage. 4. Aselect betekent (on)willekeurig, random, niet voorspelbaar. Daardoor krijgt ieder element van de populatie een zelfde trekkingskans. Als er sprake is van een zelfde trekkingkans, hanteert men wel de term constant elementaire trekkingskans. Hein (H.H.W.) Kloosterman RE RA is betrokken bij de accountantsopleiding van de Business Universiteit Nyenrode en de Erasmus Universiteit (ESAA), en bij de IT-auditopleiding van de VU. Verder is hij lid van de redactieraad van Handboek EDPaudit en van de Stuurgroep Statistical Audit en werkt hij als zelfstandig adviseur op het gebied van IT-audit en Statistical Audit. Robert-Jan Mora RE CISSP bij Hoffmann. In 2009 rondde Mora zijn studie IT-auditing aan de Vrije Universiteit van Amsterdam af met een onderzoek over de oordeelsvorming van daderschap en bewijskracht van digitaal bewijs. Sinds medio 2011 is hij als IT-auditor ingeschreven bij de beroepsorganisatie van IT-auditors, NOREA. 5. Vervuilde bestanden wil bij deze casus zeggen: als kinderporno aan te merken of kinderporno bevattende bestanden. Wij streven met de term vervuild een meer neutrale terminologie na. 6. Naast andere elementen zoals aard van de vastgelegde activiteiten. 7. Dit percentage refereert aan de zogenoemde 80 20 regel. Klinkt in het algemeen heel gewichtig maar is louter intuïtief. Lijkt op andere intuïtieve omvangbepalingen; zie b.v. A. Bolck, Hoe groot moet een steekproef zijn? op p. 229-267 in [SJER05]. 8. Zo n wortelformule wordt wel gehanteerd, onder meer in accountancy. Soms heeft die toepassing te maken met het stapelprobleem, soms is er sprake van retoriek: eenvoudig genoeg om even uit te rekenen en mystiek genoeg om ontzag af te dwingen. 9. Deze 95% is een in vrijwel alle sociale wetenschappen gehanteerde statistische betrouwbaarheid. Vooralsnog hanteren wij die ook. Deze omvang wordt ook in de audit-professie gebruikt en wij sluiten ons daarbij aan. 10. Zo n aanpak wordt wel Delphi-methode genoemd, naar het orakel van die plaats in de oudheid. Het is niet zoals toen, dat er een aantal mensen zich laat bedwelmen, dan iets roept en dat men vervolgens die waarden als goede voorspelling accepteert. Door middel van redeneren, het inbrengen van vakkennis hier bijvoorbeeld over de omvang van de werkzaamheden en de beperkte capaciteit en het wegfilteren van extremen convergeert de groep naar een voor die deelnemers acceptabele hoeveelheid. Wij verwijzen ook naar de uiteenzetting van [GROO03] over zijn forumtheorie. 11. De Poissonverdeling is een benadering van de zogenoemde binomiale verdeling. De binomiale verdeling wordt gebruikt om met keuzes tussen goed of fout te rekenen, waarbij de elementen aselect en zonder teruglegging zijn getrokken. De Poissonbenadering rekent met zeer kleine elementaire kansen (naderend naar nul). Die verdeling is ideaal om te rekenen met populaties waarin geen of vrijwel geen fouten worden verwacht. Bijvoorbeeld administratieve populaties plegen tot die categorie te worden gerekend. 12. Om als geïnteresseerde in statistiek de omvang van de steekproef te begrijpen is nog een kleine toelichting nodig: De Poissonverdeling laat bij 95% betrouwbaarheid en bij nul fouten een waarde van R = 3,00 (afgerond naar boven) zien. Dat betekent dat, omdat R = n*p, als p = 0,01 = 1%, n = 300. Bij een andere waarde van p wordt als het aantal fouten dat is toegestaan in de steekproef nihil blijft n kleiner als p groter wordt en andersom. 13. Het is bekend dat de strafmaat vooral en in afnemende hoogte afhangt van de vraag of de dader producent, verspreider of downloader is. de IT-Auditor nummer 2 2012 39

14. Intensiteit is hier gelijk aan de fractie bestanden met kinderporno. 15. Met minimale straf wordt hier geen wettelijk minimum bedoeld, maar een uit de jurisprudentie blijkend minimum. 16. Wij verwachten dat maatschappelijk gezien een rechter eenzelfde rol heeft als een auditor: zij worden geacht hun publiek redelijke zekerheid te geven op basis (van de uitkomsten) van hun werk. 17. Daarmee bedoelen wij een fractie kinderporno die heel klein is, mogelijk zelfs nihil. 18. In de tabel 3 is k het aantal fouten. R is de onderrespectievelijk bovengrens van de Poissonverdeling bij 1-α = 95% en k hits in de steekproef. 19. N.B. p% ondergrens vervuilde bestanden is equivalent met (1-p)% bovengrens schone bestanden. 20. Er is uiteraard niets op tegen om dadelijk voor de grotere steekproefomvang van n = 300 te kiezen. De omvang van 60 is derhalve alleen relevant als de gegevensdrager uitermate besmet is. 21. Rekent men toch met de Poissonbenadering, dan is de berekende ondergrens te laag, en de berekende bovengrens te hoog. Dit hoeft de beslissing niet te beïnvloeden: de verdachte wordt er niet door benadeeld. Daar gaan wij in de paragraaf De statisticus schat een percentage dan ook van uit. 22. Naast de andere criteria die rechters hanteren om de ernst aan te duiden. 23. Uiteraard kan men bij een gekozen statistische betrouwbaarheid een andere onnauwkeurigheid kiezen. Zoals in de paragraaf Het wat en hoe van steekproeven aangeduid is, gegeven de betrouwbaarheid, de hoeveelheid te onderzoeken bestanden (omgekeerd) evenredig met de (on)nauwkeurigheid. Zo wordt bij een onnauwkeurigheid van 1% de steekproefomvang n = 300 en bij 2,5% wordt n = 120. Bij 5% is n = 60 (300/5). 24. N.B. de waarden in deze tabel zijn uitgerekend met behulp van Excel. Er vond bij de berekening geen afronding op vier decimalen plaats. 25. Merk hierbij op dat nu de statistische betrouwbaarheid is toegenomen van tweezijdig 90% naar 95% de nauwkeurigheid van de interpretatie van dezelfde steekproefgegevens is afgenomen. Literatuur [DEFE10] http://www.defenceforchildren.nl/p/1/1998/ mo45-mc61/teveel-kinderpornozaken-blijven-opde-plank Website bezocht op 20 december 2010. [GARF10] Garfinkel S., A.J. Nelson Fast disk analysis with random sampling, www.simson.net 2010. [GROO81] Groot, A.D. de, Methodologie, Uitgeverij Mouton, 1981, Den Haag. [GROO03] Groot, A.D. de, H. Visser, Het forumwaarmerk van wetenschap, KNAW, 2003, Amsterdam. [MORA10] R.J. Mora en B. Kloet, Digital forensic sampling, http://computer-forensics.sans.org/ blog/2010/03/29/digital-forensic-sampling/. Website bezocht 20 december 2010. [NU.NL10] http://www.nu.nl/binnenland/2401728/ vader-verdacht-van-maken-kinderporno.html. Website bezocht 20 december 2010. [PARO10-1] http://www.parool.nl/parool/nl/7/ MISDAAD/article/detail/1072249/2010/12/13/ Meldingen-kinderporno-nemen-toe.html. Website bezocht op 20 december 2010. [PARO10-2] http://www.parool.nl/parool/nl/7/ MISDAAD/article/detail/1077682/2010/12/18/ Zedenzaak-slokt-alle-capaciteit-politie-op.html. Website bezocht op 20 december 2010. [SJER05] Sjerps, M.J. en J.A. Coster van Voorhout, Het onzekere bewijs. Gebruik van Statistiek en Kansrekening in het strafrecht, Kluwer, 2005, Deventer. 40 de IT-Auditor nummer 2 2012