Statistische controlemiddelen van de Belastingdienst



Vergelijkbare documenten
HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

Hoofdstuk 5 Een populatie: parametrische toetsen

Populaties beschrijven met kansmodellen

Hoofdstuk 3 Statistiek: het toetsen

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Toegepaste Statistiek, Week 3 1

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, uur.

8. Analyseren van samenhang tussen categorische variabelen

Examen Statistiek I Januari 2010 Feedback

Hoge Raad der Nederlanden

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16

Kansrekening en Statistiek

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Klantonderzoek: statistiek!

Hoofdstuk 18. Verbanden tussen variabelen vaststellen en interpreteren

Hoofdstuk 6 Twee populaties: parametrische toetsen

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten

In het voorgaande artikel werd aangegeven hoe de vaste verdeling van cijfers in getallen, zoals deze voortvloeit

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van uur.

Statistiek ( ) eindtentamen

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages.

Statistische variabelen. formuleblad

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Toetsen van hypothesen

Herkansing eindtoets statistiek voor HBO

DEZE PAGINA NIET vóór 8.30u OMSLAAN!

Lesbrief hypothesetoetsen

Statistiek II. 1. Eenvoudig toetsen. Onderdeel toetsen binnen de cursus: Toetsen en schatten ivm één statistiek of steekproef

De Hoge Raad der Nederlanden,

werkcollege 6 - D&P10: Hypothesis testing using a single sample

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter.

De eurosteekproef: zegen of vloek? A. Brons

Data analyse Inleiding statistiek

Hoofdstuk 13. De omvang van een steekproef bepalen

Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013

Hoofdstuk 5: Steekproevendistributies

Voorbeeldtentamen Statistiek voor Psychologie

Agenda. Controleaanpak belastingdienst. Denkmodellen Pre planning Volledigheidscontroles. Juistheidscontroles

o Geef bij de beantwoording van de vragen ALTIJD JE BEREKENINGEN. Als je alleen een antwoord geeft worden er GEEN PUNTEN toegekend!

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

Kansrekening en Statistiek

Uitleg significantieniveau en toetsen van hypothesen

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie

Examen VWO. wiskunde A1

Bijlage Bijlage 3. Statistische toetsing: werkwijze, toetsen, formules, toepassing

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625.

Kansrekening en Statistiek

Statistiek = leuk + zinvol

Hoofdstuk 12: Eenweg ANOVA

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

Toegepaste Statistiek, Week 6 1

Kansrekenen. Lesbrief kansexperimenten Havo 4 wiskunde A Maart 2012 Versie 3: Dobbelstenen

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6

o Geef bij de beantwoording van de vragen ALTIJD JE BEREKENINGEN. Als je alleen een antwoord geeft worden er GEEN PUNTEN toegekend!

Kansrekening en Statistiek

Toetsen van Hypothesen. Het vaststellen van de hypothese

Kansrekening en Statistiek

Stochastiek 2. Inleiding in the Mathematische Statistiek. staff.fnwi.uva.nl/j.h.vanzanten

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

VOOR HET SECUNDAIR ONDERWIJS

Rekenen aan wortels Werkblad =

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur.

Wiskunde B - Tentamen 2

tla Technische Universiteit Eindhoven

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

Samenvatting Statistiek

6.1 Beschouw de populatie die beschreven wordt door onderstaande kansverdeling.

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte

Junior College Utrecht

Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u

Rechtbank Den Haag AWB - 16 _ Belastingrecht

Examen Kansrekening en Wiskundige Statistiek: oplossingen

Masterthesis Fiscale economie. Universiteit van Amsterdam. Merel Molenaar februari 2017 Dr. E. Poelmann

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

Het gebruik van Excel 2007 voor statistische analyses. Een beknopte handleiding.

werkcollege 7 - D&P10: Hypothesis testing using a single sample

introductie toetsen power pauze hypothesen schatten ten slotte introductie toetsen power pauze hypothesen schatten ten slotte

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

Feedback proefexamen Statistiek I

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018

9. Lineaire Regressie en Correlatie


In de Theorie worden de begrippen toevalsvariabele, kansverdeling en verwachtingswaarde toegelicht.

Examen VWO wiskunde C. tijdvak 2 woensdag 17 juni uur. Bij dit examen hoort een uitwerkbijlage.

Tentamen Mathematische Statistiek (2WS05), dinsdag 3 november 2009, van uur.

Hoofdstuk 10: Regressie

Checklist Wiskunde A HAVO HML

1 Basisbegrippen, W / O voor waar/onwaar

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

Officiële uitgave van het Koninkrijk der Nederlanden sinds 1814.

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren:

DEEL 3 INDUCTIEVE STATISTIEK INLEIDING TOT DE INDUCTIEVE STATISTIEK 11.2 DE GROOTSTE AANNEMELIJKHEID - METHODE

Transcriptie:

Statistische controlemiddelen van de Belastingdienst Een onderzoek naar de betekenis van de chi- kwadraattoets en de guldensteekproefmethode voor het belastingrecht Masterthesis Fiscaal Recht Universiteit van Tilburg Faculteit Rechtswetenschappen Naam Charlotte Bastings Studierichting Administratienummer Datum Examencommissie Fiscaal Recht 253328 11 april 2012 Prof. mr. R.H. Happé mr. dr. M.R.T. Pauwels

Inhoudsopgave Lijst van juridische afkortingen Lijst van statistische en wiskundige termen Hoofdstuk 1 Inleiding 7 1.1 Inleiding 7 1.2 Motivering van de keuze van het onderwerp 7 1.3 Onderzoeksvraag 8 1.4 Verantwoording van de opzet 9 Hoofdstuk 2 De chi- kwadraattoets 11 2.1 Inleiding 11 2.2 Inleidend voorbeeld 11 2.3 Wet van Benford 13 2.4 Stappen van de chi- kwadraattoets 15 2.5 Voorwaarden voor juiste uitvoering van de chi- kwadraattoets 18 2.6 Resultaten van de toets 19 2.7 Andere frequentieverdeling 21 2.8 Conclusie 23 Hoofdstuk 3 De guldensteekproefmethode 25 3.1 Inleiding 25 3.2 Inleidend voorbeeld 25 3.3 Werking van de methode 26 3.3.1 Betrouwbaarheidsinterval 31 3.4 Voorwaarden voor juiste uitvoering van de guldensteekproefmethode 35 3.5 Resultaten en mogelijke problemen van de guldensteekproefmethode 36 3.6 Conclusie 41 Hoofdstuk 4 Procesrechtelijke leerstukken 43 4.1 Inleiding 43 4.2 Verwerping van een boekhouding 43 4.3 Bewijslast 45 4.4 Omkering en verzwaring van de bewijslast 46 4.5 Conclusie 47 Hoofdstuk 5 Jurisprudentie 48 5.1 Inleiding 48 5.2 Chi- kwadraattoets 48 5.3 Guldensteekproefmethode 53 5.3.1 Bijlage bij conclusie A- G Niessen 54 5.3.2 Belasting van personenauto s en motorrijwielen 56 5.3.3 Loonbelasting 57 5.3.4 Omzetbelasting 58 5.4 Literatuur 59 5.5 Conclusie 62 Hoofdstuk 6 Opleggen van aanslag met behulp van statistiek 64 6.1 Inleiding 64 4 5 2

6.2 Mogelijkheden 64 6.3 Bewijslastverdeling 65 6.3.1 Bewijslast rust op de belastingplichtige 66 6.3.2 Bewijslast rust op de inspecteur 67 6.4 Extrapolatie 69 6.4.1 Bewijslast rust op de belastingplichtige 70 6.4.2 Bewijslast rust op de inspecteur 70 6.5 Uitspraken Hoge Raad 71 6.5.1 Belasting van personenauto s en motorrijwielen 72 6.5.2 Loonbelasting 73 6.5.3 Omzetbelasting 74 6.6 Boeteoplegging 75 6.7 Tegenbewijsmogelijkheden voor de belastingplichtige 76 6.8 Conclusie 78 Hoofdstuk 7 Conclusie 80 7.1 Conclusies 80 7.1.1 Inleiding 80 7.1.2 Chi- kwadraattoets 80 7.1.3 Guldensteekproefmethode 81 7.2 Beantwoording onderzoeksvraag 83 7.3 Aanbevelingen voor de inrichting van het controlerapport 84 Literatuurlijst Jurisprudentieregister 86 88 3

Lijst van juridische afkortingen A- G Awb AWR BNB EVRM HR NTFR TFB V- N Wet BPM Wet LB Wet OB Wet RO WFR Advocaat- Generaal Algemene wet bestuursrecht Algemene wet inzake rijksbelastingen Beslissingen Nederlandse Belastingzaken Europees Verdrag tot bescherming van de rechten van de mens en de fundamentele vrijheden Hoge Raad der Nederlanden Nederlands Tijdschrift voor Fiscaal Recht Tijdschrift voor Formeel Belastingrecht Vakstudie Nieuws Wet op belasting van personenauto s en motorrijwielen Wet op de loonbelasting 1964 Wet op de omzetbelasting 1968 Wet op de rechterlijke organisatie Weekblad voor Fiscaal Recht 4

Lijst van statistische en wiskundige termen 2J- posten Aselect trekken Bekende fout Besmettingspercentage Betrouwbaarheidsinterval Celselectie Chi- kwadraattoets Controle- tolerantie Extrapolatie Fout- bovengrens Fout- bovengrensfactor Fout- ondergrens Fout- ondergrensfactor Foutpercentage (in chi- kwadraattoets) Posten die groter dan of gelijk zijn aan tweemaal het gemiddelde steekproefinterval Ieder element in de populatie heeft een gelijke kans getrokken te worden De fout die in de steekproef is aangetroffen en daarom door de inspecteur is aangetoond Zie partiële fout- percentage Een intervalschatting voor een parameter, met een bepaald percentage betrouwbaarheid kan gesteld worden dat de parameter in dit interval ligt De populatie wordt in intervallen van gelijke grootte verdeeld en uit ieder interval wordt één element getrokken Statistische toets om te testen of een verzameling getallen voldoet aan een verwachte frequentieverdeling Het totaalbedrag aan fouten dat maximaal nog in de populatie aanwezig is als alle getrokken geldeenheden worden goedgekeurd Het uitbreiden van een reeks getallen met punten die buiten die reeks liggen De maximale fout Factor voor de bovengrens van de totale fout, afhankelijk van vooraf vastgestelde vereiste betrouwbaarheid en verwachte aantal fouten De minimale fout Factor voor de ondergrens van de totale fout, afhankelijk van vooraf vastgestelde vereiste betrouwbaarheid en verwachte aantal fouten De kans dat de H 0 hypothese ten onrechte wordt verworpen Foutpercentage guldensteekproef) Fout- projectie Frequentiequotiënt Frequentieverdeling Geldsteekproef (in Het gedeelte van de onderzochte post dat als onjuist is aangemerkt De beste schatting van de fout in de populatie Het aantal keer dat een gebeurtenis voorkomt als fractie van het totaal aantal keren in het experiment Geeft aan hoe vaak alle mogelijke waarden voorkomen Steekproef waarbij de geldeenheid als selectie- element dient 5

Gemiddelde steekproefinterval Homogeniteit H 0 hypothese Interval Kansverdeling LEL- factor Logaritme Materialiteit Partiële fout Partiële fout- percentage Populatie Postensteekproef P- waarde Rechtlijnige interpolatie Steekproef Toetsingsgrootheid Totale fout UEL- factor Vereiste steekproefomvang Verwachte frequentieverdeling Verwerpingsgebied Vrijheidsgraden De populatie wordt verdeeld in even grote intervallen die gelijk zijn aan dit gemiddelde steekproefinterval Interne consistentie, samenhang tussen de elementen in de populatie De basisveronderstelling van de onderzoeker Een deelverzameling met aaneengesloten elementen van een verzameling waarop een totale ordening is gedefinieerd Geeft voor iedere mogelijke waarde van een variabele aan hoe groot de kans is dat de variabele die mogelijke waarde daadwerkelijk aanneemt Zie fout- ondergrensfactor Wiskundige functie De maximale te accepteren omvang van het foutbedrag De gecontroleerde post is gedeeltelijk onjuist bevonden Het percentage van de gecontroleerde post dat als onjuist is aangemerkt De gehele te onderzoeken verzameling Steekproef waarbij de post als selectie- element dient Het minimale foutpercentage dat nodig is om de H 0 hypothese te verwerpen Lineaire (rechtevenredige) berekening van een factor voor een partiële fout met behulp van de factoren voor de gehele fouten Een selectie uit een totale populatie ten behoeve van een meting van bepaalde eigenschappen van die populatie Een methode om bij elke steekproef een getal te berekenen dat wordt gebruikt om een beslissing over de H 0 hypothese te nemen De fout die in de gehele populatie aanwezig is en die de inspecteur wil schatten met behulp van de guldensteekproefmethode Zie fout- bovengrensfactor Het aantal elementen dat de inspecteur uit de populatie moet trekken en derhalve integraal dient te controleren Geeft aan hoe vaak alle mogelijke waarden naar verwachting voorkomen Geeft aan wanneer de H 0 hypothese wordt verworpen Het aantal waarden in de berekening dat vrij is te variëren 6

Hoofdstuk 1 Inleiding 1.1 Inleiding In de fiscale controlepraktijk neemt het gebruik van geavanceerde statistische methoden bij het vaststellen van aanslagen steeds meer toe. 1 Deze statistische methoden maken het voor de Belastingdienst mogelijk veelomvattende administraties sneller op hun fiscale merites te beoordelen en deze efficiënte uitvoering van werkzaamheden zorgt voor een aanzienlijke kostenbesparing. Toch brengt deze relatief nieuwe werkwijze ook beperkingen met zich mee. Op basis van statistische steekproeven kan worden gecontroleerd of de administratie zeer waarschijnlijk juist of onjuist is. Er blijft echter altijd een kleine kans bestaan dat op grond van de steekproef een onjuiste conclusie wordt getrokken. Daarnaast heeft de fiscus voldoende statistische kennis verworven om de steekproef uit te voeren en daaruit een conclusie te trekken. De belastingplichtige en zijn accountant of belastingadviseur bezitten deze kennis doorgaans niet, althans niet in voldoende mate om de conclusie op juistheid te toetsen en eventueel tegenbewijs te leveren. 2 Ook de rechter zal deze statistische kennis doorgaans niet bezitten en zal daarom voldoende voorlichting nodig hebben om een juist oordeel te vellen in een bepaalde zaak. Een oordeel over de toelaatbaarheid van deze statistische controlemethoden als zodanig liet lang op zich wachten. In deze thesis staat het gebruik van statistische controlemethoden door de Belastingdienst en hoe met daaruit volgende conclusies, zowel statistisch gezien als juridisch, om moet worden gegaan, centraal. 1.2 Motivering van de keuze van het onderwerp Aanvankelijk gebruikte de Belastingdienst met name een controlemiddel dat bekend is geworden als de chi- kwadraattoets. 3 De Hoge Raad heeft dit controlemiddel aanvaard, maar heeft bepaald dat de uitkomsten van een chi- kwadraattoets slechts onder omstandigheden ondersteunend kunnen werken bij de beoordeling van de betrouwbaarheid van de boekhouding. 4 De chi- kwadraattoets op zichzelf is dus onvoldoende om een boekhouding te verwerpen. Hieruit bleek echter ook dat de Hoge Raad het gebruik van statistische methoden door de inspecteur niet afwees. Daarom heeft de Belastingdienst getracht ook andere efficiënte controlemiddelen te ontwikkelen om boekhoudingen op hun fiscale merites te controleren. Een voorbeeld hiervan is de guldensteekproefmethode. Op 14 maart 2008 zijn door de Hoge Raad drie arresten gewezen waarin deze guldensteekproefmethode centraal stond. Deze uitspraken hebben betrekking op de belasting van 1 Aldus C.P.M. van Houte, Contra- expertise in het belastingrecht, WFR 2004/845. 2 C.P.M. van Houte pleit daarom voor een recht op contra- expertise voor de belastingplichtige in C.P.M. van Houte, 2004. 3 A.J.A. Hassing, De statistische steekproef, uitdaging voor de EDP- auditor (deel 2), de EDP- auditor 2008/4, p. 17. 4 Zie hiervoor r.o. 3.3.2 en 4.2 in HR 22 september 2006, BNB 2007/45. 7

personenauto s en motorrijwielen (BPM), de loonbelasting (LB) en de omzetbelasting (OB). 5 De Hoge Raad oordeelt dat het van een aantal factoren afhankelijk is of de uitkomsten van een guldensteekproef kunnen dienen ter onderbouwing van de opgelegde aanslag. Met name de heffingssystematiek en de redelijke verdeling van de bewijslast spelen hierbij een belangrijke rol. Mede vanwege deze factoren die een rol spelen bij de aanvaardbaarheid van de guldensteekproef als bewijsmiddel, is het ook na de arresten van de Hoge Raad niet geheel duidelijk in welke gevallen de Belastingdienst de resultaten uit een guldensteekproef kan gebruiken bij het vaststellen van een belastingaanslag. In deze thesis staat dit probleem centraal. 1.3 Onderzoeksvraag Zoals hierboven reeds is gezegd, hebben de uitspraken van de Hoge Raad niet gezorgd voor duidelijkheid over de toelaatbaarheid van statistische controletechnieken als zodanig. De statistische guldensteekproefmethode op zichzelf roept bij veel fiscalisten al vragen op, 6 maar de arresten zorgen voor nog meer onduidelijkheden. 7 In deze thesis onderzoek ik de werking van deze statistische controlemethoden en ga ik na welke resultaten uit deze methoden volgen. Vervolgens onderzoek ik of en, zo ja, hoe deze resultaten kunnen worden gebruikt bij het vaststellen van een belastingaanslag. Hierbij bekijk ik ook in hoeverre de redelijke verdeling van de bewijslast hierbij een rol speelt en wanneer extrapolatie van de resultaten van het ene jaar naar andere jaren eventueel mogelijk is. De onderzoeksvraag in deze thesis is dan ook: In hoeverre kunnen de resultaten die volgen uit de statistische controletechnieken die de Belastingdienst hanteert ter onderbouwing dienen bij het opleggen van een belastingaanslag? Bij de beantwoording van deze onderzoeksvraag ga ik in op verschillende algemene gevallen, maar ga ik ook na of de Hoge Raad zowel statistisch als juridisch juist heeft geoordeeld in de drie bovenstaande arresten. Om deze onderzoeksvraag te kunnen beantwoorden maak ik gebruik van de volgende subvragen: 1. Wat houden de statistische controletechnieken in? 2. Wanneer zijn de statistische controletechnieken op de juiste wijze uitgevoerd? 3. Welke conclusie kan worden getrokken uit de resultaten van de statistische controletechnieken? 4. Wat is de huidige stand van zaken na bovenstaande jurisprudentie? 5. Wanneer kunnen de resultaten van de statistische controletechnieken dienen ter onderbouwing van een aanslag? 6. In hoeverre speelt de bewijslastverdeling hierbij een rol? 5 HR 14 maart 2008, BNB 2008/144 m.b.t de BPM, HR 14 maart 2008, BNB 2008/157 m.b.t. de LB en HR 14 maart 2008, BNB 2008/196 m.b.t. de OB. 6 Zo geeft J.W. Zwemmer in NTFR Beschouwingen, 2008/24 aan dat hij niets heeft begrepen van de guldensteekproefmethode. 7 O.a. P.H.J. Essers vraagt zich in zijn noot bij HR 14 maart 2008, BNB 2008/157 af hoe de Hoge Raad zou hebben geoordeeld als de bewijslast anders zou zijn verdeeld dan in het onderhavige geval het geval is. 8

7. In welke gevallen is extrapolatie van de resultaten van het ene jaar naar andere jaren statistisch mogelijk en juridisch gerechtvaardigd? 1.4 Verantwoording van de opzet In de thesis staan twee controletechnieken centraal: de chi- kwadraattoets en de guldensteekproefmethode. Binnen de statistiek bestaan vele verschillende chi- kwadraattoetsen. Zo kan met een chi- kwadraattoets bijvoorbeeld de variantie van een variabele getoetst worden of de onafhankelijk van twee verschillende variabelen. De Belastingdienst maakt slechts gebruik van één specifieke chi- kwadraattoets. 8 Deze specifieke toets wordt ook wel de goodness of fit test genoemd. Deze specifieke chi- kwadraattoets test of observaties voldoen aan een vooraf vastgestelde theoretische verdeling. De controlemedewerker hanteert de chi- kwadraattoets om te kunnen beoordelen of een cijferopstelling berust op fictie of op realiteit. 9 De kerngedachte hierachter is namelijk dat ieder mens onbewust een voorkeur heeft voor bepaalde cijfers. Als een belastingplichtige zijn boekhouding fingeert, zullen bepaalde cijfers daarom vaker voorkomen dan anderen. Met de chi- kwadraattoets wordt getoetst of een cijfer vaker voorkomt dan statistisch waarschijnlijk is. De guldensteekproefmethode gebruikt de controlemedewerker om grotere administraties op hun fiscale merites te controleren. Bij deze methode neemt hij een steekproef uit de administratie en toetst de gegevens in deze steekproef op juistheid. Vervolgens trekt hij aan de hand van deze resultaten een conclusie met betrekking tot de juistheid van de gehele administratie waaruit de steekproef is getrokken. In hoofdstuk 2 behandel ik de chi- kwadraattoets. In dit hoofdstuk bespreek ik eerst hoe deze methode in zijn werk gaat en wanneer de methode correct is uitgevoerd. Vervolgens komt aan de orde welke resultaten deze controletechniek oplevert en hoe deze resultaten kunnen worden gebruikt om een aanslag op te leggen. Kortom, in hoofdstuk 2 geef ik antwoord op de eerste drie subvragen met betrekking tot de chi- kwadraattoets. Vervolgens komt in hoofdstuk 3 de guldensteekproefmethode aan de orde. Ook in dit hoofdstuk beantwoord ik de eerste drie subvragen om ten slotte te kunnen concluderen in hoeverre deze methode rechtmatig bewijs kan opleveren voor het opleggen van een aanslag. In hoofdstuk 4 komen enkele procesrechtelijke leerstukken aan de orde. Met behulp van de chi- kwadraattoets wordt gecontroleerd of een administratie juist is of wellicht moet worden verworpen. Hoofdstuk 4 bespreekt onder andere de elementen die de inspecteur dient te bewijzen om een boekhouding te verwerpen. Vervolgens komen de bewijslast en de omkering en verzwaring van de bewijslast aan de orde. In subvraag 5 staat de bewijslastverdeling centraal. Het algemene leerstuk van de bewijslastverdeling bespreek ik in hoofdstuk 4. Welke rol de bewijslastverdeling speelt bij de statistische controlemiddelen komt in een later hoofdstuk aan bod. 8 Zo blijkt uit M. Snippe en R. Kamerling, Belastingcontrole, Deventer: Kluwer 2009, hoofdstuk 19. 9 M. Snippe en R. Kamerling 2009, p. 345 9

Hoofdstuk 5 behandelt de arresten van de Hoge Raad die betrekking hebben op deze twee controletechnieken. In dit hoofdstuk komt aan de orde hoe de Hoge Raad oordeelt over de chi- kwadraattoets en in welke gevallen de Hoge Raad de guldensteekproefmethode toelaatbaar acht. Daarnaast kijk ik naar onduidelijkheden die uit deze arresten volgen en besteed ik aandacht aan de kritiek die in de literatuur op deze uitspraken wordt geuit. In hoofdstuk 5 staat daarmee de vierde subvraag centraal. Daarna beoordeel ik in hoofdstuk 6 in welke gevallen de resultaten uit de controletechnieken kunnen dienen ter onderbouwing van de aanslag. Hierbij ga ik in op de rol die de bewijslastverdeling speelt bij dit probleem en op de eventuele mogelijkheden van extrapolatie. De laatste drie subvragen beantwoord ik dan ook in hoofdstuk 6. Tot slot presenteer ik in hoofdstuk 7 mijn bevindingen en beantwoord ik de onderzoeksvraag. 10

Hoofdstuk 2 De chi- kwadraattoets 2.1 Inleiding De chi- kwadraattoets is zoals gezegd een statistisch controlemiddel dat gebruikt kan worden om te beoordelen of de cijfers in een boekhouding wellicht gemanipuleerd zijn. Deze toets maakt gebruik van statistische verwachtingen met betrekking tot de frequentieverdeling van cijfers in een administratie. Een frequentieverdeling geeft aan hoe vaak de mogelijke waarden voorkomen. De Wet van Benford is de theorie die deze verwachte frequentieverdeling geeft voor boekhoudingen en (onderdelen van) belastingaangiften. Deze Wet geeft dus aan hoe vaak ieder cijfer naar verwachting voor zal komen in een boekhouding of aangifte indien deze niet gemanipuleerd is. In de tweede paragraaf geef ik een eenvoudig voorbeeld van de toepassing van de chi- kwadraattoets. De derde paragraaf behandelt hoe de Wet van Benford is ontdekt en welke frequentieverdeling deze Wet oplevert. De daaropvolgende paragraaf (paragraaf 2.4) bespreekt uit welke stappen de chi- kwadraattoets bestaat en hoe de Wet van Benford bij deze toets wordt gebruikt. Ook komt in deze paragraaf een voorbeeld aan bod waarin de chi- kwadraattoets is toegepast op een boekhouding. Vervolgens bespreek ik de voorwaarden waaraan voldaan moet zijn wil sprake zijn van een juiste uitvoering van de statistische toets (paragraaf 2.5). In paragraaf 2.6 geef ik een beschrijving van de resultaten van de chi- kwadraattoets. Daarbij komt ook aan de orde welke conclusies men uit deze resultaten kan trekken. Paragraaf 2.7 bespreekt hoe de Belastingdienst de chi- kwadraattoets toepast als controlemiddel en of de Belastingdienst hiermee voldoet aan de in paragraaf 2.5 genoemde criteria. Het hoofdstuk sluit af met een conclusie. 2.2 Inleidend voorbeeld De chi- kwadraattoets leidt tot de conclusie of een getallenverzameling voldoet aan een vooraf vastgestelde verwachte frequentieverdeling. In deze paragraaf leg ik dit principe uit aan de hand van een eenvoudig voorbeeld dat los staat van het controlemiddel dat door de Belastingdienst wordt toegepast. Slechts de toepassing van de chi- kwadraattoets wil ik hier illustreren. Een onderzoeker wil een klanttevredenheidsonderzoek houden onder de klanten van een telecomaanbieder in Nederland. Hij stelt hiertoe een enquête op waarbij de klanten kunnen aangeven hoe tevreden zij zijn over de aangeboden diensten. Men kan kiezen uit vijf categorieën: zeer tevreden, tevreden, neutraal, ontevreden en zeer ontevreden. De onderzoeker wil de enquête voorleggen aan 600 klanten. Voordat het onderzoek wordt afgenomen stelt de onderzoeker een verwachte frequentieverdeling op voor iedere vraag in de enquête. Anders gezegd, de onderzoeker geeft aan hoeveel antwoorden hij in iedere categorie verwacht. Hij kan dit bijvoorbeeld doen aan de hand van de onderzoeksresultaten bij andere telecomaanbieders of aan de hand van resultaten van voorgaande jaren. Op deze manier kan een betrouwbare verwachte frequentieverdeling worden gegeven. In onderstaande tabel is een dergelijke verwachting zowel in percentages als in aantallen gegeven (bij een totaal van 600 klanten). 11

Zeer tevreden Tevreden Neutraal Ontevreden Zeer ontevreden Verwachting % 15% 30% 30% 20% 5% Verwachting in aantallen 90 180 180 120 30 Tabel 1: Voorbeeld van de verwachte frequentieverdeling bij een klanttevredenheidsonderzoek. Stel nu dat de onderzoeker aan de telecomaanbieder vraagt de enquête voor te leggen aan 600 klanten en de 600 reacties aan hem te overleggen. De telecomaanbieder zou in dit geval de resultaten van de enquête kunnen veranderen voordat hij ze aan de onderzoeker stuurt. Stel dat de telecomaanbieder dit doet en de volgende resultaten aan de onderzoeker overlegt. Zeer tevreden Tevreden Neutraal Ontevreden Zeer ontevreden Gevonden % 16,7% 41,7% 33,3% 6,7% 1,7% Gevonden aantallen 100 250 200 40 10 Tabel 2: Voorbeeld van de gevonden frequenties bij een klanttevredenheidsonderzoek. Wanneer de onderzoeker tabel 2 vergelijkt met de verwachte frequenties in tabel 1, merkt hij op dat de klanten positiever zijn over de telecomaanbieder dan hij had verwacht. Met behulp van de chi- kwadraattoets kan hij nu toetsen of de gevonden frequenties slechts in kleine mate verschillen van de verwachte frequentieverdeling of dat het verschil erg groot is, waardoor wellicht geconcludeerd moet worden dat de gevonden frequenties gefingeerd zijn. De chi- kwadraattoets levert hier de conclusie op dat significante verschillen bestaan tussen de verwachte frequentieverdeling en de gevonden aantallen. Op basis van enkel de chi- kwadraattoets kan echter niet geconcludeerd worden dat de gevonden frequenties gefingeerd zijn. Het kan namelijk zo zijn dat deze aanbieder meer op tevredenheid scoort dan anderen. Dit zou de verschillen verklaren tussen de verwachte en de gevonden frequentieverdeling. Daarom is voor de conclusie dat de gevonden frequenties gefingeerd zijn nader onderzoek noodzakelijk. De Belastingdienst gebruikt deze chi- kwadraattoets ook als controlemiddel. In de volgende paragrafen leg ik uit hoe deze toets kan worden toegepast op boekhoudingen en belastingaangiften. Voor de toepassing van een chi- kwadraattoets op een boekhouding of aangifte is, net als in het bovenstaande voorbeeld, een verwachte frequentieverdeling vereist. Deze verdeling wordt, voor boekhoudingen en aangiften althans, gegeven door de Wet van Benford. In de volgende paragraaf behandel ik deze Wet. 12

2.3 Wet van Benford In 1881 ontdekte Simon Newcomb, een astronoom en wiskundige, dat de eerste bladzijden van boeken die gebruikt worden voor logaritmische berekeningen, waarop getallen staan beginnend met het cijfer 1, vele malen vaker waren gebruikt dan de laatste bladzijden, waarop getallen staan beginnend met het cijfer 9. Hieruit leidde hij af dat mensen vaker de logaritme op wilden zoeken van getallen beginnend met een laag eerste cijfer (bijvoorbeeld 1, 2 of 3), dan van getallen beginnend met een hoog cijfer (bijvoorbeeld 7, 8 of 9). Hij veronderstelde daarom dat als men een lijst met nummers uit een willekeurige verzameling van gegevens neemt, meer nummers zullen beginnen met een 1 dan met een 8 of een 9. 10 Newcomb stelde een formule vast waarmee de kans dat een willekeurig getal met het cijfer n begint kan worden bepaald. 11 Hij vond echter nooit een bewijs voor dit statistische principe of de door hem voorgestelde formule. De natuurkundige Frank Benford herontdekte in 1938 de observaties van Newcomb. Hij baseerde zich echter niet op boeken met logaritmetafels, maar op meer dan twintigduizend getallen die hij willekeurig uit kranten en een editie van Reader s Digest had gekozen. 12 Ook in deze getallenverzameling bleken getallen vele malen vaker met het cijfer 1 te beginnen dan met het cijfer 9. Sinds de herontdekking van Benford wordt dit principe met de bijbehorende formule de Wet van Benford genoemd. Benford kwam echter ook nooit met een formeel bewijs. Een formeel wiskundig bewijs werd pas in 1996 geleverd door de wiskundige Ted Hill. 13 Hij ontdekte dat de Wet van Benford van toepassing is als aan de cruciale voorwaarde is voldaan dat de getallen willekeurig uit verschillende kansverdelingen getrokken zijn. Dit betekent dat de getallen uit verdelingen moeten komen die verschillende ordes van grootte omvatten en niet slechts één of twee ordes van grootte. Een kansverdeling geeft voor iedere mogelijke waarde van een variabele aan hoe groot de kans is dat de variabele die mogelijke waarde daadwerkelijk aanneemt. Een zeer eenvoudig voorbeeld van een kansverdeling is de kansverdeling voor het gooien van een eerlijke dobbelsteen. Wanneer men kijkt naar het aantal ogen dat wordt gegooid, bestaan zes mogelijkheden. De kansverdeling geeft de kans per mogelijkheid en in dit geval is deze kans voor iedere mogelijkheid gelijk aan 1/6. De lengtes van volwassenen in Nederland voldoen bijvoorbeeld niet aan deze cruciale voorwaarde. Deze lengtes bestaan namelijk niet uit verschillende kansverdelingen, aangezien de lengtes van volwassenen aan zowel een onder- als een bovengrens gebonden zijn. Anders gezegd, wanneer er grenzen bestaan binnen de gekozen getallenverzameling, zoals het geval is bij de lengtes van volwassenen in Nederland (er bestaan geen volwassenen met een lengte van bijvoorbeeld 10 of 300 cm.), is de Wet van Benford niet van toepassing. 14 10 S. Newcomb, Note on the frequency of use of different digits in natural numbers, American Journal of Mathematics 1881/4. 11 De kans dat een willekeurig getal met het cijfer n begint wordt gegeven door de volgende formule: P(N=n)=log 10 (1+1/n). 12 F. Benford, The Law of Anomalous Numbers, Proceedings of the American Philosophical Society 1938/78, p. 551-572. 13 Theodore P. Hill, A statistical derivation of the Significant- Digit Law, Statistical Science 1995/10, p. 354-363. 14 Dit is althans het geval wanneer men de Wet van Benford wil toepassen op de gehele lengte. Wanneer we zouden kijken naar de afzonderlijke cijfers van de lengte (dat wil zeggen het eerste cijfers, het tweede cijfer of het derde cijfer), dan kan de Wet van Benford niet op de eerste twee cijfers worden toegepast. Op het derde cijfer zou de Wet van Benford wellicht wel van toepassing kunnen zijn. 13

De verwachte frequentieverdeling van cijfers op basis van de Wet van Benford moet bepaald worden aan de hand van de formule vastgesteld door Newcomb. 15 Met behulp van deze formule kan niet alleen de frequentieverdeling van eerste cijfers worden berekend, maar ook de verdelingen van de tweede cijfers van getallen, derde cijfers, enz. In onderstaande tabel zijn de verwachte frequentieverdelingen gegeven tot en met het vijfde cijfer van een getal. Het moge duidelijk zijn dat het cijfer 0 niet als eerste cijfer van een getal voor kan komen. Cijfers Cijfer 1 Cijfer 2 Cijfer 3 Cijfer 4 Cijfer 5 0 0,119679 0,101784 0,100176 0,10002 1 0,30103 0,113890 0,101376 0,100137 0,10001 2 0,17609 0,108822 0,100972 0,100098 0,10001 3 0,12494 0,104330 0,100573 0,100059 0,10001 4 0,09691 0,100308 0,100178 0,100019 0,10000 5 0,07918 0,096677 0,099788 0,099980 0,10000 6 0,06695 0,093375 0,099401 0,099941 0,09999 7 0,05799 0,090352 0,099019 0,099902 0,09999 8 0,05115 0,087570 0,098641 0,099863 0,09999 9 0,04576 0,084997 0,098267 0,099824 0,09999 Tabel 3: De verwachte frequentieverdelingen van de eerste vijf cijfers van een getal op basis van de Wet van Benford. Aan het toepassen van de Wet van Benford zijn twee voorwaarden verbonden: (a) de steekproef dient voldoende groot te zijn om de frequentieverdeling tot uiting te laten komen 16 en (b) de getallen mogen niet aan grenzen gebonden zijn. 17 Zoals hierboven al is gebleken voldoet de getallenverzameling van de lengtes van volwassenen in Nederland niet aan deze laatste voorwaarde. De lengtes van volwassenen zijn namelijk wel aan grenzen gebonden. Mark Nigrini heeft aangetoond dat boekhoudingen en (onderdelen van) belastingaangiften aan deze voorwaarden voldoen en dat daarom de Wet van Benford van toepassing is op deze getallenverzamelingen. 18 Hoe de Wet van Benford gebruikt kan worden bij de chi- kwadraattoets en uit welke stappen deze toets bestaat, behandel ik in de volgende paragraaf. 19 15 Zoals eerder gezegd is deze formule gelijk aan P(N=n)=log 10 (1+1/n). 16 Ook de chi- kwadraattoets stelt een voorwaarde aan het minimum aantal waarnemingen. De volgende paragraaf gaat hier nader op in. 17 R. Matthews, The power of one, New Scientist 1999/2194, p. 28. 18 M.J. Nigrini, Digital analysis tests and statistics, Allen, Texas, USA, 2000, M.J. Nigrini, A taxpayer compliance application of Benford s law, The journal of the American Taxation Association 1996/18, p. 72-91 en M.J. Nigrini, I ve got your number, Journal of Accountancy 1999/5, p. 79. 19 Nigrini heeft overigens onlangs een nieuwe methode ontwikkeld om fraude op te sporen waarbij de Wet van Benford wordt gebruikt. Deze test is echter vele malen lastiger dan de chi- wadraattoets. Zie voor deze nieuwe methode M.J. Nigrini & S.J. Miller, Data diagnostics using second- order tests of Benford s Law, Auditing: a journal of practice and theory 2009/28, nr. 2, p. 305-324. 14

2.4 Stappen van de chi- kwadraattoets De Wet van Benford speelt een essentiële rol bij het toepassen van de chi- kwadraattoets op een boekhouding. Wanneer een belastinginspecteur de chi- kwadraattoets wil toepassen op een boekhouding 20 is de vraag aan welke verwachte frequentieverdeling getoetst dient te worden. Zoals uit de vorige paragraaf duidelijk werd, heeft Nigrini aangetoond dat voor administraties een verwachte frequentieverdeling bestaat, namelijk de Wet van Benford. Daarom dient de belastinginspecteur te toetsen of de administratie voldoet aan de Wet van Benford. De chi- kwadraattoets bestaat uit vijf stappen. Stap 1 In de eerste stap van de toets moet een zogenaamde H 0 hypothese worden opgesteld. In deze hypothese is de basisveronderstelling opgenomen. De inspecteur zal uitgaan van de juistheid van de administratie. Indien de chi- kwadraattoets door de inspecteur wordt toegepast om de volledigheid van de administratie te controleren zal de H 0 hypothese daarom telkens hetzelfde luiden: er is geen fraude gepleegd en de boekhouding kan als juist worden geaccepteerd. De inspecteur gaat derhalve uit van de veronderstelling dat de administratie berust op realiteit en dat de verwachte frequentieverdeling voor de administratie gelijk is aan de Wet van Benford. De chi- kwadraattoets wijst uit of deze hypothese met een bepaalde betrouwbaarheid (in de meeste gevallen 95% of 99%) 21 stand zal houden. Stap 2 Na het opstellen van de hypothese, moet de toetsingsgrootheid van de statistische toets worden vastgesteld. Bij de chi- kwadraattoets is de toetsingsgrootheid als volgt gedefinieerd: χ! = (N! e! )!, e! waarbij χ! staat voor chi- kwadraat, N! de gevonden frequentie van het cijfer i is en e! de verwachte frequentie van het cijfer i. De hoofdletter sigma ( ) die voor de breuk staat betekent dat gesommeerd dient te worden. De breuk dient daarom voor ieder cijfer uitgerekend te worden en vervolgens dient de som van al deze breuken genomen te worden. Dit wordt in onderstaand voorbeeld duidelijk. Deze formule lijkt op het eerste gezicht wellicht ingewikkeld. Toch is de waarde van deze toetsingsgrootheid relatief eenvoudig te bepalen, zo zal later blijken uit een voorbeeld. Stap 3 De derde stap in een statistische toets is het vaststellen van het verwerpingsgebied. Het verwerpingsgebied geeft aan wanneer de H 0 hypothese zal worden verworpen en wanneer deze 20 De feitelijke uitvoering van deze toets zal bij de controle- medewerker liggen. 21 In de accountancy en statistiek is 95% gebruikelijk. Ook Kamerling en Kloosterman gebruiken een betrouwbaarheid van 95%. Zie R.N.J. Kamerling en H.H.W. Kloosterman, Steekproeven in fiscalibus, WFR 2004/96. 15

hypothese stand zal houden. Bij de chi- kwadraattoets wordt de H 0 hypothese verworpen als de! waarde van de toetsingsgrootheid groter of gelijk is aan χ!;!!!. Hierbij is 1 α de betrouwbaarheid van de toets (als men bijvoorbeeld een conclusie wil trekken met 95% betrouwbaarheid, dan is α gelijk aan 5%) en n 1 is het aantal vrijheidsgraden. 22 Wanneer de chi- kwadraattoets wordt toegepast op het eerste cijfer, is het aantal mogelijkheden n gelijk aan 9, aangezien het eerste cijfer van een getal nooit gelijk kan zijn aan 0. Wanneer men de chi- kwadraattoets toepast op een later cijfer is het aantal mogelijkheden gelijk aan 10. Het aantal vrijheidsgraden is dan dus gelijk aan 8 of 9 ( n 1 ). Deze waarden zijn af te lezen in tabellen. 23 In onderstaande tabel zijn de chi- kwadraatwaarden voor een aantal waarschijnlijkheden opgenomen. Betrouwbaarheid Cijfer 1 (8 vrijheidsgraden) Cijfer 2 en verder (9 vrijheidsgraden) 90% 13,36 14,68 95% 15,51 16,92 97,5% 17,53 19,02 99% 20,09 21,67 99,5% 21,95 23,59 99,9% 26,12 27,88 Tabel 4: Enkele verwerpingswaarden bij de chi- kwadraattoets. Wanneer de inspecteur bijvoorbeeld het eerste cijfer aan de chi- kwadraattoets wil onderwerpen en hij eist een betrouwbaarheid van 95%, kan hij de administratie alleen verwerpen indien de chi- kwadraat groter of gelijk is aan 15,51. Stap 4 Vervolgens dient in de vierde stap van de toets de waarde van de toetsingsgrootheid uitgerekend te worden. In het volgende voorbeeld leg ik stap 4 uit. Stap 5 Stap 5 concludeert of de H 0 hypothese moet worden verworpen of stand zal houden, met andere woorden, of de administratie dient te worden verworpen. In deze laatste stap vergelijkt men daarom de waarde die in stap vier is berekend met de verwerpingswaarde die in stap 3 is bepaald. Indien de waarde uit stap 4 groter of gelijk is aan de waarde vastgesteld in stap 3, zal de inspecteur de H 0 hypothese, en daarmee de administratie, althans statistisch, verwerpen. Een voorbeeld zal deze laatste stappen verduidelijken. Voorbeeld De belastinginspecteur wil bij een ondernemer de dagelijkse ontvangsten gaan controleren met 22 Het aantal vrijheidsgraden is gelijk aan het aantal waarden in de berekening dat vrij is te variëren. Hierop moet in dit geval een correctie worden aangebracht, namelijk minus 1. Dit is omdat slechts n 1 waarden vrij zijn te variëren. Zie hiervoor G. Nieuwenhuis, Statistical Methods for Business and Economics, Maidenhead: McGraw- Hill Education 2009, p. P. 771. 23 Deze tabellen worden vastgesteld aan de hand van de inverse chi- kwadraatverdeling. 16

behulp van de chi- kwadraattoets. Voordat de inspecteur hiermee start, kan de ondernemer aangeven hoe zijn ontvangsten in de boekhouding terecht komen en tussen welke grenzen deze ontvangsten over het algemeen liggen. Stel nu dat de ondernemer aangeeft dat hij de ontvangsten afrondt op halve euro s en dat de dagelijkse ontvangsten zich bewegen tussen 300 en 700. Het heeft dan geen zin de chi- kwadraattoets toe te passen op de honderdtallen of de tiende decimalen, aangezien vooraf duidelijk is dat deze cijfers niet voldoen aan de criteria van de Wet van Benford. In de kolom van de honderdtallen zijn namelijk alleen de cijfers 3, 4, 5, 6 en 7 te vinden en in de kolom van de tiende decimalen alleen de cijfers 0 en 5. De inspecteur heeft dus de keuze om de kolom met tientallen en de kolom met eenheden aan de chi- kwadraattoets te onderwerpen. Stel dat de inspecteur besluit de kolom met tientallen aan de chi- kwadraattoets te onderwerpen. 24 Hiertoe stelt hij onderstaande tabel op. Eerst vermeldt hij de gevonden frequenties van de tien cijfers en de verwachte frequenties op basis van de Wet van Benford. Stel dat de administratie in dit geval bestaat uit 300 dagontvangsten. Dan is de verwachte frequentieverdeling (hoe vaak ieder cijfer naar verwachting voorkomt) vast te stellen door de frequentie van de Wet van Benford te vermenigvuldigen met 300. Vervolgens moet de waarde van de toetsingsgrootheid bepaald worden. Deze toetsingsgrootheid is, zoals hierboven reeds vermeld, gegeven door de volgende formule: χ! = (N! e! )!. e! In de laatste kolom van onderstaande tabel is de bijdrage van iedere waarneming aan deze toetsingsgrootheid genoteerd. Bij ieder cijfer is dus bovenstaande breuk uitgerekend; eerst wordt het verschil tussen de gevonden frequentie en de verwachte frequentie gekwadrateerd en vervolgens is dit kwadraat gedeeld door de verwachte frequentie. 25 Door de som te nemen van deze laatste kolom, komt men tot de waarde van de toetsingsgrootheid. 24 Dit voorbeeld is erg gesimplificeerd. In dit voorbeeld zijn alle tientallen namelijk het tweede cijfer van een getal. In meer realistische voorbeelden zullen de tientallen de ene keer het tweede cijfer zijn, maar soms bijvoorbeeld ook het derde of vierde cijfer. De uitvoering van de chi- kwadraattoets is in dat geval iets ingewikkelder. De inspecteur moet bepalen op welk cijfer hij de chi- kwadraattoets wil toepassen en dus niet op bijvoorbeeld de honderdtallen, tientallen of eenheden. 25 Voor bijvoorbeeld het getal 0 wordt deze breuk op de volgende manier berekend: (32 35,9037) 2 / 35,9037 = 0,4244. 17

Tweede Cijfer Gevonden frequentie Verwachte frequentie Chi- kwadraat 0 32 35,9037 0,4244 1 37 34,167 0,2349 2 39 32,6466 1,2364 3 25 31,299 1,2677 4 36 30,0924 1,1598 5 37 29,0031 2,2050 6 21 28,0135 1,7555 7 19 27,1056 2,4239 8 36 26,271 3,6030 9 18 25,4991 2,2054 Som 300 300 16,5159 Tabel 5: De chi- kwadraattoets toegepast op 300 dagontvangsten. Wanneer we nu de verkregen waarde van de toetsingsgrootheid (16,5159) vergelijken met de verwerpingsgebieden, zien we dat we de H 0 hypothese met 90% betrouwbaarheid kunnen verwerpen, maar niet met een hogere betrouwbaarheid. De waarde is namelijk groter dan 14,68 (de verwerpingswaarde bij 90% en 9 vrijheidsgraden), maar niet groter dan 16,92 (de verwerpingswaarde bij 95% en 9 vrijheidsgraden). De vraag is of 90% betrouwbaarheid voldoende is om een boekhouding te verwerpen. Op deze vraag kom ik in de laatste paragraaf van dit hoofdstuk en in hoofdstuk 6 terug. In de volgende paragraaf komen eerst de criteria waaraan voldaan moet zijn, wil de chi- kwadraattoets juist zijn uitgevoerd, aan de orde. 2.5 Voorwaarden voor juiste uitvoering van de chi- kwadraattoets Zoals uit de vorige paragraaf is gebleken, kan de chi- kwadraattoets aantonen of de administratie met een grote betrouwbaarheid statistisch gezien als juist kan worden aanvaard. De conclusie die uit de chi- kwadraattoets volgt is echter alleen betrouwbaar indien aan een aantal voorwaarden is voldaan. Een belangrijke wiskundige voorwaarde voor het uitvoeren van een chi- kwadraattoets is dat de verwachte frequentie in iedere cel groter is dan of gelijk is aan 5. 26 In het voorbeeld van paragraaf 2.4 is aan deze voorwaarde voldaan. Tabel 5 toont namelijk aan dat de verwachte frequentie voor ieder getal groter is dan 5. Dit is te zien in de derde kolom van tabel 5. Aangezien de verwachte frequentie wordt berekend door de frequentieverdeling te vermenigvuldigen met het aantal waarnemingen, is het afhankelijk van de gebruikte frequentieverdeling en het aantal waarnemingen of aan deze voorwaarde is voldaan. Indien niet aan de voorwaarde is voldaan, zal de chi- kwadraattoets geen uitsluitsel geven over de juistheid van de getallenverzameling. Het minimum aantal waarnemingen speelt dus een belangrijke rol bij deze voorwaarde. In iedere cel moet de verwachte frequentie groter of gelijk zijn aan 5. Tabel 3 laat zien dat de frequentieverdeling meer naar een gelijkmatige verdeling gaat naarmate een cijfer verder in het getal wordt genomen; 26 G. Nieuwenhuis, 2009, p. 772. 18

voor het vijfde cijfer zijn de frequenties nagenoeg gelijk, terwijl voor het eerste cijfer grote verschillen bestaan in de frequenties. Om ervoor te zorgen dat de verwachte frequentie in iedere cel groter of gelijk is aan 5 is daarom een grotere steekproef nodig indien men het eerste cijfer van een getallenverzameling aan de chi- kwadraattoets onderwerpt. Wanneer de inspecteur het eerste cijfer wil controleren zal hij minimaal 110 waarnemingen nodig hebben, terwijl bij het vijfde cijfer aan de aanname van de toets is voldaan bij een minimale steekproefgrootte van iets meer dan 50. De resultaten van de chi- kwadraattoets worden echter betrouwbaarder indien men een grotere steekproef gebruikt. Daarom dient de inspecteur de toets toe te passen op zoveel mogelijk waarnemingen. Wanneer het mogelijk is het eerste cijfer te controleren, zal zoals gezegd een minimale steekproef van 110 waarnemingen nodig zijn. Het is echter vaak niet mogelijk de chi- kwadraattoets toe te passen op het eerste cijfer, aangezien dit eerste cijfer in veel gevallen aan grenzen gebonden zal zijn. Het heeft dan geen enkel nut de Wet van Benford toe te passen, zoals hieronder zal blijken. Een andere belangrijke voorwaarde voor een juiste uitvoering van de toets is dat de juiste verwachte frequentieverdeling wordt toegepast. De gebruikte frequentieverdeling is bij de chi- kwadraattoets de frequentieverdeling op basis van de Wet van Benford. Nigrini heeft reeds aangetoond dat boekhoudingen voldoen aan de voorwaarden die zijn verbonden aan het toepassen van de Wet van Benford. 27 De frequentieverdelingen getoond in tabel 3 zijn daarom de frequentieverdelingen die moeten worden toegepast op administraties. Welke van deze frequentieverdelingen moet worden toegepast is afhankelijk van welk cijfer van de getallenverzameling aan de chi- kwadraattoets wordt onderworpen. Uit het voorbeeld in de vorige paragraaf is reeds gebleken dat een administratie aantoonbaar kan verschillen van de verwachte frequentieverdeling op basis van de Wet van Benford. Wanneer de dagontvangsten variëren tussen 300 en 700, is het niet juist de chi- kwadraattoets toe te passen op de eerste cijfers van de getallenverzameling. Bij voorbaat zal duidelijk zijn welke conclusie uit de toets zal volgen. Daarom is het van belang te controleren of er grenzen zijn binnen de getallenverzameling en of sprake is van afronding voordat de chi- kwadraattoets wordt toegepast. Op die manier is de inspecteur er zeker van dat het juiste cijfer aan de toets wordt onderworpen en weet de belastingplichtige dat de toets op het juiste cijfer is toegepast. 2.6 Resultaten van de toets Wanneer de waarde van de toetsingsgrootheid berekend is, kan statistisch gezien geconcludeerd worden of de administratie met een bepaalde betrouwbaarheid kan worden aanvaard. De H 0 hypothese was namelijk dat de administratie als volledig kan worden aanvaard. Indien de toetsingsgrootheid nu groter is dan de verwerpingswaarde uit tabel 4, dan dient de H 0 hypothese te worden verworpen. In dat geval kan de administratie statistisch gezien niet als juist worden aanvaard. Daarnaast kan met de waarde van de toetsingsgrootheid een zogeheten p- waarde worden berekend. 27 M.J. Nigrini, 1996, p. 72-91. 19

De p- waarde is de minimale α waarbij de nulhypothese wordt verworpen. Zoals in een vorige paragraaf is aangegeven is 1 α de betrouwbaarheid van de chi- kwadraattoets en α is dus in feite het foutpercentage dat men bereid is te accepteren. Indien men een betrouwbaarheid van 95% hanteert is α gelijk aan 5%. De kans dat de H 0 hypothese ten onrechte wordt verworpen, het foutpercentage, is dan gelijk aan 5%. De p- waarde geeft aan welk foutpercentage minimaal geaccepteerd dient te worden, wil men de H 0 hypothese kunnen verwerpen. De p- waarde kan tot op zekere hoogte worden afgelezen uit tabellen van de chi- kwadraatverdeling. Het is echter eenvoudiger deze waarde te berekenen met een statistisch software pakket. 28 In het voorbeeld van paragraaf 2.4 is de p- waarde gelijk aan 0,0569. Dit betekent dat de administratie in dit voorbeeld met een betrouwbaarheid van tenminste 94% (1 p- waarde) kan worden verworpen. Er dient daarom een foutpercentage van tenminste 5,69% geaccepteerd te worden wil de inspecteur (en uiteindelijk de rechter) de H 0 hypothese verwerpen. Met behulp van de p- waarde kan derhalve een meer nauwkeurige betrouwbaarheid worden verkregen dan door enkel het aflezen van de verwerpingswaarden in tabel 4. De inspecteur kan met deze p- waarde aantonen hoe betrouwbaar het verwerpen van de nul- hypothese is. Hoe lager de p- waarde, des te betrouwbaarder is de conclusie op basis van de chi- kwadraattoets. Het is aan de rechter te oordelen hoe hoog het maximale foutpercentage mag zijn. Het moge duidelijk zijn dat de betrouwbaarheid hoger moet zijn indien een zwaardere bewijslast is opgelegd doordat in de wet het begrip blijken is gebruikt, dan wanneer de wet alleen spreekt van aannemelijk maken. In hoofdstuk 6 kom ik terug op de mogelijkheden om op grond van statistische conclusies een belastingaanslag op te leggen. Volgens Kamerling en Dekker worden de uitkomsten van de chi- kwadraattoets slechts mede gebruikt om zekerheid te krijgen en de administratie te verwerpen in die gevallen dat er factoren zijn die een onbetrouwbare administratie doen vermoeden. 29 Het is dan ook onverstandig de chi- kwadraattoets toe te passen in gevallen waarin deze factoren ontbreken. 30 Aangezien er aantoonbare verschillen kunnen bestaan tussen een administratie en de verwachte frequentie, zoals grenzen aan of logische patronen in de gecontroleerde getallen, is het onverstandig de chi- kwadraattoets bij iedere belastingplichtige toe te passen. De toets zou in deze gevallen tot een onjuiste conclusie leiden. Ook wanneer geen aantoonbare verschillen bestaan en de chi- kwadraattoets tot de statistische conclusie leidt dat de administratie onjuist is, bestaat altijd een kans dat de administratie wel degelijk op de realiteit berust. Factoren die een onbetrouwbare administratie doen vermoeden zullen de conclusie op basis van de chi- kwadraattoets vergroten. Wanneer de chi- kwadraattoets tot de statistische conclusie leidt dat de administratie met een grote betrouwbaarheid kan worden verworpen, is de vraag welke juridische gevolgen deze conclusie heeft. De administratie zal wellicht geen grondslag bieden voor de belastingheffing. Of dit het geval is, komt in de hoofdstukken 5 en 6 aan de orde. 28 In Microsoft Excel kan de p- waarde bijvoorbeeld worden berekend met behulp van de functies CHIDIST en CHITEST. Voor de functie CHIDIST heeft men de waarde van de toetsingsgrootheid en het aantal vrijheidsgraden nodig, voor de functie CHITEST gebruikt men de gevonden en verwachte frequenties. 29 R.N.J. Kamerling en P.G. Dekker, 2002, p. 218. 30 Volgens Kamerling en Dekker kan de chi- kwadraattoets wel een eerste aanzet geven tot de conclusie dat de overgelegde omzet- of kostencijfers geen betrouwbare weergave van het gebeuren dat zij kwantitatief beschrijven. Zie R.N.J. Kamerling en P.G. Dekker, 2002, p. 218. 20

Wanneer het juridische gevolg is dat de administratie geen grondslag kan bieden voor de belastingheffing, kunnen de resultaten van de chi- kwadraattoets echter ook geen grondslag bieden. De toets geeft slechts aan dat er met grote waarschijnlijkheid fouten zitten in de administratie. De toets geeft echter niets aan over de omvang van de fouten. Wanneer de administratie wordt verworpen, zal daarom een nader onderzoek moeten plaatsvinden naar de omvang van de fout. Pas dan kan worden overgegaan tot belastingheffing. In hoofdstuk 6 kom ik terug op hoe de inspecteur de resultaten uit de chi- kwadraattoets dient te gebruiken bij de belastingheffing. 2.7 Andere frequentieverdeling Kamerling en Dekker stellen: Bij grote cijferreeksen zullen, op basis van de wet van de grote aantallen, de aangetroffen cijfers elk 10% van de cijferpopulatie uitmaken. 31 In de voorbeelden die zij in hun boek behandelen gebruiken zij daarom een andere frequentieverdeling dan de verdeling op basis van de Wet van Benford. Zij passen de chi- kwadraattoets ook niet toe op het eerste, tweede, enz. cijfer van een getal, maar op bijvoorbeeld honderdtallen, tientallen, eenheden, enz. Zoals hiervoor al is gezegd, zullen de honderdtallen niet altijd hetzelfde cijfer van een getal zijn. Bij het ene getal zal een honderdtal het tweede cijfer zijn, maar het kan ook het eerste of het derde cijfer zijn. Kamerling en Dekker passen de chi- kwadraattoets daarom anders toe dan op grond van de Wet van Benford gedaan wordt. Kamerling en Dekker baseren zich op de experimentele wet van de grote aantallen. Deze experimentele wet stelt dat het frequentiequotiënt in kansexperimenten van een bepaalde gebeurtenis naar een bepaalde limiet convergeert wanneer het experiment vaker wordt uitgevoerd. Deze wet is het best uit te leggen aan de hand van het voorbeeld van het tossen met een munt. Wanneer men herhaaldelijk tost met een munt, benadert het frequentiequotiënt meer de waarde wanneer men het tossen vaker herhaalt. Buffon, Pearson en Kerrich hebben dit experiment herhaaldelijk uitgevoerd en de resultaten van deze experimenten zijn in onderstaande tabel te vinden: Aantal worpen Aantal malen kop Frequentiequotiënt Buffon 4.040 2.048 0.5069 Kerrich 10.000 5.067 0.5067 Pearson 12.000 6.019 0.5016 Pearson 24.000 12.012 0.5005 Tabel 6: Kansexperimenten waarbij geworpen wordt met een munt. 32 Kamerling en Dekker baseren zich zoals gezegd op deze experimentele wet. Uit bovenstaande tabel blijkt dat het experiment erg vaak moet worden uitgevoerd voordat het frequentiequotiënt gelijk is aan ½. Bij zeer grote cijferreeksen kan het daarom inderdaad zijn dat ieder cijfer 10% van de populatie uitmaakt. Nigrini heeft aangetoond dat dit ook het geval is bij het vijfde cijfer of zelfs een 31 R.N.J. Kamerling en P.G. Dekker, Belastingcontrole, Deventer: Kluwer 2002, p. 220. 32 H.L. Rolf, Finite Mathematics, Hampshire: Cengage Learning 2010, p. 499. 21

later cijfer van een getal. De Wet van Benford gaat namelijk naar een meer gelijkmatige verdeling wanneer het vijfde cijfer van een getal wordt gecontroleerd. Het is echter niet aangetoond dat, indien men kijkt naar bijvoorbeeld de honderdtallen van een getallenverzameling, ieder cijfer even vaak voorkomt. Daarnaast is onduidelijk welke eis Kamerling en Dekker stellen aan de grootte van de cijferpopulatie. Zoals gezegd komt de experimentele wet van de grote aantallen alleen tot uitdrukking indien de populatie erg groot is. Daarom zal deze wet alleen kunnen worden toegepast op erg grote verzamelingen. De gevolgen voor de conclusie die uit de chi- kwadraattoets volgt kunnen significant zijn wanneer de uniforme verdeling, overeenkomstig de experimentele wet van de grote getallen, wordt gebruikt als verwachte frequentieverdeling en niet de Wet van Benford. Het volgende voorbeeld laat dit grote verschil zien. Voorbeeld In dit voorbeeld worden dezelfde gevonden frequenties gebruikt als in het voorbeeld van paragraaf 2.4 33, maar nu wordt een verwachte frequentie van 10% van de 300 dagontvangsten voor ieder cijfer gebruikt. Deze frequentieverdeling levert de volgende resultaten op. Tweede Cijfer Gevonden frequentie Verwachte frequentie Chi- kwadraat 0 32 30 0,1333 1 37 30 1,6333 2 39 30 2,7000 3 25 30 0,8333 4 36 30 1,2000 5 37 30 1,6333 6 21 30 2,7000 7 19 30 4,0333 8 36 30 1,2000 9 18 30 4,8000 Som 300 300 20,8667 Tabel 7: De chi- kwadraattoets toegepast op 300 dagontvangsten met een andere (onjuiste) frequentieverdeling. Deze frequentieverdeling levert een waarde van de toetsingsgrootheid van 20,8667 op. Met deze waarde kan de nulhypothese worden verworpen met een betrouwbaarheid van maar liefst 97,5%, terwijl met de Wet van Benford de hypothese met slechts 90% betrouwbaarheid kon worden verworpen. Dit voorbeeld toont aan dat het gebruik van een andere frequentieverdeling grote gevolgen kan hebben voor de belastingplichtige. 33 In dit voorbeeld waren de tientallen van de getallen altijd het tweede cijfer. Indien de tientallen de ene keer het tweede cijfer en bij andere getallen het derde of het vierde cijfer zijn, zijn de twee methoden niet gemakkelijk te vergelijken. De chi- kwadraattoets op basis van de Wet van Benford wordt namelijk toegepast op het tweede, derde of vierde cijfer en Kamerling en Dekker passen de chi- kwadraattoets toe op de tientallen. Daarom leveren beide methoden dan andere resultaten op. 22