De verbetering van geaccumuleerde classificatieregels met data mining



Vergelijkbare documenten
De voorzitter van de Tweede Kamer der Staten-Generaal Postbus EA Den Haag

NIEUWSBRIEF Inleiding DE AANGIFTE PROCES. Stappen bij de schriftelijke aangifte. Aruba 21 februari 2014

ecustoms Snel en eenvoudig online douane uitvoerdocumenten maken (EX-a, EU-a en CO-a)

Importinspecties verpakkingshout voor (natuur)steenproducten herkomst China

ODB: Work in progress Gerealiseerd door: ACN EVO Douane Fenedex FENEX TLN VNC VNO-NCW VNTO

ecustoms ecustoms is een douane formaliteiten portaal. Ontwikkeld en beheerd door EasyProgram B.V.

Vertegenwoordiging bij douaneaangiften

AGS; de praktische aanpak en gevolgen voor u als exporteur.

Import FLEGt producten uit Indonesie

Instructie GIR Handhaven. Afhandelen postvak Met overtredingen. Juli 2017 Versie

Financieel voordeel door douaneplanning

Vakopleiding Declarant online. Douaneaangifte (art 5 lid 12 DWU) Douaneregelingen (art 5 lid 16 DWU) Toelichting Enig Document

Kwaliteitssysteem datamanagement. Meetbaar Beter

Management samenvatting

Cover Page. The handle holds various files of this Leiden University dissertation.

1 Inleiding. 3 Handmatig... invoeren zaken basis 4 Verwerken... zaken 5 Afhandelen... van zaken. 7 Uitgebreidere... zaak opties

Datamining: Graven in gegevens

Kwaliteitssysteem datamanagement. Meetbaar Beter

Hoofdstuk 2: Kritisch reflecteren 2.1. Kritisch reflecteren: definitie Definitie: Kritisch reflecteren verwijst naar een geheel van activiteiten die

Informatie over schriftelijke opgave voor de

CASUS DEEL 2 Supersauna (20 vragen)

Vertegenwoordiging bij douaneaangiften

code INV PR 03 versie 02 ingangsdatum pag. 1 van 5

Beveiligingsaspecten van webapplicatie ontwikkeling met PHP

Invloed van IT uitbesteding op bedrijfsvoering & IT aansluiting

CIOT-bevragingen Proces en rechtmatigheid

Publicatieblad van de Europese Unie L 77/25

Op de vereenvoudigde aangiften te vermelden gegevenselementen van bijlage B van de DWU DA

Aanlevering NHR datasets 2019 Pacemaker- en ICD registratie. Definitief / 30 november 2018 / versie

Vergelijking verwerkingsregister AVG

Informatie over gebruik nationale aanvullende code (nac) in DTV, AGS en Aanvullende aangifte

- Geplaatst in VISUS EBM IN DE OPTOMETRIE: HOE PAS JE HET TOE?

Proeftuinplan: Meten is weten!

MELDDESK. Het systeem voor het registreren, afhandelen en rapporteren. van meldingen in de gemeente!

CASUS HERKOMST EN OORSPRONG Vragen en antwoorden omtrent de Leveranciersverklaring

Business Risk Management? Dan eerst data op orde!

Vrije Verkeer: Directe Vertegenwoordiging (januari 2014) INHOUD

Algemene toelichting Intern controleplan 2012

Advies - Algemeen concept_software

Bijeenkomst 6. Bijeenkomst Douaneaangifte. Douaneaangiften

Directe vertegenwoordiging. en aangiften met bijzondere verplichtingen

AEOF-certificaat factsheet

Onderzoek naar de informatiehuishouding. Twee vragenlijsten vergeleken

Referentiekader Tapsysteem

Handelwijze bij vragen en klachten over een ISO of OHSAS certificaat versie 18 november 2008

Rekenkamercommissie Wijdemeren

Archimate risico extensies modelleren

Tweede Kamer der Staten-Generaal

5. Documenten Wat kan ik met Documenten? 1. Over LEVIY. 5.1 Documenten terugvinden Uitleg over vinden van documenten.

Onderzoek naar gevaarlijke stoffen in elektronica. goedkoop speelgoed en grote huishoudelijke apparaten. Datum 1 september 2011 Status Definitief

1.1 Controles DNB voert verschillende controles uit wanneer een rapportage in het DLR is ingediend. Deze zijn in onderstaand schema aangegeven:

Deelplan IC ICT-omgeving 2015 Gemeente Lingewaard

Offective > Verkoop > Offertes

Standard Operating Procedure

NCAE. Toelichting handelsnormen voor eieren - verzamelaars november 2013

Managementinformatiesysteem

Voortgangsverslag werkend leren

Controle protocol Stichting De Friesland

Cross Compliance controles

Architecture Governance

RIE Vragenlijst Editor

Benchmark van complicaties en reïnterventies van pacemaker- of ICD implantaties. Concept / 10 januari 2019 / versie

4orange Connect. 4orange, Hogehilweg CD Amsterdam Zuidoost

Controle protocol. 1 Doelstelling. 2 Eisen en aanwijzingen. 3 Toleranties en gewenste zekerheid

De planning is realistisch, efficiënt en afdoende afgestemd met de betrokkenen.

De terugmeldingsverplichting. Datum 22 mei 2014

Cover Page. The handle holds various files of this Leiden University dissertation.

Werkinstructie Het opschonen van data bij schriftelijke en of online dataverzameling

Loon- en maaibedrijf De Struunhoeve BV

Excise Movement and Control System (EMCS)

AGS2 in Sprinter 2000

Verwerking van de verstrekte gegevens door de Politie vindt plaats overeenkomstig de Wet Politie Gegevens.

Vrijstelling module in Asycuda

Informatie over gebruik nationale aanvullende code (nac) in DTV, AGS en Aanvullende aangifte

code INV VS 07 versie 01 Ingangsdatum pag. 1 van 5

Inspectierapport Timpaan Kinderopvang B.V. (GOB) Badweg BL GORREDIJK Registratienummer:

Juridische notitie. Toestemming jongere niet medisch wetenschappelijk onderzoek. Mr. S.J.C. Höfte. Uitwerking

Bekende Afzender (Known Consignor)

Grip op fiscale risico s

AGS 2. Presentatie bedrijfsleven

Gebruikershandleiding

BIJLAGE. bij het. Voorstel voor een besluit van de Raad

Informatie over gebruik nationale aanvullende code (nac) in DTV, AGS en Aanvullende aangifte

Implementatie administratieve organisatie en interne controle.

MEMO AAN DE GEMEENTERAAD

Commerciële Sturing. Het vertalen van strategische doelen naar veelbelovende klantgroepen. Stageverslag Laura Klomparends

Privacybeleid van Stormfinance app En De Hypotheekzaak app

Handleiding GBO Helpdesk voor aanmelders

Hoe kan ik Inspectieview gebruiken in mijn toezichtproces?

Regeling tot wijziging van de Algemene douaneregeling en de Uitvoeringsbeschikking omzetbelasting 1968

case: toestandsdiagrammen

AccountView Go Workflow documenten handleiding

Privacybeleid van het schoolplein

Plan van Aanpak. Auteur: Roel Konieczny Docent: Stijn Hoppenbrouwers Plaats, datum: Nijmegen, 7 mei 2004 Versie: 1.0

fysieke beveiliging onder controle Good Governance op het gebied van fysieke beveiliging Thimo Keizer

Controleprotocol subsidie Vervoersautoriteit MRDH - Openbaar Vervoer, concessie Bus -

Procedure BREEAM-NL Innovatiecredits. Oktober 2013

DATAMODELLERING TOEPASSEN DATA ANALYTICS

Beheeradvies BasisRegistratie (BRS)

Transcriptie:

De verbetering van geaccumuleerde classificatieregels met data mining Toegepast op invoeraangiften bij de Douane P.A.W. Jolen Tilburg, december 2006 Faculteit der Economische Bedrijfswetenschappen Departement Informatiemanagement

De verbetering van geaccumuleerde classificatieregels met data mining Toegepast op invoeraangiften bij de Douane Afstudeerscriptie Informatiemanagement Universiteit van Tilburg Uitgevoerd bij het Douane Informatiecentrum te Rotterdam in opdracht van PROTECT Auteur: P.A.W. Jolen Anr: 127760 Email: pjolen@gmail.com Begeleider Universiteit van Tilburg: Begeleider Douane Informatiecentrum: M. Jeusfeld R. Geerts H. Knoester Examencommissie: M. Jeusfeld B.W.M. Bettonvil I

II

Managementsamenvatting In dit onderzoek is getracht een antwoord te vinden op de vraag hoe domeinkennis kan worden geïntegreerd in data mining modellen. Het onderzoek is verricht bij het Douane Informatiecentrum te Rotterdam. De uiteindelijke onderzoeksvraag is toegepast op de situatie bij de Douane. Het betreft invoeraangiften uit 2004. De Douane beoordeelt aan de hand van de gegevens op de ingediende aangifte of deze mogelijk foutief is. Deze verdeling in goed (conform) en fout (niet conform) is een klassiek classificatieprobleem. De onderzoeksvraag luidt vervolgens: Hoe kan de Douane, door een combinatie van domeinkennis en data mining technieken, tot een betere classificatie van aangiften komen? De primaire selectie van de aangiften wordt automatisch gedaan middels een selectiesysteem. Dit systeem is opgebouwd uit regels (business rules, profielen: IF- THEN) waar de aangiften doorheen worden geleid. Dit systeem vertegenwoordigt de domeinkennis binnen de Douane. Hierna volgt nog een handmatige beoordeling van de aangifte, hier wordt beslist of er daadwerkelijk tot controle wordt overgegaan. Als eerste is onderzocht of de profielen overeenkomen met regels die voorkomen uit een analyse met behulp van data mining technieken. Er is geconstateerd dat maar met een beperkt deel van de beschikbare data een vergelijking gemaakt kan worden. Tevens bleek het lastig te achterhalen welk profiel verantwoordelijk was voor een controle. Uit dit deelonderzoek kan worden geconcludeerd dat er voldoende mogelijkheid is om de profielen te verbeteren door gebruik te maken van data mining technieken. Hiernaast is in de vorm van een casestudy bepaald welke techniek het best geschikt is voor gebruik binnen de Douane. Ook is data mining opgenomen in het risicoanalyse proces. Drie classificatietechnieken zijn gebruikt, te weten beslisbomen, neurale netwerken en logistische regressie. Een vereiste is dat de modellen kunnen worden omgezet in profielen. Dit leidt ertoe dat, ondanks dat het logistische regressie model het best classificeert, beslisbomen het meest geschikt zijn voor gebruik in het risicoanalyse proces. De risicoanalyse bestaat uit verschillende stappen. Voor een goede analyse met behulp van data mining technieken is het van groot belang dat er een nauwe samenwerking is met de domeinexperts. Het probleemgebied moet goed afgebakend worden en de data moet in de juiste vorm gegoten worden. Ook de resultaten van de analyse worden besproken met de domeinexperts, met als doel een degelijke risicoafdekking te bewerkstelligen. Er zijn nog enkele andere zaken naar voren gekomen bij dit onderzoek. De beschikbaarheid én vorm van de data bijvoorbeeld. Deze kan nog volop verbeterd worden. Een groot voordeel van analyse met behulp van data mining technieken is dat het vele malen sneller gaat dan op de huidige manier en dat er effectiever gecontroleerd kan worden. III

Voorwoord Voor u ligt de scriptie De verbetering van geaccumuleerde classificatieregels met data mining toegepast op invoeraangiften bij de Douane. Dit is het resultaat van mijn afstudeerstage bij het Douane Informatiecentrum (DIC) te Rotterdam. Deze scriptie markeert het eindpunt van de studie Informatiemanagement aan de Universiteit van Tilburg. Zowel voor mij als het DIC was de stage een nieuwe ervaring. Voor mij was het zaak de opgedane kennis in de praktijk te brengen om succesvol af te kunnen studeren. Wat wil zeggen: uit de boeken en het echte werk in! Ik moet zeggen dat het me goed is bevallen. Het is een zeer leerzame ervaring geweest. En dat geldt denk ik niet alleen voor mij. Het DIC was namelijk niet bekend met afstudeerders. In het begin liepen sommige zaken daarom af en toe wat stroef, maar uiteindelijk is het allemaal goed gekomen, getuige deze scriptie. Mede door ieders bereidheid een helpende hand te bieden. Mijn vragen over van alles en nog wat werden graag beantwoord, waarvoor mijn dank. Dit was, zeker in het begin, nodig ook. Ik had al wel een idee van de Douane, maar als je er middenin zit merk je pas hoe groot en complex alles is. Er zijn een aantal mensen die ik in het bijzonder wil bedanken voor hun hulp. Ten eerste mijn begeleider van de Universiteit, Manfred Jeusfeld, hij heeft me regelmatig geholpen op het goede spoor te blijven. Ook de begeleiders vanuit de Douane, Henk Knoester en Rob Geerts, ben ik dank verschuldigd. Henk voor de data mining technische hulp en Rob voor alles er omheen. Rob s kennis van de organisatie is van grote waarde gebleken voor mijn begrip van alle processen. Tevens een woord van dank richting Emiel Caron, hij was het aanspreekpunt vanuit de Erasmus Universiteit Rotterdam en heeft vaak goede kritieken geleverd op mijn werk. Vanwege het feit dat mij ongelimiteerde toegang tot zeer gevoelige informatie is verstrekt hiervoor heb ik een geheimhoudingsverklaring moeten ondertekenen- zijn er twee versies van deze scriptie geproduceerd. Één volledige versie, die alleen voor intern gebruik bij de Douane bestemd is, en een gecensureerde versie, waar de gevoelige informatie uitgefilterd is. Voor u ligt de gecensureerde versie. Hieruit zijn alle namen van de Douanemedewerkers verwijderd of onherleidbaar gemaakt. Tevens zijn de goederencodes van de geanalyseerde probleemgebieden gecensureerd. Pieter Jolen, December, 2006 IV

Inhoudsopgave Managementsamenvatting... III Voorwoord...IV Inhoudsopgave...V Hoofdstuk 1 Achtergrond en probleemstelling...- 1-1.1 Achtergrond...- 1-1.2 Korte beschrijving van de Douane...- 1-1.3 Onderzoeksvraag en subvragen...- 2-1.3.1 Onderzoeksvraag...- 2-1.3.2 Subvragen...- 2-1.4 Wetenschappelijke relevantie...- 3-1.5 Bedrijfskundige relevantie...- 3-1.6 Onderzoeksmethode...- 3-1.7 Opzet van de scriptie...- 4 - Hoofdstuk 2 Beschrijving van de Douane...- 5-2.1 Inleiding...- 5-2.2 Rechtshandhavingmodel Douane...- 5-2.3 Douane Sagitta Invoer...- 8-2.3.1 Inleiding...- 8-2.3.2 Risicodatabase...- 9-2.3.3 Risicokennisgroepen...- 9-2.3.4 Douane Informatieafdelingen...- 9-2.3.5 Profielbeheer...- 10-2.3.6 Selectie...- 10-2.3.7 Regiekamer + Controle...- 10-2.4 Beschikbare data...- 11-2.4.1 Beschrijving aanwezige data...- 11-2.4.2 Herkomst data...- 12-2.4.3 Gecorrigeerde data...- 13-2.5 Data mining bij de Douane...- 14-2.5.1 Inleiding...- 14-2.5.2 Proof of concept Douane Sagitta Invoer...- 14-2.5.3 Proof of concept Douane Sagitta Uitvoer...- 14-2.5.4 Huidige data mining activiteiten...- 15-2.6 Conclusie...- 15 - Hoofdstuk 3 Data mining en domeinkennis...- 16-3.1 Inleiding...- 16-3.2 Data mining...- 16-3.2.1 Inleiding...- 16-3.2.2 Classificatie...- 17-3.2.3 Data preparatie...- 17-3.3 Data mining technieken...- 17-3.3.1 Beslisbomen...- 17-3.3.2 Logistische regressie...- 19-3.3.3 Neurale netwerken...- 20-3.3.4 Overfitting...- 21-3.3.5 Classificatietabellen...- 22-3.4 Domeinkennis...- 23-3.5 Vergelijkbare onderzoeken...- 24-3.6 Conclusie...- 25 - V

Hoofdstuk 4 Profielen valideren...- 26-4.1 Inleiding...- 26-4.2 Data preparatie...- 26-4.2.1 Data cleaning...- 26-4.2.2.Data integratie en transformatie...- 27-4.2.3 Data reductie...- 28-4.3 Afleiden van regels...- 29-4.4 Vergelijking profielen en regels...- 30-4.5 Tweede validatie...- 31-4.6 Verbeteringen...- 32-4.7 Conclusie...- 34 - Hoofdstuk 5 Casestudy druiven...- 35-5.1 Inleiding...- 35-5.2 Probleemgebied casestudy...- 35-5.3 Analyse...- 36-5.3.1 Data preparatie...- 36-5.3.2 Beslisboom...- 37-5.3.3 Neuraal netwerk...- 38-5.3.4 Logistische regressie...- 39-5.3.5 Vergelijking modellen...- 41-5.4 Terugkoppeling...- 43-5.5 Conclusie...- 44 - Hoofdstuk 6 Data mining in het risicoanalyseproces...- 46-6.1 Inleiding...- 46-6.2 Verschillende stages risicoafdekking...- 46-6.3 Procesbeschrijving met data mining...- 47-6.4 Conclusie...- 49 - Hoofdstuk 7 Conclusies en aanbevelingen...- 50-7.1 Conclusies...- 50-7.2 Aanbevelingen...- 52 - Literatuuropgave...- 54 - Referenties...- 54 - Geraadpleegde overheidsstukken...- 56 - Figuren- en tabellenlijst...- 58 - Afkortingenlijst...- 59 - Bijlage I...- 60 - I.1 Achtergrondinformatie Douane...- 60 - I.1.1 Algemene taken Douane...- 60 - I.1.2 Douane Informatiecentrum...- 62 - I.1.3 Douane Informatieafdelingen...- 63 - I.1.4 Risicokennisgroepen...- 63 - I.1.5 Risicodatabase...- 64 - I.1.6 Goederencodes...- 64 - I.2 Kolombeschrijving DSI...- 66 - I.3 Betekenis symbolen...- 67 - I.3a Aangifteprocedure...- 67 - I.3b Aangiftesymbool...- 67 - I.3c Landen van verzending/oorsprong/herkomst...- 68 - I.3d Leveringscondities...- 68 - I.3e Gevraagde regeling...- 68 - I.3f Voorafgaande regeling...- 69 - I.3g Vrijstellingsregeling...- 69 - VI

Bijlage II...- 70 - II.1 Data preparatie...- 70 - Bijlage III...- 71 - III.1 Kengetallen geselecteerde goederen...- 71 - III.2 Gebruik van training, validatie en test set in SAS EM...- 71 - III.3 Gecorrigeerde goederencodes per goed...- 72 - III.4 Profielen en regels per goederencode...- 72 - III.5 Classificatietabellen per goederencode...- 76 - Bijlage IV...- 78 - IV.1 Kengetallen druiven...- 78 - IV.2 Classificatietabellen beslisbomen...- 78 - IV.3 Classificatietabellen neurale netwerken...- 79 - IV.4 Frequentietabel per variabele...- 80 - IV.5 Afgeleid logistisch regressie model...- 81 - IV.6 Classificatietabellen logistische regressie modellen...- 81 - Bijlage V...- 83 - V.1 Overzicht van het gebruik van domeinkennis in een data mining project...- 83 - Bijlage VI...- 84 - VI.1 Gespreksverslagen...- 84 - VI.1a Gespreksverslag Risicodatabase...- 84 - VI.1b Gespreksverslag Profielbeheer...- 84 - VI.1c Gespreksverslag risicokennisgroep...- 85 - VI.1d Gespreksverslag Douane Informatieafdeling...- 85 - VI.1e Gespreksverslag domeinexperts...- 86 - VI.1f Gespreksverslag druiven case...- 86 - VII

The greatest obstacle to discovery is not ignorance - it is the illusion of knowledge (Daniel J. Boorstin 1914-2004) VIII

Achtergrond en probleemstelling Hoofdstuk 1 Achtergrond en probleemstelling 1.1 Achtergrond Dit onderzoek is onderdeel van een subproject van het TRANSUMO 1 (Transition to Sustainable Mobility) project PROTECTT2 (Protecting people, planet and profit) genaamd Threat analysis in global supply chains. In dit subproject wordt gekeken naar technieken om verdachte activiteiten te ontdekken door gebruik te maken van aanwezige data in informatiesystemen voor vrachtvervoer. Ook wordt gezocht naar technieken om uit andere informatiebronnen mogelijk verdachte activiteiten te ontdekken. Meer specifiek heeft PROTECT zich als doel gesteld om technieken voor Business Intelligence te evalueren, te ontwikkelen en toe te passen ten behoeve van logistieke informatiesystemen gebaseerd op (risico)profielen. Mijn onderzoek is een onderdeel van een lopend onderzoeksprogramma genaamd The integration of data mining models with domain knowledge for business decision-making. Dit programma maakt deel uit van het RSM 3 Erasmus Universiteit Rotterdam 4 onderzoeksprogramma in logistiek en informatiesystemen. De Erasmus Universiteit Rotterdam en PROTECT zijn een samenwerking aangegaan op dit onderzoeksgebied. Het onderzoek is verricht bij het Douane informatiecentrum (DIC) in Rotterdam. Het DIC is onderdeel van de Nederlandse Douane en heeft als taak de Douane te voorzien in haar informatiebehoeften. Hiervoor is onder andere een data mining groep ingesteld. Deze heeft in 2005 de proof-of-concept fase afgerond. Data mining is nu ook een middel om in de informatiebehoeften van de organisatie te voorzien. Jaarlijks komen er miljoenen containers de haven van Rotterdam binnen. De Douane verzamelt de aangiftegegevens van deze containers. Aan de hand van die gegevens wordt bepaald of een container verdacht of niet verdacht is, er moet dus een classificatie probleem worden opgelost. Dit proces is deels geautomatiseerd, een ander deel gebeurd nog handmatig. Door dit proces te optimaliseren kan veel tijd en geld bespaard worden. 1.2 Korte beschrijving van de Douane De Douane maakt onder andere gebruik van een informatiesysteem genaamd Douane Sagitta Invoer (DSI). Dit systeem bestaat uit verschillende onderdelen: aangifteregistratie van de goederen, risicoanalyse en selectie. De selectie wordt gedaan door een module in DSI. Hierin staan de zogenaamde risicoprofielen 5. Deze zijn bepaald met behulp van interviews met selecteurs en andere experts. De Douane gebruikt de risicoprofielen om een kwantitatieve risico-index aan een bepaalde aangifte te geven. Wanneer de risico-index een drempelwaarde overschrijdt krijgt de selecteur hiervan bericht. Hij beoordeeld dan of de risico-index terecht is en of er tot inspectie overgegaan moet worden. Inspectie kan een fysieke controle inhouden, bijvoorbeeld een containerscan, maar ook een administratieve controle behoort tot de mogelijkheden. Bovenstaande wordt weergegeven in figuur 1-1. 1 zie http://www.transumo.nl 2 zie http://protect.transumo.nl 3 zie http://www.rsm.nl 4 zie http://www.eur.nl 5 Een risicoprofiel is een IF-THEN regel. Synoniemen hiervoor zijn o.a. profiel, (beslis)regels, classificatieregels, business rules. In dit verslag worden deze bewoordingen door elkaar gebruikt. - 1 -

Achtergrond en probleemstelling Verdachte aangiften aangiften Selectie door selecteur Controle Invoer aangiften Selectie op basis van profielen Administratieve afhandeling Administratieve afhandeling aangiften Figuur 1-1 Aangifteregistratie, -analyse en -selectie 1.3 Onderzoeksvraag en subvragen 1.3.1 Onderzoeksvraag Mijn onderzoek valt binnen het onderzoeksgebied Business Intelligence. Dit kan worden omschreven als het proces om gegevens om te zetten in informatie, die dan tot kennis leidt. Ik richt me hierbij op data mining. Er bestaan verschillende definities voor data mining, dit is een algemene: data mining is het onderzoeksveld waarbij getracht wordt om op een geautomatiseerde manier patronen en relaties te ontdekken in grote hoeveelheden gegevens [de Rijke, 2006]. Een aspect dat nauw gerelateerd is aan data mining is domeinkennis. Domeinkennis kan worden omschreven als kennis die niet expliciet is benoemd in een database. Over het algemeen wordt domeinkennis gebruikt om de effectiviteit en de efficiency van een data mining model te vergroten. Een andere reden is dat door gebruik te maken van deze kennis transparantie van het data mining model vergroot wordt. De combinatie van domeinkennis en data mining technieken toegepast op de omgeving waarbinnen de Douane werkt leidt tot de volgende onderzoeksvraag: Hoe kan de Douane, door een combinatie van domeinkennis en data mining technieken, tot een betere classificatie van aangiften komen? 1.3.2 Subvragen Om de onderzoeksvraag te beantwoorden zijn een aantal subvragen opgesteld. Deze zijn onder te verdelen in twee delen. Ten eerste het literatuur deel, de beschrijving van domeinkennis en data mining. Ten tweede is er het praktische onderzoek. Deze vragen moeten beantwoord worden om een onderbouwd antwoord te kunnen geven op de onderzoeksvraag. Literatuur deel (A): (1) Wat is data mining? (2) Welke data mining technieken zijn er? (3) Wat zijn de voor- en nadelen van deze data mining technieken? (4) Welke data mining technieken kunnen business rules als output produceren? (5) Wat is domeinkennis? Praktisch deel (B): (1) Hoe wordt domeinkennis bij de Douane gebruikt? (2) Is er door gebruik te maken van data mining technieken validatie te vinden voor de bestaande profielen? - 2 -

Achtergrond en probleemstelling (3) Welke data mining techniek is het best bruikbaar binnen de Douane? (4) Hoe kan data mining worden geïntegreerd in het risicoanalyseproces? 1.4 Wetenschappelijke relevantie In dit onderzoek wordt bekeken hoe domeinkennis het best gecombineerd kan worden met data mining technieken. Data mining technieken zijn over het algemeen data driven, ze kijken alleen naar de data. Hierbij wordt geen gebruik gemaakt van aanwezige kennis in organisaties. Kennis die voor mensen misschien evident is, maar voor een machine niet. Als deze kennis wordt geïntegreerd in een data mining model, kan dit leiden tot betere resultaten. Het doel is dit op een manier te doen die tot de beste resultaten leidt. Wat er wordt verstaan onder de beste is per organisatie verschillend. Bij de Douane gaat het erom aangiften zo goed mogelijk te classificeren in conform en niet conform met de bestaande wet- en regelgeving. 1.5 Bedrijfskundige relevantie Momenteel maakt de Douane voor de classificatie van aangiften gebruik van profielen (business rules). Deze zijn, en worden, opgesteld aan de hand van expertsessies. Wanneer een aangifte als mogelijk verdacht (niet conform) wordt aangemerkt volgt een nadere controle door een zogenaamde selecteur. Deze bekijkt of de profielen werkelijk van toepassing zijn op de betreffende zending. Dit blijkt nogal eens niet het geval te zijn. Er zitten dus onvolkomenheden in de, door mensen opgestelde, profielen. En dit is ook niet vreemd gegeven het feit dat er ontzettend veel gegevens beschikbaar zijn, waarop de profielen gebaseerd zijn. Met behulp van verschillende data mining technieken kunnen ook profielen gegenereerd worden. Een onderdeel van dit onderzoek is de vergelijking tussen de door de Douane opgestelde profielen en de door data mining technieken afgeleide profielen. Hierbij wordt ook gekeken naar een combinatie van beide, i.e. de huidige profielen en de profielen afkomstig uit data mining technieken. Het uiteindelijke doel is om tot een betere classificatie te komen van aangiften. Dit leidt tot besparing van tijd en geld in meerdere opzichten. De selecteurs hebben minder aangiften te behandelen omdat er minder aangiften onterecht als verdacht worden aangewezen. Een gevolg hiervan kan zijn dat de controleteams minder onnodige, tijdrovende en kostbare, controles uitvoeren. 1.6 Onderzoeksmethode Het onderzoek begint met een beschrijving van de Douane organisatie. Deze wordt gemaakt door het combineren van interne Douane informatie -interne stukken zoals stukken op het intranet en overige documenten- en interviews met mensen die op een betreffende relevante afdeling werken. Dit zal worden onderverdeeld in twee delen. Een deel beschrijft de algemene kant van de verschillende afdelingen, dit deel is opgenomen in bijlage I.1. Het andere deel beschrijft hoe de profielen tot stand zijn gekomen. Hierna komt een literatuurstudie naar data mining (technieken) en domeinkennis. Het doel hiervan is om een beschrijving te geven van data mining in het algemeen en de verschillende data mining technieken. Hetzelfde geldt voor domeinkennis. Wat is het, wat heb je eraan en in hoeverre zijn er voorbeelden in de literatuur waar domeinkennis en data mining technieken worden gecombineerd? Vervolgens volgt, middels empirisch onderzoek, de toepassing van de verschillende data mining technieken. Voor de data preparatie en selectie wordt SAS 6 6 zie http://www.sas.com - 3 -

Achtergrond en probleemstelling Enterprise Guide gebruikt. Het resultaat van de bewerking wordt geladen in SAS Enterprise Miner waar de verschillende modellen gerund worden. Het vergelijken van de modellen gebeurd ook in Enterprise Miner, deze kan grafisch en aan de hand van kengetallen een vergelijking van de gebruikte technieken geven. Hiernaast wordt SPSS gebruikt voor de statistische data mining technieken. 1.7 Opzet van de scriptie Hier volgt een korte beschrijving van de opzet van de scriptie. In Hoofdstuk 2 wordt de Douane organisatie beschreven. Alle afdelingen die met het aangifteproces te maken hebben komen ter sprake. Van iedere afdeling wordt beschreven welke rol zij spelen in het proces en van wie ze afhankelijk zijn. Het geheel is de praktische invulling van werken met domeinkennis bij de Douane. Hoofdstuk 3 beschrijft de theorie omtrent data mining en domeinkennis. Hier wordt uitgebreid ingegaan op data mining. Eerst volgt een beschrijving van wat data mining precies is. Daarna worden de verschillende technieken en de voor- en nadelen van deze technieken beschreven. Verder wordt wat dieper ingegaan op de data mining technieken die gebruikt zijn. Ook wordt er besproken op welke manier de verschillende technieken met elkaar vergeleken kunnen worden. In Hoofdstuk 4 wordt bekeken in hoeverre de bestaande profielen (i.e. de domeinkennis) overeenkomen met regels die zijn afgeleid middels beslisbomen. Hiervoor is eerst preparatie van de data vereist, waarbij een selectie gemaakt wordt op basis van geschiktheid. Na de preparatie worden beslisregels afgeleid, welke worden vergeleken met de bestaande profielen. Hierna worden bestaande profielen als startpunt genomen. Op basis daarvan wordt een data selectie gemaakt. Wederom wordt bekeken in hoeverre er overlap is te vinden. Vervolgens wordt beschreven wat de gevolgen zijn voor de risicoafdekking wanneer de profielen worden bepaald door data mining analyses. In Hoofdstuk 5 wordt de domeinkennis expliciet betrokken bij de data mining technieken. Bekeken zal worden of er significant betere modellen te ontwikkelen zijn wanneer je wel van de kennis gebruik maakt die er vooraf is. Er worden verschillende technieken gebruikt om eveneens te bekijken welke techniek het best geschikt is voor gebruik binnen de Douane. Hoofdstuk 6 behandelt de integratie van data mining in het risicoanalyseproces van de Douane. Hier komt een voorstel ter verbetering in de vorm van een procesbeschrijving uit voort om domeinkennis en data mining zo goed mogelijk te combineren. Er wordt aangegeven waar data mining van waarde is in het gehele proces. Ook wordt de belangrijkheid van domeinkennis per onderdeel van het data mining proces uiteengezet. In dit hoofdstuk wordt ook aangegeven wat de beperkingen zijn in het gebruik van data mining in de omgeving van de Douane. Het afsluitende Hoofdstuk (7) zal een samenvatting geven van de scriptie. De belangrijkste bevindingen worden hier nog eens opgesomd. De aanbevelingen sluiten de scriptie af. - 4 -

Beschrijving van de Douane Hoofdstuk 2 Beschrijving van de Douane 2.1 Inleiding Het vorige hoofdstuk heeft een inleiding gegeven op het onderzoek dat verricht is. De onderzoeksvragen zijn er opgesteld en de context van het onderzoek is beschreven. In dit hoofdstuk wordt de Douane nader beschreven. In bijlage I.1 is achtergrondinformatie opgenomen over de Douane, haar taken en de verschillende afdelingen die een rol spelen bij de risicoafdekking. Deze beschrijving is aan te raden voor mensen die onbekend zijn met de Douane. Ook is in de bijlage, een subparagraaf opgenomen over goederencodes, een identificerende code waar veel mee gewerkt zal worden. In paragraaf 2.2 wordt het rechtshandhavingmodel van de Douane besproken. Dit is de basis van de risicobeheersing. Verder wordt in deze paragraaf een processchema gegeven dat de risicoanalyse weergeeft. Paragraaf 2.3 gaat dieper op een onderdeel van de Douane in, namelijk de aangifte voor in te voeren goederen en de daaraan gekoppelde risico-identificatie, Douane Sagitta Invoer. Van alle afdelingen die een rol spelen in dit proces wordt een beschrijving gegeven. Uiteindelijk zal duidelijk zijn welke rol iedere afdeling heeft in het risico-identificatieproces en hoe de profielen tot stand zijn gekomen. In paragraaf 2.4 volgt een beschrijving van de data waarmee gewerkt zal worden. Paragraaf 2.5 geeft de resultaten van de verschillende proofs of concept die het Douane Informatiecentrum heeft uitgevoerd. Hier is op verschillende datasets gedatamined met als doel het nut van data mining binnen de organisatie aan te tonen. Afsluitend volgt in paragraaf 2.6 een samenvatting/conclusie met de belangrijkste bevindingen van dit hoofdstuk. 2.2 Rechtshandhavingmodel Douane Binnen de Belastingdienst wordt risicobeheersing omschreven als een systematische werkwijze gericht op het bestrijden van non-compliance 7. Hiertoe is het noodzakelijk dat de kans op non-compliance in kaart gebracht wordt. Vervolgens moet worden nagegaan hoe dit kan worden ontdekt, en hoe er tegen kan worden opgetreden. Dit is een continu proces, want risico s zijn niet statisch. Het rechtshandhavingmodel Douane (RMD) vormt de basis voor de risicogerichte aanpak. Deze bevat een aantal onderdelen, die samen de leercirkel vormen. Deze is weergegeven in figuur 2-1. 7 Hiermee wordt aangesloten bij de strategische doelstelling van de Belastingdienst; waarbij ernaar wordt gestreefd dat belastingplichtigen hun (wettelijke) verplichtingen vrijwillig nakomen. - 5 -

Beschrijving van de Douane Risicovinding Evaluatie Risicoanalyse Afdekking Voorbereiding Detectie Figuur 2-1 Leercirkel van het RMD De leercirkel kent zes onderdelen. Ieder onderdeel wordt hieronder toegelicht. Risicovinding: de risicovinding kent twee soorten herkomsten. Ten eerste, een ontvangen signaal, dit is een signaal dat men krijgt van bijvoorbeeld een douanemedewerker of de Europese Commissie. Ten tweede zijn er signalen uit eigen analyses. Waarbij het Douane Informatiecentrum (DIC), de Douane Informatieafdelingen (DIA) of de Risicokennisgroepen (RKG) 8 zelf onderzoek doen. Risicoanalyse: risicoanalyse is een systematisch onderzoek aan de hand waarvan wordt beslist of een risico aangepakt moet worden. Dit onderzoek kent drie vragen die beantwoord worden; 1) Is er een theoretisch risico ja/nee? (kan er een risico zijn?); 2) Is er een potentieel risico ja/nee? (komt het risico voor? Zo ja, hoe vaak en wat is de impact?); 3) Is het een relevant risico ja/nee? (wordt het risico aangepakt? En zo ja hoe?) Voorbereiding: Bij de voorbereiding wordt ervoor gezorgd dat het af te dekken risico ook daadwerkelijk afgedekt kan worden. Dit gaat op voor verschillende aspecten, denk aan de vereiste logistiek voor een controleactie en bijvoorbeeld scholing voor de controleurs. Detectie: Detectie is het vaststellen of het relevante risico zich ook voordoet. Afdekking: Afdekking omvat de maatregelen, die worden genomen om bevonden risico s te bestrijden. Bijvoorbeeld het intrekken van de vergunning van een importeur. Evaluatie: Bij de evaluatie wordt onderzocht of de gekozen aanpak juist is en of deze aanpassing behoeft. De onderdelen van de leercirkel gerelateerd aan het tot stand komen van de profielen kunnen worden weergegeven in een processchema. Het processchema is in DFD notatie 9 [Yourdon, 1999] weergegeven in figuur 2-2. Hierbij is per proces aangegeven welke afdeling(en) hiervoor verantwoordelijk zijn. De cijfers tussen haakjes staan voor: 1. Risicodatabase 2. Risicokennisgroep 3. Profielbeheer 4. Douane Informatieafdeling 5. Douane Informatieafdeling, Pro Actief. 8 Zie voor een uitgebreide beschrijving van DIC, DIA en RKG bijlage I.1 9 In DFD s is normaal gesproken geen te volgen volgorde. In dit schema is dat wel het geval. Vanaf de aanleveraar van het risicosignaal kunnen de pijlen gevolgd worden die per risico de te volgen stappen weergeven. Er is voor DFD notatie gekozen, in plaats van een standaardstroomschema, omdat bij een DFD de processen (functies [Yourdon, 1999]) centraal staan en niet de datastromen. De processen zijn op deze manier eenvoudig te koppelen aan de afdelingen bij de Douane. - 6 -

Beschrijving van de Douane Aanleveraar risicosignaal Ontvangen signaal Beoordeling signaal (1) Potentieel risico Ontwikkelen (SPOED) (1,3) Geen risico Risicodatabase Later/niet ontwikkelen Beoordeling risico (1,2) Implementeren (SPOED) (3) Evalueren risicoafdekking (4) Aan te passen risico Ontwikkel risico (2,5) DSI profielbeheer Risico onderzoeken (2,5) Impact testen (4) Relevant risico Implementeren risico (3) Te evalueren risico s Figuur 2-2 Processchema risicoanalyse In de volgende paragraaf worden aan de hand van dit schema de taken van de verschillende douaneonderdelen beschreven. - 7 -

Beschrijving van de Douane Veiligheid, gezondheid, economie en milieu Nauw gerelateerd aan het RMD is de controle op de naleving van wetgeving op het gebied van veiligheid, gezondheid, economie en milieu, afgekort als VGEM. Deze wetgeving schrijft voor dat invoer, uitvoer of vervoer van bepaalde goederen in Nederland en/of de Europese Unie verboden is, of alleen is toestaan als wordt voldaan aan (strenge) voorwaarden, of als de goederen aan bepaalde eisen voldoen. De wetgeving op deze gebieden kan voortkomen uit andere ministeries. Vanwege de specifieke kennis en ervaring bij de Douane zijn zij aangewezen als handhavers van de VGEM wet- en regelgeving 10. [BLD02] 2.3 Douane Sagitta Invoer 2.3.1 Inleiding Goederen die vanuit een niet-europese Unie (EU) land (niet-communautair) de EU (communautair) binnenkomen zijn aan een aantal regels gebonden. Een hoofdregel is dat de goederen een Douanebestemming moeten krijgen. Dit kan ondermeer gedaan worden door ze onder een Douaneregeling te plaatsen. Er worden vijf Douaneregelingen onderscheiden. Deze zijn: in het vrije verkeer brengen, actieve- en passieve veredeling, tijdelijke invoer en behandeling onder douane toezicht [BLD03]. Een beschrijving van de regelingen valt buiten de scope van dit onderzoek, het komt erop neer dat bij iedere regeling een aangifte gedaan moet worden. Deze aangifte wordt vervolgens door de Douane op juistheid gecontroleerd. Jaarlijks worden er miljoenen invoeraangiften ingediend. Het is onbegonnen werk om deze stuk voor stuk op juistheid te controleren. Daarom is Douane Sagitta Invoer (DSI) ontwikkeld. Dit is een informatiesysteem dat een risicoselectie doet aan de hand van ingediende aangiften. Het centrale punt in DSI zijn de zogenaamde risicoprofielen. Een risicoprofiel is een regel die een bepaald risico vertegenwoordigt. Ze hebben de vorm van IF-THEN regels. Een dergelijke regel zou kunnen zijn: IF landvanherkomst = Colombia AND goederenbeschrijving = wit poeder THEN risico = hoog Risicoprofielen vallen allemaal onder een Controle Opdracht. De Controle Opdracht omvat het risico, de profielen zijn de effectuering van de Controle Opdracht. Één Controle Opdracht kan meerdere profielen bevatten. Alle risicoprofielen worden verzameld in één systeem. Dit systeem is een module binnen DSI en bevat een verzameling van alle risicoprofielen. Deze module kan gezien worden als een expertsysteem 11. Iedere aangifte wordt door dat systeem geleid. Wanneer er een aangifte is die dezelfde karakteristieken heeft als één of meerdere van de profielen dan geeft het systeem een output. De betreffende aangifte is dan geraakt door het profiel. De output is een kleur die de mate van verdachtheid weergeeft. Voordat er een profiel wordt geschreven, moet er eerst een risico geconstateerd worden. Het proces waarbij een risico tot een profiel leidt wordt hieronder beschreven. Achtereenvolgens komen de risicodatabase (2.3.2), de risicokennisgroepen (2.3.3), de Douane informatieafdelingen (2.3.4), profielbeheer (2.3.5), de selecteurs (2.3.6), de regiekamer + controle (2.3.7) aan bod. Van iedere afdeling wordt besproken wat de rol is bij het tot stand komen van een risicoprofiel. Het gehele proces is weergegeven in figuur 2-2. 10 Een uitgebreid overzicht van de VGEM taken van de Douane en de ministeries verantwoordelijk voor de wetgeving is te vinden op http://www.douane.nl/zakelijk/vgem/vgem-03.html. 11 Een expertsysteem is een tool om de kwaliteit en beschikbaarheid van benodigde kennis voor besluitnemers te vergroten. Ze breiden conventionele programma s zoals databases, tekstverwerking en spreadsheet analyses uit [Boss, 2000]. - 8 -

Beschrijving van de Douane 2.3.2 Risicodatabase Alle signalen in de risicodatabase worden beoordeeld met als doel de kwaliteit hoog te houden. Waar nodig wordt om extra informatie gevraagd. Bijvoorbeeld: een ingevoerd risico zou kunnen zijn dat er verdachte activiteiten zijn geconstateerd bij loods x. Om het risico concreter te maken is er meer informatie nodig, zoals de tijd en de precieze omschrijving van de verdachte activiteit. De risico s worden gebundeld en ingedeeld in de groepen die verantwoordelijk zijn voor de behandeling van de risico s. Vervolgens is het aan de verantwoordelijke om het risico op te pakken en actie te ondernemen. Waarbij het Centraal Punt de doorlooptijd van het risico bewaakt. Eerst wordt bepaald of er direct, later of niet ontwikkeld wordt. Hierna volgt de verdere analyse, die in de volgende paragraven wordt toegelicht. Wanneer er spoed is, bijvoorbeeld wanneer er goederen al onderweg zijn, wordt er door het Centraal Punt (bijvoorbeeld) in samenwerking met Profielbeheer een profiel opgesteld. Dit wordt dan direct geactiveerd om de goederen te kunnen onderscheppen. 2.3.3 Risicokennisgroepen Een risicokennisgroep (RKG) heeft inzicht in de risicodatabase. Zij bepalen welke risicosignalen, die aan hen zijn toegewezen, het eerst worden behandeld. Dit gebeurt op basis van de expertise die deze mensen hebben. Zij verrichten een onderzoek op basis van de signalen die uit de risicodatabase komen. Hierna wordt bepaald of er actie ondernomen moet worden om het risico af te dekken. Wanneer dat het geval is, kan de risicokennisgroep vier mogelijke acties ondernemen. Ten eerste; een profiel op laten stellen voor SBB, DSI, DSU of Koerier. Hiervoor is een standaardformulier aanwezig dat ingevuld wordt. Dit wordt doorgestuurd naar de DIA die het daadwerkelijke profiel controleert en zo nodig schrijft. Ten tweede kan er een opdracht voor Controle na Invoer (CNI) worden gegeven. Dit houdt in dat er achteraf een controle plaatsvindt. De betreffende aangifte wordt dan gecontroleerd op volledigheid en juistheid. Ten derde zijn er de administratieve controles. Deze zijn uitgebreider dan de CNI s. Hierbij wordt afhankelijk van de situatie de gehele administratie van een bedrijf of de goederenstroom aan een nader onderzoek onderworpen. Daarnaast kan het hier gaan om controles op basis van accijnswetgeving. Bijvoorbeeld het controleren op juistheid van de teruggaaf verzoek accijns op minerale olie. De vierde mogelijkheid is een gerichte actie, dit is meestal een actie voor fysiek toezicht. Vaak zijn deze gericht op een enkel persoon of een goed. Bijvoorbeeld controle op illegale sigaretten. Een ander voorbeeld is een controle op een persoon die vermoedelijk op rode gasolie rijdt. 2.3.4 Douane Informatieafdelingen Zodra de risicokennisgroep een risico heeft geïdentificeerd dat moet worden afgedekt sturen zij hiervoor een opdracht naar de Douane Informatieafdeling (DIA). Wanneer er een profiel moet worden opgesteld, wordt dit door de DIA gedaan. Aan de hand van de opzet van de RKG concretiseren zij het profiel en de overige parameters. Bij de overige parameters moet men denken aan de ingangs- en vervaldatum, de controlediepgang en het selectiepercentage. De ingangs- en vervaldatum geven de looptijd van een profiel aan. Dit kan een aantal maanden zijn maar ook tot in het oneindige. De controlediepgang is de wijze van controle. Hierbij worden oranje en rood onderscheiden. Oranje is een controle aan de hand van bescheiden. Een rode controlediepgang houdt een fysieke controle in. Het selectiepercentage is de kans dat de zending die een profiel geraakt heeft nader wordt onderzocht. Voordat een profiel wordt doorgestuurd naar profielbeheer laat men het langs oude aangiften lopen. Aan de hand van het aantal hits, de impact, wordt het selectiepercentage bepaald. Dit is mede afhankelijk van het aantal te behandelen - 9 -

Beschrijving van de Douane aangiften (i.e. het aantal selecteurs/controleurs, zie 2.3.6 en 2.3.7) en de belangrijkheid van het risico. Naast de opdrachten van de RKG s heeft iedere DIA ook enkele hoofdstukken van de Gecombineerde Nomenclatuur toegewezen gekregen. Zij doen voor de goederen binnen deze hoofdstukken hetzelfde als de risicokennisgroepen. Dit valt onder de zogenaamde Pro Actief groep van de DIA s. Wanneer een risico is geïdentificeerd wordt verdere actie ondernomen. Ieder profiel wordt, voordat het wordt doorgestuurd naar profielbeheer, vergeleken met bestaande profielen. Dit om overlap en doublures te voorkomen. Evaluatie Evaluatie van de Douane Sagitta Invoer profielen wordt gedaan door de DIA s. Zoals hierboven is toegelicht heeft ieder profiel een bepaalde looptijd. Aan het eind van de looptijd wordt het profiel geëvalueerd. Het aantal keer dat geraakt is, de acties van de selecteurs en het resultaat van de actie worden dan bekeken. Aan de hand daarvan wordt bepaald of er een aanpassing van het profiel nodig is of dat het profiel verwijderd kan worden. Mocht dit niet direct vast te stellen zijn dan volgt er nader onderzoek. Het risicoprofiel wordt overgedragen aan de risico-eigenaar. Na zijn onderzoek geeft hij advies over de door te voeren veranderingen. Bij langlopende profielen wordt er ook tussentijds gecontroleerd. 2.3.5 Profielbeheer Profielbeheer heeft als taak de profielen in Douane Sagitta Invoer in te voeren. Het werkelijke profiel wordt ingevoerd alsmede enkele andere gegevens waaronder de beredenering voor het profiel. Inmiddels zijn er sinds het begin in 1985 ongeveer 9.000 profielen ingevoerd. Een fractie hiervan is nog in gebruik. Immers, mocht een profiel overbodig worden dan wordt deze uit het systeem verwijderd. Het kan voorkomen dat een geïdentificeerd risico direct moet worden ingevoerd in het systeem. Dit is het geval wanneer er spoed is vanuit de risicodatabase. In een dergelijk geval wordt het risico door profielbeheer omgezet in een profiel en direct in het systeem gezet. 2.3.6 Selectie Alle aangiften die geraakt zijn komen in een applicatie te staan. De selecteurs bekijken van iedere aangifte of deze terecht is aangewezen als risicovol. Het kan voorkomen dat een aangifte wel door een profiel geraakt wordt, maar dat het profiel niet van toepassing is op die aangifte. Een aanwijzing hiervoor kan de beredenering voor het risico zijn, die bij het geraakte profiel vermeld staat. Een profiel kan te ruim opgesteld zijn bijvoorbeeld. In principe wordt iedere aangifte die een rood risico meekrijgt ook daadwerkelijk fysiek gecontroleerd. Wanneer mogelijk wordt een controle achteraf uitgevoerd. Mocht een aangifte aangewezen worden voor controle en de selecteur bepaald dat dit onterecht is dan wordt deze aangemerkt als groen en alsnog administratief afgedaan. 2.3.7 Regiekamer + Controle Voor de volledigheid worden de regiekamer en controleurs genoemd. Zij spelen indirect een rol in het geheel. Een uitgebreide beschrijving valt buiten de scope van deze scriptie. De regiekamer stuurt de verschillende controlediensten aan. Nadat een selecteur heeft bepaald dat er daadwerkelijk een controle nodig is, wordt de regiekamer ingeschakeld. Deze verdeelt de controleopdrachten op een zo efficiënt mogelijke wijze. Een controleur controleert of een aangifte daadwerkelijk conform of niet-conform is. Dit kan zijn door een fysieke controle (FyCo). Hierbij wordt bekeken of het op de - 10 -

Beschrijving van de Douane aangifte opgegeven goed daadwerkelijk in de container zit. Een andere mogelijkheid is een administratieve controle. Hier wordt achteraf de administratie van bijvoorbeeld de importeur gecontroleerd op fouten. De resultaten van de controles worden teruggekoppeld en de aangiften worden aangepast. 2.4 Beschikbare data 2.4.1 Beschrijving aanwezige data De data waarmee in dit onderzoek gewerkt wordt komt uit Douane Sagitta Invoer. Hiervan zijn beschikbaar de data van de jaren 2002, 2003, 2004 en de eerste helft van 2005. In totaal zijn dit ruim tien miljoen records, zie tabel 2-1. Dataset Records SIAVJ_2002 2.671.185 SIAVJ_2003 2.986.025 SIAVJ_2004 3.078.416 SIAVJ_2005 2.064.110 SI_1XPL_2004 12 (Ongecorrigeerd) 3.079.107 Tabel 2-1 Aanwezige datasets De uitgebreide varianten van de datasets uit tabel 2-1 bevatten 215 variabelen. Het merendeel hiervan is optioneel en wordt zelden ingevuld. Daarom wordt hier gewerkt met een beperkte dataset. In iedere tabel staan de gegevens van 64 relevante variabelen. Deze worden in bijlage I.2 beschreven. Alle waarden met SI aan het begin zijn gegevens die direct uit de aangiften komen. De waarden met een c aan het begin zijn computed. Ze zijn verkregen door een koppeling met een andere tabel of door een bewerking van een SI -cel. Niet alle kolommen worden gebruikt als input voor data mining. Dit heeft verschillende redenen. Ten eerste zou het hele proces onnodig ingewikkeld gemaakt worden door het hoge aantal variabelen. Ten tweede is er vaak een hoge correlatie tussen twee of meer variabelen. Zoals bijvoorbeeld het geval is bij de postcode en de plaats van de importeur. Ook komen er kolommen voor die optioneel zijn en grotendeels niet gevuld zijn, en daardoor onbruikbaar. Dit geldt ook voor kolommen die louter niet gestandaardiseerde tekst bevatten. En als laatste zijn er kolommen waarvan het zeer onwaarschijnlijk is dat deze een oorzakelijk verband hebben met het wel of niet conform zijn van een aangifte, denk hierbij bijvoorbeeld aan een datum 13. In tabel 2-2 is te zien welke variabelen gebruikt worden voor de analyse. In de kolom bijlage staat een eventuele verwijzing naar de bijlage als toelichting op de voorkomende waarden/symbolen. Veldnaam Toelichting Bijlage SI_Apunt Aamgiftepunt - SI_Agevnr Aangever - SI_Aproc Aangifteprocedure I.3a SI_Asymbl Aangiftesymbool I.3b SI_Geadr Geadresseerde / Importeur (BTWnummer) - SI_LandVz Land van Verzending I.3c SI_LandBes Land van Bestemming I.3c SI_LevCond Leveringscondities I.3d 12 Deze tabel is tot mijn beschikking gekomen door de alertheid van HK. Hij herinnerde zich dat deze data ook is gebruikt in de proof of concept fase. Er is wel een verzoek gedaan nnaar de ongecorrigeerde datasets voor de jaren 2005 en 2006. Na vier(!) maanden is hier nog geen reactie op ontvangen. 13 Een datum an sich zal geen oorzakelijke factor zijn voor het wel of niet conform zijn van een aangifte. Wanneer er een periode van bijvoorbeeld een maand genomen wordt kan dit wel een indicatie zijn. Zo kan er een veel voorkomende fout zijn ontdekt die is afgedekt. Aangevers zullen deze fout niet meer maken vanwege de hoge pakkans. De desbetreffende aangiften zouden dan uitgesloten kunnen worden voor controle. - 11 -