Masterscriptie Business Analytics. Op tijd vertrekken. Verklaringen voor ADC dispunctualiteit op ICA vluchten. Nivard van Wijk

Vergelijkbare documenten
Commerciële Sturing. Het vertalen van strategische doelen naar veelbelovende klantgroepen. Stageverslag Laura Klomparends

Knowledge

Invloed van MetaCost op imbalanced classificatie problemen

Minder Big data Meer AI.

De indeling van de sector Natuur

Onderwijs- en examenregeling van de masteropleiding

Inhoudsopgave Samenvatting Summary Inleiding Fout! Bladwijzer niet gedefinieerd. Fout! Bladwijzer niet gedefinieerd.

Artificial Intelligence in uw dagelijkse praktijk. Hilversum, 22 September 2016

Boekenlijst 1e master HIRB

Living Labs : NFI & RvdK Samen onderweg naar meer grip op data. JenV I-tour presentatie 24 april 2018

De gewenste woning binnen handbereik

EEN SIMULATIESTUDIE VAN DE SCHEDULE CONTROL INDEX

DEFINITIE EN INTEGRATIE VAN COMPETENTIES VOOR DUURZAME ONTWIKKELING

Data Mining: Opdracht 2

Halma Bot: Monte Carlo versus Alpha-Beta

Ontwikkeling van simulationbased serious games ten behoeve van logistieke besluitvorming

Data Science. Fundamentals. In samenwerking met. Data Science & Smart Services Z U Y D. Zuyd University of Applied Sciences

De toekomst van de Tax Assurance Provider

Postacademische opleiding (PGO) Business Analytics & Data Science

De valkuilen die je moet voorkomen om van predictive maintenance een succes te maken

Business Analytics bij. Zilveren Kruis. Rob Konijn Data Scientist Kenniscentrum. 12 mei 2016

URBAN SCIENCE. Professor Nanda Piersma Michael Hogenboom

Dynamic and Stochastic Planning Problems with Online Decision Making A Novel Class of Models. Maria Lucia Arnoldina Gerarda Cremers

Hoe AI kan ingezet worden voor de analyse van asbesthoudende daken

Het classificeren van hoortoestel modaliteiten m.b.v. een Big Data benadering: Latent Class Trees analyse

Universiteit Gent. Faculteit Economie en Bedrijfskunde. Academiejaar

AI en Software Testing op de lange termijn

Adam Marciniec, Grzegorz Budzik Zaborniak

Neurale Netwerken en Deep Learning. Tijmen Blankevoort

Curriculum: Het vervolg

Krachtenveld. Masterprogramma Content & Knowledge Engineering. Ministerie OCW. ß-faculteit. onderwijsvisitatie. bacheloropleidingen.

Tentamen Kunstmatige Intelligentie (INFOB2KI)

Beta s rol in toekomstige PhD programma s

A Data Driven Journey Pieter de Kok RA AANJAGER CONEY. 31 oktober 2018

Fundamentals of Data Science

Master Wiskundige Ingenieurstechnieken

KLM Engineering & Maintenance. als service provider. Gilles van Hövell tot Westervlier. Programma manager. 9 november 2006

Operationeelrisicomodeleren

Robots en leerkrachten: Een explosieve mix? Platform L Antwerpen 21 november 2018

Sentimentanalyse voor online politieke berichtgeving

VERSLAG VAN DE LEERSTOEL PRODUCTIVITEIT IN DE PUBLIEKE SECTOR. Prof. Dr. J.L.T. Blank Den Haag, januari 2019

Vrije Universiteit Amsterdam. School of Business and Economics De Boelelaan HV Amsterdam. Transport and Supply Chain Management

Bijlage 1 Indeling programma s volgens onderdeel 7 van de TU/e Richtlijn Bachelor College

Ervaringen met begeleiding FTA cursus Deployment of Free Software Systems

AI en Data mining. Van AI tot Data mining. dr. Walter Kosters, Universiteit Leiden. Gouda woensdag 17 oktober

VALUE ENGINEERING: THE H E G A G ME! E

Info Support TechTalks

Het ALM beleid van Klaverblad

Inleiding Wat zijn paradata en welke data voor welk gebruik. verzamelen?

Programma Bachelor- en Masteropleiding Informatica

Onderwijs- en examenregeling van de bacheloropleiding

DANKBAARHEID, PSYCHOLOGISCHE BASISBEHOEFTEN EN LEVENSDOELEN 1

Pieter Duisenberg Voorzitter Vereniging van Universiteiten

RESEARCH DATA MANAGEMENT INNOVATIE & SURF

Diploma. Diploma. Distributed Planning of transport networks using multi-agent technology. Progress Report April, 2006

The Control Room of the Future

Research informatie- en datamanagement nieuwe taken voor bibliotheken in wetenschappelijke communicatie en ondersteuning bij onderzoek

Het computationeel denken van een informaticus Maarten van Steen Center for Telematics and Information Technology (CTIT)

Integratie in de praktijk

SCRUM en Agile IT ontwikkeling en de impact op governance

How legal technology solutions will change the legal-advice market

Ontdek de mogelijkheden

Workshop Big Data and Recruitment. Corné de Ruijt

TURNAROUND SCHEDULING 2.0

AMC seminar 10 oktober Nationaal Lucht- en Ruimtevaartlaboratorium National Aerospace Laboratory NLR

Regelgeving en toezicht op het gebruik van GNSS in Nederland. Lelystad, 14 november 2015

Executief Functioneren en Agressie. bij Forensisch Psychiatrische Patiënten in PPC Den Haag. Executive Functioning and Aggression

code University University

Inzet van kunstmatige intelligentie in het juridische domein

Bijlagen gentie. Bijlage. Bijlage. Bijlage - - vakgebied. Educatie en. Major van. Minor van

The Digital Professional. LIO-bijeenkomst Data-analyse en Auditing. Presentation by drs. Angelique Koopman RE RA. LIO bijeenkomst NBA, 25 juni 2018

De Relatie tussen Angst en Psychologische Inflexibiliteit. The Relationship between Anxiety and Psychological Inflexibility.

Het gebruik van data binnen Tax PwC Eric Dankaart November 2016

VERANDERING OK-PLANNING LEIDT TOT MINDER BEDDEN

Towards a competitive advantage

Abstracts, Titles, and Keywords 27 juni Workshop Schrijven is Blijven II Abstracts, Titles, and Keywords. Iwan Wopereis

van Werknemers Well-being Drs. P.E. Gouw

Data Driven Strategy The New Oil Using Innovative Business Models to Turn Data Into Profit

Overgangsregelingen Bachelor Economie en Informatica - vanaf 2006

Bullying in Schools for Special Education: Who Are the Defenders?

Relatie Algebra in een Intelligent Tutoring Systeem

Deze presentatie. Gebruik bronnen. Wat voor bronnen? ZOEKEN VAN WETENSCHAPPELIJKE LITERATUUR

Faculteit der Wiskunde en Natuurwetenschappen van de Universiteit Leiden &

Het licht zien in kantoortuinen gezondere medewerkers en een lager energieverbruik

Datagedreven sturen, en hoe dan ZGW?

Voorwoord. V e e l l e e s p l e z i e r, R o b e r t M e n t i n k. Erasmus Universiteit Bestuurskunde Publiek Management 2

Wat kan BIM betekenen voor de gebouwbeheerder?

Curriculum Afkortingen Bachelor Informatica Propedeuse Postpropedeuse Start Vervolg Afsluiting 60,0 Gebonden keuze (8,6 EC) Afsluiting

Informatica aan de Universiteit Antwerpen

INZET VAN MACHINE LEARNING

Curriculum Afkortingen Bachelor Informatica Propedeuse Postpropedeuse Start Vervolg Afsluiting 60,0 Gebonden keuze (8,6 EC) Afsluiting

Inleiding. Workshop: Symposium Informatievaardigheden voor informatici. Workshop 7 1

DATA SCIENCE BUSINESS INTELLIGENCE STANDARD REPORTS STANDARD DASHBOARDS SELF SERVICE BI PREDICTIVE ANALYTICS DATA EXPLORATION

Data mining Van boodschappenmandjes tot bio-informatica

De convergentie naar gemak. Hans Bos,

BiZZdesign. Bouwen van sterke en wendbare organisaties met behulp van standaarden, methode, technieken en tools. Research & Development

2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.

Tinnitus kwaliteit van leven en kosten. Besluitvorming. Vergoeding in Nederland. Effecten: kwaliteit van leven. Economische Evaluatie

Mining Social Structures from Genealogical Data (MISS)

Transcriptie:

Masterscriptie Business Analytics Op tijd vertrekken Verklaringen voor ADC dispunctualiteit op ICA vluchten Nivard van Wijk Begeleiders: dr. Evert Haasdijk drs. Simone van Neerven dr. Fetsje Moné Bijma Juli 2013 PUBLIEKE VERSIE KLM Tactical Planning Havenmeesterweg 1 1118 BG Luchthaven Schiphol Vrije Universiteit Amsterdam Faculteit der Exacte Wetenschappen De Boelelaan 1081a 1081 HV Amsterdam

Voorwoord De masteropleiding Business Analytics aan de Vrije Universiteit van Amsterdam wordt afgesloten met een afstudeerstage. Het doel van deze stage is om de verschillende onderdelen van de opleiding, namelijk bedrijfskunde, informatica en wiskunde, terug te laten komen in een onderzoek naar een specifiek bedrijfsprobleem. Deze masterscriptie is geschreven in opdracht van de business unit Hub Operations van de KLM. In eerste instantie wil ik graag de KLM bedanken voor de mogelijkheid die zij mij hebben geboden om mijn afstudeeronderzoek uit te voeren. In het bijzonder gaat mijn dank uit naar mijn begeleidster Simone van Neerven en de (ex-)medewerkers van de afdeling Tactical Analysis: Ben Versteege, Serdar Cifoglu, Ineke Robertus, Atilla Selçuk en Richard Hofman, voor de vrijheid en adviezen die zij tijdens mijn onderzoek hebben gegeven. Vanuit de VU wil ik graag mijn begeleider Evert Haasdijk bedanken. Zijn aanwijzingen en enthousiasme zijn van zeer groot belang geweest voor het slagen van dit onderzoek. Verder gaat mijn dank uit naar Fetsje Moné Bijma, die de taak van tweede lezer op haar heeft genomen. Mijn mede-studenten en in het bijzonder Nick Groen, wil ik danken voor het meedenken bij alle problemen die tijdens dit onderzoek opkwamen. Nivard van Wijk - Amsterdam, 2013 i

ii

Inhoudsopgave 1 Inleiding 1 1.1 Probleemstelling........................................... 1 1.2 Literatuuronderzoek......................................... 2 1.2.1 Wetenschappelijk onderzoek................................ 2 1.2.2 Intern KLM onderzoek.................................... 3 1.3 Structuur............................................... 3 2 Afhandelingsproces van vluchten 5 2.1 Type vluchten............................................ 5 2.2 Losse aankomst........................................... 6 2.3 Los vertrek.............................................. 7 2.4 Omdraai............................................... 7 3 Data beschrijving 9 3.1 Data voorbereiding......................................... 9 3.2 Vluchteigenschappen........................................ 10 3.3 Kritieke subprocessen........................................ 10 3.4 Verband ADC en kritieke subprocessen.............................. 12 4 Data mining methoden 13 4.1 Performance meting......................................... 13 4.2 Decision tree............................................. 14 4.2.1 C4.5 algoritme........................................ 15 4.2.2 Ongebalanceerde data in C4.5............................... 15 4.3 Subgroup discovery......................................... 16 4.3.1 Pattern team......................................... 17 4.3.2 Verschil tussen subgroup discovery en decision trees................... 17 4.4 Support vector machines...................................... 18 4.4.1 Soft-margin SVM...................................... 18 4.4.2 Non-linear SVM....................................... 19 4.4.3 Ongebalanceerde data in SVM............................... 20 4.4.4 Belangrijkste variabelen................................... 20 4.4.5 Versnellen van het SVM-RFE algoritme.......................... 20 4.5 Implementatie............................................ 21 4.5.1 J48 in WEKA........................................ 21 4.5.2 SD in Cortana........................................ 22 iii

4.5.3 Libsvm............................................ 22 5 Resultaten 23 5.1 Decision tree met resampling.................................... 23 5.2 Decision tree unsampled...................................... 24 5.3 Subgroup discovery......................................... 25 5.4 Support vector machines...................................... 26 5.5 Vergelijking boarding patronen................................... 26 5.6 Vergelijking data mining methoden................................. 27 6 Conclusie 29 6.1 Discussie.............................................. 30 6.2 Aanbevelingen............................................ 31 A Empirische verdeling doorlooptijd 33 B Variabelen per vlucht 35 C Constructie van SVM 39 C.1 Optimale hypervlak methode.................................... 39 C.2 Soft-margin SVM methode..................................... 40 C.3 Non-linear SVM methode...................................... 41 C.4 Kernel functies............................................ 42 D Aangepast SVM-RFE algoritme 43 E Beam-search Subgroup Discovery 45 F Gevonden patronen 47 G Belangrijkste variabelen per subproces 51 Literatuurlijst 53 iv

Literatuurlijst [1] Alpaydin, E.: Introduction to Machine Learning. The MIT Press, 2010, ISBN 978 0 262 01243 0. [2] Atzmüller, M.: Knowledge-intensive Subgroup Mining: Techniques for Automatic and Interactive Discovery. proefschrift, Bayerischen Julius Maximilians Universität Würzburg, 2006. [3] Boser, B., I. Guyon, en V. Vapnik: A training algorithm for optimal margin classifiers. In Proceedings of the fifth annual workshop on Computational learning theory, pag. 144 152. ACM, 1992. [4] Chawla, N. V.: C4.5 and imbalanced data sets: investigating the effect of sampling method, probabilistic estimate, and decision tree structure. In Proceedings of the ICML 03 Workshop on Class Imbalances, 2003. [5] Cortes, C. en V. Vapnik: Support-vector networks. Machine learning, 20(3):273 297, 1995. [6] Estabrooks, A., T. Jo, en N. Japkowicz: A multiple resampling method for learning from imbalanced data sets. Computational Intelligence, 20(1):18 36, 2004. [7] Gamberger, D. en N. Lavrač: Expert-Guided Subgroup Discovery: Methodology and Application. Journal of Artificial Intelligence Research, 17:501 527, 2002. [8] Ghattas, B. en A. B. Ishak: An efficient method for variable selection using SVM based criteria. Preprint IML, 2007. [9] Hsu, C. W., C. C. Chang, C. J. Lin, et al.: A practical guide to support vector classification, 2003. [10] Knobbe, A. J. en E. K. Ho: Pattern teams. In Knowledge Discovery in Databases: PKDD 2006, pag. 577 584. Springer, 2006. [11] Kruskal, W. H. en W. A. Wallis: Use of ranks in one-criterion variance analysis. Journal of the American statistical Association, 47(260):583 621, 1952. [12] Liu, X., J. Beltran, N. Mohanchandra, en G. Toussaint: On speeding up support vector machines: proximity graphs versus random sampling for pre-selection condensation. World Academy of Science, Engineering and Technology, 73:905 912, 2013. [13] Mitchell, T.: Machine learning. McGraw-Hill, 1997, ISBN 0-07-115467-1. [14] Mueller, E. R. en G. B. Chatterji: Analysis of aircraft arrival and departure delay characteristics. In Proceedings of the AIAA Aircraft Technology, Integration, and Operations (ATIO) Conference, Los Angeles, CA. Citeseer, 2002. [15] Neerven, S. van: A0 effecten op hub SPL: NOC, MHB, ADC. KLM intern, juli 2012. 1

[16] Neerven, S. van: Boarding proces irt PDC: Nadere analyse tbv targetsetting. KLM intern, januari 2013. [17] Osuna, E., R. Freund, en F. Girosi: Support vector machines: Training and applications. A.I. Memo, (1602), 1997. [18] Quinlan, J. R.: C4.5: programs for machine learning. Morgan kaufmann, 1e druk, 1993, ISBN 1-55860-238-0. [19] Rakotomamonjy, A.: Variable selection using svm based criteria. The Journal of Machine Learning Research, 3:1357 1370, 2003. [20] Selçuk, A.: ADC-performance: EUR 73J-73H-73W. KLM intern. [21] Vapnik, V.: The nature of statistical learning theory. Springer, 1995, ISBN 0-387-98780-0. [22] Veropoulos, K., C. Campbell, en N. Cristianini: Controlling the Sensitivity of Support Vector Machines. In Proceedings of the International Joint Conference on AI, pag. 55 60, 1999. [23] Wang, J., P. Neskovic, en L. N. Cooper: Selecting data for fast support vector machines training. In Trends in neural computation, pag. 61 84. Springer, 2007. [24] Wilcoxon, F.: Individual comparisons by ranking methods. Biometrics bulletin, 1(6):80 83, 1945. [25] Wu, C. L.: Inherent delays and operational reliability of airline schedules. Journal of Air Transport Management, 11(4):273 282, 2005. [26] Wu, C. L. en R. E. Caves: Aircraft operational costs and turnaround efficiency at airports. Journal of Air Transport Management, 6(4):201 208, 2000. [27] Wu, C. L. en R. E. Caves: Flight schedule punctuality control and management: A stochastic approach. Transportation planning and technology, 26(4):313 330, 2003. [28] Wu, C. L. en R. E. Caves: Modelling and simulation of aircraft turnaround operations at airports. Transportation Planning and Technology, 27(1):25 46, 2004. 2