Statistische projectcontrole: combinatorische optimalisatie

Maat: px
Weergave met pagina beginnen:

Download "Statistische projectcontrole: combinatorische optimalisatie"

Transcriptie

1 FACULTEIT ECONOMIE EN BEDRIJFSKUNDE Academiejaar Statistische projectcontrole: combinatorische optimalisatie Masterproef voorgedragen tot het bekomen van de graad van Master Of Science in de toegepaste economische wetenschappen: handelsingenieur afstudeerrichting operationeel management Annelies Martens onder leiding van Prof. dr. M. Vanhoucke en J. Colin

2

3 FACULTEIT ECONOMIE EN BEDRIJFSKUNDE Academiejaar Statistische projectcontrole: combinatorische optimalisatie Masterproef voorgedragen tot het bekomen van de graad van Master Of Science in de toegepaste economische wetenschappen: handelsingenieur afstudeerrichting operationeel management Annelies Martens onder leiding van Prof. dr. M. Vanhoucke en J. Colin

4 PERMISSION Ondergetekende verklaart dat de inhoud van deze masterproef mag geraadpleegd en/of gereproduceerd worden, mits bronvermelding. Datum: 20 mei 2014 Annelies Martens

5 Woord vooraf Ter afronding van mijn vijfjarige opleiding Handelsingenieur aan de Universiteit Gent schreef ik deze masterproef. Het schrijven van deze masterproef was een uitdaging, maar ook een enorm leerrijke ervaring. Zonder de steun en inbreng van een aantal mensen had ik deze masterproef echter niet kunnen verwezenlijken. Graag maak ik van de gelegenheid gebruik om deze mensen te bedanken. Ik denk daarbij eerst en vooral aan Prof. Dr. Mario Vanhoucke en Jeroen Colin. Prof. Dr. Mario Vanhoucke wil ik bedanken voor de mogelijkheid om deze masterproef te schrijven en om mijn interesse in project management aan te wakkeren met zijn aanstekelijk enthousiasme over het onderwerp. Daarnaast gaat mijn dank uit naar Jeroen Colin. Zijn uitstekende begeleiding, suggesties en opmerkingen zijn enorm waardevol geweest. Verder wil ik ook mijn ouders en zus bedanken voor hun steun en vertrouwen. Een extra woord van dank gaat uit naar mijn mama, die deze masterproef nagelezen heeft. I

6 II

7 Inhoudsopgave Woord vooraf Lijst van afkortingen Lijst van figuren Lijst van tabellen I VII IX XI Inleiding 2 I Literatuurstudie 5 1 Earned Value Management Inleiding EVM metrics EVM performance measures Variances Dimensieloze metrics Voorspellen met EVM Voorspellen van de totale kost Voorspellen van de totale tijdsduur Multivariabele regressiemethodes Meervoudige lineaire regressie (MLR) Eén afhankelijke variabele Meerdere afhankelijke variabelen III

8 2.1.3 Bepalen van regressiecoëfficiënten: kleinste-kwadratenmethode Kritiek op MLR Principal Component Regression (PCR) Principale Componentenanalyse (PCA) Het PCR model Partial Least Squares Regression (PLSR) Inleiding tot PLSR Het PLSR model Latente variabelen berekenen: PLSR algoritme Priority-based linear component analysis (PLCA) Schedule Sensitivity Index (SSI) Het PLCA model Forecasting op basis van PCA, PLSR en PLCA Onvolledige data aanvullen Conditional mean replacement Onvolledige data aanvullen bij PLCA Aantal principale componenten en latente variabelen bepalen Rules of thumb Berekeningsintensieve methodes: cross validation Forecast Accuracy Measures Mean Absolute Deviation: MAD Mean Absolute Percentage Error (MAPE) Mean Percentage Error (MPE) Mean Squared Error (MSE) II Onderzoeksmethodiek en -resultaten 35 4 Onderzoeksmethodiek Project- en simulatiegegevens Selectie van de projecten Monte Carlo simulaties IV

9 4.2 Scenarioanalyse Onderzoeksresultaten General performance General performance voor scenario 1 (vroegtijdige projecten) General performance voor scenario 2 (projecten op schema) General performance voor scenario 3 (laattijdige projecten) Seriële versus parallelle projecten Invloed van netwerktopologie voor scenario 1 (vroegtijdige projecten) Invloed van netwerktopologie voor scenario 2 (projecten op schema) Invloed van netwerktopologie voor scenario 3 (laattijdige projecten) Sensitivity: wijzigingen in het gemiddelde PLSR PCR PLCA Sensitivity: wijzigingen in de standaarddeviatie PLSR PCR PLCA Onderlinge vergelijken van de drie scenario s PLSR PCR PLCA Samenvatting van de resultaten Suggesties voor verder onderzoek Algemeen besluit 61 Bibliografie 63 A NIPALS algoritme i B PLS algoritme iii V

10 C Priority-based Linear Component Analysis: PLCA algoritme v D Sensitivity voor PCR vii D.1 Sensitivity voor wijzigingen in het gemiddelde vii D.2 Sensitivity voor wijzigingen in de standaardafwijking xi E Verband tussen duurtijd van de activiteiten en EVM-parameters xv F Voorspelde vs. werkelijke duurtijden xvii VI

11 Lijst van afkortingen AC Actual Cost AD Actual Duration AD Actual Time BAC Budget At Completion CI Criticality Index CPI Cost Performance Index CRI Cruciality Index CV Cost Variance EAC Estimated Cost At Completion ES Earned Schedule EV Earned Value EVM Earned Value Management LC Lineaire Component MAD Mean Absolute Deviation MAPE Mean Absolute Percentage Error VII

12 MPE Mean Percentage Error MSE Mean Squared Error NIPALS Non-linear Iterative Partial Least Squares PC Percentage Completed PCWR Planned Cost of Work Remaining PD Planned Duration PDWR Planned Duration of Work Remaining PF Performance Index PLCA Priority-based Linear Component Analysis PRESS Prediction Error Sum of Squares PV Planned Value SPI Schedule Performance Index SSI Schedule Sensitivity Index SV Schedule Variance VIII

13 Lijst van figuren 2.1 Transformatie naar principale componenten-assenstelsel. (Bron: eigen productie) Scree plot. (Bron: eigen productie op basis van gesimuleerd project met SP=0.9) Overzicht van de prestatie van de verschillende methodes (Scenario 1, SP = 0.1) Overzicht van de prestatie van de verschillende methodes (Scenario 1, SP = 0.5) Overzicht van de prestatie van de verschillende methodes (Scenario 1, SP = 0.9) Overzicht van de prestatie van de verschillende methodes (Scenario 2, SP = 0.1) Overzicht van de prestatie van de verschillende methodes (Scenario 2, SP = 0.5) Overzicht van de prestatie van de verschillende methodes (Scenario 2, SP = 0.9) Overzicht van de prestatie van de verschillende methodes (Scenario 3, SP = 0.1) Overzicht van de prestatie van de verschillende methodes (Scenario 3, SP = 0.5) Overzicht van de prestatie van de verschillende methodes (Scenario 3, SP = 0.9) Invloed van de netwerktopologie op voorspellingsfout (Scenario 1, PLSR) Invloed van de netwerktopologie op voorspellingsfout (Scenario 1, PCR) Invloed van de netwerktopologie op voorspellingsfout (Scenario 1, PLCA) Invloed van de netwerktopologie op voorspellingsfout (Scenario 2, PLSR) Invloed van de netwerktopologie op voorspellingsfout (Scenario 2, PCR) Invloed van de netwerktopologie op voorspellingsfout (Scenario 2, PLCA) Invloed van de netwerktopologie op voorspellingsfout (Scenario 3, PLSR) Invloed van de netwerktopologie op voorspellingsfout (Scenario 3, PCR) Invloed van de netwerktopologie op voorspellingsfout (Scenario 3, PLCA) Invloed van wijzigingen in het gemiddelde (PLSR) Invloed van wijzigingen in het gemiddelde (PCR) IX

14 5.21 Invloed van wijzigingen in het gemiddelde (PLCA) Invloed van wijzigingen in de standaarddeviatie (PLSR) Invloed van wijzigingen in de standaarddeviatie (PCR) Invloed van wijzigingen in de standaarddeviatie (PLCA) Invloed van wijzigingen in de standaarddeviatie (PLSR) Invloed van wijzigingen in de standaarddeviatie (PCR) Invloed van wijzigingen in de standaarddeviatie (PLCA) D.1 Invloed van wijzigingen in het gemiddelde (SP = 0.1) vii D.2 Invloed van wijzigingen in het gemiddelde (SP = 0.2) vii D.3 Invloed van wijzigingen in het gemiddelde (SP = 0.3) viii D.4 Invloed van wijzigingen in het gemiddelde (SP = 0.4) viii D.5 Invloed van wijzigingen in het gemiddelde (SP = 0.5) viii D.6 Invloed van wijzigingen in het gemiddelde (SP = 0.6) ix D.7 Invloed van wijzigingen in het gemiddelde (SP = 0.7) ix D.8 Invloed van wijzigingen in het gemiddelde (SP = 0.8) ix D.9 Invloed van wijzigingen in het gemiddelde (SP = 0.9) x D.10 Invloed van wijzigingen in de standaarddeviatie (SP = 0.1) xi D.11 Invloed van wijzigingen in de standaarddeviatie (SP = 0.2) xi D.12 Invloed van wijzigingen in de standaarddeviatie (SP = 0.3) xi D.13 Invloed van wijzigingen in de standaarddeviatie (SP = 0.4) xii D.14 Invloed van wijzigingen in de standaarddeviatie (SP = 0.5) xii D.15 Invloed van wijzigingen in de standaarddeviatie (SP = 0.6) xii D.16 Invloed van wijzigingen in de standaarddeviatie (SP = 0.7) xiii D.17 Invloed van wijzigingen in de standaarddeviatie (SP = 0.8) xiii D.18 Invloed van wijzigingen in de standaarddeviatie (SP = 0.9) xiii E.1 SPI 25 in functie van x xvi E.2 SPI 75 in functie van x 1 en x xvi F.1 PCR forecast voor activiteit 1 in scenario 2. (SP = 0.5, PD = 100) xvii F.2 PLSR forecast voor activiteit 1 in scenario 2. (SP = 0.5, PD = 100)..... xviii F.3 PLCA f orecast voor activiteit 1 in scenario 2. (SP = 0.5, PD = 100).... xviii X

15 Lijst van tabellen 4.1 Parametervectoren voor de generalized beta distributie XI

16 XII

17 Inleiding Projecten die niet verlopen zoals verwacht: vroeg of laat krijgen we er allemaal mee te maken. Kosten en duurtijden worden verkeerd ingeschat, of door toevalligheden wordt de zorgvuldig opgestelde planning in de war gestuurd. De deadline voor de paper die je zeker dacht te halen, blijkt plots toch onhaalbaar te zijn. De kosten van de verbouwingen aan je huis blijken veel hoger te worden dan verwacht, waardoor je budget ruimschoots overschreden zal worden. Het kan natuurlijk ook in de positieve zin voorvallen: de vervelende wegenwerken in je dorp die een maand vroeger gedaan zijn dan verwacht, bijvoorbeeld. Het is duidelijk dat het onmogelijk is om op voorhand te voorspellen hoe een project precies zal verlopen. Dat betekent echter niet dat het vooropgestelde schedule geen waarde heeft. Integendeel, het kan dienen als maatstaf om het verloop van projecten te evalueren. Daarom is het monitoren van projecten zo belangrijk. Hoe sneller afwijkingen van het plan gedetecteerd worden, hoe sneller maatregelen genomen kunnen worden om het project terug op het juiste spoor te krijgen. Naast het detecteren van afwijkingen wanneer ze zich voordoen is het ook belangrijk om op basis van de metingen een inschatting te kunnen maken over het verder verloop van het project. Op die manier kan de projectmanager sneller corrigerende maatregelen nemen. Afwijkingen kunnen voorkomen langs de kostenzijde van het project, de duurtijdzijde van het project, of een combinatie van beide. In deze scriptie wordt gefocust op het forecasten van het tijdsaspect van projecten. In het eerste deel van deze masterproef worden de basisprincipes van statistische projectcontrole besproken. In hoofdstuk 1 komen de Earned Value Management-concepten aan bod. Deze EVM concepten zullen later immers gebruikt worden bij het toepassen van de principale componentenanalyse. Hoofdstuk 2 belicht enkele belangrijke multivariabele statistische projectiemethoden. De drie methodes die in het onderzoek in deel 2 toegepast worden (PCR, 1

18 PLSR en PLCA), worden theoretisch behandeld. Hoofdstuk 4 ten slotte bespreekt het forecasten met de methodes besproken in hoofdstuk 3. Deel 2 handelt over het onderzoek van deze masterproef. Hoofdstuk 4 belicht de onderzoeksmethode. Zowel de gesimuleerde projectgegevens als de gekozen scenario s worden besproken. In hoofdstuk 5 worden de onderzoeksresultaten besproken. Eerst worden de drie projectiemethodes met elkaar vergeleken. Vervolgens wordt de prestatie bij seriële en parallelle projecten van elke methode onderzocht. Ook de robuustheid van de verschillende modellen wordt vergeleken op basis van een sensitivity experiment. In hoofdstuk 6 volgt ten slotte een algemene conclusie. 2

19 Notaties en nomenclatuur SYMBOOL BETEKENIS DIMENSIE n aantal steekproeven constante K aantal projectvariabelen constante A aantal principale componenten/ latente variabelen constante L aantal activiteiten constante X datamatrix met projectvariabelen (n K) T scores matrix (n A) P loadings matrix (K A) E residual matrix (n K) Y matrix met de werkelijke duurtijden van de activiteiten (n L) Kolomvectoren worden in deze scriptie aangeduid met kleine, vette letters (bv. p). Rijvectoren worden aangeduid als een getransponeerde kolomvector (bv. p T of p t ). Voor tweedimensionale matrices worden vette hoofdletters gebruikt (bv. P). 3

20 4

21 Deel I Literatuurstudie 5

22

23 Hoofdstuk 1 Earned Value Management 1.1 Inleiding In Project Management is Earned Value Management (EVM) een wijdverspreide methode om de voortgang van projecten op te volgen in termen van duurtijd, scope en kost. EVM kan zowel gebruikt worden om projecten te controleren als om projecten te voorspellen (Vanhoucke, 2012b). Het referentiepunt om de progressie van een project te meten is het opgestelde baseline schedule. Om de EVM parameters te kunnen berekenen zijn er twee soorten variabelen nodig: ten eerste de statische variabelen, de planned duration en het budget at completion. Deze variabelen wijzigen niet gedurende het verloop van het project en dienen als referentiepunten. Daarnaast zijn er ook dynamische variabelen die wijzigen tijdens het verloop van het project, namelijk de actual duration en de actual cost. Planned Duration (PD): de verwachte totale duurtijd van het project Budget At Completion (BAC): de verwachte totale kost van het project Actual Duration (AD) of Actual Time (AD): het aantal tijdsperiodes (dagen, weken...) dat een project al aan de gang is. In secties 1.2 en 1.3 wordt een overzicht van de belangrijkste EVM-parameters en performance measures gegeven en is gebaseerd op Vanhoucke (2012b) en Lipke et al. (2009). Sectie 1.4 behandelt de EVM forecasting measures EAC en EAC(t) (Vanhoucke and Vandevoorde, 2006). 7

24 Hoofdstuk 1. Earned Value Management 1.2 EVM metrics De drie originele EVM parameters zijn Planned Value, Actual Cost en Earned Value. Een uitbreiding op deze parameters is Earned Schedule. Planned Value (PV) De Planned Value is een parameter om het geplande werk te waarderen. Het stelt de monetaire waarde voor van het werk dat men op het tijdstip AT voltooid zou moeten hebben volgens het baseline schedule. Actual Cost (AC) De Actual Cost geeft de werkelijke cumulatieve uitgaven op tijdstip AD weer. Earned Value (EV) De Earned Value wordt berekend door de percentage completion (PC) te vermenigvuldigen met de BAC van het project. Het stelt de waarde voor van het werk dat men op het tijdstip AT werkelijk voltooid heeft. Als de EV kleiner is dan de PV, dan is er minder werk afgewerkt dan voorzien in het baseline schedule. Als de EV groter is dan de PV is er dus al meer werk voltooid dan gepland. Earned Schedule (ES) De Earned Schedule is een uitbreiding op de EV (Lipke et al., 2009). Terwijl de EV een uitdrukking in monetaire termen is, is de ES uitgedrukt in tijdseenheden. De ES wordt als volgt berekend: ES = t + EV-PV t PV t+1 PV t (1.1) De ES-metric is ontwikkeld als kritiek op de performance measures SV en SPI (cf. sectie 1.3.1). 1.3 EVM performance measures Met de performance measures kan het werkelijk verloop van het project vergeleken worden met het baseline schedule. Er zijn twee types metrics: variances enerzijds en unitless indicators 8

25 Hoofdstuk 1. Earned Value Management anderzijds Variances De cost variance (CV) meet het kostenaspect van het project. De schedule variance (SV) en SV t hebben betrekking op het tijdsaspect. CV = EV - AC De cost variance vergelijkt de gemaakte kosten op tijdstip AT met de geplande kosten op dat moment. Er zijn drie scenario s mogelijk: CV = 0: gemaakte kosten verlopen zoals gepland < 0: gemaakte kosten zijn hoger dan gepland > 0: gemaakte kosten zijn lager dan gepland SV = EV - PV De schedule variance drukt (in monetaire termen) het verschil uit tussen het geplande en voltooide werk: SV = 0: project verloopt volgens plan < 0: project verloopt trager dan gepland > 0: project verloopt sneller dan gepland Op het einde van een project zal de SV steeds naar 0 convergeren, aangezien de EV en PV op het einde beiden gelijk zijn aan het BAC. Naarmate een project vordert en zijn eindfase nadert, wordt de SV misleidend. Om dat probleem te vermijden werd de SV(t) ontwikkeld (Lipke, 2003). SV(t)= ES - AT De SV(t) drukt het verschil in tijd uit tussen het geplande en het voltooide werk. Deze performance measure is daardoor duidelijker te interpreteren dan de SV. Bovendien duidt de SV(t) op het einde van het project het reële tijdsverschil aan tussen de geplande en effectieve 9

26 Hoofdstuk 1. Earned Value Management duurtijd van het volledige project: SV(t) = 0: project verloopt volgens plan < 0: project verloopt trager dan gepland > 0: project verloopt sneller dan gepland Dimensieloze metrics Omdat de varianties in monetaire termen (voor CV en SV) of tijdseenheden (voor SV(t)) worden uitgedrukt, hangt hun waarde af van de meeteenheid. De cost performance index (CPI), schedule performance index (SPI) en de SPI(t) drukken echter de procentuele efficiëntie van het project ten opzichte van het baseline schedule uit. CPI= EV AC De CPI is een maat voor de kostenefficiëntie van het voltooide werk ten opzichte van het baseline schedule: CPI = 1: gemaakte kosten verlopen volgens het budget < 1: gemaakte kosten zijn hoger dan het geplande budget > 1: gemaakte kosten zijn lager dan het geplande budget SPI= EV PV De efficiëntie in termen van duurtijd wordt uitgedrukt door de SPI: SPI = 1: project verloopt volgens plan < 1: project loopt achter op schema > 1: project loopt voor op schema De kritiek op de SPI is gelijkaardig aan de kritiek op de SV: aangezien zowel de EV als de PV op het einde van het project gelijk zijn aan het BAC, zal ook de SPI convergeren, naar een waarde van 1 deze keer. SPI(t)= ES AT De SPI(t), gebaseerd op het ES concept, is een alternatief voor de SPI. Op het einde van het 10

27 Hoofdstuk 1. Earned Value Management project geeft de SPI(t) de reële procentuele afwijking ten opzichte van het baseline schedule weer: SPI(t) = 1: project verloopt volgens plan < 1: project loopt achter op schema > 1: project loopt voor op schema 1.4 Voorspellen met EVM Met de Estimated duration at Completion (EAC(t)) en de Estimated cost at completion (EAC) kan de projectmanager zowel de uiteindelijke tijdsduur als de uiteindelijke kost van zijn project voorspellen, gebaseerd op de voortgang van het project tot nu toe en op assumpties over de toekomst. De algemene formules zijn: EAC(t) = AD + PDWR met AD Actual Duration PDWR Planned Duration of Work Remaining EAC = AC + PCWR met AC Actual Cost PCWR Planned Cost of Work Remaining Voorspellen van de totale kost De algemene formule om de finale kost van een project te voorspellen wordt gegeven door: EAC = AC + BAC-EV, met PF = Performance Factor (1.2) PF De keuze van de Performance Factor hangt af van de gemaakte assumptie over het verwachte toekomstige verloop van het project. Enkele mogelijkheden zijn: ˆ PF = 1: ˆ PF = CPI: Project verloopt verder volgens plan. Project verloopt verder volgens de huidige cost performance. ˆ PF = SPI of SPI(t): Project verloopt verder volgens de huidige time performance. 11

28 Hoofdstuk 1. Earned Value Management Ook een gewogen Performance Factor die zowel het kosten- als tijdsaspect in overweging neemt is mogelijk, bijvoorbeeld PF = 0.5CPI + 0.5SPI (Vanhoucke, 2012b) Voorspellen van de totale tijdsduur Er bestaan verschillende methoden om de Time Estimate at Completion te berekenen, zoals de Planned Value Method (Anbari, 2003), de Earned Duration Method (Jacob, 2003) en de Earned Schedule Method (Lipke, 2003). Algemeen wordt de EAC(t) ES als volgt berekend: De ES Method wordt hier verder beschreven. EAC(t) ES = AD + PD-ES, met PF= Performance Factor (1.3) PF De gebruikte Performance Factor is afhankelijk van de gemaakte assumptie over het toekomstig verloop van het project: ˆ PF = 1: Project verloopt verder volgens plan. (1) ˆ PF = SPI(t): Project verloopt verder volgens de huidige SPI(t). (2) ˆ PF = SCI(t): Project verloopt verder volgens de huidige SCI(t). 1 (3) De formules zijn respectievelijk: 1. EAC(t) ES1 = AD + (PD-ES) 2. EAC(t) ES2 = AD + PD-ES SPI(t) 3. EAC(t) ES3 = AD + PD-ES SCI(t) 1 Schedule Cost Index, combineert het kosten-en tijdsaspect: SCI(t)=SPI(t) CPI (Christensen, 1994). 12

29 Hoofdstuk 2 Multivariabele regressiemethodes In dit hoofdstuk worden er enkele multivariabele regressiemethodes besproken. Sectie 2.1 start met een inleiding tot meervoudige lineaire regressie en bespreekt enkele nadelen van deze methode. Secties 2.2 en 2.3 behandelen de projectietechnieken PCR en PLSR. Ten slotte wordt in sectie 2.4 een nieuwe projectiemethode voorgesteld, namelijk Priority-based Linear Component Analysis (PLCA). Opmerking: herschalen van data In deze masterproef worden zowel PCR, PLSR en PLCA toegepast om een voorspellingsmodel op te stellen. Deze methodes zijn allemaal schaalafhankelijk. Dat betekent dat variabelen die in andere eenheden uitgedrukt staan het resultaat kunnen beïnvloeden, enkel en alleen door hun schaal. Variabelen uitgedrukt in mm hebben bijvoorbeeld een grotere absolute waarde dan variabelen uitgedrukt in m. Het is mogelijk dat de variabele in mm een groter deel van de totale variabiliteit verklaart, louter door zijn schaal. Om dit te vermijden is het aangewezen om de data onafhankelijk van hun schaal te maken. Dat kan door normalisatie: van iedere variabele wordt eerst zijn gemiddelde afgetrokken, daarna wordt dit verschil gedeeld door de standaarddeviatie van de variabele. De formule om data te standaardiseren ziet er dus als volgt uit: x genormaliseerd = x x σ x (2.1) Na het normaliseren van de variabelen heeft elke variabele dezelfde schaal en dus ook een gelijk gewicht in de analyse. In het verder verloop van deze masterproef wordt met datamatrix X 13

30 Hoofdstuk 2. Multivariabele regressiemethodes steeds de gestandaardiseerde datamatrix bedoeld. 2.1 Meervoudige lineaire regressie (MLR) Eén afhankelijke variabele Het doel van meervoudige lineaire regressie is het opstellen van een lineair verband tussen een afhankelijke variabele y en m onafhankelijke variabelen x i (i = 1,..., m). Het meervoudig lineair regressiemodel met één afhankelijke variabele kan mathematisch als volgt voorgesteld worden: y = b 1 x 1 + b 2 x 2 + b 3 x b m x m + e (2.2) met b i (i = 1,..., m) de regressiecoëfficiënten en e de storingsterm. Vergelijking 2.2 beschrijft het verband tussen y en de m onafhankelijke variabelen x i in het geval er slechts één steekproef is. Voor meerdere samples n kan de vergelijking voorgesteld worden als y=xb + e 1 (2.3) waarbij y en e kolomvectoren met dimensie (n 1) voorstellen, b een kolomvector met dimensie (m 1) en X de datamatrix met dimensie (n m) (Mardia et al., 1980) Meerdere afhankelijke variabelen Meervoudige lineaire regressie kan ook uitgevoerd worden als er meerdere afhankelijke variabelen zijn (Geladi and Kowalski, 1986). Voor onafhankelijke variabelen y 1 en y 2 afhankelijk van dezelfde variabelen x i kunnen er bijvoorbeeld twee afzonderlijke meervoudige lineaire regressies uitgevoerd worden: y 1 =Xb 1 + e 1 (2.4) y 2 =Xb 2 + e 2 Zowel y 1 en y 2, b 1 en b 2 als e 1 en e 2 kunnen echter ook naast elkaar geplaatst worden in een matrix. Voor L afhankelijke variabelen y l wordt de meervoudige lineaire regressie als volgt 1 De storingsterm wordt verondersteld normaal verdeeld te zijn met verwachtingswaarde 0 en standaardafwijking σ: e N(0, σ) 14

31 Hoofdstuk 2. Multivariabele regressiemethodes beschreven: y=xb+e (2.5) met de volgende dimensies: dim(y) = (n l) dim(x) = (n m) dim(b) = (m l) dim(e) = (n l) Bepalen van regressiecoëfficiënten: kleinste-kwadratenmethode Voor n samples en m onafhankelijke variabelen zijn er drie scenario s mogelijk: 1. m > n: Er zijn meer variabelen dan steekproeven. In deze situatie bestaan er oneindig veel mogelijke oplossingen voor b. Deze situatie moet dus vermeden worden. 2. m = n: Het aantal variabelen is gelijk aan het aantal steekproeven. Indien in dit scenario X een reguliere 2 matrix is, bestaat er een unieke oplossing voor b. Dit betekent dat de storingsterm gelijk is aan 0: e = y Xb = 0 (2.6) Deze situatie komt echter weinig voor. 3. m < n: Er zijn meer steekproeven dan variabelen. In dit geval is er geen exacte oplossing voor b. Er kan echter wel een best passend verband gevonden worden tussen de onafhankelijke variabelen en de te verklaren variabele(n). Dit gebeurt meestal met de kleinste-kwadratenmethode. Deze methode bepaalt b zodat de som van de gekwadrateerde afwijkingen (het verschil tussen de meting en de geschatte waarde) minimaal zijn (Mardia et al., 1980). De oplossing voor b is: b = (X T X) 1 X T y (2.7) 2 Een reguliere matrix (ook niet-singuliere matrix of matrix van volledige rang genoemd) heeft onafhankelijke kolommen en rijen. 15

32 Hoofdstuk 2. Multivariabele regressiemethodes Kritiek op MLR Een vaak voorkomend probleem bij MLR is (multi)collineariteit. Er is sprake van collineariteit als er een hoge correlatie bestaat tussen twee of meer verklarende variabelen van het regressiemodel. In dat geval kunnen kleine wijzigingen in de data grote veranderingen in de regressiecoëfficiënten veroorzaken. Mathematisch houdt (multi)collineariteit in dat de matrix (X T X) 1 uit vergelijking 2.7 niet inverteerbaar is, of dat de inverse onnauwkeurig is (Belsley et al., 1980). Zowel Principal Component Regression (sectie 2.2) als Partial Least Squares Regresssion (sectie 2.3) zijn methodes die dit collineariteitsprobleem oplossen. 2.2 Principal Component Regression (PCR) Principal Component Regression is een regressietechniek die de regressiecoëfficiënten schat met behulp van Principale Componentenanalyse. PCA bespreekt de eigenlijke PCR. In volgt een korte introductie tot Principale Componentenanalyse (PCA) Principale Componentenanalyse is een statistische techniek die een dataset van observaties met mogelijk gecorreleerde variabelen transformeert in een nieuwe dataset met lineair onafhankelijke variabelen, de principale componenten. Het maximaal aantal componenten bedraagt A = min(n, K). Omdat de componenten geordend worden volgens proportie verklaarde variantie is het mogelijk om een beperkt aantal componenten te selecteren zonder veel informatie te verliezen. Principale componenten De principale componenten ( of principal components, PCs) worden zo bepaald dat de eerste PC de grootste variantie in de dataset verklaart. De volgende PCs verklaren opnieuw de grootst mogelijke variantie, gegeven dat ze ongecorreleerd 3 zijn met de voorgaande PCs. De eerste principale component P C 1 van datamatrix X met K originele variabelen is de lineaire 3 De principale componenten zijn orthogonaal: het inproduct P C i, P C j = P C i P C j cos(θ), met i j, θ de hoek tussen beide PCs en P C i en P C j de norm van de PCs zijn. 16

33 Hoofdstuk 2. Multivariabele regressiemethodes combinatie van de originele variabelen die de grootste variantie heeft: PC 1 = p T 1 x = p 11x 1 + p 12 x p 1K x K (2.8) met p 1 orthonormaal 4. De tweede PC is de lineaire combinatie die orthogonaal is tot de eerste principale component en de tweede grootste variantie heeft: PC 2 = p T 2 x = p 21x 1 + p 22 x p 2K x K (2.9) met p 2 orthonormaal. De datamatrix X kan nu geschreven worden als: X = t 1 p T 1 + t 2 p T t K p T K, ofwel: (2.10) X = TP T (2.11) waarbij T en P respectievelijk de scoresmatrix en loadingsmatrix voorstellen. Loadings De loadings zijn de coëfficiënten van de principale componenten (zie vergelijkingen 2.8 en 2.9). De loadingsvector p i van de i-de principale component duidt dus het gewicht van iedere originele variabele in deze component aan. Het is dus mogelijk om het belang van de verschillende variabelen af te leiden uit de loadingsvectoren. De dimensie van de loadingsmatrix P is (K A), met K het aantal originele variabelen en A het aantal principale componenten. Scores De scores zijn het resultaat van de projectie van X op de loadings: t i = Xp T i voor i= 1,2,...,K (2.12) Net zoals de loadingsmatrix P heeft de scoresmatrix T dimensie (K A). Illustratie Voor 2 variabelen kan dit principe geïllustreerd worden in een tweedimensionaal assenstelsel (figuur 2.1). De orthogonaliteit van de principale componenten betekent dat de twee nieuwe assen loodrecht op elkaar staan (Joliffe, 2002). 4 p 1 = 1 17

34 Hoofdstuk 2. Multivariabele regressiemethodes PC 1 PC 2 x y PC 1 PC 2 x y Figuur 2.1: Transformatie naar principale componenten-assenstelsel. (Bron: eigen productie) Principale componenten berekenen: NIPALS algoritme Het NIPALS (Non-linear iterative partial least squares) algoritme is een van de methoden om de eigenvectoren te bepalen. De methode werd oorspronkelijk ontwikkeld voor PCA, maar kan ook bij andere methoden toegepast worden (bijvoorbeeld Partial Least Squares Regression, zie 2.3). Een stapsgewijze beschrijving van het algoritme kan gevonden worden in bijlage A (Wold et al., 1987) Het PCR model Bij Principal Component Regression wordt de onafhankelijke variabele geregresseerd op de scoresmatrix verkregen door de principale componentenanalyse. De transformatie van de originele datamatrix X kan afgeleid worden uit vergelijking 2.11: T = XP (2.13) De meervoudige lineaire regressie ziet er dan als volgt uit: Y = TB + E (2.14) 18

35 Hoofdstuk 2. Multivariabele regressiemethodes De geschatte regressiecoëfficiënten zijn van de vorm ˆB = (T t T) 1 T t Y (2.15) Voor- en nadelen van PCR PCR heeft twee belangrijke voordelen ten opzichte van meervoudige lineaire regressie. Ten eerste wordt het (multi)collineariteitsprobleem opgelost door de orthogonaliteit van de scores. Dankzij deze eigenschap kan de inverse van (T t T) immers altijd berekend worden. Daarnaast is het ook mogelijk om de minder belangrijke principale componenten niet op te nemen in het regressiemodel. Op die manier is het mogelijk om de storing door random errors te verminderen (Rawlings et al., 1998). Een nadeel van deze methode is dat ze in twee stappen verloopt (namelijk eerst de principale componentenregressie en nadien de regressie). Het is dus mogelijk dat een deel van de nuttige informatie vervat zit in de geëlimineerde principale componenten (Geladi and Kowalski, 1986). 2.3 Partial Least Squares Regression (PLSR) Inleiding tot PLSR Het doel van PLSR is om de multidimensionele richting in de X-ruimte te vinden die de maximale variatie in de Y-ruimte verklaart (terwijl PCA de richting zoekt die de maximale variatie in X verklaart). Net zoals PCR transformeert PLSR de originele datamatrix X vooraleer lineaire regressie toe te passen. PLSR verschilt echter van PCR en MLR in die zin dat zowel de onafhankelijke datamatrix X als de afhankelijke datamatrix Y geprojecteerd wordt op een nieuwe ruimte. Deze methode is daarom beter geschikt dan MLR en PCR wanneer de datamatrix X veel variabelen bevat die bovendien collineair zijn (Geladi and Kowalski, 1986) Het PLSR model Het PLSR model bestaat uit drie relaties: twee uitwendige relaties voor de individuele datamatrices X en Y enerzijds en een inwendige relatie die het verband legt tussen X en Y 19

36 Hoofdstuk 2. Multivariabele regressiemethodes anderzijds. De meest eenvoudige vorm van een PLSR-model ziet er als volgt uit: X = TP t + E (2.16) Y = UQ t + F (2.17) U = bt (2.18) waarbij vergelijkingen 2.16 en 2.17 de uitwendige relaties voorstellen en vergelijking 2.18 de lineaire relatie tussen de scores T en U. In deze vorm worden de latente variabelen voor X en Y apart berekend waardoor er een zwak verband is tussen beide. Dit probleem kan opgelost worden door de scores T en U uit te wisselen bij het bepalen van P en Q Latente variabelen berekenen: PLSR algoritme Het algoritme om de latente variabelen te berekenen is gebaseerd op het NIPALS algoritme. Een van de aanpassingen is dat de scores T en onderling uitgewisseld worden (cf. supra). Daarnaast is er een extra stap nodig om orthogonale t-scores te verkrijgen. De eerste latente variabele is de lineaire combinatie van X-variabelen die de covariantie tussen X 1 en Y 1 5 maximaliseert. Om de loadings van de latente variabele te berekenen worden eerst de gewichten van X 1 bepaald: met u een willekeurige kolom van Y 1. w 1 = XT 1 u 1 u T 1 u 1 De scores voor X 1 worden bepaald met de genormaliseerde X-gewichten: (2.19) t 1 = Xw 1 (2.20) De gewichten voor Y 1 worden als volgt berekend: q 1 = Yt 1 t T 1 t 1 (2.21) De eerste scoresvector voor Y 1 kan nu bepaald worden aan de hand van de genormaliseerde gewichten: u 1 = Yq 1,norm q T 1,norm q 1,norm (2.22) 5 X 1 en Y 1 zijn respectievelijk de originele, genormaliseerde X- en Y-matrix. 20

37 Hoofdstuk 2. Multivariabele regressiemethodes Bewerkingen 2.19, 2.20, 2.21 en 2.22 worden herhaald tot t 1 geconvergeerd is. Nadien kan de loadingsvector van X 1 berekend worden: p 1 = XT 1 t 1 t T 1 t 1 (2.23) Na het normaliseren van p 1 en het herschalen van t 1 en w 1 (zie bijlage B) kan de regressiecoëfficiënt voor de relatie tussen de X-scores en Y-scores bepaald worden: b = ut t t T t (2.24) Vooraleer de tweede latente variabele bepaald kan worden, worden de X- en Y-matrix gecorrigeerd: X 2 = X 1 t 1 p T 1 Y 2 = Y 1 b 1 t 1 q T 1 Het uitgewerkt algoritme kan gevonden worden in bijlage B. 2.4 Priority-based linear component analysis (PLCA) Zowel bij PCA als bij PLSR is het selecteren van het aantal componenten (en het selecteren van de juiste componenten) cruciaal om een model te bekomen dat een goede voorspellingskracht heeft (cf. sectie 3.2 ). Bovendien wordt er bij beide methoden geen rekening gehouden met de belangrijkheid van elke activiteit in een project. Elke activiteit wordt gelijk behandeld, terwijl sommige activiteiten een veel grotere invloed op het totale verloop van het project hebben dan andere. Daarom wordt in deze masterproef een methode voorgesteld die deze problemen vermijdt, namelijk Priority-based Linear Component Analysis (PLCA). De eerste stap bij PLCA is het ordenen van de activiteiten op basis van hun belangrijkheid. Mogelijke criteria om de activiteiten te rangschikken zijn bijvoorbeeld de (vaste of variabele) kost van de activiteit, de geplande duurtijd van de activiteit, of sensitivity measures zoals de Cruciality Index (CRI) of de Schedule Sensitivity Index (SSI). In deze masterproef gebeurde de rangschikking op basis van de SSI, een sensitivity measure voorgesteld door The Project Management Body Of Knowledge (PMBOK, 2004). 21

38 Hoofdstuk 2. Multivariabele regressiemethodes Schedule Sensitivity Index (SSI) De SSI is een metric die de standaarddeviaties van de activiteitsduurtijden en projectduurtijd (σ di en σ RD ) combineert met de criticality index (CI): [ ] Var(d i ) SSI = CI (2.25) Var(RD) De CI meet de waarschijnlijkheid dat een activiteit op het kritieke pad ligt en wordt uitgedrukt als een percentage: CI = Prob(tf i = 0) (2.26) met tf i de totale float van activiteit i. De schatting (gebaseerd op Monte Carlo simulaties) van de CI voor activiteit i wordt gegeven door: ĈI = 1 n l(tf k i = 0) (2.27) n k=1 met tf k i de totale float van activiteit i in run k en met 1, als G waar is l(g) = 0, als G onwaar is (2.28) Op basis van de Monte Carlo simulaties kan de SSI metric nu geschat worden op de volgende manier: (Vanhoucke, 2012a) ŜSI = σ d i ĈI σ RD (2.29) Het PLCA model Nadat de activiteiten gerangschikt zijn, kunnen de lineaire componenten berekend worden. Het bepalen van de eerste lineaire component gebeurt door de eerste activiteit in de rangschikking door de oorsprong te regresseren op de originele datamatrix (y 1 X 1 p 1 ). Op die manier vormen de regressiecoëfficiënten de loadings van de lineaire component voor de belangrijkste activiteit: LC 1 = p 11 x 1 + p 12 x p 1K x K (2.30) De scores T 1 van de eerste stap worden als volgt bepaald: t 1 = X 1 p 1 (2.31) 22

39 Hoofdstuk 2. Multivariabele regressiemethodes Om de tweede lineaire component te bepalen wordt eerst X 2 berekend: X 2 = X 1 t 1 p t 1 (2.32) De tweede lineaire component kan nu bepaald worden door de duurtijden van de tweede belangrijktste activiteit te regresseren op X 2 : y 2 X 2 p (2.33) De tweede lineaire component is dan: LC 2 = p 21 x 1 + p 22 x p 2K x K (2.34) De scores t 2 van de tweede stap zijn: t 2 = X 2 p 2 (2.35) Dit wordt herhaald voor alle activiteiten. Het eindresultaat van dit algoritme is een model met L lineaire componenten (L = aantal activiteiten), één voor elke activiteit. In bijlage C wordt het algoritme stapsgewijs beschreven. 23

40 Hoofdstuk 2. Multivariabele regressiemethodes 24

41 Hoofdstuk 3 Forecasting op basis van PCA, PLSR en PLCA 3.1 Onvolledige data aanvullen De projectmanager wil tijdens de uitvoering van zijn of haar project een inschatting kunnen maken over het toekomstige verloop. Daarom worden op bepaalde tijdstippen (bijvoorbeeld met een vast tijdsinterval van 5% BAC) metingen gedaan. Dit betekent dat de variabelen vanaf het huidig tijdstip tot het einde van het project onbekend zijn en geschat moeten worden. Voor t = (5 J)BAC zijn bijvoorbeeld enkel de eerste 4 J variabelen gekend. De overige K (4 J) moeten dus geschat worden. In het vervolg van deze masterproef zal het deel van datamatrix x dat gekend is aangeduid worden met x en het ontbrekende deel met x #. Het schatten van x # kan op verschillende manieren gebeuren, afhankelijk van de gemaakte assumpties over de toekomst (MacGregor and Kourtl, 1995). Indien men verwacht dat het project geen afwijkingen vertoont ten opzichte van het gemiddelde van de referentieprojecten kunnen alle ontbrekende waarden vervangen worden door 0 (MacGregor and Kourtl, 1995). Men kan ook veronderstellen dat het toekomstige verloop gelijkaardig zal zijn aan het huidige verloop. De ontbrekende waarden kunnen dan aangevuld worden met de meest recente metingen (Nomikos and MacGregor, 1994). Conditional mean replacement (CMR) is een derde methode om de ontbrekende data te schat- 25

42 Hoofdstuk 3. Forecasting op basis van PCA, PLSR en PLCA ten die wordt voorgesteld door Nelson et al. (1996). In deze masterproef werd gekozen om bij PCR en PLSR met CMR te werken omdat deze methode in extreme gevallen 1 superieur is aan andere methoden (Nelson et al., 1996). In sectie wordt de methode uitgebreid besproken. Bij PLCA wordt met de sweep operator gewerkt (sectie 3.1.2) Conditional mean replacement In deze masterproef wordt verondersteld dat er geen data ontbreken in de referentieset en dat het PCA- en PLSR-model dus volledig gekend is. Enkel voor uitvoeringen van toekomstige projecten moeten ontbrekende data geschat kunnen worden. Het schatten van de scores t gebeurt in twee fasen. Eerst worden de ontbrekende data x # geschat. Het schatten van ˆx # gebeurt door de ontbrekende data te vervangen door de conditionele verwachtingswaarde, gegeven de huidige data en schattingen voor het gemiddelde x en de covariantiematrix S: ˆx # = E[x # x, x, S] (3.1) Vervolgens kunnen de scores t geschat worden op basis van ˆx #, x en de loadingsvectoren. CMR kan zowel bij PCR als PLSR toegepast worden en wordt hieronder voor beide methodes besproken, zoals beschreven in Nelson et al. (1996). De eerste stap (zowel bij PCR als bij PLSR) is het hergroeperen van de variabelen x en de loadingsmatrix P: x = ˆx# en P = x P# P (3.2) PCR Bij PCR worden de ontbrekende waarden ˆx # geschat op basis van de gekende waarden ˆx, de referentieloadingsmatrix P en referentiescoresmatrix T: ˆx # = P # ΘP T [P ΘP T ] 1 x (3.3) met P # de kolomvectoren van P die overeenkomen met de ontbrekende variabelen, P * de kolomvectoren van P die overeenkomen met de gekende variabelen, Θ = TT T n 1 een (K K) matrix waarbij de elementen op de diagonaal de geschatte varianties van de latente variabelen 1 kritieke combinaties van data ontbreken 26

43 Hoofdstuk 3. Forecasting op basis van PCA, PLSR en PLCA voorstellen en n het aantal projecten in de referentieset. Eens de geschatte waarden voor x # gekend zijn, kunnen ook de scores geschat worden: ˆt 1:A,new = P T ˆx# 1:A (3.4) x PLSR De geschatte waarden ˆx # kunnen bij PLSR geschat worden op basis van de referentiedatamatrix X, de referentie loading weights W en de gekende waarden ˆx van de nieuwe projecten: ˆx # = W # ΩW T [W ΩW T ] 1 x (3.5), met W= WT X T XW n 1 en n het aantal projecten in de referentieset. Samen met de gekende waarden x * kunnen de geschatte waarden ˆx # gebruikt worden om de scores te schatten: ˆt 1:A,new = [W T 1:A,new P 1:A] 1 W T ˆx# 1:A (3.6) x Onvolledige data aanvullen bij PLCA Bij PLCA worden de ontbrekende data aangevuld met behulp van de sweep operator. Het schatten van de missing data x # gebeurt door deze variabelen lineair te regresseren op de gekende variabelen x (Colin and Vanhoucke, 2014a; Monahan, 2011): ˆx # = E[x # S, µ, x ] (3.7) met S de covariantiematrix. Elk j de element is dus het resultaat van een lineaire regressie op de gekende variabelen x. De kleinste kwadraten-schattingen voor de regressiecoëfficiënten en het intercept worden gegeven door de j de kolom van E uit uitdrukking 3.8: SWP[1,..., kj]swp[0]s = D E (3.8) E F met K = het tijdsinterval. 2 Voor G een symmetrische matrix en SWP[k] houdt SWP[k]G in dat de k de kolom en rij 2 K is 1 voor PC = 5%, 2 voor PC = 10% enz. 27

44 Hoofdstuk 3. Forecasting op basis van PCA, PLSR en PLCA geveegd worden door de sweep operator. Het resultaat van deze operatie wordt voorgesteld door H: H = SWP[k]G (3.9) waarvoor geldt: h kk = 1/g kk h jk = h kj = g jk /g kk j k (3.10) h ij = g ij g ij g ki /g kk j k, i k SWP[0]S wordt gedefineerd als: 1 x 1... x j... x K x 1 s S K1. SWP[0]S.... = x k s jk.... x K s 1K... s KK (3.11) met s jk de steekproefvariantie van x j en x k met factor n 1 (in plaats van (n 1) 1 ) (Colin and Vanhoucke, 2014a; Goodnight, 1979). 3.2 Aantal principale componenten en latente variabelen bepalen Er bestaat geen standaardmethode om het aantal principale componenten te bepalen. Naast een aantal ad-hoc rules of thumb bestaan er ook tal van meer berekeningsintensieve methodes. Volgens Ferre (1995) en Camacho and Ferrer (2014) hangt de beste methode om componenten te selecteren af van het doel. Het hoofddoel van de principale componentenanalyse (of PLSR) kan bijvoorbeeld voornamelijk beschrijvend of verklarend zijn. Een goede fit tussen het model en de data is dan zeer belangrijk. Een PCR model kan ook een voorspellend doel hebben, waarbij het vooral belangrijk is om zo veel mogelijk random noise te elimineren. In de meeste gevallen heeft PCR niet louter een beschrijvend maar ook een voorspellend doel, en daarom worden de methodes gekozen op 28

45 Hoofdstuk 3. Forecasting op basis van PCA, PLSR en PLCA basis van hun capabiliteit om zo weinig mogelijk componenten over te houden (Ferre, 1995). In worden een aantal ad-hoc regels (voorgesteld door Joliffe (2002)) besproken. In sectie komen de computationeel intensievere methodes aan bod Rules of thumb Een eerste voor de hand liggende optie is om het cumulatief percentage van de totale variantie dat men wil verklaren te bepalen, bijvoorbeeld 85%. Men selecteert dan het minimaal aantal principale componenten A nodig om dit percentage te evenaren of overschrijden. Een andere mogelijkheid is om rekening te houden met de grootte van de variantie van elke component. Als de principale componenten berekend werden met correlatiematrices kunnen Kaiser s rule en de broken stick rule gebruikt worden 3. Kaiser s rule behoudt enkel de principale componenten waarvan de variantie groter is dan 1. Een alternatief voor Kaiser s rule is de broken stick rule. Deze regel breekt een stokje met lengte één in p willekeurige delen en rangschikt de deeltjes van klein naar groot. De verwachte lengte van het k de grootste deeltje is dan: l k = 1 p p j=k 1 j (3.12) De k de principale component wordt enkel geselecteerd als de proportie van de totale variantie die deze compontent verklaart groter is dan l k. Het aantal principale componenten kan ook grafisch bepaald worden, aan de hand van een scree plot. Een scree plot geeft voor elke component de variantie weer. De beslissing over het aantal principale componenten gebeurt door het punt waarna de daling in variantie klein genoeg wordt te bepalen. Op basis van figuur 3.1 zou men bijvoorbeeld kunnen beslissen om de eerste vier componenten te gebruiken. 3 Mits eenvoudige aanpassing kunnen deze regels ook gebruikt worden voor covariantiematrices. 29

46 Hoofdstuk 3. Forecasting op basis van PCA, PLSR en PLCA Variances Varianties Aantal componenten Figuur 3.1: Scree plot. (Bron: eigen productie op basis van gesimuleerd project met SP=0.9) Berekeningsintensieve methodes: cross validation Cross validation is een statistische techniek die onder meer gebruikt wordt om de voorspellingskracht van een model te testen. Er bestaan verschillende types van cross validation, maar de meeste zijn gebaseerd op hetzelfde principe: 1. Verdeel de dataset in complementaire subsets 2. Voer de analyse uit op één subset (de trainingset) 3. Valideer de analyse aan de hand van de andere subset (de testset) Hieronder worden enkele types van cross validation besproken: K-fold cross validation Bij K-fold cross validation wordt de dataset in K subsets van gelijke grootte verdeeld. Eén van deze subsets wordt gebruikt als testset, de K 1 andere subsets vormen dan de trainingsset. Dit proces wordt K keer herhaald met steeds een andere subset als testset. Het voordeel van K-fold cross validation is dus dat elke observatie zowel voor analyse als validatie gebruikt wordt. Bovendien wordt elke observatie precies één maal gebruikt in de validatiefase (Camacho and Ferrer, 2012). Leave one out cross validation (LOOCV) Bij LOOCV wordt er steeds één observatie als testset gekozen. De overige samples vormen de trainingset. Het cross validation-proces wordt n (met n =aantal observaties) keer herhaald, 30

47 Hoofdstuk 3. Forecasting op basis van PCA, PLSR en PLCA zodat opnieuw elke observatie eenmaal deel uitmaakt van de validatieset. LOOCV is dus een vorm van K-fold cross validation waarbij het maximaal aantal subsets gecreëerd wordt. Hoewel LOOCV de meest berekeningsintensieve vorm van K-fold cross validation is, genereert ze niet per se de beste resultaten. Bij LOOCV is er vaak sprake van overfitting en bovendien wordt de werkelijke voorspellingsfout vaak onderschat (Martens and Dardenne, 1998; Xu and Liang, 2001). Toegepast op PCR en PLSR Als cross validaton toegepast wordt, bekomt men voor elke stap 4 van het cross validationproces een prediction error sum of squares (PRESS i ): PRESS i = (z i ẑ i ) 2 (3.13) De totale PRESS is dan PRESS = n PRESS i = i=1 n (z i ẑ i ) 2 (3.14) i=1 Bij PCR/PLSR kan cross validation gebruikt worden om na te gaan in welke mate de voorspellingskracht van het model toeneemt als er een principale component/latente variabele wordt toegevoegd. Eerst wordt de totale PRESS berekend voor slechts één component (=PRESS(1)). Nadien wordt de tweede component toegevoegd en de PRESS(2) berekend. In de volgende stappen berekent men op dezelfde manier de PRESS(3) tot en met PRESS(k), voor k=maximaal aantal componenten. Selectiecriteria Om te bepalen hoeveel componenten men toelaat in het model, zou men kunnen beslissen om het aantal componenten A te kiezen met de kleinste PRESS(A). Volgens Osten (1988) heeft deze methode slechte statistische eigenschappen. Daarom stelt hij een criterium gebaseerd op de F-test voor: F = P RESS(m) P RESS(m + 1) K P RESS(m + 1) NK (m + 1)K (3.15) 4 Het aantal stappen is gelijk aan het aantal subsets waarin de data verdeeld wordt. Bij 10-fold cross validation geldt: n =

EEN SIMULATIESTUDIE VAN DE SCHEDULE CONTROL INDEX

EEN SIMULATIESTUDIE VAN DE SCHEDULE CONTROL INDEX EEN SIMULATIESTUDIE VAN DE SCHEDULE CONTROL INDEX Universiteit Gent Faculteit economie en bedrijfskunde Student X Tussentijds Rapport Promotor: prof. dr. M. Vanhoucke Begeleider: Y Academiejaar 20XX-20XX

Nadere informatie

Statistische projectcontrole: uitbreidingen

Statistische projectcontrole: uitbreidingen UNIVERSITEIT GENT FACULTEIT ECONOMIE EN BEDRIJFSKUNDE Academiejaar 2011 2012 Statistische projectcontrole: uitbreidingen Masterproef voorgedragen tot het bekomen van de graad van Master of Science in de

Nadere informatie

STATISTISCHE PROJECTCONTROLE: MULTIVARIATE REGRESSIE

STATISTISCHE PROJECTCONTROLE: MULTIVARIATE REGRESSIE UNIVERSITEIT GENT FACULTEIT ECONOMIE EN BEDRIJFSKUNDE Academiejaar 2013-2014 STATISTISCHE PROJECTCONTROLE: MULTIVARIATE REGRESSIE Masterproef voorgedragen tot het bekomen van de graad van Master of Science

Nadere informatie

Universiteit Gent. Faculteit Economie en Bedrijfskunde. Academiejaar 2013 2014

Universiteit Gent. Faculteit Economie en Bedrijfskunde. Academiejaar 2013 2014 Universiteit Gent Faculteit Economie en Bedrijfskunde Academiejaar 2013 2014 KOSTENVOORSPELLING BINNEN PROJECTMANAGEMENT: EEN OVERZICHT VAN DE BELANGRIJKSTE TECHNIEKEN Tussentijds rapport Student X Onder

Nadere informatie

11. Multipele Regressie en Correlatie

11. Multipele Regressie en Correlatie 11. Multipele Regressie en Correlatie Meervoudig regressie model Nu gaan we kijken naar een relatie tussen een responsvariabele en meerdere verklarende variabelen. Een bivariate regressielijn ziet er in

Nadere informatie

College 2 Enkelvoudige Lineaire Regressie

College 2 Enkelvoudige Lineaire Regressie College Enkelvoudige Lineaire Regressie - Leary: Hoofdstuk 7 tot p. 170 (Advanced Correlational Strategies) - MM&C: Hoofdstuk 10 (Inference for Regression) - Aanvullende tekst 3 Jolien Pas ECO 011-01 Correlatie:

Nadere informatie

9. Lineaire Regressie en Correlatie

9. Lineaire Regressie en Correlatie 9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)

Nadere informatie

HOOFDSTUK VII REGRESSIE ANALYSE

HOOFDSTUK VII REGRESSIE ANALYSE HOOFDSTUK VII REGRESSIE ANALYSE 1 DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens

Nadere informatie

Classification - Prediction

Classification - Prediction Classification - Prediction Tot hiertoe: vooral classification Naive Bayes k-nearest Neighbours... Op basis van predictor variabelen X 1, X 2,..., X p klasse Y (= discreet) proberen te bepalen. Training

Nadere informatie

Een simulatiestudie voor de stabiliteit van forecastingmethoden bij het bepalen van de duurtijd van een project

Een simulatiestudie voor de stabiliteit van forecastingmethoden bij het bepalen van de duurtijd van een project UNIVERSITEIT GENT FACULTEIT ECONOMIE EN BEDRIJFSKUNDE ACADEMIEJAAR 2013 2014 Een simulatiestudie voor de stabiliteit van forecastingmethoden bij het bepalen van de duurtijd van een project Masterproef

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, 14.00-17.00 uur De uitwerkingen van de opgaven dienen duidelijk geformuleerd

Nadere informatie

Hoofdstuk 8: Multipele regressie Vragen

Hoofdstuk 8: Multipele regressie Vragen Hoofdstuk 8: Multipele regressie Vragen 1. Wat is het verschil tussen de pearson correlatie en de multipele correlatie R? 2. Voor twee modellen berekenen we de adjusted R2 : Model 1 heeft een adjusted

Nadere informatie

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008 Examen Statistische Modellen en Data-analyse Derde Bachelor Wiskunde 14 januari 2008 Vraag 1 1. Stel dat ɛ N 3 (0, σ 2 I 3 ) en dat Y 0 N(0, σ 2 0) onafhankelijk is van ɛ = (ɛ 1, ɛ 2, ɛ 3 ). Definieer

Nadere informatie

Principale Componenten Analyse:

Principale Componenten Analyse: Principale Componenten Analyse: Doelstellingen: dimensiereductie inzicht in de variabiliteit van de data dataexploratie PCA is een transformatie: van p oorspronkelijke variabelen naar p PC s ˆΣ Σ variantie

Nadere informatie

Hoofdstuk 10: Regressie

Hoofdstuk 10: Regressie Hoofdstuk 10: Regressie Inleiding In dit deel zal uitgelegd worden hoe we statistische berekeningen kunnen maken als sprake is van één kwantitatieve responsvariabele en één kwantitatieve verklarende variabele.

Nadere informatie

Meten en experimenteren

Meten en experimenteren Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 3 oktober 006 Deel I Toevallige veranderlijken Steekproef Beschrijving van gegevens Histogram Gemiddelde en standaarddeviatie

Nadere informatie

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Dr.ir. P.W. Heijnen Faculteit Techniek, Bestuur en Management Technische Universiteit Delft 22 april 2010 1 1 Introductie De

Nadere informatie

Hoofdstuk 12: Eenweg ANOVA

Hoofdstuk 12: Eenweg ANOVA Hoofdstuk 12: Eenweg ANOVA 12.1 Eenweg analyse van variantie Eenweg en tweeweg ANOVA Wanneer we verschillende populaties of behandelingen met elkaar vergelijken, dan zal er binnen de data altijd sprake

Nadere informatie

Meten en experimenteren

Meten en experimenteren Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 5 oktober 007 Catherine De Clercq Statistische verwerking van gegevens Kursus statistiek voor fysici door Jorgen D Hondt

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen

Nadere informatie

Voorspellen van projectduur en -kost aan de hand van referentieklassen

Voorspellen van projectduur en -kost aan de hand van referentieklassen Voorspellen van projectduur en -kost aan de hand van referentieklassen Masterproef voorgedragen tot het bekomen van de graad van Master of Science in de Toegepaste Economische Wetenschappen : Handelsingenieur

Nadere informatie

1. Reductie van error variantie en dus verhogen van power op F-test

1. Reductie van error variantie en dus verhogen van power op F-test Werkboek 2013-2014 ANCOVA Covariantie analyse bestaat uit regressieanalyse en variantieanalyse. Er wordt een afhankelijke variabele (intervalniveau) voorspeld uit meerdere onafhankelijke variabelen. De

Nadere informatie

Hoofdstuk 2: Verbanden

Hoofdstuk 2: Verbanden Hoofdstuk 2: Verbanden Inleiding In het gebruik van statistiek komen we vaak relaties tussen variabelen tegen. De focus van dit hoofdstuk ligt op het leren hoe deze relaties op grafische en numerieke wijze

Nadere informatie

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek cursus 23 mei 2012 werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen onderzoek streeft naar inzicht in relatie tussen variabelen bv. tussen onafhankelijke

Nadere informatie

Project opvolging d.m.v. Earned Value Management: een case studie.

Project opvolging d.m.v. Earned Value Management: een case studie. UNIVERSITEIT GENT FACULTEIT ECONOMIE EN BEDRIJFSKUNDE ACADEMIEJAAR 2013 2014 Project opvolging d.m.v. Earned Value Management: een case studie. Masterproef voorgedragen tot het bekomen van de graad van

Nadere informatie

Meten en experimenteren

Meten en experimenteren Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 6 oktober 009 Catherine De Clercq Statistische verwerking van gegevens Kursus statistiek voor fysici door Jorgen D Hondt

Nadere informatie

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R 14. Herhaalde metingen Introductie Bij herhaalde metingen worden er bij verschillende condities in een experiment dezelfde proefpersonen gebruikt of waarbij dezelfde proefpersonen op verschillende momenten

Nadere informatie

Hoofdstuk 5 Een populatie: parametrische toetsen

Hoofdstuk 5 Een populatie: parametrische toetsen Hoofdstuk 5 Een populatie: parametrische toetsen 5.1 Gemiddelde, variantie, standaardafwijking: De variantie is als het ware de gemiddelde gekwadrateerde afwijking van het gemiddelde. Hoe groter de variantie

Nadere informatie

variantie: achtergronden en berekening

variantie: achtergronden en berekening variantie: achtergronden en berekening Hugo Quené opleiding Taalwetenschap Universiteit Utrecht 8 sept 1995 aangepast 8 mei 007 1 berekening variantie Als je de variantie met de hand moet uitrekenen, is

Nadere informatie

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016: Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016: 11.00-13.00 Algemene aanwijzingen 1. Het is toegestaan een aan beide zijden beschreven A4 met aantekeningen te raadplegen. 2. Het is toegestaan

Nadere informatie

Projectmanagers zijn net mensen

Projectmanagers zijn net mensen Projectmanagers zijn net mensen De noodzaak van objectief project performance management Joost Claerhoudt Earned Value Management Enkele menselijke eigenschappen De mens is van nature een optimist Mensen

Nadere informatie

1. Statistiek gebruiken 1

1. Statistiek gebruiken 1 Hoofdstuk 0 Inhoudsopgave 1. Statistiek gebruiken 1 2. Gegevens beschrijven 3 2.1 Verschillende soorten gegevens......................................... 3 2.2 Staafdiagrammen en histogrammen....................................

Nadere informatie

Oplossingen hoofdstuk XI

Oplossingen hoofdstuk XI Oplossingen hoofdstuk XI. Hierbij vind je de resultaten van het onderzoek naar de relatie tussen een leestest en een schoolrapport voor lezen. Deze gegevens hebben betrekking op een regressieanalyse bij

Nadere informatie

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y 1 Regressie analyse Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y Regressie: wel een oorzakelijk verband verondersteld: X Y Voorbeeld

Nadere informatie

16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA

16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA 16. MANOVA MANOVA Multivariate variantieanalyse (MANOVA) kan gebruikt worden in een situatie waarin je meerdere afhankelijke variabelen hebt. Met MANOVA kan er 1 onafhankelijke variabele gebruikt worden

Nadere informatie

Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA

Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA Masterclass: advanced statistics Bianca de Greef Sander van Kuijk Afdeling KEMTA Inhoud Masterclass Deel 1 (theorie): Achtergrond regressie Deel 2 (voorbeeld): Keuzes Output Model Model Dependent variable

Nadere informatie

ANALYSE VAN WINDSNELHEIDGEGEVENS METEOPAAL ZEEBRUGGE 1. INLEIDING

ANALYSE VAN WINDSNELHEIDGEGEVENS METEOPAAL ZEEBRUGGE 1. INLEIDING Rapport aan Dienst der Kustwegen betreffende ANALYSE VAN WINDSNELHEIDGEGEVENS METEOPAAL ZEEBRUGGE 1. INLEIDING Dit rapport beschrijft de analyse resultaten van de windsnelheidgegevens voor de meteopaal

Nadere informatie

Meten en experimenteren

Meten en experimenteren Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding Zie syllabus voor details 16 februari 2011 Catherine De Clercq Statistische verwerking van gegevens Kursus statistiek voor

Nadere informatie

FACULTEIT ECONOMIE EN BEDRIJFSKUNDE Afdeling Kwantitatieve Economie

FACULTEIT ECONOMIE EN BEDRIJFSKUNDE Afdeling Kwantitatieve Economie FACULTEIT ECONOMIE EN BEDRIJFSKUNDE Afdeling Kwantitatieve Economie Lineaire Algebra, tentamen Uitwerkingen vrijdag 4 januari 0, 9 uur Gebruik van een formuleblad of rekenmachine is niet toegestaan. De

Nadere informatie

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Meervoudige ANOVA Onderzoeksvraag Voorwaarden Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

mlw stroom 2.1: Statistisch modelleren

mlw stroom 2.1: Statistisch modelleren mlw stroom 2.1: Statistisch modelleren College 5: Regressie en correlatie (2) Rosner 11.5-11.8 Arnold Kester Capaciteitsgroep Methodologie en Statistiek Universiteit Maastricht Postbus 616, 6200 MD Maastricht

Nadere informatie

Samenvatting (Summary in Dutch)

Samenvatting (Summary in Dutch) Samenvatting (Summary in Dutch) Dit proefschrift behandelt een aantal onderwerpen uit de multivariate analyse, waarbij het begrip multivariate analyse ruim moet worden geïnterpreteerd. Naast onderwerpen

Nadere informatie

Oefenvragen bij Statistics for Business and Economics van Newbold

Oefenvragen bij Statistics for Business and Economics van Newbold Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd

Nadere informatie

Antwoorden op de theoretische vragen in de examen voorbereiding

Antwoorden op de theoretische vragen in de examen voorbereiding Antwoorden op de theoretische vragen in de examen voorbereiding Theorie vraag Zij A een m n-matrix. Geef het verband tussen de formule voor de dimensie d van een niet-strijdig stelsel, d = n rang (A) (zie

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur. VOORAF: Hieronder staat een aantal opgaven over de stof. Veel meer dan op het tentamen zelf gevraagd zullen worden. Op het tentamen zullen in totaal 20 onderdelen gevraagd worden. TECHNISCHE UNIVERSITEIT

Nadere informatie

EWMA Control Charts in Statistical Process Monitoring I.M. Zwetsloot

EWMA Control Charts in Statistical Process Monitoring I.M. Zwetsloot EWMA Control Charts in Statistical Process Monitoring I.M. Zwetsloot EWMA Control Charts in Statistical Process Monitoring Inez M. Zwetsloot Samenvatting EWMA Regelkaarten in Statistische Procesmonitoring

Nadere informatie

Les 5: Analysis of variance

Les 5: Analysis of variance Les 5: Analysis of variance 2de bachelor in de chemie en biologie 14/11/2018 Jeroen Gilis Gebaseerd op slides Caroline De Tender Testen die we tot nu toe gezien hebben: Toetsen van één gemiddelde ten opzichte

Nadere informatie

DEEL 1 Probleemstelling 1

DEEL 1 Probleemstelling 1 DEEL 1 Probleemstelling 1 Hoofdstuk 1 Van Probleem naar Analyse 1.1 Notatie 4 1.1.1 Types variabelen 4 1.1.2 Types samenhang 5 1.2 Sociaalwetenschappelijke probleemstellingen en hun basisformat 6 1.2.1

Nadere informatie

Stelsels Vergelijkingen

Stelsels Vergelijkingen Hoofdstuk 5 Stelsels Vergelijkingen Eén van de motiverende toepassingen van de lineaire algebra is het bepalen van oplossingen van stelsels lineaire vergelijkingen. De belangrijkste techniek bestaat uit

Nadere informatie

Definities, stellingen en methoden uit David Poole s Linear Algebra A Modern Introduction - Second Edtion benodigd voor het tentamen Matrix Algebra 2

Definities, stellingen en methoden uit David Poole s Linear Algebra A Modern Introduction - Second Edtion benodigd voor het tentamen Matrix Algebra 2 Definities, stellingen en methoden uit David Poole s Linear Algebra A Modern Introduction - Second Edtion benodigd voor het tentamen Matrix Algebra 2 Bob Jansen Inhoudsopgave 1 Vectoren 3 2 Stelsels Lineaire

Nadere informatie

Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i

Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i Formuleblad Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i Plaats van de median berekenen: Oneven aantal observaties: (n+1)/2 Even aantal observaties: gemiddelde van de

Nadere informatie

Statistiek II. Sessie 3. Verzamelde vragen en feedback Deel 3

Statistiek II. Sessie 3. Verzamelde vragen en feedback Deel 3 Statistiek II Sessie 3 Verzamelde vragen en feedback Deel 3 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 3 1 Statismex en bloeddruk 1. Afhankelijke variabele: Bloeddruk (van ratio-niveau) Onafhankelijke

Nadere informatie

Over Earned Value Management en zo 2. Over. Earned Value Management. en zo... Marco Buijnsters

Over Earned Value Management en zo 2. Over. Earned Value Management. en zo... Marco Buijnsters Over Earned Value Management en zo 1 Over Earned Value Management en zo 2 Over Earned Value Management en zo... Marco Buijnsters DACE, 25/05/2011 1 Over Earned Value Management en zo 3 Agenda 1. Even voorstellen

Nadere informatie

Matrices en Stelsel Lineaire Vergelijkingen

Matrices en Stelsel Lineaire Vergelijkingen Complexe Getallen Wat is de modulus van een complex getal? Hoe deel je twee complexe getallen? Wat is de geconjugeerde van een complex getal? Hoe kan je z z ook schrijven? Wat is de vergelijking van een

Nadere informatie

Gegevensverwerving en verwerking

Gegevensverwerving en verwerking Gegevensverwerving en verwerking Staalname - aantal stalen/replicaten - grootte staal - apparatuur Experimentele setup Bibliotheek Statistiek - beschrijvend - variantie-analyse - correlatie - regressie

Nadere informatie

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, 9.00-12.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven

Nadere informatie

Je kunt al: -de centrummaten en spreidingsmaten gebruiken -een spreidingsdiagram gebruiken als grafische weergave van twee variabelen

Je kunt al: -de centrummaten en spreidingsmaten gebruiken -een spreidingsdiagram gebruiken als grafische weergave van twee variabelen Lesbrief: Correlatie en Regressie Leerlingmateriaal Je leert nu: -een correlatiecoëfficient gebruiken als maat voor het statistische verband tussen beide variabelen -een regressielijn te tekenen die een

Nadere informatie

College 3 Meervoudige Lineaire Regressie

College 3 Meervoudige Lineaire Regressie College 3 Meervoudige Lineaire Regressie - Leary: Hoofdstuk 8 p. 165-169 - MM&C: Hoofdstuk 11 - Aanvullende tekst 3 (alinea 2) Jolien Pas ECO 2012-2013 'Computerprogramma voorspelt Top 40-hits Bron: http://www.nu.nl/internet/2696133/computerprogramma-voorspelt-top-40-hits.html

Nadere informatie

Earned Value Management: Kansen, drempels en uitdagingen. Stageview Balance 13 juni 2013

Earned Value Management: Kansen, drempels en uitdagingen. Stageview Balance 13 juni 2013 Earned Value Management: Kansen, drempels en uitdagingen Stageview Balance 13 juni 2013 1 Agenda 1. Introductie 2. Earned Value Management: De basis, waarom wel en waarom niet? 3. EVM in de praktijk: de

Nadere informatie

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Dr.ir. P.W. Heijnen Faculteit Techniek, Bestuur en Management Technische Universiteit Delft 6 mei 2010 1 1 Introductie De Energiekamer

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) op dinsdag 3-03-00, 9- uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en

Nadere informatie

VERGELIJKENDE STUDIE VAN ALTERNATIEVE ONTWERPWAARDE SCHATTINGEN VAN SIGNIFICANTE GOLFHOOGTE

VERGELIJKENDE STUDIE VAN ALTERNATIEVE ONTWERPWAARDE SCHATTINGEN VAN SIGNIFICANTE GOLFHOOGTE Rapport aan isterie van de Vlaamse Gemeenschap Departement Leefmilieu en Infrastructuur Administratie Waterwegen en Zeewezen AFDELING WATERWEGEN KUST VERGELIJKENDE STUDIE VAN ALTERNATIEVE ONTWERPWAARDE

Nadere informatie

Statistiek I Samenvatting. Prof. dr. Carette

Statistiek I Samenvatting. Prof. dr. Carette Statistiek I Samenvatting Prof. dr. Carette Opleiding: bachelor of science in de Handelswetenschappen Academiejaar 2016 2017 Inhoudsopgave Hoofdstuk 1: Statistiek, gegevens en statistisch denken... 3 De

Nadere informatie

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter.

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter. STATISTIEK OPLOSSINGEN OEFENZITTINGEN 5 en 6 c D. Keppens 2004 5 1 (a) Zij µ de verwachtingswaarde van X. We moeten aantonen dat E[M i ] = µ voor i = 1, 2, 3 om te kunnen spreken van zuivere schatters.

Nadere informatie

4 Domein STATISTIEK - versie 1.2

4 Domein STATISTIEK - versie 1.2 USolv-IT - Boomstructuur DOMEIN STATISTIEK - versie 1.2 - c Copyrighted 42 4 Domein STATISTIEK - versie 1.2 (Op initiatief van USolv-IT werd deze boomstructuur mede in overleg met het Universitair Centrum

Nadere informatie

Meetkunde en lineaire algebra

Meetkunde en lineaire algebra Meetkunde en lineaire algebra Daan Pape Universiteit Gent 7 juni 2012 1 1 Möbius transformaties De mobiustransformatie wordt gegeven door: z az + b cz + d (1) Als we weten dat het drietal (x 1, x 2, x

Nadere informatie

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2 mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2 Bjorn Winkens Methodologie en Statistiek Universiteit Maastricht 21 maart

Nadere informatie

Unitaire en Hermitese transformaties

Unitaire en Hermitese transformaties Hoofdstuk 11 Unitaire en Hermitese transformaties We beschouwen vervolgens lineaire transformaties van reële en complexe inproductruimten die aan extra eigenschappen voldoen die betrekking hebben op het

Nadere informatie

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen.

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen. Herkansing Inleiding Intelligente Data Analyse Datum: 3-3-2003 Tijd: 14.00-17.00, BBL 508 Dit is geen open boek tentamen. Algemene aanwijzingen 1. U mag ten hoogste één A4 met aantekeningen raadplegen.

Nadere informatie

Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt

Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt A. Effect & het onderscheidingsvermogen Effectgrootte (ES) De effectgrootte (effect size) vertelt ons iets over hoe relevant de relatie tussen twee variabelen is in de praktijk. Er zijn twee soorten effectgrootten:

Nadere informatie

Meetkunde en Lineaire Algebra

Meetkunde en Lineaire Algebra Hoofdstuk 1 Meetkunde en Lineaire Algebra Vraag 1.1 Zij p en q twee veeltermfuncties met reële coëfficiënten en A een reële vierkante matrix. Dan is p(a) diagonaliseerbaar over R als en slechts dan als

Nadere informatie

20. Multilevel lineaire modellen

20. Multilevel lineaire modellen 20. Multilevel lineaire modellen Hiërarchische gegevens Veel fenomenen zijn ingebed in een bredere context. Variabelen kunnen dus ook hiërarchisch zijn, ingebed zijn in variabelen op hogere niveaus. Deze

Nadere informatie

Verhouding PM10-FDMS / PM10-ruwe data

Verhouding PM10-FDMS / PM10-ruwe data Verhouding PM10-FDMS / PM10-ruwe data De verhouding tussen de resultaten voor PM10-FDMS en PM10-ruwe data wordt op drie verschillende manieren bepaald: - helling van de rechte door de oorsprong, berekend

Nadere informatie

Tentamen lineaire algebra voor BWI dinsdag 17 februari 2009, uur.

Tentamen lineaire algebra voor BWI dinsdag 17 februari 2009, uur. Vrije Universiteit Amsterdam Faculteit der Exacte Wetenschappen Afdeling Wiskunde Tentamen lineaire algebra voor BWI dinsdag 7 februari 9, 8.-.5 uur. ELK ANTWOORD DIENT TE WORDEN BEARGUMENTEERD. Er mogen

Nadere informatie

Praktische informatie m.b.t. College Lineaire Algebra en Beeldverwerking Bachelor Informatica en Economie 2 e jaar Voorjaar semester 2013 Docent:

Praktische informatie m.b.t. College Lineaire Algebra en Beeldverwerking Bachelor Informatica en Economie 2 e jaar Voorjaar semester 2013 Docent: Praktische informatie m.b.t. College Lineaire Algebra en Beeldverwerking Bachelor Informatica en Economie 2 e jaar Voorjaar semester 2013 Docent: D.P. Huijsmans LIACS Universiteit Leiden College Lineaire

Nadere informatie

Les 1: de normale distributie

Les 1: de normale distributie Les 1: de normale distributie Elke Debrie 1 Statistiek 2 e Bachelor in de Biomedische Wetenschappen 18 oktober 2018 1 Met dank aan Koen Van den Berge Indeling lessen Elke bullet point is een week. R en

Nadere informatie

Examen G0N34 Statistiek

Examen G0N34 Statistiek Naam: Richting: Examen G0N34 Statistiek 7 juni 2010 Enkele richtlijnen : Wie de vragen aanneemt en bekijkt, moet minstens 1 uur blijven zitten. Je mag gebruik maken van een rekenmachine, het formularium

Nadere informatie

Matrixoperaties. Definitie. Voorbeelden. Een matrix is een rechthoekig array van getallen, die kentallen of elementen heten.

Matrixoperaties. Definitie. Voorbeelden. Een matrix is een rechthoekig array van getallen, die kentallen of elementen heten. Definitie Een matrix is een rechthoekig array van getallen, die kentallen of elementen heten. Voorbeelden De coëfficiëntenmatrix of aangevulde matrix bij een stelsel lineaire vergelijkingen. Een rij-echelonmatrix

Nadere informatie

Wiskunde B - Tentamen 2

Wiskunde B - Tentamen 2 Wiskunde B - Tentamen Tentamen van Wiskunde B voor CiT (57) Donderdag 4 april 005 van 900 tot 00 uur Dit tentamen bestaat uit 8 opgaven, 3 tabellen en formulebladen Vermeld ook je studentnummer op je werk

Nadere informatie

Meetkunde en Lineaire Algebra

Meetkunde en Lineaire Algebra Hoofdstuk 1 Meetkunde en Lineaire Algebra Vraag 1.1 Zij p en q twee veeltermfuncties met reële coëfficiënten en A een reële vierkante matrix. Dan is p(a) diagonaliseerbaar over R als en slechts dan als

Nadere informatie

(slope in het Engels) en het snijpunt met de y-as, b 0

(slope in het Engels) en het snijpunt met de y-as, b 0 8. Regressie Een introductie Al vaak is genoemd dat statistische modellen allemaal neerkomen op uitkomst = model + error. Dit model kun je ook gebruiken om de uitkomst te voorspellen, met een correlatie

Nadere informatie

Hoofdstuk 12 : Regressie en correlatie. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent.

Hoofdstuk 12 : Regressie en correlatie. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent. Hoofdstuk 12 : Regressie en correlatie Marnix Van Daele MarnixVanDaele@UGentbe Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Regressie en correlatie p 1/26 Regressielijn Vraag : vind het

Nadere informatie

Tentamen Lineaire Algebra B

Tentamen Lineaire Algebra B Tentamen Lineaire Algebra B 29 juni 2012, 9-12 uur OPGAVEN Uitwerkingen volgen na de opgaven 1. Gegeven is de vectorruimte V = R[x] 2 van polynomen met reële coefficienten en graad 2. Op V hebben we een

Nadere informatie

Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk:

Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk: 13. Factor ANOVA De theorie achter factor ANOVA (tussengroep) Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk: 1. Onafhankelijke

Nadere informatie

Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen.

Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen. Tentamen Inleiding Intelligente Data Analyse Datum: 19-12-2002 Tijd: 9.00-12.00, BBL 420 Dit is geen open boek tentamen. Algemene aanwijzingen 1. U mag ten hoogste één A4 met aantekeningen raadplegen.

Nadere informatie

Examen Statistiek I Feedback

Examen Statistiek I Feedback Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).

Nadere informatie

TENTAMEN LINEAIRE ALGEBRA 1 donderdag 23 december 2004,

TENTAMEN LINEAIRE ALGEBRA 1 donderdag 23 december 2004, TENTAMEN LINEAIRE ALGEBRA donderdag december 004, 0.00-.00 Bij elke vraag dient een berekening of motivering worden opgeschreven. Het tentamen bestaat uit twee gedeelten: de eerste drie opgaven betreffen

Nadere informatie

Samenvatting Lineaire Algebra, periode 4

Samenvatting Lineaire Algebra, periode 4 Samenvatting Lineaire Algebra, periode 4 Hoofdstuk 5, Eigenwaarden en eigenvectoren 5.1; Eigenvectoren en eigenwaarden Definitie: Een eigenvector van een n x n matrix A is een niet nulvector x zodat Ax

Nadere informatie

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009 EIND TOETS TOEGEPASTE BIOSTATISTIEK I 30 januari 2009 - Dit tentamen bestaat uit vier opgaven onderverdeeld in totaal 2 subvragen. - Geef bij het beantwoorden van de vragen een zo volledig mogelijk antwoord.

Nadere informatie

Statistiek II. Sessie 4. Feedback Deel 4

Statistiek II. Sessie 4. Feedback Deel 4 Statistiek II Sessie 4 Feedback Deel 4 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 4 We hebben besloten de bekomen grafieken in R niet in het document in te voegen, dit omdat het document met

Nadere informatie

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN 4. VERGELIJKINGSTOETSEN A. Vergelijken van varianties Men beschouwt twee steekproeven uit normaal verdeelde populaties: X, X,, X n ~ N(µ, σ ) Y, Y,, Y n

Nadere informatie

11. Meerdere gemiddelden vergelijken, ANOVA

11. Meerdere gemiddelden vergelijken, ANOVA 11. Meerdere gemiddelden vergelijken, ANOVA Analyse van variantie (ANOVA) wordt gebruikt wanneer er situaties zijn waarbij er meer dan twee condities vergeleken worden. In dit hoofdstuk wordt de onafhankelijke

Nadere informatie

College WisCKI. Albert Visser. 16 januari, Department of Philosophy, Faculty Humanities, Utrecht University. Loodrechte Projectie

College WisCKI. Albert Visser. 16 januari, Department of Philosophy, Faculty Humanities, Utrecht University. Loodrechte Projectie College WisCKI Albert Visser Department of Philosophy, Faculty Humanities, Utrecht University 16 januari, 2012 1 Overview 2 Overview 2 Overview 2 Overview 3 Zij V een deelruimte met basis v 1,..., v k.

Nadere informatie

Projectmanagers zijn net mensen

Projectmanagers zijn net mensen Projectmanagers zijn net mensen De noodzaak van objectief project performance management Joost Claerhoudt Enkele menselijke eigenschappen De mens is van nature een optimist Mensen pikken positief nieuws

Nadere informatie

Basiskennis lineaire algebra

Basiskennis lineaire algebra Basiskennis lineaire algebra Lineaire algebra is belangrijk als achtergrond voor lineaire programmering, omdat we het probleem kunnen tekenen in de n-dimensionale ruimte, waarbij n gelijk is aan het aantal

Nadere informatie

Hoofdstuk 19. Voorspellende analyse bij marktonderzoek

Hoofdstuk 19. Voorspellende analyse bij marktonderzoek Hoofdstuk 19 Voorspellende analyse bij marktonderzoek Voorspellen begrijpen Voorspelling: een uitspraak over wat er naar verwachting in de toekomst zal gebeuren op basis van ervaringen uit het verleden

Nadere informatie

HOOFDSTUK 2: VERBANDEN

HOOFDSTUK 2: VERBANDEN HOOFDSTUK 2: VERBANDEN Inleiding In het gebruik van statistiek komen we vaak relaties tussen variabelen tegen. De focus van dit hoodfstuk ligt op het leren hoe deze relaties op grafische en numerieke wijze

Nadere informatie

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag

Nadere informatie

Lineaire Algebra voor ST

Lineaire Algebra voor ST Lineaire Algebra voor ST docent: Judith Keijsper TUE, HG 9. email: J.C.M.Keijsper@tue.nl studiewijzer: http://www.win.tue.nl/wsk/onderwijs/ds6 Technische Universiteit Eindhoven college 9 J.Keijsper (TUE)

Nadere informatie

NP2.5w3 Eigenwaarden. Eigenwaarden. VU Numeriek Programmeren 2.5. Charles Bos. Vrije Universiteit Amsterdam 1A april /26

NP2.5w3 Eigenwaarden. Eigenwaarden. VU Numeriek Programmeren 2.5. Charles Bos. Vrije Universiteit Amsterdam 1A april /26 1/26 Eigenwaarden VU Numeriek Programmeren 2.5 Charles Bos Vrije Universiteit Amsterdam c.s.bos@vu.nl, 1A40 22 april 2013 2/26 Overzicht Waarom? Voorbeelden Eigenwaarden/eigenvectoren Hoe vind ik ze? Polynoom

Nadere informatie