HOVO statistiek November 2011 1



Vergelijkbare documenten
HOVO statistiek

Hoofdstuk 2: Grafieken en formules

Kansrekening en statistiek wi2105in deel I 29 januari 2010, uur

Basiskennistoets wiskunde

Wiskunde 2 september 2008 versie Dit is een greep (combinatie) van 3 uit 32. De volgorde is niet van belang omdat de drie

Zeldzame en extreme gebeurtenissen

Zeldzame en extreme gebeurtenissen

De grafiek van een lineair verband is altijd een rechte lijn.

2.1 Lineaire functies [1]

Valkuilen bij Nulhypothese Toetsen inleiding tot het gastcollege van Dr. Eric-Jan Wagenmakers. Peter Grünwald HOVO

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Bij alle verbanden geldt dat je, als je een negatief getal in een formule invult, je altijd haakjes om dat getal moet zetten.

De grafiek van een lineair verband is altijd een rechte lijn.

Populaties beschrijven met kansmodellen

Het blijkt dat dit eigenlijk alleen lukt met de exponentiële methode.

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur.

Wiskundige Analyse II

Stochastiek 2. Inleiding in the Mathematische Statistiek. staff.fnwi.uva.nl/j.h.vanzanten

WISKUNDE 3 PERIODEN EUROPEES BACCALAUREAAT DATUM : 8 juni 2006 ( s morgens) DUUR VAN HET EXAMEN : 3 uur (180 minuten) TOEGESTANE HULPMIDDELEN :

In de Theorie worden de begrippen toevalsvariabele, kansverdeling en verwachtingswaarde toegelicht.

Sterrenkunde Praktikum 1 Fouten en fitten

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

Samenvatting Natuurkunde Hoofdstuk 1

1.1 Lineaire vergelijkingen [1]

Kansrekening en statistiek WI2105IN deel I 4 november 2011, uur

klas 3 havo Checklist HAVO klas 3.pdf

F3 Formules: Formule rechte lijn opstellen 1/3

INDITHOOFDSTUKgaan jullie kennismaken met het cartesisch assenstelsel.

Onderneming en omgeving - Economisch gereedschap

Breuksplitsen WISNET-HBO NHL. update juli 20014

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

1.0 Voorkennis. Voorbeeld 1: Los op: 6x + 28 = 30 10x.

In het internationale eenhedenstelsel, ook wel SI, staan er negen basisgrootheden met bijbehorende grondeenheden. Dit is BINAS tabel 3A.

Kansrekening en Statistiek

Hoofdstuk 11: Eerstegraadsfuncties in R

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 18

Tentamenset A. 2. Welke van de volgende beweringen is waar? c. N R N d. R Z R

Wiskunde 20 maart 2014 versie 1-1 -

vwo: Het maken van een natuurkunde-verslag vs

FLIPIT 5. (a i,j + a j,i )d i d j = d j + 0 = e d. i<j

Wiskunde - MBO Niveau 4. Eerste- en tweedegraads verbanden

Examen Statistiek I Feedback

Noordhoff Uitgevers bv

Inleiding statistiek

4.1 Negatieve getallen vermenigvuldigen [1]

Practicum algemeen. 1 Diagrammen maken 2 Lineair verband en evenredig verband 3 Het schrijven van een verslag

Afbeelding 12-1: Een voorbeeld van een schaakbord met een zwart paard op a4 en een wit paard op e6.

Uitleg significantieniveau en toetsen van hypothesen

Principe Maken van een Monte Carlo data-set populatie-parameters en standaarddeviaties standaarddeviatie van de bepaling statistische verdeling

Wiskunde - MBO Niveau 4. Eerste- en tweedegraads verbanden

Het opstellen van een lineaire formule.

Gaap, ja, nog een keer. In één variabele hebben we deze formule nu al een paar keer gezien:

De waarde van een plaats in een getal.

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

HET TEKENEN VAN EEN GRAFIEK MET EXCEL

Vector-en matrixvergelijkingen. Figuur: Vectoren, optellen

Trillingen en geluid wiskundig. 1 De sinus van een hoek 2 Uitwijking van een trilling berekenen 3 Macht en logaritme 4 Geluidsniveau en amplitude

Radboud Universiteit Nijmegen Heyendaalse weg 135

Toegepaste Wiskunde 2: Het Kalman-filter

Wiskunde - MBO Niveau 4. Eerste- en tweedegraads verbanden

Grafieken jaar. Rekenles over het maken van grafieken. Rekenen. 60 minuten. Weerstation, data, grafieken

Kommagetallen. Twee stukjes is

ANTWOORDEN blz. 1. d = 1013; = ; = ; =

Hoofdstuk 1: Basisvaardigheden

Uitwerkingen Mei Eindexamen VWO Wiskunde C. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek

Feedback proefexamen Statistiek I

Wiskundige Analyse II

5.1 Lineaire formules [1]

1. Reductie van error variantie en dus verhogen van power op F-test

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur

1 Eigenwaarden en eigenvectoren

Antwoorden bij 4 - De normale verdeling vwo A/C (aug 2012)

WISKUNDE 5 PERIODEN. DATUM : 4 juni Formuleboekje voor de Europese scholen Niet-programmeerbare, niet-grafische rekenmachine

Het schatten van de Duitse oorlogsproductie: maximum likelihood versus de momentenmethode

Grafieken, functies en verzamelingen. Eerst enkele begrippen. Grafiek. Assenstelsel. Oorsprong. Coördinaten. Stapgrootte.

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan.

Uitleg. Welkom bij de Beverwedstrijd Je krijgt 15 vragen, die je in maximaal 45 minuten moet beantwoorden.

Statistiek met Excel. Schoolexamen en Uitbreidingsopdrachten. Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14

Tentamen Inleiding Kansrekening 25 juni 2009, uur Docent: F. den Hollander

Opgaven voor Kansrekening - Oplossingen

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

3.1 Negatieve getallen vermenigvuldigen [1]

De teller geeft hoeveel stukken er zijn en de noemer zegt wat de 5. naam is van die stukken: 6 taart geeft dus aan dat de taart in 6

Kansrekening en Statistiek

Rekenen: Meten groep 4 en hoger. Het leren van simpele weegopdrachten.

Vak Wiskunde Niveau Mavo. Jaar Toetsnaam Type Omschrijving Afnamemoment Weegfactor Herkansbaar Examendomein

Examen HAVO. wiskunde A. tijdvak 1 vrijdag 17 mei uur. Bij dit examen hoort een uitwerkbijlage.

Eenvoud bij tekenen en rekenen

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

5 keer beoordeeld 4 maart Wiskunde H6, H7, H8 Samenvatting

Rekenmachine. Willem-Jan van der Zanden

werkcollege 5 - P&D7: Population distributions - P&D8: Sampling variability and Sampling distributions

CAMERA EN ACCESSOIRES

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19

Bij het oplossen van een telprobleem zijn de volgende 2 dingen belangrijk: Is de volgorde van de gekozen dingen van belang?

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van uur.

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

OPDRACHTKAART. Thema: Multimedia/IT. Audio 4. Digitaliseren MM

Samenvatting Nederlands

Relativiteitstheorie met de computer

Transcriptie:

Principale Componentenanalyse en hockeystick-short centring Principale Componentenanalyse bedacht door Karl Pearson in 1901 Peter Grünwald HOVO 31-10 2011 Stel we hebben een grote hoeveelheid data. Elk datum is zelf weer een vector (reeks getallen) We willen deze data samenvatten tot een enkel representatief datum (of een paar representatieve data ) op een manier die zoveel mogelijk relevante informatie behoudt Principale Componentenanalyse We willen deze data samenvatten tot een of een paar representatieve data op een manier die zoveel mogelijk relevante informatie behoudt We doen eerst alles met data die bestaat uit twee rijen van getallen, die we tot een reduceren. Dat kunnen we nl. mooi tekenen! Principale Componentenanalyse We willen twee rijen samenvatten in één rij Eerste idee: neem het gemiddelde van beide rijen Dat gaat niet werken... Pas later kijken we naar wat we werkelijk willen: data met 100en rijen die we tot een paar rijen (zeg 3, 4 of 5) willen reduceren HOVO statistiek November 2011 1

Twee data-rijen Elk bestaande uit 20 getallen Gemiddelde is rij van alleen maar nullen: vrijwel alle informatie is verloren! Principale Componentenanalyse We willen twee data rijen samenvatten in één rij Eerste idee: neem het gemiddelde van beide rijen- werkt niet! Tweede idee: gemiddelde van de twee rijen [x 1,x 2,...,x n ] [y 1,x 2,...,y n ] is [0.5x 1 +0.5y 1,...,0.5x n +0.5y n] Misschien dat een andere lineaire combinatie [ax 1 +by 1,...,ax n +by n] beter werkt? Dus een soort gewogen gemiddelde, maar dan anders (want gewichten kunnen bijv. negatief zijn) Gecentreerde data We willen 2 rijen samenvatten in 1 rij zdd zoveel mogelijk relevante informatie behouden blijft We kijken voortaan naar gecentreerde data: data waarbij iedere rij zelf (horizontaal opgeteld) gemiddelde waarde 0 heeft. We kunnen deze data mooi tekenen in een twee-dimensionale grafiek (elke as staat voor een rij) Voorbeeld: anti-gecorreleerde data Dit is de data die we net ook al gezien hadden maar met een beetje ruis toegevoegd. x-as: [ 1+ɛ 1,1+ɛ 2, 1+ɛ 3,...,1+ɛ 20 ] y-as: [1+δ 1, 1+δ 2,1+δ 3,..., 1+δ 20 ] HOVO statistiek November 2011 2

Roteren en As Verwijderen Maximale Variantie We kunnen gemiddelde nemen. Dat is niet goed. We kunnen gewoon een van de twee rijen weggooien. Dat is natuurlijk ook helemaal niet goed Maar wat als we eerst ons assenstelsel op een slimme wijze roteren, en dan een rij ( as ) weggooien? Het gemiddelde van n punten is (in ons geval: 0 in elke rij!) x= 1 n x i ni=1 Maximale Variantie Het gemiddelde van n punten is x= 1 n x i ni=1 We roteren het stelsel totdat de punten op de x-as een zo groot mogelijke variantie hebben: (gemiddelde kwadratische afwijking van gemiddelde) VAR= 1 n i x) ni=1(x 2 = 1 n x 2 i ni=1 In ons geval! Zwart: gemiddelde puntenrij Blauw: resultaat van weggooien x-as of y-as HOVO statistiek November 2011 3

De Principale Componentenas De Geroteerde Principale Componentenas De zwarte punten krijg je als je (nieuwe) y-as weggooit De Principale Component De Terug-Geroteerde Principale Componentenas De zwarte punten zijn nu je benadering van de oorspronkelijke punten We roteren het stelsel totdat de punten op de x-as een zo groot mogelijke variantie hebben Deze nieuwe x-as is de principale component Als we ook de rotatiehoek onthouden kunnen we de corresponderende y-as weggooien en het stelsel weer terugdraaien. Door de slimme keuze van de rotatiehoek is de verloren gegane informatie beperkt gebleven! HOVO statistiek November 2011 4

Andere interpretatie / meer dimensies PCA en de Hockeystickgrafiek PCA roteert de assen totdat data ongecorreleerd zijn. equivalent: PCA projecteert data op lijn door oorsprong die het meeste variantie verklaart let op: ongecorreleerd is niet per se ongerelateerd! Dit kun je natuurlijk met meer dan twee rijen (dimensies) doen. 1e principale component is de (geroteerde) as die het meeste van de variantie in de data verklaart, 2e principale component verklaart het op een na meeste variantie, en zo voort. Proxies: lange datarijen van bijv. boom-ring-diktes (bijv. van 1400 tot nu, een per jaar) Van sommige gebieden zijn veel meer proxies beschikbaar dan van andere. MBH98 besluiten die proxies samen te vatten zodat er van elk gebied ongeveer evenveel proxies zijn Ze nemen bijv. de 2 principale componenten van de NoAmer database (114 rijen) (later nemen ze er 5) PCA is fout geprogrammeerd Het computerprogramma dat PCA implementeert bij Mann bevat een fout met serieuze consequenties: om PCA te kunnen gebruiken, moet je elke rij (proxy) eerst centreren: per rij het gemiddelde van alle punten aftrekken (zodat nieuwe gemiddelde = 0) in plaats daarvan trekken MBH98 het gemiddelde in de jaren 1900-1980 van alle punten af Gevolg: als er een proxy met een hockeystickvorm tussen zit, dan wordt dat de 1e principale component!!! Twee proxies met vrijwel evengrote variantie en gemiddelde (ongeveer ¼) Gewoon centreren : beide proxies worden 1/4 naar beneden getrokken (grafiek verandert niet echt) MBH centreren : proxy 2 wordt veel meer naar beneden getrokken dan 1. proxy gemiddelden zijn dus niet meer 0; ihb gemiddelde van rode proxy is nu -1.5. Maar: PCA doet alsof gemiddelde 0 is, d.w.z. 1e principale component wordt as met grootste gem. afwijking van 0... dat is nu dus rode proxy! HOVO statistiek November 2011 5

De hockeystick proxy (x-as) wint! Deel 2: De Normaal-Verdeling (ook wel: Gauss-Verdeling ) Leest allen: Die Vermessung der Welt van Daniel Kehlmann! Doe eens Normaal, Man! Herinnert u zich deze nog? In statistische analyses wordt heel vaak gedaan alsof meetbare hoeveelheden normaal verdeeld zijn Lengtes Meetfouten Ruis bij data-communicatie Vaak klopt dat min of meer, vaak ook niet Voorbeeld waarbij het klopt: de dobbelsteen Voorbeeld waarbij het niet klopt: uitbijters 0,045 0,04 0,035 0,03 0,025 0,02 0,015 0,01 0,005 0 1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 101 Series1 HOVO statistiek November 2011 6

0,9 Die was dus eigenlijk niet precies normaalverdeeld! 0,8 0,7 0,6 0,5 0,4 0,3 0,2 Series1 1 keer gooien 0,1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Pr(X zessen in N worpen)= aantal rijen van N worpen met X zessen = ( ( N 1 X N X ) 5 ) X 6 6 ( 1 X 6 N X 5 ) 6 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Series1 6 keer gooien 0,14 0,12 0,1 0,08 0,06 Series1 75 keer gooien 0,04 0,02 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Centrale Limietstelling Als X een optelsom is van vele kleine onafhankelijke bijdragen...dan is X ongeveer normaal (Gaussisch) verdeeld de bijdragen zelf mogen op vrijwel alle mogelijke manieren verdeeld zijn, het hoeven bijv. echt geen dobbelstenen te zijn...een van de belangrijkste stellingen van de kansrekening, of zelfs de gehele wiskunde Voor dit soort X is het modelleren met de normaalverdeling een goed idee Hoe fit ik een normaalverdeling? f(x 1,...,x n)= ( 1 2π ) n e n1 2 ( x µ)2 Standaard methodes (bijv. maximum likelihood): zet parameter µ ( theoretisch gemiddelde ) op waarde van empirisch gemiddelde, d.w.z. het gemiddelde dat je hebt waargenomen Probleem: data met uitbijter(s) (bijv. komma verkeerd...) HOVO statistiek November 2011 7

Een enkele Uitbijter trekt het gemiddelde flink omhoog = gem. met uitbijter = gem. zonder uitbijter Visualisatie fitten van normaalverdelingen is extreem gevoelig voor de aanwezigheid van uitbijters Belang van eyeballing: data moet eigenlijk altijd gevisualiseerd worden, als sanity check of je geavanceerde statistische methode niet gewoon iets onzinnigs doet Geldt niet alleen voor fitten van normaalverdeling, natuurlijk Dunne Staarten Dikke Staarten Meer algemeen: Normaalverdeling heeft twee extreem dunne (exponentieel kleine) staarten. Bijv. kans dat je een uitkomst krijgt die meer dan 7x zo groot is als de gemiddelde afwijking is al kleiner dan 1 op 100 miljard Er zijn verdelingen die op het oog erg normaal lijken, maar veel dikkere (polynomiale) staarten hebben Volgens sommigen is de Aziatische financiele crisis van 1998 mede veroorzaakt door speculatie op de beurs door computerprogramma s die normale aannames maken Het voorbeeld van verdelingen met dikke staarten: power laws die zijn nu een hype, maar hebben ook zo hun problemen...... Ze bieden nl. erg veel flexibiliteit : je kunt vrijwel elke data set redelijk goed fitten met een power law (kleine kwadratische afwijkingen...) HOVO statistiek November 2011 8