Goodness-of-fit bij linksgecensureerde observaties. Sara Appeltants

Maat: px
Weergave met pagina beginnen:

Download "Goodness-of-fit bij linksgecensureerde observaties. Sara Appeltants"

Transcriptie

1 Universiteit Antwerpen Faculteit Wetenschappen Departement Wiskunde-Informatica Academiejaar Goodness-of-fit bij linksgecensureerde observaties Sara Appeltants Eindwerk ingediend met het oog op het behalen van de graad van Licentiaat in de Wiskunde Promotor: Prof. Dr. G. Molenberghs Copromotor: Prof. Dr. R. Braekers

2

3 Dankwoord Als eerste wil ik mijn promotor Geert Molenberghs en copromotor Roel Braekers bedanken omdat ze mij de kans gegeven hebben om deze thesis te maken. Roel Braekers wil ik nog extra bedanken voor de goede begeleiding, de snelle antwoorden op mijn mails met vragen en het vele geduld. Ook mijn ouders verdienen mijn dankbaarheid omdat ze altijd voor mij klaarstonden en me zijn blijven steunen, op alle mogelijke manieren. Natuurlijk wil ik ook mijn vrienden en medestudenten bedanken voor allerlei kleine en grote dingen. In het bijzonder wil ik Claudia en Carolien bedanken omdat ze steeds bereid waren om naar mij te luisteren en hun bemoedigende woorden, Mario voor het nalezen van mijn thesis, en ook Tamara voor de hulp met TeX. Tenslotte ben ik Peter erg dankbaar voor diverse hulp, van het uitleggen van foutmeldingen in mijn algoritmes tot het fungeren als publiek bij het oefenen van mijn presentatie. Maar vooral omdat hij steeds in mij is blijven geloven. i

4 Inhoudsopgave Inleiding 1 1 Inleidende begrippen tot survivalanalyse Survivalfunctie Dichtheid Hazard rate functie Gecensureerde gegevens Rechtse censurering Type I: vaste censureringstijd Type I: random censureringstijd Type II censurering Linkse censurering Goodness-of-fit tests Likelihoodconstructie Chi-kwadraat test Chi-kwadraat test voor niet gecensureerde gegevens Chi-kwadraat test voor linksgecensureerde gegevens QQ-plot EDF-statistieken Empirische distributiefunctie Supremumstatistieken Kwadratische statistieken Berekenen van de statistieken: PIT EDF-tests: case EDF-tests met ongekende parameters Besluit 48 Bibliografie 50 A Enkele definities en eigenschappen 51 ii

5 B Algoritmes 53 B.1 Kunstmatig censureren van simulaties B.1.1 Linkse censurering B.1.2 Rechtse censurering B.2 Construeren van voor simulaties B.2.1 Linkse censurering B.2.2 Rechtse censurering B.3 Likelihood B.3.1 likelihoodconstructie B.3.2 Contourplot van de loglikelihoodfunctie B.4 Chi-kwadraat verdelingstest B.4.1 Chi-kwadraattest voor ongecensureerde gegevens B.4.2 Chi-kwadraattest voor linksgecensureerde gegevens.. 57 B.5 QQ-plot B.6 EDF-statistieken case B.6.1 Grafieken van de EDF en verdelingsfunctie B.6.2 EDF-testen voor ongecensensureerde gegevens B.6.3 EDF-testen voor rechtsgecensensureerde gegevens B.6.4 EDF-testen voor linksgecensensureerde gegevens B.7 EDF-statistieken case 1 voor ongecensureerde gegevens B.8 EDF-statistieken case 2 voor ongecensureerde gegevens B.9 EDF-statistieken case 3 voor ongecensureerde gegevens B.10 Gebruikte data iii

6 Inleiding De analyse van overlevingstijd, time to event data komt veelvuldig voor in de toegepaste statistiek. Voorbeelden hiervan kunnen we vinden in de medische wereld, biologie, psychologie, economie en levensduur van materialen, nl. tijd tot reageren op een geneesmiddel, tijd tot de dood van een laboratoriummuis, tijd tot het falen van een toestel e.a. Een probleem dat deze analyse nog bemoeilijkt, is het ontbreken van data, in het bijzonder censurering. Met gecensureerde data bedoelt men dat er naast de exacte ook gecensureerde observaties voorkomen. Men spreekt van een gecensureerde observatie als de lifetime van een bepaald individu of object (ook wel event time genoemd) niet weet wanneer dit exact plaatsheeft, maar enkel in welke tijdsperiode. Hierdoor zullen de klassieke statistische schatters en goodness-of-fit tests niet meer volstaan. Denk maar aan het steekproefgemiddelde als schatter voor het populatiegemiddelde, of de Chi-kwadraat verdelingstest. Na een beknopte inleiding over survivalanalyse zal er aan de hand van talrijke voorbeelden een overzicht gegeven worden van de verschillende soorten censurering. Vooral het verschil tussen rechtse en linkse censurering zal aan bod komen. Men spreekt van rechtsgecensureerde data wanneer we enkel weten dat dat de gebeurtenis heeft plaatsgehad voor een bepaalde tijd, bvb. wanneer een patiënt nog niet gereageerd heeft op het medicijn voor het einde van de studie. Bij linksgecensureerde data zal de gebeurtenis al plaatsgehad hebben voor een bepaalde tijd, bvb. wanneer de event time de tijd tot de eerste stapjes van een kind zijn, zijn de kinderen die al kunnen lopen linksgecensureerd. Ook het onderscheid tussen type I en type II bij rechtse censurering zal even aan bod komen. In het volgende deel zullen we zien hoe de likelihoodfunctie verandert wanneer we censurering in rekening brengen. Deze zullen we gebruiken in enkele van de latere verdelingstoetsen. We zullen de Chi-kwadraat test, de QQ-plot en verdelingstoetsen gebaseerd op EDF-statistieken uitvoerig bestuderen waarna we ze aanpassen voor linkse censurering met vaste censuringstijd, soms via een omweg langs de rechtste variant. Hiervoor heb ik telkens een algoritme geschreven in het programma R dat hier wordt uitgevoerd op enkele simulaties en voorbeelden. 1

7 Hoofdstuk 1 Inleidende begrippen tot survivalanalyse Zij X de tijd tot een bepaalde gebeurtenis. De stochastische veranderlijke X zal steeds positief zijn. Dit kan de tijd tot het falen van een elektrisch toestel zijn, tijd tot het hervallen van een patiënt met leukemie, sterftetijd van longkankerpatiënten,... Event times worden meestal geassocieerd aan negatieve gebeurtenissen. In het Nederlands spreekt men dan soms ook van faaltijd. Maar er zijn ook voorbeelden zoals een onderzoek in een kinderdagverblijf waarbij men de tijd tot het leren van bepaalde vaardigheden, zoals stappen of spreken, waarneemt. We zullen de termen event time, lifetime en faaltijd door elkaar gebruiken. In dit hoofdstuk zullen we begrippen invoeren zoals dichtheid, survivalfunctie en hazard rate functie, die de event time volledig karakteriseren. 1.1 Survivalfunctie De survivalfunctie geeft de kans weer dat de event time groter is dan een tijd x, dat het individu nog leeft na tijd x of de gebeurenis plaatsheeft na tijd x. We definiëren deze functie als: S(x) = P (X >x) 2

8 Figuur 1.1: Survival functie van een Weibull verdeling De survivalfunctie heeft nog volgende interessante eigenschappen. Eigenschap Voor een continue stochastische veranderlijke X heeft de survivalfunctie volgende eigenschappen: 1. S(x) is rechtscontinu en niet-stijgend monotoon. 2. S(0) = 1 3. lim x!1 S(x) =0 4. S(x) =1 P (X apple x) =1 F (x), met F (x) de verdelingsfunctie. Figuur 1.1 geeft een voorbeeld van een survivalfunctie, nl. die van de Weibullverdeling met parameters = 1 en = 3. De helling van de survivalfunctie wordt bepaald door het risico dat het individu of object loopt: hoe meer risico, hoe sneller S(x) naar nul zal gaan. 1.2 Dichtheid De dichtheid van een stochastische variabele definieert men als f(x) = ds(x) dx waarbij ds(x) dx de afgeleide van S(x) naar x is. Eigenschap Voor een continue stochastische veranderlijke X heeft de dichtheidsfunctie volgende eigenschappen: 3

9 df (x) 1. f(x) = dx 2. f(x) 0, voor alle x 3. R 11 f(x)dx =1 4. P (a apple X apple b) = R b a f(t)dt = F (b) F (a) =S(a) S(b) Voor de dichtheid hebben we ook volgende verband met de survivalfunctie en verdelingsfunctie, dat we duidelijk kunnen zien op figuur 1.2. S(t 0 )= R 1 t 0 f(t)dt F (t 0 )= R t 0 1 f(t)dt Figuur 1.2: Dichtheidsfunctie van Weibulverdeling met = 1 en = 3 We kunnen de dichtheid interpreteren als een benadering van de kans dat de gebeurtenis plaatsheeft op tijd x: f(x) x P (x apple X apple x + x), voor kleine x 1.3 Hazard rate functie De hazard rate functie, ook wel faaltempo genoemd, is een populaire beschrijving van een lifetime X omdat ze het risico van het individu of object op tijdstip t voorstelt. We kunnen de definitie voor continue stochastische variabelen eenvoudig afleiden uit deze intuïtieve voorstelling: 1. kans op gebeurtenis tussen tijd t en t + t = P (t apple T apple t + t) =S(t) S(t + t) wegens eigenschap

10 2. kans op gebeurtenis tussen tijd t en t + t, gegeven nog niets gebeurd op tijd t = P (t apple T apple t + t T t) = P (tapplet applet+ t) P (T t) = S(t) S(t+ t) S(t) wegens de definitie van voorwaardelijke kans en S survivalfuntie van een continue stochastische variabele 3. gemiddelde kans op gebeurtenis tussen tijd t en t + t, gegeven nog niets gebeurd op tijd t: = P (tapplet applet+ t T t) t = S(t) S(t+ t) S(t) t 4. het ogenblikkelijk gemiddelde (lim t!0 ): P (tapplet applet+ t T t) S(t) S(t+ t) = lim t!0 t = lim t!0 S(t) t = ds(t)/dt S(t) = f(t) S(t) wegens de definitie van afgeleide Men definieert hazard rate functie dan als h(x) = lim x!0 P (x apple X apple x + x X x) x Voor een continue stochastische variabele X geldt dan ook: h(x) =f(x)/s(x) = d(ln[s(x)]) dx Dankzij deze gelijkheid kunnen we kiezen of we de survivalfunctie of de hazard rate functie gebruiken om de event time van een individu of object te beschrijven, want beide zijn equivalent. Wanneer we H(x) definiëren als de cumulatieve hazard rate functie: H(x) = Z x 0 h(u)du = ln [S(x)] kunnen we voor continue survivalfuncties S(x) schrijven in functie van de (cumulatieve) hazard rate functie. S(x) =e H(x) = e R x 0 h(u)du (1.1) Hazard rate functies kunnen verscheidene vormen hebben. De meest eenvoudige hazard rate functie kunnen we vinden bij een exponentiële verdeling. Dit is de constante functie h(x) = waarbij > 0 de parameter van deze verdeling is. Hieruit volgt dat wanneer X een exponentiële verdeling volgt, het risico op ieder moment evenveel is (onafhankelijk van de tijd). Voor stijgende hazard rate functies geldt: hoe verder in de tijd, hoe meer risico. Zo n model kan gebruikt worden bij het verouderen van personen of 5

11 slijtage van materialen. Voor dalende hazard rate functies geldt het omgekeerde, hoe verder in de tijd, hoe minder risico. Deze kunnen model staan voor de inlooptijd van een nieuwe werknemer of metalen die sterker worden door gebruik. Figuur 1.3: Enkele voorbeelden van monotone hazard rate functies Maar er zijn ook niet-monotone hazard rate functies. Zoals de hazard rate functie van de log-logistische verdeling met parameters = 2 en = Deze heeft eerst een stijgend verloop en daarna dalend. Dit kan een model zijn voor een risicovolle operatie waarbij in het begin kans is op complicaties en infectie, maar wanneer de patiënt herstellende is, zal het risico dalen. Tenslotte, de meest voorkomende hazard rate functie is badkuipvorm. Deze wordt gebruikt in experimenten waar men de populatie vanaf de geboorte volgt. Het hoge risico in het begin staat voor kindersterfte, tijdens de kinderjaren is het risico het laagst, maar naarmate men ouder wordt, zal het risico terug stijgen. Voor de badkuipcurve in figuur 1.4 gebruikten we de formule van Lee (zie A7), maar een badkuipcurve kan ook gemodelleerd worden als een stuksgewijze set van een dalende, een constante en een stijgende hazard rate functie [9]. 6

12 Figuur 1.4: Enkele voorbeelden van niet-monotone hazard rate functies 7

13 Hoofdstuk 2 Gecensureerde gegevens In een steekproef van lifetimes kunnen naast exacte observaties ook een aantal gecensureerde observaties voorkomen. Een gecensureerde observatie bevat slechts gedeeltelijke informatie over de lifetime X. We weten enkel in welk interval deze zal voorkomen, niet de exacte waarde. Bijvoorbeeld: voor een longkankerpatiënt die sterft in een auto-ongeval kunnen we niet meten wanneer hij aan longkanker zal sterven, we weten enkel dat de exacte tijd hiervan later zou zijn dan het moment van het ongeval. We onderscheiden rechtse en linkse censurering, afhankelijk van of dit interval langs boven of langs onder begrensd is. Binnen deze categoriën kunnen we nog verder opdelen in Type I censurering vaste en random censureringstijd en bij rechtse censurering ook Type II. 2.1 Rechtse censurering Type I: vaste censureringstijd Bij rechtse censurering wordt de gebeurtenis enkel exact geobserveerd als ze plaatsheeft voor een bepaalde tijd. Voorbeeld Een onderzoek van 100 patiënten die een behandeling tegen leukemie ondergaan. Om tijd en kosten te besparen wordt de studie na 6 maanden stopgezet. De patiënten die nog niet op de behandeling gereageerd hebben, geven rechtsgecensureerde observaties. Voorbeeld Een producent van gloeilampen stelt een onderzoek naar de levensduur van lampen zodat hij een garantie op de verpakking kan plaatsen. Hij eist dat de studie niet langer dan 3600 uur mag duren. 8

14 Figuur 2.1: Schematische voorstelling rechtse censurering: de observaties voor t c zijn exacte lifetimes Zij lifetimes X 1,X 2,.., X n onafhankelijk en gelijk verdeeld met verdeling F en t c een (voorafbepaalde) tijd, die we vaste censureringstijd noemen. We zijn geïnteresseerd in X 1,X 2,.., X n, maar deze observeren we echter niet. In plaats daarvan observeren we T 1,T 2,.., T n met ( X i als X i apple t c T i =. t c als X i >t c We kunnen dit ook noteren met (T i, i) waarbij T i = min(x i,t c ) en i = 1 (Ti applec i ). Indicator i, die de informatie over de censurering bevat, kunnen we ook noteren als: 8 0 als gecensureerd >< als X i >t c, i =. 1 als niet gecensureerd >: als X i apple t c Figuur 2.2: Een geobserveerde survivalfunctie 9

15 Van deze geobserveerde verdeling kunnen we de survivalfunctie bepalen: S Ti (t) = P (T i >t) definitie S = P (min(x i,t c ) >t) definitie T i = P (X i >ten t c >t) = P (X i >t) 1 ( (t<tc) = S Xi (t) als t<t c 0 als t t c Een tekening hiervan zien we in figuur Type I: random censureringstijd Tot nu toe hebben we enkel voorbeelden gezien met een vaste censureringstijd, maar dit kunnen we ook veralgemenen naar een random censureringstijd waarbij we het vast getal t c vervangen door een stochastische variabele C i met een bepaalde verdeling G. Aan iedere lifetime X i associëren we dan zo n een stochastische variabele C i (1 apple i apple n). We kunnen voorbeeld uitbreiden: Voorbeeld Een onderzoek van 100 patiënten die een behandeling tegen leukemie ondergaan. Om tijd en kosten te besparen wordt de studie na 6 maanden stopgezet. Maar nu laten we ook andere factoren toe die censurering veroorzaken: het kwijtraken van gegevens, terugtrekkingen uit de studie (bvb. wegens teveel nevene ecten van de behandeling), loss to follow-up (bvb. door verhuis van de patiënt, gestorven door andere oorzaken dan diegene waarin we geïnteresseerd zijn),... We kunnen ook nog een extra veralgemening beschouwen die toelaat dat de individuen op verschillende tijden de studie binnenkomen en dus niet enkel op de starttijd van de studie t = 0. Dit komt vaak voor bij klinische studies waar men niet enkel de patiënten gebruikt die voor handen zijn bij het begin, maar men ook in de loop van de studie patiënten toevoegt. Bijvoorbeeld in een onderzoek met leukemiepatiënten neemt men patiënten op waarvan de diagnose pas tijdens de duur van de studie gesteld werd. Om deze observaties gelijk te behandelen zal men niet de kalendertijd gebruiken, maar herschalen naar tijd in de studie. Figuur toont een triviaal voorbeeld van een mogelijke deelsteekproef van deze studie. In dit geval geeft patiënt 1 een ongecensureerde observatie want hij reageert voor het einde van de studie. Patiënt 2 komt wat later binnen in de studie en geeft een gecensureerde observatie, hij heeft nog niet gereageerd voor het einde van de studie maar verdween ook niet wegens andere redenen 10

16 uit de studie. Patiënt 3 daarentegen is gecensureerd, maar bvb. doordat hij verhuisd is of niet meer wil meedoen aan het onderzoek. Merk op dat gecensureerde gegevens genoteerd worden met een +. Figuur 2.3: Schematische voorstelling van random censurering bij vb In het algemeen observeren we bij random censurering de paren (T 1, 1),.., (T n, n) waarbij voor alle i in {1,.., n}: T i = min(x i,c i ) 8 0 als gecensureerd >< als X i >C i, i = 1 (Xi applec i ) = 1 als niet gecensureerd >: als X i apple C i. We observeren dus X i en C i niet rechtstreeks, maar enkel T i en de bijbehorende indicator voor censurering i. We kunnen opmerken dat vaste censurering een speciaal geval is van random censurering want we kunnen getal t c beschouwen als een ontaarde verdeling C in t c. Merk op dat we stochastische (of random) variabelen steeds aanduiden met hoofdletters en vaste getallen of bepaalde waarden van stochastische variabelen met kleine letters. 11

17 Figuur 2.4: De verdelingsfunctie van de ontaarde verdeling in t c Bij random censurering maken we wel de belangrijke onderstelling dat voor alle i de lifetimes X i en censureringstijden C i onafhankelijk zijn, omdat we anders weinig conclusies kunnen trekken aangezien de klassieke theoriën niet meer gelden. Dit lijkt een zwakke onderstelling wanneer de observaties random gecensureerd worden. Maar in werkelijkheid zal dikwijls een relatie bestaan tussen deze stochastische variabelen. In de context van voorbeeld zien we dit duidelijk. Het vertrek van een patiënt uit het onderzoek kan te maken hebben met het feit dat de behandeling geen e ect heeft, of dat er teveel nevene ecten zijn, of wanneer de patiënt ontevreden is over het onderzoek. Er zal in werkelijkheid dus wel een afhankelijkheid kunnen optreden. Laten we nu nog enkele andere voorbeelden bekijken. Voorbeeld Een onderzoek bestaande uit 26 psychiatrische patiënten die tussen 1935 en 1948 opgenomen werden in universitaire ziekenhuizen in Iowa. De data (zie tabel 2.1) bestaat voor iedere patiënt uit geslacht, leeftijd bij opname en het aantal jaren follow-up. Met het aantal jaren follow-up bedoelen we de tijd dat de patiënt in de studie is, de tijd tussen binnenkomen en dood of censurering. De event time is hier de tijd tot het overlijden van de patiënt. Er is hier geen algemene stop van de studie. Uit tabel 2.1 zien we dat de event time voor de eerste patiënt exact is en gelijk aan 1 jaar, dwz. 1 jaar na opneming sterft deze patiënt. Voor de laatste patiënt in deze tabel is er een rechtsgecensureerde event time 39+, zodat we enkel weten dat hij 39 jaar na opname nog in leven is. Een van de doelen van deze studie was het vergelijken van de sterftecoefficiënt van de psychiatrische patiënten met de standaard sterftecoe ciënt van inwoners van Iowa om te bepalen of de psychiatrische patiënten een duidelijk kortere levensduur hadden. 12

18 Sex Age Time of follow-up Sex Age Time of follow-up F 51 1 F F 58 1 F F 55 2 M F M M M M F F F F F F M F M F M M F M M Tabel 2.1: survival data voor psychiatrische patienten Voorbeeld Een studie over beenmergtransplantaties bij leukemie. De tijd tot afstoting wordt niet geobserveerd doordat de patiënt kort na de operatie sterft of een terugval heeft voordat de behandeling e ect kan hebben. Voorbeeld Studie bij brandwondenpatiënten waarbij tijd tot het optreden van infectie de event time is en er censureringstijden zijn zoals overlijden of ontslag uit het ziekenhuis (en dus verdwijnen uit het onderzoek) voordat er infectie waargenomen wordt Type II censurering Men kan inzien dat het niet altijd even makkelijk is om op voorhand het tijdstip te bepalen waarop de studie moet eindigen om de kost (in tijd en geld) van de studie niet te hoog te doen oplopen en toch voldoende ongecensureerde gegevens te verkrijgen (een goede waarde voor de vaste censureringstijd t c bepalen). Daarom beschouwen we ook een andere vorm van censurering: type II. De studie duurt tot het falen (of anders gezegd: plaatshebben van de gebeurtenis) van het re individu of object, met r een voorbepaald positief getal met r < nwaarbij n de grootte van de steekproef is. Nu zullen alle objecten of individuen op hetzelfde moment de studie binnenkomen (op t = 0) en de studie stopt wanneer r ervan hun exacte event time bereikt hebben. Voorbeeld Bij een studie over de levensduur van 300 gloeilampen kunnen we voor de twee types verschillende experimenten opzetten: Type I: na 3600u de studie stopzetten. 13

19 Type II: studie stopzetten na het falen van 200 lampen. In studies naar de levensduur van materialen zal men meestal een type II studie verkiezen, omdat zonder voorkennis de keuze voor de vaste censureringstijd erg slecht kan zijn. In het type I-experiment uit voorgaand voorbeeld kan het gebeuren men de faaltijd van de lampen onderschat zodat er nog geen enkele gloeilamp heeft gefaald voor het einde van de studie. Dit betekent dat alle gegevens gecensureerd zullen zijn waardoor de klassieke statistische technieken niet bruikbaar kunnen zijn bij de analyse ervan. In plaats van de werkelijke event times X 1,X 2.., X n observeren we T (1) = X (1) T (2) = X (2). T (r) = X (r) T (r+1) = X (r). T (n) = X (r) waarbij X (1) <X (2) <..<X (n) de ordestatistieken van X 1,.., X n zijn. Merk op dat het aantal falingen r (of ook het aantal event times dat we exact observeren) en het aantal gecensureerde observaties n r gekend zijn aan de start van de studie. De censureringstijd T (r) is stochastisch. In het geval van type I was het aantal gecensureerde observaties onbekend aan de start van de studie. Aangezien we enkel de r kleinste event times overhouden is de statistische analyse van Type II gecensureerde gegevens eenvoudiger. Want hierdoor kunnen we de theorie over ordestatistieken gebruiken om survivalfuncties, likelihood e.a. te bepalen. Bij wijze van voorbeeld bepalen we de verdelingsfunctie van de observeerde gegevens. F T(k) (x) = P (T (k) apple x) definitie F = P (minstens k van de T (i) s apple x) definitie ordestatistiek = P (#{T i apple x} minstens k) (*) Hierin herkennen we binomiaalverdeling B(n, F T (x)): n trekkingen met succeskans P (T i apple x) =F T (x) op succes. Uitdrukking (*) kunnen we dan zien als de kans op k successen uit n. Zodat wegens Appendix A5, waar we de uitdrukking voor de kans op j successen uit n in een binomiaal verdeeld experiment vinden: F T(k) (x) = j=k n (F T (x)) j (1 F T (x)) n j j 14

20 2.2 Linkse censurering Een event time is linksgecensureerd wanneer de gebeurtenis al heeft plaatsgehad vóór de censureringstijd. Een event time X is linksgecensureerd wanneer deze kleiner is dan de random censureringstijd C, dwz. dat de gebeurtenis al plaatsgehad heeft voor tijd C. We kennen dus enkel de exacte event time wanneer deze groter of gelijk aan C is. Ook hier noteren we de gegevens waarin we geïnteresseerd zijn, maar die we niet waarnemen wegens censurering, met X 1,X 2,.., X n. We stellen deze opnieuw onafhankelijk en gelijk verdeeld volgens een verdeling F. Hieraan associëren we random censureringstijden C 1,C 2,.., C n, onafhankelijk en gelijk verdeeld volgens een verdeling G. We gaan er weer van uit dat voor alle i de stochastische variabelen X i en C i onafhankelijk zijn. De geobserveerde linksgecensureerde data noteren we met paren (T i, i), 1 apple i apple n, met: ( X i als X i C i T i = = max(x i,c i ) C i als X i <C 8 i 0 als gecensureerd >< als X i <C i, i = 1 (Xi C i ) = (2.1) 1 als niet gecensureerd >: als X i C i Voorbeeld In kinderdagverblijven worden regelmatig testen uitgevoerd om te bepalen wanneer een kind een bepaalde vaardigheid aanleert. Dit zijn dan vaardigheden zoals: leren lopen, eerste woordjes, zich optrekken, een cirkel kunnen tekenen,... De event time kunnen we bijvoorbeeld de leeftijd waarop het kind leert lopen, nemen. Er zullen kinderen zijn die al kunnen lopen voor aanvang van de studie, dit zijn dan de linksgecensureerde gegevens. Want van deze kinderen weten we enkel dat hun exacte event time kleiner is dan de huidige tijd. Een kind van twee jaar dat al kan lopen zal een linksgecensureerde observatie 24+ geven (uitgedrukt in maanden). Van een kind van 10 maanden dat we tijdens de studie voor het eerst zien lopen, kennen we de exacte event time, nl. 10. Voorbeeld Een onderzoek over het marijuanagebruik van jongens uit middelbare scholen in Californië. Men stelde de vraag: Wanneer gebruikte je voor het eerst marijuana? De event time is dan de leeftijd waarop voor het eerst marijuana gebruikt werd. Als een jongen antwoordde al gebruikt, maar ik weet niet meer wanneer, ligt zijn exacte event time voor zijn huidige leeftijd. Laat deze jongen bijvoorbeeld 15

21 13 jaar zijn, dan zal dit resulteren in een linksgecensureerde observatie 13+. leeftijd # exacte obs # nog nooit gebruikt # al eerder gebruikt > Tabel 2.2: Marijuanagebruik bij schooljongens Wanneer men in een studie rechts- en linksgecensureerde gegevens toelaat, noemt men de bijbehorende event times ook wel dubbel gecensureerd. We kunnen de observaties weer voorstellen door (T, ), maar nu zal T = max[min(x, C rechts ),C links ] 1 en = 8 >< 1 als niet gecensureerd 0 als rechtsgecensureerd >: 1 als linksgecensureerd Voorbeeld Wanneer in vorig voorbeeld er ook een jongen antwoordde: nog nooit gebruikt, zal de event time rechtsgecensureerd zijn. In tabel 2.2 zien we dat er 2 twaalfjarige jongens zijn die een rechtsgecensureerde observatie geven. In dit onderzoek komen zowel links- als rechtsgecensureerde observaties voor, zodat deze dubbel gecensureerd is. 1 merk op dat T = min[max(x, C links ),C rechts ] hetzelfde resultaat geeft 16

22 Hoofdstuk 3 Goodness-of-fit tests Wanneer we willen nagaan of een dataset uit een bepaalde verdeling komt, hebben we verschillende verdelingstoetsen en grafische methodes tot onze beschikking. Denk maar aan de Chi-kwadraat verdelingstoets, de QQ-plot, EDF-statistieken,... Maar in het geval van gecensureerde gegevens zullen de klassieke toetsen een verkeerd resultaat geven. Dit is omdat de geobserveerde gegevens niet aan de klassieke verdeling voldoen, enkel de onderliggende event times. In dit hoofdstuk zullen we een aantal methodes aanpassen voor gecensureerde gegevens met een vaste censureringstijd. We behandelen het geval van vaste censureringstijd omdat we hier het voordeel hebben dat we de onderliggende verdeling makkelijk kunnen herkennen in de geobserveerde censureerde verdeling. Dit kunnen we zien in figuur 3.1: de rechtse grafiek is de verdelingsfunctie van een normale verdeling met gemiddelde 2 en variantie 9, de linkse grafiek is de empirische verdelingsfunctie van een steekproef van grootte 100 uit deze verdeling, maar dan (kunstmatig) gecensureerd op vaste censureringstijd gelijk aan 1. Figuur 3.1: De verdelingsfunctie linksgecensureerde en de verdelingsfunctie van dezelfde niet-gecensureerde gegvens 17

23 3.1 Likelihoodconstructie Eerst besteden we aandacht aan de constructie van de likelihoodfunctie want deze speelt een belangrijke rol bij het schatten van parameters. Herinner dat we de event times en censuringstijden onafhankelijk veronderstellen. Als dit niet het geval is, gaat deze methode niet meer op. We gaan na welke informatie iedere observatie ons geeft. Een observatie die hoort bij een exacte event time geeft infomatie over de kans dat de gebeurtenis plaatsheeft op deze tijd, wat ongeveer overeenstemt met de dichtheid van X op deze tijd. Voor een rechtsgecensureerde observatie weten we enkel dat de event time groter is dan deze tijd, wat overeenkomt met S(C rechts ). Wanneer we denken in termen van een kankerpatiënt dan weten we dat hij nog in leven is na tijd C rechts (met C rechts de random censureringstijd geassocieerd aan X). Analoog weten we voor een linksgecensureerde observatie dat de gebeurtenis al heeft plaats gehad voor deze tijd, zodat de informatiebijdrage gelijk is aan 1 S(C links ), of ook F (C links ). Wanneer we al deze informatie samenvoegen, kunnen we de likelihoodfunctie construeren: L / X i2e f(x i ) X i2r S(C rechts ) X i2l(1 S(C links )) waarbij x i een exacte event time is wanneer i 2 E, een rechtsgecensureerde observatie wanneer i 2 R, en linksgecensureerd wanneer i 2 L. Dit kunnen we verder specifiëren tot een experiment waarin geen rechtse censurering voorkomt (we kunnen dit ook voor geen linkse censurering, de werkwijze is analoog). De geobserveerde data worden dan voorgesteld door paren (T, ) met = 1 wanneer de exacte event time geobserveerd wordt, en = 0 wannneer ze linksgecensureerd is. We kunnen dan deze twee gevallen bekijken: Voor = 0 (de linksgecensureerde gegevens): P (T, = 0) = P (T = C links = 0) P ( = 0) = 1 P ( = 0) = P (X apple C links )=1 S(C links )=F (C links ) Voor = 1 (de niet gecensureerde gegevens): P (T, = 1) = P (T = X = 1) P ( = 1) = P apple (X = T X>C links ) P (X >C links ) f(t) = [S(C links )] = f(t) S(C links ) Dit kunnen we samenvoegen tot: P (T, )=f(t) F (t) 1. 18

24 Voor een steekproef van grootte n met (T i, i),i = 1,.., n wordt dan de likelihood ny ny L = P (t i, i) = f(t i ) i F (t i ) 1 i (3.1) of ook, wegens f(t) =h(t) S(t) en formule 1.1 die de survivalfunctie uitdrukt in functie van de cumulatieve hazard rate functie. L = ny h(t i ) i e H(t i) i (1 e H(ti) ) 1 i (3.2) Deze likelihood zullen we later gebruiken om de parameters van de onderliggende verdeling te schatten door deze te maximaliseren. 3.2 Chi-kwadraat test Chi-kwadraat test voor niet gecensureerde gegevens Beschouw steekproef X 1,.., X n uit een populatie X, deze heeft een onbekende verdelingsfunctie F. Door middel van verdelingstoetsen kunnen we testen of deze verdelingsfunctie gelijk is aan een bepaalde continue theoretische verdeling. Hier onderzoeken we steeds of de steekproef uit een normale verdeling komt. In dit deel bespreken we de Chi-kwadraat verdelingstest. Deze is gebaseerd op het verschil tussen de geobserveerde aantallen en de verwachte (theoretische) aantallen. We doen een eenzijdige test: wanneer dit verschil groot is zullen we de nulhypothese verwerpen. De nulhypothese H 0 is dan: steekproef X 1,.., X n komt uit een normale verdeling met parameters ˆµ en ˆ, waarbij deze laatste schattingen zijn aan de hand van de data. Hiervoor worden het steekproefgemiddelde en steekproefvariantie het meest gebruikt. We toetsen de nulhypothese door de theoretische verdeling op te splitsen in k klassen. Voor iedere klasse bepalen we de geobserveerde aantallen N j, berekenen we theoretische kans p j en verwachte aantallen n p j. Hierbij zorgen we er wel voor dat de verwachte aantallen voor alle j in {1,.., k} groter of gelijk zijn aan 5. Dit is nodig opdat de teststatistiek de gewenste verdeling zou hebben. Voor meer details over de afleiding van deze test zie Braekers[1]. Onder H 0 hebben we dan voor de teststatistiek dat deze Ci-kwadraat verdeeld is met k 1 v vrijheidsgraden, waarbij k het aantal klassen en v het aantal geschatte parameters van de onderliggende verdeling is: TS = kx (N j np j ) 2 j=1 np j 2 (k 1 v) (3.3) 19

25 Dit gebruiken we als basis voor de test. Wanneer het verschil niet significant is op niveau, zal de teststatistiek kleiner zijn dan kritisch punt (of ook wel kwantiel genoemd) 2 (k 1 v;1 ), in het andere geval zullen we H 0 verwerpen. Dit kunnen we ook in p-waarden uitdrukken. Noteer p = P (TS ts), de kans onder nulhypothese dat de toetsingsgrootheid een waarde aanneemt die even extreem of extremer is dan de geobserveerde waarde. Wanneer p apple zullen we de nulhypothese verwerpen. Figuur 3.2: Opdeling in klassen voor Chi-kwadraat verdelingstest Bij de constructie van het algoritme hebben we gekozen (zie B.4.1) om eerst het aantal klassen en de theoretische kansen vast te leggen, en daaruit de begin- en eindpunten van de klasse-intervallen te berekenen. Omdat we ook de voorkeur geven om met kleine datasets te werken, kozen we voor 10 klassen met elk een theoretische kans p j gelijk aan 0,1 (1 apple j apple 10). Met deze waarden zien we dat de verwachte aantallen groter zullen zijn dan 5 bij steekproeven vanaf grootte 50. Zij n de steekproefgrootte, dan: n p j 5, n 0, 1 5, n 50 We willen testen of de steekproef uit een normale verdeling komt dus schatten we eerst het gemiddelde en de variantie door het steekproefgemiddelde en -variantie. x = 1 x i n s 2 = 1 n 1 20 (x i x) 2

26 Nu kunnen we aan de hand van de theoretische kansen de begin- en eindpunten van de klasse-intervallen a 1,.., a 9 berekenen. Want we weten dat onder de nulhypothese: met P (X apple a 1 ) = (y 1 )=0, 1 P (a 1 <Xapple a 2 ) = (y 2 ) (y 1 )=0, 1. P (a 7 <Xapple a 8 ) = (y 8 ) (y 7 )=0, 1 P (a 8 <Xapple a 9 ) = (y 9 ) (y 8 )=0, 1 P (a 9 <X) = 1 (y 9 )=0, 1 y j = a j s x,1apple j apple 9 (3.4) Uit deze 10 vergelijkingen kunnen we de 9 onbekende waarden y j bepalen, 1 apple j apple 9 (d.m.v. tabellen voor de standaardnormale verdeling), waarna we waarden voor begin- en eindpunten van de klasse-intervallen a j (1 apple j apple 9) hieruit kunnen berekenen door lineaire vergelijkingen 3.4 op te lossen. De geobseerveerde waarden n j (1 apple j apple 10) bepalen we eenvoudigweg door het aantal in iedere klasse te tellen. Dit zien we ook terug in algoritme B.4.1. Nu kunnen we de waarde voor de teststatistiek ts (formule 3.3) berekenen en vergelijken met kritisch punt 2 (7;1 ). In het algoritme wordt gebruik gemaakt van de p-waarde p = P (TS ts) waarbij TS Chi-kwadraat verdeeld is met 7 vrijheidsgraden. Als deze groter is dan verwerpen we de nulhypothese onder significantieniveau, anders nemen we aan dat de steekproef normaal verdeeld is met gemiddelde x en variantie s 2 onder niveau. Voorbeeld We passen het algoritme toe op een steekproef die we getrokken hebben uit een normale verdeling met gemiddelde 2 en standaarddeviatie 3, grootte 100 (voor de precieze waarden zie B.10). Wanneer we het algoritme toepassen krijgen we als output: > chitest10k(data,0.05) [1] "teststatistiek is" [1] 5 [1] "cutoff" [1] [1] "pwaarde is" [1] [1] "de data komt uit een normale verdeling met mu en sigma gelijk aan:" [1] [1]

27 De p-waarde is kleiner dan het kritisch punt wat betekent dat we op het 5% significantieniveau niet kunnen verwerpen dat de dataset uit een normale verdeling komt met gemiddelde gelijk aan en standaard- deviatie gelijk aan Voorbeeld Als we het algoritme toepassen op een dataset van grootte 100 die getrokken is uit een weibull verdeling met parameter =0, 5 en apple =3krijgen we volgende output: > chitest10k(dataweib,0.05) [1] "teststatistiek is" [1] [1] "cutoff" [1] [1] "pwaarde is" [1] 0 [1] "We werwerpen de nulhypothese op significantieniveau alpha" [1] "de data komt niet uit een normale verdeling met mu en sigma gelijk aan:" [1] [1] [1] 0 Zoals we verwachtten, wordt de nulhypothese verworpen op het 5%-niveau. In wat volgt simuleren we het significantieniveau. Met het significantieniveau houden we de type 1-fout onder controle. Een type 1-fout maken betekent dat we H 0 verwerpen wanneer H 0 juist is. We spreken van een toets op significantieniveau wanneer de kans op deze fout kleiner of gelijk is aan. We kijken nu in hoeveel percent van de gevallen een goede steekproef verworpen wordt. teller2<-vector(length=20) for(j in 1:20) { teller<-0 for(i in 1:500) { data<-rnorm(500,2,3) p<-chitest10k(data,0.05) if(p<=0.05){teller<-teller+1} } teller2[j]<-teller/500 } teller2 #20 sec We hebben 20 maal 500 datasets uit een normale verdeling met gemiddelde 2 en standaardeviatie 3 genomen en hierop het algoritme toegepast. Iedere keer noteren we het percent van de gevallen die verworpen worden. We zien 22

28 dat deze waarden dicht tegen het significantieniveau 0,05 liggen en dikwijls lager zijn. Merk op dat we hiervoor ook omgekeerd te werk kunnen gaan door een een dataset de nemen niet uit een normale verdeling komt. >teller2 # 10 klassen [1] [13] Wanneer we de steekproeven kleiner nemen, zullen deze percentages een beetje hoger liggen omdat de schattingen voor de parameters minder goed zijn en we testen t.o.v. een verdeling met deze schattingen als parameters en niet de exacte. Ook het aantal klassen speelt een rol. Wanneer we het algoritme herschrijven naar 5 klassen, is dit wat te weinig voor een steekproef van grootte 500. We zien dat de percentages dan hoger zullen liggen dan bij de test met 10 klassen, zodat deze laatste een beter resultaat geeft. >teller2 # 5 klassen [1] [13] Chi-kwadraat test voor linksgecensureerde gegevens We beschouwen een steekproef T 1,.., T n van linksgecensureerde gegevens met een vaste censureringstijd c, deze is afkomstig van een onderliggende steekproef X 1,.., X n met verdeling F zoals in sectie 2.2. We kunnen nu niet gewoon van de geobserveerde waarden testen of ze uit een normale verdeling komen. Alle lifetimes die we niet observeren omdat ze in werkelijkheid kleiner zijn dan de censureringstijd, zullen verzameld worden in een piek op deze tijd. Onder de nulhypothese zal het de onderliggende verdeling zijn die normaal verdeeld is, en niet de geobserveerde. De klassen zullen daarom niet meer gelijkmatig verdeeld worden zoals bij de Chi-kwadraat verdelingstest voor ongecensureerde gegevens. We groeperen de linksgecensureerde gegevens in één klasse zodat het eerste interval ( 1, 1] wordt, de andere verdelen we gelijkmatig. We moeten wel opletten dat de verwachte aantallen van iedere klasse niet kleiner worden dan 5. In dat geval kunnen we klassen samennemen zodat kans p j om in deze nieuwe klassen terecht te komen zal verhogen en daarmee ook de verwachte aantallen np j. Ook zijn er andere schattingen nodig voor het gemiddelde en de variantie dan bij de Chi-kwadraat verdelingstest voor ongecensureerde gegevens. Want we willen niet de parameters van de geobserveerde verdeling bepalen maar wel die van de onderliggende. Hiervoor gebruiken we de likelihoodfunctie uit sectie 3.1. In formule 3.1 vullen we dan de normale verdelingsfunctie en dichtheidsfunctie in. 23

29 L = ny apple 1 p e 1 2 ( x i µ ) 2 2 i apple ( x i µ ) 1 i Om schattingen te vinden voor de parameters maximalizen we de loglikelihoodfunctie naar parameters µ en. ln L = apple 1 i ln p e 1 2 ( x i µ ) 2 2 apple + (1 i)ln ( x i µ ) = = i i h ln(e 1 2 ( x i µ ) 2) ln( p 2 ) ln i + (1 i)ln ( c µ ) apple 1 2 (x i µ ) ln(2 ) ln + (1 i)ln ( c µ ) (3.5) Deze functie maximaliseren naar µ en is analytisch niet mogelijk wegens de normale verdelingsfunctie in de laatste term. Nummeriek kan dit wel. Dit doen we door op de functie uit B.3.1 in het programma R een niet-lineaire minimalizatie toe te passen met als startwaarden het steekproefgemiddelde en steekproefvariantie. We kiezen deze startwaarden omdat deze in de buurt zullen liggen van de parameters, om zo het aantal iteraties in de minimalizatie te beperken. We testen dit eens uit op kunstmatig linksgecensureerde steekproef. Voorbeeld Neem dezelfde ongecensureerde steekproef als in vb Hieruit construeren we een linksgecensureerde dataset d.m.v. algoritme B.1.1. We minimaliseren ln L met: >nlm(loglikfct(cendata,delta(cendata,1),1),stwa,print.level=1) $estimate [1] In figuur 3.3 wordt de contourplot van de loglikelihoodfunctie getoond. Het rode punt staat voor de parameterschatting, het snijpunt van de rechten voor de werkelijke waarde. Deze plot werd gemaakt met het algoritme uit B.3.2. We zien dat de schatting in de buurt van de werkelijke waarde ligt. 24

30 Figuur 3.3: Contourplot van de loglikelihood in vb Bij de constructie van het algoritme kozen we voor een klasse met linksgecensureerde gegevens en zes andere klassen. Een schematische voorstelling hiervan zien we in figuur 3.4. Deze maakt gebruik van vaste censureringstijd gelijk aan 1. Figuur 3.4: Opdeling in klassen voor Chi-kwadraat verdelingstest bij linksgecensureerde gegevens Aan de hand van de theoretische kansen kunnen we dan de begin- en eind- 25

31 punten van de klasse-intervallen berekenen. We weten: met P (X apple c) = ( c ˆµ ˆ ) P cens P (c <Xapple a 1 ) = (y 1 ) ( c ˆµ ˆ ) = (1 P cens)/6 P (a 1 <Xapple a 2 ) = (y 2 ) (y 1 ) = (1 P cens )/6 P (a 2 <Xapple a 3 ) = (y 3 ) (y 2 ) = (1 P cens )/6 P (a 3 <Xapple a 4 ) = (y 4 ) (y 3 ) = (1 P cens )/6 P (a 4 <Xapple a 5 ) = (y 5 ) (y 4 ) = (1 P cens )/6 P (a 5 <X) = 1 (y 5 ) = (1 P cens )/6 y j = a j ˆµ ˆ,1apple j apple 5 (3.6) Vaste censureringstijd c is gekend en schattingen ˆµ en ˆ zijn eerder berekend. Hierdoor kunnen we P cens berekenen. De overige klassen krijgen een theoretische kans die gelijk is aan de overblijvende kans gedeeld door het aantal overige klassen. Dan kunnen de andere punten berekend worden zoals eerder. Wat verder volgt in het algoritme is analoog aan het algoritme voor niet gecensureerde gegevens. Alleen nog even opletten bij het aantal vrijheidsgraden van de chi-kwadraatverdeling, dat wordt nu k v 1 = = 4. Er werd ook een algoritme met 11 klassen geschreven, zodat ook voor grotere steekproeven een goed resultaat bereikt kan worden. Deze algoritmes vinden we in B.4.2. We kunnen weer het significantieniveau simuleren. We gebruiken hiervoor 20 keer 500 datasets van grootte 500 met een onderliggende normale verdeling met gemiddelde 2 en standaardeviatie 3 en vaste censureringstijd gelijk aan 1. We noteren het percentage steekproeven waarvan op niveau 0,05 de nulhypothese van normaliteit verworpen wordt. De resultaten zijn dan: # voor 11k n= min >teller2 [1] [11] # voor 7k n=500 6 min20 >teller2 [1] [11] Hieruit kunnen we aflezen dat het algoritme voor linksgecensureerde gegevens heel wat langer duurt dan hetgeen voor ongecensureerde. Dit is te 26

32 wijten aan de kostelijke minimalisatieprocedure om de schatters te bepalen in het geval van gecensureerde gegevens. We zien, net zoals bij ongecensureerde gegevens, dat voor grote steekproeven het algoritme met meer klassen kleinere percentages opleverd die dichter bij het gewenste significantieniveau 0,05 liggen. 3.3 QQ-plot De QQ-plot is een verdelingstest waarbij men visueel kan nagaan of een steekproef X 1,.., X n overeenstemt met een theoretische verdeling F. Deze is gebaseerd op het feit dat het menselijk oog het verschil kan nagaan tussen een rechte lijn en een curve. De QQ-plot is dan gedefinieerd als de grafiek van de verwachte waarden onder de nulhypothese (wanneer de steekproef uit verdeling F komt) t.o.v. de geobserveerde waarden van de ordestatistieken. (E X (i),x(i) ) 1 apple i apple n. Wanneer de punten dicht bij de bissectrice (op 45 graden) liggen, zullen de verwachte waarden ruwweg overeenstemmen met de feitelijke waarnemingen. In het geval van linksgecensureerde gegevens met vaste censureringstijd willen we testen of de verdeling van de onderliggende steekproef X 1,.., X n overeenkomt met een verdeling F (zie formule 2.1). We berekenen de verwachte waarden onder de nulhypothese door te vertrekken van deze verdeling en hieruit de theoretische verdeling van de exacte (geobserveerde) steekproef T 1,.., T n te berekenen. Van deze berekenen we de ordestatistiek en zodoende de verwachtingswaarde. We specifiëren verdeling F hier weer door een normale verdeling. Als we een andere verdeling kiezen voor X i verkrijgen we bij het opstellen van de QQ-plot op analoge manier andere verwachte waarden voor deze verdeling. Verder specifiëren we hier de censureringstijd als 1. Voor een andere waarde zijn de berekeningen analoog. We bevinden ons dus in de situatie dat onder de nulhypothese de onderliggende stochastische variabele X verdeeld is volgens N(µ, 2 ). De geobserveerde variabele is dan T = max(x, 1). Hiervan berekenen we de verdelingsfunctie: F T (y) = P (T apple y) = P (max(x, 1) apple y) = P (X apple y en 1 apple y) = P (X apple y) 1 [1,1[ 27

33 = ( F X (y) als y 1 0 als y<1 met F X de normale verdelingsfunctie. We weten uit de theorie over ordestatistieken dat de verdeling van de k-e ordestatistiek gelijk zal zijn aan volgende uitdrukking F T (k) (y) = j=k n F T (y) j (1 F T (y)) n j. (3.7) j Event times zijn steeds positieve stochastische variabelen. Wegens appendix B9 is voor een positieve stochastische variabele Y, met verdeling F en dichtheid f de verwachtingswaarde gedefinieerd als: E [Y ]= Z 1 1 yf(y)dy = Z 1 Zodat de verwachtingswaarde voor T (k) wordt: E T (k) = Z [1 F (y)] dy. h1 F T (k) (x) i dx (3.8) We herschrijven het argument van deze integraal door middel van het binomium van Newton: (a + b) n = P n n i x i y n i : 1 = (F T (x) + (1 F T (x))) n n = F T (x) i (1 F T (x)) n i i We zien dat de uitdrukking uit 3.7 en vorige formule sterk op elkaar gelijken. Het argument wordt dan: 1 F T (k) = = n i Xk 1 n j j=1 F T (x) i (1 F T (x)) n i F T (x) j (1 F T (x)) n j j=k n F T (x) j (1 F T (x)) n j j Hierin herkennen we een binomiaalverdeling. Stel Y binomiaalverdeeld met parameters n en p, dan geldt n P (Y = y) = p y (n y) (1 p) y 28

34 zodat P (Y apple y) = Als we p = F T (x) eny = k yx j=0 n p j (n j) (1 p) j 1 nemen dan is 1 F(k) T = P (Y apple k 1) Zodat wanneer we dit invullen in 3.8 we een uitdrukking krijgen voor de gewenste verwachtingswaarde. Voor 1 apple k apple n: E Z 1 T (k) = P (Y apple k 1)dx met Y B(n, F T (x)) 0 Nu kunnen we de QQ-plot opstellen. In het algoritme (zie B.5) maken we gebruik van voorgaande berekeningen om twee vectoren van lengte n op te stellen. Op de horizontale as zetten we de verwachte waarden, op de vertikale de observaties van groot naar klein. We gaan visueel na of de punten zich in de buurt van de bissectrice bevinden. Maar dichtbij is nogal subjectief, zodat we best nog een bijkomende andere verdelingstest uitvoeren bij twijfel. Figuur 3.5: QQ-plot van steekproef uit normale verdeling N(2, 3 2 ) t.o.v. normale verdelingen Voorbeeld We beschouwen weer dezelfde normaal verdeelde dataset als eerder (met parameters 2 en 3). We kunnen nu kiezen hoe we de parameters van de theoretische verdeling specifiëren. In de linkse grafiek van figuur 3.5 kozen we de exacte parameters, in de rechtse schatten we ze met de likelihoodmethode. 29

35 We zien erg weinig verschil tussen beide grafieken. Zo goed als alle punten liggen voor beide erg dicht bij de bissectrice, enkel de punten in de staart liggen wat verder. We moeten nu echter wel opletten tegen welke normaalverdeling we testen. In het geval van ongecensureerde gegevens was het niet nodig om µ en te kennen wegens: Zij Y 1,.., Y n een steekproef van grootte n. Als Y i N(µ, 2 ) ) Z i = Y i µ N(0, 1) ) QQ-plot met theoretische verdeling N(0, 1) van y (i) lineair ) QQ-plot met theoretische verdeling N(0, 1) van z (i) = y (i) + µ lineair. Maar nu geldt dit niet meer aangezien het niet meer de geobserveerde stochastische variabele is die normaal verdeeld is, maar de onderliggende. Voorbeeld We testen de normale dataset met parameters µ =2en =3tegen een standaardnormale verdeling. In figuur 3.6 zien we duidelijk dat de punten de bissectrice helemaal niet benaderen. Figuur 3.6: QQ-plot van steekproef uit normale verdeling N(2, 3 2 ) t.o.v. standaardnormale verdeling Tenslotte bekijken we nog een gecensureerde steekproef uit een Weibullverdeling. Voorbeeld We beschouwen dezelfde dataset als in vb Hieruit constueren we een linksgecensureerde dataset met vaste censureringstijd gelijk aan 1. De 30

36 parameters voor de theoretische normale verdeling schatten we met de likelihoodmethode. Figuur 3.7 geeft dan de QQ-plot, die sterk verschilt van de bissectrice. Figuur 3.7: QQ-plot van steekproef uit Weib(1/2,3) tegen N( , ) 3.4 EDF-statistieken In dit deel gaan we wat dieper in op goodness-of-fit testen die gebaseerd zijn op de empirische verdelingsfunctie, ook wel empirische distributiefunctie (EDF) genoemd. Deze trapfunctie is een consistente schatter voor de populatieverdelingsfunctie. EDF statistieken zijn een maat voor het verschil tussen de EDF en een gegeven theoretische verdelingsfunctie. We maken een onderscheid tussen supremumstatistieken en kwadratische statistieken. Beide zijn gebaseerd op vertikale afstanden tussen de EDF F n en de verdelingsfunctie F, maar verschillen in de gebruikte norm Empirische distributiefunctie Onderstel dat er een steekproef van grootte 1,..X n gegeven is, dan is de EDF gedefinieerd als: F n (x) = F n (x) = aantal observaties apple x voor 8 n >< 0 als x<x (1) i als X (i) apple x apple X (i+1) >: 1 als X (n) apple x 31 1<x<1

37 Voor een x kleiner dan de kleinste observatie zal deze trapfunctie nul zijn, voor een x groter dan de grootste observatie één. Ertussen stijgt ze steeds met 1/n wanneer index i stijgt, met n de steekproefgrootte. Als interpretatie heeft F n (x) de proportie van alle observaties kleiner dan x en F (x) de kans dat een observatie kleiner is dan x. Wanneer n!1zal F n (x) F (x) naar nul gaan met kans één, zodat F n een consistente schatter is voor F. Voorbeeld In figuur 3.8 zien we de EDF van de Leghorn Chicken dataset (zie B.10). Dit is een steekproef bestaande uit het gewicht (in gram) van 20 kippen van 21 dagen oud. Figuur 3.8: EDF van Leghorn Chicken dataset Supremumstatistieken Hieronder verstaan we de D +, D en de Kolmogorov-statistiek D. Statistiek D + (resp. D ) is de grootste vertikale afstand tussen de EDF en de verdelingsfunctie wanneer F n (x) groter is dan F (resp. kleiner). Formeel definiëren we deze als D + = sup(f n (x) F (x)) x D = sup(f (x) F n (x)) x 32

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN Inleiding Statistische gevolgtrekkingen (statistical inference) gaan over het trekken van conclusies over een populatie op basis van steekproefdata.

Nadere informatie

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag

Nadere informatie

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten Hoofdstuk 8 Betrouwbaarheidsintervallen In het vorige hoofdstuk lieten we zien hoe het mogelijk is om over een ongekende karakteristiek van een populatie hypothesen te formuleren. Een andere manier van

Nadere informatie

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses Vandaag Onderzoeksmethoden: Statistiek 3 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Recap Centrale limietstelling

Nadere informatie

Hoofdstuk 3 Statistiek: het toetsen

Hoofdstuk 3 Statistiek: het toetsen Hoofdstuk 3 Statistiek: het toetsen 3.1 Schatten: Er moet een verbinding worden gelegd tussen de steekproefgrootheden en populatieparameters, willen we op basis van de een iets kunnen zeggen over de ander.

Nadere informatie

HOOFDSTUK VII REGRESSIE ANALYSE

HOOFDSTUK VII REGRESSIE ANALYSE HOOFDSTUK VII REGRESSIE ANALYSE 1 DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens

Nadere informatie

Hoofdstuk 5: Steekproevendistributies

Hoofdstuk 5: Steekproevendistributies Hoofdstuk 5: Steekproevendistributies Inleiding Statistische gevolgtrekkingen worden gebruikt om conclusies over een populatie of proces te trekken op basis van data. Deze data wordt samengevat door middel

Nadere informatie

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan.

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan. Afdeling Wiskunde Volledig tentamen Statistics Deeltentamen 2 Statistics Vrije Universiteit 28 mei 2015 Gebruik van een (niet-grafische) rekenmachine is toegestaan. Geheel tentamen: opgaven 1,2,3,4. Cijfer=

Nadere informatie

. Dan geldt P(B) = a. 1 4. d. 3 8

. Dan geldt P(B) = a. 1 4. d. 3 8 Tentamen Statistische methoden 4052STAMEY juli 203, 9:00 2:00 Studienummers: Vult u alstublieft op het meerkeuzevragenformulier uw Delftse studienummer in (tbv automatische verwerking); en op het open

Nadere informatie

Populaties beschrijven met kansmodellen

Populaties beschrijven met kansmodellen Populaties beschrijven met kansmodellen Prof. dr. Herman Callaert Deze tekst probeert, met voorbeelden, inzicht te geven in de manier waarop je in de statistiek populaties bestudeert. Dat doe je met kansmodellen.

Nadere informatie

Exponentiële Functie: Toepassingen

Exponentiële Functie: Toepassingen Exponentiële Functie: Toepassingen 1 Overgang tussen exponentiële functies en lineaire functies Wanneer we werken met de exponentiële functie is deze niet altijd gemakkelijk te herkennen. Daarom proberen

Nadere informatie

Hoofdstuk 5 Een populatie: parametrische toetsen

Hoofdstuk 5 Een populatie: parametrische toetsen Hoofdstuk 5 Een populatie: parametrische toetsen 5.1 Gemiddelde, variantie, standaardafwijking: De variantie is als het ware de gemiddelde gekwadrateerde afwijking van het gemiddelde. Hoe groter de variantie

Nadere informatie

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter.

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter. STATISTIEK OPLOSSINGEN OEFENZITTINGEN 5 en 6 c D. Keppens 2004 5 1 (a) Zij µ de verwachtingswaarde van X. We moeten aantonen dat E[M i ] = µ voor i = 1, 2, 3 om te kunnen spreken van zuivere schatters.

Nadere informatie

werkcollege 6 - D&P9: Estimation Using a Single Sample

werkcollege 6 - D&P9: Estimation Using a Single Sample cursus 9 mei 2012 werkcollege 6 - D&P9: Estimation Using a Single Sample van frequentie naar dichtheid we bepalen frequenties van meetwaarden plot in histogram delen door totaal aantal meetwaarden > fracties

Nadere informatie

Les 2: Toetsen van één gemiddelde

Les 2: Toetsen van één gemiddelde Les 2: Toetsen van één gemiddelde Koen Van den Berge Statistiek 2 e Bachelor in de Biochemie & Biotechnologie 22 oktober 2018 Het statistisch testen van één gemiddelde is een veel voorkomende toepassing

Nadere informatie

Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u

Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u Technische Universiteit Delft Mekelweg 4 Faculteit Elektrotechniek, Wiskunde en Informatica 2628 CD Delft Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u Formulebladen, rekenmachines,

Nadere informatie

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17 Stochastiek 2 Inleiding in de Mathematische Statistiek 1 / 17 Statistische toetsen 2 / 17 Toetsen - algemeen - 1 Setting: observatie X in X, model {P θ : θ Θ}. Gegeven partitie Θ = Θ 0 Θ 1, met Θ 0 Θ 1

Nadere informatie

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN 4.1 PARAMETERTOESTEN 1 A. Toetsen van het gemiddelde Beschouw een steekproef X 1, X,, X n van n onafhankelijke N(µ, σ) verdeelde kansveranderlijken Men

Nadere informatie

SOCIALE STATISTIEK (deel 2)

SOCIALE STATISTIEK (deel 2) SOCIALE STATISTIEK (deel 2) D. Vanpaemel KU Leuven D. Vanpaemel (KU Leuven) SOCIALE STATISTIEK (deel 2) 1 / 57 Hoofdstuk 5: Schatters en hun verdeling 5.1 Steekproefgemiddelde als toevalsvariabele D. Vanpaemel

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamenopgaven Statistiek 2DD71: UITWERKINGEN 1. Stroopwafels a De som S van de 12 gewichten is X 1 + X 2 + + X 12. Deze is normaal

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, 9.00-12.00 uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, 9.00-12.00 uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek DD14) op vrijdag 17 maart 006, 9.00-1.00 uur. UITWERKINGEN 1. Methoden om schatters te vinden a) De aannemelijkheidsfunctie

Nadere informatie

Statistiek I Samenvatting. Prof. dr. Carette

Statistiek I Samenvatting. Prof. dr. Carette Statistiek I Samenvatting Prof. dr. Carette Opleiding: bachelor of science in de Handelswetenschappen Academiejaar 2016 2017 Inhoudsopgave Hoofdstuk 1: Statistiek, gegevens en statistisch denken... 3 De

Nadere informatie

Examen Kansrekening en Wiskundige Statistiek: oplossingen

Examen Kansrekening en Wiskundige Statistiek: oplossingen Examen Kansrekening en Wiskundige Statistiek: oplossingen S. Vansteelandt Academiejaar 006-007 1. Een team van onderzoekers wil nagaan of een bepaald geneesmiddel Triptan meer effectief is dan aspirine

Nadere informatie

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur Kansrekening en statistiek WI22TI / WI25IN deel 2 2 februari 22, 4. 6. uur VOOR WI22TI: Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Een formuleblad is niet toegestaan.

Nadere informatie

Examen Statistiek I Feedback

Examen Statistiek I Feedback Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).

Nadere informatie

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur Kansrekening en statistiek wi2105in deel 2 27 januari 2010, 14.00 16.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na

Nadere informatie

Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013

Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013 Afdeling Wiskunde Volledig tentamen Algemene Statistiek Deeltentamen 2 Algemene Statistiek Vrije Universiteit 18 december 2013 Gebruik van een (niet-grafische) rekenmachine is toegestaan. Geheel tentamen:

Nadere informatie

Examen G0N34 Statistiek

Examen G0N34 Statistiek Naam: Richting: Examen G0N34 Statistiek 8 september 2010 Enkele richtlijnen : Wie de vragen aanneemt en bekijkt, moet minstens 1 uur blijven zitten. Je mag gebruik maken van een rekenmachine, het formularium

Nadere informatie

Wiskunde B - Tentamen 2

Wiskunde B - Tentamen 2 Wiskunde B - Tentamen Tentamen van Wiskunde B voor CiT (57) Donderdag 4 april 005 van 900 tot 00 uur Dit tentamen bestaat uit 8 opgaven, 3 tabellen en formulebladen Vermeld ook je studentnummer op je werk

Nadere informatie

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Inleveren: 12 januari 2011, VOOR het college Afspraken Serie 1 mag gemaakt en ingeleverd worden in tweetallen. Schrijf duidelijk je naam, e-mail

Nadere informatie

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 18

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 18 Stochastiek 2 Inleiding in de Mathematische Statistiek 1 / 18 t-toetsen 2 / 18 Steekproefgemiddelde en -variantie van normale observaties Stelling. Laat X 1,..., X n o.o. zijn en N(µ, σ 2 )-verdeeld. Dan:

Nadere informatie

7.1 Toets voor het gemiddelde van een normale verdeling

7.1 Toets voor het gemiddelde van een normale verdeling Hoofdstuk 7 Toetsen van hypothesen Toetsen van hypothesen is, o.a. in de medische en chemische wereld, een veel gebruikte statistische techniek. Het wordt vaak gebruikt om een gevestigde norm eventueel

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 11 Dinsdag 25 Oktober 1 / 27 2 Statistiek Vandaag: Hypothese toetsen Schatten 2 / 27 Schatten 3 / 27 Vragen: liegen 61 Amerikanen werd gevraagd hoeveel % van de tijd

Nadere informatie

DH19 Bedrijfsstatistiek MC, 2e Bach Hir, Juni 2009

DH19 Bedrijfsstatistiek MC, 2e Bach Hir, Juni 2009 Naam:... Voornaam:... DH19 Bedrijfsstatistiek MC, 2e Bach Hir, Juni 2009 Slechts één van de vier alternatieven is juist. Kruis het bolletje aan vóór het juiste antwoord. Indien je een meerkeuzevraag verkeerd

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS

VOOR HET SECUNDAIR ONDERWIJS VOOR HET SECUNDAIR ONDERWIJS Steekproefmodellen en normaal verdeelde steekproefgrootheden 5. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg

Nadere informatie

HOOFDSTUK VI NIET-PARAMETRISCHE (VERDELINGSVRIJE) STATISTIEK

HOOFDSTUK VI NIET-PARAMETRISCHE (VERDELINGSVRIJE) STATISTIEK HOOFDSTUK VI NIET-PARAMETRISCHE (VERDELINGSVRIJE) STATISTIEK 1 1. INLEIDING Parametrische statistiek: Normale Verdeling Niet-parametrische statistiek: Verdelingsvrij Keuze tussen de twee benaderingen I.

Nadere informatie

Hoofdstuk 10: Regressie

Hoofdstuk 10: Regressie Hoofdstuk 10: Regressie Inleiding In dit deel zal uitgelegd worden hoe we statistische berekeningen kunnen maken als sprake is van één kwantitatieve responsvariabele en één kwantitatieve verklarende variabele.

Nadere informatie

Gaap, ja, nog een keer. In één variabele hebben we deze formule nu al een paar keer gezien:

Gaap, ja, nog een keer. In één variabele hebben we deze formule nu al een paar keer gezien: Van de opgaven met een letter en dus zonder nummer staat het antwoord achterin. De vragen met een nummer behoren tot het huiswerk. Spieken achterin helpt je niets in het beter snappen... 1 Stelling van

Nadere informatie

Hoofdstuk 12: Eenweg ANOVA

Hoofdstuk 12: Eenweg ANOVA Hoofdstuk 12: Eenweg ANOVA 12.1 Eenweg analyse van variantie Eenweg en tweeweg ANOVA Wanneer we verschillende populaties of behandelingen met elkaar vergelijken, dan zal er binnen de data altijd sprake

Nadere informatie

Examen Statistiek I Januari 2010 Feedback

Examen Statistiek I Januari 2010 Feedback Examen Statistiek I Januari 2010 Feedback Correcte alternatieven worden door een sterretje aangeduid. 1 Een steekproef van 400 personen bestaat uit 270 mannen en 130 vrouwen. Twee derden van de mannen

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Eindtentamen Kansrekening en Statistiek (WS), Tussentoets Kansrekening en Statistiek (WS), Vrijdag 8 april, om 9:-:. Dit is een tentamen

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 12 Donderdag 21 Oktober 1 / 38 2 Statistiek Indeling: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 38 Deductieve

Nadere informatie

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19 Stochastiek 2 Inleiding in de Mathematische Statistiek 1/19 Herhaling H.1 2/19 Mathematische Statistiek We beschouwen de beschikbare data als realisatie(s) van een stochastische grootheid X.(Vaak een vector

Nadere informatie

Zomercursus Wiskunde. Katholieke Universiteit Leuven Groep Wetenschap & Technologie. September 2008

Zomercursus Wiskunde. Katholieke Universiteit Leuven Groep Wetenschap & Technologie. September 2008 Katholieke Universiteit Leuven September 008 Algebraïsch rekenen (versie 7 juni 008) Inleiding In deze module worden een aantal basisrekentechnieken herhaald. De nadruk ligt vooral op het symbolisch rekenen.

Nadere informatie

Standaardisatie en z-scores

Standaardisatie en z-scores Prof. dr. Herman Callaert Inhoudstafel 1 Standaardisatie bij concreet cijfermateriaal... 1 1.1 Een eerste voorbeeld: de punten van Pol... 1 1.1.1 De ruwe score... 1 1.1.2 Vergelijken met het klasgemiddelde...

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening (2WS2, Vrijdag 23 januari 25, om 9:-2:. Dit is een tentamen met gesloten boek. De uitwerkingen van de opgaven dienen

Nadere informatie

DEEL 3 INDUCTIEVE STATISTIEK INLEIDING TOT DE INDUCTIEVE STATISTIEK 11.2 DE GROOTSTE AANNEMELIJKHEID - METHODE

DEEL 3 INDUCTIEVE STATISTIEK INLEIDING TOT DE INDUCTIEVE STATISTIEK 11.2 DE GROOTSTE AANNEMELIJKHEID - METHODE DEEL 3 INDUCTIEVE STATISTIEK INHOUD H 10: INLEIDING TOT DE INDUCTIEVE STATISTIEK H 11: PUNTSCHATTING 11.1 ALGEMEEN 11.1.1 Definities 11.1.2 Eigenschappen 11.2 DE GROOTSTE AANNEMELIJKHEID - METHODE 11.3

Nadere informatie

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van 14.00 17.00 uur.

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van 14.00 17.00 uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Mathematische Statistiek (WS05), vrijdag 9 oktober 010, van 14.00 17.00 uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

EXAMEN : Basisbegrippen statistiek. Examen 16 januari 2015

EXAMEN : Basisbegrippen statistiek. Examen 16 januari 2015 EXAMEN : Basisbegrippen statistiek Examen 16 januari 2015 Oplossingen 1 Vraag 1 a) Leg in max. 3 lijnen uit wat een dichtheidsfunctie is en illustreer met 3 duidelijk verschillende voorbeelden. Een (kans)

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen»

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 14 Donderdag 28 Oktober 1 / 37 2 Statistiek Indeling: Hypothese toetsen Schatten 2 / 37 Vragen 61 Amerikanen werd gevraagd hoeveel % van de tijd zij liegen. Het gevonden

Nadere informatie

Voorbeeldtentamen Statistiek voor Psychologie

Voorbeeldtentamen Statistiek voor Psychologie Voorbeeldtentamen Statistiek voor Psychologie 1) Vul de volgende uitspraak aan, zodat er een juiste bewering ontstaat: De verdeling van een variabele geeft een opsomming van de categorieën en geeft daarbij

Nadere informatie

( ) Hoofdstuk 4 Verloop van functies. 4.1 De grafiek van ( ) 4.1.1 Spiegelen t.o.v. de x-as, y-as en de oorsprong

( ) Hoofdstuk 4 Verloop van functies. 4.1 De grafiek van ( ) 4.1.1 Spiegelen t.o.v. de x-as, y-as en de oorsprong Hoofdstuk 4 Verloop van functies Met DERIVE is het mogelijk om tal van eigenschappen van functies experimenteel te ontdekken. In een eerste paragraaf onderzoeken we het verband tussen de grafieken van

Nadere informatie

Netwerkdiagram voor een project. AOA: Activities On Arrows - activiteiten op de pijlen.

Netwerkdiagram voor een project. AOA: Activities On Arrows - activiteiten op de pijlen. Netwerkdiagram voor een project. AOA: Activities On Arrows - activiteiten op de pijlen. Opmerking vooraf. Een netwerk is een structuur die is opgebouwd met pijlen en knooppunten. Bij het opstellen van

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening (2WS2), Vrijdag 24 januari 24, om 9:-2:. Dit is een tentamen met gesloten boek. De uitwerkingen van de opgaven

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 12 Vrijdag 16 Oktober 1 / 38 2 Statistiek Indeling vandaag: Normale verdeling Wet van de Grote Getallen Centrale Limietstelling Deductieve statistiek Hypothese toetsen

Nadere informatie

= P(B) = 2P(C), P(A B) = 1 2 en P(A C) = 2 5. d. 31

= P(B) = 2P(C), P(A B) = 1 2 en P(A C) = 2 5. d. 31 Tentamen Statistische methoden 45STAMEY april, 9: : Studienummers: Vult u alstublieft op het MC formulier uw Delftse studienummer in; en op het open vragen formulier graag beide, naar volgend voorbeeld:

Nadere informatie

Monitoraatssessie Wiskunde

Monitoraatssessie Wiskunde Monitoraatssessie Wiskunde 1 Overzicht van de cursus Er zijn drie grote blokken, telkens voorafgegaan door de rekentechnieken die voor dat deel nodig zullen zijn. Exponentiële en logaritmische functies;

Nadere informatie

8. Analyseren van samenhang tussen categorische variabelen

8. Analyseren van samenhang tussen categorische variabelen 8. Analyseren van samenhang tussen categorische variabelen Er bestaat een samenhang tussen twee variabelen als de verdeling van de respons (afhankelijke) variabele verandert op het moment dat de waarde

Nadere informatie

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur Tentamen Kansrekening en Statistiek MST 14 januari 2016, 14.00 17.00 uur Het tentamen bestaat uit 15 meerkeuzevragen 2 open vragen. Een formuleblad wordt uitgedeeld. Normering: 0.4 punt per MC antwoord

Nadere informatie

1. Statistiek gebruiken 1

1. Statistiek gebruiken 1 Hoofdstuk 0 Inhoudsopgave 1. Statistiek gebruiken 1 2. Gegevens beschrijven 3 2.1 Verschillende soorten gegevens......................................... 3 2.2 Staafdiagrammen en histogrammen....................................

Nadere informatie

Verklarende Statistiek: Toetsen. Zat ik nou in dat kritische gebied of niet?

Verklarende Statistiek: Toetsen. Zat ik nou in dat kritische gebied of niet? Verklarende Statistiek: Toetsen Zat ik nou in dat kritische gebied of niet? Toetsen, Overzicht Nulhypothese - Alternatieve hypothese (voorbeeld: toets voor p = p o in binomiale steekproef) Betrouwbaarheid

Nadere informatie

Les 1: de normale distributie

Les 1: de normale distributie Les 1: de normale distributie Elke Debrie 1 Statistiek 2 e Bachelor in de Biomedische Wetenschappen 18 oktober 2018 1 Met dank aan Koen Van den Berge Indeling lessen Elke bullet point is een week. R en

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Kansmodellen. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Populatie: een intuïtieve definitie.... Een

Nadere informatie

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur Kansrekening en statistiek wi205in deel 2 6 april 200, 4.00 6.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na afloop

Nadere informatie

Machten, exponenten en logaritmen

Machten, exponenten en logaritmen Machten, eponenten en logaritmen Machten, eponenten en logaritmen Macht, eponent en grondtal Eponenten en logaritmen hebben alles met machtsverheffen te maken. Een macht als 4 is niets anders dan de herhaalde

Nadere informatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: 5.0 Voorkennis Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram: De lengte van de staven komt overeen met de hoeveelheid; De staven staan meestal los van

Nadere informatie

Samenvatting Statistiek

Samenvatting Statistiek Samenvatting Statistiek De hoofdstukken 1 t/m 3 gaan over kansrekening: het uitrekenen van kansen in een volledig gespecifeerd model, waarin de parameters bekend zijn en de kans op een gebeurtenis gevraagd

Nadere informatie

Statistiek voor A.I.

Statistiek voor A.I. Statistiek voor A.I. College 13 Donderdag 25 Oktober 1 / 28 2 Deductieve statistiek Orthodoxe statistiek 2 / 28 3 / 28 Jullie - onderzoek Tobias, Lody, Swen en Sander Links: Aantal broers/zussen van het

Nadere informatie

Wetenschappelijk Instituut Volksgezondheid. Verwerking van gecensureerde waarden

Wetenschappelijk Instituut Volksgezondheid. Verwerking van gecensureerde waarden Wetenschappelijk Instituut Volksgezondheid Dienst Kwaliteit van medische laboratoria Verwerking van gecensureerde waarden 1 ste versie Pr. Albert (februari 2002) 2 de versie Aangepast door WIV (toepassingsdatum:

Nadere informatie

DEZE PAGINA NIET vóór 8.30u OMSLAAN!

DEZE PAGINA NIET vóór 8.30u OMSLAAN! STTISTIEK 1 VERSIE MT15303 1308 1 WGENINGEN UNIVERSITEIT LEERSTOELGROEP MT Tentamen Statistiek 1 (MT-15303) 5 augustus 2013, 8.30-10.30 uur EZE PGIN NIET vóór 8.30u OMSLN! STRT MET INVULLEN VN NM, REGISTRTIENUMMER,

Nadere informatie

Examen Statistiek II: Project

Examen Statistiek II: Project Examen Statistiek II: Project S. Vansteelandt Academiejaar 2014-2015 U krijgt 2 uur 30 minuten voor het examen, inclusief het mondelinge examen dat maximaal 15 min duurt. Het examen is relatief lang omdat,

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur. VOORAF: Hieronder staat een aantal opgaven over de stof. Veel meer dan op het tentamen zelf gevraagd zullen worden. Op het tentamen zullen in totaal 20 onderdelen gevraagd worden. TECHNISCHE UNIVERSITEIT

Nadere informatie

(g 0 en n een heel getal) Voor het rekenen met machten geldt ook - (p q) a = p a q a

(g 0 en n een heel getal) Voor het rekenen met machten geldt ook - (p q) a = p a q a Samenvatting wiskunde h4 hoofdstuk 3 en 6, h5 hoofdstuk 4 en 6 Hoofdstuk 3 Voorkennis Bij het rekenen met machten gelden de volgende rekenregels: - Bij een vermenigvuldiging van twee machten met hetzelfde

Nadere informatie

Statistiek II. Sessie 1. Verzamelde vragen en feedback Deel 1

Statistiek II. Sessie 1. Verzamelde vragen en feedback Deel 1 Statistiek II Sessie 1 Verzamelde vragen en feedback Deel 1 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 1 1 Staafdiagram 1. Wat is de steekproefgrootte? Op de horizontale as vinden we de respectievelijke

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Kansmodellen 4. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Een concreet voorbeeld.... Een kansmodel

Nadere informatie

Normale Verdeling Inleiding

Normale Verdeling Inleiding Normale Verdeling Inleiding Wisnet-hbo update maart 2010 1 De Normale verdeling De Normale Verdeling beschrijft het gedrag van een continue kansvariabele x. Om kansen te berekenen, moet de dichtheidsfunctie

Nadere informatie

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16 modulus strepen: uitkomst > 0 Hiermee rekenen we de testwaarde van t uit: n 10 ttest ( x ) 105 101 3,16 n-1 4 t test > t kritisch want 3,16 >,6, dus 105 valt buiten het BI. De cola bevat niet significant

Nadere informatie

Toegepaste Statistiek, Week 3 1

Toegepaste Statistiek, Week 3 1 Toegepaste Statistiek, Week 3 1 In Week 2 hebben we toetsingstheorie besproken mbt een kwantitatieve (ordinale) variabele G, en met name over zijn populatiegemiddelde E(G). Er waren twee gevallen: Er is

Nadere informatie

Meten en experimenteren

Meten en experimenteren Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 3 oktober 006 Deel I Toevallige veranderlijken Steekproef Beschrijving van gegevens Histogram Gemiddelde en standaarddeviatie

Nadere informatie

Les 1: Waarschijnlijkheidrekening

Les 1: Waarschijnlijkheidrekening Les 1: Waarschijnlijkheidrekening A Men neemt een steekproef van 1000 appelen. Deze worden ingedeeld volgens gewicht en volgens symptomen van een bepaalde schimmel: geen, mild, gematigd of ernstig. Het

Nadere informatie

Hoofdstuk 4 Kansen. 4.1 Randomheid

Hoofdstuk 4 Kansen. 4.1 Randomheid Hoofdstuk 4 Kansen 4.1 Randomheid Herhalingen en kansen Als je een munt opgooit (of zelfs als je een SRS trekt) kunnen de resultaten van tevoren voorspeld worden, omdat de uitkomsten zullen variëren wanneer

Nadere informatie

Verbanden en functies

Verbanden en functies Verbanden en functies 0. voorkennis Stelsels vergelijkingen Je kunt een stelsel van twee lineaire vergelijkingen met twee variabelen oplossen. De oplossing van het stelsel is het snijpunt van twee lijnen.

Nadere informatie

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie Inleveren: Uiterlijk 15 februari voor 16.00 in mijn postvakje Afspraken Overleg is toegestaan, maar iedereen levert zijn eigen werk in. Overschrijven

Nadere informatie

Toegepaste data-analyse: oefensessie 2

Toegepaste data-analyse: oefensessie 2 Toegepaste data-analyse: oefensessie 2 Depressie 1. Beschrijf de clustering van de dataset en geef aan op welk niveau de verschillende variabelen behoren Je moet weten hoe de data geclusterd zijn om uit

Nadere informatie

Netwerkdiagram voor een project. AON: Activities On Nodes - activiteiten op knooppunten

Netwerkdiagram voor een project. AON: Activities On Nodes - activiteiten op knooppunten Netwerkdiagram voor een project. AON: Activities On Nodes - activiteiten op knooppunten Opmerking vooraf. Een netwerk is een structuur die is opgebouwd met pijlen en knooppunten. Bij het opstellen van

Nadere informatie

Zomercursus Wiskunde. Katholieke Universiteit Leuven Groep Wetenschap & Technologie. September 2008

Zomercursus Wiskunde. Katholieke Universiteit Leuven Groep Wetenschap & Technologie. September 2008 Katholieke Universiteit Leuven September 2008 Limieten en asymptoten van rationale functies (versie juli 2008) Rationale functies. Inleiding Functies als f : 5 5, f 2 : 2 3 + 2 f 3 : 32 + 7 4 en f 4 :

Nadere informatie

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 1 Onderwerpen van de lessenserie: De Normale Verdeling Nul- en Alternatieve-hypothese ( - en -fout) Steekproeven Statistisch toetsen Grafisch

Nadere informatie

Oefenvragen bij Statistics for Business and Economics van Newbold

Oefenvragen bij Statistics for Business and Economics van Newbold Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd

Nadere informatie

Niet de hoogte, wel de oppervlakte. Aandachtspunten bij. - statistische technieken voor een continue veranderlijke

Niet de hoogte, wel de oppervlakte. Aandachtspunten bij. - statistische technieken voor een continue veranderlijke Niet de hoogte, wel de oppervlakte Prof. dr. Herman Callaert Aandachtspunten bij - statistische technieken voor een continue veranderlijke - de interpretatie van een histogram - de normale dichtheidsfunctie

Nadere informatie

HOOFDSTUK I - INLEIDENDE BEGRIPPEN

HOOFDSTUK I - INLEIDENDE BEGRIPPEN HOOFDSTUK I - INLEIDENDE BEGRIPPEN 1.2 Kansveranderlijken en verdelingen 1 Veranderlijken Beschouw een toevallig experiment met uitkomstenverzameling V (eindig of oneindig), de verzameling van alle gebeurtenissen

Nadere informatie

Gegevensverwerving en verwerking

Gegevensverwerving en verwerking Gegevensverwerving en verwerking Staalname - aantal stalen/replicaten - grootte staal - apparatuur Experimentele setup Bibliotheek Statistiek - beschrijvend - variantie-analyse - correlatie - regressie

Nadere informatie

Formules Excel Bedrijfsstatistiek

Formules Excel Bedrijfsstatistiek Formules Excel Bedrijfsstatistiek Hoofdstuk 2 Data en hun voorstelling AANTAL.ALS vb: AANTAL.ALS(A1 :B6,H1) Telt hoeveel keer (frequentie) de waarde die in H1 zit in A1:B6 voorkomt. Vooral bedoeld voor

Nadere informatie

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling. Opgaven hoofdstuk 6 I Learning the Mechanics 6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling. De random variabele x wordt tweemaal waargenomen. Ga na dat, indien de waarnemingen

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 15 Dinsdag 2 November 1 / 16 2 Statistiek Indeling: Filosofie Schatten Centraal Bureau voor Statistiek 2 / 16 Schatten Vb. Het aantal tenen plus vingers in jullie huishoudens:

Nadere informatie

Voorbehouden voor de correctoren Vraag 1 Vraag 2 Vraag 3 Vraag 4 Vraag 5 Totaal. Toets Kansrekenen I. 28 maart 2014

Voorbehouden voor de correctoren Vraag 1 Vraag 2 Vraag 3 Vraag 4 Vraag 5 Totaal. Toets Kansrekenen I. 28 maart 2014 Voorbehouden voor de correctoren Vraag 1 Vraag 2 Vraag 3 Vraag 4 Vraag 5 Totaal Toets Kansrekenen I 28 maart 2014 Naam : Richting : Lees volgende aanwijzingen alvorens aan het examen te beginnen Wie de

Nadere informatie

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn Statistiek: Spreiding en dispersie 6/12/2013 dr. Brenda Casteleyn dr. Brenda Casteleyn www.keu6.be Page 2 1. Theorie Met spreiding willen we in één getal uitdrukken hoe verspreid de gegevens zijn: in hoeveel

Nadere informatie

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1)

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1) Cursus Statistiek Hoofdstuk 4 Statistiek voor Informatica Hoofdstuk 4: Verwachtingen Cursusjaar 29 Peter de Waal Departement Informatica Inhoud Verwachtingen Variantie Momenten en Momentengenererende functie

Nadere informatie