Cursus Theoretische Biologie. Onderdeel Statistiek

Vergelijkbare documenten
Opgave 1 Zij θ R, n 1 en X 1, X 2,..., X n onafhankelijk, identiek verdeelde stochasten met kansdichtheidsfunctie. f θ (x) =

2de bach TEW. Statistiek 2. Van Driessen. uickprinter Koningstraat Antwerpen ,00

Schatters en betrouwbaarheidsintervallen

HOOFDSTUK III. SCHATTEN VAN PARAMETERS Schatters en Betrouwbaarheidsintervallen. Theorie Statistiek Les 6

Betrouwbaarheidsintervallen

Hoofdstuk 9 : Steekproefstatistieken. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent.

Fourierreeksen. Calculus II voor S, F, MNW. 14 november 2005

Steekproeven en schatters

Opgeloste Oefeningen Hoofdstuk 5: Wet van de grote aantallen en Centrale limietstelling

Betrouwbaarheid. Betrouwbaarheidsinterval

12 Kansrekening Kansruimten WIS12 1

2.1 De normale verdeling

Een toelichting op het belang en het berekenen van de steekproefomvang in marktonderzoek.

Periodiciteit bij breuken

Statistiek = leuk + zinvol

Opgaven OPGAVE OPGAVE 2. = x ( 5 stappen ). a. Itereer met F( x ) = en als startwaarden 1 en

Rijen. 6N5p

G0N34a Statistiek: Examen 7 juni 2010 (review)

VOOR HET SECUNDAIR ONDERWIJS

1. Hebben de volgende rijen een limiet, en zo ja, bepaal die dan: (i) u n = sin(πn) (d) u n = cos(2πn) (l) u n = log n

VOOR HET SECUNDAIR ONDERWIJS. Verklarende statistiek. 6. Proporties. Werktekst voor de leerling. Prof. dr. Herman Callaert

Statistiek Voor studenten Bouwkunde College 6

Praktische opdracht: Complexe getallen en de Julia-verzameling

Steekproeftrekking Onderzoekspopulatie Steekproef

WenS eerste kans Permutatiecode 0

Uitwerkingen toets 11 juni 2011

De standaardafwijking die deze verdeling bepaalt is gegeven door

WenS eerste kans Permutatiecode 0

n n n bedoelen we uiteraard dat n N : 0 f x divergeert naar + of.

Ongelijkheden. IMO trainingsweekend 2013

Examen HAVO. wiskunde A. tijdvak 2 woensdag 19 juni uur. Bij dit examen hoort een uitwerkbijlage.

n -wet Wisnet-hbo update mei. 2008

7. Betrouwbaarheidsintervallen voor proporties

PROEFEXAMEN SOCIALE STATISTIEK November 2009 REEKS 1

1. Symmetrische Functies

SAMENVATTING HOOFDSTUK 1. Eigenschappen gebeurtenissen. uitkomsten kan hebben. A = AB A B. 3. (Regels van de Morgan)

Set 3 Inleveropgaven Kansrekening (2WS20)

Equidistributie en ergodiciteit

Les 7-8: Parameter- en Vergelijkingstoetsen

Dit geeft ee voorwaarde die slechts afhagt va de begiwaarde va de `basisoplossige' (bij (3) is die voorwaarde a b a b 0). Hoe ka me twee lieair oafhak

Complexe getallen. c(a+ib)=ca+i(cb) id(a+ib)=i(ad)+i 2 (bd)=(-bd)+i(ad) (a+ib)(c+id)=ac+i(ad)+i(bc)+i 2 (bd)= ac-bd+i(ad+bc)

UITWERKINGEN TOETS TRAININGSKAMP. Valkenswaard, 10 juni 2006

Eindexamen wiskunde A1-2 vwo 2008-II

Betrouwbaarheid van een steekproefresultaat m.b.t. de hele populatie

1. Recursievergelijkingen van de 1 e orde

Convergentie, divergentie en limieten van rijen

Statistiek. (relatieve) frequenties: histogram cumulatieve (relatieve) frequenties: cumulatief frequentiepolygoon of ogief

Dus n n (a + b) n = a n + a n 1 b + heet een binomiaalcoëfficiënt (uitspraak n boven k ). Newton vond de

BIOLOGIE Havo / Vwo Tips examenvragen maken. Algemeen. Multiple choice vragen

PARADOXEN 9 Dr. Luc Gheysens

Videoles Discrete dynamische modellen

Julian gooit 20 keer met een dobbelsteen. Bereken de kans dat hij precies 5 keer een zes gooit.

Antwoorden bij Inleiding in de Statistiek

Constructie van schatters bij het lokaliseren van QTL s

Examen VWO. wiskunde B1. tijdvak 1 woensdag 16 mei uur. Bij dit examen hoort een uitwerkbijlage.

Appendix A: De rij van Fibonacci

Een meetkundige constructie van de som van een meetkundige rij

Polynomen groep 2. Trainingsweek, juni Complexe nulpunten. Een polynoom is van de vorm P (x) = n

Examen VWO. wiskunde B1. tijdvak 1 woensdag 16 mei uur. Bij dit examen hoort een uitwerkbijlage.

Statistiek Voor studenten Bouwkunde College 5

Analyse 2 - SAMENVATTING

1. Weten dat in het geval van compressoren rekening moet gehouden worden met thermische effecten

Trigonometrische functies

Help! Statistiek! Overzicht. Voorbeeld: bloeddruk. Interpretatie van het 95%-BI. Interpretatie van 95%-BI (2) Meest voorkomende vorm van het BI

We kennen in de wiskunde de volgende getallenverzamelingen:

Eindexamen wiskunde A vwo I

Hoofdstuk 4: Aanvullende Begrippen (Extra Oefeningen)

Functies, Rijen, Continuïteit en Limieten

2. Limiet van een rij : convergentie of divergentie

Levende Statistiek, een module voor VWO wiskunde D

Evaluatie pilot ipad onder docenten

Rijen met de TI-nspire vii

Deel A. Breuken vergelijken

1 Het trekken van ballen uit een vaas

Werktekst 1: Een bos beheren

Kanstheorie. 2de bachelor wiskunde Vrije Universiteit Brussel. U. Einmahl

figuur 2.50 Microscoop

OBS 't Gijmink Oudertevredenheid ods 't Gijmink Online Evaluatie Instrument maart 2016

Elementaire speciale functies

HET BELANG VAN. Vragen Tijdens de voordracht op 14 augustus 2007 hebben we de volgende vragen besproken.

Een andere kijk op Financiële Rekenkunde Wim Pijls, Erasmus Universiteit Rotterdam

1 Ileidig De vraag is of de spelers i het spel Fatasie 24 (ee variat va observatie roulette), gespeeld i casio YYY te ZZZ, ivloed kue hebbe op de kasb

7.1 Recursieve formules [1]

Oplossingen extra oefeningen: rijen (leerstof RR, leerstof MR)

Eindexamen wiskunde B1 vwo 2007-I

beheersorganisme voor de controle van de betonproducten Tel. (02) Fax (02) RN 001 REGLEMENTAIRE NOTA

TECHNISCHE UNIVERSITEIT EINDHOVEN. Tentamen Inleiding Experimentele Fysica (3NA10 of 3AA10) Tentamen OGO Fysisch Experimenteren voor minor AP (3MN10)

INLEIDING FYSISCH-EXPERIMENTELE VAARDIGHEDEN (3A560) , ANTWOORDEN. en y m.b.v. y = n

Bewijzen voor de AM-GM-ongelijkheid

data ingeven Karakteristieken Data visualiseren Betrouwbaarheidsintervallen Toetsen van hypothesen

Statistiek Voor studenten Bouwkunde College 2

WPP 5.2: Analyse. Oplossing onderzoeksopdrachten

WISKUNDE 5 PERIODEN DEEL B

De speler die begint mag in zijn eerste beurt niet alle stenen pakken.

χ 2 -toets voor homogeniteit χ 2 -toets voor goodness-of-fit ten slotte

Statistiek Voor studenten Bouwkunde College 7

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten

Samenvatting. Inleiding Statistiek - Collegejaar

Artikel. Regenboog. Uitgave Auteur.

Iteratie is het steeds herhalen van eenzelfde proces, verwerking op het bekomen resultaat. Verwerking

Transcriptie:

Cursus Theoretische Biologie Oderdeel Statistiek J.J.M. Bedaux Oktober 2000 1

THEORETISCHE BIOLOGIE, ONDERDEEL STATISTIEK 1 Theorie 1 Parameterschattig We begie met ee voorbeeld. I Wiskude e Modelbouw kwam de ruimtelijke verdelig va paardebloeme ter sprake. Daar kode we op basis va ekele veroderstellige over de zaadverspreidig ee voorspellig geve over het ruimtelijke patroo va de paardebloeme (i feite maakte we daar ee stochastisch model). Nu bekijke we de zaak va de adere kat: we gaa aar ee weilad e vrage os af of e zo ja, hoe het paardebloemepatroo i dat weilad overeestemt met het model dat we hadde gemaakt. Daartoe bemostere we het weilad door bijv. 50 stukjes va 1 m 2 te markere e op elk stukje het aatal paardebloeme te telle. Zoals we we eerder zage zal dat aatal Poisso-verdeeld zij als de paardebloeme zich va elkaars aawezigheid iets aatrekke. Me ka twee type vrage stelle: 1. aageome dat het om ee Poissoverdelig gaat: wat is de waarde va de parameter? 2. is het wel ee Poissoverdelig? De eerste vraag is ee schattigsprobleem, de tweede ee toetsigsprobleem. De getrokke steekproef moet os iformatie geve over de populatie. Bij ee schattigsprobleem moet hij ee getal oplevere, bij ee toetsigsprobleem ee atwoord ja of ee, da wel (e dat is de praktijk) ee getal dat vervolges i ee ja/ee-atwoord wordt omgezet. Er is dus ee recept odig om de steekproefuitkomst om te zette i ee getal. Zo recept heet ee steekproeffuctie (statistic). Ee steekproeffuctie is ee afbeeldig waar me de steekproef (preciezer: de waaremige die me aa de steekproefelemete heeft gedaa) i stopt, e waar ee getal uitkomt. Maar als me er ee stochast i stopt komt er ook weer ee stochast uit. E aagezie de steekproef bestaat uit trekkige uit ee stochast, is het dus bij voorbaat omogelijk om de werkelijke waarde va de betrokke parameter (de kas op kruis, de gemiddelde legte va de Nederladers) te vide. Wel ka me probere zodaige steekproeffucties te verzie dat de kas op ee goede uitkomst (of op ee bija goede uitkomst) zo groot mogelijk is. Het costruere va zulke steekproeffucties met wat vaag uitgedrukt gustige eigeschappe is het werk va professioele statistici, e we zulle hier iet al te ver op techische details igaa. Desodaks moet ee bioloog als gebruiker va statistische methode er toch wel het ee e ader over wete; voor het gebruik va statistische apparatuur geldt ogeveer hetzelfde als voor gereedschappe e apparate: me hoeft er iet alles va te wete, maar me moet wel redelijk op de hoogte zij va mogelijkhede e beperkige (e zelfs: gevare).

THEORETISCHE BIOLOGIE, ONDERDEEL STATISTIEK 2 We kere terug aar het voorbeeld, waar we geïteresseerd ware i het aatal paardebloeme per m 2. We hebbe ee steekproef getrokke met ee omvag va 50, e moete uit de waaremige die we aa de steekproef doe (i dit geval: 50 gehele getalle) éé getal destillere: ee schattig (estimate) voor de parameter λ. Zoals we hierbove zage is daarvoor ee steekproeffuctie odig. Ee steekproeffuctie die wordt gebruikt om ee schattig op te levere heet ee schatter (estimator). Er zij atuurlijk heel wat fucties va 50 variabele te bedeke. De meeste daarva zulle voor os schattigsprobleem erges op slaa, maar ook het aatal fucties dat op zij mist serieuze overwegig verdiet, is groot. We oeme er ee paar die voor de had ligge: tel de waaremige bij elkaar op e deel dat getal door 50 (het rekekudig gemiddelde va de waaremige) eem de 50ste-machtswortel uit het product va de waaremige (het meetkudig gemiddelde) eem het gemiddelde va de hoogste e de laagste waaremig. Dit rijtje va fucties die wel iets zulle oplevere dat i de buurt va λ komt is zoder veel moeite eideloos uit te breide (overiges valt i dit geval de tweede kadidaat bij adere overwegig al sel af: kijk maar wat er gebeurt als er ee 0 bij de waaremige zit). De vraag is u: wat zou de beste schatter voor λ zij? Om die vraag te kue beatwoorde is het odig om te wete wat me oder de beste schatter verstaat. Dat blijkt ee lastige vraag te zij, waarop me meer da éé atwoord ka geve, e waarbij keuzes va mi of meer subjectieve aard ee rol spele. Het liefst zou me atuurlijk ee schatter hebbe die, ogeacht de steekproefuitkomst, altijd λ oplevert; ee omogelijke eis, aagezie de schatter ee stochast is. Me moet zij wese dus formulere i terme va de kasverdelig va de stochast. Maar voor we daar ader op igaa zulle we eerst ee voorbeeld va ee schatter bekijke. We eme (og steeds i het voorbeeld va de paardebloeme) ee ituïtief voor de had liggede schatter voor λ, het gemiddelde va de waaremige: X = X 1 + + X. Daari zij X 1 + + X de (waaremige aa de) steekproef. Om te zie wat X zoal aa uitkomste ka oplevere probere we zij kasverdelig te vide. X is ee samestel va oafhakelijke (daar hebbe we voor gezorgd bij het trekke va de steekproef) kopieë va de Poisso-stochast X met parameter λ, e zij kasverdelig wordt dus geheel vastgelegd door λ (die we iet kee) e. Nu kue we over de verdelig va X al ee paar dige zegge zoder dat we de verdelig zelf kee. Verwachtig e variatie va het gemiddelde va oafhakelijke kopieë va ee stochast kue worde uitgedrukt i verwachtig e variatie va die stochast (zie

THEORETISCHE BIOLOGIE, ONDERDEEL STATISTIEK 3 W&M: de verwachtig is gelijk aa de oorsprokelijke verwachtig, de variatie is 1/ keer de oorsprokelijke variatie). I os geval (waar immers E(X) = λ e var(x) = λ): E( X) = λ e var( X) = λ. De kasverdelig zelf is lastiger te bepale. Het zal iet opieuw ee Poisso-verdelig zij (wat daarvoor zoude verwachtig e variatie gelijk moete zij e de waardeverzamelig zou 0, 1, 2,... moete zij; gee va beide zij het geval), e we zulle hier ook iet probere af te leide hoe de precieze verdelig er wel uitziet. We kue wel zegge dat X ogeveer ormaal verdeeld is [e wel met parameterwaarde als hierbove: X N(λ, λ/)]. Dit wete we, omdat we bij ee grote steekproefomvag (e het getal 50 uit het voorbeeld is i dit verbad groot) de cetrale limietstellig (W&M) kue toepasse. Het zojuist afgeleide resultaat (l. E( X) = λ) is belagrijk. Het zegt dat deze schatter als verwachtigswaarde de gezochte waarde λ heeft. Zoder u metee te zegge dat zoiets va elke schatter geëist moet worde, ka me dat toch als ee zeer geweste eigeschap va ee schatter beschouwe. Ee schatter met deze eigeschap heet ee zuivere schatter (ubiased estimator). Heeft de schatter deze eigeschap iet, da wordt hij ozuiver geoemd. Preciezer: de ozuiverheid va ee schatter ka worde uitgedrukt als het verschil tusse de verwachtigswaarde va de schatter e de waarde va de parameter die geschat wordt. Sommige schatters zij weliswaar iet zuiver, maar hebbe ee ozuiverheid die met oplopede steekproefgrootte aar 0 gaat. Zulke schatters hete asymptotisch zuiver. Zuiverheid is ee zeer geweste eigeschap va ee schatter, maar het is iet de eige. Het is heel goed voorstelbaar dat ee schatter zij verwachtig op de goede plaats heeft ligge, maar dat zij kasverdelig heel breed is (m.a.w. dat de variatie va de schatter groot is). I zo geval is de kas vrij groot dat de schattig ver va de werkelijke waarde va de parameter komt te ligge, e levert de schatter i de praktijk dus ogal obetrouwbare uitkomste. Me ziet dus graag dat ee schatter ee kleie variatie heeft. Zo schatter heet ee efficiëte schatter. Preciezer: me oemt ee schatter efficiëter da ee adere schatter (voor dezelfde parameter) als hij bij gelijke steekproefgrootte ee kleiere variatie heeft. Efficiëtie is dus, aders da zuiverheid, ee relatieve eigeschap. Va de twee overige schatters voor λ die we hierbove opperde (het meetkudig gemiddelde va de waaremige e het gemiddelde va de hoogste e de laagste) blijkt ummer twee ozuiver te zij. Nummer drie is, algemee gesproke, ook ozuiver, e is bovedie veel mider efficiët da de beide adere. Va de drie geoemde mogelijkhede verdiet de eerste de voorkeur. Voor we i de volgede paragraaf iets meer late zie over ee belagrijke e krachtige schattigsmethode, eerst og iets over itervalschattige. Het schatte zoals we het tot u toe besprake, levert putschattige: éé getal als schattig voor de obekede parameter. Zo putschattig is weliswaar iteressat, maar i de praktijk zou me meestal meer wille wete. Als me (i het mutevoorbeeld) bij 100 worpe 42 maal kruis gooit, zal p wel i de buurt va 0.42 ligge. Maar wat is i de buurt? p =

THEORETISCHE BIOLOGIE, ONDERDEEL STATISTIEK 4 0.85 lijkt (?) vrijwel uitgeslote, p = 0.4 ziet er heel acceptabel uit, de i dit geval iteressate waarde p = 0.5 lijkt dubieus. Kortom: me is al gauw geïteresseerd i ee traject va parameterwaarde die allemaal acceptabel zij i het licht va de gedae waaremige. Zo schattig die uit ee traject va acceptabele waarde bestaat, heet ee itervalschattig of betrouwbaarheidsiterval (cofidece iterval). Ook zoder dat we daaraa gaa rekee zult u kue izie dat waarde dicht bij de putschattig acceptabeler zij da waarde die er verder vadaa ligge dat het belagrijkste probleem zal zij waar me de gres moet trekke dat de plaats waar me die gres legt, verbad houdt met ee zeker risico dat me bereid is te eme (amelijk het risico dat me loopt door bepaalde waarde uit te sluite). Het laatstgeoemde put verklaart waarom me spreekt va bijv. 95%- of 99%- betrouwbaarheidsitervalle. 2 Ee schattigsmethode I de vorige paragraaf besprake we ee paar weselijke eigeschappe va schatters, e bekeke vervolges ekele schatters voor de Poisso-parameter µ op het bezit va die eigeschappe. De schatters die we opperde ware verzoe : ze ware igegeve door ituïtie of gezod verstad. I de gegeve situatie was dat ook iet zo probleem, wat de gezochte parameter stelde ee gemakkelijk iterpreteerbare grootheid voor, die houvast geeft aa oze ituïtie. I adere gevalle lukt dat soms ook, maar vaak lukt het ook iet. Er is daarom behoefte aa methode om aa schatters te kome. Zulke methode bestaa. Het zij costructiemethode die ee schatter oplevere, hoewel ze iet bij voorbaat garadere dat die schatter de eigeschappe heeft die we zoude wese (zoals zuiverheid e efficiëtie). Heeft me de schatter gecostrueerd, da zal deze alsog op het bezit va die eigeschappe moete worde geïspecteerd. Va de bestaade methode zulle we hier de meestgebruikte bespreke, de methode va de meest aaemelijke schatter. We zulle eerst het achterliggede pricipe uitlegge, e vervolges aa ee voorbeeld late zie hoe de costructie werkt. Het pricipe va de methode is heel simpel. Kijk weer ees aar Voorbeeld 1 (het kwartje dat misschie vals is) uit 1. Waeer 100 worpe 42 maal kruis oplevere, da zal me, op zoek aar de p-waarde va het kwartje, i het gewoe spraakgebruik zegge dat de kas het grootst is dat p = 0.42, e om die rede besluite tot de schattig p = 0.42 ; alle adere p-waarde hebbe ee kleiere kas. Dat is het pricipe: eem de parameterwaarde die, bij de gegeve steekproefuitkomst, het waarschijlijkst is.

THEORETISCHE BIOLOGIE, ONDERDEEL STATISTIEK 5 Deze uitleg geeft het idee goed weer, maar bevat bij adere ispectie ee rare krokel (vadaar de toevoegig i het gewoe spraakgebruik ). We sprake amelijk va de kas dat p = 0.42. Die uitdrukkig klopt iet, wat p is atuurlijk helemaal gee stochast. De rede dat de uitdrukkig iet klopt, is dat oze weergave va de achterliggede gedachtegag te grof was. Wat er feitelijk gebeurt is het volgede. I gedachte lope we alle p-waarde af, e berekee voor elke p-waarde de kas dat de steekproefuitkomst 42 maal kruis is (dat is ee maier va uitdrukke die wel klopt). Va alle p-waarde eme we de waarde die de hoogste kas oplevert, e kieze die als schattig. I formule gebracht: we berekee (althas i gedachte) alle kase P (X = 42; p = 0.001), P (X = 42; p = 0.002),..., P (X = 42; p = 0.999), zoeke daaruit het maximum op, e kieze als schattig de p-waarde die dat maximum oplevert (de betekeis va de putkomma hierbove zal duidelijk zij: de kas op 42 bij p = 0.001 ez.). Om de grove uitleg die we hierbove gave etter weer te geve is dus ee wat lager verhaal odig. Om i deze e soortgelijke situaties weer ee korte uitleg mogelijk te make, voere we het begrip aaemelijkheid (likelihood) i. De aaemelijkheid va p = 0.001 bij gegeve steekproefuitkomst 42 is gedefiieerd als de kas op 42 bij p = 0.001. Algemeer geformuleerd, de aaemelijkheid va ee waarde p bij gegeve steekproefuitkomst x is gedefiieerd als de kas op x bij de betreffede p. I formulevorm: L(p; x) = P (X = x; p). (1) De defiitie is eevoudig maar heeft ee zekere subtiliteit, die maakt dat het u eige tijd zal koste om hem goed tot u te late doordrige. Me zou kue zegge dat i liker- e rechterlid de variabele e de parameter va rol gewisseld zij. Merk op dat i het likerlid gee hoofdletters staa: p is gee stochast, e x ook iet (x geeft ee reeds getrokke steekproefuitkomst weer). De fuctie L geeft bij gegeve steekproefuitkomst x de aaemelijkheid voor elke waarde va p, e heet de aaemelijkheidsfuctie (likelihood fuctio) va p. De grove uitleg die we eerder gave, ka u iderdaad bodig worde geformuleerd: eem als schattig de p met de hoogste aaemelijkheid. De costructiemethode voor de meest aaemelijke schatter (maximum likelihood estimator) is u ook simpel weer te geve: 1. Bepaal de aaemelijkheidsfuctie va de parameter. 2. Bepaal de parameterwaarde waarbij de aaemelijkheidsfuctie maximaal is. Het resultaat heet de meest aaemelijke schattig (maximum likelihood estimate). I stap 1 heeft me de kasverdelig odig va de stochast waaruit de steekproef getrokke is (atuurlijk iet de waarde va de parameter, maar wel de aard va de kasverdelig). Stap 2 voert me meestal uit met de stadaardmethode om het maximum va ee fuctie te bepale. Differetieer aar de parameter, e stel vervolges de afgeleide gelijk aa ul. Dat resulteert i ee vergelijkig met de parameter als obekede, die soms etjes aalytisch

THEORETISCHE BIOLOGIE, ONDERDEEL STATISTIEK 6 is op te losse, e soms iet. I dat laatste geval lost me de vergelijkig umeriek op m.b.v. ee computer. Zoals u weet moet me bij het zoeke va ee maximum via differetiëre bedacht zij op complicaties. Die kue zich ook hier voordoe: daar waar de afgeleide ul is ka me ook met ee miimum of ee buigput te make hebbe; het maximum ka ee zg. radmaximum zij, dat optreedt bij ee waarde waar de afgeleide iet ul is; er kue verscheidee (relatieve) maxima zij; e ook is het mogelijk dat de parameter allee discrete waarde aaeemt (bijv. 1, 2, 3,...), zodat me helemaal iet ka differetiëre. De hierbove gegeve defiitie va de aaemelijkheid [zie (1)] is og iet erg algemee, e moet i twee richtige worde uitgebreid. 1. I het voorbeeld va het kwartje kode we de resultate va het experimet zoder bezwaar weergeve met éé getal (het aatal male kruis; daarbij zij we i feite overgestapt va het schatte va de p i ee alteratieve kruis-mut-verdelig aar het schatte va de p i ee biomiale verdelig). Maar meestal is het odig de resulate va ee experimet als ee reeks getalle weer te geve (dek aa het paardebloemevoorbeeld). We hebbe da iet met éé x te make maar met ee hele rij. De aaemelijkheidsfuctie is u og steeds de kas, als fuctie va p, op de gevode resultate, maar krijgt als zodaig de wat uitgebreider vorm L(p; x 1,..., x ) = P (X 1 = x 1 e X 2 = x 2 e... e X = x ; p) = P (X 1 = x 1 ; p) P (X 2 = x 2 ; p) P (X = x ; p). De tweede stap (het schrijve va ee simultae kas als ee product va kase) geldt op voorwaarde dat de kopieë X 1, X 2,..., X va de stochast X oafhakelijk verdeeld zij, ofwel dat de steekproef aselect is. 2. Waeer me met ee cotiue stochast te make heeft, da moet me met kasdichthede i.p.v. met kase werke. Ook de aaemelijkheidsfuctie geeft da ee kasdichtheid. Als f de kasdichtheid is va de betrokke stochast, met obekede parameter θ, da defiieert me geheel aaloog aa het discrete geval voor ee aselecte steekproef x 1, x 2,..., x : L(θ; x 1, x,..., x ) = f(x 1 ; θ) f(x 2 ; θ) f(x ; θ). Tot zover de beschrijvig va het costructiepricipe va ee meest aaemelijke schatter. We zulle de costructie u i ee cocreet geval gaa uitvoere. De meest aaemelijke schatter: ee voorbeeld Bekijk weer het geval va de paardebloeme. Het aatal plate op 1 m 2 is bij veroderstellig Poisso-verdeeld, met obekede parameter µ. We trekke ee aselecte steekproef va stukjes va 1 m 2, e telle het aatal paardebloeme op de zo verkrege m 2, met als doel het schatte va µ. Gezocht: de meest aaemelijke schatter voor µ.

THEORETISCHE BIOLOGIE, ONDERDEEL STATISTIEK 7 De kasverdelig va X (het aatal plate per m 2 ) wordt gegeve door P (X = x) = µx e µ. x! De waaremige aa de steekproef hadde de vorm va ee rij va 50 gehele getalle, bijv. 2, 4, 1, 0, 4, 3, 3,..., 1; algemeer: x 1, x 2,..., x. We kue u de aaemelijkheidsfuctie costruere: L(µ; x 1, x 2,..., x ) = P (X 1 = x 1 ; µ) P (X 2 = x 2 ; µ) P (X = x ) = µx 1 e µ x 1! µ x 2 e µ x 2! µx e µ x! = e µ µx 1+x 2 + +x x 1!x 2!... x!. Daarmee kee we de aaemelijkheidsfuctie. De volgede stap: maximaliseer L. Daarvoor eme we de gagbare methode: differetieer aar µ, stel de afgeleide gelijk aa ul, e los de daaruit resulterede vergelijkig voor µ op. Bij het differetiëre spele de faculteite i de oemer gee rol (waarom?); oem gemakshalve 1/oemer verder α. Noem verder de som x 1 + x 2 + + x (i de expoet va µ) voor het gemak Σx i. Zo kue we schrijve: Differetieer (gebruik de productregel): L(µ) = αe µ µ Σx i. dl dµ = α { e µ µ Σx i + e µ Σx i µ } Σx i 1 = αe µ µ Σx i 1 { µ + Σx i }. We vide u de meest aaemelijke schatter door deze afgeleide gelijk te stelle aa ul. Dat is allee het geval als de factor tusse accolade ul is: ˆµ + Σx i = 0, ofwel als ˆµ = (x 1 +x 2 + +x )/. (N.B.: meest aaemelijke schatters geve we aa met ee ˆ.) Resultaat: de meest aaemelijke schatter voor µ is het gemiddelde va de waaremige. Dat is de schatter die we, op louter ituïtieve grode, ook wel hadde uitgekoze, e waarva we al wete dat het ee zuivere schatter is. Opmerkige: I bovestaade afleidig hebbe we ee kleiigheid over het hoofd gezie. De afgeleide, dl is ook gelijk aa ul als µ = 0. Echter, da hebbe we iet te make met dµ ee maximum.

THEORETISCHE BIOLOGIE, ONDERDEEL STATISTIEK 8 Bij het differetiëre va de likelihood moeste we de productregel gebruike. Soms geeft dat aaleidig tot igewikkelde uitdrukkige. Dat kue we voorkome door over te gaa op de logaritme va de likelihood. Ee logaritme maakt immers va ee product ee som. Bovedie bereikt de logaritme va de likelihood ee maximum voor dezelfde waarde va de parameter als de likelihood zelf. l L(µ) = l ( αe µ µ Σx i) = l α µ + (Σxi ) l µ. Differetieer e stel gelijk aa ul: d l L dµ = + Σx i µ = 0 ˆµ = Σx i Zoals U ziet loopt de berekeig veel soepeler. Tot u toe hebe we het steeds gehad over éé parameter die we wilde schatte. Het komt vaak voor dat we er twee of meer wille schatte. Hoewel het rekewerk daardoor wat igewikkelder ka worde, veradert er i pricipe weiig. De aaemelijkheidsfuctie L wordt u ee fuctie va twee of meer variabele e krijgt bijv. de vorm L(α, β; x 1, x 2,..., x ). Door α e β zo te kieze dat L maximaal wordt krijgt me weer de meest aaemelijke schattig voor α e β. Ook de maier waarop α e β worde gevode is hetzelfde: differetieer aar α e stel ul; differetieer aar β e stel ul; e los uit de twee resulterede vergelijkige α e β op. Ee tweede voorbeeld, u met ee cotiue stochast. Zij x 1, x 2,..., x ee steekproef uit ee expoetiële kasverdelig, met kasdichtheid f(x) = λ exp( λx) voor x > 0. We wille λ schatte, d.w.z. de waarde va λ bepale die het beste bij de steekproef aasluit. Dat doe we door de logaritme va de likelihood L(λ) te bepale e deze te maximalisere. L(λ) = f(x 1 )f(x 2 )...f(x ) = λe λx 1 λe λx 2... λe λx = λ e λ x i l L(λ) = l(λ e λ x i ) = l(λ) λ x i d l L(λ) dλ = 0 λ x i = 0 λ = xi. Ofwel de maximum likelihood schatter ˆλ is de reciproke (het omgekeerde) va het steekproefgemiddelde. Eigelijk moete we og agaa of we iderdaad met ee maximum te make hebbe. Dat kue we doe door aar het teke va de tweede afgeleide te kijke. d 2 l L(λ) = dλ 2 λ. 2 Deze uitdrukkig is (i dit geval zelfs voor elke waarde va λ!!) egatief, dus hebbe we iderdaad met ee maximum va doe. Tabel 1 geeft ee overzicht va de meest aaemelijke schatters va de parameters va ee aatal veelgebruikte kasverdelige. (2)

THEORETISCHE BIOLOGIE, ONDERDEEL STATISTIEK 9 3 Kasverdelig va maximum likelihood-schatters I de vorige paragraaf hebt u keis gemaakt met de eerste begisele va het parameterschatte. De methode va de meest aaemelijke schatter (de maximum likelihood methode) werd daar geïtroduceerd. We gaa daar u wat verder op i. Ee schatter va ee parameter is op zij beurt weer ee stochast: als we meerdere steekproeve eme levert elke steekproef doorgaas ee adere waarde op voor de schatter. Welke kasverdelig volgt u zo schatter? Daar kue we gee algemee uitsprake over doe. Ee belagrijke eigeschap va maximum-likelihoodschatters (maximum likelihood estimators, we korte dit i het vervolg af tot MLE s) is, dat voor grote steekproeve, de kasverdelig va de schatter beked is. Er geldt amelijk (oder bepaalde voorwaarde waaraa i de praktijk meestal wel voldaa is) dat MLE s asymptotisch zuiver, e ormaal verdeeld zij. Netjes geformuleerd: Zij X 1, X 2,..., X ee steekproef uit ee kasverdelig met kasdichtheid f(x; θ). Voor de maximum likelihood schatter va de parameter θ geldt (oder bepaalde voorwaarde) voor grote waarde va ˆθ N(θ, σ 2 (θ)) met σ 2 (θ) = [ E ( d 2 l(l(θ)) dθ 2 )] 1 = 1 [ ( d 2 l(f(x; θ)) E dθ 2 )] 1 De twee uitdrukkige tusse accolade zie er erg igewikkeld uit. Dat ze gelijk aa elkaar zij is iet moeilijk i te zie: bedek dat de likelihood het product is va keer de kasdichtheid. Dat de uitdrukkig precies de variatie va de schatter is, is veel moeilijker i te zie. We kue het wel ee beetje aaemelijk make. De tweede afgeleide va de likelihood geeft aa hoe sterk de eerste afgeleide stijgt of daalt. I de top va de likelihood hoort de eerste afgeleide ul te zij e de tweede afgeleide egatief (dat verklaart het miteke al). Hoe sterker egatief de tweede afgeleide is, des te spitser is de top i de grafiek va de likelihood. Ee spitse top impliceert dat de top auwkeurig bepaald is e dat laat zich goed vertale i ee kleie variatie va de schatter. Vervolg va het voorbeeld over de expoetiële verdelig. Er geldt: Tweemaal differetiëre aar λ geeft: l f(x) = l(λe λx ) = l λ λx d 2 l(f(x; λ)) dλ 2 = 1 λ 2. I de laatste uitdrukkig komt x iet meer voor. afgeleide is da simpel uit te rekee: E ( d 2 ) l(f(x; λ)) dλ 2 = E ( 1 ) = 1 λ 2 λ. 2 De verwachtig va de tweede

THEORETISCHE BIOLOGIE, ONDERDEEL STATISTIEK 10 Dus de maximum likelihood-schatter ˆλ va ee expoetiële verdelig volgt bij ee grote steekproefomvag ogeveer ee ormale verdelig N(λ, 1 λ2 ). Wat beteket het u eigelijk dat ˆλ ee ormale verdelig N(λ, 1 λ2 ) volgt? Stel dat de levesduur T va ee vlidersoort ee expoetiële verdelig volgt met λ = 0.1 d 1 (da is de verwachte levesduur E(T ) = 10 d). I de praktijk kee we de waarde va de parameter λ atuurlijk iet. We kue de waarde va λ schatte door va ee aatal, zeg 100, radom gekoze vliders de levesduur te bepale. We beschikke da over ee steekproef t 1, t 2,...t 100 va 100 leeftijde. De gemiddelde leeftijd t kue we gebruike om de parameter λ te schatte. Immers ˆλ = 1/ t. De theorie zegt u dat de uitkomst va ˆλ ee trekkig is uit N(λ, 1 λ2 ) i dit geval N(0.1, 0.0001) e dus waarschijlijk redelijk dicht i de buurt zal ligge va de werkelijke waarde. Door de steekproefomvag og groter te make kue we ervoor zorge dat de kas om de werkelijke waarde goed te beadere og groter wordt. I de volgede paragraaf gaa we daar verder op i. Tabel 1 geeft ee overzicht va de (asymptotische) variatie va de parameterschatters va veel voorkomede verdelige.

THEORETISCHE BIOLOGIE, ONDERDEEL STATISTIEK 11 Tabel 1: Overzicht va ekele veelgebruikte kasverdelige. Naast de verwachtig e de variatie va de verdelige zij ook de maximum likelihood schatters va de parameters gegeve, met hu (asymptotische) variatie. kasverdelig kas(dichtheids)fuctie verwachtig variatie ML schatter (asymptotische) variatie MLE alteratieve p x (1 p) 1 x p p(1 p) ˆp = X biomiale ( N x ) p x (1 p) N x Np Np(1 p) ˆp = X N p(1 p) p(1 p) N Poissoe λ λ x x! λ λ ˆλ = X λ geometrische p(1 p) x 1 p p 1 p p 2 ˆp = 1 1 + X p 2 (1 p) uiforme 1 b a a + b 2 (b a) 2 12 â = mi{xi} ˆb = max{x i} expoetiële λe λx 1 λ ormale { 1 (x µ) 2 exp 2πσ 2 2σ 2 } 1 1 ˆλ = λ 2 X µ σ 2 ˆµ = X λ 2 σ 2 (X ˆσ 2 i = X) 2 2σ 4

THEORETISCHE BIOLOGIE, ONDERDEEL STATISTIEK 12 4 Betrouwbaarheidsitervalle Als we ee steekproef doe uit ee bepaalde kasverdelig da kue we de obekede parameter(s) va die verdelig schatte, bijvoorbeeld met de maximum likelihood methode. Het resultaat is ee putschattig va de parameter, het is de waarde die volges ee bepaald criterium het beste past bij de data. Over de auwkeurigheid va deze putschattig is da og iets gezegd: het ka best zo zij dat aburige parameterwaarde ook heel goed passe bij de steekproef. We zoude aast de putschattig ook graag ee itervalschattig va de parameter wille hebbe, d.w.z. ee verzamelig va aaemelijke parameterwaarde. Zo itervalschattig wordt ook wel ee betrouwbaarheidsiterval geoemd. Er zij verschillede defiities va het begrip betrouwbaarheidsiterval i omloop. We zulle hier de meest gebruikte defiitie geve (zie ook Heath, hoofdstuk 7): Defiitie: Ee 100γ%-betrouwbaarheidsiterval va ee te schatte parameter θ bij ee gegeve steekproef is ee iterval (L 1, L 2 ) waarvoor geldt P (L 1 < θ < L 2 ) = γ. We zulle u aa de had va ee voorbeeld late zie hoe deze defiitie werkt. Stel we hebbe ee steekproef va 13 getalle uit ee ormale verdelig N(µ, σ 2 ), waarva µ obeked is e σ 2 beked, zeg σ 2 = 10. De steekproef bestaat uit de getalle 30.1, 27.2, 29.1, 31.3, 30.1, 35.8, 34.3, 28.2, 32.8, 28.6, 30.7, 23.1, 28.7. De MLE ˆµ is het steekproefgemiddelde, i dit geval 30. Gevraagd wordt ee 95%- betrouwbaarheidsiterval va µ te costruere. We wete dat het steekproefgemiddelde X ook ee ormale verdelig volgt, amelijk X N(µ, σ 2 /13). Door dit te stadaardisere vide we: X µ N(0, 1) 10/13 Uit ee tabel va de stadaardormale verdelig hale we P ( 1.96 < X µ 10/13 < 1.96) = 0.95 e dit kue we omschrijve tot P ( X 1.96 10/13 < µ < X + 1.96 10/13) = 0.95 Bij deze steekproef vide we da als 95%-betrouwbaarheidsiterval (28.28, 31.72). Dit voorbeeld laat goed zie hoe ee formule voor ee betrouwbaarheidsiterval gecostrueerd wordt. Echter, i de praktijk hebbe we zelde of ooit te make met ormale verdelige waarva de variatie beked is (met beked bedoele we dat we de variatie iet hoeve te schatte uit de steekproef). Doorgaas zij beide parameters obeked. I dat geval wordt de zaak iets igewikkelder.

THEORETISCHE BIOLOGIE, ONDERDEEL STATISTIEK 13 Stel we hebbe ee steekproef va getalle uit ee ormale verdelig N(µ, σ 2 ), waarva µ e σ 2 obeked zij. Als we weer ee betrouwbaarheidsiterval voor µ wille make, zulle we aast µ ook σ 2 moete schatte. Als we het vorige voorbeeld ogmaals alope e daarbij de variatie σ 2 schatte met de steekproefvariatie s 2, gegeve door s 2 (Xi = X) 2 1 krijge we te make met de t-verdelig met 1 vrijheidsgrade i plaats va met de stadaard ormale verdelig. X µ s 2 / t [ 1] I plaats va de tabel va de stadaardormale verdelig moete we de tabel va de t-verdelig gebruike (zie boek tabel A2 op pagia 244.) Bij de dataset uit het vorige voorbeeld krijge we X = 30, s 2 = 10.443 e t [12;0.975] = 2.18, dus het 95%-betrouwbaarheidsiterval voor µ wordt (28.05, 31.95) Het is ook mogelijk ee betrouwbaarheidsiterval voor σ 2 te costruere. Daarvoor moete we kijke aar de kasverdelig va s 2. Er geldt ( 1) s2 σ 2 χ2 [ 1] Uit ee tabel voor de chi-kwadraatverdelig (Tabel A6 op pagia 328 va Heath) hale we voor = 13: P (4.404 < ( 1) s2 1)s2 < 23.337) = 0.95 ofwel P (( σ2 23.337 < σ 2 < ( 1)s2 4.404 ) = 0.95 Met de data va de vorige voorbeelde krijge we (5.37, 28.5) als 95%-betrouwbaarheidsiterval voor σ 2. De vorige voorbeelde ware betrekkelijk eevoudig. Er hoefde erges igewikkeld gereked te worde. Het volgede voorbeeld over de biomiale parameter laat zie dat er zich i de praktijk probleme kue voordoe. Zij X 1, X 2,..., X ee steekproef uit ee alteratieve verdelig met obekede parameter p, dus f(x; p) = p x (1 p) 1 x, voor x = 0 of 1. We wete dat ˆp = X e dat X = X i Bi(, p). We kue echter iet zoals i voorgaade voorbeelde te werk gaa. Dat komt omdat we de parameter p iet uit de verdelig kue hale. Met ee computer is dit probleem op te losse, maar ee eevoudige formule bestaat iet i dit geval. I ee aatal boeke (bijvoorbeeld Heath) heeft me dit probleem odervage door zogeaamde omogramme op te eme: grafieke waari me

THEORETISCHE BIOLOGIE, ONDERDEEL STATISTIEK 14 bij gegeve waarde va X het exacte betrouwbaarheidsiterval vrij auwkeurig ka afleze. Als de steekproefomvag vrij klei is, otkomt me iet aa deze probleme. Voor grote steekproeve zij er alteratieve. 4.1 Betrouwbaarheidsitervalle voor grote steekproeve De procedure die hierbove geschetst werd is i pricipe toepasbaar voor allerlei soorte verdelige. Vaak levert dat echter verschrikkelijk rekewerk of zoekwerk op. Vadaar dat er procedures zij otwikkeld die veel mider rekewerk verge e (althas voor grote steekproeve) ee goede beaderig va de betrouwbaarheidsitervalle oplevere. Stel we hebbe ee steekproef uit ee verdelig met kasdichtheid f(x; θ). We wete dat maximum-likelihoodschatters asymptotisch ormaal verdeeld zij. Iets preciezer geformuleerd, voor grote steekproefomvag geldt: [ ( d ˆθ N(θ, σ 2 (θ)) met σ 2 2 l(l(θ)) (θ) = E dθ 2 )] 1 = 1 [ E ( d 2 l(f(x; θ)) dθ 2 )] 1 We kue dus gebruik make va de ormale verdelig va ˆθ. Hoe dat werkt illustrere we aa de had va het volgede voorbeeld: De parameter λ uit de expoetiële verdelig. De kasdichtheid is gegeve door f(x) = λe λx voor x > 0 e de maximum likelihood schatter voor λ is ˆλ = 1/ X. Er geldt voor grote waarde va dat ˆλ N(λ, λ 2 /), ofwel 1/ X λ λ/ N(0, 1). Het 95%- betrouwbaarheidsiterval ka da verkrege worde uit de ogelijkheid P ( 1.96 < 1/ X λ λ/ < 1.96) = 0.95 Merk op dat λ op twee plaatse voorkomt i deze ogelijkheid. Oplosse levert het volgede (asymetrische) betrouwbaarheidsiterval 1/ P ( X 1 + 1.96/ < λ < 1/ X 1 1.96/ ) = 0.95 We kue u ook het biomiale probleem krake. Voor grote geldt ˆp N(p, p(1 p)/) e dus ook ˆp p/ p(1 p) N(0, 1). Het betrouwbaarheidsiterval wordt verkrege uit de ogelijkheid X p P ( 1.96 < < 1.96) = 0.95 p(1 p)/

THEORETISCHE BIOLOGIE, ONDERDEEL STATISTIEK 15 Deze ogelijkheid kue we uitschrijve tot ee expliciete ogelijkheid voor p. Daarvoor moet ee kwadratische vergelijkig opgelost worde. Dat levert ee draak va ee formule op. Meestal vermijdt me dit door i de variatieschatter voor p(1 p) te substituere ˆp(1 ˆp). Dat maakt immers (voor grote ) weiig uit i getalswaarde e me krijgt ee simpelere formule. Naast deze twee methode is er og ee derde, waarbij me de uitdrukkig p(1 p) vervagt door zij maximale waarde, te wete 1/4. Dat levert het zogeaamde coservatieve betrouwbaarheidsiterval. Met ame i oude literatuur kom je dit vaak tege. De procedure die we i het biomiale geval gevolgd hebbe kue we ook algemee opschrijve. We gaa uit va ˆθ N(θ, σ 2 (θ)) Het 100γ-betrouwbaarheidsiterval voor θ volgt uit: P ( z < ˆθ ) θ σ(θ) < z waarbij z gegeve wordt door Φ(z) Φ( z) = γ. De ogelijkheid schrijve we om tot = γ ˆθ zσ(θ) < θ < ˆθ + zσ(θ). Deze impliciete ogelijkheid i θ losse we op (zie voorbeeld over de expoetiële verdelig), da wel we beadere σ(θ) met σ(ˆθ) zoals i het biomiale voorbeeld. 5 Toetse Je hebt i het boek va Heath al keis gemaakt met allerlei statistische toetse, zoals de biomiale toets, t-toets, Ma-Whitey toets e ANOVA. Daarbij bleef i het midde hoe waarom je bij elk va deze toetse juist die ee specifieke toetsigsgrootheid moet eme. Sommige toetsigsgroothede zij weliswaar ituïtief te iterpretere, maar daar blijft het bij. Het is vooralsog iet duidelijk waarom ee adere toetsigsgrootheid iet eve goed zou werke. Het blijkt dat alle bekede parametrische toetse verkrege kue worde via het zogeaamde likelihood-ratio pricipe. Het idee is als volgt. Je vergelijkt twee hypothese met elkaar door hu likelihood waarde te vergelijke. Iets preciezer geformuleerd: bij ee statistische toets worde altijd twee hypothese geformuleerd: de ulhypothese H 0 e de alteratieve hypothese H 1. Beide hypothese doe ee uitspraak over parameterwaarde, bijvoorbeeld bij ee t-toets: H 0 : µ = µ 0 vs. H 1 : µ µ 0 Me bereket u de maximale waarde va de likelihood oder H 0 e oder H 1 e me bepaalt het quotiet LR va deze twee getalle (de likelihood ratio, H 0 /H 1 ). Als

THEORETISCHE BIOLOGIE, ONDERDEEL STATISTIEK 16 LR groter is da 1, heb je gee ekele rede om H 0 te verwerpe. Immers, H 0 is da aaemelijker da H 1. Als LR kleier is da 1, zou je geeigd zij H 1 te verkieze bove H 0. Maar, zoals beked, H 0 wordt i beschermig geome. De kas om te orechte H 0 te verwerpe mag iet groter zij da ee tevore bepaalde waarde α. Daarom gaat me als volgt verder: verwerp H 0 als de likelihood ratio LR kleier is da ee getal c waarvoor geldt: P (LR < c H 0 is waar) = α. Als we dit idee uitwerke voor de parameter µ va ee ormale verdelig krijge we de t-toets of, als we σ 2 beked veroderstelle, de z-toets. Werke we het uit voor de parameter p va ee alteratieve verdelig da krijge we de bekede biomiale toets. Ook de ANOVA is ee toepassig va hetzelfde idee. Ee probleem bij het uitwerke va ee likelihood ratio toets is dat je de kasverdelig va LR moet wete, om de kritieke waarde te kue bepale. Die kasverdelig is voor elke situatie aders. Daar kue we gee algemee uitsprake over doe. Dat ka echter wel als we uitgaa va grote steekproefaatalle, et zoals bij de kasverdelig va de maximum likelihood schatter. Het volgede blijkt te gelde: 2 log(lr) χ 2 ν oder H 0 waarbij ν gelijk is aa het verschil i aatal geschatte parameters va de teller e de oemer va LR.