toetsede statistiek week 1: kase e radom variabele week 2: de steekproeveverdelig week 3: schatte e toetse: de z-toets week 4: het toetse va gemiddelde: de t-toets week 5: het toetse va variaties: de F-toets week 6: het toetse va tellige: de χ 2 -toets Moore, McCabe, ad Craig. Itroductio to the Practice of Statistics Chapter 9: Aalysis of Two-Way Tables 9.1: Iferece for Two-Way Tables 9.2: Formulas ad Models for Two-Way Tables 9.3: Goodess of Fit week 7: verdeligsvrije toetse Frak Busig, Uiversiteit Leide 1/38 deze week: wat hebbe we al geleerd? keis e begrip va de 5 kasregels keis e begrip va margiale, gezamelijke e coditioele kas keis e begrip va oafhakelijkheid toelichtig colums 1 2 1 rows 2 totaal totaal gezamelijke kas: P(A e B) margiale kase: P(A) e P(B) coditioele kase: P(A B) e P(B A) 2/38
voorbeeld ee oderzoeker kijkt aar de relatie tusse geslacht e geloof i astrologie hij eemt éé grote steekproef va eerstejaars psychologie studete de oderzoeker bepaalt vervolges het geslacht e het geloof i astrologie vraag: is er ee relatie tusse geslacht e geloof i de studetepopulatie? 3/38 de χ 2 -toets voor oafhakelijkheid ee chi-kwadraat toets (χ 2 ) voor oafhakelijkheid wordt gebruikt om te bepale of twee variabele gerelateerd zij de gegeves zij afkomstig va éé populatie het meetiveau va de twee variabele is categorisch (omiaal of ordiaal) éé populatie: eerstejaars psychologie studete twee variabele: geslacht e geloof i astrologie elke proefpersoo valt i éé e slechts éé categorie waaremige zij oafhakelijk va elkaar de ul hypothese verwacht gee relatie tusse de twee variabele de ul hypothese verwacht dat de variabele oafhakelijk zij de χ 2 -toets beoordeelt het verschil tusse geobserveerde (f o ) e verwachte frequeties (f e ) 4/38
χ 2 -toetsstatistiek χ 2 -toetsstatistiek χ 2 = (f o f e ) 2 f e χ 2 is de som over gestadaardiseerde gekwadrateerde residue als de geobserveerde e verwachte frequeties ogeveer aa elkaar gelijk zij da is de toetsstatistiek ogeveer gelijk aa ul de hebbe we geobserveerd, gemete, geteld de verwachte frequeties (oder H 0 ) kue we bepale met behulp va kase 5/38 herhalig: de productregel regel 5: productregel (voor oafhakelijke gebeurteisse) P(A e B) = P(A) P(B) voor oafhakelijke gebeurteisse is de gezamelijke kas het produkt va twee margiale kase voorbeeld de kas op ee vrouw die gelooft i astrologie is da gelijk aa de kas op geloof i astrologie (A) maal de kas op ee vrouw (B) 6/38
verwachte celfrequeties bij oafhakelijkheid (H 0 ) vrouw ma totaal geloof 69 16 85 eutraal 90 28 118 ogeloof 242 118 360 totaal 401 162 563 als we verwachte, oder H 0, dat de aaame va oafhakelijkheid geldt da P e (A e B) = P(A) P(B) f e (A e B) = f(a) f(b) f e (A e B) = f(a) f(b) i woorde: de verwachte celfrequetie bij oafhakelijkheid is het product va de margiale frequeties gedeeld door het totaal aatal 7/38 verwachte celfrequeties bij oafhakelijkheid (H 0 ) vrouw ma totaal geloof 6969 16 8585 eutraal 90 28 118 ogeloof 242 118118 360360 totaal 401401 162162 563 bijvoorbeeld f e (A e B) = f(a) f(b) f e (geloof e vrouw) = f(geloof) f(vrouw) f e (ogeloof e ma) = f(ogeloof) f(ma) etc. = 85 401 563 = 360 162 563 = 60.54 = 103.54 8/38
de χ 2 -toetsstatistiek vrouw ma totaal geloof 69 16 85 eutraal 90 28 118 ogeloof 242 118 360 totaal 401 162 563 verwachte frequeties vrouw ma totaal 60.54 24.46 85 84.05 33.95 118 256.46 103.54 360 401 162 563 aaame 1 voor elke cel f e 1: gee delig door ul 2 χ 2 -toets voor oafhakelijkheid: voor elke cel f e 5 9/38 de χ 2 -toetsstatistiek vrouw ma totaal geloof 69 16 85 eutraal 90 28 118 ogeloof 242 118 360 totaal 401 162 563 χ 2 = (f o f e ) 2 f e = (69 60.54)2 60.54 = 8.388 + (90 84.05)2 84.05 verwachte frequeties vrouw ma totaal 60.54 24.46 85 84.05 33.95 118 256.46 103.54 360 401 162 563 +...+ (118 103.54)2 103.54 de steekproeveverdelig va χ 2 heet de χ 2 -verdelig et als de t- e F-verdelig betreft het hier ee hele familie va verdelige afhakelijk va het aatal vrijheidsgrade: χ 2 (df) 10/38
de χ 2 -verdelig Probability p ( χ 2 )* 1 (χ 2 ) is altijd positief 2 χ 2 -verdelig is scheef aar rechts 3 de piek ligt i de buurt va het aatal vrijheidsgrade 4 bij ee groot aatal vrijheidsgrade is χ 2 ormaal verdeeld 11/38 χ 2 -tabel Table etry for pis the critical value ( χ 2 ) * with probability p lyig to its right. ( χ 2 )* Probability p TABLE F χ 2 distributio critical values Tail probability p df.25.20.15.10.05.025.02.01.005.0025.001.0005 1 1.32 1.64 2.07 2.71 3.84 5.02 5.41 6.63 7.88 9.14 10.83 12.12 2 2.77 3.22 3.79 4.61 5.99 7.38 7.82 9.21 10.60 11.98 13.82 15.20 3 4.11 4.64 5.32 6.25 7.81 9.35 9.84 11.34 12.84 14.32 16.27 17.73 4 5.39 5.99 6.74 7.78 9.49 11.14 11.67 13.28 14.86 16.42 18.47 20.00 5 6.63 7.29 8.12 9.24 11.07 12.83 13.39 15.09 16.75 18.39 20.51 22.11 1 b. χ 2 (df = 1) = z 2 12/38
vrijheidsgrade voor de r c tabel vrouw ma totaal geloof 69 85 eutraal 90 118 ogeloof 360 totaal 401 162 563 het aatal vrijheidsgrade is df = (r 1) (c 1) ga maar a: gegeve de margiale, hoeveel celle kue er vrij igevuld worde? stel: α = 0.05 wat is da de greswaarde (χ 2 )? 13/38 χ 2 -tabel: greswaarde (χ 2 ) Table etry for pis the critical value ( χ 2 ) * with probability p lyig to its right. ( χ 2 )* Probability p TABLE F χ 2 distributio critical values Tail probability p df.25.20.15.10.05.025.02.01.005.0025.001.0005 1 1.32 1.64 2.07 2.71 3.84 5.02 5.41 6.63 7.88 9.14 10.83 12.12 2 2.77 3.22 3.79 4.61 5.99 7.38 7.82 9.21 10.60 11.98 13.82 15.20 3 4.11 4.64 5.32 6.25 7.81 9.35 9.84 11.34 12.84 14.32 16.27 17.73 4 5.39 5.99 6.74 7.78 9.49 11.14 11.67 13.28 14.86 16.42 18.47 20.00 5 6.63 7.29 8.12 9.24 11.07 12.83 13.39 15.09 16.75 18.39 20.51 22.11 14/38
de χ 2 -toets voor oafhakelijkheid toets ee relatie tusse variabele met de χ 2 -toets voor oafhakelijkheid steekproefgegeves: r = 3,c = 2,χ 2 = 8.388 stappepla χ 2 -toets voor oafhakelijkheid: 2 1 hypothese H 0 : f o = f e e H a : f o f e 2 steekproeveverdelig χ 2 verdeeld met df = (r 1)(c 1) = 2 3 toetsigsgrootheid χ 2 = 8.388 4 verwerpigsgebied df = 2,α = 0.05,(χ 2 ) = 5.99 5 statistische coclusie χ 2 = 8.388 > 5.99 = (χ 2 ) e H 0 wordt verworpe 6 ihoudelijke coclusie geloof i astrologie e geslacht zij afhakelijk i de studetepopulatie let op: bij grote (grote power) is χ 2 altijd sigificat 15/38 χ 2 -tabel: p-waarde TABLE F χ 2 distributio critical values Tail probability p df.25.20.15.10.05.025.02.01.005.0025.001.0005 1 1.32 1.64 2.07 2.71 3.84 5.02 5.41 6.63 7.88 9.14 10.83 12.12 2 2.77 3.22 3.79 4.61 5.99 7.38 7.82 9.21 10.60 11.98 13.82 15.20 3 4.11 4.64 5.32 6.25 7.81 9.35 9.84 11.34 12.84 14.32 16.27 17.73 4 5.39 5.99 6.74 7.78 9.49 11.14 11.67 13.28 14.86 16.42 18.47 20.00 5 6.63 7.29 8.12 9.24 11.07 12.83 13.39 15.09 16.75 18.39 20.51 22.11 1 rij, aatal vrijheidsgrade df = 2 2 χ 2 = 8.388 ligt tusse 7.82 e 9.21 3 p-waarde ligt tusse 0.01 e 0.02 4 coclusie: p < 0.05, H 0 wordt verworpe merk op dat de greze waartusse de p-waarde ligt iet verdubbeld worde: deze χ 2 -tabel geeft direct e uitsluited de tweezijdige p-waarde 16/38
SPSS: crosstabs χ 2 -test results Chi-Square Tests Pearso Chi-Square Likelihood Ratio Fisher's Exact Test Liear-by-Liear Associatio N of Valid Cases Value df Asymp. Sig. (2-sided) Exact Sig. (2-sided) Exact Sig. (1-sided) Poit Probability 8.388 a 2.015.015 8.734 2.013.013 8.406.015 8.200 b 1.004.005.002.001 563 a. 0 cells (0.0%) have expected cout less tha 5. The miimum expected cout is 24.46. b. The stadardized statistic is 2.864. Het geloof i astrologie is afhakelijk va het geslacht va de studet, χ 2 = 8.388,df = 2,p =.015. gebruik de Fisher s exact test i plaats va de asymptotische χ 2 beaderig de Fisher s exact test is met ame geschikt voor kleie steekproeve 17/38 voorbeeld ee oderzoeker vraagt zich af of we diere kue late lie-dase hij verzamelt 200 katte e verdeelt ze radom over twee groepe hij beloot de ee groep met voedsel voor lie-das-achtig gedrag de adere groep wordt belood met affectie aa het eide va de periode telt hij hoeveel katte kode lie-dase vraag: is er ee relatie tusse lie-dase e het soort beloig? 18/38
de χ 2 -toets voor homogeiteit ee chi-kwadraat toets (χ 2 ) voor homogeiteit 4 wordt gebruikt om te bepale of twee of meer populaties gelijk verdeeld zij op éé variabele de gegeves zij afkomstig va twee of meer populaties het meetiveau va de variabele is categorisch (omiaal of ordiaal) twee populaties: voedsel e affectie beloode katte éé variabele: lie-dase elke proefpersoo valt i éé e slechts éé categorie waaremige zij oafhakelijk va elkaar de ul hypothese verwacht gelijke proporties of gelijke verdelige de χ 2 -toets beoordeelt het verschil tusse geobserveerde (f o ) e verwachte frequeties (f e ) de χ 2 -verdelig heeft df = (r 1) (c 1) vrijheidsgrade χ 2 -toets voor homogeiteit of homogeiteit va verdelige of homogeiteit va populaties 19/38 oafhakelijkheid versus homogeiteit χ 2 -toets voor oafhakelijkheid 1 éé populatie: studete 2 twee variabele: geslacht e geloof 3 H 0 : geslacht e geloof zij oafhakelijk i de populatie va studete 4 gee oderscheid tusse verklarede e respos variabele 5 omvag va de steekproef () staat vast χ 2 -toets voor homogeiteit 1 twee of meer populaties: maelijke e vrouwelijke studete 2 éé variabele: geloof 3 H 0 : geloof is gelijk verdeeld i alle populaties 4 oderscheid tusse verklarede (geslacht) e respos variabele (geloof) 5 margiale va de verklarede variabele staa vast (maar iet per se gelijk) coclusie: het oderzoeksotwerp bepaalt welke toets passed is 5 echter: de verwachte frequeties worde voor beide toetse op gelijke wijze bepaald 20/38
χ 2 -toetsstatistiek χ 2 -toetsstatistiek χ 2 = (f o f e ) 2 f e χ 2 is de som over gestadaardiseerde gekwadrateerde residue als de geobserveerde e verwachte frequeties ogeveer aa elkaar gelijk zij da is de toetsstatistiek ogeveer gelijk aa ul de hebbe we geobserveerd, gemete, geteld de verwachte frequeties (oder H 0 ) kue we bepale met behulp va kase 21/38 verwachte celfrequeties bij homogeiteit (H 0 ) voedsel affectie totaal ka dase 28 48 76 ka iet dase 10 114 124 totaal 38 162 200 oder H 0, bij gelijke verdelige, geldt dat 6 1 de coditioele kase gelijk zij voor alle codities (28/38 = 48/162 e 10/38 = 114/162) 2 de coditioele kase gelijk zij aa de margiale kase (28/38 = 48/162 = 76/200 e 10/38 = 114/162 = 124/200) zie slides TS week 1 22/38
verwachte celfrequeties bij homogeiteit (H 0 ) voedsel affectie totaal ka dase 28 48 76 ka iet dase 10 114 124 totaal 38 162 200 als we verwachte dat de coditioele gelijk zij aa de margiale kase da P e (A B) = P(A) f e (A e B) f(b) = f(a) f e (A e B) = f(a) f(b) i woorde: de verwachte celfrequetie bij homogeiteit is het product va de margiale frequeties gedeeld door het totaal aatal 7 verwachte celfrequetie bij homogeiteit = verwachte celfrequetie bij oafhakelijkheid 23/38 verwachte celfrequeties bij homogeiteit (H 0 ) voedsel affectie totaal ka dase 28 48 76 ka iet dase 10 114 124 totaal 38 162 200 bijvoorbeeld f e (A e B) = f(a) f(b) f e (lie-dase e voedsel) = f(lie-dase) f(voedsel) etc. = 76 38 200 = 14.44 24/38
verwachte celfrequeties bij homogeiteit (H 0 ) voedsel affectie totaal ka dase 28 48 76 ka iet dase 10 114 124 totaal 38 162 200 verwachte frequeties voedsel affectie totaal 14.44 61.56 76 23.56 100.44 124 38 162 200 aaame 1 voor elke cel f e 1: gee delig door ul 2 gemiddelde f e 5 25/38 de χ 2 -toetsstatistiek voedsel affectie totaal ka dase 28 48 76 ka iet dase 10 114 124 totaal 38 162 200 verwachte frequeties voedsel affectie totaal 14.44 61.56 76 23.56 100.44 124 38 162 200 χ 2 = (f o f e ) 2 f e = (28 14.44)2 14.44 = 25.35 + (48 61.56)2 61.56 + (10 23.56)2 23.56 + (114 100.44)2 100.44 26/38
de χ 2 -toets voor homogeiteit het vergelijke va frequetieverdelige met de χ 2 -toets voor homogeiteit steekproefgegeves: r = 2,c = 2,χ 2 = 25.35 stappepla χ 2 -toets voor homogeiteit: 1 hypothese H 0 : f o = f e e H a : f o f e 2 steekproeveverdelig χ 2 verdeeld met df = (r 1)(c 1) = 1 3 toetsigsgrootheid χ 2 = 25.35 4 verwerpigsgebied df = 1,α = 0.05,(χ 2 ) = 3.84 5 statistische coclusie χ 2 = 25.35 > 3.84 = (χ 2 ) e H 0 wordt verworpe 6 ihoudelijke coclusie de verdelige voor katte belood met voedsel e met affectie zij iet aa elkaar gelijk 27/38 SPSS: crosstabs cell results liedace * beloig Crosstabulatio liedace ja Cout Expected Cout ee Cout Expected Cout Total Cout Expected Cout beloig voedsel affectie Total 28 48 76 14.4 61.6 76.0 10 114 124 23.6 100.4 124.0 38 162 200 38.0 162.0 200.0 28/38
SPSS: crosstabs χ 2 -test results Chi-Square Tests Pearso Chi-Square Cotiuity Correctio b Likelihood Ratio Fisher's Exact Test Liear-by-Liear Associatio N of Valid Cases Value df Asymp. Sig. (2-sided) 25.356 a 1.000 23.520 1.000 24.932 1.000 25.229 1.000 200 Exact Sig. (2- sided) Exact Sig. (1- sided).000.000 a. 0 cells (0.0%) have expected cout less tha 5. The miimum expected cout is 14.44. b. Computed oly for a 2x2 table De verdelig va lie-dase is aders voor de verschillede soorte beloig die katte krijge ter aamoedigig, χ 2 = 25.35,df = 1,p <.000. 29/38 Pearsos r versus Pearsos χ 2 voor ee 2 2 tabel is de correlatie r tusse de (dichotome) variabele direct gerelateerd aa χ 2 Correlatios liedace beloig Pearso Correlatio Sig. (2-tailed) N Pearso Correlatio Sig. (2-tailed) N liedace beloig 1.356 **.000 200 200.356 ** 1.000 200 200 **. Correlatio is sigificat at the 0.01 level (2-tailed). relatie tusse r e χ 2 voor ee 2 2 tabel r 2 = χ 2 voorbeeld: 0.356 2 200 = 25.35 30/38
voorbeeld oudere mese kijke uit aar belagrijke gebeurteisse i ee jaar zo ook aar hu verjaardag het valt ee oderzoeker op dat mese vaak vlak era overlijde ee steekproef va 348 overlede bejaarde moet duidelijkheid scheppe vraag: probere oudere hu verjaardag te overleve? 31/38 χ 2 -toets voor goodess-of-fit ee chi-kwadraat toets (χ 2 ) voor goodess-of-fit wordt gebruikt om te bepale of de verdelig va éé categorische variabele overeekomt met ee theoretische verdelig de gegeves zij afkomstig va éé populatie het meetiveau va de variabele is categorisch (omiaal of ordiaal) éé populatie: oudere éé variabele: maad va overlijde elke proefpersoo valt i éé e slechts éé categorie waaremige zij oafhakelijk va elkaar de ul hypothese verwacht ee verdelig gelijk aa ee theoretische verdelig de χ 2 -toets beoordeelt het verschil tusse geobserveerde (f o ) e theoretische frequeties (f e ) de χ 2 -verdelig heeft df = #categoriee 1 vrijheidsgrade 32/38
χ 2 -toetsstatistiek maad f o f e f o f e (f o f e ) 2 (f o f e ) 2 /f e -6 24 29-5 25 0.86-5 31 29 +2 4 0.14-4 20 29-9 81 2.79-3 23 29-6 36 1.24-2 34 29 +5 25 0.86-1 16 29-13 169 5.83 0 26 29-3 9 0.31 +1 36 29 +7 49 1.69 +2 37 29 +8 64 2.21 +3 41 29 +12 144 4.97 +4 26 29-3 9 0.31 +5 34 29 +5 25 0.86 totaal 348 0 22.07 χ 2 = (f o f e ) 2 f e = 22.07 33/38 de χ 2 -toets voor goodess-of-fit het passe va ee frequetieverdelig met de χ 2 -toets voor goodess-of-fit steekproefgegeves: = 12,χ 2 = 22.07 stappepla χ 2 -toets voor goodess-of-fit: 1 hypothese H 0 : f o = f e e H a : f o f e 2 steekproeveverdelig χ 2 verdeeld met df = 1 = 11 3 toetsigsgrootheid χ 2 = 22.07 4 verwerpigsgebied df = 11,α = 0.05,(χ 2 ) = 19.68 5 statistische coclusie χ 2 = 22.07 > 19.68 = (χ 2 ) e H 0 wordt verworpe 6 ihoudelijke coclusie mese overlijde iet gelijkmatig over het jaar hee 34/38
SPSS: chi-square cell results delta(maad) -6-5 -4-3 -2-1 0 1 2 3 4 5 Total Observed N Expected N Residual 24 29.0-5.0 31 29.0 2.0 20 29.0-9.0 23 29.0-6.0 34 29.0 5.0 16 29.0-13.0 26 29.0-3.0 36 29.0 7.0 37 29.0 8.0 41 29.0 12.0 26 29.0-3.0 34 29.0 5.0 348 35/38 SPSS: chi-square test results Test Statistics Chi-Square df Asymp. Sig. delta(maad) 22.069 a 11.024 a. 0 cells (0.0%) have expected frequecies less tha 5. The miimum expected cell frequecy is 29.0. De verdelig va overlijdes komt iet overee met de verwachte uiforme verdelig, χ 2 = 22.07,df = 11,p =.024. Er zij meer oudere die á hu verjaardag overlijde (f o = 35.5 per maad), da vóór hu verjaardag (f o = 26.6 per maad). 36/38
deze week: wat hebbe we geleerd? de verschillede χ 2 -oderzoekssituaties de verwachte frequeties voor de verschillede χ 2 -situaties uitvoere e beoordele va ee χ 2 -toets de relatie tusse Pearsos r e Pearsos χ 2 37/38 deze week: wat moete we og lere? het kue kieze va de juiste toets het uitvoere e beoordele va ee χ 2 -toets 38/38