Statistiek Hoorcollege 5. Χ 2 toets 10/7/2009. De Collegereeks Statistiek. Deze week. Vandaag. Keuze voor een toets

Vergelijkbare documenten
Bestaat er een betekenisvol verband tussen het geslacht en het voorkomen van dyslexie? Gebruik de Chi-kwadraattoets voor kruistabellen.

Oplossingen hoofdstuk 9

Analyse van kruistabellen

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Open het databestand in SPSS en kies Analyze > Correlate > Bivariate. Vul vervolgens het dialoogvenster in als volgt:

Vandaag. Onderzoeksmethoden: Statistiek 4. Recap: Hypothese toetsen. Recap: One-sample t-toets

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren:

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

TECHNISCHE UNIVERSITEIT EINDHOVEN

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek II voor TeMa (2S195) op maandag ,

Hoofdstuk 5 Een populatie: parametrische toetsen

APPENDIX B: Statistische analyses

Vandaag. Onderzoeksmethoden: Statistiek 4. Recap: Hypothese toetsen. Recap: One-sample t-toets

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur.

8. Analyseren van samenhang tussen categorische variabelen

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

De primaire link op gemeentelijke websites, Bijlagen. over efficiëntie, effectiviteit en gebruiksvriendelijkheid

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op donderdag ,

11. Multipele Regressie en Correlatie

De Collegereeks Statistiek. statistiek. Statistiek in het dagelijkse nieuws. Statistiek Hoorcollege 1. Descriptieve statistiek ttitik

Verband tussen twee variabelen

Tabel 2: Stemgedrag van respondenten bij de TK verkiezingen in 2010 VVD xx % PvdA PVV CDA SP D66 CU PvdD SGP GL Te jong om te stemmen Niet gestemd

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op maandag ,

Meerderheid Zeeland voor snelle bouw brede school i.p.v. bouw MFC Grote bereidheid om de enquête van Progressief Landerd in te vullen.

Workshop Qualtrics & SPSS

SPSS. Statistiek : SPSS

Hoofdstuk 6 Twee populaties: parametrische toetsen

Antwoordvel Versie A

Statistiek ( ) eindtentamen

Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6

INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5

toetsende statistiek deze week: wat hebben we al geleerd? Frank Busing, Universiteit Leiden

Fasen in het onderzoeksproces

9. Lineaire Regressie en Correlatie

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Toegepaste Statistiek, Week 3 1

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018

gemiddelde politieke interesse van hoger opgeleide mensen)

werkcollege 6 - D&P10: Hypothesis testing using a single sample

Onderzoek. B-cluster BBB-OND2B.2

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling

M M M M M M M M M M M M M M La La La La La La La Mid Mid Mid Mid Mid Mid Mid

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Voorbeeldtentamen Statistiek voor Psychologie

Inhoud. Woord vooraf 13. Hoofdstuk 1. Inductieve statistiek in onderzoek 17. Hoofdstuk 2. Kansverdelingen en kansberekening 28

Nominaal Ordinaal Interval (ratio) Nominaal - Kwalitatief - Laagste niveau - Categorieën niet ordenen - Geslacht

Statistiek Hoorcollege 4

Examen G0N34 Statistiek

Statistiek II. Sessie 5. Feedback Deel 5

Toegepaste Statistiek, Week 6 1

Basishandleiding SPSS

a. Wanneer kan men in plaats van de Pearson correlatie coefficient beter de Spearman rangcorrelatie coefficient berekenen?

toetskeuze schema verschillen in gemiddelden

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Hierbij is het steekproefgemiddelde x_gemiddeld= en de steekproefstandaardafwijking

Hoofdstuk 18. Verbanden tussen variabelen vaststellen en interpreteren

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt

Het gebruik van SPSS voor statistische analyses. Een beknopte handleiding.

Hoofdstuk 3 Statistiek: het toetsen

SPSS 15.0 in praktische stappen voor AGW-bachelors Uitwerkingen Stap 7: Oefenen I

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

Vergelijken van twee groepen (SPSS)

Pagina 0 van 49. Webshop Bol.com. Onderzoeksvaardigheid Hogeschool Inholland Muilwijk, Sammy

Beschrijvende statistiek

Sheets hoorcollege 1 (over paragraaf 7.1) Uitgewerkte opgaven week 6 Antwoorden uitgewerkte opgaven week 6

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 3 februari 2012

Oefenvragen bij Statistics for Business and Economics van Newbold

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009

Bijlage Bijlage 3. Statistische toetsing: werkwijze, toetsen, formules, toepassing

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

Voer de gegevens in in een tabel. Definieer de drie kolommen van de tabel en kies als kolomnamen groep, vooraf en achteraf.

Kansrekening en Statistiek

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 5 februari 2010

werkcollege 7 - D&P10: Hypothesis testing using a single sample

Ene variabele. Nonparametrische toetsen. Kolmogorov-Smirnov. Kolmogorov-Smirnov. Andere variabele. Onderzoekspracticum.

Voorbeeld regressie-analyse

Deel 1: Voorbeeld van beschrijvende analyses in een onderzoeksrapport. Beschrijving van het rookgedrag in Vlaanderen anno 2013

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

College 3 Meervoudige Lineaire Regressie

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

mlw stroom 2.1: Statistisch modelleren

ANOVA in SPSS. Hugo Quené. opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003

χ 2 -toets voor homogeniteit χ 2 -toets voor goodness-of-fit ten slotte

De Bladenbox in 2012 en verder.. Onderzoeksrapport

Betrouwbaarheid, validiteit en overeenstemming

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages.

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN

College 2 Enkelvoudige Lineaire Regressie

Onderzoek in het HBO. Vakkundigheid van medewerkers bij onderzoeksactiviteiten. Paper VFO, november 2008

Tabellen, grafieken en indexcijfers

Twee en een half jaar Kwaliteitsmeting in de Fysiotherapie

Hoofdstuk 8. Toetsende statistiek. 8.1 Associatie van categoriale data: CROSSTABS [dv 32.2]

De data worden ingevoerd in twee variabelen, omdat we te maken hebben met herhaalde metingen:

Hoofdstuk 12: Eenweg ANOVA

Kansrekening en Statistiek

Transcriptie:

10/7/009 De Collegereeks Statistiek Informatiekunde Universiteit Utrecht Dr. H. Prüst Statistiek Hoorcollege 5 Χ toets (37): Descriptieve statistiek (H 1,,3) (HP) 3(38): Score & Kans verdelingen (H 4, 5) (HP) 4(39): Statistische toetsing a.h.v. t toets (H 6) (HP) 5(40): t toets, Homogeniteit & Betrouwbaarheid (H 7, 11) (HP) 6(41): Chi toets (H 9) (HP) 7(4): Variantie analyse (H 8) (HP) 8(43): Correlatie & Predicitie (H 10) (HP) 9(44): Responsiecollege (HP) Deze week Woensdag 7 oktober 13:15 hoorcollege statistiek Woensdag 7 oktober 15:15 uur BBL471 data verzamelen, d.w.z. afnemen van de enquetes: iedereen (verplicht) aanwezig Donderdag 8 oktober 9 11 uur Deeltoets (Educ alfa) Donderdag 8 oktober 11 13 uur hoorcollege methoden (zaal Ruppert Blauw) over survey onderzoek tevens in dit hoorcollege de juiste antwoorden op de MC vragen van de deeltoets Vandaag 0. Recapitulatie 1. Kruistabellen (hfst 4.5). Χ toets (hfst 9) twee typen waarschijnlijkheid voorwaarden voorspellende waarde 3 Toetsingsprocedure in negen stappen 1. Hypotheses formuleren. Uitgangspunten / assumpties 3. Keuze toetstechniek 4. 5. Criterium (bijv. significantieniveau: α.05) Beslissingsregel i l 6. Toetsingsgrootheid berekenen 7. Waarschijnlijkheid bepalen (p waarde berekenen; verwerp nulhypothese of aanvaard deze) 8. Voorspellende waarde bepalen 9. Rapporteren Ad 3. Onderzoeksvraag Frequenties In welke mate zijn Nederlanders gelukkig? Verschil Zijn mannen gelukkiger dan vrouwen? Samenhang/relatie Is er een samenhang tussen geld en geluk? Onderzoeksontwerp binnen proefpersonen tussen proefpersonen Keuze voor een toets Meetniveau variabelen Nominaal: onderscheid Ordinaal: onderscheid, ordening Interval: onderscheid, ordening, gelijke verschillen Ratio: onderscheid, ordening, gelijke verschillen, natuurlijk nulpunt Steekproef grootte Verdeling normaal verdeeld zijn in de populatie 1

10/7/009 drie typen t-toets Waarschijnlijkheid en Voorspellende waarde (statistische )significantie voorspellende waarde (predictive power) t toets bijone sample t toets: betrouwbaarheids interval van μ bij gepaardemetingen: consistentievan i effect (de grens aan waarop meer dan 50% van de proefpersonen in de richting van het effect heeft gescoord) bij onafhankelijke metingen: percentage verklaarde variantie (hoe veel van de verschillen in de scores op de afhankelijke variabele wordt verklaard kan worden door de onafhankelijke variabele) Vier verschillende toetsen T toets Met een t toets ga je na hoe waarschijnijk het is dat twee steekproefgemiddeldes uit dezelfde populatie stammen One Sample, Paired, Independent Chi Met een Chi (Χ )toets ga je na hoe waarschijnlijk het is dat verhoudingsmaten aan bepaalde verwachtingen of voorwaarden voldoen goodness of fit, multidimensioneel ANOVA Met een eenweg variantie analyse ga je na hoe waarschijnlijk het is dat twee of meer steekproefgemiddeldes uit dezelfde populatie afkomstig zijn Correlatie Met een correlatiecoefficient karakteriseer je het verband tussen twee variabelen op interval niveau Variabelen en voorbeelden 1. t toets voor één steekproef met één gemiddelde en een vooraf bepaald gemiddelde (One Sample T Test). t toets voor twee gepaarde metingen (Paired Samples T Test) 3. t toets voor twee onafhankelijke steekproeven, voor het verschil tussen detwee gemiddelden (Independent Samples T Test) Onafhankelijke Afhankelijke T-toets Nominaal Interval of ratio Voorbeeld Hypothese Plaatje Zijn mannen gemiddeld groter dan vrouwen? Χ Nominaal Nominaal Is er samenhang tussen gezinssamenstelling en type internet-aansluiting? H 0:μ 1-μ 0 De geobserveerde waarden wijken niet af van de verwachte waarden X 1 X Partner Kinderen Kinderen Wel Geen Wel Geen 1 78 34 14 Modem Kabel 34 34 78 9 ADSL 56 6 90 6 Χ in de praktijk Is er een significant verschil tussen de werkelijk gevonden aantallen en de aantallen die je zou veronderstellen als er geen samenhang is? Je weet, behalve het totaal, helemaal niks Xbox PlayStation Wii 100 wat zijn dan de verwachte waarden als je ervan uitgaat dat er geen samenhang is?

10/7/009 Je weet, behalve het totaal, helemaal niks Je weet de rijtotalen Xbox 30 PlayStation 30 Wii 40 100 wat zijn dan de verwachte waarden als je ervan uitgaat dat er geen samenhang is? Je weet de rijtotalen Je weet de kolomtotalen Xbox 10 10 10 30 PlayStation 10 10 10 30 Wii 13,3 13,3 13,3 40 Xbox 10 10 10 30 PlayStation 10 10 10 30 Wii 13,3 13,3 13,3 40 Xbox PlayStation Wii 10 30 60 100 wat zijn dan de verwachte waarden als je ervan uitgaat dat er geen samenhang is? Je weet de kolomtotalen Je weet de beide totalen Xbox 10 10 10 30 PlayStation 10 10 10 30 Wii 13,3 13,3 13,3 40 Stel, je weet beide totalen 10 10 10 Xbox 30 Xbox 30 PlayStation 10 10 10 30 PlayStation 30 Wii 13,3 13,3 13,3 40 Wii 40 100 10 30 60 Xbox 3,3 10 0 33,3 PlayStation 3,3 10 0 33,3 Wii 3,3 10 0 33,3 10 30 60 100 Xbox 3,3 10 0 33,3 PlayStation 3,3 10 0 33,3 Wii 3,3 10 0 33,3 10 30 60 100 wat zijn dan de verwachte waarden als je ervan uitgaat dat er geen samenhang is? 3

10/7/009 Je weet de beide totalen Op zoek naar samenhang Stel, je weet beide totalen Xbox 10 10 10 30 Xbox 3 9 18 30 PlayStation 10 10 10 30 PlayStation 3 9 18 30 Wii 13,3 13,3 13,3 40 Wii 4 1 4 40 10 30 60 100 Xbox 3,3 10 0 33,3 PlayStation 3,3 10 0 33,3 Wii 3,3 10 0 33,3 10 30 60 100 Stel, je weet beide totalen Xbox 10 10 10 30 Xbox 3 9 18 30 PlayStation 10 10 10 30 PlayStation 3 9 18 30 Wii 13,3 13,3 13,3 40 Wii 4 1 4 40 10 30 60 100 Werkelijk gevonden waarden Xbox 3,3 10 0 33,3 Xbox 4 10 16 30 PlayStation 3,3 10 0 33,3 PlayStation 4 9 17 30 Wii 3,3 10 0 33,3 Wii 11 7 40 10 30 60 100 10 30 60 100 hoe groot is de kans dat deze verschillen berusten op toeval? Vrijheidsgraden Even tussendoor Nodig om de p waarden te bepalen Je weet een deel van de gevonden waarden Stel, je weet beide totalen Xbox 10 10 10 30 Xbox 3 9 18 30 PlayStation 10 10 10 30 PlayStation 3 9 18 30 Wii 13,3 13,3 13,3 40 Wii 4 1 4 40 10 30 60 100 Werkelijk gevonden waarden Xbox 3,3 10 0 33,3 Xbox 10 16 30 PlayStation 3,3 10 0 33,3 PlayStation 30 Wii 3,3 10 0 33,3 Wii 11 40 10 30 60 100 10 30 60 100 wat zijn dan de overige gevonden waarden? Hoeveel vrijheidsgraden kent deze tabel? Je weet een deel van de gevonden waarden Stel, je weet beide totalen Xbox 10 10 10 30 Xbox 3 9 18 30 PlayStation 10 10 10 30 PlayStation 3 9 18 30 Wii 13,3 13,3 13,3 40 Wii 4 1 4 40 10 30 60 100 Werkelijk gevonden waarden Xbox 3,3 10 0 33,3 Xbox 4 10 16 30 PlayStation 3,3 10 0 33,3 PlayStation 4 9 17 30 Wii 3,3 10 0 33,3 Wii 11 7 40 10 30 60 100 10 30 60 100 Een voorbeeld Type huishoudens en internetverbinding df(r-1)*(c-1)*4 4

10/7/009 Χ toets de basis: frequentietellingen de basis: geobserveerde versus verwachte waarden * Crosstabulation * Crosstabulation analoog Digitaal Digitaal Plus 70 48 90 608 401 105 506 101 448 140 509 1097 6 6 44 11 1181 99 1349 89 analoog Digitaal Digitaal Plus 70 48 90 608 401 105 506 101 448 140 509 1097 6 6 44 11 1181 99 1349 89 * Crosstabulation Kolomtotaal * Rijtotaal 608*1181 VerwachteCelfrequentie 53,8 Totaal 89 (cel linksboven) Expected analoog Digitaal Digitaal Plus 53,8 64,3 89,9 608,0 4,5 107,0 48,6 101,0 458,0 115,9 53,1 1097,0 46,8 11,8 53,4 11,0 1181,0 99,0 1349,0 89,0 Wat reken je uit? Stap 1: Je vergelijkt de geobserveerde celfrequenties met de verwachte celfrequenties wanneer er geen samenhang zou zijn Resultaat: Naarmate er meer en grotere afwijkingen zijn in de situatie waarin er geen samenhang is, is de Χ groter en daarmee kans om H0 te behouden kleiner ( Oi Ei ) Χ E Stap 4: Sommeer de verschillen i Stap : Kwadrateren om positieve en negatieve verschillen weg te werken Stap 3: Delen door de verwachte waarde om te wegen teneinde ervoor te zorgen dat een verschilscore zwaarder meetelt wanneer de verwachte waarde klein is Berekening Χ ( O i i E i ) Geobserveerd Verwacht Oi-Ei (Oi-Ei)^ (Oi-Ei)^/Ei analoog 70 53,8 16, 61,9 1,0 Digitaal 48 64,3-16,3 64,4 4,1 Digitaal Plus 90 89,9 0,1 0,0 0,0 analoog 401 4,5-1,5 461,0 1,11 Digitaal 105 107,0 -,0 3,8 0,0 Digitaal Plus 506 48,6 3,4 549,0 1,1 analoog 448 458,0-10,0 99,1 0, en kinderen Digitaal 140 115,9 4,1 578,7 5,0 Digitaal Plus 509 53,1-14,1 198,8 0,4 analoog 6 46,8 15, 3,4 5,0 met kinderen Digitaal 6 11,8-5,8 34,1,9 Digitaal Plus 44 53,4-9,4 88,5 1,7 89 89,0 0,0,505 N E i SPSS Opdracht SPSS Output Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases Chi-Square Tests Asymp. Sig. Value df (-sided),505 a 6,001,858 6,001 1,30 1,67 89 a. 0 cells (,0%) have expected count less than 5. The minimum expected count is 11,84. Vrijheidsgraden df(rij 1)*(Kolom 1) df (4 1)*(3 1) 3* 6 Opzoeken in Tabel D:,5 0.001 Analyze > Descriptive Statistics > Crosstabs 5

10/7/009 Twee typen Χ -toets Twee typen Χ toets Type 1 [eendimensionele / goodness of fit Χ toets] voor het toetsen van een verwachting Of in een steekproef de scoreverdeling op een bepaalde variabele overeenstemt met een specifieke verwachting Zijn de verschillende typen TV aansluitingen gelijk verdeeld? Type [multidimensionele Χ toets] op te vatten als A. toets voor samenhang van twee variabelen in 1 steekproef Of in een steekproef de scores op twee variabelen met elkaar samenhangen Is er samenhang tussen gezinssamenstelling en type internetaansluiting? B. toets voor verschil tussen steekproeven op 1 variabele Of in twee of meer steekproeven de scoreverdelingen op een variabele verschillen Hebben mannen een ander abonnement dan vrouwen? Type 1: Toetsen van verwachtingen Verwachtingen over een variabele in een distributie. Bijvoorbeeld Type 1: Vbd woonafstand In een steekproef zijn de waarden van de variabele opleidingsniveau lidi i (laag, modaal, hoog) ) verdeeld in de verhouding :3:1 (vwijk 9.1) Verwachting over de verdeling in woonafstand van studenten t.o.v. Utrecht H 0 : de studenten zijn over de waarden van de variabele woonafstand gelijkelijk verdeeld Analyze > Nonparametric Tests > Chi Square Type 1: Vbd woonafstand Type 1: Vbd woonafstand H 0 : de studenten zijn over de waarden van de variabele woonafstand verdeeld in de verhouding 4:1:1 Analyze > Nonparametric Tests > Chi Square 6

10/7/009 Type 1: Vbd woonafstand Type 1: Vbd internet aansluitingen Zijn de verschillende typen aansluitingen gelijk verdeeld? analoog Digitaal Digitaal Plus Observed N Expected N Residual 1181 943,0 38,0 99 943,0-644,0 1349 943,0 406,0 89 Chi-Square a df Asymp. Sig. Test Statistics 674,67,000 a. 0 cells (,0%) have expected frequencies less than 5. The minimum expected cell frequency is 943,0. Type (A.): Toetsen van samenhang tussen twee variabelen Multidimenionele Χ toets,opvatting A: Hangen in één steekproef de scores op twee variabelen samen? Bijvoorbeeld Is er samenhang tussen t lezen van literatuur en het lezen van romantische en spannende boeken? (vwijk 9.) Hangt het hebben van een koopwoning/ flat samen met het bezitten van een auto? Hangt gezinssamenstelling samen met het type internetaansluiting? Type (A.): Vbd samenhang woning- en auto-bezit geld:koopwoning/flat * geld1:auto Crosstabulation geld:koopwoning/flat ja nee geld1:auto ja nee 348 118 466 193 31 505 541 430 971 Is er samenhang tussen het bezitten van een woning en autobezit? Is dit verschil significant? Analyze > Descriptive Statistics > Crosstabs Type (A.): Vbd samenhang woning- en auto-bezit geld:koopwoning/flat * geld1:auto Crosstabulation Type (A.): Vbd samenhang gezinssamenstelling en type aansluiting geld1:auto * Crosstabulation geld:koopwoning/fl ja nee Expected Coun Expected Coun Expected Coun ja nee 348 118 466 59.6 06.4 466.0 193 31 505 81.4 3.6 505.0 541 430 971 541.0 430.0 971.0 analoog Digitaal Digitaal Plus 70 48 90 608 401 105 506 101 448 140 509 1097 6 6 44 11 1181 99 1349 89 Is er samenhang tussen gezinssamenstelling en type internet aansluiting? Chi-Square Tests Asymp. Sig. Value df (-sided) Pearson Chi-Square,505 a 6,001 Likelihood Ratio,858 6,001 Linear-by-Linear 1,30 1,67 Association N of Valid Cases 89 a. 0 cells (,0%) have expected count less than 5. The minimum expected count is 11,84. 7

10/7/009 Type (B.): Toetsen van verschillen op één variabele Multidimensionele Χ toets,opvatting B: Verschillen in twee of meer steekproeven de scoreverdelingen op één variabele? Bijvoorbeeld Is er verschil tussen mannen en vrouwen w.b. het lezen van literaire i boeken? (vwijk 9.) Type (B.): Vbd verschil man/vrouw m.b.t. opleiding Is er verschil tussen mannen en vrouwen wat betreft (het niveau van) de opleiding die zij genoten hebben? Is er verschil tussen bachelor en master studenten m.b.t. thuis of uit wonend zijn? Type (B.): Vbd verschil m/v m.b.t. abonnement Hebben Hbb mannen een ander abonnement dan vrouwen? Case Processing Summary Cases Valid Missing N Percent N Percent N Percent Geslacht * Digitaal 89 100,0% 0,0% 89 100,0% versus analoog Geslacht * analoog Crosstabulation analoog Analoog Digitaal Geslacht Man 819 1347 166 Expected 904, 161,8 166,0 % within Geslacht 37,8% 6,% 100,0% Vrouw 36 301 663 Expected 76,8 386, 663,0 % within Geslacht 54,6% 45,4% 100,0% 1181 1648 89 Expected 1181,0 1648,0 89,0 % within Geslacht 41,7% 58,3% 100,0% Chi-Square Tests Asymp. Sig. Exact Sig. Exact Sig. Value df (-sided) (-sided) (1-sided) Pearson Chi-Square 58,834 b 1,000 Continuity Correction a 58,146 1,000 Likelihood Ratio 58,191 1,000 Fisher's Exact Test,000,000 Linear-by-Linear 58,813 1,000 Association N of Valid Cases 89 a. Computed only for a x table b. 0 cells (,0%) have expected count less than 5. The minimum expected count is 76,78. Voorwaarden voor de Χ toets Voorwaarden voor een Χ toets Verwachte celfrequenties voldoende groot De steekproefelementen zijn onafhankelijk van elkaar en willekeurig getrokken Iedere observatie kan in precies één cel van de tabel worden geklassificeerd De verwachte celfrequenties zijn voldoende groot, d.w.z. minder dan 0% van de cellen heeft E i < 5 geen enkele cel heeft E i < 1 Norm voor het mogen toepassen van Χ toets Minder dan 0% van de cellen heeft een verwachte waarde van 5 of minder Geen enkele cel heeft een verwachte waarde van minder dan 1 Expected * Crosstabulation analoog Digitaal Digitaal Plus 70 48 90 608 * Crosstabulation 401 105 506 101 448 140 509 1097 6 6 44 11 1181 99 1349 89 analoog Digitaal Digitaal Plus 53,8 64,3 89,9 608,0 4,5 107,0 48,6 101,0 458,0 115,9 53,1 1097,0 46,8 11,8 53,4 11,0 1181,0 99,0 1349,0 89,0 8

10/7/009 Oplossingen voor lege cellen Fisher Exact Test Cellen samenvoegen Zorg wel voor logische samenvoegingen! Sterkte van de samenhang * Crosstabulation analoog Digitaal Digitaal Plus 70 48 90 608 401 105 506 101 448 140 509 1097 6 6 44 11 1181 99 1349 89 Phi, Cramer s V, lambda Voorspellende waarde van een twee weg classificatie Χ zelf is niet direct te gebruiken als maat om sterkte te meten want Χ is afhankelijk van steekproefomvang aantal rijen en kolommen daarom standaardiseren Phi maakt de vergelijking mogelijk tussen steekproeven die verschillen van omvang maar niet naar indeling van de kruistabel daarom Cramers V tussen 0 en 1 en Onafhankelijk van steekproefgrootte en vorm van de kruistabel Cramers' V Phi Phi L 1 Χ N Χ N( L 1) L is de kleinste waarde van R, het aantal rijen, en C, het aantal kolommen Berekening en SPSS Phi Χ 58,834 N 89 0,01 0,144 Cramers' V CramersV ' Phi L 1 Χ N( L 1) 0,144 0,01 0,144 1 Nominal by Nominal N of Valid Cases Geslacht * analoog Crosstabulation Phi Χ Cramers' V L 1 N( L 1) analoog Analoog Digitaal Geslacht Man 819 1347 166 Vrouw Symmetric Measures Phi Cramer's V 36 301 663 1181 1648 89 Value Approx. Sig. -,144,000,144,000 89 a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. Lambda maar Cramers V kun je alleen interpreteren op ordinaal meetniveau Daarom Lambda Principe Hoeveel beter kun je de waarde op variabele Y voorspellen als je de score op variabele X weet? en omgekeerd? In formule Somvan de grootstecelwaardes per kolom Grootste rijtotaal λc R Totaal aantal Grootste rijtotaal 819 + 1347 166 Geslacht * analoog Crosstabulation λ C R 89 166 Geslacht Man Vrouw analoog Analoog Digitaal 819 1347 166 36 301 663 1181 1648 89 0 663 0 Conclusie: kennis over abonnement zegt niets over geslacht Lambda andersom Somvan de grootstecelwaardes per rij λ R C λ R C 1347 + 36 1648 89 1648 61 0.05 1181 Conclusie: kennis over geslacht zegt wel iets over abonnement; op basis van kennis van geslacht kun je 5.% betere voorspelling doen over het soort abonnement dan zonder deze kennis Nominal by Nominal a. b. c. Lambda Totaal aantal Symmetric Geslacht Dependent analoog Dependent Goodman and Geslacht Dependent Kruskal tau analoog Dependent Not assuming the null hypothesis. Grootste kolomtotaal Grootste kolomtotaal Geslacht * analoog Crosstabulation Geslacht Man Directional Measures Vrouw Using the asymptotic standard error assuming the null hypothesis. Cannot be computed because the asymptotic standard error equals zero. analoog Analoog Digitaal 819 1347 166 36 301 663 1181 1648 89 Asymp. Value Std. Error a Approx. T b Approx. Sig.,033,014,371,018,000,000. c. c,05,01,371,018,01,005,000 d,01,005,000 d 9

10/7/009 Lambda en symmetrisch ( Somvan de grootstecelwaardes per rij) + ( Som vande grootstecelwaardes per kolom) ( Grootste kolomtotaal + Grootste rijtotaal) λsym Totaal aantal ( Grootste kolomtotaal + Grootste rijtotaal) (1347 + 36) + (819 + 1347) (1648 + 166) λ sym (*89) 89) (1648 + 166) 1709 + 166 3814 61 0,033 5658 3814 1844 Geslacht * analoog Crosstabulation analoog Analoog Digitaal Geslacht Man 819 1347 166 Vrouw 36 301 663 1181 1648 89 Categorisering g Directional Measures Asymp. Value Std. Error a Approx. T b Approx. Sig. Nominal by Lambda Symmetric,033,014,371,018 Nominal Geslacht Dependent,000,000. c. c,05,01,371,018 analoog Dependent Goodman and Geslacht Dependent,01,005,000 d Kruskal tau,01,005,000 d analoog Dependent a. Not assuming the null hypothesis. b Using the asymptotic standard error assuming the null hypothesis Verschil tussen scholen? Examenkandidaten verborgen variabele Examenkandidaten Autochtoon Allochtoon aantal gezakt aantal gezakt aantal gezakt aantal gezakt Openbare school 100 1 (1%) Openbare school 100 1 (1%) 60 3 (5%) 40 9 (3%) Christelijke school 100 9 (9%) Christelijke school 100 9 (9%) 90 6 (7%) 10 3 (30%) School (type) slagingspercentage School (type) etniciteit slagingspercentage te grove categorisering Zijn jongens crimineler? Nou, N Veroordeling winkeldiefstal Meisjes 100 N Veroordeling winkeldiefstal Aangegeven Betrapt Gepleegd Meisjes 100 8 16 48 Jongens 100 4 Jongens 100 4 8 1 36 Sexe jongens zijn crimineler Frequentie boetes voor winkeldiefstal Sexe Vermogen boetes te voorkomen meisjes zijn crimineler Frequentie boetes voor winkeldiefstal te grove korte keten 10

10/7/009 Samenvattend Toetskeuze wordt m.n. bepaald door soort onderzoeksvraag, onderzoeksontwerp, meetniveau van de variabelen, grootte van de steekproef, aannames over de verdeling in de populatie Χ wordt gebruikt bij nominale variabelen basis: geobserveerde en verwachte waarden twee typen Χ toetsen: 1. bij één meting een verwachting toetsen. bij één meting samenhang toetsenof bij meer metingen verschil tussen groepen toetsen voorwaarden voor Χ toets voorspellende waarde Phi, Cramers V en Lambda De Collegereeks Statistiek (37): Descriptieve statistiek (H 1,,3) (HP) 3(38): Score & Kans verdelingen (H 4, 5) (HP) 4(39): Statistische toetsing a.h.v. t toets (H 6) (HP) 5(40): t toets, Homogeniteit & Betrouwbaarheid (H 7, 11) (HP) 6(41): Chi toets (H 9) (HP) 7(4): Variantie analyse (H 8) (HP) 8(43): Correlatie & Predicitie (H 10) (HP) 9(44): Responsiecollege (HP) 6 11