College Week 4 Inspecteren van Data: Verdelingen Inleiding in de Methoden & Technieken 2013 2014 Hemmo Smit
Dus volgende week Geen college en werkgroepen Maar Oefententamen on-line (BB) Data invoeren voor eigen onderzoek SPSS-vaardigheden oefenen met eigen data
Overzicht van dit college Beschrijvend onderzoek Beschrijven en presenteren van data Frequentieverdelingen Grafische weergaven (1) Maten voor centrale tendentie en spreiding Grafische weergaven (2): Boxplots Hiervoor lezen: Leary: Hoofdstuk 6 Howell: Hoofdstuk 2
Soorten beschrijvend onderzoek Survey Demografisch onderzoek Epidemiologisch onderzoek Meningen, gedachten, gevoelens Patronen van basic life events : geboorte, huwelijk, sterfte, scheiding, werk, migratie. Aanwezigheid van ziekten en psychische aandoeningen bij bevolking(sgroepen)
3 Soorten surveys Cross-sectioneel Opeenvolgende onafhankelijke steekproeven Longitudinaal (panel survey) Éénmalig doorsnede van de populatie Veranderingen bestuderen! Zijn steekproeven goed vergelijkbaar? Veranderingen bestuderen Steeds dezelfde respondenten! Problemen met uitval
Beschrijven en presenteren van data 3 criteria voor goede beschrijving: 1) accuraat Spanningsveld 2) beknopt 3) Begrijpelijk - Altijd informatieverlies - mogelijk vertekening Samenvatting van gegevens kan numeriek en/of grafisch TIP: Maak altijd eerst een grafische weergave Let op het meetniveau!
( y y) ) Hoe beschrijven we een verdeling? A) Algehele patroon 1) Vorm - aantal pieken (uni-, bi- of multi-modaal)? - symmetrisch of scheef? 2) Centrale tendentie / locatie: middelpunt 3) Spreiding: veel / weinig? B) Opvallende afwijkingen van het geheel - Uitbijters (outliers), waarnemingen die ver weg liggen van de meerderheid van de waarnemingen - Staarten (tails): extra dik of dun?
Frequentieverdelingen: Voorbeeld Hoe vertellen kinderen verhalen? Respondenten: 25 kinderen Taak: Vertel verhaal van een film na Afhankelijke variabele: aantal en toen uitspraken (zie Howell, Exercise 2.1, p.55)
Ruwe data en frequentieverdeling Table 1. # and then statements 18 17 16 18 15 15 18 16 20 18 22 20 17 21 17 19 17 21 20 19 18 12 23 20 20 Table 2. # and then statements Score f P 12 1 0.04 15 2 0.08 16 2 0.08 17 4 0.16 18 5 0.20 19 2 0.08 20 5 0.20 21 2 0.08 22 1 0.04 23 1 0.04 Total 25 1.00
Absolute en relatieve frequenties Absolute frequenties (f) = Aantal proefpersonen met een bepaalde score Nadeel: slecht vergelijkbaar / interpreteerbaar Relatieve frequenties (P) = Proportie van totaal met een bepaalde score (P = f / n) Voordeel: direct interpreteerbaar Hierbij geldt: 0 < P < 1 P x 100 = %
Frequentieverdeling: gegroepeerde tabel (1) Simpele frequentieverdelingen onoverzichtelijk bij: - klein aantal proefpersonen per categorie en/of - variabelen met veel waarden (categorieën). Oplossing: gegroepeerde tabel Verdeel de ruwe data in K gelijke intervallen en maak daarmee een (nieuwe) frequentieverdeling Zorg ervoor dat de intervallen - uitputtend en wederzijds uitsluitend zijn - allemaal even breed zijn
Frequentieverdeling: gegroepeerde tabel (2) Vuistregel 1: aantal intervallen (K) = n Vuistregel 2: intervalbreedte (I) = range/aantal intervallen (Range (R) = verschil hoogste en laagste score) In dit voorbeeld Aantal intervallen = 25 = 5 Range = 23-12 = 11 Intervalbreedte = 11 / 5 2 of 3 Score f P 12-14 1.04 15-17 8.32 18-20 12.48 21-23 4.16 totaal 25 1.000
SPSS: Gegroepeerde tabel maken (1)
SPSS: Gegroepeerde tabel maken (2) 1 2
SPSS: Gegroepeerde tabel maken (3) 2 1 3
SPSS: Gegroepeerde tabel maken (4) 1 2
SPSS: Gegroepeerde tabel maken (4)
Cumulatieve frequentieverdeling (1) Klasse interval Echte ondergrens Echte bovengrens 12-14 11.5 14.5 13 15-17 14.5 17.5 16 18-20 17.5 20.5 19 21-23 20.5 23.5 22 Total Echte ondergrens = ondergrens 0.5 Echte bovengrens = bovengrens + 0.5 Midden = bovengrens + ondergrens / 2 Midden f P F
Cumulatieve frequentieverdeling (2) Klasse interval Echte ondergrens Echte bovengrens Midden f P F 12-14 11.5 14.5 13 1 0.04 15-17 14.5 17.5 16 8 0.32 18-20 17.5 20.5 19 12 0.48 21-23 20.5 23.5 22 4 0.16 Total 25 1.00 F = Cumulatieve Relatieve Frequentie (CRF): tel alle voorgaande proporties op.
Cumulatieve frequentieverdeling (3) Klasse interval Echte ondergrens Echte bovengrens Midden f P F 12-14 11.5 14.5 13 1 0.04 0.04 15-17 14.5 17.5 16 8 0.32 0.36 18-20 17.5 20.5 19 12 0.48 0.84 21-23 20.5 23.5 22 4 0.16 1.00 Total 25 1.00 NB. Ook mogelijk: cumulatieve absolute frequentie
( y y) ) F Cumulatieve frequentieverdeling (4) 1.0 0.8 0.6 0.4 0.2 0.0 2.0 3.0 4.0 5.0 score Het cumulatieve relatieve frequentiediagram (polygoon) geeft de kans dat iemand een score van x heeft of lager. 6.0 7.0 8.0 9.0
SPSS: Frequencies - Menu Analyze > Desciptive Statistics > Frequencies
SPSS: Frequencies Dialog box
SPSS: Frequencies - Output
Count Count Grafische weergave: Nominaal / Ordinaal Ruwe data Gegroepeerd Bar 4 6 3 4 2 1 2 0 2 3 4 5 6 score 7 8 9 0 2-3 4-5 score 6-7 8-9 Pie 9 2 3 8-9 2-3 8 4 7 6-7 4-5 6 5
Grafische weergave: Interval Histogram Stem & Leaf plot Freq. Stem & Leaf 1,00 Extremes (=<12,0) 2,00 15. 00 2,00 16. 00 4,00 17. 0000 5,00 18. 00000 2,00 19. 00 5,00 20. 00000 2,00 21. 00 1,00 22. 0 1,00 23. 0 Stem width: 1 Each leaf: 1 case(s)
Histogram symmetrisch of scheef? Symmetrisch Scheef naar links Scheef naar rechts
SPSS: Graphs Charts Builder / Legacy Dialogs
SPSS: Graphs > Legacy Dialogs
SPSS - Graphs > Chart builder 3 1 2
Maten voor centrale tendentie 1. Modus (Mo) = meest voorkomende score 2. Mediaan (Mdn) = middelste score (50 ste percentiel) Locatie mediaan 1 N 2 3. Gemiddelde (M) = rekenkundig gemiddelde x x 1 x 2... n x n or x 1 n x i
s2 sxx Centrale tendentie en Scheefheid Vorm Modus Mediaan Gemiddeldde rechts scheef symmetrisch links scheef A B C A A A C B A
Maten van spreiding 1. Range (R) = Hoogste score Laagste score 2. Interquartile range (IQR) = Q3 Q1 3. Standaard deviatie (s of σ) = spreiding rond gemiddeld 4. Variantie (s² of σ²) = spreiding rond gemiddelde
Variantie en standaarddeviatie Score Afwijking Kwadraat x 1 x 2 x 3 x x 1 x n i x x 2 x x 3 x n x ( x1 x) ( x2 x) ( x x Som x 0 0 2 2 2 3 ) 2 ( x n x) Standaarddeviatie s Variantie s x 2 x ( ) xi x n 1 ( xi x) n 1 2 2 De standaarddeviatie en de variantie zijn: alleen geschikt voor spreiding rond gemiddelde niet robuust tegen uitbijters (outliers)
Five-number summary en Boxplot Five-number summary bestaat uit: Minimum = Laagste score (die geen outlier is) Q1 = 25 ste percentiel (25% lager, 75% hoger) Mediaan (=Q2) = 50 ste percentiel Q3 = 75 ste percentiel Maximum = Hoogste score (die geen outlier is) Grafische weergave: Boxplot
Voorbeeld - Boxplot Data: 3 13 17 19 22 24 25 28 35 39 44 45 83 86 93 Nummeriek (five-number summary) Grafisch (boxplot) Max = 93 Q3 = 45 M = 28 Q1 = 19 Vuistregel Uitbijter = observatie die 1.5 x IQR boven Q3 of onder Q1 ligt. Min = 3 IQR = 45 19 = 26 Q1 1.5*IQR = -20 Q3 + 1.5*IQR = 84
Overzicht Meetniveau Grafiek CT Spreiding Nominaal Staafdiagram Taartdiagram Modus --- Ordinaal Boxplot Mediaan Range IQR Interval (en hoger) Histogram (Stem&Leaf plot) Gemiddelde Standaard dev. Variantie
Wat heb je vandaag geleerd? Wat zijn de verschillende manieren om verdelingen numeriek weer te geven? Wat zijn de verschillende manieren om verdelingen grafisch weer te geven? Hoe beschrijf je een verdeling? Hoe maak en beoordeel je verschillende grafische en numerieke weergaven van verdelingen? Hoe kies je de geschikte grafische en numerieke weergave voor een variabele?
Volgende week Geen college en werkgroepen Oefententamen op Blackboard Over twee weken Normaalverdeling en standaardscores Hiervoor lezen: Howell: Chapter 3