College Week 4 Inspecteren van Data: Verdelingen

Vergelijkbare documenten
College 4 Inspecteren van Data: Verdelingen

Oplossingen hoofdstuk 4

College 3 Interne consistentie; Beschrijvend onderzoek

Hoofdstuk 2 : Grafische beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Hoofdstuk 4. Beschrijvende statistiek. 4.1 Beschrijvende statistiek voor één variabele

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor

SPSS 15.0 in praktische stappen voor AGW-bachelors Uitwerkingen Stap 7: Oefenen I

Data analyse Inleiding statistiek

Onderzoeksmethodiek LE: 2

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Onderzoek. B-cluster BBB-OND2B.2

Eerst wordt ingegaan op de verschillende soorten data die we kunnen verzamelen en hoe datasets georganiseerd zijn.

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

SPSS. Statistiek : SPSS

Statistiek. Beschrijvende Statistiek Hoofdstuk 1 1.1, 1.2, 1.5, 1.6 lezen 1.3, 1.4 Les 1 Hoofdstuk 2 2.1, 2.3, 2.5 Les 2

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

Steelbladdiagram In een steelbladdiagram staan alle leerlingen genoemd. Je kunt precies zien waar Wouter staat.

Onderzoeksmethoden: Statistiek 1

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

Grafieken Cirkeldiagram

Statistiek I Samenvatting. Prof. dr. Carette

Inleiding Applicatie Software - Statgraphics

Oplossingen hoofdstuk 8

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

D) Alle drie de variabelen kunnen zowel afhankelijke als onafhankelijke variabelen zijn.

2 Data en datasets verwerken

Oefenvragen bij Statistics for Business and Economics van Newbold

De Collegereeks Statistiek. statistiek. Statistiek in het dagelijkse nieuws. Statistiek Hoorcollege 1. Descriptieve statistiek ttitik

TIP 10: ANALYSE VAN DE CIJFERS

aten voor het centrum, de spreiding en de vorm van een frequentieverdeling

Paragraaf 5.1 : Frequentieverdelingen

Statistiek voor A.I. College 1. Dinsdag 11 September 2012

College 6. Samenhang tussen variabelen. Inleiding M&T Hemmo Smit

Samenvatting Wiskunde Samenvatting en stappenplan van hfst. 7 en 8

Overzicht statistiek 5N4p

Hoofdstuk I De statistiek in het onderzoek Doelstellingen: Statistiek Beschrijvende statistiek Inductieve statistiek

Inleiding tot de meettheorie

Statistiek: Herhaling en aanvulling

Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek. Output gegevens. Kansrekening en statistiek in de informatica

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf

4 Domein STATISTIEK - versie 1.2

In de praktijk gaat men eerder werken met numerieke codes. Aan de hand van een codeboek wordt per variabele een nummer aan een waarde toegekend.

A. Week 1: Introductie in de statistiek.

Examen Statistiek I Feedback

Statistiek. Statistiek. 1 Wat is statistiek en opstart PASW

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

2 Data en datasets verwerken

Voorbeeldtentamen Statistiek voor Psychologie

Samenvattingen 5HAVO Wiskunde A.

Beschrijvende statistieken

College Week 3 Kwaliteit meetinstrumenten; Inleiding SPSS

Technische uitwerkingen voor het SPSS practicum Inleiding M&T.

Correlatie = statistische samenhang Meest gebruikt = Spearman s rang correlatie Ordinaal geschaalde variabelen -1 <= r s <= +1 waarbij:

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

2.3 Frequentieverdelingen typeren

Statistiek basisbegrippen

Kansrekening en Statistiek

b. Maak een histogram van de verdeling van het groeiseizoen. Kies eerst klassen en maak een geschikte frequentietabel.

DEEL II DOEN! - Praktische opdracht statistiek WA- 4HAVO

Les 1 Kwaliteitsbeheersing. Les 2 Kwaliteitsgegevens. Les 3 Introductie Statistiek. Les 4 Normale verdeling. Kwaliteit

feb 2013 Instituut CMI SPSS les 2

STATISTIEK I Samenvatting

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

werkcollege 6 - D&P9: Estimation Using a Single Sample

2 Data en datasets verwerken

Enkelvoudige lineaire regressie

Toegepaste Biostatistiek CAST oefeningen 1

S1 STATISTIEK. Tabellen & diagrammen Centrummaten & Spreiding

2.4 Twee groepen vergelijken

Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling

uitwerkingen voorbeeldexamenopgaven statistiek wiskunde A havo

College 1: Introductie van onderzoek

Havo A deel 1 H2 Statistiek - Samenvatting

Vendorrating: statistische presentatiemiddelen

Cursus Inleidende Statistiek

GEGEVENS154LEERLINGEN

introductie populatie- steekproef- steekproevenverdeling pauze parameters aannames ten slotte

SPSS Opstarten & gegevens inlezen Gegevens verkennen Beschrijvende statistiek

Vraag 1. Welke uitspraak is juist voor de variabele geslacht? Vraag 2. Welke uitspraak is juist voor de variabele fosfaatgehalte?

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Fasen in het onderzoeksproces

Bijlage Figuren en formules voor de stof van Professionele Ontwikkeling en Wetenschap, 13-14

DEEL 1 Probleemstelling 1

Deel I : beschrijvende statistiek

Statistiek. Beschrijvend statistiek

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Y = ax + b, hiervan is a de richtingscoëfficiënt (1 naar rechts en a omhoog), en b is het snijpunt met de y-as (0,b)

Statistiek, gegevens en een kritische houding

8.1 Centrum- en spreidingsmaten [1]

Statistiek II. Sessie 1. Verzamelde vragen en feedback Deel 1

d. Maak een spreidingsdiagram van de gegevens. Plaats de x-waarden op de x-as en de z-waarden op de y-as.

Gemiddelde, mediaan, kwartielen, interkwartielafstand, minimum, maximum, variantie, standaardafwijking, boxdiagrammen

Statistiek met Excel. Schoolexamen en Uitbreidingsopdrachten. Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14

Technologie: TI-Nspire CX CAS Niveau: beginner

gemiddelde politieke interesse van hoger opgeleide mensen)

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren:

Formules Excel Bedrijfsstatistiek

Transcriptie:

College Week 4 Inspecteren van Data: Verdelingen Inleiding in de Methoden & Technieken 2013 2014 Hemmo Smit

Dus volgende week Geen college en werkgroepen Maar Oefententamen on-line (BB) Data invoeren voor eigen onderzoek SPSS-vaardigheden oefenen met eigen data

Overzicht van dit college Beschrijvend onderzoek Beschrijven en presenteren van data Frequentieverdelingen Grafische weergaven (1) Maten voor centrale tendentie en spreiding Grafische weergaven (2): Boxplots Hiervoor lezen: Leary: Hoofdstuk 6 Howell: Hoofdstuk 2

Soorten beschrijvend onderzoek Survey Demografisch onderzoek Epidemiologisch onderzoek Meningen, gedachten, gevoelens Patronen van basic life events : geboorte, huwelijk, sterfte, scheiding, werk, migratie. Aanwezigheid van ziekten en psychische aandoeningen bij bevolking(sgroepen)

3 Soorten surveys Cross-sectioneel Opeenvolgende onafhankelijke steekproeven Longitudinaal (panel survey) Éénmalig doorsnede van de populatie Veranderingen bestuderen! Zijn steekproeven goed vergelijkbaar? Veranderingen bestuderen Steeds dezelfde respondenten! Problemen met uitval

Beschrijven en presenteren van data 3 criteria voor goede beschrijving: 1) accuraat Spanningsveld 2) beknopt 3) Begrijpelijk - Altijd informatieverlies - mogelijk vertekening Samenvatting van gegevens kan numeriek en/of grafisch TIP: Maak altijd eerst een grafische weergave Let op het meetniveau!

( y y) ) Hoe beschrijven we een verdeling? A) Algehele patroon 1) Vorm - aantal pieken (uni-, bi- of multi-modaal)? - symmetrisch of scheef? 2) Centrale tendentie / locatie: middelpunt 3) Spreiding: veel / weinig? B) Opvallende afwijkingen van het geheel - Uitbijters (outliers), waarnemingen die ver weg liggen van de meerderheid van de waarnemingen - Staarten (tails): extra dik of dun?

Frequentieverdelingen: Voorbeeld Hoe vertellen kinderen verhalen? Respondenten: 25 kinderen Taak: Vertel verhaal van een film na Afhankelijke variabele: aantal en toen uitspraken (zie Howell, Exercise 2.1, p.55)

Ruwe data en frequentieverdeling Table 1. # and then statements 18 17 16 18 15 15 18 16 20 18 22 20 17 21 17 19 17 21 20 19 18 12 23 20 20 Table 2. # and then statements Score f P 12 1 0.04 15 2 0.08 16 2 0.08 17 4 0.16 18 5 0.20 19 2 0.08 20 5 0.20 21 2 0.08 22 1 0.04 23 1 0.04 Total 25 1.00

Absolute en relatieve frequenties Absolute frequenties (f) = Aantal proefpersonen met een bepaalde score Nadeel: slecht vergelijkbaar / interpreteerbaar Relatieve frequenties (P) = Proportie van totaal met een bepaalde score (P = f / n) Voordeel: direct interpreteerbaar Hierbij geldt: 0 < P < 1 P x 100 = %

Frequentieverdeling: gegroepeerde tabel (1) Simpele frequentieverdelingen onoverzichtelijk bij: - klein aantal proefpersonen per categorie en/of - variabelen met veel waarden (categorieën). Oplossing: gegroepeerde tabel Verdeel de ruwe data in K gelijke intervallen en maak daarmee een (nieuwe) frequentieverdeling Zorg ervoor dat de intervallen - uitputtend en wederzijds uitsluitend zijn - allemaal even breed zijn

Frequentieverdeling: gegroepeerde tabel (2) Vuistregel 1: aantal intervallen (K) = n Vuistregel 2: intervalbreedte (I) = range/aantal intervallen (Range (R) = verschil hoogste en laagste score) In dit voorbeeld Aantal intervallen = 25 = 5 Range = 23-12 = 11 Intervalbreedte = 11 / 5 2 of 3 Score f P 12-14 1.04 15-17 8.32 18-20 12.48 21-23 4.16 totaal 25 1.000

SPSS: Gegroepeerde tabel maken (1)

SPSS: Gegroepeerde tabel maken (2) 1 2

SPSS: Gegroepeerde tabel maken (3) 2 1 3

SPSS: Gegroepeerde tabel maken (4) 1 2

SPSS: Gegroepeerde tabel maken (4)

Cumulatieve frequentieverdeling (1) Klasse interval Echte ondergrens Echte bovengrens 12-14 11.5 14.5 13 15-17 14.5 17.5 16 18-20 17.5 20.5 19 21-23 20.5 23.5 22 Total Echte ondergrens = ondergrens 0.5 Echte bovengrens = bovengrens + 0.5 Midden = bovengrens + ondergrens / 2 Midden f P F

Cumulatieve frequentieverdeling (2) Klasse interval Echte ondergrens Echte bovengrens Midden f P F 12-14 11.5 14.5 13 1 0.04 15-17 14.5 17.5 16 8 0.32 18-20 17.5 20.5 19 12 0.48 21-23 20.5 23.5 22 4 0.16 Total 25 1.00 F = Cumulatieve Relatieve Frequentie (CRF): tel alle voorgaande proporties op.

Cumulatieve frequentieverdeling (3) Klasse interval Echte ondergrens Echte bovengrens Midden f P F 12-14 11.5 14.5 13 1 0.04 0.04 15-17 14.5 17.5 16 8 0.32 0.36 18-20 17.5 20.5 19 12 0.48 0.84 21-23 20.5 23.5 22 4 0.16 1.00 Total 25 1.00 NB. Ook mogelijk: cumulatieve absolute frequentie

( y y) ) F Cumulatieve frequentieverdeling (4) 1.0 0.8 0.6 0.4 0.2 0.0 2.0 3.0 4.0 5.0 score Het cumulatieve relatieve frequentiediagram (polygoon) geeft de kans dat iemand een score van x heeft of lager. 6.0 7.0 8.0 9.0

SPSS: Frequencies - Menu Analyze > Desciptive Statistics > Frequencies

SPSS: Frequencies Dialog box

SPSS: Frequencies - Output

Count Count Grafische weergave: Nominaal / Ordinaal Ruwe data Gegroepeerd Bar 4 6 3 4 2 1 2 0 2 3 4 5 6 score 7 8 9 0 2-3 4-5 score 6-7 8-9 Pie 9 2 3 8-9 2-3 8 4 7 6-7 4-5 6 5

Grafische weergave: Interval Histogram Stem & Leaf plot Freq. Stem & Leaf 1,00 Extremes (=<12,0) 2,00 15. 00 2,00 16. 00 4,00 17. 0000 5,00 18. 00000 2,00 19. 00 5,00 20. 00000 2,00 21. 00 1,00 22. 0 1,00 23. 0 Stem width: 1 Each leaf: 1 case(s)

Histogram symmetrisch of scheef? Symmetrisch Scheef naar links Scheef naar rechts

SPSS: Graphs Charts Builder / Legacy Dialogs

SPSS: Graphs > Legacy Dialogs

SPSS - Graphs > Chart builder 3 1 2

Maten voor centrale tendentie 1. Modus (Mo) = meest voorkomende score 2. Mediaan (Mdn) = middelste score (50 ste percentiel) Locatie mediaan 1 N 2 3. Gemiddelde (M) = rekenkundig gemiddelde x x 1 x 2... n x n or x 1 n x i

s2 sxx Centrale tendentie en Scheefheid Vorm Modus Mediaan Gemiddeldde rechts scheef symmetrisch links scheef A B C A A A C B A

Maten van spreiding 1. Range (R) = Hoogste score Laagste score 2. Interquartile range (IQR) = Q3 Q1 3. Standaard deviatie (s of σ) = spreiding rond gemiddeld 4. Variantie (s² of σ²) = spreiding rond gemiddelde

Variantie en standaarddeviatie Score Afwijking Kwadraat x 1 x 2 x 3 x x 1 x n i x x 2 x x 3 x n x ( x1 x) ( x2 x) ( x x Som x 0 0 2 2 2 3 ) 2 ( x n x) Standaarddeviatie s Variantie s x 2 x ( ) xi x n 1 ( xi x) n 1 2 2 De standaarddeviatie en de variantie zijn: alleen geschikt voor spreiding rond gemiddelde niet robuust tegen uitbijters (outliers)

Five-number summary en Boxplot Five-number summary bestaat uit: Minimum = Laagste score (die geen outlier is) Q1 = 25 ste percentiel (25% lager, 75% hoger) Mediaan (=Q2) = 50 ste percentiel Q3 = 75 ste percentiel Maximum = Hoogste score (die geen outlier is) Grafische weergave: Boxplot

Voorbeeld - Boxplot Data: 3 13 17 19 22 24 25 28 35 39 44 45 83 86 93 Nummeriek (five-number summary) Grafisch (boxplot) Max = 93 Q3 = 45 M = 28 Q1 = 19 Vuistregel Uitbijter = observatie die 1.5 x IQR boven Q3 of onder Q1 ligt. Min = 3 IQR = 45 19 = 26 Q1 1.5*IQR = -20 Q3 + 1.5*IQR = 84

Overzicht Meetniveau Grafiek CT Spreiding Nominaal Staafdiagram Taartdiagram Modus --- Ordinaal Boxplot Mediaan Range IQR Interval (en hoger) Histogram (Stem&Leaf plot) Gemiddelde Standaard dev. Variantie

Wat heb je vandaag geleerd? Wat zijn de verschillende manieren om verdelingen numeriek weer te geven? Wat zijn de verschillende manieren om verdelingen grafisch weer te geven? Hoe beschrijf je een verdeling? Hoe maak en beoordeel je verschillende grafische en numerieke weergaven van verdelingen? Hoe kies je de geschikte grafische en numerieke weergave voor een variabele?

Volgende week Geen college en werkgroepen Oefententamen op Blackboard Over twee weken Normaalverdeling en standaardscores Hiervoor lezen: Howell: Chapter 3