Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek. Output gegevens. Kansrekening en statistiek in de informatica

Vergelijkbare documenten
Onderzoeksmethoden: Statistiek 1

De Collegereeks Statistiek. statistiek. Statistiek in het dagelijkse nieuws. Statistiek Hoorcollege 1. Descriptieve statistiek ttitik

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

College 4 Inspecteren van Data: Verdelingen

College Week 4 Inspecteren van Data: Verdelingen

Data analyse Inleiding statistiek

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

Onderzoeksmethodiek LE: 2

Statistiek I Samenvatting. Prof. dr. Carette

Onderzoek. B-cluster BBB-OND2B.2

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018

Statistiek voor A.I. College 1. Dinsdag 11 September 2012

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf

Oefenvragen bij Statistics for Business and Economics van Newbold

ECTS-fiche. 1. Identificatie

Formules Excel Bedrijfsstatistiek

Hoofdstuk 2 : Grafische beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

TIP 10: ANALYSE VAN DE CIJFERS

Vandaag. Onderzoeksmethoden: Statistiek 4. Recap: Hypothese toetsen. Recap: One-sample t-toets

DEEL II DOEN! - Praktische opdracht statistiek WA- 4HAVO

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Havo A deel 1 H2 Statistiek - Samenvatting

Statistiek: Herhaling en aanvulling

Statistiek 2 deel A 30 minuten over statistisch toetsen

Statistische variabelen. formuleblad

Inhoud. Inleiding 15. Deel I Beschrijvende statistiek 17

A. Week 1: Introductie in de statistiek.

Statistiek. Beschrijvende Statistiek Hoofdstuk 1 1.1, 1.2, 1.5, 1.6 lezen 1.3, 1.4 Les 1 Hoofdstuk 2 2.1, 2.3, 2.5 Les 2

Kansrekening en Statistiek

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn

8. Analyseren van samenhang tussen categorische variabelen

Kwantitatieve methoden. Samenvatting met verwijzing naar Excel functies

Voorbeeldtentamen Statistiek voor Psychologie

Examen Statistiek I Feedback

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen....

Inleiding Applicatie Software - Statgraphics

Data analyse Inleiding statistiek

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Feedback proefexamen Statistiek I

Kansrekening en Statistiek

Vandaag. Onderzoeksmethoden: Statistiek 4. Recap: Hypothese toetsen. Recap: One-sample t-toets

Occasions bij Ben de Beun

Inleiding tot de meettheorie

S1 STATISTIEK. Tabellen & diagrammen Centrummaten & Spreiding

SPSS. Statistiek : SPSS

Hoe doe ik een onderzoeksproject

Samenvattingen 5HAVO Wiskunde A.

Statistiek. Beschrijvend statistiek

2 Data en datasets verwerken

WISKUNDE A HAVO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0

Paragraaf 5.1 : Frequentieverdelingen

Professionaliseringstraject onderzoeksvaardigheden voor docenten. prof. dr. Saskia Brand-Gruwel

Open en Gepersonaliseerd Statistiekonderwijs (OGS) Deliverable 1.1 Requirements

INLEIDING FUNCTIES 1. COÖRDINATEN

Populatie: De gehele groep elementen waarover informatie wordt gewenst.

Checklist Wiskunde A HAVO HML

2 Data en datasets verwerken

Kansrekening en Statistiek

Correlatie = statistische samenhang Meest gebruikt = Spearman s rang correlatie Ordinaal geschaalde variabelen -1 <= r s <= +1 waarbij:

9. Lineaire Regressie en Correlatie

uitwerkingen voorbeeldexamenopgaven statistiek wiskunde A havo

Deel I : beschrijvende statistiek

Overzicht statistiek 5N4p

introductie populatie- steekproef- steekproevenverdeling pauze parameters aannames ten slotte

In de praktijk gaat men eerder werken met numerieke codes. Aan de hand van een codeboek wordt per variabele een nummer aan een waarde toegekend.

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

datavisualisatie Stappen verzamelen en opschonen analyseren van data interpeteren hoorcollege 4 visualisatie representeren

Hoofdstuk 4. Beschrijvende statistiek. 4.1 Beschrijvende statistiek voor één variabele

Hoofdstuk I De statistiek in het onderzoek Doelstellingen: Statistiek Beschrijvende statistiek Inductieve statistiek

DEEL 1 Probleemstelling 1

bijspijkercursus wiskunde voor psychologiestudenten bijeenkomst 6 statistiek/gegevensverwerking los materiaal, niet uit boek [PW]

Kansrekening en Statistiek

4 Domein STATISTIEK - versie 1.2

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

D) Alle drie de variabelen kunnen zowel afhankelijke als onafhankelijke variabelen zijn.

Hoe doe ik een onderzoeksproject. Hans Bodlaender Marjan vd Akker

8.1 Centrum- en spreidingsmaten [1]

Uitgebreide inhoudsopgave: Werken met ken- en stuurgetallen DEEL I WAT ZIJN KEN- EN STUURGETALLEN?

Schriftelijk examen statistiek, data-analyse en informatica. Maandag 29 mei 1995

Meten: algemene beginselen. Harry B.G. Ganzeboom ADEK UvS College 1 28 februari 2011

Grafieken Cirkeldiagram

Factor = het getal waarmee je de oude hoeveelheid moet vermenigvuldigen om een nieuwe hoeveelheid te krijgen.

Fasen in het onderzoeksproces

Eerst wordt ingegaan op de verschillende soorten data die we kunnen verzamelen en hoe datasets georganiseerd zijn.

WISKUNDE C VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0

Y = ax + b, hiervan is a de richtingscoëfficiënt (1 naar rechts en a omhoog), en b is het snijpunt met de y-as (0,b)

Overzicht van tabellen 13. Overzicht van figuren 15. Voorwoord 17. Inleiding 19

1 a Partij is een kwalitatieve variabele, kindertal een kwantitatieve, discrete variabele. b,c

Statistiek voor A.I. College 12. Dinsdag 23 Oktober

Vaardigheden IV Delphine De smet 3 theorielessen 2 practica in groepen per 40, oefenen in SPSS

Het gebruik van Excel 2007 voor statistische analyses. Een beknopte handleiding.

SOCIALE STATISTIEK (deel 2)

Data analyse Inleiding statistiek

Transcriptie:

Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek Peter de Waal (gebaseerd op slides Marjan van den Akker, Peter de Waal) Departement Informatica Beta-faculteit, Universiteit Utrecht 00394756520584654261849505028761647595030... Joepie, ons computerprogramma levert output... Joepie, we hebben gegevens uit onze enquete... Q: Wat doen we hiermee? Lecture 1: 1 / 49 Lecture 1: 2 / 49 Output gegevens Kansrekening en statistiek in de informatica 1 Valideren 2 Ordenen: 1 Tabellen 2 Grafieken 3 Statistieken 3 Mogelijke conclusie definieren: 1 Relaties en verschillen 2 Gebaseerd op je onderzoeksvraag, maar eventueel andere interessante fenomenen. 4 Hypotheses toetsen en analyseren mbv. Statistiek. Randomized algorithms Data-mining Bayesiaanse netwerken voor medische diagnose Planning met verstoringen Modellen voor bewegende karakters in spellen Testen computer-games Lecture 1: 3 / 49 Lecture 1: 4 / 49

Materiaal Wat is statistiek? Nel Verhoeven. Statistiek in stappen. Boom Lemma Uitgevers, 2013. ISBN 978 90 5931 9639. Gedeeltelijk gebaseerd op slides van Wetenschappelijke Onderzoeksmethoden (INKU Bachelor) Leer en methode om door middel van cijfers inzicht te krijgen in massale verschijnselen,.. (van Dale) De wetenschap, de methodiek en de techniek van het verzamelen, bewerken, interpreteren en presenteren van gegevens. (Wikipedia) Lecture 1: 5 / 49 Lecture 1: 6 / 49 Kansrekening en Statistiek Vandaag: Beschrijvende statistiek Kansrekening: Theoretische basis: Hoofdstuk 4 Statistiek: Theoretische basis: Hoofdstuk 4 Beschrijvende statistiek: Hoofdstuk 2 + 3 There are three kinds of lies: lies, damn lies, and statistics (Mark Twain) Toetsende statistiek: Hoofdstuk 5, 6, + 9 Lecture 1: 7 / 49 Lecture 1: 8 / 49

Enquetes Onderzoek Bron: nos.nl Lecture 1: 9 / 49 Onderzoek Lecture 1: 10 / 49 Lecture 1: 12 / 49 Definities Bron: De Pers, 19-09-2011 Lecture 1: 11 / 49

Vertekenende plaatsje Statistiek kan veel... Maar wees nauwkeurig! Manieren om fouten te maken: Garbage data Slechte steekproef Wisselende of onduidelijke definities Vertekenende plaatjes Verkeerde gevolgtrekkingen... Bron: UU Jaarbeeld 2012 Lecture 1: 13 / 49 Lecture 1: 14 / 49 Definities: Populatie en steekproef DATA VERVALSEN IS FRAUDE Populatie: verzameling van alle personen, objecten of gebeurtenissen waar een vraagstelling of onderzoek betrekking op heeft Steekproef: selectie van elementen uit de populatie Variabele: te meten/bepalen karakteristiek van persoon, object... Vraag: Hoe vaak gaan Utrechtse informatica-studenten uit? Variabele: aantal uitgaansavonden per maand Populatie: alle studenten ingeschreven voor de opleiding Informatica Utrecht. Steekproef: Remco, Maxime, Jelle, Jeanine, Timo, Falco, Bram, Jona, Rutger Lecture 1: 15 / 49 Lecture 1: 16 / 49

Definities: meetniveaus van variabelen Meetniveau: nominaal Nominaal meetniveau: Nominaal Ordinaal Interval Indeling in categorieen Indeling: Uitsluitend (mutually exclusive) Voorbeeld: Uitputtend (exhaustive) Ratio of Informatica of Gametechnologie Lecture 1: 17 / 49 Lecture 1: 18 / 49 Meetniveau: ordinaal Ordinaal meetniveau: Indeling in rangorde Voorbeeld: hoogste niveau van genoten vervolgopleiding: Meetniveau: interval Interval meetniveau: Rangorde, maar zegt ook iets over grootte van het verschil, afstand (geen natuurlijk nulpunt) Voorbeeld: Temperatuur in Celsius 1 Middelbare school 2 HBO 3 Universiteit Lecture 1: 19 / 49 Lecture 1: 20 / 49

Meetniveau: ratio Welke schaal? Ratio meetniveau rangorde, zegt iets over afstand en over verhouding, Gevolg: Natuurlijk nulpunt, geen negatieve waarden. Likert schaal: Op een bewering wordt gereageerd in termen van eens / oneens Voorbeeld Lichaamslengte Gewicht Looptijd algoritme Lecture 1: 21 / 49 Lecture 1: 22 / 49 Traveling Salesman probleem Descriptieve maten uit steekproef Achtergrond voor pizza-koeriers. Gegeven zijn N steden en hun onderlinge afstanden. Vind de kortste route waarbij je elke stad precies n keer bezoekt. Variabelen: Looptijd algoritme Lengte route Vraag: Welke schaal? Nulpunt? Steekproef één variabele: X 1, X 2, X 3,..., X N Verhoudingsmaten Centrummaten Spreidingsmaten Steekproef twee variabelen: X 1, X 2, X 3,..., X N en Y 1, Y 2, Y 3,..., Y N Relatiematen Lecture 1: 23 / 49 Lecture 1: 24 / 49

Verhoudingsmaten Frequentietabel Absolute frequenties: 7 (van de 12) Relatieve frequenties: 3 op de 100 3% 0.03 Frequentie Percentage Cumul. perc. 4 14 11.38 11.38 5 15 12.20 23.58 6 19 15.45 39.02 7 22 17.89 56.91 8 24 19.51 76.42 9 19 15.45 91.87 10 10 8.13 100.00 totaal 123 100 100.00 Lecture 1: 25 / 49 Lecture 1: 26 / 49 Frequentieverdelingen: bar chart Frequentieverdelingen: histogram 10 tot 20 groepen met even groot domein. Lecture 1: 27 / 49 Lecture 1: 28 / 49

Scoreverdelingen: percentiel(score) Frequentietabel De score van het n e percentiel (P n ) is de score waarbij tenminste n% in de verdeling lager of gelijk scoort, en tenminste 100-n% hoger of gelijk. Bijvoorbeeld P 90 = 189 kan betekenen dat 90% van alle Nederlanders een lengte 189 cm heeft. Het meest gebruikte percentiel is de mediaan P 50 : 50% van de observaties liggen links van de mediaan. Soms wordt ook nog gebruikt: P25 (heet ook eerste kwartiel), P75 (heet ook derde kwartiel). Pas op bij frequenties groter dan 1. Wat is de mediaan? 7 Wat is P 25? 6 Frequentie Percentage Cumul. perc. 4 14 11.38 11.38 5 15 12.20 23.58 6 19 15.45 39.02 7 22 17.89 56.91 8 24 19.51 76.42 9 19 15.45 91.87 10 10 8.13 100.00 totaal 123 100 100.00 Lecture 1: 29 / 49 Lecture 1: 30 / 49 Centrummaten: modus Centrummaten: mediaan Modus ( Eng: Mode ): de waarde in de distributie die het meest voorkomt; de categorie met de hoogste frequentie Ook mogelijk: Bimodaal (kameelverdeling) Multimodaal Het punt dat de waarnemingen door midden deelt, of De waarde die, in de ordening van laag naar hoog, hoort bij de middelste, of Het punt waarbij tenminste 50% lager of gelijk scoort, en tenminste 50% hoger of gelijk scoort. Voorbeeld A: 1, 2, 3, 5, 6 Voorbeeld B: 1, 2, 3, 5, 6, 7 Sorteer van klein naar groot: Bij oneven aantal getallen: kies middelste Bij even aantal getallen: kies gemiddelde van middelste 2 (Excel) Of kies het hele interval ([3,5]) in Voorbeeld B als mediaan. Lecture 1: 31 / 49 Lecture 1: 32 / 49

Centrummaten: gemiddelde Test Indicatie van het evenwichtspunt van de meetwaarden. De som van alle waarden, gedeeld door het aantal waarden Populatie: N i=1 µ = X i N Steekproef: n i=1 X = X i n Student Gevulde koeken Jesse 2 Jasper 4 Jordy 4 Jorrit 3 Jarno 2 Gemiddelde X = 3 Als X i heeft frequentie f i, dan fi X i X = n Q: Op welk meetniveau kunnen de centrummaten toegepast worden? Mediaan Modus Gemiddelde Nominaal? (Modus) Ordinaal? (Modus, mediaan) Interval? (Modus, mediaan, gemiddelde) Ratio? (Modus, mediaan, gemiddelde) Q: Welke centrummaat is gevoelig voor outliers (uitbijters)? Lecture 1: 33 / 49 Lecture 1: 34 / 49 Voorbeelden Spreidingsmaten Voorbeeld A: 1 2 2 3 5 6 7 8 11 Gemiddelde =? 5 Mediaan =? 5 Voorbeeld B: 1 2 2 3 5 6 7 8 20 Bereik Variantie Standaarddeviatie Gemiddelde =? 6 Mediaan =? 5 Lecture 1: 35 / 49 Lecture 1: 36 / 49

Spreidingsmaat: bereik of range Spreidingsmaten: Populatievariantie Hoogste waarde minus laagste waarde in een distributie Zegt niets over hoe het aantal scores verdeeld is binnen dat bereik. Gemiddelde kwadratische afwijking van het gemiddelde N σ 2 i=1 = (X i µ) 2 N Standaarddeviatie N i=1 σ = (X i µ) 2 N Student Gevulde koeken Jesse 2 Jasper 4 Jordy 4 Jorrit 3 Jarno 2 Lecture 1: 37 / 49 Lecture 1: 38 / 49 Spreidingsmaten: Steekproefvariantie Spreidingsmaten: Interquartile range Schatting voor populatievariantie σ 2 Gemiddelde kwadratische afwijking van het gemiddelde n s 2 i=1 = (X i X) 2 n 1 Standaarddeviatie n i=1 s = (X i X) 2 n 1 Vrijheidsgraden df = n 1 Student Gevulde koeken Jesse 2 Jasper 4 Jordy 4 Jorrit 3 Jarno 2 s 2 = (2 3) 2 +(4 3) 2 +(4 3) 2 +(3 3) 2 +(2 3) 2 4 = = 4 4 = 1 Herinnering: P 25 = eerste kwartiel (Eng: quartile) P 75 = derde kwartiel IQR = Interquartile range = P 75 P 25. Lecture 1: 39 / 49 Lecture 1: 40 / 49

Relaties tussen twee of meer variabelen Voor twee nominale variabelen: Kruistabel:Tweedimensionaal frequentiediagram. Voorbeeld Relatiematen Twee variabelen: X en Y, met Gemiddelden: X en Y Standaarddeviaties: sx en s Y Covariantie: cov(x, y) = (Xi X)(Y i Y) n 1 Correlatie: r = cov(x, y) s x s y, ( 1 r 1 Lecture 1: 41 / 49 Lecture 1: 42 / 49 Correlatie: voorbeeld Correlatiematrix uit Excel Student Blikjes Gevulde Regels Cola koeken Code Jesse 3 2 153 Jasper 4 4 196 Jordy 1 4 52 Jorrit 5 3 252 Jarno 6 2 301 Cola vs code Koeken vs code Regels code Cola vs code 300 250 200 150 100 50 0 0 1 2 3 4 5 6 Blikjes cola Regels code Koeken vs code 350 300 250 200 150 100 50 0 0 1 2 3 4 5 Gevulde koeken 300 350 Regels code 250 200 150 100 50 0 0 1 2 3 4 5 6 Blikjes cola Regels code 300 250 200 150 100 50 0 0 1 2 3 4 5 Gevulde koeken r dicht bij 1 of -1: lineair verband r Cola Koeken Code Cola 1 Koeken -0.5198 1 Code 0.9995-0.5398 1 Lecture 1: 43 / 49 Lecture 1: 44 / 49

Verband correlatie Correlatie Causaliteit Redbull vs code 300 250 Regels code 200 150 100 50 0 0 1 2 3 4 5 6 Blikjes redbull Kwadratisch verband. Correlatie r = 0. Lecture 1: 45 / 49 Lecture 1: 46 / 49 Correlatie Causaliteit (2) Correlatie Causaliteit (2) Figure 2: The relationship between broadband speed and household income 10 Broadband speed (Mbps) 8 6 4 South Africa Mexico Brazil China (urban) Germany France Italy Spain Japan UK Sweden US India 2 0 20,000 40,000 60,000 Annual household income (USD PPP) Lecture 1: 47 / 49 Lecture 1: 48 / 49

Samenvatting Variabelen Meetniveaus Beschrijvende statistiek Volgende keer: Theoretische kansverdelingen Z-scores Normale verdeling Steekproefverdeling Centrale limietstelling Lecture 1: 49 / 49