Onderzoeksmethoden: Statistiek 1

Vergelijkbare documenten
Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek. Output gegevens. Kansrekening en statistiek in de informatica

De Collegereeks Statistiek. statistiek. Statistiek in het dagelijkse nieuws. Statistiek Hoorcollege 1. Descriptieve statistiek ttitik

Hoe doe ik een onderzoeksproject. Hans Bodlaender Marjan vd Akker

College Week 4 Inspecteren van Data: Verdelingen

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

Onderzoek. B-cluster BBB-OND2B.2

College 4 Inspecteren van Data: Verdelingen

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

Data analyse Inleiding statistiek

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Onderzoeksmethodiek LE: 2

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf

Statistiek. Beschrijvend statistiek

A. Week 1: Introductie in de statistiek.

Kansrekening en Statistiek

Paragraaf 5.1 : Frequentieverdelingen

DEEL II DOEN! - Praktische opdracht statistiek WA- 4HAVO

Examen Statistiek I Feedback

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Professionaliseringstraject onderzoeksvaardigheden voor docenten. prof. dr. Saskia Brand-Gruwel

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018

Hoofdstuk 2 : Grafische beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Oefenvragen bij Statistics for Business and Economics van Newbold

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

Statistische variabelen. formuleblad

Vandaag. Onderzoeksmethoden: Statistiek 4. Recap: Hypothese toetsen. Recap: One-sample t-toets

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen....

Inleiding tot de meettheorie

Feedback proefexamen Statistiek I

2 Data en datasets verwerken

Formules Excel Bedrijfsstatistiek

Populatie: De gehele groep elementen waarover informatie wordt gewenst.

Voorbeeldtentamen Statistiek voor Psychologie

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn

Statistiek: Herhaling en aanvulling

TIP 10: ANALYSE VAN DE CIJFERS

Statistiek voor A.I. College 2. Donderdag 13 September 2012

Inleiding Applicatie Software - Statgraphics

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Correlatie = statistische samenhang Meest gebruikt = Spearman s rang correlatie Ordinaal geschaalde variabelen -1 <= r s <= +1 waarbij:

Data analyse Inleiding statistiek

Uitgebreide inhoudsopgave: Werken met ken- en stuurgetallen DEEL I WAT ZIJN KEN- EN STUURGETALLEN?

Hoofdstuk I De statistiek in het onderzoek Doelstellingen: Statistiek Beschrijvende statistiek Inductieve statistiek

Occasions bij Ben de Beun

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Programma : 1. Presentatie 2. H 5.1 Statistiek zelf gegevens verzamelen en ermee werken 3. Vragen over H4, formules

Populaties beschrijven met kansmodellen

9. Lineaire Regressie en Correlatie

Kansrekening en Statistiek

WISKUNDE A HAVO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0

Statistiek. Beschrijvende Statistiek Hoofdstuk 1 1.1, 1.2, 1.5, 1.6 lezen 1.3, 1.4 Les 1 Hoofdstuk 2 2.1, 2.3, 2.5 Les 2

Kansrekening en Statistiek

introductie populatie- steekproef- steekproevenverdeling pauze parameters aannames ten slotte

Meten: algemene beginselen. Harry B.G. Ganzeboom ADEK UvS College 1 28 februari 2011

Methoden van het Wetenschappelijk. Onderzoek. Zin en onzin van statistiek

Introductie Onderzoeksmethoden. `Om informatica onderzoek te doen, moet je goed kunnen programmeren. Na dit college. Informatica/Game-technologie

Kwantitatieve methoden. Samenvatting met verwijzing naar Excel functies

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Vandaag. Onderzoeksmethoden: Statistiek 4. Recap: Hypothese toetsen. Recap: One-sample t-toets

bijspijkercursus wiskunde voor psychologiestudenten bijeenkomst 6 statistiek/gegevensverwerking los materiaal, niet uit boek [PW]

Statistiek 2 deel A 30 minuten over statistisch toetsen

4 Domein STATISTIEK - versie 1.2

Overzicht statistiek 5N4p

Kansrekening en Statistiek

INLEIDING FUNCTIES 1. COÖRDINATEN

Open en Gepersonaliseerd Statistiekonderwijs (OGS) Deliverable 1.1 Requirements

S1 STATISTIEK. Tabellen & diagrammen Centrummaten & Spreiding

KWANTITATIEF TESTEN. experimenteel ontwerp (MIT 14) statistische analyse (MIT 15)

Inhoud. Inleiding 15. Deel I Beschrijvende statistiek 17

Oplossingen hoofdstuk 4

Hoofdstuk 7: De analyse en rapportering van jouw empirisch onderzoek

STATISTIEK I Samenvatting

Niet de hoogte, wel de oppervlakte. Aandachtspunten bij. - statistische technieken voor een continue veranderlijke

8. Analyseren van samenhang tussen categorische variabelen

Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor

KWANTITATIEF TESTEN. experimenteel ontwerp (MIT 14) statistische analyse (MIT 15)

SPSS. Statistiek : SPSS

DOEN! - Praktische Opdracht Statistiek 4 Havo Wiskunde A

datavisualisatie Stappen verzamelen en opschonen analyseren van data interpeteren hoorcollege 4 visualisatie representeren

REËLE FUNCTIES BESPREKEN

Meten en experimenteren

Kansrekening en Statistiek

lengte aantal sportende broers/zussen

Statistiek is zo saai nog niet! Een integratie van theorie en praktijk Manfred te Grotenhuis

Schriftelijk examen statistiek, data-analyse en informatica. Maandag 29 mei 1995

WISKUNDE C VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0

Fasen in het onderzoeksproces

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren:

Deel I : beschrijvende statistiek

Grafieken Cirkeldiagram

Inhoud. 1 Inleiding tot de beschrijvende statistiek Maatstaven voor ligging en spreiding Kansrekening 99

Transcriptie:

0 123458898391081904749010998490849 074907079`794793784908`094389983.. Onderzoeksmethoden: Statistiek 1 Joepie, ons computerprogramma levert output Wat doen we hiermee? Marjan van den Akker 1 2 Output gegevens Materiaal 1. Valideren: Carel van Wijk. Toetsende statistiek: basistechnieken. Coutino, 2008. ISBN 978 90 6283 172 2. 2. Ordenen: 1. Tabellen 2. Grafieken 3. `Statistieken Gedeeltelijk gebaseerd op slides van Wetenschappelijke Onderzoeksmethoden 3. Mogelijke conclusie definieren: 1. Relaties en verschillen 2. Gebaseerd op je onderzoeksvraag, maar eventueel andere interessante fenomenen. 4. Hypotheses toetsen en analyseren mbv. Statistiek 3 4

Statistiek Kansrekening en statistiek `leer en methode om door middel van cijfers inzicht te krijgen in massale verschijnselen,.. (van Dale) Kansrekening Statistiek `is de wetenschap, de methodiek en de techniek van het verzamelen, bewerken, interpreteren en presenteren van gegevens. (Wikipedia) Beschrijvende statistiek (Hfst 1,2,3,4) Toetsende statistiek (Hfst 7 t/m 11) ` Theoretische basis (Hfst 5 en 6) 5 6 Vandaag Kansrekening en statistiek in de informatica Beschrijvende statistiek Theoretische basis Randomized algorithms Data-mining Bayesiaanse netwerken voor medische diagnose Planning met verstoringen Modellen voor bewegende karakters in spellen Testen computer-games 7 8

Statistisch onderzoek in het nieuws There are three kinds of lies: lies, damn lies, and statistics (Mark Twain) Bron: nos.nl 9 10 Bron: De Pers, ma 19-9-2011 Definities 11 12

Vertekenende plaatjes Vertekenende plaatjes Bron: van Wijk Toetsende statistiek Bron: van Wijk Toetsende statistiek 13 14 Statistiek kan heel veel, maar wees nauwkeurig Populatie en steekproef Manieren om fouten te maken: Garbage data Slechte steekproef Populatie: verzameling van alle personen, objecten of gebeurtenissen waar een vraagstelling of onderzoek betrekking op heeft Wisselende of onduidelijke definities Criminaliteitscijfers Steekproef: selectie van elementen uit de populatie Vertekenende plaatjes Vraag: Hoe vaak gaan Utrechtse informatica-studenten uit? Verkeerde gevolgtrekkingen. Variabele: aantal uitgaansavonden per maand Populatie: alle studenten ingeschreven voor de opleiding Informatica Utrecht. Steekproef: Steven, Thomas, Abdel, Hugo, Meindert-Jan, Mathijs, Robert 15 16

Nominaal Meetniveaus van variabelen Nominaal Ordinaal Interval nominaal meetniveau: indeling in categorieën Indeling: uitsluitend (mutually exclusive) en uitputtend (exhaustive) Voorbeeld Ratio Informatica of Game-technology 17 18 Ordinaal Interval ordinaal meetniveau: rangorde interval meetniveau: rangorde, zegt iets over verschil, afstand, (geen natuurlijk nulpunt) Voorbeeld: Likert schaal: Op een bewering wordt gereageerd in termen van oneens/eens Voorbeeld: temperatuur in ºC 19 20

Ratio Achtergrond pizza-koeriers: Traveling Salesman Problem (TSP) ratio meetniveau: rangorde, zegt iets over afstand, zegt iets over verhouding Gegeven zijn N steden en hun onderlinge afstanden. Vind de kortste route waarbij je elke stad precies één keer bezoekt. Voorbeeld: Lichaamslengte Looptijd algoritme 21 Bron: scrapenstitch. blogspot.com 22 Onderzoeksmethoden, introductie TSP Toegestane transformatie per meetniveau Looptijd algoritme Lengte route Welke schaal? Nulpunt Unieke transformatie: Y i Y j alleen als X i X j Monotone transformatie: Y i > Y j alleen als X i > X j Lineaire transformatie: Y i = bx i + a (b 0) Scalaire transformatie: Y i = bx i (b 0) (originele scores: X, getransformeerde scores: Y) 23 24

Descriptieve maten uit steekproef Verhoudingsmaten Steekproef een variabele X 1,X 2,X 3,..,X n Verhoudingsmaten Centrummaten Spreidingsmaten Steekproef twee variabelen X 1,X 2,X 3,..,X n, en Y 1,Y 2,Y 3,..,Y n, Relatiematen Absolute frequenties 7 (van de 12) Relatieve frequenties 3 op de 100 3%.03 25 26 Frequentie-tabel Frequentieverdelingen: bar chart Freq Perc Cum perc 4 14 11.38 11.38 5 15 12.20 23.58 6 19 15.45 39.02 7 22 17.89 56.91 8 24 19.51 76.42 9 19 15.45 91.87 10 10 8.13 100.00 totaal 123 100 100.00 27 28

Frequentieverdelingen: histogram 10 to 20 groepen met even groot domein Centrummaten: modus Modus ( mode ) de waarde in de distributie die het meest voorkomt; de categorie met de hoogste frequentie Ook mogelijk: Bimodaal (kameelverdeling) Multimodaal 29 30 Centrummaten: Mediaan het punt dat de waarnemingen door midden deelt de waarde die, in de ordening van laag naar hoog, hoort bij de middelste 1,2,3,5,6 1,2,3,5,6,7 Mediaan: alternatief bij hogere frequenties per waarneming Discrete schaal is eigenlijk afronding van continue schaal Neem aan dat de 14 observaties met waarde 4 gelijkmatig verdeeld zijn over [3.5,4.5] Sorteer van klein naar groot: Bij oneven aantal getallen: kies middelste Bij even aantal getallen: kies gemiddelde van middelste 2 NB: Bij even aantal data op ordinaal niveau zijn er twee medianen Excel! Gebruikt deze methode 31 32

Mediaan: alternatief bij hogere frequenties per waarneming (2) Perc Cum.perc 1 1 2.86 2.86 2 5 14.29 17.14 3 5 14.29 31.43 4 14 40.00 71.43 5 10 28.57 100.00 Total 35 100.00 100.00 Mediaan valt in klasse K 50 cum%tot K Mediaan = ondergrensk + breedte K %K Centrummaten: gemiddelde de som van alle waarden, gedeeld door het aantal waarden X = Als X i frequentie f i dan N X i X = i f X N i SPSS: grouped means, vwijk p 51 33 34 Op welk meetniveau kunnen de centrummaten toegepast worden? Spreidingsmaten Bereik Mediaan Modus Gemiddelde Nominaal Ordinaal Interval Ratio Variantie Standaarddeviatie Welke centrummaat is gevoelig voor outliers (uitbijters)? 35 36

Spreidingsmaten: bereik of range Spreidingsmaten: steekproefvariantie hoogste waarde minus laagste waarde in een distributie zegt niets over hoe het aantal scores verdeeld is binnen dat bereik. gemiddelde kwadratische afwijking van het gemiddelde s 2 ( X i X ) = N 1 Standaarddeviatie: (Xi X) s = N 1 2 2 Student Marcel 2 Thomas 4 Wouter 4 Steven 3 Paktwis 2 Gevulde koeken 37 38 Relatiematen Voorbeeld Twee variabelen Covariantie Correlatie: ( X i X )( Yi cov( x, y) = N 1 cov(x, y) r = s *s x 1 r 1 y Y ) Student Blikjes cola Gevulde koeken Regels code Marcel 3 2 153 Thomas 4 4 196 Wouter 1 4 52 Steven 5 3 252 Paktwis 6 2 301 39 40

300 250 Cola vs code Correlatiematrix uit excel Regels code 200 150 100 Regels code Cola Koek Regels code 50 0 0 2 4 6 Blikjes cola Koeken vs code Cola 1 350 300 Koek -0.51988 1 Regels code 250 200 150 100 50 0 0 1 2 3 4 5 Gevulde koeken Regels code Regels code 0.999596-0.53831 1 r dicht bij 1 of -1: lineair verband 41 42 Voorbeeld Een correlatie is niet per definitie een causaal verband 43 44

Scoreverdelingen: percentiel(score) De score van het n e percentiel (P n ) is de score waarbij n% in de verdeling lager (of gelijk) scoort, en 100-n% hoger Bijvoorbeeld P 90 = 189 kan betekenen dat 90% van alle Nederlanders een lengte 189 cm heeft Het meest gebruikte percentiel is de mediaan P 50. 50% van de observaties liggen links van de mediaan. 45 46 Groeicurve http://www.xelca.nl/articles/ufo_landingsbaan_houten.aspx 47 48

Onderzoeksvraag en -plan Onderzoeksvraag en plan (2) 1. Onderzoeksvraag: Op welke vraag moeten de resultaten van mijn onderzoek een antwoord geven. Verschillende onderzoeksvragen zijn mogelijk Bedenk zelf een goede! Beperk je maar maak het niet te saai! 2. Probleemomschrijving Welk probleem gaan we onderzoeken? Leg dit in detail uit. 3. Scope en aannames, bijv we kijken alleen naar graph drawing in het platte vak de brommers van de pizza-koerier hebben genoeg laadruimte. 4. Wat ga je precies meten en hoe ga je dat doen: Minstens 3 criteria, meer mag ook Meten met computerprogramma of door test met proefpersonen 49 50 Onderzoeksmethoden, introductie Onderzoeksvraag en plan (3) Onderzoeksvraag en plan (4) 5. Test data Wat zijn onze testdata en waar komen deze vandaan? Van een internet-library Uit een bestaand artikel Zelf genereerd Random of specifiek Hoe groot? 6. Scenarios: Welke instellingen, varianten van het algoritme gaan we testen? Inleveren: rapport met Onderzoeksvraag en plan 26 september Behandel alle 6 bovengenoemde punten 3 a 4 pagina s A4 op 11 pt In MS-word of Latex, maar voor statistische analyse gebruik je Excel Per e-mail naar werkcollege-leider 51 Onderzoeksmethoden, introductie 52 Onderzoeksmethoden, introductie