0 123458898391081904749010998490849 074907079`794793784908`094389983.. Onderzoeksmethoden: Statistiek 1 Joepie, ons computerprogramma levert output Wat doen we hiermee? Marjan van den Akker 1 2 Output gegevens Materiaal 1. Valideren: Carel van Wijk. Toetsende statistiek: basistechnieken. Coutino, 2008. ISBN 978 90 6283 172 2. 2. Ordenen: 1. Tabellen 2. Grafieken 3. `Statistieken Gedeeltelijk gebaseerd op slides van Wetenschappelijke Onderzoeksmethoden 3. Mogelijke conclusie definieren: 1. Relaties en verschillen 2. Gebaseerd op je onderzoeksvraag, maar eventueel andere interessante fenomenen. 4. Hypotheses toetsen en analyseren mbv. Statistiek 3 4
Statistiek Kansrekening en statistiek `leer en methode om door middel van cijfers inzicht te krijgen in massale verschijnselen,.. (van Dale) Kansrekening Statistiek `is de wetenschap, de methodiek en de techniek van het verzamelen, bewerken, interpreteren en presenteren van gegevens. (Wikipedia) Beschrijvende statistiek (Hfst 1,2,3,4) Toetsende statistiek (Hfst 7 t/m 11) ` Theoretische basis (Hfst 5 en 6) 5 6 Vandaag Kansrekening en statistiek in de informatica Beschrijvende statistiek Theoretische basis Randomized algorithms Data-mining Bayesiaanse netwerken voor medische diagnose Planning met verstoringen Modellen voor bewegende karakters in spellen Testen computer-games 7 8
Statistisch onderzoek in het nieuws There are three kinds of lies: lies, damn lies, and statistics (Mark Twain) Bron: nos.nl 9 10 Bron: De Pers, ma 19-9-2011 Definities 11 12
Vertekenende plaatjes Vertekenende plaatjes Bron: van Wijk Toetsende statistiek Bron: van Wijk Toetsende statistiek 13 14 Statistiek kan heel veel, maar wees nauwkeurig Populatie en steekproef Manieren om fouten te maken: Garbage data Slechte steekproef Populatie: verzameling van alle personen, objecten of gebeurtenissen waar een vraagstelling of onderzoek betrekking op heeft Wisselende of onduidelijke definities Criminaliteitscijfers Steekproef: selectie van elementen uit de populatie Vertekenende plaatjes Vraag: Hoe vaak gaan Utrechtse informatica-studenten uit? Verkeerde gevolgtrekkingen. Variabele: aantal uitgaansavonden per maand Populatie: alle studenten ingeschreven voor de opleiding Informatica Utrecht. Steekproef: Steven, Thomas, Abdel, Hugo, Meindert-Jan, Mathijs, Robert 15 16
Nominaal Meetniveaus van variabelen Nominaal Ordinaal Interval nominaal meetniveau: indeling in categorieën Indeling: uitsluitend (mutually exclusive) en uitputtend (exhaustive) Voorbeeld Ratio Informatica of Game-technology 17 18 Ordinaal Interval ordinaal meetniveau: rangorde interval meetniveau: rangorde, zegt iets over verschil, afstand, (geen natuurlijk nulpunt) Voorbeeld: Likert schaal: Op een bewering wordt gereageerd in termen van oneens/eens Voorbeeld: temperatuur in ºC 19 20
Ratio Achtergrond pizza-koeriers: Traveling Salesman Problem (TSP) ratio meetniveau: rangorde, zegt iets over afstand, zegt iets over verhouding Gegeven zijn N steden en hun onderlinge afstanden. Vind de kortste route waarbij je elke stad precies één keer bezoekt. Voorbeeld: Lichaamslengte Looptijd algoritme 21 Bron: scrapenstitch. blogspot.com 22 Onderzoeksmethoden, introductie TSP Toegestane transformatie per meetniveau Looptijd algoritme Lengte route Welke schaal? Nulpunt Unieke transformatie: Y i Y j alleen als X i X j Monotone transformatie: Y i > Y j alleen als X i > X j Lineaire transformatie: Y i = bx i + a (b 0) Scalaire transformatie: Y i = bx i (b 0) (originele scores: X, getransformeerde scores: Y) 23 24
Descriptieve maten uit steekproef Verhoudingsmaten Steekproef een variabele X 1,X 2,X 3,..,X n Verhoudingsmaten Centrummaten Spreidingsmaten Steekproef twee variabelen X 1,X 2,X 3,..,X n, en Y 1,Y 2,Y 3,..,Y n, Relatiematen Absolute frequenties 7 (van de 12) Relatieve frequenties 3 op de 100 3%.03 25 26 Frequentie-tabel Frequentieverdelingen: bar chart Freq Perc Cum perc 4 14 11.38 11.38 5 15 12.20 23.58 6 19 15.45 39.02 7 22 17.89 56.91 8 24 19.51 76.42 9 19 15.45 91.87 10 10 8.13 100.00 totaal 123 100 100.00 27 28
Frequentieverdelingen: histogram 10 to 20 groepen met even groot domein Centrummaten: modus Modus ( mode ) de waarde in de distributie die het meest voorkomt; de categorie met de hoogste frequentie Ook mogelijk: Bimodaal (kameelverdeling) Multimodaal 29 30 Centrummaten: Mediaan het punt dat de waarnemingen door midden deelt de waarde die, in de ordening van laag naar hoog, hoort bij de middelste 1,2,3,5,6 1,2,3,5,6,7 Mediaan: alternatief bij hogere frequenties per waarneming Discrete schaal is eigenlijk afronding van continue schaal Neem aan dat de 14 observaties met waarde 4 gelijkmatig verdeeld zijn over [3.5,4.5] Sorteer van klein naar groot: Bij oneven aantal getallen: kies middelste Bij even aantal getallen: kies gemiddelde van middelste 2 NB: Bij even aantal data op ordinaal niveau zijn er twee medianen Excel! Gebruikt deze methode 31 32
Mediaan: alternatief bij hogere frequenties per waarneming (2) Perc Cum.perc 1 1 2.86 2.86 2 5 14.29 17.14 3 5 14.29 31.43 4 14 40.00 71.43 5 10 28.57 100.00 Total 35 100.00 100.00 Mediaan valt in klasse K 50 cum%tot K Mediaan = ondergrensk + breedte K %K Centrummaten: gemiddelde de som van alle waarden, gedeeld door het aantal waarden X = Als X i frequentie f i dan N X i X = i f X N i SPSS: grouped means, vwijk p 51 33 34 Op welk meetniveau kunnen de centrummaten toegepast worden? Spreidingsmaten Bereik Mediaan Modus Gemiddelde Nominaal Ordinaal Interval Ratio Variantie Standaarddeviatie Welke centrummaat is gevoelig voor outliers (uitbijters)? 35 36
Spreidingsmaten: bereik of range Spreidingsmaten: steekproefvariantie hoogste waarde minus laagste waarde in een distributie zegt niets over hoe het aantal scores verdeeld is binnen dat bereik. gemiddelde kwadratische afwijking van het gemiddelde s 2 ( X i X ) = N 1 Standaarddeviatie: (Xi X) s = N 1 2 2 Student Marcel 2 Thomas 4 Wouter 4 Steven 3 Paktwis 2 Gevulde koeken 37 38 Relatiematen Voorbeeld Twee variabelen Covariantie Correlatie: ( X i X )( Yi cov( x, y) = N 1 cov(x, y) r = s *s x 1 r 1 y Y ) Student Blikjes cola Gevulde koeken Regels code Marcel 3 2 153 Thomas 4 4 196 Wouter 1 4 52 Steven 5 3 252 Paktwis 6 2 301 39 40
300 250 Cola vs code Correlatiematrix uit excel Regels code 200 150 100 Regels code Cola Koek Regels code 50 0 0 2 4 6 Blikjes cola Koeken vs code Cola 1 350 300 Koek -0.51988 1 Regels code 250 200 150 100 50 0 0 1 2 3 4 5 Gevulde koeken Regels code Regels code 0.999596-0.53831 1 r dicht bij 1 of -1: lineair verband 41 42 Voorbeeld Een correlatie is niet per definitie een causaal verband 43 44
Scoreverdelingen: percentiel(score) De score van het n e percentiel (P n ) is de score waarbij n% in de verdeling lager (of gelijk) scoort, en 100-n% hoger Bijvoorbeeld P 90 = 189 kan betekenen dat 90% van alle Nederlanders een lengte 189 cm heeft Het meest gebruikte percentiel is de mediaan P 50. 50% van de observaties liggen links van de mediaan. 45 46 Groeicurve http://www.xelca.nl/articles/ufo_landingsbaan_houten.aspx 47 48
Onderzoeksvraag en -plan Onderzoeksvraag en plan (2) 1. Onderzoeksvraag: Op welke vraag moeten de resultaten van mijn onderzoek een antwoord geven. Verschillende onderzoeksvragen zijn mogelijk Bedenk zelf een goede! Beperk je maar maak het niet te saai! 2. Probleemomschrijving Welk probleem gaan we onderzoeken? Leg dit in detail uit. 3. Scope en aannames, bijv we kijken alleen naar graph drawing in het platte vak de brommers van de pizza-koerier hebben genoeg laadruimte. 4. Wat ga je precies meten en hoe ga je dat doen: Minstens 3 criteria, meer mag ook Meten met computerprogramma of door test met proefpersonen 49 50 Onderzoeksmethoden, introductie Onderzoeksvraag en plan (3) Onderzoeksvraag en plan (4) 5. Test data Wat zijn onze testdata en waar komen deze vandaan? Van een internet-library Uit een bestaand artikel Zelf genereerd Random of specifiek Hoe groot? 6. Scenarios: Welke instellingen, varianten van het algoritme gaan we testen? Inleveren: rapport met Onderzoeksvraag en plan 26 september Behandel alle 6 bovengenoemde punten 3 a 4 pagina s A4 op 11 pt In MS-word of Latex, maar voor statistische analyse gebruik je Excel Per e-mail naar werkcollege-leider 51 Onderzoeksmethoden, introductie 52 Onderzoeksmethoden, introductie