Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek. Output gegevens. Kansrekening en statistiek in de informatica

Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek Peter de Waal (gebaseerd op slides Marjan van den Akker, Peter de Waal) Departement Informatica Beta-faculteit, Universiteit Utrecht 00394756520584654261849505028761647595030... Joepie, ons computerprogramma levert output... Joepie, we hebben gegevens uit onze enquete... Q: Wat doen we hiermee? Lecture 1: 1 / 49 Lecture 1: 2 / 49 Output gegevens Kansrekening en statistiek in de informatica 1 Valideren 2 Ordenen: 1 Tabellen 2 Grafieken 3 Statistieken 3 Mogelijke conclusie definieren: 1 Relaties en verschillen 2 Gebaseerd op je onderzoeksvraag, maar eventueel andere interessante fenomenen. 4 Hypotheses toetsen en analyseren mbv. Statistiek. Randomized algorithms Data-mining Bayesiaanse netwerken voor medische diagnose Planning met verstoringen Modellen voor bewegende karakters in spellen Testen computer-games Lecture 1: 3 / 49 Lecture 1: 4 / 49

Materiaal Wat is statistiek? Nel Verhoeven. Statistiek in stappen. Boom Lemma Uitgevers, 2013. ISBN 978 90 5931 9639. Gedeeltelijk gebaseerd op slides van Wetenschappelijke Onderzoeksmethoden (INKU Bachelor) Leer en methode om door middel van cijfers inzicht te krijgen in massale verschijnselen,.. (van Dale) De wetenschap, de methodiek en de techniek van het verzamelen, bewerken, interpreteren en presenteren van gegevens. (Wikipedia) Lecture 1: 5 / 49 Lecture 1: 6 / 49 Kansrekening en Statistiek Vandaag: Beschrijvende statistiek Kansrekening: Theoretische basis: Hoofdstuk 4 Statistiek: Theoretische basis: Hoofdstuk 4 Beschrijvende statistiek: Hoofdstuk 2 + 3 There are three kinds of lies: lies, damn lies, and statistics (Mark Twain) Toetsende statistiek: Hoofdstuk 5, 6, + 9 Lecture 1: 7 / 49 Lecture 1: 8 / 49

Enquetes Onderzoek Bron: nos.nl Lecture 1: 9 / 49 Onderzoek Lecture 1: 10 / 49 Lecture 1: 12 / 49 Definities Bron: De Pers, 19-09-2011 Lecture 1: 11 / 49

Vertekenende plaatsje Statistiek kan veel... Maar wees nauwkeurig! Manieren om fouten te maken: Garbage data Slechte steekproef Wisselende of onduidelijke definities Vertekenende plaatjes Verkeerde gevolgtrekkingen... Bron: UU Jaarbeeld 2012 Lecture 1: 13 / 49 Lecture 1: 14 / 49 Definities: Populatie en steekproef DATA VERVALSEN IS FRAUDE Populatie: verzameling van alle personen, objecten of gebeurtenissen waar een vraagstelling of onderzoek betrekking op heeft Steekproef: selectie van elementen uit de populatie Variabele: te meten/bepalen karakteristiek van persoon, object... Vraag: Hoe vaak gaan Utrechtse informatica-studenten uit? Variabele: aantal uitgaansavonden per maand Populatie: alle studenten ingeschreven voor de opleiding Informatica Utrecht. Steekproef: Remco, Maxime, Jelle, Jeanine, Timo, Falco, Bram, Jona, Rutger Lecture 1: 15 / 49 Lecture 1: 16 / 49

Definities: meetniveaus van variabelen Meetniveau: nominaal Nominaal meetniveau: Nominaal Ordinaal Interval Indeling in categorieen Indeling: Uitsluitend (mutually exclusive) Voorbeeld: Uitputtend (exhaustive) Ratio of Informatica of Gametechnologie Lecture 1: 17 / 49 Lecture 1: 18 / 49 Meetniveau: ordinaal Ordinaal meetniveau: Indeling in rangorde Voorbeeld: hoogste niveau van genoten vervolgopleiding: Meetniveau: interval Interval meetniveau: Rangorde, maar zegt ook iets over grootte van het verschil, afstand (geen natuurlijk nulpunt) Voorbeeld: Temperatuur in Celsius 1 Middelbare school 2 HBO 3 Universiteit Lecture 1: 19 / 49 Lecture 1: 20 / 49

Meetniveau: ratio Welke schaal? Ratio meetniveau rangorde, zegt iets over afstand en over verhouding, Gevolg: Natuurlijk nulpunt, geen negatieve waarden. Likert schaal: Op een bewering wordt gereageerd in termen van eens / oneens Voorbeeld Lichaamslengte Gewicht Looptijd algoritme Lecture 1: 21 / 49 Lecture 1: 22 / 49 Traveling Salesman probleem Descriptieve maten uit steekproef Achtergrond voor pizza-koeriers. Gegeven zijn N steden en hun onderlinge afstanden. Vind de kortste route waarbij je elke stad precies n keer bezoekt. Variabelen: Looptijd algoritme Lengte route Vraag: Welke schaal? Nulpunt? Steekproef één variabele: X 1, X 2, X 3,..., X N Verhoudingsmaten Centrummaten Spreidingsmaten Steekproef twee variabelen: X 1, X 2, X 3,..., X N en Y 1, Y 2, Y 3,..., Y N Relatiematen Lecture 1: 23 / 49 Lecture 1: 24 / 49

Verhoudingsmaten Frequentietabel Absolute frequenties: 7 (van de 12) Relatieve frequenties: 3 op de 100 3% 0.03 Frequentie Percentage Cumul. perc. 4 14 11.38 11.38 5 15 12.20 23.58 6 19 15.45 39.02 7 22 17.89 56.91 8 24 19.51 76.42 9 19 15.45 91.87 10 10 8.13 100.00 totaal 123 100 100.00 Lecture 1: 25 / 49 Lecture 1: 26 / 49 Frequentieverdelingen: bar chart Frequentieverdelingen: histogram 10 tot 20 groepen met even groot domein. Lecture 1: 27 / 49 Lecture 1: 28 / 49

Scoreverdelingen: percentiel(score) Frequentietabel De score van het n e percentiel (P n ) is de score waarbij tenminste n% in de verdeling lager of gelijk scoort, en tenminste 100-n% hoger of gelijk. Bijvoorbeeld P 90 = 189 kan betekenen dat 90% van alle Nederlanders een lengte 189 cm heeft. Het meest gebruikte percentiel is de mediaan P 50 : 50% van de observaties liggen links van de mediaan. Soms wordt ook nog gebruikt: P25 (heet ook eerste kwartiel), P75 (heet ook derde kwartiel). Pas op bij frequenties groter dan 1. Wat is de mediaan? 7 Wat is P 25? 6 Frequentie Percentage Cumul. perc. 4 14 11.38 11.38 5 15 12.20 23.58 6 19 15.45 39.02 7 22 17.89 56.91 8 24 19.51 76.42 9 19 15.45 91.87 10 10 8.13 100.00 totaal 123 100 100.00 Lecture 1: 29 / 49 Lecture 1: 30 / 49 Centrummaten: modus Centrummaten: mediaan Modus ( Eng: Mode ): de waarde in de distributie die het meest voorkomt; de categorie met de hoogste frequentie Ook mogelijk: Bimodaal (kameelverdeling) Multimodaal Het punt dat de waarnemingen door midden deelt, of De waarde die, in de ordening van laag naar hoog, hoort bij de middelste, of Het punt waarbij tenminste 50% lager of gelijk scoort, en tenminste 50% hoger of gelijk scoort. Voorbeeld A: 1, 2, 3, 5, 6 Voorbeeld B: 1, 2, 3, 5, 6, 7 Sorteer van klein naar groot: Bij oneven aantal getallen: kies middelste Bij even aantal getallen: kies gemiddelde van middelste 2 (Excel) Of kies het hele interval ([3,5]) in Voorbeeld B als mediaan. Lecture 1: 31 / 49 Lecture 1: 32 / 49

Centrummaten: gemiddelde Test Indicatie van het evenwichtspunt van de meetwaarden. De som van alle waarden, gedeeld door het aantal waarden Populatie: N i=1 µ = X i N Steekproef: n i=1 X = X i n Student Gevulde koeken Jesse 2 Jasper 4 Jordy 4 Jorrit 3 Jarno 2 Gemiddelde X = 3 Als X i heeft frequentie f i, dan fi X i X = n Q: Op welk meetniveau kunnen de centrummaten toegepast worden? Mediaan Modus Gemiddelde Nominaal? (Modus) Ordinaal? (Modus, mediaan) Interval? (Modus, mediaan, gemiddelde) Ratio? (Modus, mediaan, gemiddelde) Q: Welke centrummaat is gevoelig voor outliers (uitbijters)? Lecture 1: 33 / 49 Lecture 1: 34 / 49 Voorbeelden Spreidingsmaten Voorbeeld A: 1 2 2 3 5 6 7 8 11 Gemiddelde =? 5 Mediaan =? 5 Voorbeeld B: 1 2 2 3 5 6 7 8 20 Bereik Variantie Standaarddeviatie Gemiddelde =? 6 Mediaan =? 5 Lecture 1: 35 / 49 Lecture 1: 36 / 49

Spreidingsmaat: bereik of range Spreidingsmaten: Populatievariantie Hoogste waarde minus laagste waarde in een distributie Zegt niets over hoe het aantal scores verdeeld is binnen dat bereik. Gemiddelde kwadratische afwijking van het gemiddelde N σ 2 i=1 = (X i µ) 2 N Standaarddeviatie N i=1 σ = (X i µ) 2 N Student Gevulde koeken Jesse 2 Jasper 4 Jordy 4 Jorrit 3 Jarno 2 Lecture 1: 37 / 49 Lecture 1: 38 / 49 Spreidingsmaten: Steekproefvariantie Spreidingsmaten: Interquartile range Schatting voor populatievariantie σ 2 Gemiddelde kwadratische afwijking van het gemiddelde n s 2 i=1 = (X i X) 2 n 1 Standaarddeviatie n i=1 s = (X i X) 2 n 1 Vrijheidsgraden df = n 1 Student Gevulde koeken Jesse 2 Jasper 4 Jordy 4 Jorrit 3 Jarno 2 s 2 = (2 3) 2 +(4 3) 2 +(4 3) 2 +(3 3) 2 +(2 3) 2 4 = = 4 4 = 1 Herinnering: P 25 = eerste kwartiel (Eng: quartile) P 75 = derde kwartiel IQR = Interquartile range = P 75 P 25. Lecture 1: 39 / 49 Lecture 1: 40 / 49

Relaties tussen twee of meer variabelen Voor twee nominale variabelen: Kruistabel:Tweedimensionaal frequentiediagram. Voorbeeld Relatiematen Twee variabelen: X en Y, met Gemiddelden: X en Y Standaarddeviaties: sx en s Y Covariantie: cov(x, y) = (Xi X)(Y i Y) n 1 Correlatie: r = cov(x, y) s x s y, ( 1 r 1 Lecture 1: 41 / 49 Lecture 1: 42 / 49 Correlatie: voorbeeld Correlatiematrix uit Excel Student Blikjes Gevulde Regels Cola koeken Code Jesse 3 2 153 Jasper 4 4 196 Jordy 1 4 52 Jorrit 5 3 252 Jarno 6 2 301 Cola vs code Koeken vs code Regels code Cola vs code 300 250 200 150 100 50 0 0 1 2 3 4 5 6 Blikjes cola Regels code Koeken vs code 350 300 250 200 150 100 50 0 0 1 2 3 4 5 Gevulde koeken 300 350 Regels code 250 200 150 100 50 0 0 1 2 3 4 5 6 Blikjes cola Regels code 300 250 200 150 100 50 0 0 1 2 3 4 5 Gevulde koeken r dicht bij 1 of -1: lineair verband r Cola Koeken Code Cola 1 Koeken -0.5198 1 Code 0.9995-0.5398 1 Lecture 1: 43 / 49 Lecture 1: 44 / 49

Verband correlatie Correlatie Causaliteit Redbull vs code 300 250 Regels code 200 150 100 50 0 0 1 2 3 4 5 6 Blikjes redbull Kwadratisch verband. Correlatie r = 0. Lecture 1: 45 / 49 Lecture 1: 46 / 49 Correlatie Causaliteit (2) Correlatie Causaliteit (2) Figure 2: The relationship between broadband speed and household income 10 Broadband speed (Mbps) 8 6 4 South Africa Mexico Brazil China (urban) Germany France Italy Spain Japan UK Sweden US India 2 0 20,000 40,000 60,000 Annual household income (USD PPP) Lecture 1: 47 / 49 Lecture 1: 48 / 49

Samenvatting Variabelen Meetniveaus Beschrijvende statistiek Volgende keer: Theoretische kansverdelingen Z-scores Normale verdeling Steekproefverdeling Centrale limietstelling Lecture 1: 49 / 49