College 1: Introductie van onderzoek

Vergelijkbare documenten
College 4 Inspecteren van Data: Verdelingen

College Week 4 Inspecteren van Data: Verdelingen

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

Hoofdstuk 2: Verbanden

9. Lineaire Regressie en Correlatie

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

Data analyse Inleiding statistiek

Oefenvragen bij Statistics for Business and Economics van Newbold

Eerst wordt ingegaan op de verschillende soorten data die we kunnen verzamelen en hoe datasets georganiseerd zijn.

Examen Statistiek I Feedback

College 7. Regressie-analyse en Variantie verklaren. Inleiding M&T Hemmo Smit

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

8. Analyseren van samenhang tussen categorische variabelen

A. Week 1: Introductie in de statistiek.

Inleiding Applicatie Software - Statgraphics

Statistiek I Samenvatting. Prof. dr. Carette

Voorbeeldtentamen Statistiek voor Psychologie

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn

College 2 Enkelvoudige Lineaire Regressie

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Hoofdstuk 10: Regressie

Frequentiematen voor ziekte: Hoe vaak komt de ziekte voor

1. Reductie van error variantie en dus verhogen van power op F-test

Hoofdstuk 5: Steekproevendistributies

Onderzoek. B-cluster BBB-OND2B.2

HOOFDSTUK 2: VERBANDEN

College 6. Samenhang tussen variabelen. Inleiding M&T Hemmo Smit

Statistiek voor A.I. College 2. Donderdag 13 September 2012

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

11. Multipele Regressie en Correlatie

Data analyse Inleiding statistiek

Paragraaf 5.1 : Frequentieverdelingen

TIP 10: ANALYSE VAN DE CIJFERS

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

Hoofdstuk 2 : Grafische beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek

Samenvattingen 5HAVO Wiskunde A.

Statistische variabelen. formuleblad

Kerstvakantiecursus. wiskunde A. Rekenregels voor vereenvoudigen. Voorbereidende opgaven HAVO kan niet korter

College Week 2 Observeren en Meten

Feedback proefexamen Statistiek I

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen....

Je kunt al: -de centrummaten en spreidingsmaten gebruiken -een spreidingsdiagram gebruiken als grafische weergave van twee variabelen

Kansrekening en Statistiek

Samenvatting Wiskunde Samenvatting en stappenplan van hfst. 7 en 8

Statistiek II. Sessie 3. Verzamelde vragen en feedback Deel 3

Onderzoeksmethodiek LE: 2

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Hoofdstuk 4 Kansen. 4.1 Randomheid

Y = ax + b, hiervan is a de richtingscoëfficiënt (1 naar rechts en a omhoog), en b is het snijpunt met de y-as (0,b)

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Populatie: De gehele groep elementen waarover informatie wordt gewenst.

Grafieken Cirkeldiagram

Inleiding tot de meettheorie

Havo A deel 1 H2 Statistiek - Samenvatting

datavisualisatie Stappen verzamelen en opschonen analyseren van data interpeteren hoorcollege 4 visualisatie representeren

bijspijkercursus wiskunde voor psychologiestudenten bijeenkomst 6 statistiek/gegevensverwerking los materiaal, niet uit boek [PW]

2 Data en datasets verwerken

Hoofdstuk 5 Een populatie: parametrische toetsen

College 2 Observeren en Meten

DOEN! - Praktische Opdracht Statistiek 4 Havo Wiskunde A

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

SPSS. Statistiek : SPSS

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

DEEL II DOEN! - Praktische opdracht statistiek WA- 4HAVO

A. Business en Management Onderzoek

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Exponentiële Functie: Toepassingen

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018

Overzicht statistiek 5N4p

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

2 Data en datasets verwerken

META-kaart domein - Exponentieel verband havo4 wiskunde A H=bxg^t

Kansrekening en Statistiek

Hoofdstuk 12: Eenweg ANOVA

Statistiek: Herhaling en aanvulling

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

HOOFDSTUK VII REGRESSIE ANALYSE

Onderzoeksmethoden: Statistiek 1

3.1 Procenten [1] In 1994 zijn er 3070 groentewinkels in Nederland. In 2004 zijn dit er nog 1625.

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

Statistiek II. Sessie 1. Verzamelde vragen en feedback Deel 1

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Statistiek. Beschrijvende Statistiek Hoofdstuk 1 1.1, 1.2, 1.5, 1.6 lezen 1.3, 1.4 Les 1 Hoofdstuk 2 2.1, 2.3, 2.5 Les 2

Kansrekening en Statistiek

2.1.4 Oefenen. d. Je ziet hier twee weegschalen. Wat is het verschil tussen beide als het gaat om het aflezen van een gewicht?

College 1 Grondprincipes van de Wetenschap

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Oplossingen hoofdstuk XI

2.3 Frequentieverdelingen typeren

Gegevensverwerving en verwerking

Populaties beschrijven met kansmodellen

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

Vaardigheden IV Delphine De smet 3 theorielessen 2 practica in groepen per 40, oefenen in SPSS

D) Alle drie de variabelen kunnen zowel afhankelijke als onafhankelijke variabelen zijn.

Statistiek voor A.I. College 1. Dinsdag 11 September 2012

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16

Meten: algemene beginselen. Harry B.G. Ganzeboom ADEK UvS College 1 28 februari 2011

Checklist Wiskunde A HAVO HML

Transcriptie:

College 1: Introductie van onderzoek Wetenschappelijk onderzoek is de zoektocht naar kennis, de waarheid. Dit moet kwalitatief zo goed mogelijk zijn. Deze kwaliteit wordt gewaarborgd door wetenschappelijk onderzoek. Eind 19 e eeuw kwam er meer kennis op basis van wetenschappelijk onderzoek. Pioniers in de gedragswetenschappen waren James, Wundt en Watson. Er is altijd een bepaalde methode bij wetenschappelijk onderzoek. Dit betekent dat er een stappenplan is, hoe je het beste kan onderzoeken. De reden hiervoor is dat het repliceerbaar moet zijn. Een wetenschappelijk onderzoek moet aan een aantal criteria voldoen: - Systematisch empirisme: niet alleen denken, maar ook waarnemen, ervaren en zien wat je wil onderzoeken - Publieke verificatie: Andere mensen moeten kunnen checken en controleren wat jij gedaan hebt - Oplosbare problemen: heb je de mogelijkheid om het met wetenschappelijke methodes te onderzoeken? Bij pseudowetenschap voldoet het onderzoek niet aan de eisen, maar het onderzoek claimt wel wetenschappelijk te zijn. Het onderzoek is niet empirisch, niet verifieerbaar en bevat onweerlegbare hypothesen. Twee soorten onderzoek: - fundamenteel onderzoek is kennis vergaren en uitbreiden. Bijv: Hoe verloopt de ontwikkeling van een kind. - toegepast onderzoek is probleem oplossen en de methode toepassen, meer praktijkgericht; rekeninghoudend met de ontwikkeling, hoe kunnen we pesten op school aanpakken? Drie doelen van onderzoek: - Beschrijven, bijv. Welke vormen van autisme zijn er? - Voorspellen, bijv. de citotoets - Verklaren, vaak waarom vragen Vier soorten onderzoek: - Beschrijvend: Hoeveel kinderen in NL worden mishandeld? - Correlationeel: voorspellen, verband; wat is de relatie tussen kenmerken van het kinderdagverblijf en de kwaliteit van de interactie tussen kinderen? - Experimenteel: proberen verklaren. Causaal; oorzaak gevolg. Het manipuleren van een variabele. Belangrijk is: aselect toewijzen (at random) en herhaling met meerdere proefpersonen. Is muziek op de achtergrond van invloed op het concentratievermogen van kinderen tijdens een leesles? - Quasi-experimenteel: experiment dat je wilt doen, maar niet kan door bijvoorbeeld ethise factoren; is het gebruik van kalmerende middelen van invloed op tentamencijfers? Een theorie is een stelsel van uitspraken dat de relatie tussen concepten beschrijft en verklaart. Een voorbeeld is de gehechtheidstheorie. Een hypothese is een als voorlopige waarheid aangenomen, maar nog te bewijzen uitspraak (veronderstelling) die getoetst wordt. (voorspelt wat er gaat gebeuren. Vooraf (a priori), niet achteraf (post hoc). De belangrijkste eis van een hypothese is dat hij falsificeerbaar moet zijn, oftewel te

verwerpen. Voordat je tot een hypothese komt, moet het volgende gebeuren: - het formuleren van een specifieke propositie die logisch volgt uit de theorie - het formuleren van een propositie die waarschijnlijk volgt uit geobserveerde feiten. - Deductief: als theorie klopt, moet hypothese uit theorie ook kloppen. - Inductief: Een waarschijnlijkheidsrelatie. Door te observeren een hypothese kunnen formuleren. Twee soorten definities van een begrip: - Het conceptuele begrip omschrijft het begrip, als het ware uit het woordenboek. - Het operationele begrip laat zien hoe iets wordt gemeten. Daardoor is het repliceerbaar. Begrip zoals bedoelt operationalisatie begrip zoals bepaald. Als je hypothese niet blijkt te kloppen, klopt je hele theorie niet. Als je hypothese wel blijkt te kloppen, wil dat niet zeggen dat de hele theorie ook klopt. Dat is de reden waarom er over één theorie meerdere studies moeten worden gedaan. Als hier dezelfde conclusies uitkomen kan worden aangenomen dat de theorie klopt.

College 2: Verschillende meetniveaus, frequentieverdelingen en grafieken Data is gegevens die je hebt verzameld, numerieke feiten (cijfers). Vaak gegevens van mensen in cijfers. Nummers hebben een bepaalde context (bijvoorbeeld inkomen, leeftijd, onderzoeksvraag).als we data zinvol willen interpreteren moeten we deze context begrijpen (wat wil je voor vraagstelling beantwoorden?) In de structuur van de data staat informatie van verschillende individuen. Deze individuen zijn cases (groepen) of personen. De individuen zijn de objecten waar het onderzoek op uitgevoerd wordt. Een variabele is elk mogelijk kenmerk van een individu (bijv. geslacht, leeftijd). Dit varieert tussen personen. In een dataset staan alle variabelen van de individuen in. Dit is een centrale tabel met ruwe gegevens van een onderzoek. In de kolommen staan de variabelen en er kunnen alleen getallen worden ingevoerd. Vaak wordt er een label of getal gekoppeld aan de uitkomst van de variabele. Belangrijke vragen voordat het onderzoek wordt gedaan: - waarom zijn de data verzameld? (om vraagstelling te beantwoorden) wat was het doel? (welke vraagstelling) - wie zijn de individuen (hoeveel?) - wat stellen de variabelen voor? (hoeveel, meeteenheid (jaren, maanden, punten), meetniveau (geslacht, leeftijd label, getal) Twee verschillende meetniveaus: - een categorische variabele plaatst een proefpersoon in één van de twee of meer groepen of categorieën (etniciteit, man/vrouw) Deze variabele heeft wel een label, maar het getal heeft geen betekenis. o Nominaal: de labels zijn van elkaar uitsluitende categorieën (haar kleur, geslacht) Het is een label zonder waarde. Het maakt niet uit of man het label 1 of het label 2 krijgt. o Ordinaal: de volgorde staat vast en is zinvol. De ene waarde is meer of hoger dan de andere (mening euthanasie, opleidingsniveau) De getallen hebben geen numerieke betekenis. - Met een numerieke variabele kan je optellen, aftrekken en vermenigvuldigen (leeftijd, gewicht, lengte). Dit getal heeft een betekenis. o interval: gelijke afstanden tussen de waarden representeren gelijke afstanden in werkelijkheid. Getal heeft betekenis. Je kan ermee op/aftrekken. Met dit getal kan je niet vermenigvuldigen. Het nulpunt is arbitrair, niet absoluut. Wanneer je 3 kg boven het landelijk gemiddelde zit, betekent dit niet dat je drie keer zo zwaar bent. (bijvoorbeeld landelijk gemiddelde, temperatuur) o ratio: de variabele heeft een werkelijk nulpunt. Waarde 0 is ook werkelijk niks. (lengte, inkomen, leeftijd, aantal kinderen per gezin) Een discrete variabele kan alleen een hele waarde aannemen. Een voorbeeld hiervan is een onderzoek naar de hoeveelheid liefdesrelaties van mensen. Bij een categorische variabele gebruik je een frequentieverdeling om data te beschrijven. Deze geeft aan hoe vaak een categorie voorkomt. De absolute frequentie geeft aan hoe vaak de score voorkomt. Eerst moet er afzonderlijk naar de variabelen worden gekeken en dan pas naar de relaties ertussen. Ook moet het eerst visueel bestudeerd worden en daarna pas naar de numerieke aspecten worden gekeken (met bijvoorbeeld een

frequentieverdeling). Het percentage wordt berekend door de absolute frequentie te delen door het aantal respondenten en deze uitkomst te vermenigvuldigen met 100. Het valide percentage wordt berekend door de absolute frequentie te delen door de som van de frequenties van alle bekende waarden en deze uitkomst te vermenigvuldigen met 100. De cumulatieve frequentie is de som van de frequentie van de scorewaarde zelf en de frequenties van alle lagere klassen. Het cumulatieve percentage is de som van het percentage van de scorewaarde zelf en alle percentages van de lagere klassen. Dit wordt berekend met het valide percentage. Om de categorische variabele grafisch weer te geven wordt er gebruik gemaakt van een staafdiagram. Op de x-as staan de categorieën en op de y-as de frequentie. Tussen de staven zit ruimte. Ook wordt er gebruik gemaakt van een pie chart. In dit taartdiagram wordt er gewerkt met percentages. Bij een numerieke variabele wordt er gebruik gemaakt van een stemplot, ook wel stam-blad diagram genoemd om de data te beschrijven. Iedere frequentie die voorkomt wordt gesplitst in een tak en een blad. Voor een grafische weergave wordt er gebruik gemaakt van een histogram. Deze staven liggen tegen elkaar aan. De grootte van de staven heeft een betekenis. Deze klassenbreedte is dus erg belangrijk in het maken van een histogram. Als er teveel klassen zijn zal hij een platte vorm hebben en bij te weinig klassen een hoge vorm. Bij tijdsgrafieken staat de tijd op de x-as. Meestal wordt een tijdsgrafiek gebruikt voor dingen die op een bepaalde tijd veranderen. Seizoensvariatie is een regelmatig zich herhalend patroon in de tijdreeks. Een trend is een langdurige voortdurende stijging of daling. Als er wordt gekeken naar een verdeling moet je kijken naar: - De vorm: Zijn er pieken? Is hij scheef of symmetrisch? - Het middelpunt - De spreiding/verdeling - Afwijkers/uitbijters

College 3: Hoe wordt er gemeten in de gedragswetenschappen, ethiek Er zijn verschillende soorten metingen: Observeren (gedrag direct zien), fysiologische maten (metingen in/aan het lichaam), zelfrapportage (bijvoorbeeld een vragenlijst/interview) en er kan gebruik worden gemaakt van het archief (bestaande gegevens gebruiken, secundair). Als er wordt gekozen voor observeren moeten er drie beslissingen worden gemaakt. - Welke setting kies ik? - Hoe stel ik mijn onderzoeker op? - Welke observatie methode gebruik ik? Er zijn drie soorten settings: - In een naturalistische setting wordt er geobserveerd in een natuurlijke omgeving. Hier wordt geen interventie toegepast. Dit heeft als voordeel dat het erg realistisch is, mensen zijn op hun gemak, de context is zichtbaar, spontane gebeurtenissen kunnen worden gezien. Het nadeel is dat je weinig controle hebt over je onderzoek, je hebt onbewust altijd invloed op de groep waar je observeert, je wordt zelf deel van het onderzoek, het is redelijk subjectief. - In een vooropgezette setting is de situatie ingericht voor observatie en registratie van het gedrag. Bij deze setting heb je veel controle en veel overzicht. Het nadeel is dat de setting niet realistisch is voor de proefpersonen. Ook kan worden afgevraagd of het wel valide is. Komt het ook zo voor in het dagelijks leven? - In een veldexperiment wordt er gezocht naar een tussenvorm. Hier wordt gebruik gemaakt van een natuurlijke omgeving waarin bepaalde aspecten gemanipuleerd worden. Het is een stuk realistischer en er is een zekere mate van controle. De onderzoeker kan verborgen worden opgesteld, hierin weten de participanten niet dat er iemand naar ze kijkt. Nadeel hiervan is dat er vaak ethische problemen aan hangen. De onderzoeker kan ook openlijk worden opgesteld, hier weten de participanten wel dat ze worden geobserveerd. Nadeel hiervan is de reactiviteit. De reactie van proefpersonen kan veranderen als diegene weet wat je onderzoekt, bijv. sociaal wenselijk gedrag. Er is ook een tussenoplossing mogelijk. Een onderzoeker kan bijvoorbeeld niet alles vertellen, indirect meten (bijvoorbeeld in het vuilnis kijken hoeveel flessen drank daarin zitten) of informanten sturen. Dit zijn bijvoorbeeld vrienden van de proefpersoon die het gedrag observeren. Ook kun je iets op video opnemen en later vragen of je het mag gebruiken. Nadeel hiervan is dat alleen mensen die er positief opstaan toestemming zullen geven. Er zijn vier observatiemethoden: - de narratieve methode is ongestructureerd. Hierin wordt het gedrag exact geregistreerd. Dit is erg gedetailleerd en allesomvattend. Wel is deze methode erg intensief, tijdrovend en erg onoverzichtelijk. Deze methode wordt vooral bij kwalitatief onderzoek gebruikt. - Wanneer er gebruik wordt gemaakt van een checklist wordt de aanwezigheid of afwezigheid van gedrag geregistreerd, dus hoe vaak iets gedaan wordt. Dit is erg makkelijk in het gebruik, is overzichtelijk en is gemakkelijk te analyseren. Wel heb je duidelijke operationele definities nodig, omdat het redelijk subjectief is. Zo is het te onderzoeken gedrag duidelijk gedefinieerd. Een andere oplossing om dit tegen te gaan is om de afnemers samen te laten trainen. - Wanneer er gebruik wordt gemaakt van tijdmetingen wordt er gekeken hoelang er zit tussen twee gedragingen of een gebeurtenis en een gedraging (= de latency tijd). Dit is gemakkelijk te meten en te analyseren. Wel is het moeilijk om het te interpreteren. Het kind huilt lang, dus?

- Er kan ook gebruik worden gemaakt van ratingscales. Dit zijn beoordelingsschalen. Deze meten de kwaliteit en intensiteit van het gedrag. Op deze manier krijg je meer informatie en dit is makkelijk te analyseren. Wel is er kans dat de observatoren anders beoordelen. Wat de één sensitief vindt, vindt de ander niet. Bij fysologische maten worden processen in het lichaam gekoppeld aan psychologische processen (cortisol en stress). Dit wordt steeds vaker gebruikt in sociaal-wetenschappelijk onderzoek. Voorbeelden hiervan zijn hartslagmetingen en bloedafname. Positief is dat het harde maten zijn, maar het is vaak lastig te interpreteren. Bij zelfrapportage zijn er verschillende dingen die moeten worden besloten. Er kan gebruik gemaakt worden van een vragenlijst. Deze is anoniem, makkelijk te analyseren, relatief goedkoop en snel. Er kan ook gebruik gemaakt worden van een interview. Hierbij is een gedetailleerder beeld mogelijk, je weet zeker dat de participanten de vraag hebben begrepen, het is geschikt voor kinderen en mensen met een beperking en er is minder kans op ontbrekende waarden. Wanneer een vragenlijst wordt gebruikt, moet er nagedacht worden over de soort vragen. Dit kunnen open vragen zijn, een vijf-puntsschaal, multiple choice vragen enzovoorts. Het nadeel van een vragenlijst is dat er bias kan optreden. Dit zijn fouten in de antwoorden. Als onderzoeker wil je zo min mogelijk vertekening. Het kan zijn dat mensen de vragenlijst sociaal wenselijk invullen, dat de mensen bijna alleen ja of juist nee antwoorden (ja/nee zeggers), er kan centrale tendentie optreden (de participanten geven niet de buitenste antwoorden) en er kan een logische fout ontstaan. Dit kan komen doordat bepaalde vragen erg op elkaar lijken. De logische fout kan worden tegengegaan door vragen die op elkaar lijken niet dicht bij elkaar te zetten in de lijst. Bij archiefdata worden bestaande gegevens gebruiken voor onderzoek. Het voordeel hiervan is dat de date al beschikbaar is. Een nadeel is dat je volledig afhankelijk bent van die data. Soms wordt er gebruik gemaakt van meerdere dataverzamelingmethoden naast elkaar. Methodologisch pluralisme is op meerdere manieren hetzelfde meten. Bij methodologische convergentie wordt er steeds op hetzelfde resultaat gekomen. De ethische regels kunnen op drie verschillende manieren worden toegepast. 1. Deontologisch: Er zijn ethische regels die voor iedereen gelden. 2. Utilitaristisch: Gaat uit van kosten-baten. Wat kosten de ethische problemen en wat krijg ik ervoor terug? 3. Sceptisch: Het is aan de onderzoeker om een goede beslissing te nemen. Bij ethiek moet ook gedacht worden aan fraude. Voorbeelden hiervan zijn data verzinnen of verwijderen en plagiaat plegen.

College 4: Centrale tendentie, variabiliteit, schaaltransformaties Er zijn verschillende maten voor centrale tendentie: - Het gemiddelde bereken je door alle scores op te tellen en deze te delen door het aantal observaties. De formule luidt: x1 + x2 +... + xn x = n Een uitbijter is een extreme waarde die sterk afwijkt van de rest van de waarden. Het gemiddelde gaat hierbij omlaag. N staat voor de grootte van de steekproef. - De mediaan is het middelpunt van verdeling. De mediaan is minder gevoelig voor extreme waarden (uitbijters) dan het gemiddelde, het is een resistente centrummaat. Er zitten evenveel scores boven als onder de mediaan. Dit is het getal waarvoor geldt dat de ene helft van de waarnemingen eronder valt, en de andere helft erboven. De mediaan bereken je door alle scores op te tellen plus 1 en de uitkomst te delen door 2. De formule luidt: (n+1)/2 Bij een even aantal is de mediaan het gemiddelde van de middelste twee. Bij een symmetrische verdeling zijn de mediaan en het gemiddelde gelijk. Naar mate de verdeling schever is, verschillen de mediaan en het gemiddelde meer van elkaar. Er zijn verschillende spreidingsmaten: - variantie (s2) is de gemiddelde gekwadrateerde afwijking tot gemiddelde. Alle afwijkingen moeten worden opgeteld en gedeeld door het totaal. Om negatieve getallen weg te nemen, wordt het kwadraat genomen. De formulie luidt: ( x1 x)² + ( x2 x)² +... + ( xn x)² s² = n 1 Het probleem hierbij is dat de gemiddelde gekwadrateerde afwijking moeilijk inhoudelijk te interpreteren is. Vandaar dat we gebruik maken van de standaarddeviatie. - De standaarddeviatie (s) is de wortel uit de variantie. De standaarddeviatie geeft aan hoeveel de waarden gemiddeld afwijken tot het gemiddelde. Het geeft de gemiddelde spreiding rondom het gemiddelde aan. De standaarddeviatie kan alleen gebruikt worden als het gemiddelde als centurmmaat gekozen is! De standaarddeviatie is niet resistent, uitbijters kunnen dus een grote invloed hebben. Variantie en standaarddeviatie zijn niet resistent. Bij uitbijters of scheve verdelingen kun je beter gebruik maken van een andere spreidingsmaat, namelijk kwartielen. Kwartielen delen de waarneming in 4 gelijke delen op. Namelijk in Q1, mediaan en Q3. Eerst moeten de observaties worden gerangordend van laag naar hoog. Vervolgens moet de mediaan berekend worden (50%). Q1 is de mediaan van de waarnemingen onder de algehele mediaan (25%). Q3 is de mediaan van de waarnemingen van de kwartielen boven de algehele mediaan (75%). Kwartielen kunnen ook worden weergegeven in percentielen. De mediaan is bijvoorbeeld het 50 e percentiel, Q1 is het 25 e percentiel en Q3 is het 75 e percentiel In een vijf-nummersamenvatting wordt er gebruik gemaakt van kwartielen met minimum en maximum. Met deze waarnemingen kan een boxplot worden gemaakt. Dit geeft een zo volledig mogelijk beeld van de spreiding. De vijf-nummersamenvatting kan worden weergegeven in een boxplot.

De interquartiel afstand wordt als volgt berekend: IQR = Q3 Q1. Deze spreidingsmaat is minder gevoelig voor extreme waarden dan de standaarddeviatie. Hij is alleen zinvol bij uitbijters, niet bij een scheve verdeling. 1,5*IQR regel gebruik je wanneer je een uitbijter wilt vinden. Een waarneming is vermoedelijk een uitbijter wanneer hij meer dan 1,5*IQR onder het eerste of boven het derde kwartiel valt. Wanneer dezelfde variabele in verschillende meeteenheden gemeten kan worden wordt er gebruik gemaakt van schaaltransformaties. (km/uur of m/s) Een meeteenheid is makkelijk te veranderen, omdat het lineaire transformaties van elkaar zijn: xnieuw = a + bx Voorbeeld: van km/uur naar m/s: 1 km = 1000 m 1 uur = 3600 sec 1km/uur = 1000/3600 = 0,2778 m/s Xnieuw = 0,2778x Voorbeeld: Celsius naar Kelvin Als de temperatuur met 1 graad Celsius stijgt, stijgt temp in Kelvin ook met 1 graad 0 graden Celsius = 273,15 Kelvin (constante, absoluut nulpunt) Xnieuw = 273,15 + x Effecten bij lineaire transformaties: - vorm van de verdeling verandert niet - gemiddelden en mediaan veranderen wel. Vermenigvuldigen van elke observatie met b, vermenigvuldigt gemiddelde, mediaan, IQR en standaarddeviatie ook met b. - optellen van constante a bij elke observatie, verhoogt gemiddelde, mediaan en kwartielen ook met a. Let op: standaarddeviatie en IQR blijven gelijk. (je blijft nog steeds x van gemiddelde)

College 5: Standaardnormaalverdeling Een populatie is de gehele groep mensen waar je iets over te weten wilt komen, dit is wetenschappelijk interessant. Met de steekproef wil je iets zeggen over de populatie. In de verdeling van een steekproef staat alleen informatie over de onderzochte personen. In een verdeling van de populatie staat informatie over de groep waarin de onderzoeker geïnteresseerd is. Een verdeling van de populatie is nuttig want je kunt de positie van één persoon in de populatie bepalen of posities binnen een populatie vergelijken. Om een steekproef representatief te laten zijn moet hij groot genoeg zijn. Hij kan random (aselect) getrokken worden of select, dan moeten de mensen aan bepaalde criteria voldoen. Een verdeling zegt iets over hoe de waardes van de personen in de steekproef er uit zien (vorm, uitbijters, etc.). Bij een steekproefverdeling krijg je informatie over de onderzochte personen en bij een populatieverdeling krijg je informatie over de groep waar de onderzoeker naar geïnteresseerd is. Bij het kijken naar het verdeling zie je de vorm. Deze kan symmetrisch zijn of juist scheef. Er zijn twee manieren om te bepalen hoe bijzonder één persoon in een verdeling is: 1. Kijken hoeveel mensen er dezelfde waarde hebben 2. Kijken hoeveel mensen er een extremere waarde hebben Discreet betekent dat er een beperkt aantal waarden zijn. Bijvoorbeeld leeftijd in jaren, dit zijn vaste cijfers, hier zit niks tussen. Hierbij gebruik je een staafdiagram. Continu betekent dat alle waarden mogelijk zijn. Hierbij gebruik je een curve. Een uitzondering hierbij is lengte. Dit wordt vaak per klasse in een staafdiagram gezet, terwijl het wel een continue variabele is. In de praktijk wordt vaak discreet gemeten. De populatieverdeling is vaak continu. Wanneer er een histogram van een continue variabele wordt gemaakt geldt: hoe groter het aantal observaties en klassen, hoe gelijkmatiger de verdeling. Een populatieverdeling (curve = vloeiende verdeling van het histogram) is vloeiender dan een steekproef verdeling (histogram). Een dichtheidscurve is een wiskundige benadering van de werkelijkheid. De totale oppervlakte onder de curve is 1 ofwel 100%. De oppervlakte onder de curve is een percentage van de populatie. Van dichtheidscurven met een specifieke vorm zijn de percentages bekend en staan in tabellen. Het gemiddelde is te meten door het balanspunt te vinden. De modus is de top van de verdeling en de mediaan is het midden van de verdeling. Bij een symetrische verdeling is de mediaan gelijk aan het gemiddelde. Bij een groot verschil tussen de mediaan en het gemiddelde is er een scheve verdeling. Wanneer een curve een staart naar rechts heeft, zeggen we dat hij scheef naar rechts is. Het gemiddelde zit dan rechts van de top. Het gemiddelde is dan groter dan de mediaan. Een normaal verdeling, is niet scheef. Deze verdeling heeft een speciale vorm. Hij is klokvorming, symmetrisch en unimodaal, dat wil zeggen ééntoppig. De precieze vorm wordt bepaald door de spreiding. De vuistregel van een normaalverdeling is: 68% van de scores liggen binnen 1σ vanaf µ. 95% van de scores liggen binnen 2σ vanaf µ. 99,7% van de scores liggen binnen 3σ vanaf µ.

Het gemiddelde van een standaardnormaalverdeling is altijd nul. De standaardeviatie is altijd 1. De percentages onder de curve staan in tabel A (More and Macebee), zo kun je dit percentage omzetten naar een z-score (een standaardscore). Een z-score is het aantal standaarddeviaties waarvan de score afwijkt van het gemiddelde. Z-scores zijn handig wat op deze manier kun je uitspraken doen op groepsniveau, je kunt bepalen welke positie een individuele score heeft in de populatie en je kunt scores vergelijken uit verschillende populaties. Beide scores worden dan omgerekend naar z-scores en kunnen zo vergeleken worden. Een hogere z-score betekent meer standaarddeviaties boven het gemiddelde, dus dan is de score hoger. De formule luidt: x µ z = i σ Bij de vraag Hoeveel procent scoort er boven, onder of tussen een bepaalde score volg je het volgende stappenplan: - Formuleer het probleem precies - Maak een situatieschets - Bereken de z-scores van de gegeven x-waarden (z=(x- µ)/σ) - Zoek de bijbehordende p-waarden in de tabel. Let op: dit is de linkerkant onder de curve. - Leid p voor het betreffende gebied af. Wanneer er een score bij het percentage moet worden gezocht, wordt het volgende stappenplan gevolgd: - Formuleer het probleem precies - Maak een situatieschets - Bepaal de betreffende p-waarde - Zoek de bijbehorende z-waarde op in de tabel - Reken z om naar een x-waarde (x = z* σ+ µ) Om een normaal-kwantielplot te tekenen volg je de volgende stappen: - Sorteer de observaties - Bereken de percentielscores voor xi - Zoek de bijbehorende z-scores - Reken z om naar de verwachte x-scores - Plot de geobserveerde xi tegen de verwachte x Wanneer de plot een diagonale lijn benadert is hij normaal verdeeld. Je kan hier echter alleen gebruik van maken als het alleen om een normale verdeling gaat.

College 6: Correlatie Het doel van correlatie is voorspellen. Op basis van één variabele wil je kijken of je ook iets over een ander kan zeggen. Bepaalde waarden van de ene variabele gaan vaker samen met bepaalde waarden van de andere variabele dan met andere waarden van die variabele (Lengte & gewicht, sensitiviteit & gehechtheid, religie & mening abortus). Een relatie is: Als je op de ene variabele hoog/laag scoort, scoor je dan ook op de andere hoog/laag? Relaties tussen variabelen in sociale wetenschappen zij nooit perfect (individu kan afwijken), vaak zwak (moeilijk kenmerken van persoon voorspellen op 1 andere variabele) en vaak complex (relaties zijn niet eenvoudig). De sterkte van het verband moet altijd beschouwd worden in de context, omdat er altijd factoren zijn die een bepaalde invloed hebben. Relaties kunnen tussen twee numerieke variabelen, tussen een numerieke en een categorische en tussen twee categorische variabelen zijn. Bij correlatie kijken we alleen naar de relatie tussen twee categorische variabelen. Zonder info over de relatie tussen leeftijd en leesvaardigheid, kun je alleen het gemiddelde van de leesvaardigheid bepalen bij elke leeftijd. Een valkuil is dat je niet zomaar iets kunt veronderstellen. Wanneer je wel informatie hebt over de relatie kun je over het algemeen zeggen dat oudere kinderen beter lezen dan jongere kinderen. Het doel van de regressielijn is informatie geven over de relatie. Deze lijn voorspelt de score op y op basis van de score op x (in plaats van gemiddelde). Twee typen variabelen: - Een predictor is onafhankelijk, bron, oorzaak, verklaring (veroorzaken) - Een respons is afhankelijk, gevolg, uitkomst (wat erop reageert) Twee typen samenhang: - Bij een symmetrische samenhang is er geen onderscheid tussen de predictor en de respons (alle twee dezelfde rol). - Bij een asymmetrische samenhang is er wel onderscheid tussen predictor en respons (ene is oorzaak, andere gevolg). Een scatterplot is een plot met punten. De waarden van de variabele x staan op de x-as. Dit is de oorzaak (de predictor). De waarden van variabele y staan op de y-as. Dit is het gevolg (de respons). Wanneer een lijn stijgend is, is de richting positief. Dit betekent dat als er meer is van het een, er ook meer is van het ander. Een lijn kan ook negatief, dus dalend zijn. Wanneer er dan meer van het een is, is er minder van het ander. Soms is er een derde variabele nodig, anders krijg je een verkeerd beeld. De schaling van een scatterplot is essentieel. Ook kun je op het scatterplot zien of hij lineair is (als er een rechte lijn door te trekken valt), of er uitbijters zijn en of de correlatie sterk, zwak of matig is. De maat waarmee we de samenhang meten is de correlatiecoëfficiënt. De correlatiecoëfficiënt wordt aangeduid met Pearson s R. Dit is een indicatie voor de sterkte van de samenhang. De correlatiecoëfficiënt ligt altijd tussen de -1 en 1. Wanneer hij dicht bij de -1 of 1 zit is er een sterke relatie, de punten benaderen een rechte lijn. Wanneer hij dicht bij de 0 zit, is er een zwakke relatie, de punten benaderen een cirkel. De correlatiecoëfficiënt is ongevoelig voor schaling en gevoelig voor uitbijters. Een negatieve correlatie is een dalende lijn en een positieve correlatie is een stijgende lijn.

De correlatiecoëfficiënt wordt als volgt uitgerekend: - reken de z-scores uit van x en y. - vermenigvuldig x en y per individu - tel de uitkomsten op - deel het resultaat door n-1 De formule luidt als volgt: 1 r = n 1 x i x yi y sx sy ( ) 1 z x z y n 1 Er zitten ook een aantal haken en ogen aan de correlatie. Bij een correlatie kan je alleen gebruik maken van numerieke variabelen, deze kan je ordenen en hebben een volgorde. Nominale variabelen kunnen dit niet (bijvoorbeeld sterrenbeeld. Hier is geen duidelijke ordening). Ook kun je geen uitspraak doen over de hoogte van de scores. Een correlatiecoëfficiënt vertelt alleen maar of het verband sterk is of niet, het geeft niet de verhouding. Wanneer je de correlatiecoëfficiënt berekent op gemiddelde scores zal deze hoger zijn dan van ruwe scores. Op basis van een correlatie kunnen er geen causale uitspraken worden gedaan. Het generaliseren naar de populatie is gevaarlijk wanneer je maar weinig observaties, een niet-representatieve steekproef en ongeloofwaardige verbanden hebt. Je kunt dus alleen iets zeggen over relatieve hoogtes en geen absolute hoogtes.

College 7: Regressie Bij het beschrijven van een relatie ga je eerst het scatterplot bekijken (vorm, uitbeiters, linaire relatie?). Daarna bepaal je hoe sterk de relatie is met de variantie (r) of de verklaarde variantie (r2). Als je dat gedaan hebt ga je aan de slag met de regressielijn. De regressielijn is de beste passende lijn door een puntenwolk. Vergelijking: y=a+bx a= y bij x=0 (intercept) b= helling: 1 verandering in y bij één eenheid verandering in x. Met elke waarde voor x kun je de bijpassende y voorspellen. Formules: rechte lijn: y = a + bx voorspelde waarde voor y (regressielijn): ˆ = b + b x y 0 1 geobserveerde waarde: y b x + e i = b0 + 1 i i residu = error = e = y yˆ regressiecoëfficiënt/ helling: intercept: b0 = y b1 x i i b = r 1 s s y x Kenmerken regressie: - De regressielijn loopt altijd door het punt ( x, y) - Het intercept is niet altijd af te lezen uit de plot (de x-as loopt niet altijd tot 0) Wanneer r 0 is, dan is b1 ook 0. Als dit zo is, is er geen relatie. De best passende lijn is de lijn met zo min mogelijk afwijking tot de voorspelling. Die afwijking heet de error. Dit is de geobserveerde waarde de voorspelling. Als het punt boven de regressielijn ligt is de error positief, als het punt onder de regressielijn ligt is de error negatief. De least square regression line is de lijn met de kleinst gekwadrateerde error. Dit moet in het kwadraat zodat de negatieve getallen wegvallen. Dit bereken je door alle error s bij elkaar op te tellen. De stijlheid van de regressielijn is afhankelijk van de schaal van x en y. Om de lijn te tekenen kun je gewoon twee x-en in de formule invullen. Het is handig om de gemiddelde x en y te nemen als eerste punt en x=0 (intercept) als tweede punt. De lijn kun je dan door die twee punten tekenen. De voorspelling is echter niet perfect. Op individueel niveau zit de (groeps)voorspelling er altijd naast. Hoeveel een punt er vanaf ligt wordt bekeken met de correlatiecoëfficient. De verklaarde variantie (r²) is een maat voor succes voor de voorspelling. Bij een perfect verband is r²=1. Dit kun je interpreteren als percentage. Met de verklaarde variantie kijk je hoe goed je met de voorspelde x de voorspelde y kan weten. De verklaarde variantie (r²) is de proportie variantie in y die verklaard kan worden door de voorspelling uit x. Hieruit kun je het succes van de voorspelling afleiden. De waarde ligt altijd

tussen de 0 en de 1 of 0% en 100%. Hoe hoger het percentage, hoe perfecter het verband. Wanneer er veel spreiding is, ligt de waarde dicht bij de 0. Wanneer er weinig spreiding is, is de verklaarde variantie dichtbij 1. Hoe meer de geobserveerde punten bij de voorspelde punten liggen, hoe hoger de verklaarde variantie. Dus hoe dichterbij de regressielijn, hoe nauwkeuriger de voorspelling. Bij een perfecte voorspelling is r²=1. 2 Variantie voorspelde waarden = s ŷ 2 Variantie geobserveerde waarden = s y 2 2 De punten liggen exact op regressielijn dus s = s Verklaarde variantie = s s 2 yˆ 2 y = 1 yˆ y Bij een niet perfecte voorspelling liggen de punten verspreid rond de lijn, dus s < s 2 yˆ 2 y Een regressie heeft dezelfde haken en ogen als een correlatie. Een residuënplot geeft de error weer. Het is een plaatje van alle afwijkingen van de regressielijn. Als er een patroon in te herkennen is, is dat goed. Een univariatie uitbijter wijkt tenminste 1,5 IQR af van Q1 of Q3. Een bivariaat uitbijter wijkt duidelijk af van het patroon van de overige observaties. Dit is een invloedrijke observatie, dus een uitbijter met een duidelijke invloed op r. Extrapolatie zijn uitspraken over relaties buiten de range van geobserveerde gegevens. Dit moet je dus voorkomen. Het restricted range probleem is de onvolledige dekking van het domein. Dit leidt tot een lagere correlatie. Dit kan komen door bijvoorbeeld te weinig informatie of een niet representatieve steekproef.