1.2 Beschrijvende statistiek

Vergelijkbare documenten
7.1 SPSS, Een summier overzicht van een aantal faciliteiten

Analyse van kruistabellen

Onderzoek. B-cluster BBB-OND2B.2

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

d. Maak een spreidingsdiagram van de gegevens. Plaats de x-waarden op de x-as en de z-waarden op de y-as.

b. Maak een histogram van de verdeling van het groeiseizoen. Kies eerst klassen en maak een geschikte frequentietabel.

Verband tussen twee variabelen

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

Voer de gegevens in in een tabel. Definieer de drie kolommen van de tabel en kies als kolomnamen groep, vooraf en achteraf.

1. CTRL- en SHIFT-knop gebruiken om meerdere variabelen te selecteren

Handleiding SPSS tabellen en kruistabellen. In een paar stappen van spss data naar bruikbare informatie.

SPSS 15.0 in praktische stappen voor AGW-bachelors Uitwerkingen Stap 7: Oefenen I

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren:

Wat zijn de verschillen tussen SPSS 9 en SPSS 10?

Fasen in het onderzoeksproces

Bij het maken van deze opgave worden de volgende vragen beantwoord:

gemiddelde politieke interesse van hoger opgeleide mensen)

a. Wanneer kan men in plaats van de Pearson correlatie coefficient beter de Spearman rangcorrelatie coefficient berekenen?

Basishandleiding SPSS

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

Beknopte handleiding SPSS versie van 28

Vergelijken van twee groepen (SPSS)

Gemiddelde, mediaan, kwartielen, interkwartielafstand, minimum, maximum, variantie, standaardafwijking, boxdiagrammen

Opdracht 5a Kruistabellen

Hoofdstuk 4. Beschrijvende statistiek. 4.1 Beschrijvende statistiek voor één variabele

1. Introductie tot SPSS

Technische uitwerkingen voor het SPSS practicum Toetsende Statistiek

Hierbij is het steekproefgemiddelde x_gemiddeld= en de steekproefstandaardafwijking

feb 2013 Instituut CMI SPSS les 2

SPSS. Statistiek : SPSS

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Hoofdstuk 5 Een populatie: parametrische toetsen

Het gebruik van Excel 2007 voor statistische analyses. Een beknopte handleiding.

Beschrijvende statistieken

Grafieken Cirkeldiagram

Toegepaste Statistiek, Week 6 1

Hoofdstuk 18. Verbanden tussen variabelen vaststellen en interpreteren

Het gebruik van SPSS voor statistische analyses. Een beknopte handleiding.

Moleculaire LevensWetenschappen stroom 1.2

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

Oplossingen hoofdstuk Het milieubesef

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

SPSS VOOR DUMMIES+ Werken met de NSE: enkele handige basisbeginselen. Gebaseerd op SPSS21.0 & Benchmarkbestand NSE 2014

Statistiek met Excel. Schoolexamen en Uitbreidingsopdrachten. Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Statistiek 2 deel A 30 minuten over statistisch toetsen

9. Lineaire Regressie en Correlatie

SPSS Opstarten & gegevens inlezen Gegevens verkennen Beschrijvende statistiek

Inleiding Applicatie Software - Statgraphics

Oefenvragen bij Statistics for Business and Economics van Newbold

Oplossingen hoofdstuk 9

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Hoofdstuk 2 : Grafische beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Bestaat er een betekenisvol verband tussen het geslacht en het voorkomen van dyslexie? Gebruik de Chi-kwadraattoets voor kruistabellen.

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

College 4 Inspecteren van Data: Verdelingen

Beschrijvende statistiek

Hoofdstuk 5. Dobbelen, echt en virtueel. > Maak in SPSS een nieuwe data-verzameling (File > New > Data). We gaan hier de

Menu aansturing van SPSS voorbeeld in paragraaf 6.5 van hoofdstuk 6 over multipele regressie analyses van recidive bij jongens

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn.

Data analyse Inleiding statistiek

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

A. Week 1: Introductie in de statistiek.

Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse

c. Geef de een-factor ANOVA-tabel. Formuleer H_0 and H_a. Wat is je conclusie?

Inleiding Statistiek met Statistica

TI83-werkblad. Vergelijkingen bij de normale verdeling

INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 5

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf

Opgeloste Oefeningen Hoofdstuk 6: Steekproeven en empirische distributies

Oplossingen hoofdstuk 4

Appendix B Computeranalyse van kwantitatieve data

toetsende statistiek deze week: wat hebben we al geleerd? Frank Busing, Universiteit Leiden

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan.

Hoofdstuk 6 Twee populaties: parametrische toetsen

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

[aanvullend hoofdstuk, behorend bij Grotenhuis, M. te & Matthijssen, A. (2006). Basiscursus SPSS, versie 10-14, Assen: Van Gorcum]

8. Analyseren van samenhang tussen categorische variabelen

BESCHRIJVENDE STATISTIEK MET GEOGEBRA 4.0

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

Akternatieve doorrekenen. 7.2 Tabellen

toetskeuze schema verschillen in gemiddelden

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

Data analyse Inleiding statistiek

G0N11C Statistiek & data-analyse Project tweede zittijd

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur

Zomerschool Vakdidactisch Onderzoek Leuven, 8-10 september 2010 Sessie 8: Analyse van kwantitatieve data

Modelexamen Statistiek

6.8 Lijsten: oefeningen

5.0 Voorkennis. Er zijn verschillende manieren om gegevens op een grafische wijze weer te geven: 1. Staafdiagram:

Kansverdelingen Inductieve statistiek met Geogebra 4.2

waarin u gegevens in verschillende het wel goed doen Internet Opleidingscentrum

Toegepaste Statistiek, Week 3 1

c Voorbeeldvragen, Methoden & Technieken, Universiteit Leiden TS: versie 1 1 van 6

Deze menu-aansturingen zijn van toepassing op versies 14.0 en 15.0 van SPSS.

4 Domein STATISTIEK - versie 1.2

HOOFDSTUK IV TOETSEN VAN STATISTISCHE HYPOTHESEN

1 Inleiding. 1.1 Werkblad, rijen, kolommen en cellen Als je Excel opent, zie je het volgende scherm (de menubalk bovenin kan iets verschillen):

Transcriptie:

HOOFDSTUK INLEIDING 6 2 Beschrijvende statistiek 2 Variabelen en datatypen De methoden om systematisch empirische kennis te verwerven zijn in alle wetenschappen dezelfde We doen waarnemingen aan of experimenten met het object van onze studie en trachten er met mathematische en statistische methoden uitspraken over te doen, classificaties te maken en verbanden te zoeken De verzamelde gegevens kunnen zeer verschillend van aard zijn Neem bijvoorbeeld een groep 2K studenten We noteren naam (X 0 ), geboortejaar (X ), een aantal fysieke kenmerken zoals geslacht (X 2 ), kleur haar (X 3 ), kleur ogen (X 4 ), gewicht (X 5 ), lengte (X 6 ), een aantal studiekenmerken zoals studierichting (X 7 ), gemiddeld examencijfer in K (X 8 ), gemiddeld examencijfer bij het eindexamen HSO (X 9 ), en nog veel meer Deze gegevens kunnen we ordenen in een tabel van de vorm: X 0 X X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 naam geboorte sexe haarkleur kleur ogen gewicht lengte studie gem K gem HSO jaar V=0 zwart=0 bruin=0 kg cm info=0 op 20 op 00 M= bruin= blauw= nat= blond=2 grijs=2 sch=2 rood=3 groen=3 bio=3 Jan Janssen 983 0 0 837 87 0 8 75 Irma Douce 985 0 2 3 62 65 3 2 62 Tabel : Een multivariate dataset De gegevens in deze tabel zijn zeer verschillend van aard De eerste kolom X 0 bevat een rij karakters, die de menselijke lezer associeert met de naam van een persoon maar die voor de statistische verwerking betekenisloos is De kolommen (of variabelen) X X 4 en X 7 hebben discrete waarden (duiden categorieën aan) maar alleen de waarden van X hebben een natuurlijke ordening, bij de anderen is de keuze van de waarden 0 of 0 2 3 volledig arbitrair We noemen X 2 X 3 X 4 en X 7 daarom nominale variabelen of categorale variabelen en X een ordinale variabele De variabelen X 5 X 6 (lengte en gewicht) en X 8 X 9 (gemiddelde examencijfers) kunnen als continu beschouwd worden (eventueel binnen een gegeven interval) Er is echter een verschil tussen X 5 X 6 enerzijds en X 8 X 9 anderzijds De uitspraak dat een man gemiddeld 5% zwaarder is dan een vrouw of dat Jan 22 cm groter is dan Irma zijn zinvol, maar de uitspraak dat het gemiddelde examencijfer van Jan 50% beter is dan dat van Irma is nonsens Continue variabelen zoals X 8 X 9 noemen we interval variabelen en X 5 X 6 noemen we schalende variabelen of ratio variabelen Samenvattend, in de statistiek onderscheiden we de volgende datatypen: nominaal of categoraal ordinaal interval ratio of schalend de waarden duiden een klein aantal categorieën aan zonder natuurlijke ordening, er is een klein aantal waarden met een natuurlijk ordening, maar de verschillen hebben geen betekenis, de waarden variëren continu binnen een interval, de verschillen hebben een kwantitatieve betekenis, maar verhoudingen niet de waarden variëren continu en verschillen zowel als verhoudingen zijn zinvol In deze cursus zullen we vrijwel uitsluitend ratio variabelen gebruiken

7 Software 7 SPSS, Een summier overzicht van een aantal faciliteiten 7 Inleiding SPSS is een afkorting van Statistical Package for the Social Sciences Het wordt veel gebruikt en is al vrij lang op de markt De laatste versies zijn volledig menugestuurd en eenvoudig te gebruiken Het belangrijkste bij het gebruik van zo n pakket is, dat je weet wat een statistisch begrip of toets betekent en hoe hierbij de gegevens gebruikt worden Via de menu s wijst de rest zich dan vanzelf 72 Het werkblad (data editor) In het werkblad worden de gegevens geordend zoals weergegeven in tabel In de kolommen staan de waarnemingen behorende bij een variable In de rijen staan de gevallen ( cases ), de waarnemingen van de verschillende variabelen van eenzelfde persoon of object Links onderaan bevinden zich twee tabs met de namen data view en variable view Het eerste laat de waarnemingen zien en het tweede laat de gegevens over het type van de gebruikte variabelen zien De omschrijving van de variabelen in de variable view dient enerzijds om er voor te zorgen, dat het programma de gegevens in de data-editor goed interpreteert en er correct mee rekent en anderzijds ook om de gegevens voor de menselijke gebruiker leesbaar en overzichtelijk te presenteren De volgende gegevens over een variable worden in de variable view beschreven: naam: werknaam van de variable, maximaal 8 letters en cijfers, beginnend met een letter 2 type: getal, datum of string Een string is een rij karakters, je kunt er niet mee rekenen maar je kunt hem wel als nominale of ordinale variabele gebruiken een erop sorteren Een datum is een speciaal soort string met een eigen sorteervolgorde Een getal kun je gebruiken in een nominale of ordinale variabele (meestal gebruik je dan kleine gehele getallen 0,, 2, 3, ) en als ratio-variabele (reëel getal) Een reëel getal als π 4 arctan kun je neerschrijven als 3459 met decimale punt of komma of als mantisse exponent 03459 E+0 (scientific notation); met 5 decimalen heb je in het eerste geval 8 karakters nodig (plusteken, decimale punt of komma en 6 cijfers) en in het tweede geval 3 Je kunt ook de nauwkeurigere benadering 3459265358979 invoeren SPSS zal deze bij berekeningen ook gebruiken, maar als je het aantal decimalen op 5 hebt staan ga je er in het datawindow nooit meer zien 3 width: aantal karakters dat neergeschreven wordt in het datawindow 4 decimals: als de variabele een getal is, dan kun je hier het aantal neer te schrijven decimalen opgeven 5 label: veld waarin je een uitgebreide omschrijving van je variabele kunt neerschrijven, zodat je ook volgend jaar nog weet wat de betreffende data voorstellen 6 missing: Bij een enquete gebeurt het vaak dat sommige velden niet ingevuld worden; bij het coderen van de data wordt dan vaak een speciaal karakter of getal (bv 9 of 99) gebruikt om dit aan te geven 7 columns align: breedte van het veld in dataview en alignering van de data 8 measure: datatype scale ordinal nominal zoals beschreven in 2 De inhoud van alle velden kun je aanpassen via een submenu dat je oproept door met de muis rechts in het veld te klikken (alleen bij naam en label kun je gewoon in het veld zelf tijpen) 73 Het FILE-menu Het file menu biedt drie mogelijkheden om een bestaande dataset te openen of een nieuwe te creëren: a New: Creëer een nieuw werkblad (data window) b Open: Open een reeds bestaande file Standaard is dit een SPSS-datafile ( sav), maar je kunt via deze weg ook een tekst-file ( txt) of een excel-file ( xls) openen door rechts in het menuveld files of type 53

7 Een summier overzicht van SPSS 54 te klikken en het gewenste type te selecteren In een tekst-file moeten de verschillende waarnemingen op een regel gescheiden zijn door tabs (of andere speciale karakters) Als de eerste regel van een Excel-file namen bevat, kan SPSS deze automatisch overnemen c Read ASCII Data: Importeer data uit een ASCII-file, een bestand met pure tekst en dus zonder font- en layout aanwijzingen SPSS zal de gebruiker vragen naar de namen van de variabelen en de wijze waarop de data moeten worden geïnterpreteerd Als je in je werkblad al een bestand in gebruik hebt, wordt dit verwijderd bij het openen van een nieuw Via het file-menu kun je een bestand bewaren (Save) of uitprinten 74 Aanmaken van kolommen en invoeren van data Bij het opstarten van SPSS verschijnt er op het scherm een werkblad (of data editor), mogelijk gevuld met data als je vertrekt van een bestaande file Iedere kolom (variabele) draagt een naam van maximaal 8 karakters Iedere rij (case) draagt een nummer Een cel is bepaald door zijn kolomnaam en zijn rijnummer De cursor wijst altijd naar een cel; rijnummer en kolomnaam ervan staan in de linker bovenhoek Een nieuwe kolom kan alsvolgt worden aangemaakt: a Door in een cel een getal te zetten De bijbehorende kolom krijgt dan het numerieke formaat (F83) van een decimaal getal met 3 cijfers na de komma (decimal point) en de (default) naam var0000x b Door in de variable view een nieuwe regel te vullen met naam en andere gegevens over een variabele zoals boven beschreven c Met Compute in het Transform menu, zie hieronder NB Punt (b) biedt je ook de mogelijkheid om de naam en de presentatie van een bestaande kolom te wijzigen 75 Wegen en selecteren van data Als je datakolom (variabele) X metingen bevat en een tweede datakolom N de aantallen van deze metingen (bv als X en N afkomstig zijn van een frequentietabel), dan kan je de data van X door SPSS laten wegen door de kolom N Hiertoe duid je deze kolom aan als frequency variable in het menu Data weight cases Als je rijen bij de statistische verwerking wilt uitsluiten, kun je dit doen via het menu Data select cases Een eenvoudige manier is om eerst een (extra) kolom met nullen en enen te maken 76 Transformatie van data Met Compute in het Transform menu kun je een nieuwe kolom (target variable) definiëren en de waarden erin berekenen via een formule, samengesteld uit namen van variabelen, getallen en standaard-operatoren ( voor machtsverheffing) en standaardfuncties Variabelen en functies selecteer je in hun menu s en importeer je in het compositie-venster door op de pijl te klikken Voorbeeld : Een kolom met n random getallen maak je door in het menu met Transform Compute een nieuwe kolom te definiëren en te vullen met de functie RVXXX( ), waar RV staat voor Random Variable, XXX de naam is van de gewenste verdeling en de parameters van die verdeling zijn, bv RVnormal(µ σ) als de getallen normaal N µ σ) verdeeld moeten zijn Je moet er wel eerst voor zorgen dat de n-de cel van een kolom een waarde heeft Voorbeeld 2: Een kolom met de rangnummers, 2, 3, maak je door eerst in Transform Compute een nieuwe kolom met waarden te maken en vervolgens hiervan via Transform Time Series een cumulatieve som te maken

7 Een summier overzicht van SPSS 55 In het help menu vind je onder keyword functions een overzicht van de beschikbare functies en in het bijzonder van verdelingsfuncties (Cumulative Distribution functions: Normaal, χn 2, t n, F m n, ) en inverse verdelingsfuncties (voor de berekening van quantielen) Met Sort Cases in het Data menu kun je een bestand sorteren Als je de mogelijkheid wilt hebben om de oorspronkelijke orde terug te krijgen, maak je eerst een kolom met rangnummers De oude orde kun je dan herstellen door op deze kolom te sorteren 77 Grafische weergave van de data Via het Graphs menu kun je onder andere een histogram, een boxplot, een scatterplot en normale P P-plots en Q Q-plots maken a Een histogram kun je op drie manieren maken, automatisch, interactief of manueel i Voor een automatisch histogram kies je het menu Graphs Histogram In het betreffende menu kies je de gewenste variabele en klikt op OK Helaas bevat het plaatje dat SPSS nu maakt een blunder! In plaats van de range, het interval tussen de kleinste en grootste waarde, op te delen wordt een groter interval opgedeeld Dit geeft een probleem als de data binnen een bepaald interval moeten liggen Als de data bv percentages zijn, moeten ze tussen 0 en 00 liggen; een klassenindeling in klassen 5 5 5 5 95 05, zoals SPSS maakt is onzin omdat negatieve waarden en waarden boven 00 niet voor mogen komen; effectief zijn de twee buitenste klassen dan 0 5 en 95 00 en is hun lengte slechts de helft van de andere klassen Je kunt je histogram manueel aanpassen door de chart editor te openen (dubbel klikken op het histogram) en dan via het menu-item chart axis interval OK het veld Intervals: custom te selecteren en dan de gewenste waarden voor minimum, maximum en aantal klassen in te vullen ii Voor een interactief histogram kies je het menu Graphs Interactive Histogram In het pop-up menu kun je kiezen uit een twee- of driedimensionaal histogram; onder assign variables moet je de gewenste variabelen naar de assen slepen met je muis Onder histogram kun je de klassenindeling aanpassen In tegenstelling tot het voorgaande wordt hier wel een opdeling van de range voorgesteld als default iii Manueel kun je een histogram maken door via het menu Transform Compute de gewenste kolom met de functie RND (=round, afronden) af te beelden op de gewenste verzameling klassemiddens en dan een Barchart te maken RND rondt een reëel getal af naar het dichtstbijzijnde gehele getal, als k geheel en k 2 x k 2, dan RND(x k Als je de indeling in klassen a a d, a d a 2d, met klassebreedte d wilt maken, dan kun je de elementen van de kolom OudeCol op de klassemiddens a 2 d 3 a 2 d afbeelden (ga na!) met NieuwCol a d b In het Boxplot-menu heb je de mogelijkheden 0 5 RND OudeCol a d 5 simple clustered en groups of cases separate variables In het geval van groups heb je een aparte variabele (categorie) nodig die je dataset uitsplitst in deelgroepen Voor ieder van deze groepen wordt een aparte boxplot gemaakt Zie help keyword boxplots chart types voor details Uitschieters (data verder weg dan 5 maal het interkwartiel) worden apart getekend als rondjes en grove uitschieters (verder weg dan driemaal het interkwartiel) als sterretjes Een boxplot (in twee of drie dimensies) kun je ook maken via de interactieve weg Graphs Boxplot Interactive

7 Een summier overzicht van SPSS 56 c In een scatterplot van de variabelen X en Y worden de koppels x i y i uitgezet in het XY vlak om te zien of er een verband zou kunnen zijn tussen beide variabelen d P P en Q Q plots: Laat x i i n een gegeven gesorteerde dataset zijn met gemiddelde m, standaarddeviatie s en empirische verdelingsfunctie F X en laat Y N m s de best bijpassende normale verdeling zijn Een normale P P plot is een scatterplot van F X x i i n en de theoretische kans P Y i x i Een normale Q Q plot doet hetzelfde voor de quantielen van beide verdelingen Het is een hulpmiddel om te zien of een dataset (min of meer) normaal verdeeld is 78 Beschrijvende statistiek Via het menu Analyze descriptive statistics Explore vind je het meest uitgebreide overzicht van beschrijvende grootheden zoals gemiddelde, mediaan, modus, standaardafwijking, interkwartiel, range, scheefheid en kurtosis Kwartielen, het betrouwbaarheidsinterval met betrouwbaarheid α, uitschieters, boxplot en histogram kun je opvragen via submenu s statistics en plots Desgewenst kun je deze grootheden laten uitsplitsen naar factoren; als je bijvoorbeeld in tabel een BI voor mannen en vrouwen apart wilt hebben, dan geef je de variabele X 2 (sexe) als factor op Als je decielen of andere percentielen wilt hebben, moet je Analyze descriptive statistics Frequencies gebruiken en de gewenste percentielen invullen in het submenu statistics Als je een variabele wilt standaardiseren (Z X X S), moet je Analyze descriptive statistics Descriptives gebruiken NB Het menu-item crosstabs hoort niet onder beschrijvende statistiek thuis maar onder Nonparametric Tests 79 t-toetsen Te vinden in het menu Analyze Compare Means SPSS geeft als uitvoer de waarde van de toetsgrootheid, de overschrijdingskans Sig (of Significance level), het aantal vrijheidsgraden df en het (tweezijdig) betrouwbaarheidinterval CI (Confidence Interval) Standaard wordt de betrouwbaarheid op 95% gezet maar in het options submenu kun je deze zelf instellen SPSS doet altijd een tweezijdige toets Als je een eenzijdige toets wilt doen, moet je het niveau α verdubbelen om de goede grens voor het betrouwbaarheidsinterval te vinden De door SPSS berekende overschrijdingskans moet je delen door twee Maar je moet wel nagaan of de toetsgrootheid aan de goede zijde van het midden van het betrouwbaarheidsinterval van de tweezijdige toets ligt! a t-toets voor één groep: H 0 : µ µ 0 tegen H : µ µ 0 Selecteer in het One-Sample T Test menu een of meer toets-variabelen, geef de gepostuleerde waarde voor µ op in test value (dezelfde voor alle variabelen!) en kies desgewenst in de options een betrouwbaarheid verschillend van 95% b t-toets voor twee ongepaarde groepen: H 0 : µ µ 2 tegen H : µ µ 2 Zet de beide data-reeksen achtereen in een kolom en kies (of maak) een tweede kolom (de grouping variable) waarin (bv door een integer of 2) is aangegeven tot welke groep het betreffende gegeven behoort Dit mag een categorale variabele zijn, maar ook een reële variabele of een string-variabele Selecteer in het Independent-Samples T Test menu de toetsvariabele en de groeperende variabele Via de knop define groups kun je de twee waarden intijpen, die de te vergelijken groepen aanduiden Je kunt ook een splitsing maken door (bij een ordinale variabele) een cut point te kiezen Zoals het hoort, toetst SPSS eerst met een F-toets (Levene) of de varianties gelijk geacht mogen worden Vervolgens wordt er dan zowel een t-toets gedaan voor het geval, dat de varianties gelijk zijn, alsook een (benaderende) t-toets voor het geval, dat de hypothese van gelijke varianties wordt verworpen De keuze tussen beide resultaten wordt aan de gebruiker overgelaten

7 Een summier overzicht van SPSS 57 c t-toets voor twee gepaarde groepen: H 0 : µ µ 2 tegen H : µ µ 2 Zet de beide data-reeksen in twee kolommen, met overeenkomstige elementen op dezelfde rij Selecteer in het Paired-Samples T Test menu twee toets-variabelen door ze aan te klikken en transporteer ze naar het paired variables window door de pijl aan te klikken Desgewenst kun je zo meerdere paren voor een gepaarde t-toets selecteren Bij de uitvoer vinden we ook het gemiddelde en de standaarddeviatie van beide groepen apart en de correlatie ertussen; bovendien staat onder het hoofdje Sig de significantie (overschrijdingskans) van de hypothese dat deze correlatie nul is Als de correlatie niet significant is, kun je net zo goed een ongepaarde toets gebruiken 70 Toetsen met de χ 2 verdeling a χ 2 -toets op een kansverdeling: H 0 : n i ν i i n tegen H : n i ν i voor minstens één i, waar n i het gemeten aantal van groep i is en ν i het aantal op grond van de gepostuleerde verdeling Via het menu Analyze Nonparametric Tests Chi Square kun je een kolom opgeven met waargenomen frequenties (of een kolom met categorieën gewogen door een kolom met frequenties) Als de verwachte frequenties niet allemaal gelijk zijn, moet je deze in de goede volgorde manueel inbrengen of een syntax window gebruiken, zie 73 b Kruistabellen (contingency tables of crosstabs) Toets H 0 : gegevens in rijen en kolommen zijn onafhankelijk tegen H : er is afhankelijkheid tussen rijen en kolommen Een kruistabel zoals tabel 2 is (vrijwel altijd) een uittreksel van een groter bestand zoals tabel In SPSS kun je niets doen met de kruistabel van de vorm 2 en moet je werken met de primaire data zoals in tabel tabel Uittreksel uit een enquète aantal geslacht stemming 252 man voor 224 man tegen 248 vrouw voor 276 vrouw tegen 20 vrouw blanco 6 man blanco tabel 2 bijbehorende kruistabel man vrouw voor 252 248 tegen 224 276 blanco 6 20 In het menu Data weight cases duid je de kolom aantal aan als frequency variable zodat de andere kolommen met deze aantallen gewogen worden In het menu Analyze Descriptive Satistics crosstabs selecteer je de rij-variabele stemming en kolom-variabele geslacht (of andersom), in het Statistics submenu duid je aan dat je een (benaderende) toets met de Chi-kwadraat verdeling doet en in Cells duid je aan welke tussenresultaten je in je uitvoer wilt zien Als resultaat krijg je de waarde van de toetsgrootheid, het aantal vrijheidsgraden (df) en de overschrijdingskans (Sig) berekend met drie methoden, de oorspronkelijke methode van Pearson (zoals behandeld in de cursus), Pearsons methode met continuïteitscorrectie en de maximum likelihood methode

7 Een summier overzicht van SPSS 58 7 Regressie en correlatieanalyse Zet de data in kolommen X en Y In het menu Analyze regression linear selecteer je de onafhankelijke variabele (X) en de afhankelijke variabele (Y); in het submenu Statistics selecteer je de gewenste uitvoer en in het submenu Plots de gewenste scatterplots 72 De Kolmogorov-Smirnov toets Deze is te vinden in het menu Analyze Nonparametric tests -Sample K-S Je kunt toetsen of je data trekkingen uit een normale, uniforme, Poisson- of exponentiële verdeling zouden kunnen zijn SPSS berekent de tweezijdige overschrijdingskans, de parameter d n in formule (466), de grootste afwijkingen naar beneden en naar boven, en de K-S Z-waarde (=d n n ; het is de geobserveerde waarde van de teller in de breuk op de laatste regel van tabel 45) 73 Het Syntax Window SPSS is van oorsprong een command language; alle opdrachten worden door textcommando s gegeven Bovenop deze command language is een menu-systeem gebouwd, dat de commando s genereert en doorgeeft aan de SPSS-processor Als je via het menu een opdracht samenstelt kun je de equivalente commando s in de SPSS-programmeertaal zien in een syntax window, dat je creëert door je opdracht niet af te sluiten met het aanklikken van OK maar met paste; desgewenst kun je de opdracht aanpassen en (alsnog) uit laten voeren door in de menubalk de betreffende knop (met een klein naar rechts gericht driehoekje) aan te klikken In de meeste gevallen werkt het menu-systeem vrij goed, en hoef je je als gebruiker niets aan te trekken van die command language, maar soms is werken via een menu wel zeer onhandig Via een syntax window kun je dan je commando s bijsturen Een goed voorbeeld is de χ 2 -toets op een kansverdeling, als de kansen van de verschillende klassen niet alle dezelfde waarde hebben Als je volledig via het menu werkt, moet je de verwachte kansen (of waarden) een voor een intijpen maar dat is een methode uit het stenen tijdperk Je kunt echter ook via het menu (Analyze Nonparametric Tests Chi Square ) alle details opgeven behalve deze verwachte waarden en dan vervolgens via de knop paste een syntax window openen en hierin vervangen door verwachte waarden via een copy-paste operatie Als voorbeeld beschouwen we de data van het Rutherford-Geiger experiment (zie tabel 3 in 34) tabel 3 Het SPSS DataWindow voor het Rutherford-Geiger experiment aantal desintegraties per tijdsinterval aantal tijdsintervallen Poisson-kans als λ 3 87 desintgr aantalw thkans 0 57 0209 203 0807 2 383 562 3 525 205 4 532 949 5 408 509 6 273 0973 7 39 0538 8 45 0260 9 27 02 0 0 0043 6 005

Antwoorden op Oefeningen 83 Antwoorden op geselecteerde oefeningen 2a: 9/20 2b: 9/20 2c: kan niet 2d: kan niet 22a: 83/40 22b: 63/83 23a: 0056 23b: 067 23c: 07 24a: /3 24b: /5 26a: 2/3 26b: /2 27: 24/64 28a: /36 28b: /36 28c: /36 28d: 9/36 28e: /5 28f: /36 29a: 0275 29b: 0725 22a: /6 22b: 5 22c: 299 23: 0669 24: p 0 402 p 2 0 296 25a: /6 25b: /32 25c: 5/6 26a: 09 26b: 073 26c: 0533 26d: 020 27: p 0 729 p 2 0 00 28: p 0 009 p 2 0 00043 29: 0000009 220: ja 22: neen 3a: p 0 0525 p 2 0 0787 3b: p 0 0857 p 2 0 0857 32a: 058 32b: 0499 32c: 20 33a: 0075 33b: 0053 34: 0055 35: p 6 3 0 2 p 2 3 2 0 9 36: p 0 306 p 2 0 0254 37: / 38: 332% 39: 2 k 2n 2n k n 30a: /6 30b: 2/3 3: 2/3 32: 2/7 33: 00826 34: 0588 35a: 3/4 35b: /2 36b: 0232 36c: 0804 37: Z, p=2/3 38: 6 4: p p 2 p 3 2 42: p 0 7378 als m 8 43a: /000 43b: 36/000 43c: 27/000 43d: 432/000 43e: 504/000 44a: r!n r r!r 2! r n! 44b: n n r resp n 2 n r 44c: r r n n r 45: p r 6 q 2 3 46: 79 cent 47a: 9/25 47d: 06 47e: 0 en 28/25 47f: 47g: 0 en 0 58 48a: 25/4 48d: 063, e: 0 en 042, f: 38 48g: 0, 0, 46, 073 49a: 503 49b: 5 40: 4r π 4: 3/4 42b: exp 0 368 42c: λ 000u 42d: ln 2 λ 693u 42e: exp 0 368 43: f Z t λ 2 te λt t 0 E Z 2 λ Var Z 2λ 2 44: neen, P 0 843 54a: 0909 54b: 0324 55a: 06083 55a2: 09444 55a3: 00556 55b: x 2 55b2: x 56: F X n 4 5 n E X 57a: 027 5 57b: 042 58: 0393 59a: 9 59b: 09298 59c: λ 0 96 59d: 0073 5: f M t f X t F Y t f y t F X t 52a: 00 52b: 0296 52c: 052 53a: 0223 53b: 0442 53c: 03904 6: 0040 62a: 0843 62b: 02857 62c: 02266 62d: 53 0 663 63a: B 63b: A 64: 00668 65a: E X n µ Var X n σ 2 n 65b: N µ σ n 66: 250 67a: 0374

Antwoorden op Oefeningen 84 67b: 304 cm 68a: f X t 0 63t 2π exp 2 logt 4 4 0 63 2 t 0 68b: 845 68c: 29709 69b: E Z 0 Var Z 0 634 60a: c ; als x 0 en y 0 F Z x y exp x 2 2 exp y 60b: F X x exp x 2 2 x 0 F Y y exp y ; onafhankelijk 60c: exp 3 en 2exp 6: f Z x y 2 als 0 x y f X x 2 2x 0 x f Y y 2y 0 y E Z 3 2 3, Var X Var Y 8 Covar X Y 36 ρ X Y 2 62: P X X 2 X 3 k m n n k k p k p 2 pm 3 als k 0 0 m 0 en k m n en anders nul p Cov X X 2 np p 2, ρ X X 2 p 2 p p2 ρ als p 3 0 63: f X x 0 x en nul elders f Z x y x als 0 x y en nul elders f Y y log y 0 y en nul elders 64: f r R Θ π 0 r en 0 ϕ 2π en nul elders 7a: 00369 7b: 00296 72: 02902 73: 0368 en 00357 74: 03798 75: 09558 76: 0368 en 0264 77: 089 (beide) 78: 2/3 79: P N n n r p r q n r als n r P N n 0 als n r loga µ 70a: F Y a Φ σ a 0 en nul elders 70b: f Y a σ a 2π exp 2 loga µ σ 2 a 0 70c: E Y exp µ 2 σ 2 Var Y exp σ 2 exp 2µ σ 2 7a: 0029 7b: 0056 7c: 00235 72a: X B 3000 6000 P 2 72b: 06065 72c: 00003 73a: met Φ benaderd: 0954 (exact: 0925) 73b: 099995 74: 0280 75a: 0099 75b: 84 75c: 09995 76: f v x 2x 2 3 σ exp 2π 2 σ 2 x 2 x 0 f v x 0 x 0 ; E v 4σ 2π 8: [787, 03] 82: 04422 83a: [339, 633] 83b: [288, 684] 84a: [9064, 0936] 84b: 64 85: [220, 22759] en [44, 934] 86: [0069, 00302] 87: d s d s ; d : x m y n ; s : σ m 88a: n n M 88b: m n Φ m n n α 2 α 2 89: 0 80: [6247, 9753] 8: [0708, 0732], neen 82: [00054, 0034] en [7478, 8522] 83: [00, 066] 9a: toetsgrootheid 732 ; H 0 aanvaarden als α 5% 9b: verwerpen als α 0% 92: toetsgrootheid t 5 6 ; H 0 verwerpen 93a: [32946, 33434] 93b: neen, zie BI 93c: χ 0 49 H 0 aanvaarden 94a: tweezijdig: toetsgrootheid 90 ; H 0 aanvaarden voor α 5% en α % Beter eenzijdig toetsen, H 0 : µ 20 H : µ 20 Als α 5%, H 0 verwerpen; als α %, H 0 aanvaarden 94b: α 94c: bij eenzijdige toets: 02773 (α 5%) ; 05363 (α %) 0a: Als σ Als σ onbekend, dan H 0 verwerpen 0b: α 0 2% 2 dan BI=[787, 03], H 0 aanvaarden α 2 Errata in de editie van 2002 Pag 5 formule (7) Het plusteken vervangen door een minteken: n s 2 f f x i n i n n i f 2 n n i f x i x i x f x 2 x i x 2 f ξ i 2 n f x n f f x 2 2 n n f f x 2 f x 2 s 2 x Pag 04 voorbeeld 42 De t-waarde t 3 09 van deze toets in combinatie met het aanvaardingsgebied! 665" geven de correcte beslissing omdat in beide het teken is omgedraaid Op grond van formules (446) en (449) zou er moeten staan: x 40 y t 50 #s$ % 40 % 50 & 3 09 met aanvaardingsgebied '( t 88) 0* 95! +', 665!! - - Pag 05 In de regel na formule (452) moet de F-verdeling één vrijheidsgraad in de teller hebben en m n 2 in de noemer De regel moet dus luiden: De overschrijdingskans is P F f met F F ) m/ n0 2 ; we verwerpen de nulhypothese op het niveau α als f F ) m/ n0 2) 0 α 7