. LPT en Biotechnologie Noordelijke Hogeschool Leeuwarden Instituut Techniek Tesselschadestraat 1 8913 HB Leeuwarden tel: +31(0)58 96107 Inleiding Statistiek met Statistica.......... Een sterk instrument voor het analyseren en weergeven van gegevens J.J.Heijenga 1 januari 000
. Werken met Statistica 1 Starten van Statistica op het NHL-net Start Statistica op via: Start; Programs; Windows NT applicaties; LPT & Bio; Statistica; Statistica. Nu opent zich de Statistica Module switcher. Statistica is een programma met een modulaire opbouw. Dat betekent dat alleen die modulen worden geladen die voor een bepaalde funktie noodzakelijk zijn. Daardoor vraagt Statistica steeds een minimale hoeveelheid geheugen, maar moet de gebruiker soms van module wisselen om een andere funktionaliteit te kunnen gebruiken. Standaardfunkties van Statistica zijn te vinden in de module Basic Statistics. Hierin staat vrijwel alle funktionaliteit die nodig is voor de modules sta en sta3. Verder wordt ook nog gebruik gemaakt van de module Nonparametrics/Distrib. Werken met Basic Statistics Start Basic statistics op door het veld aan te klikken en op de Switch To knop de klikken. Statistica opent nu automatisch in het Data venster het laatst gebruikte gegevensbestand. Bij opstarten op het NHL-net houdt dat in dat er niets wordt geopend. In dat geval kan met: File; New Data... een nieuwe spreadsheet geopend worden. De naam daarvan staat, samen met het aantal variabelen (kolommen in de spreadsheet) en het aantal datasets (cases, rijen in de spreadsheet) in de titelbalk van het datavenster. De meeste dingen zijn te wijzigen door er dubbel op te klikken. Dubbelklikken op een variabelenaam levert bijvoorbeeld het scherm hieronder op: Decimals: wijzig het aantal decimalen in de weergave. Name: wijzig de naam van de variabele Long name (onder): hier kan een formule ingevuld worden. Hierin is v1 variabele 1 en v0 is het nummer van de case (rij). Als hiervan gebruik wordt gemaakt, is het verstandig om de optie Auto recalculate when the data change aan te zetten, zodat wijzigingen direkt verwerkt worden, net als in Excel. Deze optie is te vinden in het window dat geopend wordt na aanklikken van de knop X=? in de knoppenbalk bovenin. 1
In de volgende paragrafen worden de volgende onderwerpen behandeld: Het invoeren van een dataset. Tekenen van een klokkurve. Bepalen van het 95%-betrouwbaarheidsinterval voor µ..1 Het invoeren van een dataset In de velden van de spreadsheet kunnen waarden ingevuld worden, net als bij Excel. Zijn er kolommen teveel of te weinig, dan kunnen ze worden verwijderd of toegevoegd worden door in de knoppenbalk boven op de knop Vars te klikken en vervolgens Delete... of Add... te selekteren. Ditzelfde kan met rijen door op de knop Cases te klikken. De variabele een naam geven is in de vorige paragraaf behandeld. Voer de waarden van voorbeeld 8.9 op bladzijde 3 van het boek in. Geef de variabele een logische naam. Bewaar het bestand onder de naam Voorbeeld_8-9.. Tekenen van een klokkurve Het doel is om de klokkurve van een variabele te tekenen. Ga daartoe op een cel van de variabele staan en klik de rechter muisknop. Het menu hiernaast wordt geopend: Quick Stats Graphs... wordt gebruikt om een grafiek te tekenen. Quick Basic Stats... wordt gebruikt om berekeningen uit te voeren, zoals het betrouwbaarheidsinterval. Klik Quick Stats Graphs... aan en kies Histogram of Var1; Normal Fit. Er wordt nu een histogram getekend met de klokkurve, die bepaald wordt met behulp van de berekende standaarddeviatie en gemiddelde. Ook nu kan er van alles veranderd worden door dubbel te klikken. Als er bijvoorbeeld op de horizontale as geklikt wordt, dan kan hier een lineaire schaal van worden gemaakt door bij SCALE_VALUES het Numeric Format aan te klikken. Helaas lukt het niet om het aantal intervallen te wijzigen. Met behulp van de Quick Basic Stats... lukt dat wel. Klik Quick Basic Stats... aan en kies More... Het scherm hiernaast wordt nu opgestart: Met behulp van de Variables knop (links boven) kan de variabele worden gekozen Rechts halverwege in het Categorization veld staat het Approx. no. of intervals. Als vuistregel wordt het aantal intervallen ingesteld op ongeveer de wortel uit het
aantal cases (datasets, rijen). Links halverwege in het Distribution, Normality veld staan een knop met Histogram en een veld Normal expected frequencies. Als deze laatste gevinkt is wordt er een normaalverdeling door het histogram getekend nadat op de Histogram knop geklikt is. Kies als variabele de ethanolkoncentratie. Bepaal het aantal intervallen. Vink Normal expected frequencies en klik op de Histogram knop. De gewenste klokkurve staat nu in beeld, met links boven in het window een knop met Continue... Die is in de volgende paragraaf nodig..3 Bepalen van het 95%-betrouwbaarheidsinterval van µ in een t-verdeling Klik op Continue... en kies Descriptive statistics. Het window hiernaast wordt opgestart: Boven in het midden kan Conf. limits for means worden gevinkt. Het interval heeft betrekking op een tweezijdige toetsing. 95% houdt dus in dat er twee staarten van,5% zijn. Met More statistics kunnen nog meer parameters getoond worden. Vink Conf. limits for means en stel het interval in op 95%. Druk op OK en kies als variabele de koncentratie van ethanol. Nu wordt een venster gemaakt waarin de statistische grootheden af te lezen zijn: Valid N is het aantal datasets (cases, rijen, meetpunten). Mean is het gemiddelde. Confid. 95% tot Confid. +95% is het 95%-betrouwbaarheidsinterval. Minimum en maximum zijn de minimale en maximale waarde binnen de reeks metingen. Std.Dev. is de schatter van de standaarddeviatie s. 3 Werken met Nonparametrics/Distrib. Hiermee kunnen: De parameters van een verdeling geschat worden uit een reeks data. Toetsen. 3
In de volgende paragrafen worden deze punten behandeld. 3.1 Het schatten van de parameters van een verdeling uit een reeks data Klik op de Module switch knop (zie figuur rechts) in de knoppenbalk. Kies Nonparametrics/Distr. en klik op de knop End & switch to. Statistica wordt opnieuw opgestart. met nieuwe data en een window met keuzes: Nonparametric stats met verschillende toetsen (tests). Hiervan zullen voornamelijk de X, Sign en Wilcoxon test gebruikt worden. Distribution fitting wordt in deze paragraaf gebruikt. Vul de waarden van voorbeeld 8.4 op bladzijde 14 van het boek in de spreadsheet in. Geef de variabele een logische naam en sla het bestand op onder de naam voorbeeld_8-4. Kies Distribution fitting en klik op OK. Kies Poisson en klik op OK. Kies de juiste variabele. Op het onderstaande window (Fitting Discrete Distributions) is de waarde van λ nu direkt af te lezen, maar hoe betrouwbaar is deze schatting? Helaas wordt er geen betrouwbaarheidsinterval gegeven. Wel is te zien of de gekozen verdeling goed overeen komt met de meting: Klik op de knop Graph. Nu is te zien hoe goed de gegevens fitten aan het model. In de kop van de grafiek is het resultaat te zien van de Kolmogorov-Smirnov toets. De toetshypothese hierbij is H 0 : de data volgen de onder- 4
zochte verdelingsfunktie. Als het toetsresultaat signifikant is verwerp je H 0 (data volgen de verdeling niet). Is daarentegen het toetsresultaat niet signifikant (zoals hier), dan wordt H 0 niet verworpen, dus de data volgen de verdeling (er kan niet aangetoond worden dat de data de verdeling niet volgen). Het is overigens erg eenvoudig om het deze toets naar de zin te maken. Waarschijnlijk is het goed om het advies van het boek op te volgen: minimaal 50 metingen voor een schatting van µ bij een Poissonverdeling (bladzijde 14) en minimaal 0 metingen voor de schatting van π bij een binomiaalverdeling (bladzijde 1). Klik op Continue. Het vorige window is weer terug. Klik op OK. Mocht het window Nonparametric Statistics verdwenen zijn, dan is het weer op te roepen door met de rechter muisknop buiten de spreadsheet te klikken. Eventueel staat het window geminimaliseerd in de linker onderhoek. 4 Statistische tabellen 4.1 Z-verdeling 4. t-verdeling In Statistica zitten uiteraard statistische tabellen, en daar kan ook mee gerekend worden. Ze zijn bereikbaar door met de rechter muisknop te klikken en Quick Basic Stats... en Probability Calculator te kiezen. Voor deze module zijn alleen Z (normaal), t (student), F en Chi van belang. Als Two-tailed afgevinkt is, dan wordt een tweezijdige verdeling bepaald, anders een 1-zijdige. p is de waarschijnlijkheid (1-α), meestal 0,95 of 0,99. mean en st.dev. zijn het gemiddelde en de standaarddeviatie van de verdeling. De normaaltabel (Z in plaats van X) kan worden afgelezen door voor mean 0 en voor st.dev. 1 in te vullen. X is de rechter grenswaarde (gr). In het voorbeeld: g r = + 1,96 0,8 = 3,568. Bepaal met behulp van de propability calculator de waarde van Z bij een eenzijdige en een tweezijdige normaalverdeling met α = 5%. In tegenstelling tot de Z-verdeling wordt bij de t-verdeling uitsluitend de tabelwaarde berekend uit de waarde van 1-α. Een linker- en rechtergrens kunnen vervolgens met de calculator van Windows bepaald worden (Start; Programs; Accessories; Calculator) met behulp van kopiëren (Ctrl-C) en plakken (Ctrl-V). t is de tabelwaarde van t p = 1-α df is het aantal vrijheidsgraden 5
4.3 F-verdeling Bepaal de waarde van α bij een t van 3,078 en 1 vrijheidsgraad. Ook bij de F-verdeling worden tabelwaarden bepaald: F is de tabelwaarde p = 1-α 4.4 χ -verdeling df1 en df zijn het aantal vrijheidsgraden v 1 en v. Bepaal de tabelwaarde F voor v 1 = 4 en v = 5 met α = 0,05. Werkt net als de t-verdeling, alleen is er geen tweezijdige toetsing mogelijk. Ook hier is het voorbeeld boven de tabellen van het boek genomen. p hier hetzelfde als α in het boek. df is het aantal vrijheidsgraden v. Bepaal de tabelwaarde χ voor α = 0,99 en 49 vrijheidsgraden. 4.5 Diskrete verdelingen Helaas kunnen de tabellen van de diskrete verdelingen (binomiaal en Poisson) niet benaderd worden. 5 Toetsen met Statistica Van de vele mogelijke toetsen wordt hier een klein aantal behandeld: gepaarde t-toets tekentoets niet-gepaarde t-toets F-toets χ -toets voor homogeniteit 5.1 Gepaarde t-toets Bij een gepaarde t-toets wordt bepaald of het gemiddelde van twee groepen (Vars) verschilt. Daarbij wordt elke meting van een objekt (Case) voor beide groepen uitgevoerd. De toetshypothese is H 0 : µ v = 0 (de gemiddelden van de twee groepen zijn gelijk). Als voorbeeld wordt opgave 1 van hoofdstuk 11 behandeld: Het doel is om aan te tonen of de reklamekampagne resultaat heeft gehad (niet welk filiaal het meeste heeft verkocht, dat is een andere toets) De twee groepen (Vars) zijn: voor en na. De objekten (Cases) zijn de 6 filialen. 6
Start een nieuw werkblad op en vul dat met de gegevens uit opgave 1: File; New Data... Kies Basic Statistics; t- test for dependant variables. Dit scherm kan ook opgeroepen door in de werkbalk Analysis aan te klikken en vervolgens t-test for dependant variables te kiezen ofwel het Startup panel, dat is afhankelijk van de toestand van Statistica. Bewaar de data en voer de t- toets uit (zie het scherm hiernaast). Er verschijnt nu een window met resultaten: Mean: het gemiddelde voor is 351,67 en na is 450. Aangezien het verschil van het gemiddelde gelijk is aan het gemiddelde van het verschil voor i i - na i i = voor na = Diff. Std.Dv.Diff. is de standaarddeviatie van het verschil. t is de berekende t-waarde (in het boek t * = v µ ) = s N 98,333 0 = -16,36 14,7196 6 ( voor na ) i i = i v = Hieraan is te zien dat met een signifikantie van 1 - p = (veel) meer dan 95% de toetshypothese H0: µv = 0 wordt verworpen. In normaal Nederlands houdt dat in dat de gemiddelden signifikant verschillen. Samenvatting t-toets voor gepaarde metingen waarde van p H 0 : µ v = 0 in het Nederlands: p > 5% H 0 niet verwerpen de gemiddelden zijn gelijk p < 5% H 0 verwerpen de gemiddelden zijn niet gelijk Maak opgave 11.9b 7
5. Tekentoets Het onderzoek uit de vorige paragraaf kan ook uitgevoerd worden met een tekentoets. Dit is echter veel minder nauwkeurig en moet daarom slechts gebruikt worden als de verschillen niet in getallen uit te drukken zijn, maar slechts in beter of slechter. Er bestaan geen uitkomsten als veel beter en zelfs niet maakt niet uit of geen idee. Alleen waarden die beter of slechter zijn worden meegenomen, de rest wordt uit de test verwijderd. De enige eis die gesteld wordt is, dat de verdelingen kontinu zijn. Vandaar dat gelijk ook niet bestaat: twee kontinue waarden zullen nooit exakt gelijk zijn. De werking in Statistica is als volgt: Open een (nieuw) databestand en vul de meetwaarden in. Hier wordt een gepaarde set van meetwaarden verwacht. Als je alleen resultaten beter en slechter hebt, dan kan je bijvoorbeeld 0 en 1 voor beter en 1 en 0 voor slechter invullen. Een vraag: helpt aspirine tegen hoofdpijn met een reeks antwoorden: ja, ja, nee, ja, nee wordt dan: (zie hiernaast). Ga met behulp van de Module Switcher naar Nonparamettrics/Distrib.. Klik in het Startup Panel (Onder Analysis) de Sign test aan. Het resultaat van opgave 11.1 is als volgt: Hieraan is te zien dat met een signifikantie van 1-p = meer dan 95% de toetshypothese H 0 : µ v = 0 wordt verworpen. In normaal Nederlands houdt dat in dat de gemiddelden signifikant verschillen. Samenvatting tekentoets waarde van p H 0 : µ v = 0 in het Nederlands: p > 5% H 0 niet verwerpen de gemiddelden zijn gelijk p < 5% H 0 verwerpen de gemiddelden zijn niet gelijk Maak opgave 11.9a 5.3 Niet-gepaarde t-toets Bij een niet-gepaarde t-toets wordt bepaald of het gemiddelde van twee groepen verschilt. Daarbij wordt een meting van elk objekt (Case) uitgevoerd. Als voorbeeld wordt opgave 11 van hoofdstuk 11 behandeld: De objekten (Cases) zijn de 16 filialen: 6 filialen werden voor de kampagne gemeten en 10 daarna. Start een nieuw werkblad op: File; New Data... en vul dat met de gegevens uit opgave 11. Dat kan op twee manieren: Twee groepen in twee kolommen, net als bij de gepaarde toetsen. Eén kolom met waarden en één kolom waar in staat tot welke groep de waarde behoort. Deze mogelijkheid heeft de voorkeur en wordt hier ook verder gebruikt. 8
Kies Basic Statistics; t- test for independant variables. Dit scherm kan ook opgeroepen door in de werkbalk Analysis aan te klikken en vervolgens t-test for independant variables te kiezen ofwel het Startup panel, dat is afhankelijk van de toestand van Statistica. Kies als Grouping variable de tweede kolom (voor/na) en als Dependant variable de eerste kolom (flessen) Door op de knop Variables te klikken. Voer de t-toets uit door op de knop T-test te klikken. Er verschijnt nu een window met resultaten: De schuifbalk staat nu helemaal naar rechts. Daardoor mis je de gemiddelden (350 en 450) en de t-waarde die daaruit bepaald is. Eerst moet echter het resultaat van de F-toets bekeken worden: p variancs = 0,8039 > 5% zodat H 0 : σ voor = σ na niet verworpen mag worden. In gewoon Nederlands betekent dit dat de varianties gelijk zijn. Samenvatting F-toets waarde van p H 0 : σ voor = σ in het Nederlands: t-toets na p > 5% H 0 niet verwerpen de varianties zijn gelijk p variancs p < 5% H 0 verwerpen de varianties zijn niet gelijk p two-sided Omdat de varianties gelijk zijn is de berekening korrekt uitgevoerd. De p van de t-toets = 0,009879 < 5% zodat H 0 : µ voor = µ na verworpen wordt: de gemiddelden zijn niet gelijk.. Wanneer p > 5% is, dan zijn de gemiddelden wel gelijk (er kan niet worden aangetoond dat de gemiddelden niet gelijk zijn). Wanneer p variancs < 5% dan zijn de varianties niet gelijk. Nu moet in het venster T-test for independant samples (Groups) de optie t-test with seperate variance estimates aangeklikt worden. In het results window verschijnen dan 3 extra kolommen: t separ.var.est. waarin de gepoolde t * wordt berekend df is nu een gebroken aantal vrijheidsgraden 9
5.4 F-toets p two-sided is de gepoolde waarde voor p. Als deze < 5% is, dan zijn de gemiddelden niet gelijk. Als p > 5% dan zijn de gemiddelden wel gelijk. Samenvatting t-toets voor niet-gepaarde waarnemingen waarde van p H 0 : µ v = 0 in het Nederlands: p > 5% H 0 niet verwerpen de gemiddelden zijn gelijk p < 5% H 0 verwerpen de gemiddelden zijn niet gelijk Maak opgave 11.19 De F-toets is een onderdeel van de t-toets voor niet-gepaarde waarnemingen en wordt in de vorige paragraaf besproken. 5.5 χ -toets voor homogeniteit 10