IJburgcollege Wiskunde A en C september 2017 Statistiek Opgavenboek 1 (noteer je uitwerkingen van de opdrachten in het Uitwerkingenboek 1) 2. Herhaling Beschrijvende Statistiek. Old Faithful In Yellowstone Park spuit de Old Faithful Geyser met regelmatige tijdsintervallen. Die regelmaat zie je als je over een langere periode de tijdsintervallen registreert. De (toevals)variabele is het tijdsinterval tussen twee opeenvolgende uitbarstingen. Elk puntje (dot) representeert zo'n tijdsinterval. De dotplot toont een patroon: de verdeling van de variabele. Het meest opvallende is wel dat er twee groepen van tijdsintervallen lijken te zijn. Het is een twee-toppige verdeling. Opdracht 2.1: Op de website zijn de centrummaten en boxplot voor de linkergroep al aangegeven. Bereken voor de rechtergroep (met waarnemingen tussen 65 en 100): - het gemiddelde, de modus, de mediaan - de boxplot (de 5 relevante getallen zijn voldoende om te noteren) Laat in je uitwerking zien wat je gedaan hebt om de antwoorden te vinden. N.B.: je kunt eventueel gebruik maken van de app Data analyse uit de verzameling apps op www.vustat.eu. Laad het Faithful -bestand d.m.v. de knop met de driehorizontale streepjes. Kies daarna Data-Groeperen met variabele links/rechts. Gebruik dan Kentallen.
Een mogelijke verklaring voor de twee-toppigheid van de toevalsvariabele is dat de duur van de vorige uitbarsting mede bepaalt hoe lang het duurt om weer voldoende druk op te bouwen voor een volgende uitbarsting. We noemen een uitbarsting "kort" als die minder dan 3,5 minuten duurt, en "lang" in het andere geval. Als je een plaatje maakt van de erupties met een lange voorganger, en ook een plaatje van de erupties met een korte voorganger, dan zie je volgende patroon: Dit plaatje is ook met de app Data analyse gemaakt. Doe het zelf ook eens. Kies weer Data-Groeperen met deze keer variabele kort/lang. Neem dan de keuze Grafieken. De belangrijke maten voor de verdelingen (de "parameters") zijn als volgt: Gemiddelde (minuten) Standaardafwijking (SD) Zonder onderscheid 71,0 12,8 Na "korte" vorige 56,3 8,5 Na "lange" vorige 78,7 6,3 Je ziet dat de SD van de bovenste regel veel groter is dan de afzonderlijke SD's van de twee regels er onder in de tabel. De SD is een maat voor de variabiliteit van een proces. Blijkbaar is het zo dat de variabiliteit in het eerste plaatje voor een deel te verklaren is door een systematische invloed (de duur van de vorige uitbarsting) en voor een deel bestaat uit de invloed van "toeval" (de gezamenlijke invloed van zeer vele onbekende kleine invloeden, die elkaar soms versterken en soms tegenwerken). Opdracht 2.2: Kun je uit deze analyse concluderen dat Old Faithful redelijk voorspelbaar is? Geef uitgebreid je eigen antwoord, met je argumenten erbij. Opdracht 2.3: Noteer hieronder je eigen tekst waarin je een samenvatting geeft van de begrippen en verschijnselen uit dit hoofdstuk.
Titanic Je kunt in de app Data analyse ook andere gegevensbestanden inladen met die knop met de horizontale streepjes. Stop de app en start hem opnieuw. Laad deze keer het Titanic -bestand. Ruim honderd jaar geleden zonk de Titanic, vier uur nadat het schip op een ijsberg was gelopen. Van de ruim 2200 opvarenden, waaronder 900 bemanningsleden, overleefde grofweg slechts een derde deel de ramp. De populaire film "De Titanic" heeft indertijd veel belangstelling doen ontstaan voor de ramp en het lot van de passagiers. Je moet bedenken dat deze dataset meer dan honderd jaar oud is. De ramp vond plaats in 1912. Aan het begin van de vorige eeuw waren de sociale omstandigheden heel anders dan nu. Er was een groot onderscheid in sociale klassen en kinderarbeid was niet ongewoon. Op het platteland, vooral in Ierland, heerste armoede en soms hongersnood. Veel mensen zochten in die tijd elders hun heil en emigreerden naar Amerika. Er bestaat een passagierslijst waarop onder meer is aangegeven welke passagiers zijn gered. De dataset heeft vijf variabelen, vier categoriale (kwalitatieve) en één kwantitatieve variabele. Opdracht 2.4: Onderzoek met behulp van de app de volgende vragen. - wat is de gemiddelde leeftijd van hen die omkwamen en van hen die overleefden? - vergelijk de percentages overlevenden in de drie klassen - vergelijk de percentages overlevende mannen en vrouwen - maak een dotplot van de aantallen overlevenden uitgezet tegen hun leeftijd - vergelijk de boxplots van leeftijden, uitgesplitst naar overleefd of omgekomen - gebruik de kruistabel om te vergelijken: de percentages mannen en vrouwen in de drie klassen N.B.: laat zien hoe je aan je antwoorden bent gekomen (berekeningen, screenshots) Opdracht 2.5: Laad nu het bestand havo3 in de app Data analyse. Stop daarvoor eerst de app en laad hem opnieuw. - maak een kruistabel van de variabelen lievelingsvak en uren sport. Gebruik %. - beschrijf een drietal zaken die je daarin opvallen. - doe hetzelfde met de variabelen uren gamen en uren sport. - maak een staafdiagram voor de variabele lievelingsvak. Gebruik percentages. - maak een staafdiagram voor de variabele lengte in cm. - splits dit staafdiagram nu uit naar jongens en meisjes. Bekijk de drie verschillende manieren die er zijn om zo n uitgesplitst staafdiagram te tekenen. Wat valt je op over het verschil tussen meisjes en jongens in Havo 3? N.B.: laat zien hoe je aan je antwoorden bent gekomen (berekeningen, screenshots)
3. De normale verdeling. In de website zag je de vuistregels van de normale verdeling. Herhaal die even voor jezelf. Het was iets met 68% en 95%. Een populatie met een normale verdeling heeft twee kenmerken die samen de hele vorm vastleggen, nl. het gemiddelde (μ) en de standaardafwijking (σ). Op de website staat een intuïtieve verklaring voor de symmetrische klokvorm van deze verdeling. Suikerzakjes Als voorbeeld van een proces waar de normale verdeling een rol speelt noemt de website een machine die suikerzakjes van 3 gram maakt. Op de zakjes staat gedrukt dat er 3 gram in zit. Niet elk zakje bevat natuurlijk precies 3 gram. Sommige wat meer, sommige wat minder. Als je nu de machine afstelt op een gemiddelde μ = 3 gram, dan zal ongeveer 50% van de zakjes minder dan 3 gram bevatten! Dus stelt de fabrikant de machine af op een hoger gemiddelde. Bijvoorbeeld μ = 3,1 gram. De nauwkeurigheid van de machine wordt weergegeven door de standaardafwijking σ. Hoe kleiner de σ, hoe minder de gemiddelde afwijking van het gemiddelde is, en hoe nauwkeuriger de machine werkt (en dikwijls: hoe duurder de machine is in aanschaf). Deze machine heeft σ = 0,05 gram. Met de app Verdelingen (die in het keuzemenu nog boven de steekproeven staat) kun je vraagstellingen waarbij de normale verdeling een rol speelt wat preciezer aanpakken. Kies in die app de Normale verdeling, zet μ = 3,1 en σ = 0,05. Zet Schuiven op linkszijdig en vink Veel decimalen aan. Onder de X-as zie je de waarden staan, in dit geval zijn het grammen. In het voorbeel op de website zie je dat de kans dat een zakje minder dan 3,0 gram suiker bevat gelijk is aan 2,26%. Maar de fabrikant moet voldoen aan de norm die de EU stelt: als er op een product staat dat het 3 gram bevat, dan mag hoogstens 1% van die producten minder dan 3 gram bevatten. Op de website is het voorbeeld uitgewerkt waarbij de fabrikant aan de EU-norm kan voldoen door het gemiddelde van de zakjesmachine iets te verhogen. Op die manier zal elk zakje iets meer suiker bevatten, want het gemiddelde is omhoog gegaan. Dat kost geld. Misschien is handiger om het gemiddelde op 3,1 gram te laten staan, maar de machine nauwkeuriger af te stellen, en als dat niet kan een duurdere machine te kopen die nauwkeuriger is. Dat is dan een eenmalige investering die, gerekend over enige tijd, goedkoper kan blijken dan tot in lengte van dagen te veel suiker in de zakjes te doen. Opdracht 3.1: -Gebruik de app om uit zoeken op welke standaardafwijking de machine afgesteld moet staan om aan de EU-eis te voldoen. Je laat hierbij het gemiddelde op 3,1 gram staan. Geef de gevraagde σ in 3 decimalen achter de komma.
Opdracht 3.2: -Onderzoek ook op welke standaardafwijking de machine afgesteld moet staan, om aan de EU-eis te voldoen, als je het gemiddelde op 3,05 gram zou zetten. Geef de gevraagde σ in 4 decimalen achter de komma. -Beredeneer aan de hand van je resultaten dat de machine ongeveer twee keer zo precies zakjes moet vullen als je twee keer zo weinig te veel suiker verbruiken wilt. Opdracht 3.3: -Gebruik de gegevens over de lengtes van vrouwen van 20-30 jaar die op de website staan. Toon aan dat een fabrikant van hemden ongeveer twee-en-een-half keer zoveel hemden moet maken voor vrouwen met lengte tussen 155 en 160 cm als voor vrouwen van 160-165. Klimaatverandering en extreem weer Een misschien onverwacht effect van Klimaatverandering! Over de periode 1961-1990 was de gemiddelde zomertemperatuur in Engeland 15,3 graden Celsius. Die temperatuur was ongeveer normaal verdeeld met een standaardafwijking van 1,3 graad. Opdracht 3.4: Gebruik de app Verdelingen. -Onderzoek wat de kans is dat een willekeurige gemiddelde zomertemperatuur in die periode uitkwam boven de 19 graden (een extreem warme zomer, dus). Stel nu dat in 2050 de aarde met gemiddeld 2 graden is opgewarmd. Dan is de gemiddelde zomertemperatuur in Engeland 17,3 graden Celsius geworden. Stel dat die temperatuur ook weer ongeveer normaal verdeeld is met een standaardafwijking van 1,3 graad. Opdracht 3.5: -Onderzoek wat nu de kans is dat een willekeurige gemiddelde zomertemperatuur na 2050 uitkomt boven de 19 graden. -Hoeveel keer zo groot is dus de kans op een extreem warme zomer geworden? Conclusie: een relatieve geringe verhoging van het gemiddelde heeft een zeer forse verhoging van het percentage extreme gevallen tot gevolg! Dit geldt voor temperatuur, maar net zo voor regenval of stormen. Opdracht 3.6: Doe deze berekening ook voor een opwarming van de aarde met gemiddeld 1 graad.
Mode industrie Op de website hoofdstuk 3 vind je een statistisch overzicht t.b.v. de mode-industrie. Opdracht 3.7: Stel dat een fabrikant 2000 jurken maakt voor vrouwen van 20 30 jaar met lengtes tussen 170 en 175 cm. Hoeveel van die jurken moet hij dan produceren voor vrouwen van 20 30 jaar met lengtes tussen 155 en 160 cm?