Triatloncasus Hoofdstuk 1 1. Op basis van de beste tijden van vijf triatleten worden sponsorgelden verzameld. Welke triatleten zou jij dan selecteren? 2. Kun je aangeven op basis van welke criteria je de vijf sporters hebt geselecteerd? 3. Zou je als coach van SAV de sporters die niet gekozen zijn uitleggen waarom je de voorkeur had voor andere triatleten? Je zult eerst selectiecriteria moeten vaststellen, die je ook aan de deelnemers zult moeten kunnen uitleggen. De casus geeft aan dat de sponsorgelden op basis van de tijd worden verdeeld. Te denken valt aan: resultaat in termen van tijd; plaats in de klasse waarin wordt meegedaan. Naam Amersfoort M/V Leeftijd Klasse Tijd Plaats Jan van Straaten 01. M 22 H<23 2:05:04 2 Kees Toonder 02. M 21 H<23 2:19:14 7 Jaap de Kort 03. M 18 H<30 2:23:34 22 Stefan Seeman 04. M 19 H<23 2:35:22 18 Gerrit Wijn 05. M 19 H<30 2:44:19 35 Annet Hartjes 06. V 20 D<40 2:47:07 3 De gelopen tijden zijn het belangrijkste, maar de prestatie van Annet Hartjes springt er binnen haar categorie duidelijk uit. Je zou dan mogelijk Gerrit Wijn kunnen passeren ten gunste van Annet Hartjes. Dat is voor de representativiteit en het draagvlak van de beslissing binnen de groep wellicht het beste.
Hoofdstuk 2 1. Er wordt besloten dat bij de selectie van de triatleten gebruik wordt gemaakt van de selectiecriteria resultaten en klasse. Welke variabelen komen daarvoor in aanmerking? Hoe kun je die meten? Resultaat in termen van tijd gegeven Plaats in de klasse waarin wordt meegedaan gegeven => wordt in de tabel => wordt in de tabel Kun je de kwaliteit van die metingen verbeteren? Door gebruik te maken van extra gegevens. Bijvoorbeeld resultaten uit eerdere wedstrijden en selectiewedstrijden. 2. Bestaat er een verband tussen de resultaten van de individuele triatleten? Wat voor soort verband verwacht je tussen de resultaten van de triatleten over verschillende wedstrijden? Je verwacht, normaal gesproken, dat goede sporters goede sporters blijven. Verwacht je een verband tussen de resultaten op de disciplines zwemmen, fietsen en lopen? Je verwacht, normaal gesproken, dat goede sporters op alle disciplines goed scoren. Hoe kun je dat weergeven in een conceptueel model?
Het is eigenlijk een eenvoudig model. Een goede plaats heeft te maken met een goede tijd en die wordt opgebouwd door goede tijden voor zwemmen, fietsen en lopen. 3. Kun je iets zeggen over de betrouwbaarheid en de validiteit van de metingen? De betrouwbaarheid van de gegevens uit het bovenstaande model is, afhankelijk van de meting die je wilt doen, hoog. Er zijn weliswaar weinig gegevens van de individuele sporters bekend, maar in totaal zijn wel veel gegevens bekend van de verschillende sporters bij elkaar. Om het conceptuele model te toetsten, zijn er genoeg gegevens beschikbaar. Voor de selectie van de vijf beste sporters moet je echter roeien met de riemen die je hebt. De validiteit is hoog. Het is duidelijk hoe de variabelen gemeten en geïnterpreteerd dienen te worden.
Hoofdstuk 3 1. Noem de belangrijkste methoden van dataverzamelen. De belangrijkste keuzen die de onderzoeker zal moeten maken bij het verzamelen van data zijn onderverdeeld in de volgende zeven stappen: Bestaande of nieuwe informatie Open of gesloten vragen Directe of indirecte vragen Observatie of interview Het onderzoeksinstrument Bepaal of een steekproef nodig is Beslis hoe de gegevens verzameld worden 2. Observeer de deelnemers van een vergadering. Wat valt je op? 3. Maak vijf vragen voor een vragenlijst. Hoe kun je deze afnemen? Breng naar voren dat vragenlijsten zowel mondeling als schriftelijk kunnen worden afgenomen. De voortschrijdende techniek maakt het mogelijk om telefonie en andere informatietechnologie in te schakelen bij het verzamelen van gegevens. 4. Welke meetniveaus ken je en wanneer gebruik je welk meetniveau? Er zijn vier meetniveaus: nominaal, ordinaal, interval en ratio. Het nominale meetniveau betreft variabelen die van kwalitatieve aard zijn. Het zijn verzamelingen of gehele delen daarvan. Voorbeeld: de landen in Europa, de maanden waar de R in zit. Het ordinale niveau betreft variabelen die we kunnen rangschikken. Het zijn verzamelingen die van klein naar groot, van slecht naar goed, van mee oneens naar mee eens, enzovoort, op- of aflopen. Voorbeeld: de kleuren banden bij judo, het niveau van een opleiding (lbo, mbo, hbo). Het intervalniveau betreft variabelen die we in cijfers kunnen uitdrukken, waar de verschillen gelijk zijn, maar waar tweemaal de waarde niet de verhouding weergeeft. Het rationiveau betreft variabelen die een vast nulpunt hebben en waar tweemaal de waarde de verhouding weergeeft. Voorbeeld: lengte, gewicht. (10m -5m)/5m = 1 en (10kg-5kg)/5kg = 1 5. Hoe groot moet de steekproef voor je gekozen onderzoek zijn?
Studenten kunnen volstaan met de onderstaande vuistregel: Een vuistregel voor de steekproefomvang is: het aantal deelgroepen * 30 records in elke cel. 6. Wat zijn belangrijkste regels voor de bescherming van persoonlijke gegevens? Het antwoord op deze vraag valt te vinden in paragraaf 3.5.2 Gegevensbescherming. De Tien Gouden Regels voor Onderzoek en Statistiek is daarbij een belangrijke richtlijn.
Hoofdstuk 4 Bij het verzamelen van de gegevens wordt in deze casus uitgegaan van een aantal lijsten met namen, tijden en plaatsen. 1. Welke methode van gegevens verzamelen wordt in deze casus gebruikt? Er wordt in eerste instantie uitgegaan van bestaande gegevens, die zijn vergaard uit eerder gemaakte lijsten gegevens. Op welke manier zou je andere gegevens kunnen verzamelen? Meer historische gegevens, nieuwe gegevens uit nog te lopen wedstrijden en selectiewedstrijden, interviews met kenners, enzovoort. Op welke manier kun je de verzamelde gegevens ordenen? Op basis van sporter, tijden, klassen, weertypen, merk sportschoenen, enzovoort. De gelopen tijden en de behaalde plaatsen bepalen mede welke triatleten gekozen worden. 2. Wat kun je zeggen over de meetniveaus van deze variabelen? Kun je met de waarden van deze variabelen rekenen? Tijden => ratio niveau => ja Plaats => ordinaal niveau => ja Met gegevens op rationiveau kun je uitstekend rekenen. Met gegevens op ordinaal niveau wordt dat moeilijker, maar het is in beperkte mate wel mogelijk. Zie ook het deel over statistiek. Geef een aantal voorbeelden van het rekenen met deze variabelen, indien mogelijk. Tijden => ratio niveau => verschillen, variantie-analyse Plaats => ordinaal niveau => rangschikking, spearman r 3. Welke deelverzamelingen van deelnemers zijn voor de casus interessant? De klassen, en de plaatsen waar gelopen is. Welke deelnemers vallen daaronder? Alle deelnemers Zijn de gemiddelde gegevens van de deelnemers representatief?
Zoals later zal blijken, zijn de verschillen tussen de deelnemers groot. Wanneer de gemiddelden binnen de deelverzamelingen worden genomen, zijn deze wel al wat representatiever. Hoe kun je de kwaliteit van de verzamelde gegevens verbeteren? Brongegevens checken, vaker meten, zorgen dat je niemand mist, zoeken naar de verdeling van waarden, de correlatie tussen de te meten variabelen nagaan, enzovoort.
Hoofdstuk 5 1. De onderzoeksgegevens staan in een datamatrix met een structuur zoals hierboven beschreven. Kun je aangeven welke voorbewerking de onderzoeksgegevens hebben ondergaan voordat ze in deze matrix staan? De gegevens zijn afkomstig uit wedstrijdresultaten en andere lijsten. De herkomst daarvan is bekend. Daarna zijn de lijsten samengesteld en in een matrix geplaatst. Op basis van welk criterium is deze matrix geordend? De variabelen naam, plaats van wedstrijd, geslacht, leeftijd, klasse, tijd en plaats in klasse bepalen de vorm van de tabel. Op basis van een oplopende tijd worden de sporters verder geordend. Welke andere ordeningsprincipes zou je kunnen bedenken? Plaats in klasse zou misschien net zo plausibel zijn. 2. Kun je de bovenstaande tijden hercoderen in seconden? Heeft dit gevolgen voor de verdere analyse van de gegevens? Nee. Hoeveel tijd is gemiddeld verloren bij het wisselen van discipline? Et verschil tussen de totale tijd en de som van de tijden voor zwemmen, fietsen en lopen is de tijd die besteed is aan wisselen. 0:18:34 + 1:21:32 + 0:45:00 = 2:25:06 2:32:34 2:25:06 = 0:07:28 Kun je aangeven hoeveel sneller men van discipline kan wisselen?
Je zou de snelste sporters als leidraad kunnen nemen. Het verschil tussen die tijd en de boven genoemde 7 minuut 28 is dan het verlies. 3. Wat kun je zeggen over de kwaliteit van deze gegevens bij de analyse? De validiteit en de betrouwbaarheid zijn door de gemaakte afspraken en de grote hoeveelheden gegevens groot. Welke structurele fout zouden deze metingen hebben kunnen beïnvloeden? Een stopwatch die de tijd verkeerd meet. Zou een structurele fout schade kunnen veroorzaken bij de interpretatie van de onderzoeksgegevens? Motiveer je antwoord. Bij een verschillenanalyse maakt het niet uit. Als de stopwatch structureel een seconde per uur afwijking vertoont, geldt dat voor alle sporters. De absolute individuele tijden zouden dan echter wel bijgesteld moeten worden. Hoe kun je fouten in verzamelingen als deze opsporen? Zie hiervoor paragraaf 4.4 De kwaliteit van data.
Hoofdstuk 6 1. a. Welk tijdsinterval geldt, op basis van de behaalde tijden in Amersfoort, voor H<23 en H<30 Naam Amersfoort M/V Leeftijd Klasse Tijd Plaats Klasse Jan van Straaten 01. M 22 H<23 2:05:04 2 Kees Toonder 02. M 21 H<23 2:19:14 7 Jaap de Kort 03. M 18 H<30 2:23:34 22 Stefan Seeman 04. M 19 H<23 2:35:22 18 Gerrit Wijn 05. M 19 H<30 2:44:19 35 Annet Hartjes 06. V 20 D<40 2:47:07 3 Leo van Haasteren 07. M 22 H<23 2:55:18 23 Fred Joordaan 08. M 21 H<23 2:57:56 24 Linda Voges 09. V 24 D<40 3:02:01 14 Vincent Nuijens 10. M 22 H<23 3:05:45 128 De minimale tijd en de maximale tijd voor de heren onder de 23 jaar zijn de grenzen van het betreffende interval: > [2:05:04, 3:05:45] Voor de heren onder de 30 jaar zijn geen gegevens bekend. Je kunt stellen dat alle sporters onder de 23 jaar ook onder de 30 jaar zijn en dan krijg je hetzelfde interval als eerder gedefiniëerd.
b. Kun je deze intervallen in één verzameling tekenen? Omdat alle tijden in de bovenstaande tabel gelden voor sporters onder de 30 jaar, behoren alleen de dames in dit rijtje niet tot de bovenstaande gedefiniëerde verzameling. AantalVanPL Categorie GemVanSwim GemVanBike GemVanRun GemVanTotaal 14 H-23 0:18:34 1:21:32 0:45:00 2:32:34 2. a. Als we de mannelijke deelnemers onder de 23 jaar willen selecteren, waarvoor geldt dat ze een gemiddeld betere tijd hebben behaald dan in de bovenstaande tabel, of dat zij een plaats bij de eerste drie hebben gelopen in Brugge; wie worden dan geselecteerd? Jan van Straaten 01. M 22 H<23 2:05:04 2 Kees Toonder 02. M 21 H<23 2:19:14 7 Jaap de Kort 03. M 18 H<30 2:23:34 22 Amersfoort Brugge Jan van Straaten 01. 01. Kees Toonder 02. 02. Stefan Seeman 04. 03. Jan van Straaten, Kees Toonder, Jaap de Kort op basis van een beter gemiddeld resultaat en Stefan Seeman op basis van een derde plek in Brugge. b. Kun je deze selectie in een formule zetten? De vereniging van de verzamelingen A en B geeft de bovenstaande selectie aan. A { x x heren 23 t 2 : 32 : 34} B { x x heren 23 p 3}
waarin: x = de sporters t = de tijd p = de plaats
Hoofdstuk 7 1. Kun je het totaal van de ledenaantallen uit de tabel in een grafiek plaatsen? Kun je het gedeelte man en vrouw in dezelfde grafiek weergeven? Ledenaantallen naar man en vrouw 250 ledenaantallen 200 150 100 50 Vrouw Man 0 1957 1967 1977 1987 1997 2007 jaar Welke trend is er zichtbaar? Het percentage vrouwen in de vereniging neemt toe. Dit is zichtbaar in de bovenstaande grafiek, maar ook te berekenen als percentage op het totale ledenaantal. Ledenaantallen Aantal Man Vrouw % Vrouw 1957 7 5 2 28,57% 1967 43 31 12 27,91% 1977 64 44 20 31,25% 1987 96 61 35 36,46% 1997 144 87 57 39,58% 2007 216 126 90 41,67% 2. Neem de tabel leeftijdsopbouw. Kun je een cummulatieve verdeling van de leeftijdsopbouw laten zien? In de onderstaande grafiek staat de gewone leeftijdsopbouw van de vereniging weergegeven. Deze laat zien dat de meeste leden tussen de 19 en de 22 jaar zijn. Dat valt wel te verklaren uit het feit dat het een studentensportvereniging is.
Ledenaantal per leeftijd Aantal leden 40 35 30 25 20 15 10 5 0 17 18 19 20 21 22 23 24 25 Leeftijd aantal Door de aantallen van de leeftijdsgroepen bij elkaar op te tellen, naarmate de leeftijd hoger wordt, krijg je de cummulatieve leeftijdsverdeling. Leeftijdsopbouw Aantal Cum Cum % 17 3 3 1,39% 18 21 24 11,11% 19 34 58 26,85% 20 36 94 43,52% 21 35 129 59,72% 22 32 161 74,54% 23 24 185 85,65% 24 18 203 93,98% 25 13 216 100,00% Totaal 216 Grafisch komt het er dan zo uit te zien: Cummulatieve ledenaantallen 250 Ledenaantallen 200 150 100 50 0 3 21 34 36 35 32 24 18 13 Cummulatieve ledenaantallen Leeftijd
Wanneer we het cummulatieve percentage van de leden uitzetten tegen de leeftijd, krijgen we een vergelijkbare grafiek. Wat valt je op aan de cummulatieve leeftijdsopbouw? Kun je dat verklaren? De lijn stijgt eerst hard, daarna neemt de stijging af, waarna een daling in treedt. Dit valt te verklaren door de in- en uitstroom van bepaalde leeftijdscategorieën, die sterk afhankelijk is van de leeftijd waarop men studeert.
Hoofdstuk 8 AantalVanPL Categorie GemVanSwim GemVanBike GemVanRun GemVanTotaal 43 PRO 0:14:38 1:12:26 0:38:28 2:11:53 83 H-30 0:17:33 1:20:17 0:46:06 2:30:24 17 H50+ 0:19:42 1:19:46 0:45:19 2:32:17 108 H-40 0:18:49 1:20:05 0:46:32 2:32:20 82 H-35 0:18:19 1:20:23 0:46:42 2:32:25 14 H-23 0:18:34 1:21:32 0:45:00 2:32:34 37 H-50 0:19:20 1:20:44 0:46:46 2:35:02 88 H-45 0:19:01 1:21:17 0:47:21 2:35:07 87 Trio 0:19:51 1:25:38 0:45:50 2:35:39 51 D-40 0:18:42 1:27:42 0:50:24 2:43:35 13 D40+ 0:19:35 1:28:51 0:51:39 2:47:20 Totaal = 623 Gemiddeld 0:18:33 1:21:42 0:46:22 2:33:31 1. Welke klassen worden in de bovenstaande tabel onderscheiden en aan welke klassen doet SAV mee? De sporters komen in de volgende klassen uit: PRO, H-30, H50+, H-40, H-35, H- 23, H-50, H-45, Trio, D-40, D40+. De vetgedrukte klassen zijn de klassen waarvoor SAV zich inschrijft: H-30, H-23, D-40. Kun je de gemiddelde totale tijd per klasse gebruiken voor de selectie? Dat kan zeker een maat voor de selectie zijn. Een nadeel is wel dat er maar weinig gegevens zijn van de sporters van SAV, waardoor de betrouwbaarheid wel laag is. Als je de laatste wedstrijd toevallig slecht gelopen hebt, lig je er al uit. Voor welke variabelen kun je nog meer een grafische weergave maken? Voor de afzonderlijke tijden, maar ook voor tijden die je kunt afleiden uit de bovenstaande tabel, zoals verschillen tussen verschillende klassen, en voor de eerder genoemde wisseltijd. 2. Uitgaande van de bovenstaande tabel kun je de volgende grafiek tekenen:
Totaal opgebouwde tijd Tijden voor onderdelen 3:21:36 2:52:48 2:24:00 1:55:12 1:26:24 0:57:36 0:28:48 0:00:00 PRO H-30 H50+ H-40 H-35 H-23 Categorien H-50 H-45 Trio D-40 D40+ Wisselen Lopen Fietsen Zwemmen Wat voor soort grafiek wordt hier weergegeven? Dit is een stapeldiagram, waarbij de som van de verschillende onderdelen de totale tijd weerspiegelt. Welke klassen worden hier onderscheiden? Dezelfde als eerder genoemd. De sporters komen in de volgende klassen uit: PRO, H-30, H50+, H-40, H-35, H-23, H-50, H-45, Trio, D-40, D40+ Welke klasse heeft de hoogste frequentiedichtheid? Kun je dat uit deze grafiek lezen? Uit de tabel kun je afleiden dat de klasse H-40 de meeste deelnemers heeft (108 ). Dat valt uit deze grafiek echter NIET meer te herleiden.
Hoofdstuk 9 1. Bereken van de categorieën de frequentie, het percentage en het cummulatieve percentage. Maak bij de beantwoording gebruik van MS Excel of SPSS (zie ook hoofdstuk 10). 2. Bereken de minimum- en maximumwaarde, het gemiddelde en de standaarddeviatie van de tijden van het zwemmen, lopen, fietsen en het totaal. Maak bij de beantwoording gebruik van MS Excel of SPSS (zie ook hoofdstuk 10).
Hoofdstuk 10 1. In tabel 12.4 staan voor Amersfoort en Brugge de plaatsen weergegeven. Je kunt zo wel zien dat er een verband bestaat tussen deze reeksen. Toon dit verband echter aan door middel van een berekening met de Spearman-rangordecorrelatie. Maak bij de beantwoording gebruik van SPSS (zie ook hoofdstuk 10). 2. Intuïtief bestaat er een verband tussen de totale tijd en de behaalde plaats. Bereken deze met de Pearson-correlatiecoëfficient. Maak bij de beantwoording gebruik van MS Excel of SPSS (zie ook hoofdstuk 10). Mag dat eigenlijk wel? De variabele tijd is duidelijk van rationiveau. De variabele plaats is echter van ordinaal niveau. Maar omdat het hier om een ordinale reeks van meer dan 500 elementen gaat, kun je wel zeggen dat deze ordinale reeks haast van intervalniveau is. Het mag eigenlijk niet, maar we doen het toch. Bij de interpretatie zou je er eigenlijk melding van moeten maken.