Bachelorthese. Rens Poesse. Studentnummer Universiteit van Amsterdam. Begeleid door Annemarie Zand Scholten en Alexander Savi

Bachelorthese Rens Poesse Studentnummer 10589201 Universiteit van Amsterdam Begeleid door Annemarie Zand Scholten en Alexander Savi Aantal woorden: 4350 Aantal woorden abstract: 141

Spaced practice in MOOCs: een A/B test Rens Poesse Universiteit van Amsterdam Abstract In dit onderzoek werd gekeken hoe de leeropbrengsten van een Massive Open Online Course (MOOC) kunnen worden verbeterd via spaced en massed practice. Middels een A/B test (n = 61) werden van de cursus Quantitative Methods van de Universiteit van Amsterdam een versie met spaced practice en massed practice gemaakt. Participanten in de controleconditie doorliepen de gebruikelijke cursus, in de massed conditie werden wekelijks extra oefenvragen over de betreffende week gesteld en in de spaced conditie werden wekelijks extra oefenvragen over voorgaande weken gesteld. Uit de resultaten bleek dat er geen verschil was in het eindcijfer voor de cursus tussen condities. Concluderend lijken spacing en massing zoals in dit onderzoek gedaan niet te werken voor het verbeteren van de leeropbrengsten van een MOOC, hoewel het huidige onderzoek te kortlopend was en te weinig proefpersonen kent om hierover sterkte uitspraken te doen. Onderwijs op afstand kent een lange geschiedenis in de academische wereld (e.g., Casey, 2008, aangehaald in Liyanagunawardena, Adams, & Williams, 2013). Een belangrijke recente ontwikkeling op dit gebied is online onderwijs. Dit wordt een steeds belangrijker alternatief voor, en toevoeging op, regulier onderwijs. Uit de vraag naar onderwijs op afstand en de technische mogelijkheden die het internet biedt zijn cursussen ontstaan die sinds 2008 MOOCs worden genoemd, Massive Open Online Courses. Dit zijn cursussen die online worden aangeboden, niet 2

locatie gebonden zijn en die worden gericht op een groot publiek (Kaplan, & Haenlein, 2016). Ook de Universiteit van Amsterdam biedt sinds enkele jaren MOOCs aan via online platformen als Coursera, waarmee onderwijs op universitair niveau wereldwijd kan worden gegeven aan geïnteresseerden met toegang tot het internet. Middels bijvoorbeeld videofragmenten kunnen studenten kennis opdoen, welke vervolgens ook getoetst wordt. In bepaalde gevallen kan ook een certificaat voor de cursus behaald worden. In dit onderzoek hebben we gekeken hoe de leeropbrengsten van een MOOC kunnen worden verbeterd via spaced practice en massed practice leerinterventies. Omdat MOOCs meestal grootschalig zijn opgezet, dus voor veel mensen toegankelijk, en tegelijkertijd geen persoonlijke begeleiding wordt gegeven, is het namelijk misschien wel meer dan bij regulier onderwijs van belang dat er extra aandacht wordt besteed aan de kwaliteit van het lesmateriaal en andere onderdelen van een cursus. Cursussen kunnen daarnaast vaak door iedereen worden gevolgd, ongeacht opleidingsniveau, sociaaleconomische status (SES), etc. Dit is een kracht van MOOCs, omdat de toegankelijkheid van (academisch) onderwijs nog steeds lager is voor mensen met een lage SES; onder meer door een vertraagde academische ontwikkeling (Morgan, Farkas, Hillemeier, & Maczuga, 2009) en gebrek aan goede scholen in gemeenschappen waar een lage SES de norm is (Aikens, & Barbarin, 2008). De toegankelijkheid van MOOCs maakt het lastig om gecontroleerd experimenteel onderzoek te doen, laat staan om hierbij duidelijke of goed interpreteerbare effecten te vinden. Tegelijkertijd is een voordeel dat onderzoek bij veel mensen tegelijk kan worden gedaan, wat de generaliseerbaarheid van resultaten naar een grote groep mogelijk maakt. Deze twee kenmerken van MOOCs maken het tot een geschikt platform om in het bijzonder de ecologische validiteit van leerinterventies ter verbetering van onderwijs te testen; dus in hoeverre (reeds bewezen) effecten standhouden in een zeer ongecontroleerde omgeving. 3

Er zijn verschillende van deze wetenschappelijk onderzochte leerinterventies die kunnen worden toegepast om zo effectief mogelijk te leren. Dunlosky, Rawson, Marsh, Nathan en Willingham (2013) geven een overzicht van dergelijke technieken, waaronder spaced practice (ook wel: distributed practice) en massed practice. Spaced practice is een leerstrategie waarbij het bestuderen van oefenmateriaal verdeeld wordt over meerdere momenten gedurende een langere tijd. Dit zou effectiever zijn dan massed practice, waarbij oefenmateriaal intenser wordt bestudeerd op een enkel moment. Spaced practice werkt het best wanneer de tijd tussen leermomenten langer is (e.g., Bahrick et al., 1993; Carpenter, Pashler, & Cepeda, 2009) en wanneer leermomenten verspreid zijn over verschillende sessies (in tegenstelling tot bijvoorbeeld één leersessie waarin iets elke tien minuten herhaald wordt; e.g., Bahrick, 1979). Het effect van spacing is robuust aangetoond in wetenschappelijk onderzoek. Zo blijkt uit een meta-analyse van Cepeda et al. (2006) dat in 254 studies met in totaal meer dan 14000 participanten, 47% van de participanten meer leerstof onthield na spacing dan na massing (37%). Verschillende theorieën verklaren de effectiviteit van spaced practice. Zo zou spacing kunnen werken doordat participanten meer moeite moeten doen voor het ophalen van informatie dan bij massing (Bahrick, & Hall, 2005). Een andere theorie gaat voornamelijk uit van herinnering; wanneer leerstof voor de tweede keer bestudeerd wordt, dient dit als een herinnering van de eerste keer, wat het geheugen verbeterd. Dunlosky et al. (2013) suggereren dat er waarschijnlijk verschillende van dit soort mechanismen tegelijkertijd opereren ten grondslag aan spaced practice. We verwachten dat spaced practice ook effectief is in een MOOC, onder meer omdat de positieve effecten ervan zijn aangetoond voor een gevarieerde doelgroep (e.g., Balota, Duchek, & Paullin, 1989) en omdat deze geassocieerd zijn met het doelgericht, in de diepte bestuderen van leerstof (e.g., Challis, 1993; Delaney & Knowles, 2005). Dit laatste past goed bij MOOCs, omdat 4

de aanmelding voor cursussen geheel vrijwillig is en de lesstof vaak ingaat op een dieper, geheel begrip van de stof. Naast de aangetoonde effectiviteit van spacing hebben we ervoor gekozen om zowel spaced als massed practice te onderzoeken, omdat ze relatief eenvoudig te implementeren zijn, wat ze breed toepasbaar maakt. Om de effectiviteit van spaced practice en massed practice in een MOOC te onderzoeken hebben we drie verschillende versies van de cursus Quantitative Methods gemaakt. Er kan daarom worden gesproken van een online A/B/C test 1. Voor participanten in de controleconditie verschilde de cursus niet van het gebruikelijke format. Voor participanten in de spaced en massed conditie was dit wel het geval en werden wekelijks extra oefenvragen gesteld, over voorgaande weken (spaced) of over dezelfde week (massed). Door spaced practice af te zetten tegen massed practice hoopten we een duidelijker onderscheid te kunnen maken tussen het effect van het enkel aanbieden van extra oefenmateriaal en van de spacing van dit materiaal. Op basis van de eerder gevonden effecten van spaced en massed practice verwachtten we dat beide interventies effectief zijn ten opzichte van de controleconditie in de ongecontroleerde omgeving van een MOOC. Daarnaast verwachtten we dat spaced practice tot betere leeropbrengsten leidt dan massed practice. Methode Participanten Omdat ons onderzoek werd gedaan in een lopende, voor iedereen toegankelijke MOOC, is er geen actieve selectie toegepast op participanten. Elke cursist die deelnam aan de MOOC 1 Experimenteel onderzoek binnen MOOCs is relatief nieuw, wat waarschijnlijk deels het gevolg is van technische beperkingen, zoals de complexiteit van het opzetten van een infrastructuur voor experimenteren binnen een online leerplatform als Coursera. Dit onderzoek is een van de eerste die gebruik maakt van Coursera s nieuwe A/B test systeem. Bij een online A/B test worden verschillende condities in een live omgeving tegen elkaar afgezet en wordt bekeken welke het meest efficiënt is. 5

kreeg de optie ook deel te nemen aan het onderzoek, waardoor zelfselectie plaatsvond. Hoewel dit gebrek aan systematische selectie nadelig kan zijn voor de kans op het vinden van een effect en de interpretatie hiervan door mogelijk vertekende groepen, past het goed bij het ecologische aspect van de onderzoeksvraag. Van de 454 participanten die uiteindelijk meededen aan het onderzoek hebben er 61 alle vereiste quizzen gemaakt. Dit is het belangrijkste inclusiecriterium voor de verdere analyse, omdat de quizscores en momenten van quizafname de manipulatie- en effectmeting vormen. We hanteerden geen exclusiecriteria, om zoveel mogelijk ecologische validiteit te behouden. Door alle cursisten de mogelijkheid te geven deel te nemen aan het onderzoek, is op deze manier geprobeerd de resultaten van het onderzoek zoveel mogelijk generaliseerbaar te maken naar alle toekomstige groepen deelnemers aan soortgelijke MOOCs. Alle cursisten werd middels een in de MOOC geïntegreerde informed consent gevraagd of zij wilden deelnemen aan het onderzoek. Voor meer informatie werd doorverwezen naar een pagina met uitgebreidere onderzoeksinformatie. Daarop stond onder andere beschreven dat het onderzoek als doel heeft toekomstige MOOCs te verbeteren, dat het alleen positieve interventies kent en dat verzamelde data anoniem, vertrouwelijk en alleen voor wetenschappelijke doeleinden wordt gebruikt. De cursisten werden willekeurig ingedeeld in de drie condities. Alleen van de participanten die akkoord gingen met deelname aan het onderzoek werd data gebruikt voor de analyse. Door enkele technische problemen startte het experiment pas in de tweede week dat de cursus liep. Cursisten die in de eerste week al een lesmodule hadden voltooid, kregen hierbij dus nog geen optie om mee te doen aan het experiment. Deze cursisten zijn dan ook niet meegenomen in de verdere analyse. Iedereen die in de tweede week dat de cursus liep met een module van start ging kon wel deelnemen aan het experiment. Daarnaast gaven participanten aan dat de informed consent in eerste instantie op een becijferde oefentoets leek. Alle cursisten zijn 6

hierover per e-mail geïnformeerd met uitleg dat dit niet het geval is. We zagen geen noodzaak op basis hiervan participanten uit te sluiten. Materialen Participanten namen deel aan de cursus Quantitative Methods. Deze MOOC wordt sinds 2015 aangeboden door de Universiteit van Amsterdam. De cursus bestaat uit zes modules verdeeld over acht weken. Elke module behelst een onderzoeksmethodologisch onderwerp, zoals de wetenschappelijke methode of ethische vraagstukken. Aan het eind van een module wordt een oefenquiz afgenomen. Tenslotte worden een algemeen oefen- en eindexamen gemaakt. De door Coursera berekende cijfers voor het eindexamen dienden als maat voor de effectiviteit van onze interventie per conditie en in de oefenquizzen per module is de interventie zelf toegepast, middels extra oefenvragen. Hoewel de cursusplanning uitgaat van acht weken, kon elke participant in eigen tempo de stof doorlopen. Voor alle modules in week 1 tot en met 6 werden extra parallelvragen opgesteld. Deze zijn gebaseerd op de bestaande oefenquizvragen en dusdanig opgesteld dat dezelfde kennis werd getoetst als met de oorspronkelijke vraag, maar middels een alternatieve vraagstelling. Alle originele vragen waren voorzien van korte feedback bij elk goed of fout antwoord. We hebben dit bij de parallelvragen niet gedaan, deels door tijdsdruk en deels om de leerinterventie zo simpel mogelijk te houden. Zowel de originele als parallelvragen bestonden telkens uit drie antwoordalternatieven, waarvan één het juiste. Enkele voorbeeldvragen staan in Tabel 1. Tabel 1 Voorbeelden van oorspronkelijke vragen en bijbehorende parallelvragen. Correct antwoordalternatief is schuingedrukt. 7

Oorspronkelijke vraag Parallelvraag Which example fits best with the concept of systematic When are you most likely NOT doing a correct systematic observation? observation? - Observing everything you do in one day - Observing every fourth person to enter the mall - Asking every fourth person to enter the mall about their favorite sport and recording this - You re conducting a survey with all people in a city that have an even house number - You observe the first 100 students that arrive at college on Monday - You ask every third woman that comes out of the ladies room for their view on feminism A hypothesis must be: When testing a hypothesis, it can never be: - proven correct - testable - observed - proven incorrect - proven correct - falsifiable Op basis van de bestaande theoretische kennis over spaced practice hebben we het schema in Tabel 2 opgesteld voor het stellen van de oefenvragen. Leermomenten zijn hierbij verspreid over verschillende sessies, zoals Bahrick (1979) suggereert en de geplande tijd van een week tussen leermomenten is relatief lang (zie Bahrick et al., 1993; Carpenter, Pashler, & Cepeda, 2009). 8

Tabel 2 Aantal extra oefenvragen per conditie per week. Controleconditie, aantal extra vragen Massed conditie, aantal extra vragen over zelfde week Spaced conditie, aantal extra vragen over week Spaced conditie, totaal extra vragen Toetsen per week Week 1 2 3 4 5 6 7 8 0 0 0 0 0 0 10 10 10 10 10 0 1 0 3 2 2 2 1 2 4 3 2 1 3 5 3 2 4 5 5 5 10 6 0 3 6 10 12 19 Tussentoets Oefentoets Eindtoets Belangrijke overwegingen bij het maken van dit schema waren dat participanten in de massed en spaced conditie over elke week in totaal hetzelfde aantal extra vragen kregen en dat in de spaced conditie een regelmatige verdeling van ruimte tussen terugkerende vragen zat. In de controleconditie kregen participanten alleen de originele vragen van de cursus zoals deze al eerder gegeven is. Per module waren dit meestal tien vragen. Hierdoor doorliepen de participanten in de massed en spaced conditie per module ongeveer tweemaal zoveel oefenvragen als participanten in de controleconditie. De oefentoets in week 7 was voor alle condities hetzelfde 9

en biedt zo een gedeeltelijke controle voor recency effecten, doordat alle participanten voor het maken van de eindtoets nog een keer dezelfde stof doorliepen. Procedure Participanten werden door Coursera automatisch willekeurig ingedeeld in de spaced, massed of controleconditie. Daar de interventie alleen in de oefenquizzen plaatsvond, doorliepen participanten in elke conditie verder hetzelfde cursusmateriaal; per module kregen ze bijvoorbeeld dezelfde videofragmenten en teksten te zien. Vervolgens maakten ze afhankelijk van conditie een andere oefenquiz. Ten slotte maakten alle participanten zoals gebruikelijk een eindtoets, die onveranderd was ten opzichte van de reguliere cursus. Omdat de eindtoets meerdere keren kon worden gemaakt, werd alleen het laatst behaalde resultaat meegenomen in de analyse. Om eventuele opvallende patronen in de scores op de eindtoets te kunnen identificeren zijn van alle participanten ook demografische gegevens verzameld over leeftijd, sekse en opleidingsniveau. Statistische analyse Om te controleren op systematische verschillen tussen condities hebben we van tevoren vastgesteld een drietal standaardisatiechecks uit te voeren. We kijken daarbij naar verschillen in sekse, leeftijd en opleidingsniveau tussen de condities. Verschillen in sekse worden getoetst met een chi-kwadraat toets en verschillen in leeftijd en opleidingsniveau met een one way ANOVA. Voor de manipulatiecheck kijken we allereerst of alle participanten wekelijks alle quizzen hebben gemaakt. Daarnaast analyseren we ook het cursustempo. Hierbij kijken we naar het aantal participanten dat de cursus in minder dan 8 weken heeft voltooid (one way ANOVA) en de gemiddelde tijd per persoon tussen het afronden van quizzen (one way ANOVA). 10

Ten slotte voeren we een one way ANOVA uit op de resultaten van de eindtoets, mits aan de assumpties van deze test wordt voldaan. Om dit te controleren toetsen we zowel de assumptie van homogeniteit van varianties als die van normaal verdeelde data. Homogeniteit van varianties tussen de condities wordt getoetst met Levene s test. Om te kijken of de data van de deelnemers op de eindtoets normaal verdeeld is voor iedere conditie, maken we gebruik van de Shapiro-Wilk test. Indien niet aan de assumpties wordt voldaan gebruiken we de Kruskal-Wallis one way ANOVA. Binnen de ANOVA op de uitkomstmaat voeren we twee orthogonale contrasten uit; een om te toetsen of participanten in de massed en spaced conditie de eindtoets beter hebben gemaakt dan in de controleconditie en een om te toetsen of participanten in de spaced conditie de eindtoets beter hebben gemaakt dan in de massed conditie. Resultaten Van de 454 cursisten die in de periode van het experiment meededen aan de MOOC Quantitative Methods en instemden met de informed consent, voldeden er 63 aan de inclusiecriteria. Van deze participanten hadden er twee slechts één oefenquiz en de eindtoets gemaakt. Voor deze participanten is de geplande manipulatie niet geslaagd, omdat deze uitgaat van het wekelijks aanbieden van oefenmateriaal gedurende een aantal weken. Omdat dit de resultaten onbetrouwbaar kan maken, zijn deze deelnemers uitgesloten van verdere analyse. De overige 61 deelnemers vertoonden geen ongebruikelijke afwijkingen in het verloop van de cursus. In de controleconditie zaten 18 participanten, in de massed conditie 23 en in de spaced conditie 20. De standaardisatiecheck om te controleren of de verhouding tussen mannen en vrouwen gelijk was in alle condities werd gedaan aan de hand van een chi-kwadraat toets. Omdat 11

participanten niet verplicht waren demografische gegevens op te geven, waren niet van elke participant gegevens over sekse beschikbaar. Het aantal mannen en vrouwen per conditie is weergeven in Tabel 3. Het gebrek aan data in de controleconditie en spaced conditie kan mogelijk ten kostte gaan van de betrouwbaarheid van het resultaat van de chi-kwadraat toets. De verhouding tussen mannen en vrouwen verschilde niet significant tussen de condities, XX 2 (2) = 3.29, p =.19. Tabel 3 Aantal mannen en vrouwen per conditie. Geslacht Conditie Man Vrouw Controle 1 5 Massed 14 11 Spaced 8 6 De standaardisatiecheck om te controleren of de gemiddelde leeftijd tussen condities verschilde werd gedaan aan de hand van een one way ANOVA. In de controleconditie waren van 6 participanten gegevens beschikbaar over leeftijd (M = 36.17, SD = 12.28), in de massed conditie van 24 participanten (M = 41, SD = 12.99) en in de spaced conditie van 14 participanten (M = 43.71, SD = 13.19). Uit de variantieanalyse bleek dat het hoofdeffect van conditie niet significant was, F(2, 41) = 0.717, p =.494. Een samenvatting van de data is gegeven in Figuur 1. Figuur 1 Verdeling van leeftijd per conditie. 12

Over het opleidingsniveau van participanten waren in de controleconditie geen gegevens beschikbaar en in de massed en spaced conditie respectievelijk van slechts 5 en 2 deelnemers. We hebben er daarom voor gekozen de standaardisatiecheck op opleidingsniveau buiten beschouwing te laten, omdat aan de hand van deze aantallen geen betrouwbare ANOVA kan worden gedaan. In hoeverre deelnemers in de spaced conditie daadwerkelijk spacing hadden ondergaan ten opzichte van de andere condities werd gecontroleerd aan de hand van het aantal gemaakte quizzen en het cursustempo. Uit de data bleek dat alle 61 participanten ten minste 4 van de 6 wekelijkse quizzen hebben gemaakt. Vier participanten hadden 4 quizzen gemaakt, acht participanten 5 quizzen en de overige 49 participanten alle 6 de quizzen. Middels een one way ANOVA werd getoetst of het aantal gemaakte wekelijkse quizzen verschilde per conditie. Gemiddelden en standaardafwijkingen per conditie zijn weergeven in Tabel 4. Er werd geen significant verschil gevonden, F(2, 58) = 0.346, p =.709. Dit duidt erop dat de manipulatie in 13

ieder geval niet mislukt kan zijn doordat participanten in de spaced of massed conditie te weinig oefenquizzen maakten. Figuur 2 geeft een overzicht van het aantal gemaakte wekelijkse quizzen per conditie. Tabel 4 Gemiddelden en standaardafwijkingen per conditie voor het aantal gemaakte wekelijkse quizzen. Conditie M SD Controle 5.83 0.38 Massed 5.69 0.63 Spaced 5.7 0.66 Figuur 2 Aantal wekelijkse quizzen gemaakt per conditie. 14

Het is daarnaast van belang ook naar het cursustempo te kijken om zo zeker mogelijk te zijn van een geslaagde manipulatie. Omdat de cursus on demand kon worden gevolgd, is het belangrijk om te controleren of deelnemers niet te snel door het cursusmateriaal heen gingen, wat effectieve spaced practice lastiger zou maken. Figuur 3 geeft een overzicht van het cursustempo per conditie. Figuur 3 Aantal weken dat participanten over de cursus deden per conditie. Tabel 5 Gemiddelden en standaardafwijkingen per conditie voor het aantal weken dat participanten over de cursus deden. Conditie M SD 15

Controle 4.77 2.18 Massed 5.62 1.99 Spaced 5.85 1.85 Uit de data in Figuur 3 blijkt dat de meeste deelnemers de cursus in 4 tot 8 weken voltooiden. Middels een one way ANOVA werd getoetst of deze periode gemiddeld significant verschilde per conditie. Gemiddelden en standaardafwijkingen zijn weergeven in Tabel 5. Er werd geen significant verschil gevonden, F(2, 58) = 1.504, p =.231. Naast het aantal weken dat participanten over de cursus deden is ook het tempo binnen die periode van belang. We hebben daarom ook vergeleken hoeveel tijd er gemiddeld per participant tussen gemaakte quizzen zat. Figuur 4 laat een samenvatting van deze data per conditie zien. Figuur 4 Gemiddelde tijd tussen gemaakte quizzen per participant, voor elke conditie. 16

Tabel 6 Gemiddelden en standaardafwijkingen per conditie voor de gemiddelde tijd tussen gemaakte quizzen per participant. Conditie M SD Controle 88.64 41.10 Massed 102.35 34.91 Spaced 104.38 34.59 Uit de grafieken in Figuur 4 valt af te lezen dat voor de meeste participanten 100 tot 150 uur tussen gemaakte quizzen zat, wat gelijk staat aan ongeveer 4 tot 6 dagen. Dit komt redelijk in de buurt bij de geplande 7 dagen tussen het maken van een quiz, waarvan we zijn uitgegaan als geschikt interval voor spacing. Uit een one way ANOVA bleek ook dit gemiddelde niet significant te verschillen tussen condities, F(2, 58) = 1.027, p =.364. Gemiddelden en standaardafwijkingen zijn weergeven in Tabel 6. Omdat de MOOC on-demand kan worden gevolgd, hebben we 17

overwogen als exclusiecriterium een maat van werktempo te nemen. Dit zou betekenen dat participanten die de cursus bovengemiddeld snel of langzaam afronden niet worden meegenomen in de analyse. Door het geringe aantal participanten hebben we besloten dit niet te doen en ook geen aparte analyse uit te voeren op een subgroep van participanten waarvoor bijvoorbeeld minder dan 4 dagen tussen quizzen zat. Ten slotte hebben we een one way ANOVA uitgevoerd op de cijfers op de eindtoets. De gemiddelden en standaardafwijkingen hiervan zijn weergeven in Tabel 7. Allereerst hebben we hiervoor de assumptie van homogeniteit van varianties getoetst met Levene s test. Deze was niet significant, F(2, 58) = 0.109, p =.897, waarmee aan deze assumptie is voldaan. Daarnaast hebben we middels de Shapiro-Wilk test gecontroleerd of de data normaal verdeeld is. Ook deze was niet significant voor alle condities, W = 0.960, p =.553 (controleconditie), W = 0.948, p =.262 (massed conditie) en W = 0.961, p =.617 (spaced conditie). Ook aan de assumptie van normaliteit werd hiermee voldaan. Met de uiteindelijke variantieanalyse werd getoetst of de gemiddelde cijfers op de eindtoets per conditie verschilden. Tabel 7 Gemiddelden en standaardafwijkingen per conditie voor het cijfer op de eindtoets. Conditie M SD Controle 8.13 1.18 Massed 8.32 1.10 Spaced 8.1 1.02 Uit de analyse op de eindcijfers bleek dat deze helaas niet significant verschilden per conditie, F(2, 58) = 0.253, p =.778. We hebben dus geen evidentie gevonden voor verschil in leeropbrengst tussen condities. De geplande contrasten om de richting van de eventuele 18

verschillen tussen condities te toetsen hoefden hierdoor niet worden uitgevoerd. Figuur 5 geeft de verdeling van eindcijfers per conditie. Figuur 5 Verdeling van cijfers op de eindtoets per conditie. Discussie In dit onderzoek werd gekeken hoe de leeropbrengsten van een MOOC kunnen worden verbeterd via spaced en massed practice. Uit de resultaten bleek dat spacing en massing zoals in dit onderzoek gedaan, niet werken voor het verbeteren van de leeropbrengsten van een MOOC. Dit is een opvallend resultaat, daar spacing volgens veel ander wetenschappelijk onderzoek wel een effectieve leertechniek lijkt te zijn (zie Dunlosky et al., 2013). Het zou kunnen dat deze technieken inderdaad niet effectief zijn in een on-demand, door iedereen te volgen MOOC. We 19

denken echter dat met een uitgebreider onderzoek, waarin een aantal tekortkomingen/alternatieve verklaringen van het huidige wordt ondervangen, wel degelijk een effect kan worden aangetoond. Een eerste gebrek aan het huidige onderzoek is het geringe aantal proefpersonen. Doordat van de 454 participanten er slechts 61 aan de inclusiecriteria van het experiment voldeden, kan er geen betrouwbare analyse op de uitkomstmaat en manipulatie-/standaardisatiechecks worden gedaan. Ook kunnen er geen aparte analyses over subgroepen worden gedaan. Het doen van deze analyses over subgroepen zou het mogelijk maken om bijvoorbeeld een vergelijking tussen cursisten met een hoog en laag werktempo te maken binnen condities, of tussen cursisten met een regelmatig en onregelmatig werktempo. Ook maken deze analysis het mogelijk om vergelijkingen te maken tussen cursisten die alle quizzen doorlopen en cursisten die quizzen overslaan, wanneer het verplicht stellen van quizzen binnen een MOOC geen optie is. Op deze manier kunnen grenswaarden worden gevonden waaraan spaced en massed practice interventies moeten voldoen om binnen een MOOC eventueel effectief te zijn. Daarnaast is een punt wat tot verbetering zou kunnen leiden het verlengen van de periode van het experiment, hoewel gelimiteerd door de duur van de cursus. We denken dat de korte periode waarin de manipulatie werd gedaan er namelijk toe heeft geleid dat er geen duidelijk genoeg onderscheid kon worden gemaakt tussen spacing en massing. Doordat slechts over leerstof van 6 weken extra oefenvragen konden worden gesteld, was er relatief weinig ruimte voor effectieve spacing. Dit past bij de theorie dat spacing werkt doordat participanten moeite moeten doen voor het ophalen van informatie. Wanneer de informatie nog relatief vers in het geheugen zit, is deze moeite te klein (Bahrick, & Hall, 2005). Het zou daarom kunnen dat spacing effectiever is bij cursussen met een langere (geplande) looptijd, wat aansluit bij eerder onderzoek van Bahrick et al. (1993) en Carpenter, Pashler en Cepeda (2009). 20

Een derde probleem met het huidige onderzoek betreft een mogelijk plafondeffect op de uitkomstmaat. Omdat deelnemers in alle condities gemiddeld rond de 8 scoorden op de eindtoets was deze wellicht te makkelijk om verschillende leeropbrengsten als gevolg van de manipulatie per conditie aan te kunnen tonen. Een praktische beperking bij onderzoek in lopend onderwijs is dat dergelijke eindtoetsen niet zomaar kunnen worden aangepast, omdat zij een hoge standaard moeten houden en tegelijkertijd eenzelfde graadmeting moeten bieden als cursussen van andere jaren, andere universiteiten, etc. Een manier om een mogelijk plafondeffect tegen te gaan zou daarom het toevoegen van extra toetsen ter uitkomstmaat zijn, onder voorbehoud dat deze niet meetellen in de cursusbeoordeling en dat de participant hiervan op de hoogte is. Het kan in het geval van deze MOOC de moeite waard zijn de wekelijkse oefentoetsen te analyseren, maar daarnaast kunnen nieuwe extra toetsen vragen bevatten op een hoger niveau dan de oefen- en eindtoetsen en meer gericht op het vinden van verschillen in kennis over bepaalde stof. Ook kan een plafondeffect eventueel worden tegengegaan door niet het resultaat van de laatste poging op de eindtoets te analyseren maar van de eerste poging. Deze data was in het huidige experiment niet beschikbaar, maar is wellicht betrouwbaarder omdat participanten die de eindtoets de eerste keer onvoldoende maken waarschijnlijk sneller geneigd zijn deze nogmaals te maken. Ten slotte zouden ook reactietijden kunnen worden meegenomen in een speed/accuracy analyse, waarbij een snel gegeven goed antwoord zwaarder weegt dan een goed antwoord na langere tijd. Naast het verbeteren van de experimentele opzet en voorwaarden van de manipulatie binnen een MOOC zou het een interessante optie zijn om een Bayesiaanse analyse uit te voeren over de data van een cursus over tijd. Zo wordt Quantitative Methods meerdere keren per jaar gegeven in verschillende cohorten. Wanneer telkens experimentele data wordt verzameld kan hiermee een Bayesfactor worden berekend en worden geüpdatet met nieuwe data per cohort. Zo 21

kan het gebrek aan proefpersonen worden ondervangen en kan meer inzicht worden verkregen in of er daadwerkelijk geen effect bestaat of dat dit het gevolg is van een gebrek aan power. Al met al kan geconcludeerd worden dat binnen de huidige onderzoeksopzet spaced en massed practice geen voordeel biedt ten opzichte van de normale cursus. Het is de vraag of het mogelijk is om randvoorwaarden voor dergelijke leerinterventies te vinden waarmee het wel lukt de leeropbrengsten van een MOOC te verbeteren. Zo kan op exploratieve wijze steeds meer bekend worden over de mogelijkheden tot verbetering van bestaand en nieuw online onderwijs. Online A/B tests lijken hiervoor een goed middel te zijn; het beschreven onderzoek is relatief eenvoudig te implementeren in een online omgeving en biedt de mogelijkheid tot het uitgebreid verzamelen van verschillende soorten data voor een grote groep participanten. 22

Literatuurlijst Aikens, N. L., & Barbarin, O. (2008). Socioeconomic differences in reading trajectories: The contribution of family, neighborhood, and school contexts. Journal of Educational Psychology, 100, 235-251. Bahrick, H. P. (1979). Maintenance of knowledge: Questions about memory we forgot to ask. Journal of Experimental Psychology: General, 108(3), 296. Bahrick, H. P., Bahrick, L. E., Bahrick, A. S., & Bahrick, P. E. (1993). Maintenance of foreign language vocabulary and the spacing effect.psychological Science, 4(5), 316-321. Bahrick, H. P., & Hall, L. K. (2005). The importance of retrieval failures to long-term retention: A metacognitive explanation of the spacing effect. Journal of Memory and Language, 52(4), 566-577. Balota, D. A., Duchek, J. M., & Paullin, R. (1989). Age-related differences in the impact of spacing, lag, and retention interval. Psychology and aging, 4(1), 3. Carpenter, S. K., Pashler, H., & Cepeda, N. J. (2009). Using tests to enhance 8th grade students' retention of US history facts. Applied Cognitive Psychology,23(6), 760-771. Challis, B. H. (1993). Spacing effects on cued-memory tests depend on level of processing. Journal of Experimental Psychology: Learning, Memory, and Cognition, 19(2), 389. Cepeda, N. J., Pashler, H., Vul, E., Wixted, J. T., & Rohrer, D. (2006). Distributed practice in verbal recall tasks: A review and quantitative synthesis.psychological bulletin, 132(3), 354. Chudzicki, C., Pritchard, D. E., & Chen, Z. (2015). Learning experiments using AB testing at scale. 23

Daniel, J. (2012). Making sense of MOOCs: Musings in a maze of myth, paradox and possibility.journal of Interactive Media in Education, 3. Delaney, P. F., & Knowles, M. E. (2005). Encoding strategy changes and spacing effects in the free recall of unmixed lists. Journal of Memory and Language, 52(1), 120-130. Dunlosky, J., Rawson, K. A., Marsh, E. J., Nathan, M. J., & Willingham, D. T. (2013). Improving students learning with effective learning techniques promising directions from cognitive and educational psychology. Psychological Science in the Public Interest, 14(1), 4-58. Kang, S. H., McDermott, K. B., & Roediger III, H. L. (2007). Test format and corrective feedback modify the effect of testing on long-term retention.european Journal of Cognitive Psychology, 19(4-5), 528-558. Kaplan, A. M., & Haenlein, M. (2016). Higher education and the digital revolution: About MOOCs, SPOCs, social media, and the Cookie Monster.Business Horizons. Kohavi, R., Longbotham, R., Sommerfield, D., & Henne, R. M. (2009). Controlled experiments on the web: survey and practical guide. Data mining and knowledge discovery, 18(1), 140-181. Kornell, N., Hays, M. J., & Bjork, R. A. (2009). Unsuccessful retrieval attempts enhance subsequent learning. Journal of Experimental Psychology: Learning, Memory, and Cognition, 35(4), 989. Liyanagunawardena, T. R., Adams, A. A., & Williams, S. A. (2013). MOOCs: A systematic study of the published literature 2008-2012. The International Review of Research in Open and Distributed Learning, 14(3), 202-227. Miyamoto, Y. R., Coleman, C. A., Williams, J. J., Whitehill, J., Nesterko, S. O., & Reich, J. (2015). Beyond time-on-task: The relationship between spaced study and certification in MOOCs. Available at SSRN. 24

Morgan, P. L., Farkas, G., Hillemeier, M. M., & Maczuga, S. (2009). Risk factors for learningrelated behavior problems at 24 months of age: Population-based estimates. Journal of Abnormal Child Psychology, 37, 401-413. Reich, J. (2015). Rebooting MOOC research. Science, 347(6217), 34-35. Robinson, C. C., & Hullinger, H. (2008). New benchmarks in higher education: Student engagement in online learning. Journal of Education for Business,84(2), 101-109. Roediger, H. L., & Butler, A. C. (2011). The critical role of retrieval practice in long-term retention. Trends in cognitive sciences, 15(1), 20-27. Savi, A. O., Williams, J. J., Maris, G. K. J., & van der Maas, H. L. J. (2015). The role of A/B tests in the study of large-scale online learning. Manuscript submitted for publication. Toppino, T. C., & Cohen, M. S. (2009). The testing effect and the retention interval: Questions and answers. Experimental psychology, 56(4), 252-257. 25

Appendix A: data en analyse scripts In het bijgesloten archiefbestand kan de data worden gevonden die gebruikt is voor de in dit paper beschreven analyses. Daarnaast zijn ook verschillende scripts opgenomen waarmee de analyse kan worden gereproduceerd, inclusief standaardisatie- en manipulatiechecks. 26