2 Samenvatting 10 Biologische achtergrond 1 In de laatste decennia zijn nieuwe technologieën ontwikkeld die het DNAonderzoek (genomics-research) in een stroomversnelling hebben gebracht. Genomics is de term voor grootschalig onderzoek naar erfelijkheid en de genen. De term genomics is afgeleid van het woord genoom, het totaal van genen in een organisme. De hoeveelheid data die deze nieuwe technologieën produceren is immens. Deze technologieën hebben nu al een ongekend grote bijdrage geleverd aan de kennis van hoe ziektes ontstaan door veranderingen (mutaties) in genen. Een gen bevat de DNA code voor één of meerdere specifieke eiwitten. Deze eiwitten kunnen een erfelijke eigenschap tot uiting brengen, zoals bloedgroep of oogkleur. In het DNA treden voortdurend veranderingen op. Een stuk coderend DNA kan hierdoor beschadigd worden. Het betreffende gen werkt dan niet goed meer. Mutaties in genen kunnen daarom de oorzaak zijn van afwijkingen en ziekten, maar meestal zijn de verandering onschuldig of worden ze ongedaan gemaakt door het lichaam zelf. Eén van die nieuwe technologieën is de microarray technologie. Een microarray is een microscopisch klein rechthoekig plaatje met daarop kleine stipjes met DNA in een matrixpatroon (array). Ieder stipje op de microarray bevat een stukje van het DNA van één specifiek gen van b.v. de mens. Alle stipjes samen vertegenwoordigen het complete genoom van de mens, of een deel ervan. Met een microarray kun je meten welke genen in een bepaald weefsel actief zijn en welke niet. Omdat een groot deel van alle genen uit een genoom op een microarray staan, kun je met één experiment de activiteit van tienduizenden genen tegelijk meten. Door activiteiten van de genen van gezonde personen te vergelijken met die van zieke personen kunnen genen met afwijkende activiteit 1 Ditstukisgebaseerdop: ErfelijkWatisdat? Overerfelijkheidbijdemensenovererfelijkheidsadvies, deze brochure is een uitgave van de Nederlandse Anthropogenetische Vereniging en de Vereniging Klinische Genetica Nederland ( en het boekje DNA etcetera AllesoverDNA dat een greep uit (bewerkte) artikelen van bevat. 131

3 HOOFDSTUK 10. SAMENVATTING opgespoord worden. Deze afwijkende activiteit kan mogelijk de ziekte veroorzaken of daaraan bijdragen. Als bekend is welke genen de ziekte veroorzaken, kan het ontwikkelen van een medicijn tegen die ziekte enorm bevorderd worden. Dit proefschrift beschrijft nieuwe statistische methoden die optimale informatie uit de immense hoeveelheid data kunnen halen, om zo beter genen met afwijkende activiteiten op te kunnen sporen. Statistische achtergrond Statistische methoden zijn nodig voor het opsporen van genen met een afwijkende activiteit. Dit gaat als volgt: voor elk gen worden twee hypotheses geformuleerd, namelijk de zogenaamde nulhypothese: gen heeft geen afwijkende activiteit en de alternatieve hypothese: gen heeft afwijkende activiteit. Met behulp van een toetsingsgrootheid en zijn verdeling kan de waarschijnlijkheid van de nulhypothese getoetst worden. Een toetsingsgrootheid is een enkel getal dat vaak samengesteld is uit een of meerdere gemiddelde en standaarddeviaties. Een toetsingsgrootheid heeft een verdeling die aangeeft wat de meest waarschijnlijke waarde van deze grootheid is. De meest bekende verdeling is de normaal verdeling of Gauss-kromme. Een hiervan afgeleide verdeling is de Student s t-kromme, deze verdeling wordt vaak gebruikt als de metingen twee groepen betreft. Afhankelijk van de uitkomst van de toets kan de nulhypothese wel of niet verworpen worden. Als de nulhypothese wordt verworpen dan wordt de alternatieve hypothese aanvaard. Er bestaat altijd een zeker risico om een geformuleerde nulhypothese ten onrechte te verwerpen. Dit wordt ook wel de onbetrouwbaarheid van de toets genoemd, of de kans op een vals positief resultaat, deze wordt vaak met α aangeduid. Voordat de toets uitgevoerd wordt, wordt bepaald welke onbetrouwbaarheid toelaatbaar is. Wordt bijvoorbeeld α = 5% gekozen dan is het voor 1 op de 20 toetsen (5% = 5 /100 = 1 /20) toelaatbaar geacht om deze ten onrechte te verwerpen (in het geval dat voor alle 20 toetsen de nulhypothese waar is). Soms worden er meer stringentere criteria gebruikt zoals α = 1% of α = 0, 1%. Dit heeft echter tot gevolg dat het ook moeilijker wordt om genen met echt afwijkende activiteit (echt positief) op te sporen. Een toets die goed echt positief van vals positief kan onderscheiden wordt krachtig, of een toets met grote power genoemd. Er zijn verschillende factoren die de power van een toets bepalen. Als de activiteit van een gen van gezonde personen erg verschilt met de activiteit van zieke personen is het makkelijker deze op te sporen, en heeft de toets dus een grotere power dan als dit verschil klein is. Ook heeft het verschil van activiteit binnen de groep gezonde en binnen de groep zieke personen invloed op de power. Als de activiteit binnen een groep niet veel verschilt, zal dit de power positief beïnvloeden. Dit wordt ook bereikt door de grootte van de groepen, ook wel steekproefgrootte, uit te breiden. 132

4 Omdat de genomische technologieën niet één maar tienduizenden genen tegelijk meten, worden ook tienduizenden hypotheses getoetst. Nu doet zich het probleem voor dat als in 1 op de 20 toetsen de nulhypothese ten onrechte wordt verworpen met tienduizenden toetsen er zo n 500 ( /20 = 500) ten onrechte verworpen kunnen worden. Dit heeft tot gevolg dat het erg moeilijk wordt de genen met echt afwijkende activiteit (echt positief) te onderscheiden van de ten onrechte verworpen nulhypotheses (vals positief). Dit probleem wordt het meerdere toetsenprobleem genoemd. Verschillende correctieprocedures zijn bedacht met ieder zijn specifieke voor- of nadelen. De correctieprocedure die het meest toegepast wordt bij microarray data analyse is de False Discovery Rate of FDR correctieprocedure. Deze procedure is ontwikkeld door Benjamini en Hochberg, eind jaren negentig van de vorige eeuw. De FDR correctieprocedure is er specifiek op gericht om echt positieve hypotheses te vinden ten koste van een controleerbaar aantal vals positieve hypotheses. Na het toetsen van de tienduizenden genen en het toepassen van de FDR correctieprocedure, is de lijst van tienduizenden genen gereduceerd tot de genen die hoogstwaarschijnlijk afwijkende activiteit vertonen. Een klein percentage zal nog steeds vals positief zijn. Het is dus toch nog lastig, ook al past men de FDR correctieprocedure toe, om de echt afwijkende genen te vinden. In dit proefschrift worden verschillende methoden beschreven die dit proberen eenvoudiger te maken, of die aangeven onder welke condities de beste resultaten verwacht kunnen worden. Hoofdstuk 2 dient als een inleiding in de gebruikte terminologie in het proefschrift. Ook wordt hier aangegeven welke termen vaak door elkaar gebruikt worden. In het vakgebied Bioinformatica werken onderzoekers met verschillende achtergronden zoals biologen en informatici. Dit kan misverstanden in de gebruikte terminologieën met zich meebrengen. In dit hoofdstuk brengen wij hier duidelijkheid in. Het opsporen van echt afwijkende genen tussen zieke en gezonde personen is makkelijker als de groep zieke en gezonde personen groot is. Maar hoe groot is groot genoeg? De statistische methode die hier antwoord op kan geven is een power en steekproefgrootte analyse. In de hoofdstukken 3 en 4 laten we zien hoe optimale steekproefgrootte bepaald kan worden op basis van een pilotstudie. Dit wil zeggen dat het experiment zoals gepland eerst kleinschalig wordt uitgevoerd, met bijv. 5 zieke en 5 gezonde personen. Op basis hiervan kan dan bepaald worden dat een steekproefgrootte van bijv. 25 zieke en 25 gezonde personen optimaal is om genen met afwijkende activiteit op te sporen. Een veel toegepaste methode om het aantal valse positieve genen te reduceren is d.m.v. filteren. Door naar bepaalde meetbare eigenschappen van de genen te kijken, b.v. hoe hoog of hoe laag de activiteit is, en dan genen met een lage activiteit er alvast uit te halen voordat er getoetst wordt, hoopt men het aantal vals positieve genen verder terug te dringen. In hoofdstuk 5 laten wij zien aan welke voorwaarde zo n filter moet voldoen, en dat niet alle filters 133

5 HOOFDSTUK 10. SAMENVATTING die momenteel gebruikt worden het gewenste effect opleveren. Deze filters kunnen dus maar beter niet gebruikt worden. Ook hebben wij een test ontwikkeld waarmee bepaald kan worden of een filter aan de juiste voorwaarde voldoet. Voordat het hypothese toetsen plaatsvindt, vinden er eerst data preprocessing stappen plaats. Deze stappen zorgen ervoor dat de data opgeschoond wordt door het verwijderen van technische effecten. Voor speciaal opgezette experimenten zijn erg specifieke preprocessing stappen nodig, omdat bij gebruik van standaard methoden na hypothese toetsen volledig onzinnige resultaten verkregen kunnen worden. In hoofdstuk 6 hebben wij zelf een methode ontwikkeld die beter de data opschoont dan de tot nu toe bekende methoden. Wij hebben aangetoond dat met behulp van deze aangepaste het ongewenste technische effect verwijderd wordt, en het biologische effect behouden blijft. In hoofdstuk 7 laten wij zien dat computervoorspellingen die aangevuld zijn met verschillende experimentele data veel betere resultaten opleveren dan wanneer alleen de computer voorspellingen gebruikt worden. Het is juist die combinatie doe zo werkzaam is, want alleen met de experimentele data zonder de computervoorspellingen waren we ook niet ver gekomen. In de toekomst zullen dit soort geïntegreerde benaderingen waarschijnlijk veel toegepast gaan worden. 134

