De detectie van mono- en bi-allelische DNA-methylatie op basis van single nucleotide polymorfismen

Maat: px
Weergave met pagina beginnen:

Download "De detectie van mono- en bi-allelische DNA-methylatie op basis van single nucleotide polymorfismen"

Transcriptie

1 Faculteit Bio-ingenieurswetenschappen Academiejaar De detectie van mono- en bi-allelische DNA-methylatie op basis van single nucleotide polymorfismen Sandra Steyaert Promotor: Prof. Dr. ir. Tim De Meyer Copromotor: Prof. Dr. ir. Wim Van Criekinge Masterproef voorgedragen tot het behalen van de graad van Master in de bio-ingenieurswetenschappen: cel- en genbiotechnologie

2 De auteur en de promotor geven de toelating deze scriptie voor consultatie beschikbaar te stellen en delen ervan te kopiëren voor persoonlijk gebruik. Elk ander gebruik valt onder de beperkingen van het auteursrecht, in het bijzonder met betrekking tot de verplichting uitdrukkelijk de bron te vermelden bij het aanhalen van resultaten uit deze scriptie Datum (handtekening student) (handtekening promotor) (Naam student) (Naam promotor)

3 ii VOORWOORD Reeds voor en vooral sinds aanvang van mijn studies bio-ingenieur ging mijn interesse uit naar wiskunde en wetenschap. Na het volgen van de cursus Biochemie en moleculaire biologie in 2de bachelor werd deze interesse aangerijkt met de wereld van genetica en gentechnologie die meer en meer een passie werd. Het was voor mij snel duidelijk dat ik hierin wou verdergaan en de keuze voor de optie cel- en gentechnologie in 3de bachelor was dan ook een zeer logische stap. Een keuze die ik mij nooit beklaagd heb, want keer op keer stond ik versteld van hoe complex maar toch ook fantastisch geregeld het netwerk van moleculaire biologie en (epi)genetica in elkaar zit. Hoewel ik nooit tegenopzag tegen het labowerk dat onoverkomelijk verweven is in deze tak van de wetenschap, was ik toch steeds sterk geboeid door statistiek, programmeren en de mix van deze twee, namelijk bio-informatica. Het uitdenken en schrijven van programma s nodig om data te analyseren vind ik zeer uitdagend en het gevoel dat je uiteindelijke script doet wat het moest doen (of dat je dat toch tenminste denkt) was en blijft keer op keer fantastisch. Als je dan achteraf ook nog eens mooie conclusies kan trekken uit wat je eigenlijk geanalyseerd hebt, dan maakt het dat gevoel extra af. Vandaar dat ik dan ook graag mijn promotor Dr. ir. Tim De Meyer wil bedanken voor de kans die ik kreeg om via mijn masterproef te mogen proeven van hoe dit (bio-informatica) werk zich in de echte praktijk voordoet. Maar ik wil hem voornamelijk bedanken voor de begeleiding dit jaar. Tim, bedankt voor het vertrouwen dat je in me had waardoor je me toeliet om zelfstandig te zoeken en werken, maar je toch steeds beschikbaar was als ik (weer) eens vastzat. Bedankt dat ik je steeds mocht bestoken met vragen en problemen (met soms bijhorende frustraties) en dat je telkens bereid was om bijkomende tips en uitleg te geven bij de statistische methodes alsook voor het nodige geduld hierbij. Ik vond het een enorme verrijking in mijn manier van denken. Verder wil ik je ook bedanken voor de tijd en energie die je gestoken hebt in het lezen en verbeteren van deze masterproef. Een welgemeende dankuwel aan de BioBiX-groep dat ik ook bij jullie steeds terecht kon voor hulp. Geert, Joachim, Alexander, Jeroen, Klaas, Simon, Gerben, Daisy en Wim, bedankt voor de vele tips en het delen van ervaringen die mij verder op weg hebben geholpen alsook mijn kennis in het veld hebben verruimd. Bedankt voor de kansen die ik heb gekregen, zoals onder andere mijn aanwezigheid tijdens de Benelux Bioinformatics Conference in Luxemburg met de volledige groep. Ik wil jullie in het bijzonder ook bedanken voor de gezellige en leuke werksfeer. Het was telkens een plezier om bij jullie te komen werken! Ook mijn vrienden mogen hier zeker niet ontbreken. Bedankt om mijn studietijd de afgelopen jaren zo aangenaam te maken! Zowel binnen als buiten de lesuren waren er onvergetelijke momenten die vastgepind blijven in mijn geheugen. En ook dit jaar waren jullie weer volledig van de partij. Bedankt voor de gezellige middagpauze s, etentjes s avonds en cafébezoeken om stoom af te blazen en te delen in elkaars (thesis)miserie. Jullie hebben het woord comfort food een geheel

4 iii andere dimensie gegeven! In het bijzonder ook nog een extra danku aan Danielle en Joost voor het nalezen van bepaalde stukken van deze masterproef met bijhorend advies. Via deze weg zou ik ook graag mijn ouders bedanken voor de vele kansen die ze mij hebben gegeven, zowel op studievlak als daarbuiten. Bedankt om mij telkens aan te moedigen en te motiveren. Ze zeggen wel dat je je leven zelf bepaald, maar zonder jullie onvoorwaardelijke steun, en dan bedoel ik niet enkel financieel maar ook emotioneel, zou ik nu niet staan waar ik nu sta. Integendeel. Mama en Papa, een super dankuwel om mij vroeger en nu te blijven stimuleren op studievlak en mij op weg te helpen naar wat ik eigenlijk echt wil. Adriaan, ook jij verdient een speciale vermelding in mijn dankwoord. Bedankt dat je er steeds voor mij was en mij gesteund hebt. Ook op minder aangename momenten. Want als ik vastzit met iets, dan kan ik dat moeilijk loslaten tot ik een oplossing gevonden heb. Op werkvlak is dit waarschijnlijk een voordelige eigenschap, maar voor jou zal dat soms net iets minder gezellig geweest zijn. Maar ook op die momenten wou je steeds naar mij luisteren en mij helpen en zo kon ik bij jou telkens tot rust komen. Bedankt voor de vele leuke momenten alsook de vele schrijfuren die we dit jaar samen hadden en waarin we elkaar konden vooruithelpen als één van ons twee een probleem of writers block had. Bedankt dat ik altijd bij jou terecht kon! Sandra Steyaert Gent, juni 2012

5 Inhoudsopgave Woord vooraf ii 1 Lijst van afkortingen 1 2 Samenvatting 4 3 Inleiding 6 4 Mono-allelische expressie Epigenetica Epigenetische mechanismen Histonmodificaties DNA-methylatie Niet-coderend RNA Regulatie van genexpressie door DNA-methylatie Interactie tussen histonmodificaties, DNA-methylatie en niet-coderend RNA Mono-allelische expressie? X-chromosoom inactivatie Autosomale genen Imprinting Epigenetica en ziekte Ziektes gerelateerd aan imprinting Prader-Willi en Angelman syndroom Kanker Opmars van imprintingziektes

6 INHOUDSOPGAVE v Imprinting-onafhankelijke rol van epigenetica in kanker Andere ziektes en epigenetische therapieën DNA-methylatie analysemethodes DNA-methylatie specifieke stap Platformen en analyse Materialen & Methodes Hardware Software Bowtie Perl en Bioperl MySQL Perl DBI en DBD R omgeving Detectie van mono- en bi-allelische DNA-methylatie Introductie en doel Algemene bespreking statistisch kader Schatten van de allelfrequenties Schatten van de genotypefrequenties Identificeren van loci met significante mono-allelische methylatie Voorbeeld 1: aanwezigheid van mono-allelische DNA-methylatie Bio-informatica pipeline: data-analyse Resultaten Bepalen van de basefrequenties Traceren van SNPs en aanmaak totale SNP-tabel Bepalen van de SNP-frequenties Aanmaak van de tabel ListSamples Poweranalyses Filtering data met behulp van de poweranalyse Statistisch algoritme: detectie mono-allelisch gemethyleerde loci

7 INHOUDSOPGAVE vi 7 Discussie 65 8 Conclusie 69 Bibliografie 70 A Appendix 1 A.1 Voorbeeld 2: afwezigheid van mono-allelische DNAmethylatie A.2 Stalen A.2.1 Totale set van 92 stalen A.2.2 Subset van 24 vrouwelijke stalen voor X-chromosoom analyse A.3 Resultaten poweranalyses A.3.1 Resultaten poweranalyse op basis van artificiële data: 24 stalen A.3.2 Resultaten poweranalyse op basis van artificiële data: 92 stalen A.3.3 Resultaten poweranalyse op basis van reële data: 24 stalen A.3.4 Resultaten poweranalyse op basis van reële data: 92 stalen A.4 Scripts A.4.1 Aanmaak van een SNP- en frequentietabel A.4.2 Splitsen van de frequentietabel per chromosoom A.4.3 Geslachtbepaling van 92 stalen A.4.4 Opvullen van de SNP-databank A.4.5 Aanmaak van count table A.4.6 Aanmaak totale SNP-tabel A Script A Script A.4.7 Aanmaak van een lijst van gedetecteerde SNPs per positie (tabel ListSamples) A.4.8 Poweranalyses A Poweranalyse op basis van artificiële data A Poweranalyse op basis van reële data A.4.9 Maken van 3D- en 2D-plots

8 INHOUDSOPGAVE vii A.4.10 Filtering data A Filtering na artificiële poweranalyse A Filtering na reële poweranalyse A.4.11 Statistisch algoritme: detectie van mono-allelisch gemethyleerde loci... 56

9 1 Lijst van afkortingen A adenosine ADP adenosine difosfaat AID activation-induced cytosine deaminase ATR-X alpha thalassemia syndroom X-gelinkt bp basenparen C cytosine cf. confer CG cytosine guanine CMT3 cytosine DNA-methyltransferase 3 CPAN comprehensive perl archive network CRAN comprehensive R archive network DBD database driver DBI database interface DMR differentieel gemethyleerde regio DNA deoxyribonucleïne zuur DNMT1 DNA-methyltransferase 1 DNMT3A/3B/3L DNA-methyltransferase 3A/3B/3L DNMTs DNA-methyltransferasen EZH2 enhancer of zeste homolog 2 FDR false discovery rate FMR1 fragile X mental retardation protein 1 G guanine GAIIx (Illumina) genome analyser IIx GRCh37 genome reference consortium human genome build 37 H1 histoneiwit 1

10 2 H2A/H2B histoneiwit 2A/histoneiwit 2B H3 histoneiwit 3 H3K27 lysine 27 van histoneiwit H3 H3K9 lysine 9 van histoneiwit H3 H3K9me gemethyleerd lysine 9 van histoneiwit H3 H4 histoneiwit 4 HAPMAP haplotype map project HAT histon-acetyltransferase HDAC histon-deacetylase hg19 human genome release 19 HKMT histonlysine-methyltransferase HMT histon-methyltransferase HP1 heterochromatine eiwit 1 ICF immunodeficiëntie centromeerinstabiliteit faciale anomalieën i.e. id est Igf2 insulin-like growth factor Igf2r insulin-like growth factor receptor Maq mapping and assembly with qualities MBD methylcytosine bindend (eiwit)domein MBD1 methylcytosine bindend (eiwit)domein 1 MBD2 methylcytosine bindend (eiwit)domein 2 MBD3 methylcytosine bindend (eiwit)domein 3 MBD4 methylcytosine bindend (eiwit)domein 4 MBD-seq methylcytosine-bindende (eiwit)domeinen sequenering mcpg gemethyleerd CpG MeCP2 methylcytosine bindend eiwit 2 MeDIP methyl-dna immunoprecipitatie MGMT O-methylguanine-DNA-methyltransferase Mi-2/NuRD Mi-2 (humaan antigen) bevattend nucleosome remodeling deacetylase MILI MIWI like MIWI2 murine homoloog 2 van Piwi MLH1 MutL protein homolog 1 MOV10L1 moloney leukemia virus 10-like 1 MRE methylatie-gevoelige restrictie-enzymen MVH mouse vasa homolog N-terminaal amino-terminaal p53 (tumor) protein 53 PCR polymerase chain reaction Perl practical extraction and report language

11 3 PHP pirna s Piwi RAG Rb (R)DBMS RNA RNAi rox SNP SOAP SQL SUVH4/KYP T TDG TDRDs U UBE3A VDJ Xist hypertext preprocessor Piwi-interagerende RNA s P-element induced wimpy testis V(D)J recombination-activating protein retinoblastoma tumor suppressor (relationeel) databank management systeem ribonucleïne zuur RNA interference RNA on chromsome X single nucleotide polymorfisme short oligonucleotide analysis package structured query language Suppressor of variegation 3-9 homolog protein 4/kryptonite thymine thymine-dna-glycosylase Tudor-domein-bevattende eiwitten uracil ubiquitin-protein ligase E3A variable-diversity-joint chromsome X-inactive specific transcript

12 2 Samenvatting Het onderwerp en doel van deze masterproef was het ontwikkelen van een methode om monoallelische DNA-methylatie te detecteren. Mono-allelische DNA-methylatie oefent mogelijks een beduidende invloed uit op mono-allelische expressie. Mono-allelische expressie treedt op wanneer slechts één van de twee allelen van gen (in deze masterproef worden enkel diploïde organismen beschouwd) actief is en tot expressie komt. Welk van de twee allelen transcriptioneel actief is, kan afhankelijk zijn van de parentale afkomst van het chromosoom waar het allel op ligt. Dit fenomeen wordt imprinting genoemd. Sommige van deze imprinted genen komen dus enkel tot expressie via het paternale allel, terwijl bij andere imprinted genen het paternale allel net onderdrukt wordt en enkel geëxpresseerd worden via het maternale allel. De keuze welk van de twee allelen transcriptioneel onderdrukt is en welk net actief is, kan echter ook random zijn. Deze vorm van mono-allelische expressie werd reeds vastgesteld bij bepaalde autosomale genen alsook bij het proces van X-chromosoom inactivatie. Foutieve mono-allelische expressie van bepaalde genen werd reeds gelinkt aan een aantal overerfbare aandoeningen zoals onder andere het Prader-Willi syndroom en bepaalde vormen kanker. Het ontrafelen van de mechanismen die aan de grond liggen van mono-allelische expressie zouden van grote betekenis kunnen zijn in de eventuele bestrijding van deze aandoeningen. Gezien mono-allelische DNA-methylatie meer dan waarschijnlijk een rol speelt in de regulatie van monoallelische genexpressie, vormt het zoeken van zulke mono-allelisch gemethyleerde loci een eerste stap. Op basis van van 92 humane stalen, verkregen via methylcytosine-bindende (eiwit)domeinen sequenering (MBD-seq) werd in deze masterproef een methode ontwikkeld om eventueel monoallelisch gemethyleerde loci te detecteren. Deze methode omvat een bio-informatica pipeline die in de eerste stappen de sequentiedata pre-processed en de single nucleotide polymorfisme (SNP)- profielen van de stalen bepaalt om dan, na het uitvoeren van een poweranalyse, in de finale stap de verkregen data (SNP-posities) te analyseren aan de hand van een statistisch algoritme. Dit algoritme combineert bijgevolg de methylatieprofielen van de 92 stalen samen met de SNP-profielen om SNP-posities te detecteren die significant mono-allelische DNA-methylatie vertonen.

13 5 Door het sterke computationele karakter van de methode, werd deze hier enkel geïllustreerd voor twee chromosomen, namelijk 21 en X. Na uitvoering van de pipeline werden er voor chromosomen 21 en X respectievelijk 36 en 1 SNP-posities gevonden waarbij, met een significantieniveau van 0,05, significante mono-allelische DNA-methylatie werd gedetecteerd. In de toekomst moet nog onderzocht worden in welke functionele DNA-regio s deze SNP-posities liggen (exonen, intronen, promotors). Verder moet aan de hand van RNA-sequentiedata gevalideerd worden of deze regio s mono-allelische expressie reguleren. Pas dan kan er iets duidends gezegd worden over de invloed en mechanismen van mono-allelische DNA-methylatie op genexpressie. Hoewel er op verschillende plaatsen in de pipeline nog ruimte is voor verdere optimalisatie, tonen de resultaten aan dat de methode op zich wel werkt en toelaat om genen te screenen op eventuele mono-allelische DNA-methylatie. Deze proof-of-concept kan bijgevolg een goede basis zijn om in de toekomst de methode uit te breiden/optimaliseren om zo de analyse uit te voeren op meer stalen.

14 3 Inleiding In de meeste gevallen zijn de twee allelen van een gen (of genkopijen) actief en worden deze beide tot expressie gebracht. Men spreekt dan van bi-allelische expressie. Genexpressie wordt als monoallelisch aangeduid indien slechts één van de twee allelen actief is. Het andere allel is gesilenced (= onderdrukt) en wordt hierdoor niet tot expressie gebracht. De keuze van een allel om monoallelisch tot expressie te komen kan random zijn maar kan ook afhankelijk zijn van de parentale oorsprong, een fenomeen bekend onder naam imprinting. Epigenetica wordt gedefinieerd als de studie van overerfbare modificaties op zowel chomatine als DNA die een invloed hebben op de regulatie van genexpressie en dit zonder het wijzigen van de nucleotidensequentie in het DNA. DNA-methylatie, een gekend epigenetisch mechanisme, speelt een significante rol in de regulatie van genexpressie. In deze masterproef wordt een methodologie voorgesteld die toelaat om genen te screenen die mono-allelisch gemethyleerd zijn en dus mogelijks een rol spelen in de regulatie van monoallelisch expressie. Deze methodologie omvat een bio-informatica pipeline met als basis een statistisch kader ontwikkeld in R en start bij sequentiedata verkregen via MBD-seq. In Hoofdstuk 4 volgt een korte literatuurstudie met onder andere een beschrijving van epigenetica, DNAmethylatie, mono-allelische expressie en DNA-methylatie analysemethodes. Nadien komt het praktische werk van deze masterproef aan bod met in Hoofdstuk 5 een overzicht gegeven van de gebruikte hard- & software vergezeld van de verschillende stappen in de bio-informatica pipeline. Ook wordt het statistische kader dat aan de grondslag ligt van deze methodologie uitgebreid beschreven en geïllustreerd aan de hand van hypothetische voorbeelden. Vervolgens worden in Hoofdstuk 6 de resultaten getoond van de toepassing van de pipeline op 92 humane kankerstalen met als doel de detectie van mono-allelisch gemethyleerde loci. In Hoofdstuk 7 volgt een discussie van de methode en de bekomen resultaten en Hoofdstuk 8 sluit deze masterproef af met een algemene conclusie.

15 4 Mono-allelische expressie In the wake of the Human Genome Project, epigenetics is at a critical crystallization stage. The way that it is defined, the boundaries that are drawn, and the language that is used will have longlasting effects on future research and on the place of epigenetics in biological thinking [1]. Zowel genetische wijzigingen, zoals onder andere mutaties en deleties, als afwijkende epigenetische veranderingen, bijvoorbeeld DNA-methylatie, kunnen leiden tot ziektes als kanker [2]. Het toenemende besef van de bijdrage van epigenetische processen in de genomische functie in gezondheid en ziekte wordt ondersteund door decennia van wetenschappelijk onderzoek naar modelsystemen. Voornamelijk studies betreffende genomische imprinting hebben bijgedragen tot de ontrafeling van vele principes van epigenetische regulatie. De recent geboekte vooruitgang en de reeds talrijke ontdekkingen in dit domein tonen hoe het bestuderen van imprinting helpt om ons begrip omtrent de epigenetische controle van genomische functie verder uit te breiden [3]. 4.1 Epigenetica Klassieke Mendeliaanse overerving van fenotypische kenmerken, zoals bijvoorbeeld de kleur van erwten, resulteert uit allelische verschillen die het gevolg zijn van mutaties in de DNA-sequentie. Al deze mutaties samen vormen de kern van fenotypische kenmerken. Deze concepten plaatsen mutaties in de kern van de klassieke genetica. De oorsprong van epigenetica is echter afkomstig van studies in vele organismen die afwijkende, niet-mendeliaanse patronen van overerving blootleggen. Epigenetica betekent letterlijk bovenop de genetische informatie. Gedurende de laatste 50 jaar heeft de betekenis van de term epigenetica een evolutie ondergaan die parallel loopt met ons toenemende besef over de moleculaire mechanismen die aan de grondslag liggen van de regulatie van genexpressie bij eukaryoten. Oorspronkelijk refereerde epigenetica naar de beschrijving van gebeurtenissen die niet konden verklaard worden door reeds gekende genetische principes [4].

16 4.1 EPIGENETICA 8 Eén van de eerste wetenschappers die een duidelijke definite bedacht voor de term was Waddington. Hij definieerde epigenetica als de tak van de biologie die de causale interacties tussen de genen en hun producten bestudeert, die een bepaald fenotype tot stand brengen [5]. Volgens Waddington is er geen simpele relatie tussen het geno- en fenotype van een organisme. Dit door enerzijds de invloed van de omgeving en anderzijds door de complexe interacties tussen de controlerende genen die aan de touwtjes trekken van het genetische landschap, alsook de plasticiteit daarvan (zie Figuur 4.1). (a) (b) Figuur 4.1: (a) Volgens Waddington zijn de genen in interactie met de omgeving en trekken deze aan de touwtjes van het epigenetisch oppervlak, zodat het balletje, dat de symbolische voorstelling is van het fenotype, op verschillende plaatsen kan terechtkomen. (b) De interacties die samen het epigenetische landschap vormen. Door de complexe interacties tussen de genen die aan touwtjes trekken en de invloed van de omgeving is er geen simpele relatie tussen het geno- en fenotype van een organisme [5]. De voorbije decennia zijn vele biologische fenomenen, die op het eerste zicht niet gerelateerd zijn, benoemd als epigenetisch. Een eerste voorbeeld is de ontdekking van paramutatie in maïs door Alexander Brink in 1950 [6]. Bij paramutatie is er een trans-interactie tussen homologe sequenties of twee allelen waarbij het ene allel een overerfbare verandering tot stand brengt in het andere allel met regulatorische en fenotypische verschillen tot gevolg [7]. Een ander voorbeeld is de ontdekking, via experimenten met de fruitvlieg Drosophila, dat de positie van een gen binnen een chromosoom een effect heeft op de expressie van dat gen [8, 9]. Ook het fenomeen van imprinting in specifieke paternale en maternale loci bij zoogdieren is één van deze epigenetische biologische fenomenen (zie Sectie 4.2.3). De term epigenetica wordt tegenwoordig voornamelijk gebruikt bij de beschrijving van mechanismen waardoor cellen een bepaalde vorm of functie verkrijgen en de manier waarop deze structurele en functionele toestand worden doorgegeven tijdens de celdeling [1]. De hedendaagse definitie is de volgende: De studie van mitotisch en/of meiotisch overerfbare veranderingen in fenotype die niet kunnen worden verklaard door verschillen in DNA-sequentie [10]. Een multi-cellulair organisme bijvoorbeeld bestaat voor het grootste deel uit cellen met een identiek genotype, doch de ontwikkeling van het organisme genereert een diversiteit aan celtypes met verschillende functies en ongelijke maar stabiele profielen in genexpressie. Door de recente explosie in het epigenetisch onderzoek worden de vele vraagtekens stap voor stap beantwoord met een geleidelijke toename in de kennis over epigenetische mechanismen tot gevolg.

17 4.1 EPIGENETICA Epigenetische mechanismen Het huidige epigenetisch onderzoek is voornamelijk gericht op de studie van covalente en nietcovalente modificaties van het DNA en de histonen, alsook van de mechanismen waardoor deze modificaties de chromatinestructuur beïnvloeden. Chromatine is het complex van DNA en histonen (zie Figuur 4.2(a)) en is de template voor het creëren van het epigenetische landschap [11]. Het nucleosoom is de fundamentele zich herhalende eenheid van chromatine [12, 13]. Het is een parelvormig histonoctameer bestaande uit telkens twee moleculen van de histoneiwitten H2A, H2B, H3 en H4, waarrond 200bp DNA gebonden is (zie Figuur 4.2(b)). Histonen zijn positief geladen eiwitten met arginine- en lysine-rijke basische regio s en zijn opgebouwd uit een globulair domein en een flexibele ongestructureerde histonstaart die uitsteekt aan het oppervlak van het nucleosoom. Het DNA dat rechtstreeks contact maakt met de histoneiwitten is 147bp lang, gevolgd door een tussenstuk ( linker ) van variabele lengte. Een extra perifeer histoneiwit, namelijk H1, helpt bij het verder compacteren van de chromatinedraad [12]. Chromatine is een dynamische molecule die veel configuraties kent. Historisch wordt chromatine opgedeeld in ofwel euchromatine ofwel heterochromatine, hoewel geweten is dat er in beide klasses meerdere vormen bestaan. Euchromatine is de ongecondenseerde en bijgevolg niet compacte chromatine waarin de actieve genen liggen, doch het kan ook transcriptioneel inactief zijn. Bij zoogdieren is slechts 4% van het genoom vervat in euchromatine. Heterochromatine wordt gedefinieerd als zeer compacte en silenced chromatine en speelt een cruciale rol in de organisatie en het correct functioneren van genomen. Er worden twee vormen onderscheiden, namelijk constitutieve en facultatieve heterochromatine, waarbij het chromatine respectievelijk permanent compact is en waarbij de compactheid afhankelijk is van het celtype of het ontwikkelingsstadium van de cel [10]. Heterochromatine speelt een essentiële rol in de chromosomale organisatie, zoals het ontstaan van centromeer-, pericentromeer- en telomeerregio s [14]. De toegankelijkheid en dus de genexpressie van het DNA in het chromatine is afhankelijk van onder andere histonmodificaties, DNA-methylatie en de aanwezigheid van nucleosomen op bepaalde strategische posities in het DNA. Deze factoren kunnen met elkaar interageren en bij het bestuderen van epigenetische mechanismen, zouden deze entiteiten indien mogelijk collectief moeten worden behandeld. [4, 15, 16]. Histonmodificaties bijvoorbeeld controleren samen met DNAmethylatie de opvouwing van de nucleosomale eenheid tot hogere orde structuren en spelen een regulatorische rol in de signalisatie van cellulaire processen [17] Histonmodificaties Op basis van de aminozuursequentie blijkt dat histoneiwitten sterk geconserveerd zijn tussen verschillende organismen. Dit ondersteunt de hypothese dat deze eiwitten belangrijke functies vervullen. De N-terminale histonstaarten, vooral van H3 en H4, kunnen worden onderworpen aan allerlei post-translationele covalente modificaties zoals acetylatie, methylatie, fosforylatie, ubiquitinatie, sumoylatie, carbonylatie, glycosylatie, ADP-ribosylatie, biotinylatie, proline-isomerisatie

18 4.1 EPIGENETICA 10 (a) (b) Figuur 4.2: (a) Chromatine is opgebouwd uit DNA gewikkeld rond histonen. (b) De basiseenheid is een nucleosoom, een histonoctameer met DNA (zwarte lijn), dat telkens herhaald en compact opgevouwen wordt. Een nucleosoom ontstaat door binding van een H3/H4 tetrameer aan het DNA, gevolgd door twee sets van H2A/H2B dimeren. De kern van het nucleosoom bestaat uit de globulaire domeinen van de acht histoneiwitten. De periferie van het nucleosoom bestaat uit de ongestructureerde aminoterminale histonstaarten [10]. en waarschijnlijk nog vele andere [18, 19]. Specifieke enzymes en enzymcomplexen zoals bijvoorbeeld histon-acetyltransferases (HAT s), histon-deacetylases (HDAC s) en histon-methyltransferases (HMT s) katalyseren deze covalente modificaties, die plaatsvinden op specifieke plaatsen en aminozuren in de histonstaart. Een bijkomende complexiteit is dat de histonmethylatie kan voorkomen in zowel een mono-, di- en trigemethyleerde vorm, elk bewerkstelligd door een specifiek HMT. Hoewel histonen en hun modificaties sterk geconserveerd zijn, toont onderzoek aan dat de chromosomale distributie van individuele modificaties sterk kan variëren in functie van de celcyclus, alsook binnen en tussen bepaalde groepen van eukaryoten [17]. In bepaalde chromatine regio s kunnen nucleosomen varianten van de histoneiwitten bevatten. Momenteel zijn er al varianten van H2A en H3, maar nog geen van H2B en H4 gevonden. Hoewel deze varianten niet frequent voorkomen, zijn ze waarschijnlijk essentieel voor de epigenetische regulatie [20]. Vele studies tonen aan dat de aanwezigheid van euchromatine vaak positief geassocieerd is met hyperacetylatie van lysineresidue s op histoneiwitten alsook met andere actieve markeringen zoals bijvoorbeeld methylatie op lysine 4, lysine 36 en lysine 79 in H3. Het voorkomen van heterochromatine is daarentegen vaak geassocieerd met deacetylatie van de histoneiwitten, met onderdrukkende markeringen zoals methylatie op lysine 9 en lysine 27 in H3 en lysine 20 in H4, met DNA-methylatie en met de aantrekking van onderdrukkende effectoren zoals het heterochromatine eiwit 1 (HP1) [14]. De schikking van de nucleosomen in het chromatine kan aangepast worden door trans- en cis-effecten van de gemodificeerde histonstaarten (zie Figuur 4.3). Cis-effecten zijn het gevolg van aanpassingen in de fysische eigenschappen van histonmodificaties, zoals onder andere de ruimtelijke grootte of elektrische lading, die zorgen voor een verandering in het contact tussen de nucleosomen. Histonacetylatie bijvoorbeeld neutraliseert de positieve ladingen van de sterk basische histonstaarten met een lokale expansie van de chromatinevezel als gevolg, waardoor

19 4.1 EPIGENETICA 11 de dubbele DNA-helix beter toegankelijk wordt voor het transcriptiecomplex. Histonmodificaties kunnen ook een chromatine-geassocieerd eiwit (modification binder) aantrekken dat vervolgens een invloed uitoefent op de chromatinestructuur (trans-effect). Bepaalde histonmodificaties kunnen ook een zodanige stimulus uitvoeren waardoor een histoneiwit in de kern van het nucleosoom vervangen wordt door een variant [10]. Figuur 4.3: Transities in het chromatine patroon. Cis-effecten: een covalente modificatie van een histonstaart resulteert in een wijzing van de structuur of de lading met een verandering in de organisatie van chromatine tot gevolg. Trans-effecten: een enzymatische modificatie van een aminozuur in de histonstaart kan resulteren in een affiniteit voor een chromatine-geassocieerd eiwit (modification binder). De associatie van een modification binder veroorzaakt stroomafwaarts wijzigingen in de chromatinestructuur. Histonsubstitutie: een covalente histonmodificatie of andere stimulus kan aanleiding geven tot de vervanging van een histoneiwit door een variant histoneiwit via een nucleosoom-hermodeleringscomplex [10] DNA-methylatie DNA-methylatie is het tot nu toe best gekarakteriseerde epigenetische mechanisme en is betrokken in diverse biologische processen [4]. Het is in verschillende hoeveelheden aanwezig in zowel prokaryoten als in de meeste eukaryoten met de gist Saccharomyces cerevisiae en de nematode Caenorhabditis elegans als belangrijke gekende uitzonderingen. Bij deze modificatie wordt er op enzymatische wijze een methylgroep geplaatst op cytosineresidu s in de DNA-sequentie zodat er 5-methylcytosine gevormd wordt. In bacteriën biedt DNA-methylatie bescherming aan het gastheerorganisme tegen zijn eigen restrictie-enzymen, die binnendringend faag-dna knippen. In de meeste grote eukaryotische groepen, zoals planten, vele schimmels en dieren, is DNA-methylatie geconserveerd en heeft het een functie in onder andere silencing van transposons, transcriptionele gensilencing, paramutatie en imprinting (zie Sectie 4.2.3) [21, 22]. In planten vindt DNA-methylatie voornamelijk plaats op cytosines in een CG, CHG en CHH met H=A, C of T, terwijl dit in zoogdieren voornamelijk plaatsvindt op de symmetrische CGdinucleotide, hoewel er ook beperkte niet-cg-methylatie voorkomt, voornamelijk in stamcellen [23, 24]. Gezien in deze masterproef enkel gewerkt werd met samples van humane oorsprong zal

20 4.1 EPIGENETICA 12 in het komende deel van deze scriptie enkel DNA-methylatie bij zoogdieren besproken worden, tenzij uitdrukkelijk anders vermeld. Het DNA uit somatisch zoogdierweefsel is op 70% van alle CG s gemethyleerd [25]. Verschillende mapping studies tonen aan dat sterk gemethyleerde sequenties voornamelijk voorkomen in satelliet DNA, repetitieve elementen zoals transposons, niet-repetitief intergenerisch DNA en exons van genen. Deze worden gemethyleerd naargelang het aantal CG-dinucleotiden, waarbij de voorkeur uitgaat naar het methyleren van exons. Een belangrijke uitzondering hierop zijn CpG-eilanden, regio s in het genoom die relatief veel CG-dinucleotiden in hun sequentie bevatten. Het menselijk genoom heeft een gemiddeld CG% van 41%, terwijl CpG-eilanden een CG% hebben van ongeveer 67%. Een DNA-regio wordt gedefinieerd als een CpG-eiland indien de regio 500 of meer basenparen bezit met een CG-basenpaar percentage van meer dan 50% en een CpG-dinucleotide observed/expected ratio iets groter dan 0,6. CpG-eilanden zijn normaal ongemethyleerd en worden voornamelijk stroomopwaarts gevonden van genen, namelijk in de promotorregio en het eerste exon. De meeste CpG-eilanden blijven dus vrij van methylatie. Ongeveer 60% van de promotors zijn gelinkt met een CpG-eiland. DNA-methylatie van deze eilanden is gelinkt met transcriptionele repressie [26, 27]. Deaminatie van een ongemethyleerde C geeft aanleiding tot een U die terug hersteld wordt naar een C, terwijl deaminatie van een gemethyleerde C resulteert in een T. De C s blijven dus vooral bewaard in niet-gemethyleerd DNA. De deaminatie van een gemethyleerde C en bijgevolg de substitutie van een C naar een T is een proces dat plaatsvindt op evolutionaire schaal (een soort van mutatie). Deze substitutie is ook de reden dat er minder CpG-dinucleotiden aanwezig zijn (CpGdinucleotide observed/expected ratio 0,6) dan er at random zouden verwacht worden op basis van de nucleotidenfrequenties (CpG-dinucleotide observed/expected ratio van 1) [4, 28]. Genomische patronen van cytosine methylatie, bewerkstelligd door zowel de novo als onderhouds- DNA-methyltransferasen, spelen een cruciale rol in de organisatie van chromatine en genregulatie gedurende de embryo- en gametogenese, maar ook in de normale cellulaire werking [27, 29]. In zoogdieren zijn er drie actieve DNA-methyltransferasen (DNMTs), namelijk DNMT1, DNMT3A en DNMT3B. DNMT1 is een onderhouds-dna-methyltransferase en zorgt voor het behoud van DNA-methylatie terwijl DNMT3A en DNMT3B verantwoordelijk zijn voor de novo DNA-methylatie. Onderhouds-DNA-methyltransferases voegen een methylgroep toe aan hemigemethyleerd DNA voornamelijk tijdens DNA-replicatie met S-adenosyl-L-methionine als substraat. DNMT1 herkent de replicatievork waarna het efficiënt de CG-dinucleotiden methyleert waar de reeds bestaande streng ook gemethyleerd was. Dit in tegenstelling tot de novo DNMTs die methylgroepen toevoegen voornamelijk na DNA-replicatie (zie Figuur 4.4) [30, 31]. DNMT3L heeft geen katalytische activiteit maar functioneert als een regulator van DNMT3A en DNMT3B [32]. DNMT2 is in feite geen DNMT maar een trna-methyltransferase en heeft hierdoor recent de naam trna-asparaginezuur-methyltransferase gekregen [33]. Reeds tijdens de gametogenese vindt bij zoogdieren aanzienlijke de novo DNA-methylatie plaats. DNA-methylatie in zowel mannelijke als vrouwelijke geslachtscellen speelt een belangrijke rol in genomische imprinting (zie Sectie 4.2.3). Naast genomische imprinting is DNA-methylatie in ga-

21 4.1 EPIGENETICA 13 Figuur 4.4: Een streng van genomisch DNA waarbij de CpG paren gemarkeerd zijn als verticale lijnen. Ongemethyleerd DNA (boven) wordt de novo gemethyleerd door DNMT3A en DNMT3B waardoor symmetrische methylatie bekomen wordt op bepaalde CG-dinucleotiden. Na DNA-replicatie worden twee nieuwe dubbelstrengen gevormd met een nieuw gevormde DNA streng en een gemethyleerde ouderlijke streng. In de figuur is slechts één van beide dubbelstrengen weergegeven. Het onderhouds-dna-methyltransferase DNMT1 zorgt ervoor dat de symmetrische methylatie geconserveerd wordt op loci die na replicatie nog slechts half gemethyleerd zijn, maar zal geen nieuwe niet-gemethyleerde CG s methyleren [10]. meten ook belangrijk voor de onderdrukking van transposons. Uit het onderzoek van Kato et al. [34, 35] bleek dat mannelijke muizen die deficiënt waren voor DNMT3L naast defecten in imprinting, tevens geen methylatie konden uitvoeren op transposons waardoor deze ongecontroleerd tot expressie kwamen. Naast dit ontwikkelingsstadium zijn er nog twee andere ontwikkelingsstadia in zoogdieren die de novo DNA-methylatie ondergaan. In zoogdieren wordt het methylatiepatroon reeds vroeg in de ontwikkeling gevestigd door een sterk georganiseerd proces van genoomwijde demethylatie en de novo methylatie. Tijdens de preïmplantatiefase, voorafgaand aan de vasthechting van het embryo aan de uteruswand, wordt het overgeërfde methylatiepatroon in de gameten grotendeels omgezet naar hydroxymethylatie. Op basis van dit hydroxymethylatiepatroon ondergaat het embryo een golf van de novo methylatie waardoor een nieuw methylatiepatroon wordt vastgelegd dat nadien overgenomen wordt in de opeenvolgende celreplicaties [36, 37]. Eenzelfde fenotype komt voor in muizen deficiënt in MILI en MIWI2, twee eiwitten van de Piwifamilie. De Piwi-familie behoort tot de ARGONAUTE-superfamilie en de leden van de Piwifamilie binden met Piwi-interagerende RNA s (pirna s), niet-coderende kleine RNA s met een lengte van ongeveer nucleotiden. Tienduizenden pirna s zijn reeds gevonden in zoogdieren, de zebravis en Drosophila, doch nog niet in planten. De twee Piwi-eiwitten MILI en MIWI2 zijn in muizen betrokken bij de generatie van pirna s in foetale mannelijke gonaden en deze pirna s spelen een belangrijke rol in de silencing van transposons met behulp van DNAmethylatie. Deze bevindingen suggereren dat Piwi-piRNA complexen en DNA-methylatie samenwerken in de onderdrukking van transposons in geslachtscellen [38, 39]. Naast Piwi-eiwiten zijn onder andere ook nog Tudor-domein-bevattende eiwitten (TDRDs), het MVH-ewit en MOV10L1

22 4.1 EPIGENETICA 14 essentieel voor een correcte generatie van pirna s en bijgevolg correcte DNA-methylatie [40 42]. Naast het uitvoeren en onderhouden van DNA-methylatie, vindt er in planten en dieren ook DNAdemethylatie plaats. Er wordt een onderscheid gemaakt tussen passieve en actieve DNA-demethylatie. Passieve demethylatie treedt op wanneer de processen van DNA-methylatie verstoord worden, zodat de aanwezige DNA-methylatie na DNA-replicatie verdund wordt. In andere gevallen wordt DNA-methylatie door actieve DNA-demethylatie verwijderd. Passieve en actieve demethylatie kunnen tijdens specifieke ontwikkelingsstadia simultaan zorgen voor het reduceren van de DNA-methylatie. Hoewel er sterke aanwijzingen zijn dat actieve DNA-methylatie ook in dierlijke cellen voorkomt, zijn de moleculaire details van dit proces nog niet gekend [24, 43]. Jost et al. [44] stellen een glycosylase-afhankelijke demethylatiepathway voor in dieren. Bij het bestuderen van kippenembryo s is er een thymine-dna-glycosylase (TDG) gevonden met een 5- methylcytosine activiteit, die echter veel lager ligt dan de base excision activiteit gericht tegen een verkeerdelijk gepositioneerd thymine. Naast TDG is er ook nog een methylcytosine-bindend eiwitdomein (MBD4) ontdekt met DNA-glycosylase activiteit. Ook hier is de 5-methylcytosineglycosylase activiteit van MBD4 lager dan de base excision thymine-dna-glycosylase activiteit [45]. Om in vivo DNA-demethylatie te verwezenlijken, zijn vermoedelijk bijkomende eiwitten noodzakelijk. Uit de resultaten van verdere studies blijkt dat DNMT3A, DNMT3B en het deaminase AID in vitro 5-methylcytosine deamineren tot thymine waarna ofwel TDG ofwel MBD4 onafhankelijk van elkaar hun functie kunnen uitoefenen, namelijk het uitknippen van de T/G mismatch. Ook al staan DNMT3A en DNMT3B algemeen bekend als DNA-methyltransferases, onder lage S-adenosyl-L-methionine concentraties kunnen ze functioneren als deaminases [46 48]. Een alternatieve mogelijkheid voor DNA-demethylatie is het proces waarbij de 5-methylgroep geoxideerd wordt. TET1 is een enzym teruggevonden in zoogdieren dat de conversie van 5-methylcytosine naar 5-hydroxymethylcytosine kan katalyseren. Het is mogelijk dat 5-hydroxymethylcytosine optreedt als een intermediair dat finaal vervangen wordt door een ongemethyleerd cytosine door DNA-herstelmechanismen [49, 50] Niet-coderend RNA Studies op een aantal modelorganismen van schimmels, planten en dieren leverden nieuw bewijs dat RNA, in het bijzonder niet-coderend RNA, een significante rol speelt in de controle van epigenetische regulatie, chromosomale dynamica, interacties op lange afstand, alsook in fenomenen die een impact hebben op de normale cellulaire differentiatie en de ontwikkeling van het organisme. Processen waarbij niet-coderend RNA duidelijk betrokken is, zijn doseringscompensatie in Drosophila en zoogdieren, respectievelijk via rox en Xist RNA s en silencing van genen en repetitieve DNA-sequenties in bijna alle eukaryoten door zowel posttranscriptionele als transcriptionele RNA interference (RNAi)-mechanismen [14]. RNA beschouwen als een extra epigenetisch mechanisme is echter wel epigenetica in de brede zin gezien de informatie van het RNA reeds volledig vervat zit in het genoom.

23 4.1 EPIGENETICA Regulatie van genexpressie door DNA-methylatie In zoogdieren speelt DNA-methylatie een rol in diverse processen waaronder embryo- en gametogenese, stamceldifferentiatie, genomische imprinting (zie Sectie 4.2.3), X-chromosoominactivatie (zie Sectie 4.2.1), silencing van repetitieve elementen en regulatie van de neurale ontwikkeling. Verder speelt aberrante DNA-methylatie een rol in bijvoorbeeld de ontwikkeling van verschillende types van tumoren [24]. Hoe kan DNA-methylatie interfereren met genexpressie? Een manier waarop DNA-methylatie de genexpressie kan reguleren is via recrutering van eiwitten met bindingsaffiniteit voor gemethyleerde CpGs (mcpg). Dergelijke proteïnen behoren tot de methylcytosine bindend (eiwit)domein (MBD) familie bestaande uit MeCP2, MBD1, MBD2, MBD3 en MBD4. MBD2 en MBD3 zijn twee uitwisselbare units van het Mi-2/NuRD complex, een chromatine hermodelleringscomplex teruggevonden in eukaryoten [51]. Van drie van de MBD-eiwitten, namelijk MBD1, MBD2 en MeCP2 is aangetoond dat ze betrokken zijn bij de methylatie-afhankelijke onderdrukking van transcriptie. Ook van Kaiso, een ongerelateerd eiwit, is aangetoond dat het bindt op gemethyleerd DNA en zorgt voor een methylatie-afhankelijke repressie van genexpressie [10]. Een mechanisme van repressie werd ontdekt bij MeCP2: MeCP2 gaat een interactie aan met het Sin3A HDAC corepressorcomplex, wat impliceert dat de repressie afhankelijk is van histon-deacetylatie. DNA-methylatie kan aldus gelezen worden door MeCP2 dat een signaal geeft voor een wijziging in de chromatinestructuur [52]. Na deze ontdekking heeft men ook de drie andere methyl-cpg-bindende eiwitten verder onderzocht en aangetoond dat elk van de vier methyl-cpg-bindende eiwitten interageert met een verschillend corepressorcomplex. Onderzoek op de doelwitsequenties van deze MBD-eiwitten wijst uit dat de MBD-bindingsregio s in het genoom weinig overlappend zijn. Dit resultaat is in overeenstemming met het toenemende bewijs dat MBD-binding specificiteit vertoont voor bepaalde DNA-sequenties. Zo prefereert MeCP2 mcpg-regio s die geflankeerd zijn door AT-rijk DNA, heeft MBD1 een extra DNA-bindend domein specifiek voor niet-gemethyleerd CpG en herkent Kaiso enkele aangrenzende mcpg-motieven [10, 53, 54]. Enkel MBD2 blijkt tot dusver een exclusieve affiniteit te vertonen voor mcpg Interactie tussen histonmodificaties, DNA-methylatie en niet-coderend RNA De hierboven beschreven scenario s veronderstellen dat CpG-methylatie de standaardtoestand is van het genoom en dat ongemethyleerde CpG-eilanden ontstaan door de globale methylatieactiviteit te ontwijken. Meer en meer wordt gedacht dat de patronen van DNA-methylatie bepaald worden door de modificatie van het onderliggende chromatine, zoals histonmodificaties. Bewijs voor dit idee werd reeds gevonden in onder meer de modelplant Arabidopsis thaliana. In deze plant is methylatie veel minder beperkt tot CpG-dinucleotiden en afhankelijk van de aanwezigheid van methylatie op lysine 9 op histoneiwit H3 (H3K9me). Deze modificatie wordt gekatalyseerd door het HMT SUVH4/KYP. SUVH4/KYP is noodzakelijk voor het onderhoud van niet-cpg-methylatie.

24 4.2 MONO-ALLELISCHE EXPRESSIE? 16 SUVH4 kan direct binden op gemethyleerd DNA waardoor DNA-methylatie dus noodzakelijk is voor voor de aantrekking van SUVH4. Het niet-cpg DNA-methyltransferase CMT3 daarentegen kan direct interageren met de N-terminale histonstaart van H3, maar enkel wanneer dit histoneiwit gemethyleerd is op zowel H3K9 als H3K27. Dit suggereert dat histonmethylatie op H3K9 en H3K27, gekatalyseerd door SUVH4/KYP, een histoncode verschaft die zorgt voor de aantrekking van CMT3 om DNA te methyleren alsook een positieve feedback loop ontwikkelt tussen H3K9- en DNA-methylatie [55 57]. Zowel DNA-methylaties als histonmodificaties zijn dus belangrijke epigenetische markeringen voor genregulatie. Verder is er in planten ook nog aangetoond dat RNAi kan zorgen voor histonmodificaties, gensilencing en DNA-methylatie [14, 58]. In zoogdieren, waar CpG-methylatie dominant is, zijn deze relaties nog niet zo duidelijk bevestigd. Toch is reeds aangetoond dat de afwezigheid van twee H3K9 specifieke histonlysinemethyltransferasen (HKMT s) zorgt voor een gereduceerde CpG-methylatie [59]. Daarenboven zorgt de uitputting van het Polycombgroep eiwit EZH2, een H3K27 specifiek HKMT, voor een verlies aan CpG-methylatie van bepaalde promotors [60]. De novo methylatie afkomstig van RNAi-mechanismen is ook reeds geobserveerd in vitro, doch het onderliggende mechanisme is nog niet ontrafeld [61]. Doseringscompensatie, het proces dat zorgt voor de compensatie van het ongelijk aantal X-chromosomen in mannen en vrouwen, is in zoogdieren nauw geassocieerd met de werking van bepaalde niet-coderende RNA s die uiteindelijk leiden tot veranderingen in chromatinestructuur. Deze structuurveranderingen onderdrukken (zoogdier)genen van het X-chromosoom, zodat er zowel bij mannen als vrouwen een gelijk aantal transcripten van het X-chromosoom aanwezig is (zie ook Sectie 4.2.1) [14]. 4.2 Mono-allelische expressie? In de meeste gevallen worden beide allelen van het gen gebruikt voor transcriptie, bi-allelische expressie genoemd. Een minderheid van de genen echter, vertoont mono-allelische expressie. Hier is slechts één van de twee kopieën van het gen transcriptioneel actief. Welk van de twee allelen actief is, wordt ofwel random gekozen of hangt af van de parentale oorsprong (imprinting) (zie Figuur 4.5) [62] X-chromosoom inactivatie Het best gekende voorbeeld van mono-allelische expressie is X-chromosoom inactivatie bij zoogdieren. Vrouwelijke zoogdieren hebben twee kopieën van het X-chromosoom, terwijl mannen één X- en één Y-chromosoom bezitten. In vrouwen worden de meeste genen gelegen op één kopie van het X-chromosoom in elke cel geïnactiveerd om zo de algehele gendosage, het transcriptieniveau, van de meeste X-gelinkte genen gelijk te stellen in mannen en vrouwen, een fenomeen dat doseringscompensatie wordt genoemd. X-inactivatie doet zich reeds vroeg in de ontwikkeling voor, namelijk in het 64- tot 128-cellig stadium van zygoten. Elke cel maakt hierbij een onafhankelijke

25 4.2 MONO-ALLELISCHE EXPRESSIE? 17 Figuur 4.5: Wanneer beide allelen tot expressie komen, spreekt men van bi-allelische expressie (links). Indien slechts één van de twee allelen transcriptioneel actief is, vertoont het gen mono-allelische expressie (rechts). Welk van de twee allelen actief is, wordt random gekozen of is afhankelijk van de parentale oorsprong van het allel (imprinting) [62]. random keuze welk van de twee chromosomen geïnactiveerd zal worden. Eens de keuze vastligt voor een bepaalde cel zullen alle afstammelingen van deze cel hetzelfde patroon vertonen Autosomale genen X-chromosoom inactivatie heeft een invloed op bijna alle genen van het desbetreffende X-chromosoom en vele jaren werd aangenomen dat dit een uniek proces was. Een paar decennia terug werd echter een gelijkaardig effect waargenomen bij sommige autosomale genen. In het immuunsysteem zijn er een aantal epigenetische gebeurtenissen die leiden tot de mono-allelische expressie van genen betrokken in de productie van onder andere antilichamen, immunoglobuline receptoren en cytokines [63, 64]. Het genoom van zoogdieren is georganiseerd in chromosomale banden die geprogrammeerd zijn om op verschillende tijdstippen te repliceren in de vroege S-fase van de celcyclus. In geval van mono-allelisch geëxpresseerde genen zullen die allelen die tot expressie komen eerst repliceren terwijl de gerepresseerde allelen pas later verdubbelen. Dit verschil in replicatietijdstip dient als een markering om allel-specifieke epigenetische processen zoals histonmodificaties en DNAmethylatie te sturen [63, 65]. Het adaptieve immuunsysteem kan een opmerkelijk aantal variante antilichamen genereren als reactie op vreemde antigenen. De genetische basis voor deze diversiteit zit reeds gecodeerd in de

26 4.2 MONO-ALLELISCHE EXPRESSIE? 18 gameten maar de uitbreiding van de diversiteit is afhankelijk van somatische herschikking die op haar beurt nog eens geamplificeerd wordt door somatische hypermutaties. Het hoofdmechanisme om diversiteit te genereren in de antigenreceptoren wordt gemedieerd door RAG-genen en behelst de variable-diversity-joint (VDJ) recombinatie [66]. Reeds in het vroege embryo dirigeren differentiële replicatietijdstippen een aantal allel-specifieke epigenetische gebeurtenissen op het vroeg gerepliceerde allel zoals DNA-demethylatie en recombinatie. Deze verkozen mono-allelische recombinatie wordt gestabiliseerd door een terugkoppelingsmechanisme met een inhiberend effect op de recombinatie van het andere allel. Eens dit gebeurd is, zal deze markering stabiel zijn en resulteren in twee merkbaar verschillende allelen die vervolgens differentieel toegankelijk zijn voor mono-allelische expressie [67, 68]. VDJ-recombinatie is bijgevolg beperkt tot één allel, wat verzekert dat er slechts één antigenreceptor op het oppervlak van de cel terecht komt. Het chromatine behorend tot het overblijvende gemethyleerde allel wordt omgezet tot heterochromatine en het allel wordt enkel afgeschreven en gerecombineerd indien het eerste allel faalt een functioneel eiwit te produceren [69]. Hoewel alle mono-allelisch geëxpresseerde genen asynchroon repliceren, is asynchrone replicatie op zichzelf niet voldoende voor mono-allelische expressie. In sommige andere weefsels kan de asynchrone replicatie van hetzelfde gen nog steeds voorkomen terwijl het hier bi-allelisch of zelfs helemaal niet geëxpresseerd wordt. Er wordt gedacht dat het mechanisme dat de asynchrone chromosoomreplicatie verzorgt, een invloed uitoefent op polycomb eiwitten zoals bijvoorbeeld Eed, dat een deel is van het H3K27 histonmethyltransferase-complex [70]. De selectieve expressie van één enkel receptorgen gelegen in een genencluster vindt niet plaats via vrij bewegende transcriptiefactoren, maar wendt grote multiproteïnecomplexen aan die geassembleerd worden op specifieke loci. Vervolgens worden de promotors van de desbetreffende genen aangetrokken tot deze loci [71]. Op een soortgelijke manier worden de afzonderlijke patronen van mono-allelische expressie in verschillende populaties van T-helper cellen verkregen. Hierbij interageren regulatorische regio s van het interferon-γ locus op chromosoom 10 met plaatsen op chromosoom 11 die regio s bevatten die coderen voor interleukine genen [63]. Gedacht wordt dat een gelijkaardig mechanisme verantwoordelijk is voor de mono-allelische keuze van een specifieke geurreceptor in een genencluster van verschillende geurreceptoren. Bij elk neuron dat dienst doet als geurreceptor komt er van de vele genenclusters die verspreid liggen op de chromosomen maar één receptorgen van één genencluster mono-allelisch tot expressie. Dit kent aan elk gegeven neuron een specificiteit van herkenning toe [72] Imprinting In tegenstelling tot het random proces van X-inactivatie en mono-allelische expressie bij autosomen, bleek de mono-allelische silencing op sommige autosomen afhankelijk van de parentale afkomst van het chromosoom waar het allel op ligt. Dit fenomeen, imprinting genaamd, is dus een epigenetisch gereguleerd proces dat ervoor zorgt dat specifieke genen enkel geëxpresseerd worden als ze afkomstig zijn van één specifieke ouder. Bijgevolg komen sommige imprinted genen enkel

27 4.2 MONO-ALLELISCHE EXPRESSIE? 19 tot expressie van het paternaal allel, terwijl andere enkel tot expressie komen van het maternaal allel. Een voorbeeld van een imprinted gen is het gen dat codeert voor insulin-like growth factor 2. Hierbij wordt enkel het allel afkomstig van de paternale kant tot expressie gebracht, terwijl het allel gelegen op het maternale homologe chromosoom gemethyleerd is en niet tot expressie komt [73]. Imprinting is essentieel voor een normale groei en ontwikkeling, zowel pre- als postnataal, van zoogdieren. Ook bij planten en insecten zijn er reeds imprinted genen ontdekt [28]. Hoewel deze effecten reeds 40 jaar geleden geobserveerd werden, was het vooral door embryonale en genetische manipulaties in de muis dat dit fenomeen in kaart werd gebracht. Dit, samen met gedetailleerde genomische studies rond patiënten met atypisch overerfbare aandoeningen, zorgde voor de identificatie van de eerste imprinted genen en de epigenetische mechanismen verantwoordelijk voor hun mono-allelische expressie [3]. Genomische imprinting was en blijft nog steeds één van de meest informatieve processen voor het begrijpen van de gevolgen van de interacties tussen het genoom en het epigenoom. Uit nucleaire transplantatie experimenten op muizen bleek dat de afwezigheid van het paternaal genoom en bijgevolg het dubbel voorkomen van het maternaal genoom, zorgt voor een kleine placenta (endosperm) en een relatief klein, maar normaal embryo. Daarentegen geeft het dubbel voorkomen van het paternaal genoom aanleiding tot een een reusachtige placenta en een abnormaal embryo. Het gegegeven dat een embryo dat niet beschikt over twee verschillende parentale genomen faalt in zijn ontwikkeling, suggereert dat de twee parentale genomen reciproke functies vervullen, voornamelijk gedurende de eerste helft van de zwangerschap en dat de overexpressie of afwezigheid van bepaalde imprinted genen die op één van de twee parentale chromosomen liggen, zorgt voor een foutieve ontwikkeling van het embryo [74 77]. Deze observaties staan bekend als de conflicttheorie tussen de twee geslachten die stelt dat het paternaal genoom ernaar streeft om maximaal gebruik te maken van de maternale bronnen, in het voordeel van die paternale nakomelingen, terwijl het maternale genoom er net naar streeft om de energie- en voedselbronnen gelijk te verdelen over alle potentiële nakomelingen. Om deze redenen stimuleren genen geëxpresseerd door het paternale genoom de groei van de placenta en werken de maternaal geëxpresseerde genen dit effect net tegen, enerzijds om zichzelf te sparen voor latere nakomelingen en anderzijds om al haar nakomelingen, ook van eventuele andere vaders, gelijke kansen te geven [78, 79]. Eén van de genen die bij muizen maternaal tot expressie komt en verantwoordelijk is voor groeireductie van het embryo en de placenta, is het gen dat codeert voor insulin-like growth factor receptor (Igf2r). Het is de tegenhanger van het paternaal geëxpresseerde insulin-like growth factor (Igf2) dat verantwoordelijk is voor een sterke groei van het embryo en de placenta [73, 80]. Het Igf2r-gen ligt bij de muis in een cluster van imprinted genen op chromosoom 17 en fungeert ook als mannose-6-fosfaat receptor (zie Figuur 4.6). Het Igf2-gen ligt in een cluster op chromosoom 7. Stroomafwaarts in de cluster van het Igf2-gen bij de muis ligt het H19-gen, dat een niet-coderend RNA afschrijft met ongekende functie (zie Figuur 4.6) [81, 82]. Uit het onderzoek van Tilghman et al. [83] bleek dat H19 enkel maternaal tot expressie komt. Bijgevolg vertonen twee naburige

28 4.2 MONO-ALLELISCHE EXPRESSIE? 20 genen tegengestelde patronen van imprinted expressie. Mutaties in het locus van Igf2 en Igf2r zorgen respectievelijk voor een groeireductie en voor een abnormaal groot embryo. Bij de mens zijn er homologen aanwezig van deze genen [28]. Figuur 4.6: Schematische overzicht van de insulin-like growth factor 2 receptor (Igf2r)-cluster bij de muis op chromosoom 17 (boven) die maternaal geëxpresseerd wordt, alsook de cluster van het Igf2-gen op chromosoom 7 die paternaal tot expressie wordt gebracht [3]. De expressie van imprinted genen heeft op het mechanistische niveau gemeenschappelijke kenmerken met random mono-allelische expressie, doch het proces van imprinting is overerfbaar. Bij genomische imprinting is een differentieel gemethyleerde regio (DMR) noodzakelijk die niet vervat zit in de eiwitcoderende regio s van deze genen en fungeert als een soort van markering die resulteert in genexpressie volgens parentale oorsprong. In tegenstelling tot de diversiteit en specificiteit die gegenereerd wordt bij de mono-allelische genen, betrokken bij het immuunsysteem en de geurreceptoren, zijn imprinted genen zeer sterk geconserveerd. Ze behoren hoofdzakelijk tot genenfamilies die coderen voor transcriptiefactoren, tumor suppressors, niet-coderende RNA s, groeifactoren, apoptotische factoren en ubiquitinilatie en hebben invloed op vele andere genen alsook op de overleving en proliferatie van de celtypes waarin ze tot expressie gebracht worden. De reeds onderzochte imprinted genen hebben bijgevolg vooral een rol in verschillende ontwikkelingsstadia. Niet alle individuen hebben hetzelfde repertoire aan imprinted genen en binnen één individu kan een gen in bepaalde weefsels mono-allelisch imprinted zijn, terwijl het in andere weefsels niet of bi-allelisch tot expressie komt. Dus hoewel er duidelijke gelijkenissen zijn met random mono-allelisch geëxpresseerde genen, brengt imprinting nog een extra niveau van complexiteit met zich mee [84].

29 4.3 EPIGENETICA EN ZIEKTE Epigenetica en ziekte Hoewel epigenetische veranderingen noodzakelijk zijn voor een normale ontwikkeling, kunnen ze in bepaalde gevallen ook aanleiding geven tot ziekte door abnormale activatie of silencing van genen. Zulke aberraties zijn reeds geassocieerd met kanker, mentale retardatie en syndromen die chromosomale instabiliteiten beslaan (zie Tabel 4.1). Tabel 4.1: Epigenetische ziektes: oorzaken en symptomen [85]. Ziekte Symptomen Genetische en epigenetische aberraties ATR-X syndroom Mentale handicap, Mutaties in het ATRX gen, α-thalassemia hypomethylatie van verschillende repeats en satellietsequenties Fragiele-X-syndroom Chromosomale instabiliteit, Expansie en methylatie van CGG-repeat mentale handicap in FMR1 5 UTR, promotormethylatie ICF-syndroom Chromosomale instabiliteit, DNMT3b mutaties, immunodeficiëntie DNA-hypomethylatie Angelman syndroom Mentale handicap Deregulatie van één of meerdere imprinted genen op 15q11-13 (maternaal) Prader-Willi syndroom Obesitas, Deregulatie van één of meerdere mentale handicap imprinted genen op 15q11-13 (paternaal) Beckwith-Wiedemann Overmatige groei van Deregulatie van één of meerdere syndroom organen imprinted genen op 11p15.5 Diverse kankers Verstoring van de Rb- en De novo methylatie van bepaalde p53-pathway, genpromotors ongecontroleerde proliferatie Microsatelliet instabiliteit De novo methylatie van MLH1 Overexpressie van Igf2 Verlies van imprinting Ziektes gerelateerd aan imprinting Ook al zijn er telkens twee kopieën van een gen, in het geval van imprinting wordt er slechts één kopie geëxpresseerd en is het alsof men haploïd is voor het desbetreffende gen. Er is bijgevolg geen functionele kopie, waardoor imprinted genen gevoeliger zijn voor mutaties of andere mechanismen van silencing. Op de koop toe kunnen allelen (en mutaties) die oorspronkelijk recessief waren tot expressie komen indien het gen imprinted is en het dominante allel is uitgeschakeld via silencing. Hieruit volgt dat sommige ziektes ontstaan als gevolg van deleties en/of mutaties in imprinted genen. Verder kan ziekte door imprinting ook veroorzaakt worden door uniparentale disomie, dit is het verschijnsel waarbij twee kopieën van een chromosoom van één ouder worden

30 4.3 EPIGENETICA EN ZIEKTE 22 overgeërfd en geen van de andere ouder, wanneer het betrokken gen imprinted is. Verder kunnen ook mutaties voorkomen in genen die verantwoordelijk zijn voor het proces dat imprinting reguleert. Voorbeelden van gerelateerde ziektes zijn het Prader-Willi syndroom, het Angelman syndroom en diverse types van kanker [86] Prader-Willi en Angelman syndroom Het Prader-Willi syndroom komt voor bij in 1 op de geboortes en is geassocieerd met gedrags- en cognitieve problemen met inbegrip van mentale retardatie, afwijkingen in de seksuele ontwikkeling en groei, een sterk toegenomen voedselinname en obesiteit [87]. Het Angelman syndroom daarentegen komt voor in 1 op de geboortes en wordt gekenmerkt door slaap- en ontwikkelingsstoornissen, beroertes, mentale retardatie, ataxie, hyperactiviteit en een overgelukkig gemoed met lachuitbarstingen [87]. Het Prader-Willi en Angelman syndroom waren de eerste imprintingziektes ontdekt in mensen. Hoewel de symptomen van deze twee aandoeningen sterk verschillen, worden beide syndromen veroorzaakt door niet te onderscheiden deleties in chromosoom 15 in de 15q11-q13 regio, waar bepaalde loci imprinting vertonen [88]. Het grote verschil tussen deze afwijkingen is de parentale oorsprong van het desbetreffende chromosoom. Het Prader-Willi syndroom wordt meer specifiek veroorzaakt door het verlies van een groep van paternaal overgeërfde genen op chromosoom 15, terwijl het Angelman syndroom het gevolg is van het verlies van maternaal overgeërfde genen op hetzelfde chromosoom en in dezelfde regio als het Prader-Willi syndroom. Door deze bevindingen concludeerden Knoll et al. [88] dat beide syndromen te wijten zijn aan defecten in imprinted genen. In de meeste gevallen wordt het Prader-Willi syndroom veroorzaakt door deleties van een genetische regio die het nucleaire ribonucleoprotein polypeptide N gen bevat (necdin gen) naast mogelijks ook andere genen. In de andere overblijvende gevallen is de afwijking te wijten aan het feit dat het betreffende individu twee kopieën bezit van het maternale chromosoom 15 en geen kopie van het paternale chromosoom 15, maternale uniparentale disomie genoemd [89]. Het Angelman syndroom wordt veroorzaakt door het verlies van de expressie van een maternaal geëxpresseerd gen UBE3A. Het gen is enkel imprinted in de hersenen en codeert voor het eiwit E3 ubiquitin ligase dat een functie heeft bij de degradatie van eiwitten. Het verlies van de expressie van UBE3A kan zorgen voor complicaties bij de eiwitdegradatie tijdens de ontwikkeling van de hersenen, wat aanleiding geeft tot het Angelman syndroom [90]. Hoewel in de meeste gevallen het Angelman syndroom het gevolg is van het verdwijnen (deletie) van het maternaal overgeërfd gen, zoals hierboven besproken, kan het ook veroorzaakt worden door paternale uniparentale disomie, mutaties in het UBE3A-gen alsook defecten in de imprinting zoals het verlies van maternale DNA-methylatie [89].

31 4.3 EPIGENETICA EN ZIEKTE Kanker Naast de hierboven besproken syndromen zijn defecten in imprinting ook reeds gelinkt aan bepaalde kankers. Wilms tumor is een type nierkanker bij de mens die geassocieerd is met het Igf2/H19 locus op chromosoom 11. H19 is een niet-coderend RNA met nog ongekende functies en eigenschappen die groei kunnen onderdrukken. Igf2 codeert voor het insulin-like growth factor 2, een groeifactor die sterk tot expressie komt in vele tumoren. Er werd aangetoond dat één van de functies van H19 het uitschakelen is van het bijhorende Igf2-gen. Deze twee genen vertonen beide imprinting en in een normale situatie worden enkel de maternale kopie van H19 en de paternale kopie van Igf2 tot expressie gebracht [91]. In kankercellen echter, kunnen H19 en Igf2 hun imprinting verliezen. In Wilms tumorcellen gaat de imprinting van het maternale chromosoom verloren en is er een omschakeling in het paternale methylatiepatroon. Bovendien werd aangetoond dat in deze cellen de expressie van H19 sterk gereduceerd of zelfs uitgeschakeld is. Dit resulteert in de overexpressie van Igf2. Aangezien H19 de celgroei vertraagt en Igf2 de celgroei net stimuleert, zal het ontbreken van imprinting in het H19/Igf2-locus resulteren in een ongecontroleerde celgroei met mogelijks tumorvorming als resultaat (zie Figuur 4.7) [91]. Naast Wilms tumoren is het verdwijnen van de imprinting van het Igf2-gen aangetoond in vele andere kankers, zoals long-, colon- en ovariumtumoren [89]. Kanker kan tevens ontstaan wanneer een tumor suppressor gen uitgeschakeld wordt door foutieve imprinting en de kopie van het tumor suppressor gen dat toch tot expressie komt, zijn functie verliest door mutaties of andere mechanismen [86]. Figuur 4.7: Voorstelling van het ontbreken van imprinting in Igf2 en H19 alsook de methylatie van de H19- promotor in Wilms tumorcellen. In normale cellen worden het paternale Igf2-gen en het maternale H19 geëxpresseerd (boven). Verschillende regio s upstream van H19 zijn gemethyleerd op het paternale allel (zwart gevulde cirkels) en ongemethyleerd op het maternale allel (wit gevulde cirkels). In tumorcellen waar er geen imprinting aanwezig is, schakelt het maternale chromosoom om naar het paternale epigenotype, waarbij de H19-promotor gemethyleerd is en Igf2 aangeschakeld is [91].

32 4.3 EPIGENETICA EN ZIEKTE Opmars van imprintingziektes De voorbije jaren is er een toenemende incidentie van afwijkingen die het gevolg zijn van foutieve imprinting. Vooral bij kinderen verwekt via in vitro fertilisatie wordt deze trend waargenomen. Aangezien imprinting wordt vastgelegd tijdens de gametogenese, is er een groeiende bezorgdheid dat deze vormen van geassisteerde reproductie de correcte imprinting van genen verhinderen [92]. Het begrijpen van de onderliggende mechanismen van imprinting en het identificeren van condities die interfereren met normale imprinting zouden ons kunnen helpen in de ontwikkeling van strategieën om het voorkomen van deze aandoeningen te reduceren Imprinting-onafhankelijke rol van epigenetica in kanker Naast de hierboven besproken met imprinting geassocieerde epigenetische aberraties in kanker, zijn er eveneens epigenetische aberraties die niet gelinkt zijn aan imprinting. Kanker was de eerste ziekte die gekoppeld werd aan aberrante epigenetica. In 1983 ontdekten Feinberg en Vogelstein [93] dat aangetast weefsel van patiënten met colorectale kanker minder DNA-methylatie bevatte dan normaal weefsel van dezelfde patiënten. Men vond dat er in tumoren meestal algemene hypomethylatie was, geassocieerd met specifieke hypermethylatie (soms ook hypomethylatie) van bepaalde promotorregio s. Enerzijds kan de hypermethylatie en eventuele silencing van tumorsuppressorgenen belangrijk zijn voor tumorgenese en anderzijds kan de algemene of locusspecifieke hypomethylatie van promotors leiden tot de reactivatie van oncogenen. Zoals reeds besproken in Sectie , komen CpG-eilanden meestal voor in een ongemethyleerde toestand. In kankercellen echter, worden sommige CpG-eilanden extensief gemethyleerd, resulterend in de silencing van genen die normaal actief zijn. Deze abnormaliteit kan reeds in een vroeg stadium in de ontwikkeling van kanker optreden en is op zijn minst één van de voornaamste epigenetische verandering in tumoren [85]. Hypermethylatie van CpG-eilanden kan aanleiding geven tot het ontstaan van tumoren door het uitschakelen van tumor suppressor genen. Daarenboven, hoewel epigenetische veranderingen geen rechtstreekse wijzigingen aanbrengen aan de DNA-sequentie, kunnen ze onrechtstreeks wel mutaties veroorzaken. Ongeveer de helft van de reeds gevonden genen die overerfbare vormen van kanker veroorzaken, zijn epigenetisch gewijzigd en uitgeschakeld door methylaties. Wanneer deze genen hun normale functie uitoefenen, onderdrukt de meerderheid ervan tumorformatie en helpen ze bij de DNA-herstelmechanismes. Een voorbeeld van zo een gen is O-methylguanine-DNA-methyltransferase (MGMT). Wanneer de promotor van MGMT gehypermethyleerd wordt, zorgt dit voor een toename van de G-naar-A mutaties [85]. Hypermethylatie kan ook leiden tot instabiliteit van microsatellieten, die zijn samengesteld uit herhaalde sequenties van DNA. Microsatellieten zijn veelvuldig aanwezig in normale individuen en bestaan voornamelijk uit herhalingen van de dinucleotide CA. Een overvloed aan methylatie op de promotor van het DNA-herstellingsgen MLH1 kan een microsatelliet onstabiel maken en het

33 4.4 DNA-METHYLATIE ANALYSEMETHODES 25 verlengen of verkorten. Instabiliteit van microsatellieten is reeds in verband gebracht met vele kankers, zoals onder andere colorectale, endometriale en ovariële kanker [94] Andere ziektes en epigenetische therapieën Hoewel epigenetica de laatste drie decennia vooral een impact had op het kankeronderzoek, is er de voorbije jaren aangetoond dat epigenetica en DNA-methylatie mogelijks ook een rol spelen in andere ziektes, zoals onder andere cardiovasculaire aandoeningen, diabetes, hypertensie, Alzheimer en obesitas [95]. Omdat zovele ziektes geassocieerd zijn met epigenetische wijzigingen, zijn er reeds een paar epigenetische therapieën ontwikkeld die deze modificaties pogen tegen te werken. De meest populaire behandelingen trachten het DNA-methylatie patroon opnieuw te veranderen. Zo kunnen inhibitoren van DNA-methylatie silenced genen reactiveren. Twee voorbeelden van zulke medicijnen zijn 5-azacytidine en 5-aza-2-deoxycytidine. Deze stoffen voeren hun DNA-methylatie inhiberend effect uit door zich tijdens DNA-replicatie in het DNA in te voegen, net als een cytosine nucleotide. Aangezien nucleotide analogen niet gemethyleerd kunnen worden zullen deze na incorporatie in het DNA onrechtstreeks de werking van DNMT-enyzmes blokkeren en bijgevolg ook DNA-methylatie [85]. Echter, omdat epigenetische mechanismen en veranderingen wijdverspreid zijn, is voorzichtigheid met deze epigenetische behandelingen zeker geen overbodige luxe en zelfs een must. Deze behandelingen kunnen pas succesvol zijn als ze selectief kunnen toegepast worden op de aangetaste cellen. Indien dit niet het geval is, kunnen zich wijzigingen voordoen in normale cellen en kunnen deze op hun beurt een ziektebeeld veroorzaken. Afgezien van dit nadeel pogen onderzoekers manieren te vinden om specifiek abnormale cellen te behandelen met minimale schade aan normale cellen. Hoewel er nog veel onderzoek en testen nodig zijn, lijken epigenetische therapieën op het eerste zicht veelbelovend [85]. 4.4 DNA-methylatie analysemethodes Aangezien het methylatiepatroon tijdens PCR verloren gaat, zijn er andere technieken nodig voor de detectie van gemethyleerde cytosineresidu s. Verscheidene methodes werden reeds ontwikkeld die de profilering van DNA-methylatie mogelijk maken. De belangrijkste worden hieronder beschreven [96] DNA-methylatie specifieke stap In een eerste stap worden de DNA-fragmenten behandeld door één van de vier onderstaande methodes die cytosinemethylatie detecteert of aanrijkt [96]:

34 4.4 DNA-METHYLATIE ANALYSEMETHODES 26 Methylatie-gevoelige restrictie-enyzmen (MRE) Een 5-methylcytosine antilichaam Methylcytosine-bindende (eiwit)domeinen (MBD) Chemicaliën zoals bisulfiet en hydrazine Er zijn ongeveer vijftig unieke MREs, maar slechts enkele hebben een passend methylatie-ongevoelig isoschizomeer. Deze isoschizomeren herkennen dezelfde doelsequentie maar knippen het DNA op een andere manier door hun verschil in gevoeligheid voor methylcytosine. Een voorbeeld van twee dergelijke restrictie-enzymen zijn MspI en HpaII. Ze herkennen beiden CCGG maar HpaII is niet in staat om het DNA te knippen indien de centrale CG gemethyleerd is, terwijl MspI het DNA kan knippen onafhankelijk van de methylatietoestand. Op die manier worden bij de twee digesten fragmenten van verschillende grootte verkregen die via elektroforese kunnen gescheiden worden in twee aparte lanen. Door de fragmenten van de twee digesten te laten hybridiseren tegen specifieke DNA-sequenties kan het verschil zichtbaar gemaakt worden. Hoewel de meeste restrictie-enzymen die gebruikt worden voor de profilering van DNA-methylatie nauwkeurig en goedkoop zijn, kan via deze methode enkel de methylatie opgepikt worden die binnen de herkenningsplaats van het MRE vallen. Deze limitatie kan echter deels verholpen worden door verschillende niet-redundante MREs in parallel te gebruiken [97, 98]. In tegenstelling tot MREs laat het gebruik van zowel MBDs in affiniteitskolommen als het monoklonale antilichaam tegen 5-methylcytosine de aanrijking toe van gemethyleerd DNA [98]. De analyse waarbij gebruik gemaakt wordt van het 5-methylcytosine antilichaam, methyl-dna immunoprecipitatie (MeDIP) genoemd, is gebaseerd op de directe immunoprecipitatie van gemethyleerd DNA. Hierbij wordt het genomisch DNA in random stukken geknipt, vervolgens gedenatureerd omdat het antilichaam preferentieel bindt op enkelstrengig DNA, waarna het samen met het monoklonale antilichaam geïncubeerd wordt. De incubatie wordt finaal gevolgd door een opzuivering van de aangerijkte fractie via proteïne G-beads, die verder kunnen geanalyseerd worden met een platform van keuze [99]. Voor de selectieve binding aan 5-methylcytosine kan in plaats van antilichamen ook gebruik gemaakt worden van MBDs, bijvoorbeeld MBD2 of MBD uit MeCP2. Hierbij wordt het random geknipte DNA geïncubeerd met een MBD2- (of een ander MBD-)bevattende matrix, meestal Sepharose, waarna het specifiek gebonden DNA wordt geëlueerd, gevolgd door de analyse [100]. Bij deze methodes moet wel rekening gehouden worden met het feit dat voor regio s met een hoger CpG-gehalte de aanrijking relatief groter is dan voor regio s met een lager CpG-gehalte. Bij deze reagentia wordt de resolutie van de methylatiestatus bepaald door enerzijds de grootte van de random geknipte DNA-fragmenten en anderzijds door de eigenschappen van het later gebruikte analyseplatform [96]. Chemicaliën zoals natriumbisulfiet en hydrazine vertonen een verschillende reactie met ongemethyleerde en gemethyleerde cytosines en laten de profilering toe van DNA-methylatie met een resolutie op het niveau van één enkele CpG [101]. Van deze chemicaliën wordt natriumbisulfiet

35 4.4 DNA-METHYLATIE ANALYSEMETHODES 27 het meest gebruikt. Behandeling van DNA met bisulfiet zorgt voor de conversie van cytosine naar uracil, die vervolgens tijdens een PCR-amplificatie wordt vervangen door een thymine. Echter, indien een cytosine gemethyleerd is, zal deze conversie niet plaatsvinden en blijven de cytosines behouden na bisulfietbehandeling. Wanneer er tijdens de PCR-reactie gesequeneerd wordt, is het bijgevolg mogelijk om de methylatiestatus van cytosines van de allelen van het oorspronkelijke genomisch DNA-fragment te bepalen. De bisulfietmethode heeft vele voordelen zoals onder andere enkelvoudige CpG resolutie en detectie van zowel strengspecifieke methylatie als cytosinemethylatie buiten CpG s. In vergelijking met andere reagentia laat bisulfiet op bepaalde platformen toe het methylatieniveau absoluut te kwantificeren. Zoals elke methode zijn er eveneens enkele nadelen zoals onder andere DNA-fragmentatie, een mogelijks incomplete conversie van cytosine naar uracil en een gereduceerde complexiteit van de sequentie waardoor het niet altijd mogelijk is om de oorsprong van de sequentie terug te vinden [96, 98] Platformen en analyse Na de behandeling van het DNA met één van voorgaande methodes wordt DNA-methylatie gedetecteerd via een specifiek platform. Verschillende platformen werden reeds ontwikkeld om het aantal gemethyleerde cytosines te bepalen waarvan DNA-microarrays/bead arrays en next-generation sequencing tegenwoordig de meest courante zijn voor genoomwijde analyses [98]. Een microarray bestaat uit een vast oppervlak, zoals een glas- of siliconchip, waar duizenden microscopische DNA-spots met gekende oligonucleotide probes aan vastgehecht zijn. Bij het aanbrengen van het opgezuiverde DNA verkregen via één van de hiervoor beschreven DNA-methylatie specifieke methodes zal er hybridisatie optreden tussen de DNA-fragmenten met overeenkomstige oligonucleotide probes die vastzitten op het vast oppervlak van de microarray. Indien de binding van zo n DNA-fragment aan de microarray optreedt, wordt dit geregistreerd met behulp van een fluorescent signaal waardoor de sequenties of de expressie van deze fragmenten kan bepaald worden. Afhankelijk van welke probes er op de array aanwezig zijn, wordt een onderscheid gemaakt tussen CpG-eiland-, promotor-, MeDIP- (tiling)microarrays en Single Nucleotide Polymorphism (SNP)-bead arrays [96]. Bead arrays zijn een alternatieve vorm van array waarbij de specifieke probes niet op een groot vast oppervlak worden geplaatst, maar op microscopische polystyreen beads. Elke bead wordt gekarakteriseerd door een specifiek ratio van twee of meer kleurstoffen die niet interfereren met de fluorescente kleurstoffen gebruikt voor de detectie van gehybridiseerde sequenties. Hoewel arrays kunnen toegepast worden bij de meeste methylatie detectiemethodes is bij gebruik van de bisulfietmethode enkel de infinium bead array geschikt. Dit is het gevolg van de bisulfiet-geïnduceerde conversie van cytosine waardoor de bisulfietmethode niet geschikt is voor de andere commerciële arrays. De gehanteerde methylatie detectiemethode in combinatie met een welbepaalde array zal de resolutie bepalen waarmee DNA-methylatie waargenomen wordt [96, 98].

36 4.4 DNA-METHYLATIE ANALYSEMETHODES 28 Vele van de microarray gebaseerde methodes produceren geen methylatie profilering met een resolutie tot op één base. Dit maakt het exact localiseren van een gemethyleerd cytosine zeer moeilijk tot onmogelijk. Daarnaast zijn er nog twee belangrijke nadelen eigen aan microarray gebaseerde methodes. Ten eerste is er, afhankelijk van het probedesign, meestal veel ruis waardoor de aanwezigheid van SNPs zeker een impact zal hebben. Ten tweede is de analyse niet genoomwijd, aangezien het niet mogelijk is het volledige genoom te profileren. De parallelle sequeneringsplatformen van onder andere Roche (454), Illumina (Solexa) en Applied Biosystems (SOLiD) hebben het genomisch en epigenomisch onderzoek een volledig nieuwe dimensie gegeven [102]. Na het toepassen van één van de hierboven besproken DNA-detectie methodes, kunnen via deze next generation sequeneringstechnologieën tientallen miljoenen DNA-fragmenten in parallel gesequeneerd worden. Dit laat een genoomwijde analyse toe van het DNA-methylatie profiel, zelfs van interspersed repeats die ontoegankelijk zijn wanneer gebruik gemaakt wordt van microarrays. Indien sequenering gecombineerd wordt met een bisulfietbehandeling, laat dit naast de mogelijke profilering van interspersed repeats ook de genoomwijde DNA-methylatie analyse toe met een resolutie tot op één base [96]. Hierbij moet men samen met de reeds hierboven vermelde nadelen van de bisulfietmethode, wel rekening houden met het feit dat whole genome bisulfite sequencing op dit moment nog zeer duur is.

37 5 Materialen & Methodes Gedurende deze masterproef werd een pipeline ontwikkeld die toelaat om mono- en bi-allelische DNA-methylatie op te sporen in sequentiedata verkregen via MBD-seq (zie Sectie 4.4). Voorafgaand aan de sequenering werd het DNA van de stalen met behulp van het Covaristoestel gefragmenteerd tot op circa 200 nucleotiden. De resulterende fragmenten van de verschillende stalen werden gemultiplexed, gevolgd door paired-end sequenering op de Illumina Genome Analyzer IIx (GAIIx). Gezien er gekozen werd om paired-end sequenering toe te passen, werden voor elk staal twee datasets verkregen, namelijk een dataset voor elke end read. De bekomen reads van de GAIIx hadden in elke dataset een lengte van 45bp. De materialen en methodes die gebruikt werden bij de ontwikkeling van de pipeline om bij deze reads mogelijkse mono-allelische methylatie te analyseren, worden hieronder beschreven. Het is echter geenszins de bedoeling om de lezer te overladen met ingewikkelde programmeertaal. Bijgevolg wordt de nadruk in dit hoofdstuk niet gelegd op de gebruikte programmeercodes in de verschillende scripts maar wordt vooral de onderliggende gedachtengang beschreven. 5.1 Hardware De programma s waarmee de scripts geschreven zijn, werden lokaal geïnstalleerd op een laptop met een Intel Core T M 2 mobile processor T7500 2,2 GHz, 2GB DDR2 RAM en Windows 7 Ultimate (64-bit) als besturingssysteem. Gezien de hoeveelheid en de complexiteit van de data werd voor alle berekeningen gebruik gemaakt van zowel de athos- als aramisserver van labo BioBiX. Deze Linuxservers beschikken over respectievelijk 128 en 162 GB RAM en bevatten respectievelijk 16 en 32 processoren. Bijgevolg zijn deze servers veel beter geschikt om grote en complexe data te analyseren in vergelijking met een gewone laptop.

38 5.2 SOFTWARE Software Bowtie Bowtie 1 [103] is een enorm snel en geheugenefficiënt aligneringsprogramma geschreven in C++ en specifiek ontwikkeld voor korte DNA-sequenties die gegenereerd worden door next-generation sequencers. In vergelijking met andere aligneringsprogramma s, zoals onder andere Maq en SOAP, is Bowtie gebaseerd op een nieuwe strategie om het referentiegenoom, waarop moet gemapt worden, te indexeren. Bowtie maakt gebruik van de Burrows-Wheeler index die toelaat om grote stukken tekst (DNA-sequenties) snel en efficiënt te doorzoeken zonder dat een similariteitsmatrix moet berekend worden. Voor het mappen van de data werd in deze masterproef gebruikt gemaakt van Bowtie versie Perl en Bioperl Perl 2 (Practical Extraction and Report Language) [104] is een krachtige, dynamische en interpreteerbare programmeertaal ontworpen door Larry Wall. Het vat de eigenschappen van de C- en UNIX-talen (sh, AWK en sed) samen in één taal met als doel de eenvoudigere behandeling van data (parsing). Onder het motto there is more than one way to do it laat de taal een grote flexibiliteit toe bij het ontwerpen van programma s. Verder is Perl ook een vorm van modular programming waarbij verschillende functies opgedeeld worden in aparte componenten, modules genaamd, die beschikbaar zijn via het Comprehensive Perl Archive Network (CPAN) 3. CPAN is een externe online bibliotheek met meer dan software modules geschreven in Perl. Het gebruik van deze modules om de algemene functionaliteit van Perl uit te breiden, is meestal gratis en open source. Naast het feit dat Perl zeer geschikt is voor de bewerking van allerlei soorten bestanden, bezit het ook de mogelijkheid om connectie te maken met externe databanken, data van deze databanken in te lezen alsook data uit te lezen naar deze databanken. Door de opkomst van gemoderniseerde en meer gespecialiseerde programmeertalen als Python en PHP is Perl wat in vergetelheid geraakt. Echter, door zijn BioPerl 4 pakket is het nog steeds zeer populair in de bioinformaticawereld. BioPerl is een verzameling van modules die handig zijn bij de ontwikkeling van bio-informaticatoepassingen en vele typische functies bij bio-informatica programmering op 1 Bowtie: 2 Download Perl: 3 CPAN bibliotheek: 4 Bioperl pakket:

39 5.2 SOFTWARE 31 zich nemen, zoals bijvoorbeeld het inlezen van genomische (sequentie)data (nucleotiden én peptides) van zowel lokale als niet-lokale databanken (bijvoorbeeld Genbank) en het parsen van de meeste bestandsformaten die gebruikt worden in de moleculaire biologie. De merendeel van de scripts die gebruikt zijn in deze masterproef, zijn geschreven in Perl versie met versie van Bioperl en doen voornamelijk dienst in de primaire dataverwerking, zoals bijvoorbeeld de manipulatie van bestandsformaten, parsen van de ruwe data, calculaties, aanmaak van lijsten en het in- en uitlezen van en naar MySQL-databanken. Deze scripts worden meer in detail besproken in Sectie waar de volledige pipeline van deze masterproef uit de doeken wordt gedaan MySQL Het overgrote deel van deze masterproef omvatte het parsen van ruwe data die in de gewenste vorm werd opgeslagen in databanken. Er werd gekozen om te werken met MySQL-databanken 5. Het vlot aanmaken en beheren van databanken gebeurde met behulp van de phpmyadmin webapplicatie versie Deze maakte tijdens de masterproef gebruik van MySQL versie en biedt een eenvoudige interface voor het inloggen met de databanken op de aramisserver, het aanmaken en beheren van tabellen, het im- en exporteren van data, het snel schrijven en uitvoeren van MySQL-queries, etc. De databanken op de athosserver werden beheerd met behulp van het programma Toad, die eveneens een gebruiksvriendelijke interface biedt. Toad maakte gebruikt van MySQL versie Perl DBI en DBD Relationele databanken zijn databanken waarbij de gegevens worden opgeslagen in tabellen. In deze tabellen vormt elke rij een record van een object (of persoon) die in elke kolom verschillende stukken informatie van dit object bevatten, fields genaamd. Verschillende tabellen kunnen met elkaar worden verbonden door een kolom toe te voegen die een verwijzing bevat naar een record in een andere tabel. Een (relationele) databank kan worden opgeslagen, bewerkt en geraadpleegd met behulp van een (Relationeel) Databank Management Systeem ((R)DBMS). Er zijn meerdere systemen in omloop en het merendeel van deze systemen kan beheerd worden via de gestandaardiseerde Structured Query Language (SQL) [105]. 5 Download MySQL:

40 5.2 SOFTWARE 32 Elk databanksysteem verschilt lichtjes van de andere. Bij sommige databanken moet er over het netwerk gecommuniceerd worden, terwijl dit bij anderen via tekstbestanden of iets anders verloopt. Bij sommige databanken is er ook een bibliotheek toegevoegd met geschreven codes voor de functies van de databank. De namen van de functies kunnen verschillend zijn alsook de volgorde waarin ze moeten worden opgeroepen kan variëren. De DBI (Database Interface) module is de standaard databankinterface voor Perl en is ontworpen om de gebruiker te beschermen tegen de details van de verschillende bibliotheken. Het definieert een set methodes, variabelen en conventies die leiden tot een consistente databankinterface onafhankelijk van welke databank gebruikt wordt. DBI weet niet hoe het moet communiceren met een specifiek databanksysteem, maar het weet wel welke DBD (Database Driver) module het moet lokaliseren en laden. Deze DBD modules bevatten de bibliotheek van een databank en weten bijgevolg hoe er moet gecommuniceerd worden met een specifieke databank. Voor elk databanksysteem is er één DBD module en deze modules zijn beschikbaar op de CPAN 6 website [105, 106]. Op deze manier kan men onafhankelijk van het gebruikte databanksysteem dezelfde Perlcode met SQL-syntax gebruiken. In het script zelf moet enkel gedefinieerd worden om welk type databank het gaat en de Perl modules DBI en DBD zorgen dat alles vlot verloopt. Via de DBI module wordt verbinding gemaakt met de databank en wordt de query naar de geschikte DBD module gestuurd. Deze spreekt de taal van de databank en geeft de query op een correcte wijze door naar het DBMS. Wanneer DBD de resultaten van de query terugkrijgt, worden deze doorgestuurd naar DBI die de resultaten vervolgens weergeeft aan de gebruiker. Doordat het Perlscript niet rechtstreeks moet omgaan met de databank, maar enkel met DBI, is er geen specifieke kennis vereist van de taal en achterliggende werking van de verschillende databanksystemen [105]. De communicatie en informatiestroom tussen Perl en de databank met behulp van deze modules is schematisch weergegeven in Figuur 5.1. In deze masterproef werd gebruik gemaakt van DBI versie en versie van de DBD-mysql module. Figuur 5.1: Schematische weergave van de posities van de DBI en DBD modules tussen een Perlscript en de databank. Bij elke specifieke databank, bijvoorbeeld Oracle of MySQL, is er één bijhorende DBD module [106]. 6 CPAN bibliotheek:

41 5.3 DETECTIE VAN MONO- EN BI-ALLELISCHE DNA-METHYLATIE R omgeving R 7 [107] is een open source taal en omgeving ontwikkeld voor statistische dataverwerking. Het bezit een wijde variëteit aan statistische (linaire en niet-lineaire modellering, klassieke statistische testen, classificaties, clustering,...) en grafische technieken en is nog verder uit te breiden met allerlei pakketten die gratis beschikbaar zijn via het Comprehensive R Archive Network (CRAN) 8. De grote kracht van R is het gemak waarmee hoog kwalitatieve plots kunnen gemaakt worden, inclusief mathematische symbolen of formules waar nodig. De geïntegreerde software voor dataverwerking, calculaties en grafische weergaven bevat: Een goed ontwikkelde en eenvoudige programmeertaal. Een grote, geïntegreerde collectie aan technieken/methodes voor data-analyse. Grafische outputmogelijkheden voor data-analyse. De term omgeving duidt op het feit dat het een zeer flexibel en toch gestructureerd systeem is, in tegenstelling tot het vaak zeer specifieke en inflexibele karakter van de meeste andere beschikbare software voor statistische dataverwerking. R wordt in vele toepassingen als dé standaard beschouwd voor statistische analyses. In deze masterproef werden de poweranalyses en het statistische algoritme van de pipeline (zie Sectie 5.3.3) ontwikkeld in de 64bit versie van R Detectie van mono- en bi-allelische DNA-methylatie Introductie en doel Gedurende deze masterproef werd een pipeline ontwikkeld om genen te screenen die mono-allelisch gemethyleerd zijn en dus mogelijks mono-allelisch tot expressie komen. In samenwerking met NXTGNT 9 werd via MBD-seq (zie Sectie 4.4) sequentiedata en bijgevolg het methylatieprofiel bekomen van 92 stalen, voornamelijk humane kankerstalen. De data van deze 92 stalen is afkomstig van vier afzonderlijke sequentieruns met de GAIIx, genaamd hegi1, hegi2, mbd en cervixrenske. In een volgende stap werden in de sequentiereads van deze grote set aan MBD-seq data de single nucleotide polymorfismen (SNPs) getraceerd, waardoor van elk staal het SNP-profiel beschikbaar werd. Hierna werden de methylatieprofielen samen met de SNP-profielen gecombineerd in een statistisch kader. Gebaseerd op de verkregen SNP-profielen in de verschillende 7 Download R: 8 CRAN bibliotheek: 9 NXTGNT:

42 5.3 DETECTIE VAN MONO- EN BI-ALLELISCHE DNA-METHYLATIE 34 methylomen laat dit statistisch kader de detectie toe van regio s met significante mono-allelische DNA-methylatie. Hieronder wordt eerst de algemene gedachtengang, die aan de basis ligt van de ontwikkelde pipeline, uitgebreid besproken. Nadien worden de verschillende stappen in de bioinformatica pipeline meer in detail bekeken. Zoals hierboven reeds gezegd, is het geenszins de bedoeling om in te gaan op de specifiek gebruikte programmacodes, maar eerder op de onderliggende functionele gedachte van de verschillende scripts. Indien de lezer toch geïnteresseerd is in de gebruikte codes van de pipeline, dan zijn deze te vinden in de Appendix Sectie A Algemene bespreking statistisch kader In deze sectie wordt de algemene gedachtengang en werkwijze waarop de verschillende stappen in de pipeline zijn gebaseerd, uitgebreid besproken. Ook worden mogelijke problemen die een invloed kunnen hebben op de betrouwbaardheid van de detectie van mono-allelische DNAmethylatie aangehaald, alsook de aangewende methodes om deze problemen te omzeilen of onderdrukken. Tot slot wordt de ontwikkelde methode geïllustreerd aan de hand van twee hypothetische voorbeelden. In eerste instantie worden in de verkregen MBD-seq data van elk staal de SNPs opgespoord. Deze SNPs laten toe om het onderscheid te kunnen maken tussen homo- en heterozygoten. De geobserveerde SNPs zullen ofwel reële SNPs zijn, ofwel te wijten zijn aan sequeneringsfouten. Overige variatie in de reads van de MBD-sequentiedata, bijvoorbeeld indels, resulteert over het algemeen in het onvermogen om deze sequentiereads te mappen op het referentiegenoom met behulp van Bowtie (zie Sectie 5.2.1) en komen dus niet in de uiteindelijke dataset terecht. Deze variatie wordt hier dan ook niet beschouwd. Sequeneringsfouten worden gekenmerkt door hun lage frequentie van voorkomen, i.e. een bijzonder lage frequentie van het minor allele. Aangezien echte SNPs met een dergelijk lage allelfrequentie ook bijzonder weinig bijdragen tot de identificatie van monoallelisch gemethyleerde loci, wordt ervoor geopteerd om de data te filteren op basis van een vooraf bepaalde allelfrequentie (zie Poweranalyse Sectie 6.5) Schatten van de allelfrequenties Veronderstel dat er S stalen zijn met L loci waarvoor SNPs werden teruggevonden. Voor elk staal s (1 t.e.m. S) worden n sl sequenties geobserveerd voor locus l (1 t.e.m. L), met n sl 0. Hierbij zijn er n sl,t sequenties met een thymine op de desbetreffende SNP-positie (= locus), n sl,c met een cytosine, n sl,a sequenties met een adenine en n sl,g sequenties met een guanine zodat n sl,t + n sl,c + n sl,a + n sl,g = n sl. Gezien het humaan genoom diploïd is, zijn in de meeste gevallen minimaal twee van deze aantallen gelijk aan nul, hoewel sequeneringsfouten dit aantal kunnen verhogen. Om de invloed van deze sequeneringsfouten te reduceren, worden de twee laagste aantallen sowieso gelijkgesteld aan nul. Indien het niet direct duidelijk is welk van de drie, of eventueel zelfs vier, aantallen groter dan nul te wijten zijn aan sequeneringsfouten en er bijgevolg geen eenduidige

43 5.3 DETECTIE VAN MONO- EN BI-ALLELISCHE DNA-METHYLATIE 35 oplossing bestaat, dan wordt dit staal niet geïncludeerd in de analyse van het specifieke locus. Dit is bijvoorbeeld het geval voor de situatie waarbij geobserveerd wordt dat n sl,t = 2, n sl,c = 1, n sl,a = 1 en n sl,g = 0. De exclusie van deze situaties zorgt ervoor dat, voor de rest van de analyse, er maximaal twee van deze waarden groter zijn dan nul voor een individueel staal. Het schatten van de allelfrequentie wordt verder gecompliceerd door twee fenomenen. Een eerste fenomeen is de beperkte coverage voor elke locus van elk staal. Dit zorgt ervoor dat heterozygote stalen met bi-allelische methylatie er plots toch homozygoot kunnen uitzien. Indien bijvoorbeeld op een bepaalde locus zowel allel A als allel B voorkomen, en beide allelen gemethyleerd zijn, kan het gebeuren dat bij beperkte coverage enkel allel A wordt opgepikt bij een staal. Echter, het allel dat wordt opgepikt is het gevolg van een random sampling proces: we kunnen ervan uitgaan dat het B allel evenveel kans had om te worden opgepikt. Hoewel mineure discrepanties kunnen ontstaan door sequentieafhankelijke efficiëntieverschillen in zowel het capteren van gemethyleerde regio s (DNA-methylatie specifieke stap in de MBD-seq, zie Sectie 4.4.1) en het sequeneren zelf, worden deze hier genegeerd wegens de te verwachten beperkte impact van SNPs. Een tweede fenomeen dat het schatten van de allelfrequentie bemoeilijkt, is de aanwezigheid van mono-allelische methylatie, i.e. de eigenlijk doelstelling van deze masterproef. Dit compliceert de schatting van de allelfrequentie doordat een eventueel mono-allelisch gemethyleerde regio mogelijks minder gecapteerd wordt wat zou resulteren in een lagere coverage en een lagere power om dergelijke mono-allelische regio s te detecteren (zie Stap 6 Sectie 5.3.3). Ook hier wordt er echter van uitgegaan dat dit onafhankelijk is van de SNP in kwestie, zodat beide allelen evenveel kans maken om gemethyleerd en opgepikt te worden. Met deze zaken in het achterhoofd is het perfect mogelijk om de allelfrequentie te schatten op basis van de aanwezige data, waarbij ervan uitgegaan wordt dat de stalen waarvoor maar één allel opgepikt is homozygoot zijn voor dat allel. Indien er voldoende stalen in de analyse worden opgenomen zal een mogelijke fout hier immers worden uitgemiddeld. Stel bijvoorbeeld dat er 20 heterozygote stalen zijn, waarvan in 10 gevallen de coverage te laag was om beide allelen, A en B, te observeren. Gezien elk allel een gelijke kans heeft om te worden opgepikt, wordt er voor deze stalen verwacht dat er 5 keer enkel A en 5 keer enkel B werd geobserveerd. Indien deze telkens als homozygoot worden beschouwd, is de geschatte allelfrequentie (10 AB + 5 AA + 5 BB = 20 A en 20 B) gelijk aan de werkelijke allelfrequentie (20 AB = 20 A + 20 B). Indien sequeneringsfouten even buiten beschouwing worden gelaten, zullen de werkelijke homozygoten ook altijd worden geobserveerd als homozygoten en blijft de schatting correct. De eventuele uitbreiding naar drie of vier mogelijke allelen heeft hier geen verdere impact op. Op basis van de geschatte allelfrequenties worden vervolgens een aantal loci geëlimineerd uit de verdere analyses Schatten van de genotypefrequenties In voorgaande paragraaf werd uitgelegd hoe uit de sequentiedata per staal het (vermoedelijke) genotype kan worden bepaald voor een bepaald locus: indien voor het locus beide allelen worden geobserveerd in een staal, dan wordt deze als heterozygoot beschouwd, indien er echter slechts één

44 5.3 DETECTIE VAN MONO- EN BI-ALLELISCHE DNA-METHYLATIE 36 allel wordt geobserveerd, dan wordt het staal als homozygoot beschouwd. Hieruit kunnen dan de geobserveerde genotypefrequenties worden geschat. Voor de verdere analyses zal worden gewerkt met de geobserveerde fractie heterozygoten. Door gebruik te maken van het Hardy-Weinberg theorema uit de populatiedynamica, die stelt dat uitgaande van de allelfrequenties de frequentie aan homo- en heterozygoten kan berekend worden, en vice versa, kunnen onder de nulhypothese, i.e. geen aanwezigheid van mono-allelische methylatie, de theoretische genotypefrequenties worden ingeschat. Dit geeft voor de homozygote fracties TT, AA, CC en GG respectievelijk (n sl,t /n sl ) 2, (n sl,a /n sl ) 2, (n sl,c /n sl ) 2 en (n sl,g /n sl ) 2 en 2*(n sl,x *n sl,y )/(n sl ) 2 voor de verschillende x,y heterozygoten Identificeren van loci met significante mono-allelische methylatie In de beschreven setting vertaalt de identificatie van loci met significante mono-allelische methylatie zich tot het vinden van loci met een significante discrepantie tussen de geobserveerde en de theoretische heterozygotenfractie. Bij perfecte mono-allelische methylatie wordt de geobserveerde heterozygotenfractie immers gelijk aan nul. Echter, doordat er door de soms lage coverage bias kan optreden in de geobserveerde heterozygotenfractie, i.e. indien een staal voor een specifieke SNP-positie bi-allelisch gemethyleerd is, is het mogelijk dat slechts één van de twee allelen wordt gedetecteerd, moet voorafgaand aan de detectie van eventueel significante discrepantie tussen geobserveerde en theoretische heterozygotenfractie hiervoor gecorrigeerd worden. Dit kan gedaan worden door na het bepalen van de theoretische heterozygotenfractie met behulp van de wet van Hardy-Weinberg, zoals besproken in de vorige paragraaf, een soort van coverage-filter te gebruiken, waardoor de verwachte heterozygotenfractie kan geschat worden. Praktisch wordt dit gedaan door aan elk theoretisch genotype willekeurig één van de verkregen coverages van de stalen toe te wijzen. Elke gedetecteerde coverage wordt zo aan één theoretisch genotype gekoppeld. Vervolgens wordt gesampled uit de allelen van het genotype, waarbij het aantal keer er gesampled wordt gelijk is aan de waarde van de toegewezen coverage. Hierbij heeft elk allel een gelijke kans heeft om gekozen te worden. Aan de hand van de gesamplede allelen wordt dan het verwachte genotype bepaald. De verwachte heterozygotenfractie zal lager dan, of gelijk aan, de theoretische fractie zijn en het is deze verwachte fractie die nu kan vergeleken worden met de geobserveerde heterozygotenfractie. Indien voor een specifiek locus de geobserveerde heterozygotenfrequentie een significante discrepantie vertoont met, en dus kleiner zal zijn dan, de verwachte heterozygotenfractie, zal dit locus als mono-allelisch gemethyleerd beschouwd worden. Dit alles bij elkaar genomen leidt dan tot de volgende statistische test voor locus l, waarvan een voorbeeld is uitgewerkt in Sectie : Bepaal de geobserveerde allelfrequenties voor locus l voor de S stalen. Indien deze hoog genoeg is voor de lagere frequenties, ga verder met de volgende stap, indien niet: ga verder met het volgende locus. Bepaal de coverage C sl voor elk staal s voor locus l.

45 5.3 DETECTIE VAN MONO- EN BI-ALLELISCHE DNA-METHYLATIE 37 Bepaal de geobserveerde fractie heterozygoten. Bereken op basis van de allelfrequenties de theoretische genotypenfrequenties. Herhaal vervolgens m maal: Voor s van 1 t.e.m. S: * Selecteer een willekeurig genotype volgens de kansen gelijk aan de theoretische genotypenfrequenties. * Indien homozygoot, s = s+1. * Indien heterozygoot, selecteer uit beide allelen (A en B), C sl allelen (met terugplaatsing), waarbij A en B een gelijke kans hebben om geselecteerd te worden. Wanneer C sl laag is, wordt verwacht dat een fractie van de heterozygoten als homozygoten zal worden geobserveerd omdat één van beide allelen per toeval nooit wordt gecorrigeerd. Deze stap is de coverage-filter die een soortgelijke bias, aanwezig in de geobserveerde heterozygotenfrequentie, includeert in theoretische heterozygotenfractie. Bepaal de verwachte heterozygotenfractie. Op basis van de m verwachte heterozygotenfrequenties kan een nuldistributie worden opgesteld, een p-waarde worden berekend voor de geobserveerde heterozygotenfrequenties en tot slot een eventuele significante discrepantie, en dus de aanwezigheid van mono-allelische DNA-methylatie, bepaald worden Voorbeeld 1: aanwezigheid van mono-allelische DNA-methylatie Stel dat er voor locus l acht stalen beschikbaar zijn waarvoor het volgende wordt opgepikt (Tabel 5.1): Tabel 5.1: Hypothetisch gedetecteerde nucleotiden voor elk staal op locus l Staal Locus l 1 AAAA 2 A 3 T 4 AA 5 AAAAAAA 6 A 7 AAA 8 AA

46 5.3 DETECTIE VAN MONO- EN BI-ALLELISCHE DNA-METHYLATIE 38 Rekening houdend met het feit dat indien in één staal maar één allel opgepikt wordt, dit staal homozygoot beschouwd wordt (ongeacht de eventuele lage coverage), zijn de geobserveerde genotypes zoals weergegeven in Tabel 5.2 Tabel 5.2: Geobserveerde genotypes per staal. Staal Geobserveerde genotypes 1 AA 2 AA 3 TT 4 AA 5 AA 6 AA 7 AA 8 AA Er is te zien dat de geobserveerde heterozygotenfrequentie nul is. Op basis van deze genotypes worden vervolgens de allelfrequenties bepaald (p = frequentie A; q = frequentie T). Aantal nucleotiden = n sl = 16 Aantal A = n sl,a = 14 Aantal T = n sl,t = 2 p = 7 en q = Via deze bepaalde allelfrequenties kunnen de theoretische genotypefrequenties bepaald worden met behulp van Hardy-Weinberg. Belangrijk: het is aan de hand van de hierboven berekende allelfrequenties dat dit wordt gedaan, niet op basis van de geobserveerde genotypes! AA p 2 = ( 7 8 )2 = TT q 2 = ( 1 8 )2 = 1 64 AT 2pq = 2* 7 8 * 1 8 = Uit deze theoretische genotypefrequenties worden vervolgens de theoretische genotypes bepaald. Er is te zien dat genotypefrequentie aan heterozygoten (AT) ongeveer gelijk is aan 1. Op acht stalen 5 wordt verwacht dat er twee stalen heterozygoot zijn. Van de resterende zes wordt dan verwacht dat ze homozygoot zijn. Aangezien de genotypefrequentie aan AA groter is dan TT wordt er in dit voorbeeld vijfmaal AA en éénmaal TT genomen voor de zes homozygoten. Maar dit hoeft niet noodzakelijk zo te zijn. De genotypes worden namelijk willekeurig gekozen volgens kansen gelijk aan de theoretische genotypefrequenties. De theoretische genotypes worden hier bijvoorbeeld: AT, AT, AA, TT, AA, AA, AA, AA. De volgorde waarin deze staan maakt niet uit en is bijgevolg at random. De theoretische heterozygotenfrequentie is bijgevolg 1 en dus groter dan de geobserveerde heterozygotenfrequentie. 4

47 5.3 DETECTIE VAN MONO- EN BI-ALLELISCHE DNA-METHYLATIE 39 Zoals uitgelegd in Sectie worden nu de verwachte genotypes bepaald. Dit wordt verwezenlijkt door een soort van coverage-filter te plaatsen op de theoretische genotypes. De coverages van de acht stalen zijn respectievelijk 4, 1, 1, 2, 7, 1, 3 en 2. Deze coverages worden at random toegewezen aan één van de theoretische genotypes. Nogmaals, de volgorde waarin deze toegewezen worden, maakt niet uit. In dit voorbeeld wordt er een coverage van 4 gegeven aan het eerste genotype AT, maar dit kon evengoed gegeven worden aan het laatste genotype AA. Aan de hand van deze coverages worden vervolgens allelen gesampled uit de genotypes waarbij elke allel een gelijke kans heeft om geselecteerd te worden. Hier wordt dit bijvoorbeeld zoals weergegeven in de eerste drie kolommen van Tabel 5.3. Uit het resultaat van deze sampling worden nu de verwachte genotypes gehaald (laatste kolom Tabel 5.3). Tabel 5.3: Weergave van de theoretische genotypes, de toegewezen coverage, het resultaat van de sampling alsook de verwachte genotypes. Theoretisch genotype Toegewezen coverage Resultaat sampling Verwachte genotypes AT 4 AATA AT AT 1 T TT AA 1 A AA TT 2 TT TT AA 7 AAAAAAA AA AA 1 A AA AA 3 AAA AA AA 2 AA AA Uit deze verwachte genotypes is duidelijk dat de verwachte heterozygotenfrequentie hier gelijk is aan 1 en dat deze kleiner is dan de theoretische heterozygotenfrequentie. Het is deze verwachte 8 heterozygotenfractie die kan vergeleken worden met de geobserveerde heterozygotenfractie. Om mono-allelische methylatie aan te tonen, moet de geobserveerde heterozygotenfractie kleiner zijn dan de verwachte heterozygotenfractie, wat in dit voorbeeld het geval is. Om dit op een statistisch verantwoorde manier aan te tonen, wordt de stap vanaf het bepalen van de theoretische genotypes uit de theoretische genotypefrequenties tot en met het bepalen van de verwachte genotypes, m keer uitgevoerd. Op die manier kan respectievelijk een nuldistributie worden opgesteld van de verwachte heterozygotenfrequentie, een p-waarde worden berekend voor de geobserveerde fractie aan heterozygoten en dus finaal de aan- of afwezigheid van mono-allelisch methylatie. Indien p kleiner is dan het significantieniveau dat bepaald werd door de gebruiker (bijvoorbeeld α = 0, 05) wordt de mono-allelische methylatie van locus l als significant beschouwd (zie Figuur 5.2). Een tweede situatie waar er geen sprake is van mono-allelische methylatie staat volledig uitgewerkt in de Appendix Sectie A.1.

48 5.3 DETECTIE VAN MONO- EN BI-ALLELISCHE DNA-METHYLATIE 40 Figuur 5.2: Hypothetische voorstelling van de nuldistributie van de verwachte heterozygotenfrequentie. Indien de geobserveerde heterozygotenfractie kleiner is dan de heterozygotenfractie van het significantieniveau (= p obs < α = 0, 05) dan wordt locus l als mono-allelisch gemethyleerd beschouwd. Deze situatie is geschetst in bovenstaande figuur Bio-informatica pipeline: data-analyse Stap 1: Mappen op het referentiegenoom met Bowtie Alle stalen werden in samenwerking met NXTGNT geanalyseerd met MBD-seq. De ruwe sequentiedata van deze analyses werd doorgestuurd naar BioBiX en vervolgens door ir. Geert Trooskens opgezuiverd. Gezien er gekozen werd om paired-end sequencing toe te passen, zijn er na deze opzuivering per staal twee datasets met sequentiedata, namelijk een dataset voor elke end read. Voor elk staal werden deze reads via Bowtie (Sectie 5.2.1) gemapt op het humaan genoom (release GRCh37 (hg19)). Deze mapping werd eveneens uitgevoerd door ir. Geert Trooskens die vervolgens deze gemapte data in de juiste directory plaatste. Vanaf deze gemapte data begint de feitelijke dataverwerking en -analyse van deze masterproef. Stap 2: Verwijderen van duplicate reads Na het mappen van de data worden via een eerste Perlscript (zie Appendix Sectie A.4.1) de reads die dezelfde startpositie bezitten (duplicate reads) verwijderd. Na deze stap wordt een nieuwe dataset verkregen met reads, die elk mappen op het humaan genoom en hierbij uniek zijn per chromosoom en per positie.

49 5.3 DETECTIE VAN MONO- EN BI-ALLELISCHE DNA-METHYLATIE 41 Stap 3: Traceren van de SNPs en bepalen van de basefrequenties De verworven non-duplicate, uniek mapbare sequentiereads worden vervolgens gescreend voor SNPs. Hiervoor kan beroep gedaan worden op externe SNP-databanken zoals bijvoorbeeld HAP- MAP 10. Deze databanken bevatten alle tot nu toe ontdekte SNPs per chromosoom voor alle mogelijke posities met bijhorende frequentie s van voorkomen. Gezien Bowtie echter na het mappen weergeeft of er een SNP voorkomt in de gemapte read ten opzichte van het referentiegenoom GRCh37, is er geen nood aan deze externe databanken. In de mappingsoutput staat reeds de SNPpositie, de referentienucleotide (van GRCh37) alsook de gevonden SNP. Bijgevolg is het traceren van de SNPs slechts een kwestie van deze gemapte data op een correcte manier te parsen met behulp van een Perlscript (Appendix Sectie A.4.1). Tijdens het doorlopen van de sequentiereads om de SNPs te screenen, wordt er via hetzelfde Perlscript ook een frequentietabel bijgehouden van de bases. In deze frequentietabel wordt per staal bijgehouden hoeveel keer elke positie voorkomt in de reads. Deze frequentietabel wordt met een volgende Perlscript (zie Appendix Sectie A.4.2) gesplitst per chromosoom. Finaal worden de gevonden SNPs één voor één gestockeerd in een MySQL-databank met volgende acht fields: ID (een integer die dienst doet als auto-increment), Chromosoom, Positie, Referentienucleotide, SNP, Methylation Core, SampleID (zelfde ID als in de H2G2-browser van BioBiX), Run, FragmentID (de sequentie van de read). Voor elke run wordt er een dergelijke databank aangemaakt. Het script dat geschreven werd om te SNP-databank te vullen, is te zien in de Appendix Sectie A.4.4. Stap 4: Samenvoegen van SNPs en bepalen van de SNP-frequenties Na het parsen van alle SNPs per staal, worden al deze SNPs samengevoegd in één grote SNP-tabel waarbij elke SNP-positie uniek is. Naast het chromosoom en de positie wordt ook de referentienucleotide opgeslagen in deze tabel. Om deze stap efficiënt te laten verlopen wordt de finale SNP-tabel opgesplitst per chromosoom. De gebruikte scripts voor deze stap zijn terug te vinden in de Appendix Sectie A.4.6. Naast het bepalen van de basefrequenties in de voorgaande stap, wordt ook de frequentie van elke SNP per staal bepaald. Dit is nodig voor de volgende stap van de pipeline, waar met behulp van de base- en SNP-frequenties per positie een lijst wordt gemaakt van de gedetecteerde SNPs. Het bepalen van de SNP-frequenties gebeurt via de SNP-databanken die in de vorige stap gecreeërd werden voor elke run. Met behulp van een MySQL-code (zie Appendix Sectie A.4.5) wordt elk van deze databanken doorlopen en wordt berekend hoeveel keer elke specifieke SNP voorkomt in elk staal. Deze waarden worden finaal weer opgeslagen in een MySQL-databank. Op deze manier wordt een count table bekomen waar voor elke SNP het Chromosoom, de Positie, de Referentienucleotide, de SNP zelf en Frequentie van de SNP in een bepaald staal wordt 10 Download SNP-data van HAPMAP project: ftp://ftp.ncbi.nlm.nih.gov/hapmap/

50 5.3 DETECTIE VAN MONO- EN BI-ALLELISCHE DNA-METHYLATIE 42 opgeslagen in een MySQL-databank. Voor elke sequentierun wordt er een aparte databank aangemaakt. Stap 5: Aanmaak van een lijst van gedetecteerde SNPs per positie Wanneer de voorbije stappen succesvol doorlopen zijn voor alle stalen, wordt er voor elk chromosoom via een nieuw Perlscript (zie Appendix Sectie A.4.7) voor elk staal een soort van lijst gemaakt van alle gedetecteerde nucleotides op elke SNP-positie van de totale SNP-tabel. Deze nucleotidenlijst wordt in de finale statistische stap gebruikt als input. De werkwijze is als volgt: stel dat de vorige stappen de essentiële informatie weergegeven in Tabel 5.4 hebben opgeleverd. Tabel 5.4: Hypothetisch verkregen informatie na het doorlopen van stap 1 tot en met 4 van de pipeline. Chromosoom Positie Referentie- SNP Base- SNP- SampleID nucleotide frequentie frequentie A C C T T G A C C T Via deze informatie wordt een lijst opgesteld, die voor elke SNP-positie een soort van sequentie bijhoudt. Voor een bepaalde positie komt de lengte van de sequentie overeen met de gevonden basefrequentie op die positie. De sequentie zelf is ofwel leeg of bestaat uit ofwel enkel de referentienucleotide, ofwel enkel de SNP, ofwel een combinatie van de SNP en de referentienucleotide, waarbij het aantal keer dat ze voorkomen respectievelijk overeenkomt met de SNP-frequentie en de frequentie van de referentienucleotide (= basefrequentie - SNP-frequentie). Het bepalen van welk van de vier opties het wordt voor een bepaalde positie bij een specifiek staal is hieronder weergegeven: SNP-positie is gedetecteerd in het staal (basefrequentie voor die positie > 0): Indien de SNP-frequentie op die positie > 0: frequentie van de referentienucleotide (refcount) = basefrequentie - SNP-frequentie (snpcount) lijst = (SNP x snpcount)(referentienucleotide x refcount) Indien de SNP-frequentie op die positie = 0: refcount = basefrequentie lijst = referentienucleotide x refcount

51 5.3 DETECTIE VAN MONO- EN BI-ALLELISCHE DNA-METHYLATIE 43 SNP-positie is niet gedetecteerd in het staal (basefrequentie voor die positie = 0): lijst = NULL Indien deze gedachtengang wordt toegepast op de informatie uit Tabel 5.4, worden de lijsten bekomen die worden weergegeven in Tabel 5.5. Deze informatie wordt per chromosoom opgeslagen in een databank, ListSamples genaamd, met als fields: ID (een integer die dienst doet als autoincrement, het rijnummer), Chromosoom, Positie, Lijst, SampleID (zelfde ID als in de H2G2- browser van BioBiX) en Run. Tabel 5.5: Hypothetisch verkregen lijst per staal voor elke SNP-positie na het toepassen van de hierboven beschreven methode. ID Chromosoom Positie Lijst SampleID CCCAAAAAAA TCCCCC GGGGGGGGGGG AAAAAAA TTTCCCCC NULL 2 Voorafgaand aan de statistische analyse wordt de informatie van Tabel 5.5 naar een andere vorm omgezet die eveneens wordt opgeslagen in een MySQL-databank. Deze databank bevat volgende fields: Chromosoom, Positie en Lijsten. De inhoud van de derde kolom bevat alle lijsten uit Tabel 5.5 naast elkaar gerangschikt per chromosoom en per positie. Voor elk chromosoom wordt er een dergelijke databank aangemaakt. Het hypothetische resultaat voor Tabel 5.5 staat weergegeven in Tabel 5.6. Tabel 5.6: Hypothetisch verkregen input voor de statistische analyse na het toepassen van de hierboven beschreven methode. Chromosoom Positie Lijsten CCCAAAAAAA AAAAAAA TCCCCC TTTCCCCC GGGGGGGGGGG NULL Stap 6: Filteren van data met behulp van de poweranalyse Zoals reeds aangehaald in Sectie worden sequeneringsfouten gekenmerkt door een lage frequentie van het minor allele (= een hoge frequentie van het major allele). Om het effect van

52 5.3 DETECTIE VAN MONO- EN BI-ALLELISCHE DNA-METHYLATIE 44 sequeneringsfouten te reduceren alsook door het feit dat echte SNPs met een dergelijk lage allelfrequentie weinig bijdrage leveren in de identificatie van mono-allelisch gemethyleerde loci, werd ervoor gekozen om deze SNPs weg te laten uit de finale data. Dit kan gedaan worden door de data te filteren op basis van een vooraf bepaalde allelfrequentie. De threshold van deze allelfrequentie wordt hier bepaald via een poweranalyse. Normaliter wordt een poweranalyse in de statistische wereld gebruikt om het minimale aantal stalen te berekenen die nodig zijn om een vooraf gedefinieerd minimaal relevant verschil met een bepaalde kans (power) waar te nemen. Wanneer de power bijvoorbeeld gezet wordt op 0,8, dan wordt via de poweranalyse het minimale aantal stalen berekend zodat wanneer er een significant verschil aanwezig is, dit effectief significant gedetecteerd wordt met een kans van 0,8. In de in deze masterproef ontwikkelde poweranalyse wordt gekozen voor een minimale power van 0,5 om mono-allelische DNA-methylatie te detecteren, maar wordt in plaats van het minimale aantal stalen, de minimale allelfrequentie van het minor allele bepaald waarbij het aantal stalen een vast gegeven is. Omdat naast de allelfrequentie, de totale coverage per SNP-positie ook een belangrijke rol speelt, wordt de poweranalyse verder uitgebreid waardoor zowel de maximale allelfrequentie van het major allele, als de minimale coverage bekomen wordt zodat indien er significante mono-allelische DNA-methylatie aanwezig is, dit ook gedetecteerd wordt via het statistische algoritme met een kans van minimaal 0,5. Deze informatie kan vervolgens gebruikt worden om de data te filteren. SNP-posities met een allelfrequentie van het major allele die groter is dan de maximale waarde bepaald via de poweranalyse en/of een coverage die kleiner is dan de minimale waarde eveneens bepaald via de poweranalyse worden eruit gefilterd wat moet leiden tot een verhoogde computationele efficiëntie. In deze stap wordt dus aan de hand van een poweranalyse een selectie gemaakt van de data (Tabel 5.6) die verder statistisch worden verwerkt. Dit zal bijgevolg de analysetijd verkorten. Er worden twee soorten poweranalyses ontwikkeld in R, namelijk één op basis van zelf gegenereerde data (script zie Appendix Sectie A.4.8.1) en een tweede op basis van de reële data (script zie Appendix Sectie A.4.8.2) die beschikbaar is na het succesvol doorlopen van de eerste vijf stappen in de pipeline. Belangrijk te vermelden is dat de poweranalyses telkens uitgevoerd worden op data van loci met mono-allelische methylatie, ongeacht of deze data artificieel is of gebaseerd op reële data. Poweranalyse op basis van artificiële data De coverage (i.e. totaal aantal fragmenten voor één locus) waarvoor de power wordt berekend in de analyse start bij 20 en gaat tot en met 140 met telkens een stapgrootte van 5. De bijhorende allelfrequentie kan in theorie tussen 0 en 1 liggen, maar wanneer twee allelen beschouwd worden, wordt, omwille van de symmetrie tussen de frequenties van de twee allelen, de power telkens berekend voor frequenties van het minor allele. Voorafgaand aan de poweranalyse op de echte data wordt deze eerst uitgevoerd op artificiële data, die in de eerste stappen van het script wordt aangemaakt. Het aantal stalen per SNP-positie (= locus l) wordt vooraf ingegeven en is een vaste parameter. Voor een hypothetisch locus l wordt vervolgens een lijst gemaakt met lengte gelijk aan

53 5.3 DETECTIE VAN MONO- EN BI-ALLELISCHE DNA-METHYLATIE 45 het aantal stalen waarbij elke positie van de lijst op zijn beurt nog eens een lijst is. Deze laatste lijsten krijgen elk random een lengte toegewezen, waarbij rekening gehouden wordt met de totale coverage van locus l die als input wordt meegegeven. Op deze manier wordt de som van al deze lengtes gelijk aan de totale coverage waarvoor de power berekend wordt. In een volgende stap worden deze lijsten opgevuld met allelen, rekening houdend met de opgegeven allelfrequenties. Voor de eenvoud wordt verondersteld dat er maximaal twee varianten (i.e. allelen) kunnen voorkomen per locus. Belangrijk is dat deze opvulling op een manier gedaan wordt zodanig dat de lijsten bij de opgegeven voorwaarden maximaal homozygoot zijn. Onze stalen zijn gesequeneerd op een platform van Illumina. De kans op een sequentiefout bij sequenering met Illumina is ongeveer 1% [108]. Om zoveel mogelijk de realiteit te benaderen moeten deze sequeneringsfouten ook in rekening worden gebracht. Dit wordt gedaan met behulp van een binomiaalfunctie die elk allel van elke lijst afloopt en telkens een uitkomst geeft van 1 of 0 respectievelijk met een kans van 0,01 en 0,99. Indien de uitkomst voor een allel 1 is, treedt er een sequentiefout op en wordt dit allel vervangen door een ander allel waarbij elk ander allel een gelijke kans heeft om gekozen te worden. Na het in rekening brengen van sequentiefouten, is de artificiële data aangemaakt en kan de statistische analyse beginnen. Aangezien de onderliggende gedachtengang van de implementatie van het statistische algoritme hieronder in Stap 7 van Sectie wordt besproken, wordt hier niet op ingegaan. Belangrijk is wel dat bij het statistische script hier een m van 1000 wordt gebruikt. Finaal wordt na het statistische script een p-waarde bekomen. Indien deze kleiner is dan het significantieniveau 0,05 wordt de mono-allelische DNA-methylatie als significant gedetecteerd. Per combinatie van coverage en allelfrequentie wordt alles vanaf het aanmaken van artificiële data tot en met het bekomen van een p-waarde 100 keer herhaald. De p-waarde wordt telkens bijgehouden alsook of het resultaat significant is of niet. Na de 100 herhalingen wordt per combinatie van coverage en allelfrequentie een algemene p-waarde berekend door de mediaan te nemen van de 100 opgeslagen p-waarden. De power zelf wordt bekomen door het aantal significante resultaten te delen door het aantal herhalingen. Het resultaat van de poweranalyse wordt nadien ook visueel samengevat in een 3D-plot met op de x-, y- en z-as de coverage, de allelfrequentie en de power (script zie Appendix Sectie A.4.9). Poweranalyse op basis van reële data Ook bij deze poweranalyse is het aantal stalen per SNP-positie (= locus l) een vooraf gedefinieerde parameter. De allelfrequenties waarvoor de power wordt berekend, variëren weer tussen 0 en 0,5 met stapgrootte 0,05. De bijhorende coverage zal eveneens starten bij 20 en gaan tot 140 maar ditmaal met een stapgrootte van 10. Echter, het grote verschil met de voorgaande poweranalyse is het feit dat hier de analyse gebeurd op basis van de data die per chromosoom bekomen wordt na Stap 5 (Tabel 5.6). Deze data wordt in het script rij per rij ingelezen. Voor elke lijn wordt de totale coverage van het ingelezen locus l bepaald. Indien deze niet overeenkomt met één van de voorgedefinieerde coverages (namelijk 20,30,40,50,60,70,80,90,100,110,120,130 en 140) wordt de volgende rij ingelezen. Pas wanneer de coverage wel overeenkomt met één van deze waarden zal het volledige script uitgevoerd worden. Er wordt opnieuw een lijst gemaakt met een

54 5.3 DETECTIE VAN MONO- EN BI-ALLELISCHE DNA-METHYLATIE 46 lengte gelijk aan het opgegeven aantal stalen en elke positie van deze lijst is op zijn beurt nog eens een lijst. De lengtes van deze laatste lijsten krijgen nu niet zomaar een random lengte toegewezen, maar ze krijgen dezelfde lengte als die van hun bijhorende staal in het ingelezen locus. Positie 1 zal bijvoorbeeld dezelfde lengte krijgen als de ingelezen sequentielijst van locus l die afkomstig is van het eerste staal. Het spreekt voor zich dat de som van deze lengtes hier dus ook gelijk zal zijn aan de voorgedefineerde totale coverage. De opvulling van deze lijsten met twee allelen gebeurt net als bij de artificiële data voor elk van de opgegeven allelfrequentiesbehalve maar hier gebeurt dit meerdere keren (100) per ingelezen lijn van een bepaalde coverage. De opvulling zal telkens iets anders zijn, waardoor ook rekening wordt gehouden met de eventuele invloed van de manier van opvulling. Met dezelfde methode als hierboven worden ook sequeneringsfouten (1 %) in rekening gebracht. Vanaf hier kan de statistische analyse eindelijk beginnen. De werkwijze is opnieuw dezelfde als die bij de poweranalyse op artificiële data. Het statistische script (met ook m = 1000) zal finaal een p-waarde opleveren. Indien de p-waarde kleiner is dan 0,05 wordt de mono-allelische DNA-methylatie als significant aanwezig beschouwd. Per combinatie van coverage en allelfrequentie wordt alles vanaf het vullen van de data met de twee allelen tot en met het bekomen van een p-waarde 100 keer herhaald. De resulterende power wordt berekend door het aantal significante resultaten te delen door het aantal herhalingen. De finale p-waarde wordt bekomen door de mediaan te nemen van alle p-waarden van de 100 herhalingen. Het resultaat wordt samengevat in een 3D-plot met op de x-, y- en z-as de coverage, de allelfrequentie en de power (script zie Appenix Sectie A.4.9). Filtering Met behulp van resultaten van de poweranalyse kan een threshold bepaald worden voor zowel de allelfrequentie van het major allele als de totale coverage van een SNP-positie, respectievelijk de maximale allelfrequentie en de minimale coverage genoemd (zie ook Sectie 6.5). Op deze manier kan, voorafgaand aan de statistische analyse uit Stap 7, de data uit Tabel 5.6 worden gefilterd. SNP-posities die niet voldoen aan minstens één van de twee voorwaarden worden eruit gehaald met behulp van een Perlscript (zie Appendix Sectie A.4.10). Hierbij wordt elke rij (en dus elke SNP-positie) van Tabel 5.6 één voor één ingelezen en worden de coverage en de allelfrequenties berekend. Om dit te verwezenlijken wordt in een eerste stap voor elk van de sequentielijsten horende bij de SNP-positie het genotype gedetermineerd. Aan de hand van deze genotypes wordt de frequentie van de vier allelen berekend. In de poweranalyses zelf werd voor alle eenvoud verondersteld dat er maximaal twee allelen voorkomen per locus. Bij de echte data kunnen dit er echter meer zijn, waardoor de filter hier gezet wordt op het major alelle (i.e. het allel met de grootste allelfrequentie) in de plaats van op het minor allele. Vandaar dat in de volgende stap het major allele wordt bepaald waarvan de bijhorende frequentie wordt bijgehouden. Nucleotiden die na de sequenering onduidig zijn bepaald en in de sequentiereads, en bijgevolg ook in de lijsten, als N zijn weergegeven, worden tijdens deze stap ook weggefilterd. In een volgende stap wordt de totale coverage van de SNP-positie, berekend en opgeslagen in een variabele. Op dit moment zijn de twee essentiële parameters gedetermineerd en kan gekeken worden of deze SNP-positie wel of

55 5.3 DETECTIE VAN MONO- EN BI-ALLELISCHE DNA-METHYLATIE 47 niet moet behouden worden voor de statistische analyse. Enkel indien de frequentie van het major allele kleiner dan of gelijk is aan de maximale allelfrequentie én indien de totale coverage groter dan of gelijk is aan de minimale coverage wordt de SNP-positie behouden. Deze SNP-posities worden vervolgens uitgeschreven naar een nieuwe databank (ListSamples filtered), die dezelfde structuur heeft als Tabel 5.6 en de finale input vormt van het statistische script in Stap 7. De filtering van de data zal tweemaal uitgevoerd worden, namelijk een keer voor de thresholds vekregen via de poweranalyse op artificiële data en een keer met de thresholds van de poweranalyse op reële data. Bijgevolg zijn er per chromosoom twee databanken met gefilterde data, maar enkel op degene die afkomstig is van de poweranalyse op reële data zal het statistische algoritme uitgevoerd worden. Stap 7: Statistisch algoritme De overgebleven data na de filtering, met behulp van de poweranalyse op basis van de reële data, in Stap 6 wordt ingelezen en gebruikt als input in het Rscript. De geschreven code is te zien in de Appendix Sectie A Hier worden de verschillende stappen in het script kort overlopen. In eerste instantie wordt de ingelezen data gefilterd zodat voor elke individueel staal er maximaal twee waarden van n sl,t, n sl,c, n sl,a en n sl,g groter zijn dan nul (zie Sectie ). Vervolgens worden uit deze gefilterde data respectievelijk de geobserveerde genotypes en de geobserveerde heterozygotenfractie bepaald. Aan de hand van de geobserveerde genotypes worden de allelfrequenties berekend, waarmee de theoretische fractie aan heterozygoten kan worden bepaald. Na het bepalen van de geobserveerde coverages per staal, wordt de distributie van de verwachte heterozygotenfractie bepaald volgens de methode besproken in Sectie met m = Met behulp van een binomiale verdeling wordt de verwachte fractie heterozygoten gesampled uit de data gebaseerd op de theoretische fractie, waardoor deze verwachte fractie de theoretische zou moeten benaderen. Dit wordt 1000 keer gedaan. In een volgende stap wordt voor elke coverage het aantal verwachte heterozygoten bepaald na sampling, en dit wanneer er gestart wordt met 100% heterozygoten. Dit om de invloed en de beperkingen van een (te) lage coverage in te schatten. Aan de hand van de voorgaand verworven info wordt nu een coverage-filter opgesteld en de finaal verwachte heterozygotenfractie bepaald. Dit wordt ook 1000 keer gedaan en met deze datapunten wordt de distributie samengesteld. Na het bepalen van deze distributie wordt de bijhorende p-waarde van de initieel geobserveerde fractie aan heterozygoten gezocht. Dit wordt praktisch gedaan door eerst de som te nemen van alle verwachte heterozygotenfracties die kleiner zijn dan de geobserveerde heterozygotenfractie en nadien te delen door het totale aantal berekende verwachte heterozygotenfracties. Indien deze waarde kleiner is dan 0,05 (= significantieniveau α) wordt de mono-allelische DNA-methylatie op die positie als significant aanwezig beschouwd.

56 6 Resultaten Voor het detecteren van mono-allelische DNA-methylatie werd de ontwikkelde pipeline toegepast op een set van 92 stalen verkregen via MBD-seq in samenwerking met NXTGNT. Deze stalen zijn afkomstig van vier afzonderlijke sequentieruns met de GAIIx. Doordat sommige stappen in de pipeline redelijk wat computationele kracht en tijd vereisen, werd de data opgesplitst per chromosoom en werd de pipeline gestart voor chromosomen 1, 21 en X van deze 92 stalen. Voor chromosoom 1 zijn nog niet alle stappen in het proces voltooid, dus de volledige pipeline wordt hier enkel geïllustreerd voor chromosomen 21 en X. Dit om de volledige analyse te kunnen illustreren in deze masterproef. De resultaten zullen dus telkens weergegeven worden voor de analyse op chromosomen 21 en X en waar mogelijk worden ook de reeds verworven tussenresultaten van chromosoom 1 toegevoegd. Een lijst met informatie van de 92 gebruikte stalen is bijgevoegd in Sectie A.2.1 van de Appendix. 6.1 Bepalen van de basefrequenties Via de scripten in Secties A.4.1 en A.4.2, die tijdens het doorlopen van de sequentiereads bijhouden hoeveel keer elke positie (base) van het referentiegenoom voorkomt in de reads, werd per staal en per chromosoom een frequentietabel gemaakt. Tabel 6.1 toont de eerste twee entries van de resulterende frequentietabel van chromosoom 21 van staal 589. De interpretatie is al volgt: voor bases met posities die liggen tussen de start- en eindpositie is de basefrequentie in dat staal gelijk aan de waarde van de laatste kolom. Voor staal 589 is volgens Tabel 6.1 bijvoorbeeld de base op positie éénmaal voorgekomen in de reads en heeft dus een basefrequentie gelijk aan Traceren van SNPs en aanmaak totale SNP-tabel In de reads werden vervolgens voor elk staal alle SNPs gelokaliseerd. Het aantal gevonden SNPs per staal is te zien in Tabel 6.2.

57 6.2 TRACEREN VAN SNPS EN AANMAAK TOTALE SNP-TABEL 49 Tabel 6.1: Eerste twee entries van de bekomen frequentietabel van chromosoom 21 voor staal 589. Voor de bases met posities die liggen tussen de start- en eindpositie is de basefrequentie in dat staal weergegeven in de laatste kolom. Chromosoom Startpositie Eindpositie Frequentie Tabel 6.2: Het aantal gelokaliseerde (niet unieke) SNPs gerangschikt per staal. Staal Aantal SNPs Staal Aantal SNPs Staal Aantal SNPs

58 6.2 TRACEREN VAN SNPS EN AANMAAK TOTALE SNP-TABEL 50 Na het opsporen van de SNPs per staal, werden deze per chromosoom samengevoegd in één grote SNP-tabel waarbij elke SNP-positie uniek is. Deze informatie is niet enkel beschikbaar voor chromosomen 1, 21 en X maar is reeds aanwezig voor alle chromosomen, behalve Y. Gezien het Y- chromosoom enkel bij mannen aanwezig is, en dit in enkelvoud, en het doel van deze masterproef het detecteren is van mono-allelische DNA-methylatie op diploïde chromosomen, werd het Y- chromosoom hier en in de volgende stappen niet behandeld. In Tabel 6.3 staan de eerste tien rijen van de bekomen SNP-tabel van chromosoom 21. Bij de analyse van chromosoom X moet ook rekening gehouden worden met het feit dat mannelijke stalen maar één X-chromosoom bevatten. Bijgevolg moest van elk van de 92 stalen het geslacht bepaald worden. Dit werd gedaan door na de mapping van de sequentiereads van elk staal de totale basefrequentie gemapt op zowel chromosoom X als chromosoom Y te bepalen en de ratio X Y te nemen van deze twee waarden. Doordat voor vrouwelijke stalen de totale basefrequentie op chromosoom Y zeer laag zal zijn (enkel wat ruis) in vergelijking met de totale basefrequentie op X, zal de ratio hier een hoge waarde hebben. Bij mannelijke stalen zal de ratio daarentegen een duidelijk lagere waarde hebben. Het script en de resultaten van deze geslachtsbepaling voor elk van de 92 stalen zijn weergegeven in de Appendix, respectievelijk in Secties A.4.3 en A.2.2. Er is een duidelijk verschil te zien tussen de ratio s van de mannelijke en vrouwelijke stalen. Bij een ratio hoger dan 50 werd geconcludeerd dat het staal afkomstig is van vrouwelijk weefsel. Dit is zo voor 24 van de 92 stalen. Gezien enkel deze vrouwelijke stalen diploïd zijn voor het X-chromosoom werd voor het lokaliseren van de SNPs, alsook bij alle verdere stappen bij het detecteren van mono-allelische DNA-methylatie op het X-chromosoom, enkel met deze 24 vrouwelijke stalen verder gewerkt. Tabel 6.4 toont het totale aantal gedetecteerde unieke SNPs per chromosoom. Tabel 6.3: Hieronder staan de eerste tien entries van de bekomen SNP-tabel van chromosoom 21 geïllustreerd. Chromosoom Positie Referentienucleotide A C T G T C G A A A

59 6.3 BEPALEN VAN DE SNP-FREQUENTIES 51 Tabel 6.4: Samenvatting van het totale aantal uniek gedetecteerde SNPs per chromosoom. Chromosoom Totaal aantal Chromosoom Totaal aantal gedetecteerde SNPs gedetecteerde SNPs X Bepalen van de SNP-frequenties Na het bepalen van de SNPs per staal (zie Tabel 6.2) werd er voor elke run een count table (= SNPfrequentiedatabank) aangemaakt waar de frequentie van elke SNP per staal wordt bijgehouden. Een voorbeeld van zo n count table is hieronder weergegeven in Tabel 6.5. Deze tabel toont een aantal random gekozen entries van de resulterende count table van de hegi2-run. Tabel 6.5: Een illustratie van de bekomen count table van de hegi2-run waarbij een aantal random gekozen entries worden weergegeven. Chromosoom Positie Referentie- SNP Count SampleID Run nucleotide A T hegi A G hegi C T hegi T C hegi2 X G C hegi2 6.4 Aanmaak van de tabel ListSamples Nadat de frequentie-, SNP- en SNP-frequentietabellen succesvol zijn aangemaakt voor alle 92 stalen werd voor elk chromosoom een nieuwe tabel aangemaakt, genaamd ListSamples. Deze tabel

60 6.5 POWERANALYSES 52 heeft voor elk staal een sequentielijst die alle geobserveerde nucleotides bevat op elk van de gelokaliseerde SNP-posities op dat chromosoom. Het opstellen van deze specifieke sequentielijst werd verwezenlijkt door voor elk staal bij elk van de gevonden SNP-posities de werkwijze uitgelegd in Stap 5 van toe te passen. Gezien dit de meest computationele stap is en bijgevolg veel servercapaciteit en tijd in beslag neemt, werd deze stap voorlopig enkel voor chromosomen 1, 21 en X uitgevoerd. Tabel 6.6 toont 10 rijen van de bekomen tabel voor chromosoom 21. Tabel 6.6: Weergave van de resulterende ListSamples-tabellen. Ter illustratie worden de entries van rij 310 tot en met 319 getoond van de bekomen tabel horende bij chromosoom 21. ID Chromosoom Positie Lijst SampleID Run T 591 hegi NULL 590 hegi C 589 hegi NULL 592 hegi TTT 591 hegi CAAA 589 hegi CCCCAAAAAA 590 hegi NULL 592 hegi C 591 hegi T 590 hegi2 6.5 Poweranalyses In een volgende stap was het de bedoeling om uit de volledige SNP-lijsten deze SNPs te filteren waarvoor voldoende coverage en alleldiversiteit beschikbaar is om ze potentieel te kunnen identificeren als mono-allelisch gemethyleerd. Zoals besproken in Stap 6 van Sectie werden er twee poweranalyses uitgevoerd. Namelijk één gebaseerd op zelf gegenereerde data (artificiële poweranalyse) en één waarbij de data in het script gegenereerd wordt op basis van de reële data (reële poweranalyse). Bij de poweranalyse op artificiële data werd ervoor gekozen om de coverage te laten variëren tussen 20 en 140 met een stapgrootte van 5 en neemt de allelfrequentie waarden aan die beginnen bij 0 en eindigen bij 0,5 telkens met een stapgrootte van 0,05. Voor de poweranalyse op reële data daarentegen werden alle rijen van de databank (zie Tabel 6.6) één voor één ingelezen en werd voor elke SNP-positie gekeken of de coverage overeenkomt met één van de voorgedefinieerde coverages. De voorgedefinieerde coverages varieerden hier van 10 tot en met 140, maar ditmaal met een stapgrootte van 10 om de analysetijd te beperken. De voorgedefinieerde allelfrequenties bleven dezelfde als bij de artificiële poweranalyse, namelijk startend bij 0 en eindigend bij 0,5 met een stapgrootte van 0,05. Volgens de methode uitgelegd in Stap 6 van Sectie werd er zowel bij de artificiële als reële poweranalyse voor elke combinatie van de voorgedefinieerde coverages en allelfrequenties na 100 herhalingen een algemene p-waarde berekend (mediaan van

61 6.5 POWERANALYSES 53 de 100 p-waarden) met een bijhorende power. De cut-off voor de power werd bij beide poweranalyses op 0,5 gelegd, i.e. 50% kans om significante mono-allelische DNA-methylatie te detecteren wanneer het effectief ook mono-allelisch gemethyleerd is. De poweranalyse op de artificiële data werd uitgevoerd voorafgaand aan de poweranalyse op reële data. Dit omdat bij aanvang van de poweranalyses de echte data nog niet volledig beschikbaar was. Met behulp van de artificiële poweranalyse kon echter al een eerste, weliswaar ruw, idee verkregen worden van de resulterende thresholds alsook de hoeveelheid data die ongeveer zou overblijven na filtering. Vanaf wanneer de echte data beschikbaar was, werd de reële poweranalyse gestart. Door op deze manier te werken, kan ook gekeken worden of er bij het bepalen van de thresholds een invloed is van de reële coverages per staal. In deze poweranalyses, alsook in de volgende stappen, werd voorlopig enkel verder gewerkt met de data die beschikbaar was van chromosoom X en chromosoom 21. De analyse van chromosoom 21 gebeurde reeds van in het begin van de pipeline op de volledige set van 92 stalen. Bijgevolg werd de artificiële poweranalyse ook uitgevoerd met de assumptie van 92 stalen. De volledige tabel met alle resultaten van de poweranalyse voor alle combinaties van voorgedefinieerde coverages en allelfrequenties op de artificiële data staat ter informatie weergegeven in de Appendix Sectie A.3.2. Van deze tabel werd een visuele voorstelling gemaakt aan de hand van twee 3D-plots (zie Figuur 6.1). In de eerste plot stellen de x-, y- en z-as respectievelijk de coverage, de power en de frequentie van het minor allele voor (Figuur 6.1(a)), terwijl in de tweede plot de frequentie van het minor allele, de power en de coverage worden weergegeven op respectievelijk de x-, y- en z-as (Figuur 6.1(b)). (a) (b) Figuur 6.1: Samenvattende 3D-plots van de bekomen data uit de poweranalyse op artificiële data voor 92 stalen (Tabel A.7). Figuur (a) toont de 3D-plot met op de x-,y- en z-as respectievelijk de coverage, de power en de frequentie van het minor allele. Bij Figuur (b) zijn de coverage, de power en de frequentie van het minor allele weergegeven op respectievelijk de z-, y- en x-as.

62 6.5 POWERANALYSES 54 Uit deze figuren kon al ruw afgeleid worden dat er een power van 0,5 bereikt werd vanaf ongeveer een coverage van 60 en een frequentie van het minor allele van 0,15. Om dit beter voor te stellen werd er aansluitend een 2D-plot gemaakt met op de x-as de allelfrequentie en op de y-as de coverage. Enkel indien de power voor een combinatie van allelfrequentie en coverage groter dan of gelijk was aan 0,5 werd er een punt getekend op de 2D-plot (zie Figuur 6.2). Figuur 6.2: 2D-plot van de poweranalyse op artificiële data voor 92 stalen met op de x- en y-as de frequentie van het minor allele en de coverage. Enkel indien de power groter dan of gelijk was aan 0,5 voor een bepaalde combinatie van allelfrequentie en coverage werd er een punt getekend in de 2D-plot. Voor de coverage is te zien dat vanaf een waarde gelijk aan en groter dan 55 de power voor de meeste, maar niet alle, combinaties een waarde groter dan of gelijk aan 0,5 aannam. Voor de allelfrequentie geldt dit wanneer het minor allele een frequentie gelijk aan of groter dan 0,1 had. Het major allele moet dan vanzelfsprekend een frequentie hebben die gelijk aan of kleiner is dan 0,9 (= 1-0,1). Bijgevolg werd via deze poweranalyse de threshold voor de minimale coverage op 55 gezet en die voor de maximale frequentie van het major allele op 0,9. Ook al hebben niet alle combinaties tussen deze twee waarden een power van minstens 0,5, op deze manier werd alle data uit Figuur 6.2, die wel een dergelijke power bezitten, behouden. Er is te zien dat wanneer de frequentie van het minor allele 0,1 was er enkel bij een coverage van 140 een power van 0,5 of meer verkregen werd. Om deze reden kon er ook gekozen worden om de threshold van de frequentie van het major allele te zetten op 0,85. Om het effect van deze keuze te illustreren werd in de volgende stap de filtering eens met beide thresholds uitgevoerd (zie Sectie 6.6). Vanaf wanneer de data van chromosoom 21 beschikbaar was, werd op basis van deze data een reële poweranalyse uitgevoerd. De resulaten van deze poweranalyse zijn weergegeven in de Appendix Sectie A.3.4. De 3D-plots van de resultaten zijn te zien in Figuur 6.3 en Figuur 6.4 toont de meer specifieke 2D-plot. Om alle data met een power van minstens 0,5 te behouden tijdens de filtering, werden de thresholds van de coverage en de frequentie van het major allele gezet op respectievelijk 50 en 0,9 (= 1-0,1).

63 6.5 POWERANALYSES 55 (a) (b) Figuur 6.3: Samenvattende 3D-plots van de bekomen data uit de poweranalyse op reële data van chromosoom 21 (Tabel A.9). Figuur (a) toont de 3D-plot met op de x-,y- en z-as respectievelijk de coverage, de power en de frequentie van het minor allele. Bij Figuur (b) zijn de coverage, de power en de frequentie van het minor allele weergegeven op respectievelijk de z-, y- en x-as. Figuur 6.4: 2D-plot van de poweranalyse op reële data van chromosoom 21 met op de x- en y-as de frequentie van het minor allele en de coverage. Enkel indien de power groter dan of gelijk was aan 0,5 voor een bepaalde combinatie van allelfrequentie en coverage werd er een punt getekend in de 2D-plot. Gezien het X-chromosoom niet met de totale set van 92, maar met een subset van 24 stalen geanalyseerd werd, werd de artificiële poweranalyse nogmaals uitgevoerd, maar ditmaal met de assumptie van 24 stalen. De tabel met alle resultaten van deze artificiële poweranalyse staat in de Appendix Sectie A.3.1. Figuur 6.5 toont de samenvattende 3D-plots van deze data. Om de meer specifieke

64 6.5 POWERANALYSES 56 thresholds te bepalen, werd er opnieuw een 2D-plot gemaakt waarbij er voor een bepaalde coverage en frequentie van het minor allele enkel een punt werd getekend indien de power gelijk aan of groter is dan 0,5 (zie Figuur 6.6). (a) (b) Figuur 6.5: Samenvattende 3D-plots van de bekomen data uit de poweranalyse op artificiële data voor 24 stalen (Tabel A.6). Figuur (a) toont de 3D-plot met op de x-,y- en z-as respectievelijk de coverage, de power en de frequentie van het minor allele. Bij Figuur (b) zijn de coverage, de power en de allelfrequentie weergegeven op respectievelijk de z-, y- en x-as. Figuur 6.6: 2D-plot van de poweranalyse op artificiële data voor 24 stalen met op de x- en y-as de frequentie van het minor allele en de coverage. Enkel indien de power groter dan of gelijk was aan 0,5 voor een bepaalde combinatie van allelfrequentie en coverage werd er een punt getekend in de 2D-plot.

te onderscheiden valt van FSHD (FSHD2). Omdat deze patiënten echter meer dan 10 D4Z4 repeats hebben kon eerder de diagnose van FSHD in een DNA test

te onderscheiden valt van FSHD (FSHD2). Omdat deze patiënten echter meer dan 10 D4Z4 repeats hebben kon eerder de diagnose van FSHD in een DNA test SAMENVATTING Facioscapulohumerale spierdystrofie (FSHD) is een erfelijke spierziekte die wordt gekenmerkt door verzwakking van de aangezichtspieren (facio), de spieren rond de schouderbladen (scapulo)

Nadere informatie

1 (~20 minuten; 20 punten)

1 (~20 minuten; 20 punten) TENTAMEN Moleculaire Cel Biologie (8A840) Prof. Dr. Ir. L. Brunsveld & Dr. M. Merkx 27-01-2012 14:00 17:00 (totaal 100 punten) 6 opgaven in totaal + 1 bonusvraag! (aangegeven tijd is indicatie) Gebruik

Nadere informatie

EPIGENETICA. Nutramin Congres BAARN. 15 november 2014

EPIGENETICA. Nutramin Congres BAARN. 15 november 2014 EPIGENETICA Nutramin Congres BAARN 15 november 2014 Programma 1. Genetica en Epigenetica (de basis) 2. Epigenetische regulatie (voorbeelden) 3. Mogelijkheden voor interventie (discussie) Prefix - Epi -

Nadere informatie

The role of Polycomb group proteins throughout development : f(l)avoring repression van der Stoop, P.M.

The role of Polycomb group proteins throughout development : f(l)avoring repression van der Stoop, P.M. UvA-DARE (Digital Academic Repository) The role of Polycomb group proteins throughout development : f(l)avoring repression van der Stoop, P.M. Link to publication Citation for published version (APA):

Nadere informatie

EPIGENETICA Een nieuw paradigma in de genetica. Koen Devriendt Centrum Menselijke Erfelijkheid Leuven

EPIGENETICA Een nieuw paradigma in de genetica. Koen Devriendt Centrum Menselijke Erfelijkheid Leuven EPIGENETICA Een nieuw paradigma in de genetica Koen Devriendt Centrum Menselijke Erfelijkheid Leuven You keep using that word. I do not think it means what you think it means. Inigo Montoya The Princess

Nadere informatie

6,4. Samenvatting door E woorden 6 december keer beoordeeld. Biologie voor jou

6,4. Samenvatting door E woorden 6 december keer beoordeeld. Biologie voor jou Samenvatting door E. 1393 woorden 6 december 2016 6,4 18 keer beoordeeld Vak Methode Biologie Biologie voor jou Thema 4: Erfelijkheid 5-HTTPLR gen heeft invloed op de hoeveelheid geluk die je ervaart.

Nadere informatie

Dutch Summary. Nederlandse Samenvatting

Dutch Summary. Nederlandse Samenvatting Dutch Summary Nederlandse Samenvatting Nederlandse samenvatting Voor het goed functioneren van een cel is het van groot belang dat de erfelijke informatie intact blijft. De integriteit van het DNA wordt

Nadere informatie

De antwoorden op vragen 1 en 2, 3 en 4, en 5 t/m 8 graag op verschillende vellen schrijven. Vergeet ook niet op de 3 vellen je naam en studentnr.

De antwoorden op vragen 1 en 2, 3 en 4, en 5 t/m 8 graag op verschillende vellen schrijven. Vergeet ook niet op de 3 vellen je naam en studentnr. Tentamen Genoombiologie, 28 Oktober 2009, 9.00-11.45 h De antwoorden op vragen 1 en 2, 3 en 4, en 5 t/m 8 graag op verschillende vellen schrijven. Vergeet ook niet op de 3 vellen je naam en studentnr.

Nadere informatie

Nederlandse samenvatting

Nederlandse samenvatting Dikkedarmkanker is na longkanker de meest voorkomende doodsoorzaak ten gevolge van kanker in de westerse wereld. Dikkedarmkanker manifesteert zich na een accumulatie van verscheidene genetische veranderingen.

Nadere informatie

HERKANSINGSTENTAMEN Moleculaire Biologie deel 2, 5 Jan 2007

HERKANSINGSTENTAMEN Moleculaire Biologie deel 2, 5 Jan 2007 HERKANSINGSTENTAMEN Moleculaire Biologie deel 2, 5 Jan 2007 NAAM: STUDENTNUMMER: CONTROLEER OF DIT TENTAMEN 14 PAGINA S BEVAT. Veel succes! o Je mag de achterkant van het papier ook zo nodig gebruiken,

Nadere informatie

Nederlandse samenvatting

Nederlandse samenvatting 169 Nederlandse samenvatting Het aantal ouderen boven de 70 jaar is de laatste jaren toegenomen. Dit komt door een significante reductie van sterfte op alle leeftijden waardoor een toename van de gemiddelde

Nadere informatie

1. Mendeliaanse overerving - koppelingsanalyse

1. Mendeliaanse overerving - koppelingsanalyse 1. Mendeliaanse overerving - koppelingsanalyse 1.1 Inleiding Genetische kenmerken die afhangen van één enkel gen (meer precies : locus) noemen wij mendeliaans. Mendeliaanse kenmerken segregeren in families

Nadere informatie

Door recombinatie ontstaat een grote vescheidenheid in genotypen binnen een soort. (genetische

Door recombinatie ontstaat een grote vescheidenheid in genotypen binnen een soort. (genetische Chromosomen bestaan voor een groot deel uit DNA DNA bevat de erfelijke informatie van een organisme. Een gen(ook wel erffactor) is een stukje DNA dat de informatie bevat voor een erfelijke eigenschap(bvb

Nadere informatie

Nederlandse samenvatting

Nederlandse samenvatting Nederlandse samenvatting 129 In de ontwikkelde landen krijgt een op de drie mensen kanker. Ondanks betere screening en behandelingsmogelijkheden is kanker in ontwikkelde landen nog steeds de meest voorkomende

Nadere informatie

Humane levenscyclus 1

Humane levenscyclus 1 Humane levenscyclus 1 Genexpressie 2 8 september 2011 Doel: Genexpressie (via welke stappen de informatie die in het DNA is opgeslagen gebruikt kan worden om eiwitten te vormen. Differentiële genexpressie

Nadere informatie

8,6. Samenvatting door Jasmijn 2032 woorden 9 januari keer beoordeeld. Biologie voor jou. Biologie samenvatting hoofdstuk 4 Genetica

8,6. Samenvatting door Jasmijn 2032 woorden 9 januari keer beoordeeld. Biologie voor jou. Biologie samenvatting hoofdstuk 4 Genetica Samenvatting door Jasmijn 2032 woorden 9 januari 2018 8,6 5 keer beoordeeld Vak Methode Biologie Biologie voor jou Biologie samenvatting hoofdstuk 4 Genetica 2 Fenotype, genotype en epigenetica Erfelijke

Nadere informatie

UNIVERSITEIT GENT FACULTEIT DIERGENEESKUNDE. Academiejaar

UNIVERSITEIT GENT FACULTEIT DIERGENEESKUNDE. Academiejaar UNIVERSITEIT GENT FACULTEIT DIERGENEESKUNDE Academiejaar 2010 2011 De rol van epigenetica tijdens de vroege embryonale ontwikkeling door Valérie DE MEYST Promotor : Dr. K. Goossens Medepromotor : Prof.

Nadere informatie

Inleiding Epigenetica: DNA is ook niet alles!

Inleiding Epigenetica: DNA is ook niet alles! Inleiding Epigenetica: DNA is ook niet alles! 28e NIBI onderwijs conferentie NATURE X NATURE 10-11 januari 2014 Gert Jan C. Veenstra Moleculaire Ontwikkelingsbiologie Radboud Universiteit Nijmegen Wat

Nadere informatie

SAMENVATTING IN HET NEDERLANDS

SAMENVATTING IN HET NEDERLANDS SAMENVATTING IN HET NEDERLANDS Een organisme bestaat uit verschillende weefsels, die opgebouwd zijn uit cellen. Cellen zijn dus de bouwblokken van elk levend organisme. De ontwikkeling van slechts een

Nadere informatie

Nederlandse samenvatting

Nederlandse samenvatting Nederlandse samenvatting Nederlandse samenvatting Nederlandse samenvatting Eukaryotische cellen bevatten een celkern welke in hoge mate georganiseerd is. De celkern bevat naast genetische informatie,

Nadere informatie

Van mens tot Cel oefenvragen 1. De celdeling bestaat uit verschillende fasen. Hoe heten de G1, S en de G2 fase samen?

Van mens tot Cel oefenvragen 1. De celdeling bestaat uit verschillende fasen. Hoe heten de G1, S en de G2 fase samen? Van mens tot Cel oefenvragen 1. De celdeling bestaat uit verschillende fasen. Hoe heten de G1, S en de G2 fase samen? A: interfase B: profase C: anafase D: cytokinese 2. Een SNP (single nucleotide polymorphism)

Nadere informatie

Nederlandse samenvatting. Chapter 10

Nederlandse samenvatting. Chapter 10 Nederlandse samenvatting Chapter 10 Chapter 10 Nederlandse samenvatting Het menselijk lichaam bestaat uit meer dan 200 verschillende celtypes en elk celtype heeft zijn eigen specifieke functie. De genetische

Nadere informatie

Nederlandse Samenvatting

Nederlandse Samenvatting Nederlandse Samenvatting Samenvatting De mogelijkheid om genen op een specifieke wijze te reguleren creëert diverse manieren om genfunctie te kunnen bestuderen of moduleren. Artificiële transcriptiefactoren

Nadere informatie

Het menselijk genoom. Inleiding Medisch Technische Wetenschappen. Bioinformatica Deel 2. Gevouwen chromosoom. X chromosoom DNA.

Het menselijk genoom. Inleiding Medisch Technische Wetenschappen. Bioinformatica Deel 2. Gevouwen chromosoom. X chromosoom DNA. Het menselijk genoom Het menselijk genoom (DN) bestaat uit: Mega Basenparen (MB),,, C,. Inleiding Medisch echnische Wetenschappen Bioinformatica Deel Michael Egmont-Petersen Het menselijk DN is ingedeeld

Nadere informatie

We wensen je veel succes met studeren en het halen van jouw tentamens!

We wensen je veel succes met studeren en het halen van jouw tentamens! Voorwoord Beste geneeskundestudent, Voor je ligt de samenvatting van Blok 1.1.1 Deel 2 voor de studie geneeskunde. SlimStuderen.nl heeft de belangrijkste informatie uit alle verplichte literatuur voor

Nadere informatie

Citation for published version (APA): Frederiks, F. (2010). Function and regulation of the histone methyltransferase Dot1

Citation for published version (APA): Frederiks, F. (2010). Function and regulation of the histone methyltransferase Dot1 UvA-DARE (Digital Academic Repository) Function and regulation of the histone methyltransferase Dot1 Frederiks, F. Link to publication Citation for published version (APA): Frederiks, F. (2010). Function

Nadere informatie

Samenvatting. Samenvatting

Samenvatting. Samenvatting Samenvatting Introductie Wat zijn T cellen? T cellen zijn witte bloedcellen die een cruciale rol spelen bij het beschermen tegen ziekteverwekkers zoals virussen en bacteriën. Dit doen zij door middel van

Nadere informatie

Figuur 1. Representatie van de dubbele helix en de structuren van de verschillende basen.

Figuur 1. Representatie van de dubbele helix en de structuren van de verschillende basen. Het DNA molecuul is verantwoordelijk voor het opslaan van de genetische informatie die gebruikt wordt voor de ontwikkeling en het functioneren van levende organismen. Aangezien het de instructies voor

Nadere informatie

Voorbereiding toelatingsexamen arts/tandarts. Biologie: Erfelijke informatie in de cel 6/29/2013. dr. Brenda Casteleyn

Voorbereiding toelatingsexamen arts/tandarts. Biologie: Erfelijke informatie in de cel 6/29/2013. dr. Brenda Casteleyn Voorbereiding toelatingsexamen arts/tandarts Biologie: Erfelijke informatie in de cel 6/29/2013 dr. Brenda Casteleyn Met dank aan: Leen Goyens (http://users.telenet.be/toelating) en studenten van forum

Nadere informatie

157 De ontdekking van de natuurlijke aanwezigheid van antisense oligonucleotiden in eukaryote cellen, die de expressie van specifieke eiwitten kunnen reguleren, heeft in de afgelopen tientallen jaren gezorgd

Nadere informatie

Samenvatting en algemene discussie Het DNA, de drager van alle genetische informatie, wordt constant bedreigd door verschillende factoren.

Samenvatting en algemene discussie Het DNA, de drager van alle genetische informatie, wordt constant bedreigd door verschillende factoren. 152 Samenvatting en algemene discussie Het DNA, de drager van alle genetische informatie, wordt constant bedreigd door verschillende factoren. Door een reactie met het DNA veranderen deze factoren de moleculaire

Nadere informatie

Samenvatting Biologie B2

Samenvatting Biologie B2 Samenvatting Biologie B2 Samenvatting door Jacco 2000 woorden 22 mei 2018 10 1 keer beoordeeld Vak Methode Biologie Biologie voor jou 1. Wat kun je doen met DNA DNA bevat eigenschappen over een organisme.

Nadere informatie

94 Transcriptie en vorming van mrna bij prokaryoten en eukaryoten

94 Transcriptie en vorming van mrna bij prokaryoten en eukaryoten 94 Transcriptie en vorming van mrna bij prokaryoten en eukaryoten Transcriptie bij prokaryoten: Prokaryoten hebben geen celkern, waardoor het DNA los in het cytoplasma ligt. Hier vindt de transcriptie

Nadere informatie

Hetzelfde DNA in elke cel

Hetzelfde DNA in elke cel EIWITSYNTHESE (H18) Hetzelfde DNA in elke cel 2 Structuur en functie van DNA (1) Genen bestaan uit DNA Genen worden gedragen door chromosomen Chromosomen bestaan uit DNAmoleculen samengepakt met eiwitten

Nadere informatie

Evolution of Races within Fusarium oxysporum f.sp. Lycopersici B.V. Chellappan

Evolution of Races within Fusarium oxysporum f.sp. Lycopersici B.V. Chellappan Evolution of Races within Fusarium oxysporum f.sp. Lycopersici B.V. Chellappan University of Amsterdam Evolution of races within Fusarium oxysporum f.sp. lycopersici Biju Vadakkemukadiyil Chellappan Samenvatting

Nadere informatie

DNA & eiwitsynthese Oefen- en zelftoetsmodule behorende bij hoofdstuk 16 en 17 van Campbell, 7 e druk December 2008

DNA & eiwitsynthese Oefen- en zelftoetsmodule behorende bij hoofdstuk 16 en 17 van Campbell, 7 e druk December 2008 DNA & eiwitsynthese Oefen- en zelftoetsmodule behorende bij hoofdstuk 16 en 17 van Campbell, 7 e druk December 2008 DNA 1. Hieronder zie je de schematische weergave van een dubbelstrengs DNA-keten. Een

Nadere informatie

2. Erfelijkheid en de ziekte van Huntington

2. Erfelijkheid en de ziekte van Huntington 2. Erfelijkheid en de ziekte van Huntington Erfelijkheid Erfelijk materiaal in de 46 chromosomen De mens heeft in de kern van elke lichaamscel 46 chromosomen: het gaat om 22 paar lichaamsbepalende chromosomen

Nadere informatie

Cover Page. Author: Slieker, Roderick Title: Charting the dynamic methylome across the human lifespan Issue Date:

Cover Page. Author: Slieker, Roderick Title: Charting the dynamic methylome across the human lifespan Issue Date: Cover Page The handle http://hdl.handle.net/1887/45888 holds various files of this Leiden University dissertation Author: Slieker, Roderick Title: Charting the dynamic methylome across the human lifespan

Nadere informatie

4,4. Praktische-opdracht door een scholier 2016 woorden 4 november keer beoordeeld

4,4. Praktische-opdracht door een scholier 2016 woorden 4 november keer beoordeeld Praktische-opdracht door een scholier 2016 woorden 4 november 2005 4,4 5 keer beoordeeld Vak ANW Voorwoord Het leven, wat heeft er allemaal met het leven te maken. Het leven is erg ingewikkeld, een goede

Nadere informatie

Dit proefschrift beschrijft de rol van genetische factoren in het ontstaan van de ziekte van

Dit proefschrift beschrijft de rol van genetische factoren in het ontstaan van de ziekte van Samenvatting Dit proefschrift beschrijft de rol van genetische factoren in het ontstaan van de ziekte van Hirschsprung (ook wel afgekort als HSCR). HSCR is een aangeboren afwijking gekenmerkt door de afwezigheid

Nadere informatie

Samenvatting. Figuur 1. Algemene structuur van een nucleotide (links) en de structuren van de verschillende basen (rechts).

Samenvatting. Figuur 1. Algemene structuur van een nucleotide (links) en de structuren van de verschillende basen (rechts). DA is het molecuul dat in levende organismen alle genetische informatie bevat. et komt doorgaans voor als een dimeer van twee complementaire nucleotide-polymeren, waarbij de individuele nucleotiden in

Nadere informatie

GENEXPRESSIE VERVOLGOPDRACHT

GENEXPRESSIE VERVOLGOPDRACHT GENEXPRESSIE VERVOLGOPDRACHT Alle organismen op aarde zijn opgebouwd uit cellen. Ook jouw eigen lichaam bestaat uit cellen. Die cellen zien er niet allemaal hetzelfde uit. Zo is een huidcel heel compact,

Nadere informatie

Samenvatting Hoofdstuk 1 Hoofdstuk 2

Samenvatting Hoofdstuk 1 Hoofdstuk 2 In dit proefschrift zijn de consequenties van een nadelige intrauteriene omgeving, gecreëerd door maternale apoe-deficiëntie of Ldlr-deficiëntie tijdens zwangerschap, op de gevoeligheid voor aderverkalking

Nadere informatie

<A> Thymine is een pyrimidinebase en vormt 3 waterstofbruggen met adenine. <B> Adenine is een purinebase en vormt 2 waterstofbruggen met thymine.

<A> Thymine is een pyrimidinebase en vormt 3 waterstofbruggen met adenine. <B> Adenine is een purinebase en vormt 2 waterstofbruggen met thymine. Biologie Vraag 1 Welke uitspraak is correct? Thymine is een pyrimidinebase en vormt 3 waterstofbruggen met adenine. Adenine is een purinebase en vormt 2 waterstofbruggen met thymine. Cytosine

Nadere informatie

<A> Adenine is een purinebase en vormt 2 waterstofbruggen met thymine. <B> Guanine is een pyrimidinebase en vormt 2 waterstofbruggen met cytosine.

<A> Adenine is een purinebase en vormt 2 waterstofbruggen met thymine. <B> Guanine is een pyrimidinebase en vormt 2 waterstofbruggen met cytosine. Biologie Vraag 1 Welke uitspraak is correct? Adenine is een purinebase en vormt 2 waterstofbruggen met thymine. Guanine is een pyrimidinebase en vormt 2 waterstofbruggen met cytosine. Thymine

Nadere informatie

1 (~20 minuten; 15 punten)

1 (~20 minuten; 15 punten) HERTENTAMEN Moleculaire Cel Biologie (8A840) Prof. Dr. Ir. L. Brunsveld & Dr. M. Merkx 20-04-2012 14:00 17:00 (totaal 100 punten) 6 opgaven in totaal + 1 bonusvraag! (aangegeven tijd is indicatie) Gebruik

Nadere informatie

Nederlandse samenvatting

Nederlandse samenvatting MOLECULAIRE OORZAKEN VAN KANKER Het menselijk lichaam bestaat uit ongeveer 10 14 cellen. Bijna al deze cellen bevatten de complete blauwdruk van het menselijk lichaam in de vorm van DNA, het molecuul dat

Nadere informatie

vetreserves worden aangemaakt door de gastheer. Het eerste aspect met betrekking tot deze hypothese berust op het verband tussen deze metabolische

vetreserves worden aangemaakt door de gastheer. Het eerste aspect met betrekking tot deze hypothese berust op het verband tussen deze metabolische Het verlies van eigenschappen is een belangrijk proces dat bijdraagt aan evolutionaire veranderingen van organismen. Desondanks heeft onderzoek op dit gebied relatief weinig aandacht gekregen en wordt

Nadere informatie

Overzicht van DNA technieken in de onco-hematologie

Overzicht van DNA technieken in de onco-hematologie Overzicht van DNA technieken in de onco-hematologie Cytogenetica en moleculaire diagnostiek Friedel Nollet, PhD Moleculair Bioloog AZ Sint-Jan Brugge-Oostende AV Overzicht Chromosomen DNA (RNA) Genoom

Nadere informatie

Moleculaire mechanismen. De connectie tussen interacties van eiwitten en activiteiten van cellen

Moleculaire mechanismen. De connectie tussen interacties van eiwitten en activiteiten van cellen Moleculaire mechanismen De connectie tussen interacties van eiwitten en activiteiten van cellen The Hallmarks of Cancer Hanahan and Weinberg, Cell 2000 Niet afhankelijk van groei signalen Apoptose ontwijken

Nadere informatie

Tentamen Genetica 22-10-2004 Studentnr:

Tentamen Genetica 22-10-2004 Studentnr: CONTROLEER OF DIT TENTAMEN 11 PAGINA S BEVAT. Veel succes! Je mag de achterkant van het papier ook zo nodig gebruiken, maar beantwoord vragen 1-6 niet op blaadjes van vraag 7 en de daarop volgende. 1.

Nadere informatie

Samenvatting. Samenvatting

Samenvatting. Samenvatting Samenvatting Samenvatting De gist Saccharomyces cerevisiae is bij de meeste mensen bekend onder de naam bakkersgist. De bekendste toepassing van deze gist is het gebruik voor het rijzen van brood, maar

Nadere informatie

Welke van de bovenstaande celorganellen of levensprocessen kunnen zowel in prokaryote, als in eukaryote cellen voorkomen?

Welke van de bovenstaande celorganellen of levensprocessen kunnen zowel in prokaryote, als in eukaryote cellen voorkomen? Biologie Vraag 1 Celorganellen en levensprocessen bij levende cellen zijn: 1. Ribosomen 2. ATP synthese 5. DNA polymerase 3. Celmembranen 6. Fotosynthese 4. Kernmembraan 7. Mitochondria Welke van de bovenstaande

Nadere informatie

Toelatingsexamen arts geel Biologie Vraag 1

Toelatingsexamen arts geel Biologie Vraag 1 Biologie Vraag 1 Structuren zoals de arm van een mens, de vleugel van een vleermuis en de vin van een dolfijn, bevatten dezelfde beenderen. Deze beenderen kennen eenzelfde embryonale oorsprong. Hoe worden

Nadere informatie

Samenvatting bij het proefschrift: Jasmonzuur-responsieve transcriptionele regulatie in Catharanthus roseus

Samenvatting bij het proefschrift: Jasmonzuur-responsieve transcriptionele regulatie in Catharanthus roseus bij het proefschrift: Jasmonzuur-responsieve transcriptionele regulatie in Catharanthus roseus Onder bedreigende omstandigheden zoals infecties of vraat produceren planten laagmoleculaire beschermende

Nadere informatie

Nederlandse samenvatting

Nederlandse samenvatting Nederlandse samenvatting De rol van proteïne kinase A in de vorming van galkanaaltjes door levercellen Een mens is opgebouwd uit cellen. Iedere cel is omgeven door een membraan die de inhoud van de cel

Nadere informatie

BIOLOGIE MOLECULAIRE GENETICA EIWITSYNTHESE VWO KLASSE 6

BIOLOGIE MOLECULAIRE GENETICA EIWITSYNTHESE VWO KLASSE 6 BIOLOGIE MOLECULAIRE GENETICA EIWITSYNTHESE VWO KLASSE 6 Henry N. Hassankhan Scholengemeenschap Lelydorp [HHS-SGL] ARTHUR A. HOOGENDOORN ATHENEUM - VRIJE ATHENEUM - AAHA Docent: A. Sewsahai DOELSTELLINGEN:

Nadere informatie

NEDERLANDSE SAMENVATTING

NEDERLANDSE SAMENVATTING NEDERLANDSE SAMENVATTING NEDERLANDSE SAMENVATTING In het kort Chronische ziekten zoals astma, reuma en bepaalde soorten kanker hebben deels een genetische achtergrond. Dit betekent dat de kans op de aandoening

Nadere informatie

Nederlandse samenvatting. Inleiding

Nederlandse samenvatting. Inleiding Nederlandse samenvatting 157 Inleiding Het immuunsysteem (afweersysteem) is een systeem in het lichaam dat werkt om infecties en ziekten af te weren. Het Latijnse woord immunis betekent vrijgesteld, een

Nadere informatie

Cover Page. The handle http://hdl.handle.net/1887/22544 holds various files of this Leiden University dissertation

Cover Page. The handle http://hdl.handle.net/1887/22544 holds various files of this Leiden University dissertation Cover Page The handle http://hdl.handle.net/1887/22544 holds various files of this Leiden University dissertation Author: Speksnijder, Niels Title: Determinants of psychosis vulnerability : focus on MEF2

Nadere informatie

Nederlandse Samenvatting

Nederlandse Samenvatting 9 Beta2-glycoproteïne I ( ), ook wel bekend als apolipoproteine H (apoh), is een membraanadhesie eiwit dat in plasma circuleert (100-300 μg/ml) in een vrije- en een gebonden vorm. De molecuulmassa van

Nadere informatie

SAMENVATTING EN ALGEMENE DISCUSSIE

SAMENVATTING EN ALGEMENE DISCUSSIE SAMENVATTING EN ALGEMENE DISCUSSIE In dit proefschrift is de activiteit van het Escherichia coli UvrA eiwit bestudeerd met zgn. single-molecule microscopie technieken, waarmee individuele eiwit-complexen

Nadere informatie

(~30 minuten; 20 punten)

(~30 minuten; 20 punten) TENTAMEN BIOCHEMIE (8S135) Prof. Dr. Ir. L. Brunsveld 04-11-2011 09:00 12:00 (totaal 100 punten) 6 opgaven in totaal! (aangegeven tijd is indicatie) Gebruik geen rode pen! Additioneel 1 STar vraag (alleen

Nadere informatie

Nederlandse samenvatting

Nederlandse samenvatting Nederlandse samenvatting Samenvatting Agrobacterium tumefaciens is een Gram-negatieve bacterie, die van nature voorkomt in de grond. In dicotyle planten veroorzaakt hij een ziekte die zich uit in de vorming

Nadere informatie

Newsletter April 2013

Newsletter April 2013 1. Inleiding Met het thema van deze nieuwsbrief willen we ons richten op de fundamenten van het fokken: de basisgenetica. Want of je het nu wil of niet. dit is ook de basis voor een succesvolle fok! Misschien

Nadere informatie

Samenvatting Biologie Hoofdstuk 3 + 4

Samenvatting Biologie Hoofdstuk 3 + 4 Samenvatting Biologie Hoofdstuk 3 + 4 Samenvatting door een scholier 1472 woorden 23 oktober 2007 6,5 24 keer beoordeeld Vak Methode Biologie Biologie voor jou Hoofdstuk 3 - Genetica Homologe chromosomen

Nadere informatie

Periode 9 - deel 1 MOLECULAIRE GENETICA

Periode 9 - deel 1 MOLECULAIRE GENETICA Periode 9 - deel 1 MOLECULAIRE GENETICA Lesstof PW9 Toets 9.1 Boek: Biologie voor het MLO (zesde druk) Hoofdstuk 5 Biomoleculen blz. 89 t/m 106 Hoofdstuk 11 Klassieke genetica blz. 224 t/m 227 Hoofdstuk

Nadere informatie

Welke combinatie van twee celorganellen en hun respectievelijke functies is correct?

Welke combinatie van twee celorganellen en hun respectievelijke functies is correct? Biologie Vraag 1 Welke combinatie van twee celorganellen en hun respectievelijke functies is correct? ribosoom en synthese van eiwitten kern en fotosynthese mitochondrion en fotosynthese ribosoom

Nadere informatie

Afsluitende les. Leerlingenhandleiding. Wat voor eiwit ben jij? (Basis)

Afsluitende les. Leerlingenhandleiding. Wat voor eiwit ben jij? (Basis) Afsluitende les Leerlingenhandleiding Wat voor eiwit ben jij? (Basis) Deel 1 In het DNA ligt het erfelijk materiaal van een organisme in code opgeslagen. Deze code is opgebouwd uit vier nucleotiden: adenosine

Nadere informatie

Juli blauw Biologie Vraag 1

Juli blauw Biologie Vraag 1 Biologie Vraag 1 Bij bijen komt parthenogenese voor. Dit is de ontwikkeling van een individu uit een onbevruchte eicel. Bij bijen ontstaan de darren (mannelijke bijen) parthenogenetisch. De koningin en

Nadere informatie

Juli geel Biologie Vraag 1

Juli geel Biologie Vraag 1 Biologie Vraag 1 Bij bijen komt parthenogenese voor. Dit is de ontwikkeling van een individu uit een onbevruchte eicel. Bij bijen ontstaan de darren (mannelijke bijen) parthenogenetisch. De koningin en

Nadere informatie

TENTAMEN BIOCHEMIE (8S135) Prof. Dr. Ir. L. Brunsveld :00 17:00 (totaal 100 punten) 6 opgaven in totaal (aangegeven tijd is indicatie)

TENTAMEN BIOCHEMIE (8S135) Prof. Dr. Ir. L. Brunsveld :00 17:00 (totaal 100 punten) 6 opgaven in totaal (aangegeven tijd is indicatie) TENTAMEN BIOCHEMIE (8S135) Prof. Dr. Ir. L. Brunsveld 25-01-2010 14:00 17:00 (totaal 100 punten) 6 opgaven in totaal (aangegeven tijd is indicatie) 1 (~30 minuten; 20 punten) Onderstaand is een stukje

Nadere informatie

Docentenhandleiding. Afsluitende module. Op zoek naar een gen in een databank

Docentenhandleiding. Afsluitende module. Op zoek naar een gen in een databank Docentenhandleiding Afsluitende module Op zoek naar een gen in een databank Ontwikkeld door het Cancer Genomics Centre in samenwerking met het Freudenthal Instituut voor Didactiek van Wiskunde en Natuurwetenschappen

Nadere informatie

Een bijzondere band tussen grootvader en kleinkind

Een bijzondere band tussen grootvader en kleinkind Een bijzondere band tussen grootvader en kleinkind Duizenden grootvaders liepen rond met onbegrepen neurologische klachten totdat de Amerikaanse kinderarts Randi Hagerman een verband legde tussen de klachten

Nadere informatie

DC-SIGN + cellen een rol spelen in de opruiming van dode thymocyten uit de cortex van de humane thymus (Hoofdstuk 2). De co-expressie van het

DC-SIGN + cellen een rol spelen in de opruiming van dode thymocyten uit de cortex van de humane thymus (Hoofdstuk 2). De co-expressie van het : Hematopoietische antigeen presenterende cellen in de cortex van de humane thymus: Aanwijzingen voor een rol in selectie en verwijdering van apoptotische thymocyten. Het immune systeem van (gewervelde)

Nadere informatie

Cover Page. The handle http://hdl.handle.net/1887/19074 holds various files of this Leiden University dissertation.

Cover Page. The handle http://hdl.handle.net/1887/19074 holds various files of this Leiden University dissertation. Cover Page The handle http://hdl.handle.net/1887/19074 holds various files of this Leiden University dissertation. Author: Suwannalai, Parawee Title: ACPA response in evolution of rheumatoid arthritis

Nadere informatie

genen vachtkleur genotype fenotype BB, Bb, of Bb l zwarte vacht gen voor een donkere bb of bb l bruine vacht kleur (autosomaal) b l b l

genen vachtkleur genotype fenotype BB, Bb, of Bb l zwarte vacht gen voor een donkere bb of bb l bruine vacht kleur (autosomaal) b l b l X-chromosomale inactivatie Elke vrouw is een mozaïek, zegt Anton Grootegoed, hoogleraar aan het Erasmus MC te Rotterdam. Ze heeft groepjes cellen waarin het X-chromosoom dat van haar vader komt is uitgeschakeld,

Nadere informatie

Samenvatting. Samenvatting

Samenvatting. Samenvatting Om een meercellig organisme goed te kunnen laten functioneren is het essentieel dat cellen met elkaar communiceren. Intercellulaire communicatie kan plaatsvinden via de uitscheiding van hormonen en groeifactoren

Nadere informatie

Homologe Recombinatie

Homologe Recombinatie Inleiding Er zijn vele verschillende soorten kanker. Elke soort kanker is een andere ziekte, die verschillend zijn wat betreft oorzaak, symptomen, behandeling en overlevingskansen. Hetgeen waarin alle

Nadere informatie

NEDERLANDSE SAMENVATTING

NEDERLANDSE SAMENVATTING NEDERLANDSE SAMENVATTING Analyse van chromosomale afwijkingen in gastrointestinale tumoren In het ontstaan van kanker spelen vele moleculaire processen een rol. Deze processen worden in gang gezet door

Nadere informatie

Potentials and pitfalls of epigenetic editing in gene-specific re-expression of epigenetically silenced genes Groote, Martje Louisa de

Potentials and pitfalls of epigenetic editing in gene-specific re-expression of epigenetically silenced genes Groote, Martje Louisa de University of Groningen Potentials and pitfalls of epigenetic editing in gene-specific re-expression of epigenetically silenced genes Groote, Martje Louisa de IMPORTANT NOTE: You are advised to consult

Nadere informatie

Erfelijkheid van de ziekte van Huntington

Erfelijkheid van de ziekte van Huntington Erfelijkheid van de ziekte van Huntington In de kern van iedere cel van het menselijk lichaam is uniek erfelijk materiaal opgeslagen. Dit erfelijk materiaal wordt ook wel DNA (Desoxyribonucleïnezuur) genoemd.

Nadere informatie

EPIGENETISCHE VERANDERINGEN IN KANKER: NIEUWE TARGETS VOOR THERAPIE

EPIGENETISCHE VERANDERINGEN IN KANKER: NIEUWE TARGETS VOOR THERAPIE FACULTEIT GENEESKUNDE EN GEZONDHEIDSWETENSCHAPPEN Academiejaar 2009-2010 EPIGENETISCHE VERANDERINGEN IN KANKER: NIEUWE TARGETS VOOR THERAPIE Gertjan VAN STEENBERGHE Promotor: dr. Ir. J. Hoebeeck Scriptie

Nadere informatie

Bioinformatica en Systeembiologie (BIS)

Bioinformatica en Systeembiologie (BIS) Waarom een major Bioinformatica en Systeembiologie? Huidige methoden van onderzoek, zoals de DNAchiptechnologie, leveren enorme hoeveelheden gegevens op die met bestaande statistische methoden niet meer

Nadere informatie

Samenvatting Biologie DNA

Samenvatting Biologie DNA Samenvatting Biologie DNA Samenvatting door Magali 3748 woorden 30 december 2016 5,5 15 keer beoordeeld Vak Methode Biologie Biologie voor jou Biologie 5VWO DNA zie plaatsjes in het boek voor referentie

Nadere informatie

Afsluitende les. Leerlingenhandleiding. DNA-onderzoek en gentherapie

Afsluitende les. Leerlingenhandleiding. DNA-onderzoek en gentherapie Afsluitende les Leerlingenhandleiding DNA-onderzoek en gentherapie Inleiding In de afsluitende les DNA-onderzoek en gentherapie zul je aan de hand van een aantal vragen een persoonlijke en kritische blik

Nadere informatie

Hersenonderzoek: The last frontier. Matteo Farinella

Hersenonderzoek: The last frontier. Matteo Farinella Liesbeth Aerts Hersenonderzoek: The last frontier Matteo Farinella Centrum voor Hersenonderzoek Fundamentele neurobiologie Synaptische communicatie Neuronale ontwikkeling Biologie van astrocyten Genregulatie

Nadere informatie

Cover Page. The handle holds various files of this Leiden University dissertation

Cover Page. The handle   holds various files of this Leiden University dissertation Cover Page The handle http://hdl.handle.net/1887/44797 holds various files of this Leiden University dissertation Author: Rongfang Liu Title: The activation mechanisms of G protein-coupled receptors :

Nadere informatie

biologie vwo 2017-I Gespierder door gendoping

biologie vwo 2017-I Gespierder door gendoping Gespierder door gendoping Het overdragen van genetisch materiaal naar menselijke cellen voor de behandeling van ziektes bevindt zich nog in een experimenteel stadium. Deze techniek zou ook gebruikt kunnen

Nadere informatie

Cover Page. The handle holds various files of this Leiden University dissertation

Cover Page. The handle   holds various files of this Leiden University dissertation Cover Page The handle http://hdl.handle.net/1887/47238 holds various files of this Leiden University dissertation Author: Philipsen, Cheryl Title: Unraveling the auxin mechanism in 2,4-D induced somatic

Nadere informatie

Immuunreactie tegen virussen

Immuunreactie tegen virussen Samenvatting Gedurende de laatste eeuwen hebben wereldwijde uitbraken van virussen zoals pokken, influenza en HIV vele levens gekost. Echter, vooral in de westerse wereld zijn de hoge sterftecijfers en

Nadere informatie

Samenvatting. Samenvatting

Samenvatting. Samenvatting Samenvatting Samenvatting Gisten zijn ééncellige organismen. Er zijn veel verschillende soorten gisten, waarvan Saccharomyces cerevisiae, oftewel bakkersgist, de bekendste is. Gisten worden al sinds de

Nadere informatie

Spierziekten en genetica

Spierziekten en genetica Susan Peters, MSc Spierziekten en genetica Chromosomen en genen Ons lichaam is opgebouwd uit miljarden cellen. Zij ontstaan door celdeling. Eerst is er alleen een bevruchte eicel. Deze deelt zich in tweeën,

Nadere informatie

Desoxyribose heeft 5 C-atomen. De fosfaatgroep zit aan het 5e C-atoom en de stikstofbase aan het 1e C-atoom.

Desoxyribose heeft 5 C-atomen. De fosfaatgroep zit aan het 5e C-atoom en de stikstofbase aan het 1e C-atoom. Desoxyribose heeft 5 C-atomen. De fosfaatgroep zit aan het 5e C-atoom en de stikstofbase aan het 1e C-atoom. Afbeelding 2. DNA-nucleotide.1 Bij het aan elkaar koppelen van nucleotiden gaat het 3e C-atoom

Nadere informatie

Cover Page. The following handle holds various files of this Leiden University dissertation:

Cover Page. The following handle holds various files of this Leiden University dissertation: Cover Page The following handle holds various files of this Leiden University dissertation: http://hdl.handle.net/1887/59477 Author: Hillger, J.M. Title: Take it personal! Genetic differences in G protein-coupled

Nadere informatie

Proteomics. Waarom DNA alleen niet genoeg is

Proteomics. Waarom DNA alleen niet genoeg is Proteomics Waarom DNA alleen niet genoeg is Reinout Raijmakers Netherlands Proteomics Centre Universiteit Utrecht, Biomolecular Mass Spectrometry and Proteomics Group Van DNA naar organisme Eiwitten zijn

Nadere informatie

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle   holds various files of this Leiden University dissertation. Cover Page The handle http://hdl.handle.net/1887/41032 holds various files of this Leiden University dissertation. Author: Zhang, K. Title: MYC transcription factors: masters in the regulation of jasmonate

Nadere informatie

S e k S u e l e v o o r t p l a n t i n g r e d u c t i e d e l i n g o f m e i o S e e n g e n e t i S c h e v a r i a t i e

S e k S u e l e v o o r t p l a n t i n g r e d u c t i e d e l i n g o f m e i o S e e n g e n e t i S c h e v a r i a t i e 76 Voortplanting S e k s u e l e v o o r t p l a n t i n g De seksuele voortplanting of reproductie van de mens houdt in dat man en vrouw elk de helft van hun erfelijke aanleg, dus één van elk van de 22

Nadere informatie