Cover Page. The handle holds various files of this Leiden University dissertation.

Vergelijkbare documenten
Cover Page. The handle holds various files of this Leiden University dissertation.

Het minimale aantal sleutels op niveau h is derhalve

Cover Page. The handle holds various files of this Leiden University dissertation

Nederlandse samenvatting voor geïnteresseerden buiten het vakgebied

Hetzelfde DNA in elke cel

ANTWOORDEN HOOFDSTUK 6 VAN GEN TOT EIWIT

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle holds various files of this Leiden University dissertation

STEMPEL DE WEG VAN GEN NAAR EIWIT

Cover Page. The handle holds various files of this Leiden University dissertation.

Grootste examentrainer en huiswerkbegeleider van Nederland. Biologie. Trainingsmateriaal. De slimste bijbaan van Nederland! lyceo.

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle holds various files of this Leiden University dissertation.

4,4. Praktische-opdracht door een scholier 2016 woorden 4 november keer beoordeeld

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle holds various files of this Leiden University dissertation

And now for something completely different!

Cover Page. The handle holds various files of this Leiden University dissertation

We wensen je veel succes met studeren en het halen van jouw tentamens!

DNA & eiwitsynthese Oefen- en zelftoetsmodule behorende bij hoofdstuk 16 en 17 van Campbell, 7 e druk December 2008

Cover Page. The following handle holds various files of this Leiden University dissertation:

Cover Page. The handle holds various files of this Leiden University dissertation.

Tabel 1. Moleculaire onderdelen van DNA en de corresponderende materialen voor het model.

1 Inleiding in Functioneel Programmeren

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle holds various files of this Leiden University dissertation

Samenvatting. Figuur 1. Algemene structuur van een nucleotide (links) en de structuren van de verschillende basen (rechts).

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. Author: Scholz, Franziska Title: Tone sandhi, prosodic phrasing, and focus marking in Wenzhou Chinese Issue Date:

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle holds various files of this Leiden University dissertation

1 Complexiteit. of benadering en snel

Cover Page. The handle holds various files of this Leiden University dissertation

3 De stelling van Kleene

6,4. Samenvatting door E woorden 6 december keer beoordeeld. Biologie voor jou

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. Author: Slieker, Roderick Title: Charting the dynamic methylome across the human lifespan Issue Date:

Elfde college complexiteit. 23 april NP-volledigheid III

Cover Page. The handle holds various files of this Leiden University dissertation

Tiende college algoritmiek. 14 april Gretige algoritmen

Tiende college algoritmiek. 26 april Gretige algoritmen

Cover Page. The handle holds various files of this Leiden University dissertation

TW2020 Optimalisering

8,6. Samenvatting door Jasmijn 2032 woorden 9 januari keer beoordeeld. Biologie voor jou. Biologie samenvatting hoofdstuk 4 Genetica

Opdracht 1 Topics on Parsing and Formal Languages - fall 2010

Cover Page. The handle holds various files of this Leiden University dissertation.

Automaten & Complexiteit (X )

Cover Page. The handle holds various files of this Leiden University dissertation

Docentenhandleiding DNA-model van flessen en blikjes

Cover Page. The handle holds various files of this Leiden University dissertation.

Opdracht 1 Topics on Parsing and Formal Languages - fall 2010

STEMPEL DE WEG VAN GEN NAAR EIWIT

Benaderingsalgoritmen

Cover Page. The handle holds various files of this Leiden University dissertation.

Talen & Automaten. Wim Hesselink Piter Dykstra Opleidingsinstituut Informatica en Cognitie 9 mei 2008

Uitwerking tentamen Analyse van Algoritmen, 29 januari

Cover Page. The handle holds various files of this Leiden University dissertation

Tiende college algoritmiek. 2 mei Gretige algoritmen, Dijkstra

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle holds various files of this Leiden University dissertation.

GENEXPRESSIE VERVOLGOPDRACHT

HANDLEIDING VOOR DOCENTEN Versie september 2011

Cover Page. The handle holds various files of this Leiden University dissertation.

Automaten en Berekenbaarheid

Cover Page. The handle holds various files of this Leiden University dissertation

TW2020 Optimalisering

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. Author: Zhiwei Yang Title: Meta-heuristics for vehicle routing and inventory routing problems Issue Date:

Figuur 1. Representatie van de dubbele helix en de structuren van de verschillende basen.

Nederlandse Samenvatting

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle holds various files of this Leiden University dissertation

Cover Page. The handle holds various files of this Leiden University dissertation

Logica voor Informatica. Propositielogica. Syntax & Semantiek. Mehdi Dastani Intelligent Systems Utrecht University

Cover Page. The handle holds various files of this Leiden University dissertation

Het omzetten van reguliere expressies naar eindige automaten, zie de vakken Fundamentele Informatica 1 en 2.

Cover Page. The handle holds various files of this Leiden University dissertation

Cover Page. The handle holds various files of this Leiden University dissertation.

Tiende college algoritmiek. 13/21 april Gretige Algoritmen Algoritme van Dijkstra

Cover Page. The handle holds various files of this Leiden University dissertation

1 Rekenen in eindige precisie

Gödels theorem An Incomplete Guide to Its Use and Abuse, Hoofdstuk 3

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle holds various files of this Leiden University dissertation

Leerlingenhandleiding

DNA, RNA en eiwitten: rules and regulations

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle holds various files of this Leiden University dissertation

Cover Page. The handle holds various files of this Leiden University dissertation

Cover Page. The handle holds various files of this Leiden University dissertation

Intermezzo, De expressie van een eiwit.

Cover Page. The handle holds various files of this Leiden University dissertation

Transcriptie:

Cover Page The handle http://hdl.handle.net/1887/37052 holds various files of this Leiden University dissertation. Author: Vliet, Rudy van Title: DNA expressions : a formal notation for DNA Issue Date: 2015-12-10

Samenvatting Veel eigenschappen van mensen, dieren en planten worden (gedeeltelijk) bepaald door hun genen. Voorbeelden van zulke eigenschappen bij de mens zijn bijvoorbeeld het geslacht, de kleur van de ogen, en de aanleg voor bepaalde ziektes. Genetische informatie is opgeslagen in DNA-moleculen, en een gen is een deel van een DNA-molecuul. Iemands DNA is te vinden in vrijwel elke cel van het lichaam. DNA-moleculen kunnen echter ook los van een cel en los van een lichaam bestaan. Ze kunnen in een laboratorium gemaakt en verwerkt worden, en zijn in dat opzicht niet anders dan andere moleculen waar in laboratoria mee gewerkt wordt. Hoewel onderzoek naar DNA van nature door moleculair biologen wordt uitgevoerd, zijn in de loop van de tijd ook informatici geïnteresseerd geraakt in het onderwerp. In het vakgebied natural computing worden algoritmes onderzocht, die geïnspireerd zijn door de natuur. Ook worden processen die voorkomen in de natuur, geïnterpreteerd en geanalyseerd als berekeningen. Een tak van het veelomvattende gebied natural computing is DNA computing. Hier wordt onderzocht hoe DNA-moleculen gebruikt kunnen worden om berekeningen uit te voeren. Een concreet voorbeeld betreft een experiment van Leonard Adleman, die met behulp van DNA in een laboratorium een kleine instantie van het gerichte Hamiltonpad probleem oploste. Bij dit probleem (een variant van het handelsreizigersprobleem) is de vraag, of er in een gegeven gerichte graaf een pad bestaat van een gegeven beginknoop naar een gegeven eindknoop dat elke knoop precies één keer bezoekt. Bijvoorbeeld, in de graaf in Figuur 12.1 is er zo n pad van knoop 0, via achtereenvolgens de knopen 1, 2, 3, 4 en 5 naar knoop 6. Om het experiment van Adleman te kunnen beschrijven (en ook om het onderwerp van dit proefschrift te kunnen beschrijven), vertellen we eerst iets meer over DNA. DNAmoleculen zijn opgebouwd uit nucleotiden. Een belangrijk onderdeel van een nucleotide 4 3 1 0 6 2 5 Figuur 12.1: Graaf waarvoor Adleman het gerichte Hamiltonpad probleem oploste met behulp van DNA-moleculen. 369

370 Samenvatting Y 2 X 2,3 Y 3 (a) Y 2 X 2,3 Y 3 X 3,4 (b) Figuur 12.2: Losse DNA-strengen die samen een dubbelstrengs DNA-molecuul vormen dat overeenkomt met een pad in de graaf in Adlemans experiment. (a) Er ontstaan waterstofbruggen tussen strengen die knoop 2, pijl(2, 3) en knoop 3 coderen. (b) Resultaat nadat ook een streng voor de pijl (3,4) in de graaf is vastgemaakt. is de zogenaamde base. Er zijn vier verschillende mogelijke basen: adenine, cytosine, guanine en thymine, aangeduid met hun beginletters A, C, G en T. Omdat een nucleotide gekarakteriseerd wordt door zijn base, worden de vier letters ook wel gebruikt om een complete nucleotide aan te duiden. Nucleotiden kunnen met stevige esterbindingen aan elkaar gekoppeld worden en zo een lange streng vormen, bijvoorbeeld ACATG. Daarnaast kunnen twee basen (en daarmee: twee nucleotiden) met behulp van waterstofbruggen met elkaar verbonden worden. Hierdoor ontstaan zogeheten basenparen. Om precies te zijn: A kan met twee waterstofbruggen met T verbonden worden, en C kan met drie waterstofbruggen met G verbonden worden. Omdat deze waterstofbruggen zo specifiek zijn, worden A en T elkaars complement genoemd, net als C en G. Wanneer we twee DNA-strengen hebben met complementaire basen, kunnen ze een dubbelstrengs DNA-molecuul vormen, bijvoorbeeld ACATG TGTAC. 1 De waterstofbruggen zijn veel zwakker dan de esterbindingen. Daardoor is het mogelijk om de strengen van een dubbelstrengs DNA-molecuul van elkaar te scheiden. In een organisme als de mens is dit ook van groot belang, bijvoorbeeld bij een proces als celdeling, waarbij iedere cel een eigen kopie van het DNA moet krijgen. Adleman nu codeerde elke knoop in de graaf van Figuur 12.1 met een specifieke DNAstreng van twintig nucleotiden. Daarnaast codeerde hij ook de aanwezige pijlen in de graaf met DNA-strengen. Figuur 12.2 illustreert hoe hij dat precies deed. Laat Y 2 de streng van knoop 2 zijn en Y 3 de streng van knoop 3. Dan codeerde Adleman de pijl van knoop 2 naar knoop 3 met een streng X 2,3, die bestond uit het complement van de tweede helft van Y 2 en het complement van de eerste helft van Y 3. Met behulp van X 2,3 kunnen de strengen Y 2 en Y 3 aan elkaar gekoppeld worden. Na de aanhechting van X 3,4 kan vervolgens ook Y 4 (de streng voor knoop 4) erachter gehangen worden, enzovoort. AdlemandeednuflinkehoeveelhedenvandeDNA-strengenY 0,Y 1,...,Y 6 enx 0,1,X 0,3, X 0,6,...,X 5,6 (overeenkomend met alle knopen en pijlen in zijn graaf) bij elkaar, en liet ze onder de juiste condities met elkaar reageren. Na verloop van tijd onderzocht hij het resultaat. Daarbij stelde hij met de nodige biomoleculaire trucs vast dat er tussen alle gevormde dubbelstrengs DNA-moleculen, ook een molecuul was dat een pad codeerde van knoop 0 naar knoop 6, dat elke knoop precies één keer bevatte. Probleem opgelost. 1 De strengen moeten ook tegengestelde oriëntaties hebben, maar daar gaan we in deze samenvatting verder niet op in.

Samenvatting 371 ACATG TGTAC (a) ACAT T TACG (b) Figuur 12.3: Twee afwijkingen van het standaard dubbelstrengs DNA-molecuul. (a) Een molecuul met twee nicks. (b) Een molecuul met twee gaps. Hoewel er diverse kanttekeningen bij het experiment van Adleman zijn te plaatsen, toonde het aan dat je DNA-moleculen in principe kunt gebruiken om berekeningen uit te voeren. Bij deze en andere berekeningen met DNA is het belangrijk dat je de moleculen waarmee je begint en die er tijdens de berekening ontstaan precies kunt beschrijven. Ook als het moleculen met afwijkingen betreft. Een mogelijke afwijking is dat er een esterbinding ontbreekt tussen twee naast elkaar gelegen nucleotiden in dezelfde streng. De nucleotiden worden slechts bij elkaar gehouden doordat hun complementen (en de complementen van aangrenzende nucleotiden) in de andere streng met esterbindingen aan elkaar zitten. Zo n ontbrekende esterbinding wordt eennick genoemd. HetmolecuulinFiguur12.3(a)kenttweenicks: eennickindebovenste streng tussen de eerste A en de C, aangeduid met, en een nick in de onderste streng tussen de tweede T en de A, aangeduid met. Een andere mogelijke afwijking is dat een DNA-molecuul deels dubbelstrengs is en deels enkelstrengs: niet alle nucleotiden in de twee strengen zijn voorzien van hun complement, er zitten gaps in de strengen. Figuur 12.3(b) toont een voorbeeld van een DNA-molecuul met twee gaps. Er zijn nog vele andere afwijkingen van DNA-moleculen denkbaar, maar in dit proefschrift concentreren we ons op een formele notatie voor moleculen met nicks en gaps. We onderzoeken DNA-expressies expressies om moleculen te beschrijven die nicks en gaps kunnen bevatten. De feitelijke beschrijving van de resultaten hiervan begint na een inleiding tot het onderwerp (Hoofdstuk 1) en een hoofdstuk met benodigde voorkennis (Hoofdstuk 2), en valt uiteen in drie delen. In Deel I kijken we naar DNA-expressies in het algemeen. Allereerst definiëren we in Hoofdstuk 3 formele DNA-moleculen een formalisatie van DNA-moleculen. Deze vormen de semantische basis van onze expressies. Elke DNA-expressie zal als semantiek (formele betekenis) een formeel DNA-molecuul hebben. In Hoofdstuk 4 introduceren we dan de DNA-expressies. Deze expressies zijn gebaseerd opden-letters A,C,GenTendrieoperatoren, en. DeeenvoudigsteDNA-expressies ontstaan wanneer we een operator toepassen op een N-woord, dat wil zeggen: op een niet-lege string van N-letters. We krijgen dan bijvoorbeeld ACATG, TGTAC of ACATG de haakjes en leggen vast tot hoever de operatoren effect hebben. Vervolgens kunnen we de operatoren ook toepassen op andere DNA-expressies. Ten slotte kunnen we de operatoren en toepassen op combinaties van N-woorden en DNAexpressies. Voor een DNA-expressie E noteren we de semantiek als S(E). Er geldt bijvoorbeeld: S( ACATG ) = ( ACATG ) een bovenste DNA-streng, S( TGTAC ) = ( TGTAC) een onderste DNA-streng,

372 Samenvatting ( ACATG S( ACATG ) = ( TGTAC A C )( AT S( A C AT CG ) = T)( ( TA )( C AT S( C AT G ) = ( G TA) C ) )( ) een dubbelstrengs molecuul, CG) molecuul met twee gaps, molecuul met gap en nick. Verschillende DNA-expressies kunnen hetzelfde formele DNA-molecuul beschrijven. Zulke expressies worden equivalent genoemd. In Hoofdstuk 5 leiden we een aantal algemene resultaten over DNA-expressies af. We stellen bijvoorbeeld vast dat elk formeel DNA-molecuul X beschreven kan worden door een DNA-expressie, behalve als X nicks in zowel de bovenste als de onderste streng bevat. Verder bewijzen we een aantal resultaten over DNA-expressies die (bijna) equivalent zijn. Deel II van dit proefschrift gaat over minimale DNA-expressies. Equivalente DNAexpressies kunnen namelijk verschillende lengtes hebben. Minimale DNA-expressies zijn de kortste expressies uit elke klasse van equivalente DNA-expressies. Anders gezegd: de DNA-expressies met minimale lengte voor een bepaald formeel DNA-molecuul. In Hoofdstuk 6 bepalen we ondergrenzen voor de lengte van DNA-expressies E. Deze ondergrenzen worden uitgedrukt als functies van de semantiek S(E). We maken hierbij onderscheid tussen verschillende soorten DNA-expressies: expressies met, expressies met en expressies met. Wanneer een DNA-expressie de betreffende ondergrens bereikt, weten we zeker dat er geen kortere DNA-expressie van hetzelfde soort voor hetzelfde molecuul bestaat. Vervolgens beschrijven we in Hoofdstuk 7 hoe je voor een gegeven formeel DNAmolecuul een minimale DNA-expressie construeert. We doen dit voor alle mogelijke formele DNA-moleculen waarvoor DNA-expressies bestaan: eerst moleculen zonder gaps en nicks, vervolgens moleculen met gaps maar zonder nicks, en ten slotte moleculen met nicks (in een van de strengen). In Hoofdstuk 8 tonen we aan dat elke minimale DNA-expressie is opgebouwd volgens een van de genoemde constructies; er bestaan dus geen andere. Om te kunnen zeggen of een DNA-expressie minimaal is, hoeven we niet expliciet haar lengte te controleren, of na te gaan of ze voldoet aan een van de constructies. We laten namelijk zien dat de minimale DNA-expressies gekarakteriseerd worden door zes syntactische eigenschappen, eigenschappen die je kunt controleren door puur naar de expressie als string te kijken, zonder de semantiek te bepalen. Hoewel er dus vaste constructies zijn voor minimale DNA-expressies, laten die constructies wel ruimte voor keuzes. Het gevolg daarvan is dat er voor veel formele DNA-moleculen meer dan één minimale DNA-expressie bestaat. Voor een gegeven molecuul berekenen we het aantal verschillende minimale DNA-expressies. Wanneer een DNA-expressie E niet minimaal is, kun je benieuwd zijn naar een equivalente, minimale DNA-expressie. Je zou dan eerst de semantiek S(E) kunnen bepalen, en vervolgens de geëigende constructie kunnen toepassen die een minimale DNA-expressie oplevert. In dit proefschrift pakken we het anders aan. We beschrijven in Hoofdstuk 9 een recursief algoritme dat een gegeven DNA-expressie omschrijft naar een equivalent, minimaal exemplaar. Het algoritme past de oorspronkelijke DNA-expressie, met lokale transformaties, zó aan dat ze stap voor stap de zes eigenschappen krijgt die minimale DNA-expressies karakteriseren. Daarmee wordt de expressie minimaal. We tonen aan dat het algoritme lineaire tijd en lineair geheugen vereist, en dus efficiënt is. Daarnaast is het algoritme elegant, omdat het volledig op stringniveau opereert het maakt geen gebruik van de semantiek, ook al zorgen we er natuurlijk wel over dat het resultaat equivalent is aan de oorspronkelijke DNA-expressie.

Samenvatting 373 resultaat korte beschrijving Definitie 3.2 (p. 35) formele DNA-moleculen Definitie 4.1 (p. 47) DNA-expressies Stelling 5.5 (p. 81) te beschrijven formele DNA-moleculen Stelling 6.31 (p. 134) ondergrens voor lengte DNA-expressies Stelling 7.5 (p. 138) minimale -expressies Stelling 7.24 (p. 158) constructie minimale, nickvrije -expressies en -expressies Stelling 7.46 (p. 177) constructie minimale -expressies (en -expressies) met nicks Lemma 8.22 (p. 205), Stelling 8.26 (p. 211) karakterisatie minimale DNA-expressies Gevolg 8.47 (p. 232) aantal minimale DNA-expressies Figuur 9.15 (p. 285) algoritme voor minimaliteit Definitie 10.1 (p. 314) minimale normaalvorm Lemma 10.6 (p. 317), Stelling 10.8 (p. 322) karakterisatie minimale normaalvorm Figuur 11.6 (p. 356) algoritme voor minimale normaalvorm Tabel 12.1: Overzicht van belangrijkste resultaten uit het proefschrift. Deel III van dit proefschrift gaat over een normaalvorm voor DNA-expressies, een verzameling eigenschappen, zodat er voor elk molecuul precies één DNA-expressie bestaat die die eigenschappen heeft. We definiëren de normaalvorm in Hoofdstuk 10. Zoals gezegd, kunnen er in de constructie van een minimale DNA-expressie voor een gegeven formeel DNA-molecuul vaak keuzes gemaakt worden. We maken nu heel specifieke keuzes, zodat er precies één DNA-expressie overblijft. Dit noemen we de DNA-expressie in normaalvorm, en omdat het dus een minimale DNA-expressie is, spreken we van de minimale normaalvorm. Vervolgens tonen we aan dat alle DNA-expressies in minimale normaalvorm gekarakteriseerd worden door vijf syntactische eigenschappen. Wanneer je voor een gegeven DNA-expressie E de equivalente DNA-expressie in minimale normaalvorm wil hebben, kun je de semantiek S(E) bepalen, en daarna de bijbehorende DNA-expressie in normaalvorm construeren. Opnieuw kiezen we in dit proefschrift een andere benadering, die geen gebruik maakt van de semantiek. In Hoofdstuk 11 beschrijven we een tweestapsalgoritme dat een gegeven DNA-expressie rechtstreeks omschrijft naar de equivalente DNA-expressie in minimale normaalvorm. De eerste stap bestaat eruit dat we de oorspronkelijke expressie met het recursieve algoritme uit Hoofdstuk 9 omschrijven in een equivalente, minimale DNA-expressie. In de tweede stap voeren we op het resultaat van de eerste stap een aantal lokale transformaties uit, die ervoor zorgen dat de expressie alle vijf de eigenschappen van de minimale normaalvorm krijgt. Ook dit tweestapsalgoritme vereist lineaire tijd en lineair geheugen. We kunnen dit algoritme ook gebruiken om te bepalen of twee willekeurige DNAexpressies equivalent zijn. We schrijven dan eerst, met behulp van het algoritme, beide DNA-expressies om naar de minimale normaalvorm. Als dit twee identieke DNA-expressies oplevert (en alleen dan), zijn de oorspronkelijke DNA-expressies equivalent. Aan het eind van dit proefschrift, in Hoofdstuk 12, trekken we de conclusies uit het onderzoek, en doen we enkele suggesties voor nader onderzoek. Tabel 12.1 bevat een overzicht van de belangrijkste resultaten uit dit proefschrift. De inhoud van het proefschrift is ook schematisch weergegeven in Figuur 12.4. We kunnen

374 Samenvatting A...... A C A T T T A C G C... G T DNA-moleculen basen + operatoren A C AT CG A C AT CG T C A T C G DNA-expressies A C AT CG A C AT CG minimale normaalvorm minimale DNA-expressies A C AT CG Figuur 12.4: Schematische weergave van de inhoud van het proefschrift. deze figuur als volgt lezen. Om (formele) DNA-moleculen te beschrijven, gebruiken we letters voor de basen en operatoren, en. Dit resulteert in DNA-expressies. Elk formeel DNA-molecuul kan beschreven worden door oneindig veel DNA-expressies. Sommige van deze DNA-expressies zijn korter dan andere. We richten ons op degene met minimale lengte, de minimale DNA-expressies. Er kunnen voor hetzelfde DNA-molecuul meerdere minimale DNA-expressies bestaan. Slechts één daarvan is in minimale normaalvorm.