Assembleren van het DNA van organismen uit miljoenen korte fragmenten

Vergelijkbare documenten
waarin de op dit moment relevante bron data als ook de analyse technieken worden geintegreerd.

Bioinformatica en Systeembiologie (BIS)

De antwoorden op vragen 1 en 2, 3 en 4, en 5 t/m 8 graag op verschillende vellen schrijven. Vergeet ook niet op de 3 vellen je naam en studentnr.

DNAQL Simulator. Presentatie Bachelorproef. Tom Desair. Universiteit Hasselt. Academiejaar

Het menselijk genoom. Inleiding Medisch Technische Wetenschappen. Bioinformatica Deel 2. Gevouwen chromosoom. X chromosoom DNA.

2WO12: Optimalisering in Netwerken

Cover Page. The handle holds various files of this Leiden University dissertation

Samenvatting. Samenvatting

Cover Page. The handle holds various files of this Leiden University dissertation.

Naar High Throughput DNA data analyse

Blauwalgen & genomics

Nederlandse samenvatting

Hogeschool1. Aanbevelen van content op social networking sites

KIM. Slimme acties ondernemen

Bioinformatica tentamen D1 voor 2MNW, 3I, 3PHAR op vrijdag 31 maart 2006 van uur in zaal Q105

DNA & eiwitsynthese Oefen- en zelftoetsmodule behorende bij hoofdstuk 16 en 17 van Campbell, 7 e druk December 2008

TW2020 Optimalisering

Samenvatting. Samenvatting

Voor een uitdagend en weinig onderzocht doelwit zoals DXS, bleek de strategie om meerdere hit-identificatie en optimalisatie strategieën in parallel

Nootdorp, 30 augustus Onderwerp: Toelichting Jaarrekening Toelichting Jaarrekening 2016

Figuur 1. Representatie van de dubbele helix en de structuren van de verschillende basen.

Newsletter April 2013

1 Complexiteit. of benadering en snel


TW2020 Optimalisering

Twaalfde college complexiteit. 11 mei Overzicht, MST

Neurale Netwerken en Deep Learning. Tijmen Blankevoort

n-queens minimale dominantie verzamelingen Chessboard Domination on Programmable Graphics Hardware door Nathan Cournik

Gemuteerd gist benadrukt het belang van een CAG-aflezend eiwit. CAG en de ZvH

Implementatie LIMS binnen afdeling Genetica van het Radboudumc. Ermanno Bosgoed


Cover Page. The handle holds various files of this Leiden University dissertation.

Bioinformatica tentamen D1 voor 2MNW op woensdag 30 maart 2005 van uur in zaal Q105

Samenvatting. 07 sam+.indd :23:49

Uitgebreid eindwerkvoorstel Lokaliseren van personen en objecten met behulp van camera s

Requirements Analyse en Ontwerp

High Performance Computing

Hoofdstuk 8: Algoritmen en Complexiteit

SAMENVATTING IN HET NEDERLANDS

PTA biologie vwo Belgisch Park cohort

Automatisering van NGS processen Ewart de Bruijn. Hubrecht Institute

Cover Page. The handle holds various files of this Leiden University dissertation.

PTA biologie vwo Belgisch Park cohort

Overzicht. 1. Definities. 2. Basisalgoritme. 3. Label setting methoden. 4. Label correcting methoden. 5. Ondergrenzen. 6.

IN1805 I Operating System Concepten

SECURITY & DATA PROTECTION ARCHIVING & BACKUP IN 5 STAPPEN NAAR EEN IDEALE SITUATIE

(On)Doenlijke problemen

vanuit de technische en organisatorische omgeving, werk-verdeling, budget, planning, en hergebruik van componenten. Het documenteren van SA dient

Cover Page. The handle holds various files of this Leiden University dissertation.

edna-voedselwebanalyse

Nederlandse samenvatting

Ecologische Indexen Macrofauna

Leerlingenhandleiding

Voorbij het 1000$ Genoom van diagnostiek naar screening

Cover Page. The handle holds various files of this Leiden University dissertation.

Hoe kijken wij en welke informatie wordt doorgegeven aan onze hersenen. Prof. dr. Maarten Kamermans

Cover Page. The handle holds various files of this Leiden University dissertation.

Afsluitende les. Leerlingenhandleiding. Visualiseren van eiwitten

Organisatie SYSQA B.V. Pagina 1 van 6 Titel Overzicht Versie 1.0 Onderwerp Overzicht blackbox testtechnieken Datum 15 februari 1996


Nederlandse samenvatting. Inleiding

Unieke factoren in het menselijk DNA. Jeroen F. J. Laros. Begeleiders: Peter Taschner Hendrik Jan Hoogeboom Walter Kosters

College 13: Patterns (2)

DNA & eiwitsynthese Vragen bij COO-programma bij hoofdstuk 11 en 12 Life

Brochure Een igene Paspoort: iets voor mij? Leer meer over jouw eigen genen

Hoe kijken we naar het DNA van een patiënt?

De meest revolutionaire momenten belicht, de momenten waarin iets gebeurde waardoor nieuwe dingen ontstonden.

Testen en BASEL II. Dennis Janssen. Agenda. Wat is BASEL II? Testen van BASEL II op hoofdlijnen

Activiteit 9. Modderstad Minimaal Opspannende Bomen. Samenvatting. Kerndoelen. Leeftijd. Vaardigheden. Materialen

Data mining Van boodschappenmandjes tot bio-informatica

Operationeel Onderzoek Opgave 5: oplossing

Detectie van noordse woelmuis: inloopvallen of edna?

Foutloos leren bij Goal Management Training

Functionele beschrijving: scannen naar UNIT4 Cura Documentmanagement.

Zelftest Informatica-terminologie

Continuous Learning in Computer Vision S.L. Pintea

In search for biomarkers of aging: A proteomics approach Rinse Klooster

V = {a, b, c, d, e} Computernetwerken: de knopen zijn machines in het netwerk, de kanten zijn communicatiekanalen.

Samenvatting. Samenvatting

VIII Samenvatting voor alle anderen

Masterproeven Wireless & Cable Research Group (WiCa)

Cover Page. The handle holds various files of this Leiden University dissertation

Discrete, Interactive & Algorithmic Mathematics, Algebra & Number Theory

High Performance Computing

Programmeren A. Genetisch Programma voor het Partitie Probleem. begeleiding:

Differentiëren met de nieuwe editie Biologie voor jou havo/vwo bovenbouw

Van mutatie naar ziekte

Nederlandse samenvatting

Ontwikkelingen analyses weerbaar substraat. Natasja Poot - Productmanager Bodemgezondheid

Bioinformatica tentamen D1 voor 2MNW, 3I, 3PHAR op vrijdag 30 maart 2007 van uur in zaal Q105

studie waarmee we de principes van de analyse willen demonstreren. Een volledig beschrijving van de algoritmen en de resultaten zijn te vinden in

NEDERLANDSE SAMENVATTING

Nederlandse Samenvatting

Waar leven is, zijn ook Enzymen

Functionele beschrijving: scannen naar UNIT4 DocumentManager

Bijlage II. Een genetisch gemodificeerd micro-organisme wordt ondergebracht in risicoklasse 1 als aan alle volgende criteria voldaan is :

Gegevensverwerving en verwerking

STEMPEL DE WEG VAN GEN NAAR EIWIT

De computer als processor

Transcriptie:

Assembleren van het DNA van organismen uit miljoenen korte fragmenten Stap 1: chemisch proces 1. CGGTTC 2. ACGCGG 3. TTCCGG 4. CGGGCT 5. TCACGG 6. CGGACG. korte stukjes DNA TCA TTC CGG GCT ACG Stap 2: De Bruijn graaf TCACGGTTCCGGACGCGGGCT TCACGGACGCGGTTCCGGGCT Stap 3: Reconstructie genoom Plato nr. 8399: Assembleren van het DNA van organismen uit miljoenen korte fragmenten.

Uitdagingen Doelstellingen Zeer grote datasets miljoenen tot miljardenreads enkele tot honderden GBytes aan input data Data bevatfouten sample contamination sequencing fouten insert length fouten Parallelisatie (MPI, MapReduce) DNA data compressie Algoritmes voor de detectie en correctie van fouten. Genoom bevat herhalingen Verschillende reconstructies zijn mogelijk. Gebruik maken van paired end reads om correct genoom te assembleren. samenwerking met Plato nr. 8399: Assembleren van het DNA van organismen uit miljoenen korte fragmenten.

Enhanced suffix arrays: Geheugenefficiënte indexstructuren in de bioinformatica DNA bevat de informatie voor eiwitsynthese Het uitlezen van die informatie gebeurt in een tweestapsproces: Contact: dieter.dewitte@intec.ugent.be Het coderend DNA (1% van genoom) is het bouwplan voor een bepaald eiwit. Op het niet coderend DNA binden eiwitten die: De transcriptiemolecules helpen positioneren De transcriptiesnelheid beïnvloeden Het zoeken van de locaties in het DNA waar deze regulerende eiwitten binden is een uitdagend computationeel probleem in de bioinformatica. Plato nr. 8394: Enhanced suffix arrays: geheugenefficiënte indexstructuren in de bioinformatica.

Indexstructuren lenen zich ertoe om op efficiënte manier DNA te doorzoeken. Het nadeel van indexstructuren is dat ze veel geheugen vereisen: 40 70 Byte 120 a 200 GByte voor per karakter volledig genoom!! Enhanced suffix arrays (ESA) zijn veel compacter maar de bijhorende algoritmes een stuk uitdagender! Ontwerpt een duurzaam softwarepakket gebaseerd op ESA. Werkt mee aan geavanceerde detectie algoritmen. Mogelijkheid tot een doctoraat. Plato nr. 8394: Enhanced suffix arrays: geheugenefficiënte indexstructuren in de bioinformatica.

Graafgebaseerde similariteitsmaten voor de detectie van functioneel gelijkaardige genen in een gen interactienetwerk Genen zijn stukken functioneel DNA Genactiviteit bepaalt de functie van een cel in een organisme Produceren proteïnen of bouwstenen voor DNA verwerking Werken niet zelfstandig: genen participeren in complexe biologische processen door te interageren met omgevingsfactoren en andere genen => pathways (ketens) van genen die bijvoorbeeld verantwoordelijk zijn voor voortplanting, ziekteontwikkeling, celwandconstructie, Aflijnen van pathways is cruciaal in het begrijpen van celmechanismen, het ontwikkelen van geneesmiddelen, het gericht kruisen van planten om de droogteresitentie te verhogen, Plato nr. 8401: Graafgebaseerde similariteitsmaten in een gen interactienetwerk.

Doel Genen kunnen voorgesteld worden in een interactiegraaf Gen gen interacties kunnen gedownload worden uit publieke databases, voor verschillende organismen (b.v. gist, muis of mens) Stelling: nabijheid in een interactiegraaf is een maat voor de functionele similariteit van genen We onderzoeken of bepaalde nabijheidsmaten gebruikt kunnen worden om genen te identificeren die gelijkaardige biologische functies hebben Kortste paden Maximum flow Random walks Kernels op grafen => Implementatie (c++, matlab) en testing met nadruk op performantie en schaalbaarheid Evaluatie aan de hand van publieke databases met gekende genfuncties Plato nr. 8401: Graafgebaseerde similariteitsmaten in een gen interactienetwerk.

Zoeken naar graafmotieven met behulp van parallelle programmeertechnieken Genen interageren en beinvloeden mekaar Clusters van functioneel gerelateerde genen werken als biologische eenheden. Netwerkenzijngroot(6.000 knopen en 80.000 interacties) Plato nr. 8402: Zoeken naar graafmotieven met behulp van parallelle programmeertechnieken.

Doel Stap 1: het identificeren van elementaire graafmotieven in een biologisch interactie netwerk. Stap 2: clusteren van graafmotieven in betekenisvolle biologische units. Optimaliseren van een score functie. Stap 3: het ontwikkelen van een parallel algoritme dat gebruik kan maken van een computer cluster om stap 1 en 2 aanzienlijk te versnellen. Plato nr. 8402: Zoeken naar graafmotieven met behulp van parallelle programmeertechnieken.