Naar High Throughput DNA data analyse Laboratorium automatisering seminar Jan-Peter Nap Hanze University Groningen 8/10/10 1 van 24
gisteren CLC bio, a comprehensive platform for NGS analysis nu: Super-scale sequence data analysis with hybrid core computing Accurate next gen sequencing data analysis on cloud computing 8/10/10 2 van 24
8/10/10 3 van 24
DNA structuur & dimensies 8/10/10 4 van 24
DNA structuur en dimensies 10 bp = 3.4 nm => 3 * 10 9 bp = 1 m (* 2 per iedere cel) menselijk lichaam:. 3 miljard bp humane genoom klaar in 2000 kosten: ~1 30 miljard US$ 12-15 jaar technologische ontwikkelingen: 1000-100$/genoom in een dag dan alles mogelijk 8/10/10 5 van 24
Een Illumina run Ruwe data: 30 TB (mega-giga-tera-peta-exa) High resolutie opnamen laserexcitatie ~ 300 GB data (HiSEQ 2000; 2*100) Humane genoom (3 * 10 9 ) ~ 700 MB Ruwe data worden asap weggegooid! 8/10/10 6 van 24
Voorspelling 2010: 100 Gb DNA sequenties 2011: 1 Tb 2012:? 8/10/10 7 van 24
Voorspelling 2011: 100 Gb DNA sequenties 2012: 1 Tb 2013:?? PER DAG. Eindelijk interesse fysica/it etc. 8/10/10 8 van 24
Wat komt er dus aan. vloed springvloed tsunami? 8/10/10 9 van 24
en computers zijn er erg goed in Allemaal data.. DNA in iedere cel 3 x 109 basen per cel (= het genoom) saai alfabet: maar 4 letters: AGCT mantra: 8/10/10 10 van 24
Van DNA naar informatie Wat hoort bij elkaar assembly Wat doet het en wanneer? annotatie Pan omics Alles met alles in relatie brengen Gebruik van de informatie Biomedisch (diagnose, behandeling) Landbouwkundig (plantenveredeling, opbrengst) 8/10/10 11 van 24
Assembly Informatie in DNA I Aan elkaar plakken van reads 75 nt, maar groeiend Structuur van genomen en chromosomen Structuur/functie relaties Vergelijkingen ziek gezond droog - nat En nu dus HTP genome wide 8/10/10 12 van 24
Annotatie Informatie in DNA II DNA geeft RNA geeft eiwit Maar welk en wanneer en hoe? Vergelijkingen Blast eva Laboratorium/veld experimenten En nu dus HTP genome wide 8/10/10 13 van 24
Informatie in DNA III Andere data types/bepalingen OOK meer HTP RNA sequenties Epigenoom sequencing Eiwit data Proteomics MS Metaboliet data MS 8/10/10 14 van 24
hardware Moore s law? software algorithmen datastructuren Uitdagingen experimental design training & communicatie Life science professional als (halve?) IT er kosten 8/10/10 15 van 24
Grid applicaties Hardware BigGrid + Dutch Life Sciences Grid E-bioscience grid Cloud? GPGPU General Purpose Graphical Processing Unit Democratiseren (supercomputer) infrastructuur Bruikbaar voor HTP DNA applicaties? 8/10/10 16 van 24
Voorbeeld GPGPU Smith-Waterman algorithme vergelijken van sequenties bewezen het beste Te langzaam voor HPC Blast etc. Implementatie op GPGPU geen bruikbare implementatie(s) publiek onderzoeker wil alignments (kunnen) zien vereist specifieke kennis/kunde (CUDA) Testen suggereren rendabele/haalbare/snelle aanpak 8/10/10 17 van 24
Grid applicaties Hardware BigGrid + Dutch Life Sciences Grid E-bioscience grid Cloud GPGPU FPGA (Field Programmable Gate Arrays) Kosten? 8/10/10 18 van 24
Software Huidige algorithmen zijn oud kan het beter? Veel heuristiek blast 8/10/10 19 van 24
Software Work flow management systemen OS: Taverna, Galaxy, Trident (MS!) Commercieel: CLC bio Aanpassen aan werkveld? excel Parallelisatie GPGPU; FPGA, ander 8/10/10 20 van 24
Experimental design Niet meer alles opslaan? Is more less? Meer cross-experiment analyses Meer standaarden/ontologien/sop s? 8/10/10 21 van 24
Voorbeelden toepassingen Genome-wide association studies (GWAS) Welke SNPs zijn gerelateerd aan ziekte X in een patientenpopulatie Y en gezond panel Z Metagenomics: alle bacteriele DNA voor energie productie in relatie tot gezondheid 8/10/10 22 van 24
NBIC Training & communicatie BRS; BioAssist BSc Hogescholen MSc and up Universiteiten Europees/internationaal 8/10/10 23 van 24
Nieuw: E-lab assistent Laborant met (veel) IT kennis Kennis en kunde van hardware/biosoftware Kennis van life sciences Eigen projectjes+helpdesk functie Ervaring (Groningen/CBSG/PRI Wageningen) erg positief 8/10/10 24 van 24