Bio-informatica Genpredictie

Vergelijkbare documenten

Transcriptie en de Genetische code

Bio-informatica Similariteit Searches. Peter De Rijk

Hand-out bij de oefen- en zelftoets-module bij hoofdstuk 7 van 'The Molecular Biology of the Cell', Alberts et al.

Bioinformatica tentamen D2 voor 2MNW op maandag 30/05/2005 van 13:30-16:30 in Q105

DAR Approximate string matching Casus: biological sequence alignment

Docentenhandleiding. Afsluitende module. Op zoek naar een gen in een databank

Het menselijk genoom. Inleiding Medisch Technische Wetenschappen. Bioinformatica Deel 2. Gevouwen chromosoom. X chromosoom DNA.

94 Transcriptie en vorming van mrna bij prokaryoten en eukaryoten

Hetzelfde DNA in elke cel

Humane levenscyclus 1

DNA & eiwitsynthese Oefen- en zelftoetsmodule behorende bij hoofdstuk 16 en 17 van Campbell, 7 e druk December 2008

De antwoorden op vragen 1 en 2, 3 en 4, en 5 t/m 8 graag op verschillende vellen schrijven. Vergeet ook niet op de 3 vellen je naam en studentnr.

DNA & eiwitsynthese Vragen bij COO-programma bij hoofdstuk 11 en 12 Life

ANTWOORDEN HOOFDSTUK 6 VAN GEN TOT EIWIT

Probabilistische modellen in de bio-informatica. Yves Moreau 3de jr. Burg. Ir. Elektrotechniek Dataverwerking & Automatisatie

1. Welk van de onderstaande DNA sequenties zijn mogelijke herkenning-sites voor restrictie-enzymen? c 5' GAATTC 3' c 5' GGGGCCCC 3' c 5' CTGCAG 3' 5'

Samenvatting Biologie B2

a. Geef de 1-lettercode van de aminozuren in het peptide in de corresponderende volgorde. (4P)

HERKANSINGSTENTAMEN Moleculaire Biologie deel 2, 5 Jan 2007

Tentamen Kunstmatige Intelligentie (INFOB2KI)

Leerlingenhandleiding

Tentamen Genetica Studentnr:

1 (~20 minuten; 20 punten)

STEMPEL DE WEG VAN GEN NAAR EIWIT

Neurale Netwerken en Deep Learning. Tijmen Blankevoort

Leerlingenhandleiding

Moleculaire diagnostiek

Bio-informatica Structuur

Bio-informatica Boom constructie. Peter De Rijk

DNA & eiwitsynthese (Junior College Utrecht) Vragen bij COO-programma

Bioinformatica en Systeembiologie (BIS)

Grootste examentrainer en huiswerkbegeleider van Nederland. Biologie. Trainingsmateriaal. De slimste bijbaan van Nederland! lyceo.

Classification - Prediction

INZET VAN MACHINE LEARNING

Voorbereiding toelatingsexamen arts/tandarts. Biologie: Erfelijke informatie in de cel 6/29/2013. dr. Brenda Casteleyn

Hoe goed is een test?

biologie vwo 2017-I Gespierder door gendoping

Gentechnologie & moleculaire analysetechnieken Godelieve Gheysen eerste zit

Uitwerking Tentamen Datamining (2II15) 26/06/09

Hoe kijken we naar het DNA van een patiënt?

Examen structurele bioinformatica Naam:

SAMENVATTING IN HET NEDERLANDS

vwo eiwitsynthese 2010

Molecular Pathology for Pathologists. Pr P. Pauwels

TENTAMEN BIOCHEMIE (8S135) Prof. Dr. Ir. L. Brunsveld :00 17:00 (totaal 100 punten) 6 opgaven in totaal (aangegeven tijd is indicatie)

Biotechnologie deel I

Samenvatting Biologie DNA

GENOMISCH KOOKBOEK LEERLINGENHANDLEIDING

Afsluitende les. Leerlingenhandleiding. Wat voor eiwit ben jij? (Basis)

Intermezzo, De expressie van een eiwit.

Toelatingsexamen arts geel Biologie Vraag 1

Parking Surveillance. foreground/background segmentation - objectherkenning. Examen Beeldverwerking Pieter Vancoillie

Validatiestudie van de nationale surveillance van nosocomiale infecties op IZ

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Cover Page. The handle holds various files of this Leiden University dissertation.

BIOLOGIE MOLECULAIRE GENETICA EIWITSYNTHESE VWO KLASSE 6

Computer Ondersteund Onderwijs (COO).

1. Welk(e) van de volgende baseparen komt(en) van nature voor in een DNA dubbele helix. Omcirkel deze. C-G

MCB: Hoofdstuk 11: genexpressie RNA polymerase gen controle 11.1 overzicht van eukaryote gencontrole en RNA polymerasen

Artificial Intelligence in uw dagelijkse praktijk. Hilversum, 22 September 2016

Bioinformatica tentamen D1 voor 2MNW, 3I, 3PHAR op vrijdag 30 maart 2007 van uur in zaal Q105

Bio-informatica Sequentie Patronen. Peter De Rijk

Oplossingen Datamining 2II15 Juni 2008

Principe Maken van een Monte Carlo data-set populatie-parameters en standaarddeviaties standaarddeviatie van de bepaling statistische verdeling

Formulier voor het beoordelen van de kwaliteit van een artikel over een diagnostische test of screeningsinstrument.

Bio-informatica Similariteit. Peter De Rijk

Kunstmatige Intelligentie (AI) Hoofdstuk 18.7 van Russell/Norvig = [RN] Neurale Netwerken (NN s) voorjaar 2016 College 9, 19 april 2016

11. Multipele Regressie en Correlatie

Kun je met statistiek werkelijk alles bewijzen?

Programmeermethoden NA. Week 5: Functies (vervolg)

Data Mining: Classificatie

LEERPLAN LEERPLANDOELSTELLINGEN: De leerlingen kunnen LEERINHOUDEN

Literatuuronderzoek. Systematische Review Meta-Analyse. KEMTA Andrea Peeters

Validatie van moleculaire methodes in een drinkwaterlaboratorium. Adrie Atsma

Gegevensverwerving en verwerking

Referentie Handleiding

Summary in Dutch 179

Hoe AI kan ingezet worden voor de analyse van asbesthoudende daken

Brochure ExomeScan. Whole Exome Sequencing. Achtergrond

Practicum Kwantitatieve Inhoudsanalyse

9. Lineaire Regressie en Correlatie

Mee-naar-huis-neem boodschappen dec. 2016

Achtergrondinformatie - Het immuunsysteem en HIV

Transcriptie:

Bio-informatica Genpredictie 9

Genpredictie Genpredictie opsporen van functionele gebieden en elementen die verantwoordelijk zijn voor de genstructuur, genregulatie en gentranscriptie in genomische sequenties

Prokaryoten Bacteriele genomen Dense, compacte genomen 85-88% coderend Continue genen Korte intergenische afstanden Elementen prokaryote genen Promotor Een beperkt aantal σ factoren Herkenning specifieke promotors Consensus rond -35 en -10 t.o.v transcriptie start Meest courante σ70 consensus TATAAT op -10 Andere regulatoren in/achter promotor, vaak negatieve regulatie Verschillende genen vaak samen afgeschreven in 1 operon 5' Promotor CDS DNA

Prokaryoten Start translatie Shine-Delgarno sequentie (AGGAGGU) Vaak vlak achter promotor, vlak voor start codon Start codon AUG (zelden UUG of GUG) Terminatie transcriptie Geinverteerde repeat Kan haarspeld structuur vormen Kan RNA polymerase doen pauzeren Een zestal opeenvoldende Uracil nucleotiden vlak na deze repeat Zwakkere binding

Prokaryoten Open Reading Frame (ORF) = Stuk sequentie zonder stopcodons (in coderend stuk zitten er nl. Geen stopcodons) Detectie van genen door grotere ORF te zoeken Meeste genen > 60 codons Willekeurig: 1 stopcodon per 21 codons (3/64) > 60 codons -> ws. Gen

Prokaryoten Genpredictie in prokaryoten Continue genen Meestal lange ORFs (> 60 codons) Relatief simpel herkenbare promotors Herkenbaar einde transcriptie Meeste nucleotiden zijn coderend Problemen Korte genen (~korter dan 60 codons) Sequentie fouten (ORF is hier gevoelig voor) Overlappende genen op beide strands

Eukaryoten Eukaryote genomen Slechts enkele procenten zijn coderend Complexe genstructuur splicing Geneste en overlappende genen Alternatieve splicing ~ verschillende isovormen Lange genen CDS verspreid over grote gebieden (lange intronen) Niet simpelweg zoeken naar ORFs Promotor geconserveerde sequenties diffuser en veel verder van start

Van DNA tot proteine Upstream Downstream Genomisch DNA Promotor Intron 1 Intron 2 Intron 3 Intron 4 Genomisch DNA 5' 3' Exon 1 Exon 2 Exon 3 Exon 4 Exon 5 DNA Transcriptie en processing CAP Intron 1 Intron 2 Intron 3 Intron 4 PolyA (7-methylguanosine) Exon 1 Exon 2 Exon 3 Exon 4 Exon 5 pre-mrna Splicing CAP 5'UTR CDS 3'UTR PolyA mrna Translatie Proteïne Posttranslationele processing

GFF GFF General Feature Format (vroeger Gene Feature Format ) Eenvoudig, standaard formaat voor identificatie regios in een sequentie (exon, CDS,...) Verschillende velden met vaste volgorde (gescheiden door TAB karakters) Eerste lijn commentaar (begint met #) die file formaat en versie aanduid Volgende lijnen data Gemakkelijk te bekijken, vergelijken, testen, integreren

GFF ##gff-version 3 SEQ1 EMBL mrna 103 322. +. ID=gene1 SEQ1 EMBL CDS 103 173. + 0 Parent=gene1 SEQ1 EMBL splice5 173 174. +. SEQ1 netgene splice5 173 174 0.94 +. SEQ1 EMBL CDS 263 322. + 2 Parent=gene1 seqid bron feature start einde score streng fase attributen seqid: naam van de sequentie bron: programma, publieke database annotatie, experimenteel feature: feature type, karaktereigenschappen start: getal dat begin van feature op sequentie aangeeft (nummering start met 1) einde: getal dat einde feature aangeeft score: getal waarschijnlijkheid dat deze voorspelling correct is (. voor geen score) streng: +, - or. (. wordt gebruikt wanneer niet relevant) fase: 0,1,2 or. Geeft aan waar deze feature zit t.o.v. het reading frame hoeveel nucleotiden vanaf start feature horen nog bij vorige codon [group/attributen]: optioneel, in de vorm van tag1=value1;tag2=value2; ID en Parent tags kunnen worden gebruikt om een hierarchie aan te geven [comments]: optionele string

Accuraatheid Vergelijking methoden Met gekende genen (test set) voorspellingen van verschillende methoden vergelijken testset eigenlijk liefst zo representatief mogelijk voor wat je gaat vergelijken Standaard test en trainings datasets (Burset and Guigo, Reese) Maar Bias in training data door welke genen aanwezig zijn in de databases Bias naar standaard test sets/genen 1 gen per sequentie vs meerdere/partiele in reëele data Toelaten organisme specifieke training? In hoeverre zijn deze standaard test/training sets representatief

Accuraatheid EGASP ENCODE Genome Annotation Assessment Project Workshop om accuraatheid voorspellingen na te gaan ENCODE, HAVANA hoge kwaliteit annotatie op manuele en experimentele basis (langdurig en kostelijk) een deel hiervan vrij gegeven (als trainings data) deelnemers werden gevraagd om met hun methoden de overige encode regios te annoteren (zonder kennis van de experimentele annotatie) vergelijking automatische predictie met annotatie verschillende categorien: 1. eender welke informatie 2. enkel ab-initio 3. extrinsieke methoden 4. comparatieve methoden 5. nieuwe genen 6. ongewone genen 7. exon-only Doel Hoe goed reproduceren verschillende automatische methodes deze annotatie hoe ver rijkt onze kennis: predicties niet in de manuele annotaties worden uitgebreid experimenteel gecontroleerd via RT-PCR

Accuraatheid Categorie: Exon level TP = True Positives, TN = True Negatives FP = False Positives, FN = False Negatives Sensitiviteit: Sn = TP/(TP+FN) Proportie van echte exonen die correct voorspeld werd (beide einden exact correct)(start-stop op juiste positie) Specificiteit (volgens EGASP): Sp = TP/(TP+FP) Volgens klassieke definities heet deze maat eigenlijk de precision, de specificiy volgens klasieke definitie, TN/(TN+FN), kan hier niet gemakkelijk berekend worden Proportie van voorspelde exonen die correct voorspeld werd Hoe hoger Sp: hoe minder vals positieven Hoe hoger Sn: hoe minder vals negatieven Andere Hoeveel missing exons (niet voorspelde exonen)? Hoeveel wrong exons (volledig incorrecte voorspelling)? Hoeveel half exons (een uiteinde correct)?

Accuraatheid Categorie: Nucleotide level Sensitiviteit (Sn) = TP / (TP + FN) Proportie van exonische nucleotiden die correct voorspeld werd Specificiteit (Sp) (volgens EGASP) = TP / (TP + FP) Proportie van nucleotiden die voorspeld werden exonisch te zijn waarbij die voorspelling correct is

Accuraatheid Matthews Correlatie coefficient Probeert Sn en Sp samen te vatten in 1 getal 1 maat voor de globale accuraatheid van nucleotide predictie CC=(TP x TN FP x FN)/(ANxAPxPPxPN)-2 AN = Actual Negatives (FP+TN) AP = Actual Positives (TP+FN) PP = Predicted Positives (TP+FP) PN = Predicted Negatives (TN+FN) Tussen -1 and 1 1: perfecte predictie -1: perfect verkeerde predictie Waarde 0 betekent geen correlatie tussen predictie en werkelijkheid: ~ random toewijzing

Typische problemen Training Species specificiteit van signalen, training, parameters Goede datasets zijn moeilijk te vinden Experimenteel geverifieerd Representatief?! Alternatieve splicing is moeilijk te voorspellen Geneste genen

Overzicht methoden Extrinsieke methoden Vergelijking met cdna, ESTs, gekende proteinen Externe data BLAST, FASTA met databases -> exonen Spliced alignment Intrinsieke methoden Patroonherkenning Signal sensors Splice sites, start en stop codons, polya site,... Content sensors Coderende regios Geintegreerde methoden Comparative genomics Conservatie bij vergelijking van verschillende genomen Analyse pipelines

Extrinsieke methode: Spliced alignement Spliced alignement Alignatie van cdna ( enkel exonen), proteïne t.o.v. genomische sequentie Rekening houdend met intronen Grote gaps Positionering van gaps op intron grenzen Moeilijker door mogelijke overlap van alignmenten Upstream Promotor Intron 1 Intron 2 Intron 3 Intron 4 Downstream Genomisch DNA Exon 1 Exon 2 Exon 3 Exon 4 Exon 5 Genomisch DNA 5' 3' DNA CAP 5'UTR 3'UTR PolyA mrna

Spliced RNA alignement Soorten RNA EST Veel Lage sequentie kwaliteit, korte stukken transcript mrna, geclusterde ESTs Langer/volledig transcript Gen structuren Minder beschikbaar Interessantste goede spliced alignment van mrna ~ experimenteel bewijs! Annotatie van genomische regio Geschikte RNA sequenties evt. Vinden in databanken met bv. BLAST

Problemen Spliced RNA alignement Bias naar sterk geexpresseerde genen Meer informatie over sterk geëxpresseerde genen Weinig/facultatief geexpresseerde genen worden gemakkelijker gemist Sequentie kwaliteit bij fouten in de sequentie is correct alignatie moeilijker Contaminatie met genomische sequenties Wanneer er nog een intron in een mrna sequentie zit). Modellering splice sites

Spliced RNA alignement Programma's Spidey (zie oefeningen) Alignatie mrna, ESTS (lokaal alignement exonen) Gebaseerd op BLAST algoritme GeneSeqer sim4 Construct genomic windows: stringente BLAST, sorteren, consistente hits Alignement in windows: weinig stringente BLAST + Dotview Detectie splice sites (met PWM) in gebieden waar alignementen van exonen overlappen Beste splice sites (score) die de alignementen het minst verstoren Niet consistente hits worden eruit gefilterd. Ook minder verwante ESTs

Spliced proteïne alignement Spliced alignement met verwante, gekende proteïne sequenties Programma's Procrustes beste combinatie mogelijke exonen met dynamic programming Genewise (WISE2) dynamic programming, statistische modellen van splice sites Problemen Bias naar gekende genen/genfamilies Databases (SWISS PROT/TrEMBLE) met b.v. ook hypothetische/verkeerd geannoteerde proteïnen Modellering splice sites

Intrinsieke methoden Patroonherkenning Signal sensors Patronen met specifieke positie in genstructuur Splice sites, start en stop codons, polya site,... Methoden: Consensus sequenties, weight matrices, HMM, NN,... Content sensors Patronen in een regio (dus niet 1 specifieke positie) in genstructuur Coderende regios Methoden: Statistische analyse in window, HMM, Geintegreerde systemen Integratie van verschillende sensoren tot volledige genstructuur predictie meest gebruikt Ook wel eens ab-initio methoden genoemd = Vanuit eerste beginselen, zonder gebruik te maken van extra data (Maar: veel methoden gebruiken wel trainingsdata om patronen te leren...)

Promotor herkenning Polymerasen RNA polymerase I -40 tot +20 simpel rrna, snrna RNA polymerase II... tot -25 zeer complex coderende genen (belangrijkste) RNA polymerase III +50 tot +100 simpel trna, small RNAs Herkenbare elementen (~ niet altijd aanwezig) CpG eilanden bij sommige promotoren Initiator (Inr) sequentie [CT][CT]CA[GA][GA] rond +1 Transcriptie factoren (TF) Basale transcriptie factor bindende site rond -25 consensus TATA[AT]A[AT] TATA box Vele andere TF binding sites, en combinaties Dicht bij transcriptie start b.v. CAAT-box: zelfde orientatie, -80 Enhancers kunnen werken op grote afstand van transcriptie start, en in verschillende orientaties

Promoter herkenning TF databases TF binding sites gebaseerd op profielen/matrices TRANSFAC Zeer uitgebreid, commercieel JASPAR Open alternatief, kleiner, niet redundant, curated

Promoter herkenning Problemen TATA-loze promoters Transcriptie factor binding sites zijn zeer kort komen veelvuldig voor, ook buiten promotoren Zoeken naar combinaties Promotor kan groot gebied beslaan Context is belangrijk! Niet zoveel uitgebreid experimenteel bepaald

Promoter herkenning Programma's PromoterScan database van bindingssites van gekende transcriptie factoren MatInd en MatInspector Consensus matches met gekende TF bindingsplaatsen (TRANSFAC) TSSG/TSSW LDA combinatie van herkenning verschillende features (TATA-box, Inr signaal, upstream regio) CBS Promoter 2.0 Neurale netwerken geoptimaliseerd m.b.v genetische algoritmen CorePromoter QDA (Quadratic Discrimination Analysis) Zoekt TSS en core promoter in sequentie van beperkte lengte Neural Network Promoter Prediction time-delay neural network Markov Chain Promoter Finder

Splice sites Herkenbare elementen Donor consensus [CA]AG^GT[AG]AGt Acceptor consensus (T>C)nN(C>T)AG^gt Branch site tussen 18 en 40 basen upstream van 3' splice junctie Meestal in combinatie met coding bias Problemen overpredictie Context! U12 afhankelijke (AT-AC) splice sites Andere types intronen (vnl. In non-coding genes)

Splice site programma's NetGene2 Combinatie neurale netwerken en en rule-based systemen NNSPLICE Multi-layered feed-forward neural network BCM Genefinder HSPL (human) Triplet frequenties in de functionele gebieden van de splice regio in combinatie met codon statistieken SplicePredictor Logitlinear models Match t.o.v. Splice site consensus Lokaal compositioneel contrast

Startcodon Kozak rules Meestal eerste methionine van 5' dat je in transcript tegen komt = startcodon Consensus [AG]CCAUGG Programma's Netstart Neuraal netwerk gebaseerd op lokale start codon informatie en globale sequentie informatie Getraind op cdna sequenties ATGpr lineaire discriminant analyse

PolyA PolyA Herkenning plaats waar poly-a tail (200-250 A's) wordt aangehangen herkenning sequenties A[AT]TAAA ~20 basen voor knipplaats Zwak geconserveerd GT gebaseerd motief Werkt enkel in de juiste context! dikwijls laatste exon Programma's BCM GeneFinder POLYAH Triplet frequenties in functionele delen LDA

Coding potential Hoe coderend is een sequentie? Moet werkzaam proteïne produceren Evolutie van coderende sequenties wordt sterk beinvloed door het gecodeerde product Vele methoden om de coderendheid van sequenties te herkennen Van statistiek over een window van een bepaalde grootte Tot complexe machine learning technieken Moeilijker exacte grenzen te bepalen ~ combinatie met splice donor/acceptor

Coding potential Methoden gebaseerd op de (vertaalde) AZ sequentie ORF: afwezigheid van stop codons AZ of diaz gebruik Codon gebruik Codon usage vector: frequentie van 64 mogelijke codons Verschillen o.w.v. verschillend AZ gebruik, codon voorkeuren Bias in base samenstelling tussen codon posities Meest frequente codons RNY ([AG][UCAG][UC]) Positie assymetrie: assymetrie in basensamenstelling op de drie verschillende codon posities Periodiciteit Coderende sequence (CDS) heeft een inherente periodiciteit van 3 Vooral duidelijk in lange CDS; moeilijk voor korte CDS Auto-correlatie, FFT (fourier transformaties),...

Coding potential Invloed reading frame AZ samenstelling in coding frame vs niet-coding frame (meer stop codons dan bij toeval) Codon samenstelling in alle frames Codon positie correlaties (dinucleotide distributie) In-phase woorden Frequenties van voorkomen van woorden (lengte N) Hexameer frequenties zeer succesvol Omvat eigenlijk meeste hiervoor vermelde elementen Brengen correlaties over korte regios in rekening b.v. Codon eindigend op een G wordt meestal niet gevolgd door een codon dat begint met een G Machine Learning gebaseerde methoden HMM, NN training op gekende sets (experimenteel bepaalde CDS)

Coding potential Programma's GRAIL I GeneMark Glimmer Neuraal netwerk met shifting window Inhomogene Markov chain models Interpolated Markov chains

Geintegreerde systemen Vinden van volledige genstructuren kan via verschillende methoden Integratie van de resultaten van een aantal sensoren m.b.v. HMMs, neurale netwerken and decision trees Integratie binnen 1 systeem b.v. HMM Beste combinatie exonen met dynamic programming Evt. incorporatie homologie informatie

Genscan Forward Strand Model Genscan HMM Cirkels en ruiten functionele eenheden (toestanden) van een gen N neutraal (niet in een gen) Prom promotor 5' start transcriptie Exon Sngl voor genen die uit 1 enkel exon bestaan Exonen (Exon 0,1,2) en intronen (I0,I 1,I 2 ) worden geassocieerd met de fase (t.o.v. het reading frame) Bij test sequentie wordt elke base toegewezen aan een toestand Volledig model Getoonde model enkel forward strand ditzelfde ook nog eens voor reverse strand Genen in beide richtingen tegelijk voorspeld Reverse Strand gelijkaardig aan hierboven

Geintegreerde systemen GENSCAN Meerdere signaal en content modellen, HMM sensoren Verschillende modellen afh. Van GC Zeer goede resultaten AUGUSTUS Generalized HMM annoteert ook UTR, alternatieve transcripten. incorporatie van extrinsieke data is mogelijk (AUGUSTUS+) lijkt nog acurater dan Genscan (EGASP) TWINSCAN Gebaseerd op GENSCAN Incorporeert homologie informatie uit genome comparison GeneID, GeneID+ Signalen met Position Weight Matrices, coding potential met MM Combinatie exonen met dynamic programming GeneID+ incorporeert homologie data Goede resultaten, snelheid en geheugenverbruik

Geintegreerde systemen Eugène Combinatie van vele systemen, plugins Vnl. Getraind op plant genomen MORGAN Decision trees, dynamic programming GRAIL Verschilende sensoren+nn (neural networks) Combinatie rule-based GRAILExp Verbeterde sensoren Incorporatie EST/cDNA data GeneParser NN, dynamic programming Andere FGENEH, Genemark, Genemark.hmm, NetGene2, SORFIND, GenLang,VEIL, GENIE, HMMgene,...

Genome comparison Methode Vergelijking homologe genomische regios binnen verwante soorten bv. mens muis Studie van conservatie Regios met belangrijke functies (CDS, regulatoire gebieden) worden sterker geconserveerd Problemen Interessante homologe region moet beschikbaar zijn voldoende geconserveerd, maar niet helemaal Soms ook conservatie buiten CDS,... Conservatie duidt op belang regio, zegt niet direct welke functie (CDS, regulatie)

Genome comparison PipMaker Alignatie gebieden met BLASTZ pip: percent identity plot Percent identiteit van gap-vrije gealigneerde segmenten Uitzetten in grafiek positie in sequentie similariteit van de gealigneerde segmenten Veel/Langere alignmenten met hoge similariteit exonen, regulatoire elementen

PipMaker Pipmaker output Exonen in groen aangeduid Regulatoire gebieden in rood Intronen in het geel

Genome comparison AGenDA Kandidaat exonen Fragmenten gevonden met dialign alignatie algoritme Splice sites met PWM en start/stop codons in buurt van geconserveerde regios Beste combinatie met dynamic programming

AGenDa Agenda example

Genome comparison SLAM SGP2 Twinscan Simultane alignatie en predictie GPHMM (Generilized Pair HMM) onderscheid tussen conserved non-coding sequence (CNS; UTR, regulatoire elementen,...) en conserved coding sequence tblastx tussen 2 anonieme homologe genomische sequenties Geneid combineert hit data met ab-initio genpredictie Genscan gebaseerd algoritme combineert hit data met ab-initio genpredictie

Annotatie pipelines Pipeline Scripts/programma's die automatisch opeenvolging/combinatie van verschillende analyse programma's regelen Vaak parallelle computer systemen Alle annotatie wordt centraal verzameld, beschikbaar gesteld Voorbeelden Ensembl NCBI mapviewer