Bio-informatica Genpredictie 9
Genpredictie Genpredictie opsporen van functionele gebieden en elementen die verantwoordelijk zijn voor de genstructuur, genregulatie en gentranscriptie in genomische sequenties
Prokaryoten Bacteriele genomen Dense, compacte genomen 85-88% coderend Continue genen Korte intergenische afstanden Elementen prokaryote genen Promotor Een beperkt aantal σ factoren Herkenning specifieke promotors Consensus rond -35 en -10 t.o.v transcriptie start Meest courante σ70 consensus TATAAT op -10 Andere regulatoren in/achter promotor, vaak negatieve regulatie Verschillende genen vaak samen afgeschreven in 1 operon 5' Promotor CDS DNA
Prokaryoten Start translatie Shine-Delgarno sequentie (AGGAGGU) Vaak vlak achter promotor, vlak voor start codon Start codon AUG (zelden UUG of GUG) Terminatie transcriptie Geinverteerde repeat Kan haarspeld structuur vormen Kan RNA polymerase doen pauzeren Een zestal opeenvoldende Uracil nucleotiden vlak na deze repeat Zwakkere binding
Prokaryoten Open Reading Frame (ORF) = Stuk sequentie zonder stopcodons (in coderend stuk zitten er nl. Geen stopcodons) Detectie van genen door grotere ORF te zoeken Meeste genen > 60 codons Willekeurig: 1 stopcodon per 21 codons (3/64) > 60 codons -> ws. Gen
Prokaryoten Genpredictie in prokaryoten Continue genen Meestal lange ORFs (> 60 codons) Relatief simpel herkenbare promotors Herkenbaar einde transcriptie Meeste nucleotiden zijn coderend Problemen Korte genen (~korter dan 60 codons) Sequentie fouten (ORF is hier gevoelig voor) Overlappende genen op beide strands
Eukaryoten Eukaryote genomen Slechts enkele procenten zijn coderend Complexe genstructuur splicing Geneste en overlappende genen Alternatieve splicing ~ verschillende isovormen Lange genen CDS verspreid over grote gebieden (lange intronen) Niet simpelweg zoeken naar ORFs Promotor geconserveerde sequenties diffuser en veel verder van start
Van DNA tot proteine Upstream Downstream Genomisch DNA Promotor Intron 1 Intron 2 Intron 3 Intron 4 Genomisch DNA 5' 3' Exon 1 Exon 2 Exon 3 Exon 4 Exon 5 DNA Transcriptie en processing CAP Intron 1 Intron 2 Intron 3 Intron 4 PolyA (7-methylguanosine) Exon 1 Exon 2 Exon 3 Exon 4 Exon 5 pre-mrna Splicing CAP 5'UTR CDS 3'UTR PolyA mrna Translatie Proteïne Posttranslationele processing
GFF GFF General Feature Format (vroeger Gene Feature Format ) Eenvoudig, standaard formaat voor identificatie regios in een sequentie (exon, CDS,...) Verschillende velden met vaste volgorde (gescheiden door TAB karakters) Eerste lijn commentaar (begint met #) die file formaat en versie aanduid Volgende lijnen data Gemakkelijk te bekijken, vergelijken, testen, integreren
GFF ##gff-version 3 SEQ1 EMBL mrna 103 322. +. ID=gene1 SEQ1 EMBL CDS 103 173. + 0 Parent=gene1 SEQ1 EMBL splice5 173 174. +. SEQ1 netgene splice5 173 174 0.94 +. SEQ1 EMBL CDS 263 322. + 2 Parent=gene1 seqid bron feature start einde score streng fase attributen seqid: naam van de sequentie bron: programma, publieke database annotatie, experimenteel feature: feature type, karaktereigenschappen start: getal dat begin van feature op sequentie aangeeft (nummering start met 1) einde: getal dat einde feature aangeeft score: getal waarschijnlijkheid dat deze voorspelling correct is (. voor geen score) streng: +, - or. (. wordt gebruikt wanneer niet relevant) fase: 0,1,2 or. Geeft aan waar deze feature zit t.o.v. het reading frame hoeveel nucleotiden vanaf start feature horen nog bij vorige codon [group/attributen]: optioneel, in de vorm van tag1=value1;tag2=value2; ID en Parent tags kunnen worden gebruikt om een hierarchie aan te geven [comments]: optionele string
Accuraatheid Vergelijking methoden Met gekende genen (test set) voorspellingen van verschillende methoden vergelijken testset eigenlijk liefst zo representatief mogelijk voor wat je gaat vergelijken Standaard test en trainings datasets (Burset and Guigo, Reese) Maar Bias in training data door welke genen aanwezig zijn in de databases Bias naar standaard test sets/genen 1 gen per sequentie vs meerdere/partiele in reëele data Toelaten organisme specifieke training? In hoeverre zijn deze standaard test/training sets representatief
Accuraatheid EGASP ENCODE Genome Annotation Assessment Project Workshop om accuraatheid voorspellingen na te gaan ENCODE, HAVANA hoge kwaliteit annotatie op manuele en experimentele basis (langdurig en kostelijk) een deel hiervan vrij gegeven (als trainings data) deelnemers werden gevraagd om met hun methoden de overige encode regios te annoteren (zonder kennis van de experimentele annotatie) vergelijking automatische predictie met annotatie verschillende categorien: 1. eender welke informatie 2. enkel ab-initio 3. extrinsieke methoden 4. comparatieve methoden 5. nieuwe genen 6. ongewone genen 7. exon-only Doel Hoe goed reproduceren verschillende automatische methodes deze annotatie hoe ver rijkt onze kennis: predicties niet in de manuele annotaties worden uitgebreid experimenteel gecontroleerd via RT-PCR
Accuraatheid Categorie: Exon level TP = True Positives, TN = True Negatives FP = False Positives, FN = False Negatives Sensitiviteit: Sn = TP/(TP+FN) Proportie van echte exonen die correct voorspeld werd (beide einden exact correct)(start-stop op juiste positie) Specificiteit (volgens EGASP): Sp = TP/(TP+FP) Volgens klassieke definities heet deze maat eigenlijk de precision, de specificiy volgens klasieke definitie, TN/(TN+FN), kan hier niet gemakkelijk berekend worden Proportie van voorspelde exonen die correct voorspeld werd Hoe hoger Sp: hoe minder vals positieven Hoe hoger Sn: hoe minder vals negatieven Andere Hoeveel missing exons (niet voorspelde exonen)? Hoeveel wrong exons (volledig incorrecte voorspelling)? Hoeveel half exons (een uiteinde correct)?
Accuraatheid Categorie: Nucleotide level Sensitiviteit (Sn) = TP / (TP + FN) Proportie van exonische nucleotiden die correct voorspeld werd Specificiteit (Sp) (volgens EGASP) = TP / (TP + FP) Proportie van nucleotiden die voorspeld werden exonisch te zijn waarbij die voorspelling correct is
Accuraatheid Matthews Correlatie coefficient Probeert Sn en Sp samen te vatten in 1 getal 1 maat voor de globale accuraatheid van nucleotide predictie CC=(TP x TN FP x FN)/(ANxAPxPPxPN)-2 AN = Actual Negatives (FP+TN) AP = Actual Positives (TP+FN) PP = Predicted Positives (TP+FP) PN = Predicted Negatives (TN+FN) Tussen -1 and 1 1: perfecte predictie -1: perfect verkeerde predictie Waarde 0 betekent geen correlatie tussen predictie en werkelijkheid: ~ random toewijzing
Typische problemen Training Species specificiteit van signalen, training, parameters Goede datasets zijn moeilijk te vinden Experimenteel geverifieerd Representatief?! Alternatieve splicing is moeilijk te voorspellen Geneste genen
Overzicht methoden Extrinsieke methoden Vergelijking met cdna, ESTs, gekende proteinen Externe data BLAST, FASTA met databases -> exonen Spliced alignment Intrinsieke methoden Patroonherkenning Signal sensors Splice sites, start en stop codons, polya site,... Content sensors Coderende regios Geintegreerde methoden Comparative genomics Conservatie bij vergelijking van verschillende genomen Analyse pipelines
Extrinsieke methode: Spliced alignement Spliced alignement Alignatie van cdna ( enkel exonen), proteïne t.o.v. genomische sequentie Rekening houdend met intronen Grote gaps Positionering van gaps op intron grenzen Moeilijker door mogelijke overlap van alignmenten Upstream Promotor Intron 1 Intron 2 Intron 3 Intron 4 Downstream Genomisch DNA Exon 1 Exon 2 Exon 3 Exon 4 Exon 5 Genomisch DNA 5' 3' DNA CAP 5'UTR 3'UTR PolyA mrna
Spliced RNA alignement Soorten RNA EST Veel Lage sequentie kwaliteit, korte stukken transcript mrna, geclusterde ESTs Langer/volledig transcript Gen structuren Minder beschikbaar Interessantste goede spliced alignment van mrna ~ experimenteel bewijs! Annotatie van genomische regio Geschikte RNA sequenties evt. Vinden in databanken met bv. BLAST
Problemen Spliced RNA alignement Bias naar sterk geexpresseerde genen Meer informatie over sterk geëxpresseerde genen Weinig/facultatief geexpresseerde genen worden gemakkelijker gemist Sequentie kwaliteit bij fouten in de sequentie is correct alignatie moeilijker Contaminatie met genomische sequenties Wanneer er nog een intron in een mrna sequentie zit). Modellering splice sites
Spliced RNA alignement Programma's Spidey (zie oefeningen) Alignatie mrna, ESTS (lokaal alignement exonen) Gebaseerd op BLAST algoritme GeneSeqer sim4 Construct genomic windows: stringente BLAST, sorteren, consistente hits Alignement in windows: weinig stringente BLAST + Dotview Detectie splice sites (met PWM) in gebieden waar alignementen van exonen overlappen Beste splice sites (score) die de alignementen het minst verstoren Niet consistente hits worden eruit gefilterd. Ook minder verwante ESTs
Spliced proteïne alignement Spliced alignement met verwante, gekende proteïne sequenties Programma's Procrustes beste combinatie mogelijke exonen met dynamic programming Genewise (WISE2) dynamic programming, statistische modellen van splice sites Problemen Bias naar gekende genen/genfamilies Databases (SWISS PROT/TrEMBLE) met b.v. ook hypothetische/verkeerd geannoteerde proteïnen Modellering splice sites
Intrinsieke methoden Patroonherkenning Signal sensors Patronen met specifieke positie in genstructuur Splice sites, start en stop codons, polya site,... Methoden: Consensus sequenties, weight matrices, HMM, NN,... Content sensors Patronen in een regio (dus niet 1 specifieke positie) in genstructuur Coderende regios Methoden: Statistische analyse in window, HMM, Geintegreerde systemen Integratie van verschillende sensoren tot volledige genstructuur predictie meest gebruikt Ook wel eens ab-initio methoden genoemd = Vanuit eerste beginselen, zonder gebruik te maken van extra data (Maar: veel methoden gebruiken wel trainingsdata om patronen te leren...)
Promotor herkenning Polymerasen RNA polymerase I -40 tot +20 simpel rrna, snrna RNA polymerase II... tot -25 zeer complex coderende genen (belangrijkste) RNA polymerase III +50 tot +100 simpel trna, small RNAs Herkenbare elementen (~ niet altijd aanwezig) CpG eilanden bij sommige promotoren Initiator (Inr) sequentie [CT][CT]CA[GA][GA] rond +1 Transcriptie factoren (TF) Basale transcriptie factor bindende site rond -25 consensus TATA[AT]A[AT] TATA box Vele andere TF binding sites, en combinaties Dicht bij transcriptie start b.v. CAAT-box: zelfde orientatie, -80 Enhancers kunnen werken op grote afstand van transcriptie start, en in verschillende orientaties
Promoter herkenning TF databases TF binding sites gebaseerd op profielen/matrices TRANSFAC Zeer uitgebreid, commercieel JASPAR Open alternatief, kleiner, niet redundant, curated
Promoter herkenning Problemen TATA-loze promoters Transcriptie factor binding sites zijn zeer kort komen veelvuldig voor, ook buiten promotoren Zoeken naar combinaties Promotor kan groot gebied beslaan Context is belangrijk! Niet zoveel uitgebreid experimenteel bepaald
Promoter herkenning Programma's PromoterScan database van bindingssites van gekende transcriptie factoren MatInd en MatInspector Consensus matches met gekende TF bindingsplaatsen (TRANSFAC) TSSG/TSSW LDA combinatie van herkenning verschillende features (TATA-box, Inr signaal, upstream regio) CBS Promoter 2.0 Neurale netwerken geoptimaliseerd m.b.v genetische algoritmen CorePromoter QDA (Quadratic Discrimination Analysis) Zoekt TSS en core promoter in sequentie van beperkte lengte Neural Network Promoter Prediction time-delay neural network Markov Chain Promoter Finder
Splice sites Herkenbare elementen Donor consensus [CA]AG^GT[AG]AGt Acceptor consensus (T>C)nN(C>T)AG^gt Branch site tussen 18 en 40 basen upstream van 3' splice junctie Meestal in combinatie met coding bias Problemen overpredictie Context! U12 afhankelijke (AT-AC) splice sites Andere types intronen (vnl. In non-coding genes)
Splice site programma's NetGene2 Combinatie neurale netwerken en en rule-based systemen NNSPLICE Multi-layered feed-forward neural network BCM Genefinder HSPL (human) Triplet frequenties in de functionele gebieden van de splice regio in combinatie met codon statistieken SplicePredictor Logitlinear models Match t.o.v. Splice site consensus Lokaal compositioneel contrast
Startcodon Kozak rules Meestal eerste methionine van 5' dat je in transcript tegen komt = startcodon Consensus [AG]CCAUGG Programma's Netstart Neuraal netwerk gebaseerd op lokale start codon informatie en globale sequentie informatie Getraind op cdna sequenties ATGpr lineaire discriminant analyse
PolyA PolyA Herkenning plaats waar poly-a tail (200-250 A's) wordt aangehangen herkenning sequenties A[AT]TAAA ~20 basen voor knipplaats Zwak geconserveerd GT gebaseerd motief Werkt enkel in de juiste context! dikwijls laatste exon Programma's BCM GeneFinder POLYAH Triplet frequenties in functionele delen LDA
Coding potential Hoe coderend is een sequentie? Moet werkzaam proteïne produceren Evolutie van coderende sequenties wordt sterk beinvloed door het gecodeerde product Vele methoden om de coderendheid van sequenties te herkennen Van statistiek over een window van een bepaalde grootte Tot complexe machine learning technieken Moeilijker exacte grenzen te bepalen ~ combinatie met splice donor/acceptor
Coding potential Methoden gebaseerd op de (vertaalde) AZ sequentie ORF: afwezigheid van stop codons AZ of diaz gebruik Codon gebruik Codon usage vector: frequentie van 64 mogelijke codons Verschillen o.w.v. verschillend AZ gebruik, codon voorkeuren Bias in base samenstelling tussen codon posities Meest frequente codons RNY ([AG][UCAG][UC]) Positie assymetrie: assymetrie in basensamenstelling op de drie verschillende codon posities Periodiciteit Coderende sequence (CDS) heeft een inherente periodiciteit van 3 Vooral duidelijk in lange CDS; moeilijk voor korte CDS Auto-correlatie, FFT (fourier transformaties),...
Coding potential Invloed reading frame AZ samenstelling in coding frame vs niet-coding frame (meer stop codons dan bij toeval) Codon samenstelling in alle frames Codon positie correlaties (dinucleotide distributie) In-phase woorden Frequenties van voorkomen van woorden (lengte N) Hexameer frequenties zeer succesvol Omvat eigenlijk meeste hiervoor vermelde elementen Brengen correlaties over korte regios in rekening b.v. Codon eindigend op een G wordt meestal niet gevolgd door een codon dat begint met een G Machine Learning gebaseerde methoden HMM, NN training op gekende sets (experimenteel bepaalde CDS)
Coding potential Programma's GRAIL I GeneMark Glimmer Neuraal netwerk met shifting window Inhomogene Markov chain models Interpolated Markov chains
Geintegreerde systemen Vinden van volledige genstructuren kan via verschillende methoden Integratie van de resultaten van een aantal sensoren m.b.v. HMMs, neurale netwerken and decision trees Integratie binnen 1 systeem b.v. HMM Beste combinatie exonen met dynamic programming Evt. incorporatie homologie informatie
Genscan Forward Strand Model Genscan HMM Cirkels en ruiten functionele eenheden (toestanden) van een gen N neutraal (niet in een gen) Prom promotor 5' start transcriptie Exon Sngl voor genen die uit 1 enkel exon bestaan Exonen (Exon 0,1,2) en intronen (I0,I 1,I 2 ) worden geassocieerd met de fase (t.o.v. het reading frame) Bij test sequentie wordt elke base toegewezen aan een toestand Volledig model Getoonde model enkel forward strand ditzelfde ook nog eens voor reverse strand Genen in beide richtingen tegelijk voorspeld Reverse Strand gelijkaardig aan hierboven
Geintegreerde systemen GENSCAN Meerdere signaal en content modellen, HMM sensoren Verschillende modellen afh. Van GC Zeer goede resultaten AUGUSTUS Generalized HMM annoteert ook UTR, alternatieve transcripten. incorporatie van extrinsieke data is mogelijk (AUGUSTUS+) lijkt nog acurater dan Genscan (EGASP) TWINSCAN Gebaseerd op GENSCAN Incorporeert homologie informatie uit genome comparison GeneID, GeneID+ Signalen met Position Weight Matrices, coding potential met MM Combinatie exonen met dynamic programming GeneID+ incorporeert homologie data Goede resultaten, snelheid en geheugenverbruik
Geintegreerde systemen Eugène Combinatie van vele systemen, plugins Vnl. Getraind op plant genomen MORGAN Decision trees, dynamic programming GRAIL Verschilende sensoren+nn (neural networks) Combinatie rule-based GRAILExp Verbeterde sensoren Incorporatie EST/cDNA data GeneParser NN, dynamic programming Andere FGENEH, Genemark, Genemark.hmm, NetGene2, SORFIND, GenLang,VEIL, GENIE, HMMgene,...
Genome comparison Methode Vergelijking homologe genomische regios binnen verwante soorten bv. mens muis Studie van conservatie Regios met belangrijke functies (CDS, regulatoire gebieden) worden sterker geconserveerd Problemen Interessante homologe region moet beschikbaar zijn voldoende geconserveerd, maar niet helemaal Soms ook conservatie buiten CDS,... Conservatie duidt op belang regio, zegt niet direct welke functie (CDS, regulatie)
Genome comparison PipMaker Alignatie gebieden met BLASTZ pip: percent identity plot Percent identiteit van gap-vrije gealigneerde segmenten Uitzetten in grafiek positie in sequentie similariteit van de gealigneerde segmenten Veel/Langere alignmenten met hoge similariteit exonen, regulatoire elementen
PipMaker Pipmaker output Exonen in groen aangeduid Regulatoire gebieden in rood Intronen in het geel
Genome comparison AGenDA Kandidaat exonen Fragmenten gevonden met dialign alignatie algoritme Splice sites met PWM en start/stop codons in buurt van geconserveerde regios Beste combinatie met dynamic programming
AGenDa Agenda example
Genome comparison SLAM SGP2 Twinscan Simultane alignatie en predictie GPHMM (Generilized Pair HMM) onderscheid tussen conserved non-coding sequence (CNS; UTR, regulatoire elementen,...) en conserved coding sequence tblastx tussen 2 anonieme homologe genomische sequenties Geneid combineert hit data met ab-initio genpredictie Genscan gebaseerd algoritme combineert hit data met ab-initio genpredictie
Annotatie pipelines Pipeline Scripts/programma's die automatisch opeenvolging/combinatie van verschillende analyse programma's regelen Vaak parallelle computer systemen Alle annotatie wordt centraal verzameld, beschikbaar gesteld Voorbeelden Ensembl NCBI mapviewer