Bio-informatica Boom constructie Peter De Rijk 8
Waarom boomconstructie Evolutionaire analyse: verwantschap tussen genen en/of species Studie oorsprong en divergentietijden bv. divergentie mens-mensapen, oorspong van het HIV,... Evolutiegeschiedenis Testen van evolutionaire hypothesen convergentie, co-evoluties, geografische verspreiding,... Documentatie van de evolutie van genfamilies (door bv. genduplicaties) achterhalen recombinatie en/of horizontale gentransfer Similariteitsgroepen Verspreiding van ziekten ( epidemiologie) Maar ook Alignatie van sequenties (clustering methoden) Micro-array: clustering van genen met gelijkaardige expressie...
Moleculaire fylogenie Achterhalen evolutionaire geschiedenis op basis van moleculen Sequentie Sequentie databases databases Zoeken op annotatie: Entrez, SRS Zoeken op sequentie: FASTA, (PSI) BLAST Automatische alignatie: ClustalW, Dialign,... Controle en finetuning alignment: Bioedit, DCSE,... Homologe Homologe sequenties sequenties Sequentie Sequentie alignement alignement econtroleerd sequentie sequentie alignement alignement Boomconstructie: Phylip,... Phylogenetische bomen bomen
Fylogenetische bomen Wat? rafische voorstelling (topologie) van evolutionaire verwantschappen tussen Otu Otu Operational Taxonomic Units Uiteinden (leaves) van de boom bv. Sequenties, taxa, species Soorten Ongewortelde bomen Oorsprong (root) is ongeweten, kan op verschillende plaatsen liggen ewortelde bomen De oorsprong wordt aangeduid ( stam helemaal links) Boom constructie Vinden van de boom die het best in overeenstemming is met de gegevens van de eindpunten C A D B E F Ongewortelde boom A B C D E F ewortelde boom
Boomconstructie methoden Expliciet evolutiemodel Karakter gebaseerd Maximum likelihood Niet karakter gebaseerd Afstandsmethoden een expliciet evolutiemodel Maximale spaarzaamheid
Basis Maximale spaarzaamheid Beste boom = degene die het minste aantal mutaties vereist Methode.Onderzoek (in theorie) alle mogelijke topologieën (bomen) 2.Reconstrueer voor elke mogelijke topologie de ancestrale sequenties (op de knooppunten) 3.Tel het minimum aantal substituties nodig voor elke topologie 4.Kies de topologie met minste mutaties
Methode 3 2 4
Aantal topologieën Probleem Voor 4 sequenties slechts 3 (ongewortelde) topologieën Aantal stijgt spectaculair bij meer sequenties 'exhaustive search' (alle topologieën bestuderen) is praktisch slechts mogelijk bij zeer klein aantal sequenties (~0)
Aantal topologieën OTU's ewortelde Ongewortelde bomen bomen 3 3 4 5 3 5 05 5 6 954 05 7 0395 954 8 3535 0395 9 2027025 3535
Heuristiek
Heuristiek Stepwise addition Telkens toevoegen nieuwe taak aan beste boom tot dan Heuristiek beperkt aantal te onderzoeken topologieën Meest spaarzame boom wordt niet altijd gevonden Branch swapping Testen van een aantal alternatieve topologieën door boom in stukken te breken en in een andere configuratie terug in elkaar te zetten Vind soms betere boom die gemist werd door stepwise addition
Branch swapping
Informativiteit Enkel posities waarin verschillende basen 2 keer voorkomen zijn fylogenetisch informatief
Consensus bomen A B C D E F A C B D E F of? Vaak verschillende bomen met eenzelfde aantal substituties Consensus boom Voor groepen waar de vertakkingsvolgorde verschilt in verschillende optimale bomen, wordt een multifurcatie gebruikt A B C D E F Consensus boom
Taklengte Bomen vaak zonder taklengten Dikwijls niet mogelijk te beslissen in welke tak mutatie zit Aantal mutaties per tak vaak niet te bepalen Taklengten niet relevant
Maximale spaarzaamheid Conclusies Klassieke methode Voordelen Alternatieve topologieën een reductie van sequentie informatie; volledige info wordt gebruikt. Nadelen Traag, zeker voor grote datasets een correctie voor meervoudige mutaties evoelig voor ongelijke evolutiesnelheden in verschillende takken
Basis Afstandsmethoden Informatie reduceren vóór het maken van boom Dissimilariteiten tussen alle mogelijke paren sequenties: fractie geobserveerde verschillen Omzetting naar evolutionaire afstanden via alignement Schatting aantal werkelijk gebeurde mutaties Correctie voor meervoudige- en terugmutaties Zoeken naar topologie die in overeenstemming is met deze afstanden Distance matrix methoden Afstanden meestal in de vorm van een matrix
Evolutionaire afstanden: RNA/DNA Ribosomaal RNA Niet proteine coderend Wordt erg veel voor evolutionaire studies gebruikt Komt in alles voor (behalve virussen) Sterk geconserveerde en ook meer divergente delen een laterale gen transfer
Evolutionaire afstanden: RNA/DNA UCAAUCAUUCA 2 UCCAUUAACUCA 3 UUCAAUCACCCA 2 3 2 3 4/5=0.267 5/5=0.333 5/5=0.333 d = -3/4 ln(-4/3 f) 2 3 2 0.328 3 0.440 0.440 Correcties volgens substitutiemodel b.v. Jukes & Cantor voor meervoudige mutaties in DNA sequenties (zie verder)
Substitutiemodel Substitutie modellen Beschrijft de kans dat een nucleotide (of aminozuur) wordt vervangen (substitutie) door een ander nucleotide (of aminozuur) Kan voorgesteld worden in een matrix (zie bv. onder) Voor proteïne sequenties, zie score matrices π A,π,π C,π T = frequentie (hoeveelheid) van A,, C en T a,b,c,...,l = snelheid waarmee elk nucleotide kan vervangen worden door elk andere nucleotide Time reversible: als g=a, h=b, j=d, k=e en l=f
Jukes & Cantor substitutiemodel Premissen Alle substituties zijn onafhankelijk van elkaar Alle posities hebben dezelfde kans om substitutie te ondergaan Elk nucleotide heeft evenveel kans om te muteren naar eender welk ander nucleotide Inserties of deleties worden niet in rekening gebracht Matrix πa = π = πc = πt a=b=c=d=e=f=g=h=i=j=k=l
Jukes & Cantor substitutiemodel.4.2 d JC = 3 4 ln ( 4 3 f ) Jukes&Cantor ecorrigeerd voor meervoudige mutaties op dezelfde positie evolutionaire afstand > fractie verschillen evolutionaire afstand d Fractie verwachte verschillen 0.8 0.6 een correctie Niet gecorrigeerd evolutionaire afstand = fractie verschillen 0.4 0.2 0.25 0.5 0.75 Dissimilariteit f Fractie geobserveerde verschillen 2 Willekeurige nucleotide sequenties ~ 25% identiteit verwacht fractie verschillen ~ 75% Zijn niet verwant evolutionaire afstand oneindig
Andere substitutie modellen Kimura's 2 parameter model Transitie & transversie/verschillende mutatie rates Complexere modellen, b.v. 2 parameter model Zeer complex mathematisch geven niet echt betere resultaten (veel meer assumpties nodig) Niet courant gebruikt
Ongelijke substitutie snelheden Problemen bij Jukes & Cantor: Afwijkingen naar hogere C gehaltes Ongelijke substitutiesnelheden van verschillende posities in een sequentie-alignement econserveerde stukken (functionele of structurele constraints) vs. neutrale evolutie Onderschatting van grote evolutionaire afstanden Neiging om artificeel lange takken te clusteren ver uit elkaar gelegen sequenties lijken dichter Correcties hiervoor leveren vaak betrouwbaardere bomen op
Ongelijke substitutiesnelheden 20 substituties bij identieke substitutie rate op alle posities roen = terugmutatie Rood = mutatie 2 3 4 5 6 7 8 9 0 2 3 4 5 6 7 8 9 20 Substituties: gebeurd = 20 afstand = 20/20 = eobserveerd = 4-3 = afstand = /20 = 0.55 20 substituties bij verschillende substitutie rates 2 3 4 5 6 7 8 9 0 2 3 4 5 6 7 8 9 20 Substituties: gebeurd = 20 afstand = 20/20 = eobserveerd = 9- = 8 afstand = 8/20 = 0.4
amma distributie amma distributie kan gebruikt worden als model voor de heterogeneiteit in substitutie snelheid Welke distributie (parameter α) hangt af van de dataset In principe kan/moet je α berekenen op basis van het alignement wel vaak bv. α= als default genomen bv. α=20 meeste posities substitutie rate ~ weinig posities met veel grotere of kleinere r bv. α= meeste posities substitutie rate bijna 0 andere r komen ook veel voor
Ongelijke substitutiesnelheden evolutionaire afstand d Fractie verwachte verschillen d d JC = 3 4 ln ( 4 3 f ) JN = 3 4 α(( 4 α 3 f ) ) Methode van Jin &Nei.4.2 0.8 0.6 0.4 0.2 Jin&Nei Jukes&Cantor 0.25 0.5 0.75 Dissimilariteit f Fractie geobserveerde verschillen een correctie ~ Jukes&Cantor, maar houdt rekening met ongelijke substitutie snelheden Welke gamma distributie Parameter α Aanpassing evolutionaire afstand nog groter (J&C is nog altijd onderschatting)
Clustering Boom reconstructie Oudste methode Sequentiele clustering van meest verwante groepen in de afstands matrix Herberekening matrix Eenvoudig te implementeren snel
Clustering roepeer OTU's met kleinste onderlinge afstand in matrix A,B,C,D,E : verschillende taxa A & B liggen het dichtste bij elkaar A B A B C D E B 2 C 4 4 D 6 6 6 E 6 6 6 4 F 8 8 8 8 8
Clustering Bereken nieuwe afstanden tussen groep AB en andere OTU's d (AB)C = (d AC +d BC )/2 = 4... roepeer OTU's met kleinste afstand (AB) C D E C 4 D 6 6 E 6 6 4 F 8 8 8 8 2 2 A B D E
Clustering Bereken nieuwe afstanden tussen groep AB en andere OTU's d (DE)(AB) = (d D(AB) +d E(AB) )/2 = 6... roepeer OTU's met kleinste afstand (AB) C (DE) C 4 (DE) 6 6 F 8 8 8 2 2 2 A B C D E
Clustering Bereken nieuwe afstanden tussen groep AB en andere OTU's d (ABC)(DE) = (d (AB)(DE) +d C(DE) )/2 = 6... roepeer OTU's met kleinste afstand (ABC) (DE) (DE) 6 F 8 8 2 2 2 A B C D E
Clustering Bereken nieuwe afstanden tussen groep AB en andere OTU's d (ABC)(DE) = (d (AB)(DE) +d C(DE) )/2 = 6... roepeer OTU's met kleinste afstand (ABC),(DE) F 8 Resultaat ewortelde boom Afstand van wortel tot alle eindnodes is dezelfde 4 2 2 2 A B C D E F
Boom reconstructie Clustering verschillende methoden WPMA (in voorbeeld) Weighted Pair roup Method with Arithmetic mean Bij samengestelde groepen gemiddelde van gemiddelden UPMA Unweighted Pair roup Method with Arithmetic mean Bij samengestelde groepen gemiddelde genomen van de afstanden tot alle taxa in de groep
Clustering Boom reconstructie Veronderstelt (zou correct zijn voor) ultrametrische data Ultrametrische data = data met devolgende eigenschappen Additief distance tussen twee taxa = som van de lengtes van alle takken tussen twee taxa elijke evolutie snelheid in alle takken er kan een wortel gevonden worden zodanig dat alle taxa even ver van deze wortel verwijderd zijn Komt in de praktijk (matrix van afstanden berekend op basis van bv. moleculaire data) niet echt voor (Meervoudige) mutaties op dezelfde posities Fouten in model/correcties Stochastische verschillen in bv. evolutiesnelheid Verschillen in evolutiesnelheid
Additieve methoden Additieve data Distance tussen twee taxa = som van de lengtes van alle takken tussen twee taxa In realiteit zijn matrices zelden additief Stochastische fouten Fouten in het model Methoden Transformed distance omzetting naar ultrametrische data, clustering Fitch-Margoliash Boom met minimale error bij het fitten van experimenteel bepaalde afstanden met deze berekend op basis van de boom tijdsintensief
Neigbor-joining Methode Vergelijkbaar met cluster analyse Minimum in Q-matrix (gebaseerd op distance matrix) Afstand tussen elk paar nodes wordt aangepast op basis van de afstand ten opzichte van alle andere nodes Meest nabije nodes (in Q-matrix) worden gelinkt Vervangen door een ancestrale node Afstanden van alle nodes to nieuwe node berekend Herhalen Ongewortelde boom ebruik van een outgroup om de wortel te bepalen...
Neigbor-joining Voordelen Zeer snel, grote datasets goede resultaten Minder gevoelig voor ongelijke evolutiesnelheden in verschillende takken van de boom Kan ongelijke taklengtes hebben Nadelen Slechts resultaat kan geen suboptimale/alternatieve resultaten terug geven Ongewortelde bomen
Afstandsmethoden Voordelen Snel Laten verwerking grote datasets toe Correctie voor meervoudige - en terugmutaties emakkelijker stabiliteit te testen bij veranderende datasets Nadelen sterke reductie fylogenetische informatie sommige methoden (zoals bv. neighbor-joining) geven slechts topologie en laten niet toe om alternatieve topologieën te onderzoeken Soms sterke afhankelijkheid van het gevolgde substitutiemodel
Basis Maximum likelihood De kans dat het door een boomtopologie gesuggereerde evolutieschema heeft geleid tot de sequenties waarover men beschikt ebaseerd op een bepaald substitutiemodel Voor elke mogelijke boomtopologie Elke positie in het alignement wordt afzonderlijk geevalueerd esofistikeerde statistische methoden
Maximum likelihood Voordelen Statistisch zeer goed onderbouwd Mogelijk om te corrigeren voor meervoudige - en terugmutaties ebruikt volledige sequentie informatie Mogelijk om alternatieve boomtopologieën te onderzoeken Robuust tegen foute assumpties in evolutie model Dikwijls een lagere variantie dan de andere methoden Nadelen Zeer traag Ook afhankelijk van het gevolgde substitutiemodel
Betrouwbaarheid van evolutiebomen Factoren die boomconstructie beinvloeden Stochastische (toevallige) fouten Systematische fouten verkeerde veronderstellingen maakt. b.v. door het Jukes en Cantor model toe te passen om sequenties met zeer verschillende C inhoud. versnelde evolutie in verschillende takken van de boom (ongelijke evolutiesnelheden) ongelijke substitutiesnelheden afwijkingen in de sequentie-inhoud 'gene tree' is niet gelijk aan 'species tree' horizontale gen-transfer convergente evolutie Afhankelijk van gebruikte molecule om boom op te bouwen Enz...
Bootstrap analyse eeft een idee van de betrouwbaarheid v.d. boom Methode Een (groot) aantal datasets wordt geconstrueerd op basis van de originele dataset Random selectie van posities in originele alignement tot een even groot aantal posities bereikt wordt positie kan dus meerdere keren voor komen in elke nieuwe dataset, sommige posities komen niet voor C C 4 C 2 A A A C 2 C C 4 A A A C 2 3 C C 4 T T - 5 C 2 C 2 C 2 T T - 5 A A A 3 A A A 3 C C 4 T T - 5 T T - 5...
Bootstrap analyse Op basis van elke nieuwe dataset wordt een boom geconstrueerd Op elke tak van de originele boom wordt aangeduid hoe dikwijls deze groep werd teruggevonden in alle aangemaakte bomen groepen die in vrijwel alle bomen teruggevonden zijn veel betrouwbaarder
Bootstrap analyse Resultaten Idee van de betrouwbaarheid van verschillende takken in de boom eeft enkel informatie over stochastische fouten Sample size moet groot zijn Zijn niet altijd betekenisvol o.w.v. Systematische fouten worden er niet uitgehaald Sommige afwijkingen in de dataset bv. twee sequenties samen clusteren omwille van een gemeenschappelijke afwijking in C gehalte
Conclusies Vergelijking van resultaten op basis van Verschillende methoden Verschillende molecules Verschillende datasets Boomconstructie Programma's Phylip Klassieker, vele methoden rote lijst (93 programma's, 8 servers) http://evolution.genetics.washington.edu/phylip/soft ware.html