Bio-informatica Similariteit. Peter De Rijk

Transcriptie

1 Bio-informatica Similariteit Peter De Rijk 5

2 Similariteit, niet zo simpel

3 Similariteit Similariteit is afhankelijk van de gekozen parameters Grootte, Kleur Functie Afkomst... Globale similariteit (families) Sterk gelijkend Alle parameters zijn vergelijkbaar Locale similariteit (superfamilie) Niet alle componenten zijn gemeenschappelijk Vergelijking van de gemeenschappelijke componenten

4 Homologie Relatie door afkomst een gemeenschappelijke voorouder sequentie is gedivergeerd in verschillende sequenties door base/az Substitutie Insertie (extra base/az) Deletie (verdwijnen van base/az) Kan wijzen op een gelijkaardige functie Twee sequenties zijn homoloog of niet homoloog geen percentage homologie!

5 Similariteit vs. Homologie Similariteit wijst op homologie, maar is geen sluitend bewijs Convergente evolutie (structurele, functionele constraints) Deel similariteit bij toeval Similariteit wordt ook beinvloed door andere factoren GC content, complexiteit, coding frames Hoge similariteit -> homologie waarschijnlijker Locale homologie Relaties kunnen verschillen voor verschillende delen van een sequentie: domeinen

6 Similariteit Mathematisch concept 'Distance score' of 'similarity score' Distance: hoe hoger de score hoe minder ze op elkaar gelijken Similarity: hoe hoger de score hoe meer ze op elkaar gelijken Eigenlijk equivalent Om score te berekenen moet je rekening houden met: Welke parameters worden bekeken Hoe worden verschillen voor een parameter gescoord en gewogen Hoe wordt de uiteindelijke distance/similarity berekend

7 Geometrische afstand Geometrische afstand vierkantswortel van de som van de afstand tussen alle parameters in het kwadraat Vereist numerieke parameters Afstand tussen parameters = verschil van twee getallen (: moeilijk voor volledige sequenties) op basis van bv. base/az samenstelling Oligo nucleotide/peptide samenstelling Wordt weinig gebruikt Brengt niet hele gelijkenis in rekening Wel snel (bv. voor grove schatting)

8 Alignement Vergelijken van sequenties door ze onder elkaar te zetten De similaire karakters van de verschillende sequenties worden geplaatst op dezelfde posities in een matrix Een 'gap' of 'indel' symbool kan worden ingevoegd op een positie om de relatieve positie van de andere karakters te bewaren Substitutie: verschillende karakters op zelfde positie W O O R D W O R T

9 Alignement W O O R D W O R T W O O R D - W O R - T W O O R D W O R T - Distance of similarity score kan berekend worden op basis van een alignement bv. aantal substities en indels Veel verschillende alignementen mogelijk Similariteitsscore tussen 2 sequenties is score van beste (optimaal) alignment

10 Optimaal alignement Wiskundig optimaal alignment Alignment met de hoogste similariteits score / laagste distance score (zie verder) Afhankelijk van parameters gebruikt voor scoring Biologische optimaal alignment Homologe karakters op dezelfde positie meestal, kan ook structureel, functioneel,... Komt niet altijd overeen met wiskundig optimaal alignement

11 Alignment Scores Aantal (of percentage) identiteiten Conceptueel eenvoudige similariteitsscore Eenvoudig te berekenen Maar Wat met indels (inserties / deleties)? Gelijkende maar niet gelijke AZ? Edit distance Aantal stappen (substitutie, insertie, deletie) nodig om de ene sequentie te veranderen in de andere; hoe meer stappen nodig, hoe minder similariteit W O O R D W O R T

12 Alignment Scores Weighted distance Tabel met de kost of score voor elke mogelijke substitie (gealigneerde AZ of NZ) Indel of gap symbool wordt hierbij beschouwd als een karakter en krijgt dus ook een bepaalde kost, net zoals een substitutie een kost krijgt Score : som van alle kosten/scores W O O R D W O R T

13 Relatieve weging gaps en substituties WOORDEN WOORDEN W-OORD-EN WE--TEN WE-T-EN WE----TEN mismatch = 1,gap = mismatch = 1,gap = mismatch = 2,gap = mismatch = 2,gap = 1,gap penalty = 1

14 Weging van gaps Problemen weging gaps Gewicht gap moet niet perse proportioneel zijn tot de grootte van de gap 1 evolutionaire event kan aanleiding geven tot een gap van meer posities 1 gap kan wel het gevolg zijn van meerdere events Weging gap t.o.v. substitutie Insertie / deletie is minder waarschijnlijk dan mutatie/substitutie, maar hoeveel minder? Arbitraire parameters

15 Weging gaps Tabel Verschillend gewicht voor alle mogelijke gap groottes Te computer intensief, grote tabellen, weinig gebruikt Affine gap cost Score gap: formule die verband legt tussen lengte en weging Gewicht = (gap penalty) + (indel penalty)*(aantal indels) Meest gebruikte weging Gap penalty groter dan indel penalty 2 arbitraire parameters! (Niet theoretisch afgeleid)

16 Weging/scoring substities Score matrices Niet alle substituties zijn even waarschijnlijk bv. Vervanging van een AZ door een gelijkaardig AZ vs door een compleet ander soort AZ Tabel met verschillende scores voor substitutie van elk karakter met een elk ander karakter Gebaseerd op de (on)waarschijnlijkheid van deze substituties Ook weight matrices of substitution matrices genoemd

17 Theoretische NZ score matrices Identiteits matrix Simpelste Score voor identieke / niet identieke karakters Typisch voor DNA scoring Eventueel + ambiguiteits codes Eventueel verschillende scores match/mismatch Identiteits matrix A T C G A T C G BLAST matrix A T C G A T C G

18 Theoretische NZ score matrices Transitie/Transversie matrix Transitie (behoud van ringstructuur A-G,T-C) is wss. dan transversie (penalty kleiner) Theoretisch iets beter maar wordt weinig gebruikt Transitie/Transversie A T C G A T C G

19 Theoretische AZ matrices Genetic code scoring Aantal base veranderingen nodig om codon te veranderen Chemische similariteit Verschillend gewicht naarmate gelijkaardige fysico-chemische eigenschappen Polair-niet polair, grote, lading, vorm

20 Experimentele score matrices Empirische vastelling van de waarschijnlijkheid van substituties Op basis van ondubbelzinnige alignementen (geen/nauwelijks gaps) Belangrijkste: PAM of Dayhoff's mutatie data matrices Gebaseerd op globale alignementen van sterk gelijkende sequenties; grote extrapolatie BLOSUM Locale alignementen van minder verwante sequenties Superieur aan theoretische matrices

21 PAM of Dayhoff's matrices Geobserveerde substituties Globale alignementen van sterk gelijkende sequenties (>85% identiteit) Vele groepen (cytochrome c, insuline, globine,...)

22 PAM of Dayhoff's matrices PAM Percent Accepted Mutations of Point Accepted Mutations per 100 residues Eenheid van tijd of evolutionaire afstand de tijd nodig om één AZ te vervangen in een sequentie van 100 AZ met een gemiddelde aminozuursamenstelling Evolutie model: gebruikt assumpties: alle sites hebben eenzelfde mutatie kans en zijn onafhankelijk

23 Constructie PAM matrix Vind aantal geaccepteerde substituties maak phylogenetische bomen (zie later) bereken ancestrale sequenties Tel A ab = aantal keer AZ b vervangen werd door AZ a (frequentie) Er wordt verondersteld dat mutaties even waarschijnlijk zijn in beide richtingen een substitutie G A wordt ook geteld als een A G bv. A GA = A AG =3 ACGCTAFK I I L A G ACGCTAFKL GCGCTAFKI G A C S A L A G ACACTAFKL ASGCTAFKL GCGCTLFKI GCGCTGFKI

24 Constructie PAM matrix Genormaliseerde aminozuurfrequenties nodig voor berekening p a = aantal keer AZ a voorkomt aantal keer eender welk AZ voorkomt relatieve blootstelling voor mutaties voor alle aminozuren vb. ALA komt meer voor dus heeft meer kans op een mutatie (: deletie, insertie, substitutie,...) som voor alle AZ = 1

25 Constructie PAM matrix Genormaliseerde aminozuurfrequenties (p a waarden) Ala Gly Lys Leu Val Thr Ser Asp Glu Phe Asn Pro Ile His Arg Gin Tyr Cys Met Trp 0.012

26 Constructie PAM matrix Relatieve mutabiliteit m a ma = hoe waarschijnlijk is het dat een bepaald AZ a door eender welk ander AZ wordt vervangen ma = (genormaliseerde aminozuurfrequentie van AZ a) x (aantal keer AZ a werd vervangen in observaties) x λ de mutabiliteit wordt vermenigvuldigd met een schaal factor λ =1/100 omdat bij 1 PAM gemiddeld 1 AZ veranderd per 100 AZ

27 Mutation probability Matrix Mutation Probability Matrix (M1) geeft de kans dat AZ a vervangen wordt door AZ b op 1 PAM? = (mutabiliteit van a) x (aantal observaties waarbij a wordt vervangen door b tov. aantal observaties waarbij a muteert) Simulatie van evolutie Random verandering van elk AZ volgens probabiliteiten in M1 Sequentie van 100 AZ met een gemiddelde aminozuursamenstelling -> gemiddeld 1 AZ verandering

28 PAM1 matrix Schaal x Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr Val A R N D C Q E G H I L K M F P S T W Y V Ala A Arg R Asn N Asp D Cys C Gln Q Glu E Gly G His H Ile I Leu L Lys K Met M Phe F Pro P Ser S Thr T Trp W Tyr Y Val V

29 Constructie PAM matrix Afleiding andere matrices Opeenvolgende toepassing van M1 op een sequentie 2 maal gemiddeld 2 AZ verandering = PAM2 3 maal gemiddeld 3 AZ verandering = PAM3. Equivalent met toepassing op sequentie van M1*M1 (= PAM2) M1*M1*M1 (= PAM3)... Nadeel : is extrapolatie!

30 Constructie PAM matrix PAM matrices voor verschillende evolutionaire afstanden 0 PAM Mij = 0, Mjj = 1 (ij= verschillende positie/ jj= zelfde positie) PAM250 nog ongeveer 20% identiteiten Mutaties kunnen op dezelfde plaats gebeuren/ origineel AZ kan terug geplaatst zijn infinity PAM AZ samenstelling dataset/alles aangepast Matrices zijn afhankelijk van compositie dataset

31 Odds ratio Log Odds Matrix Kans alignatie door evolutie vergelijken met de kans op toevallige alignatie Hoe groter de odds ratio, hoe meer kans dat er similariteit bestaat door evolutie Log odds matrices Score matrix gewoonlijk in de vorm van een log odds matrix Sab = log(q ab /(p a p b )) q ab = de frequentie waarmee a en b gealigneerd geobserveerd worden p a, p b = frequentie van voorkomen van a en van b

32 Log Odds Matrix Scoring alignment met log odds matrix vermenigvuldigen van de odds ratios voor alle posities hoeveel waarschijnlijker is dit alignment door evolutie ontstaan dan door toeval Waarden in de score matrix worden meestal gegeven als logaritme van de odds ratios Met logaritmes kunnen we optellen ipv. Vermenigvuldigen! Afgeleid van M1 S ab = log(m ab /p a ) p a = genormaliseerde frequentie van het vervangend AZ a

33 'Log Odds' Matrix voor 250 PAM Schaal x 10 AZ die op elkaar lijken hebben een hogere score AZ die sterk van elkaar verschillen hebben een lagere score Een score van 2 in deze tabel betekent dat een paar bijna 1.6 keer meer voorkomt dan het toeval zou voorspellen ( ). Een score van 12 betekent dat een aminozuurpaar bijna 16 keer meer voorkomt dan dit op basis van toeval zou mogen ( ) Een score van -10 betekent dat een bepaald paar aminozuren 10 maal minder frequent voorkomt dan het toeval zou voorspellen (10-1 )

34 PET91 matrix PAM matrices Relatief kleine dataset Sommige mogelijke mutaties kwamen niet voor in de dataset PET91 Later gemaakt op dezelfde manier als de PAM matrices Op basis van een veel grotere dataset

35 BLOSUM PAM gebaseerd op sequenties met > 85% identiteit voor verdere verwantschappen enkel afgeleid BLOSUM matrices BLocks SUbstitution Matrix Locale alignementen geconserveerde gebieden of blokken in BLOCKS database minder verwante sequenties Rechtstreeks berekening, geen extrapolaties

36 Constructie BLOSUM matrix Constructie Frequentie tabel qab Hoe dikwijls worden AZ a en b gepaard teruggevonden in deze alignmenten q ab = probabiliteit voorkomen van paar ab Probabiliteit van voorkomen van AZ a Verwachte frequentie van paar a en b e aa = p a2 (a = b) e ab = 2p a p b (a niet b) Log odds matrix

37 BLOSUM matrix Verschillende BLOSUM matrices Verschillend gewicht op basis van gelijkenis om verschillende evolutionaire afstanden in rekening te brengen Clustering in groepen van sequenties die een percentage identeit hebben hoger dan een gegeven treshhold Weging bijdrage op elke positie zodanig dat alle sequenties van 1 cluster worden gewogen als 1 sequentie bv. BLOSUM80 clustering van sequenties met 80% identiteit Alles wat meer dan 80% op elkaar lijkt wordt als dezelfde sequentie aanzien Lage BLOSUM matrices: verre verwantschappen Hoge BLOSUM matrices: minder ver

38 PAM250 Welke matrix Veel gebruikt ~20% identity Verre verwantschappen (twilight zone) PAM120 ~ 40% identity Beter compromis voor database searches waar verwantschap niet vooraf is gekend Best combinatie verschillende matrices Volgens Altschul: PAM40, PAM120 en PAM250 Lage PAM matrices -> korte stukken sterk gelijkende sequenties Hoge PAM matrices -> lange stukken minder gelijkende sequenties

39 BLOSUM Welke matrix Meer sensitief voor verdere verwantschappen Meer tolerantie voor minder frequente substituties Bleek beste voor het terugvinden van gekende leden van proteine families In testen zijn er echter ook significante similariteiten die niet werden gedetecteerd met BLOSUM matrices en wel met PAM BLOSUM62 Standaard voor database searches

40 Welke matrix Conclusie Experimentele superieur aan theoretische Compromis: PAM120 of BLOSUM62 Best combinatie verschillende matrices Wanneer familie gevonden: heraligneer met toepasselijke matrix

41 Alignementen Toepassingen Dotplot Paarsgewijze alignatie Multiple alignementen

42 Toepassingen alignementen Databank searches Vinden van gelijkende sequenties (op basis van meta data) Zelfde sequenties met fouten b.v. EST's Verwante sequenties: afleiden van informatie over structuur, functie,... Verwante regio's sequenties: domeinen,... Bouw en studie van genfamilies Geconserveerde en niet geconserveerde gebieden functie, probes, primers, Afleiden structuur door comparatieve analyse Genome comparison: geconserveerde gebieden wijzen op aanwezigheid genen, regulatie, Fylogenie: studie van de ontstaansgeschiedenis van een groep organismen

43 Dot plot: 1 van de allereerste manieren om een alignement te zoeken. 2 sequenties uitzetten in matrix en gelijkenissen aanduiden. Elk punt geeft een gelijkenis aan. Een lange lijn geeft aan dat dat deel gelijkaardig is. Een indel geeft een verspringing in de diagonale lijn. Dot plot

44 Paarsgewijze alignatie Automatische alignatie 2 sequenties Zoeken beste alignement: wiskundig Alignement met maximale similariteit score (of minimale distance score) afhankelijk van model, parameters (zoals find gap coast, mismatch, penalty,...) is niet altijd beste biologische alignement hangt echter ook af van model : evolutief, structureel, functioneel

45 Paarsgewijze alignatie Globale en lokale alignementen globaal: gelijkenis over gehele sequentie semiglobaal: geen weging van terminale gaps (vanwege bv incomplete gegevens) lokaal: regios van gelijkenis

46 Dynamic programming Groot aantal alignementen mogelijk Praktisch niet haalbaar om score te berekenen voor alle mogelijke alignementen Oplossing? = Dynamic progamming Oplossing probleem via het oplossen van kleinere, berekenbare overlappende subproblemen Beste score alignement afhankelijk van beste scores alignementen van deel van sequenties Voortgaan op eerder berekende deelproblemen

47 Dynamic programming : D-Matrix A U G G A A A C U G A U G U G A D - matrix Elk mogelijk alignement kan voorgesteld worden als een pad door een 2 dimensionale matrix horizontale or verticale lijnen in pad: indels diagonale lijnen: match of mismatch D[i,j] = minimale afstand van cel (0,0) to cel (i,j) Twee voorbeelden van mogelijke (geen goede) alignementen met hun pad in de matrix A C U G A U G U G A A U G G A - A A C U G A U G U G A A U G G A A

48 Dynamic programming : D-Matrix A U G G A A A C U G A U G U G A ? Eenvoudig Scoring voorbeeld Afstand score substitutie Match = 0 Mismatch = 1 Gap = 2 per gap symbool Begin links boven (0) Ga rij per rij af Score in cell is de maximum score van Score links-boven + substitie score Score boven + gap penalty Score links + gap penalty Score in cell is score beste alignment tot dat punt

49 Dynamic programming A U G G A A A C U G A U G U G A Blijf dit doen tot de matrix volledig is

50 Dynamic programming A U G G A A A C U G A U G U G A Score rechts onder = beste score voor volledig alignement Backtracking om eigenljke beste alignment te vinden Begin rechts onder Kijk van welke van de 3 voorgaande cellen deze score is gekomen Soms kan de score van meerdere gekomen zijn evenwaardige alignementen A C U G A U G U G A A - U G - - G - A A A C U G A U G U G A A - U G - - G A - A

51 Dynamic programming Eerst toegepast door Needleman-Wunsch voor globale alignatie van 2 sequenties Later toepassing door Smith & Waterman voor locale alignatie Vele varianten (andere wegingen gaps, geheugenoptimalisatie,...)

52 Paarsgewijze alignatie programma's ahv dynamic programming seqaln - locale en globale alignement LALIGN k beste locale alignmenten SIM - k beste non-overlappende alignmenten GAP globaal alignement (unweighted endgaps)

53 Multiple sequentie alignementen Manuele editing Vroeger: Text editors Lastig: Lange lijnen, verschuiven van baseb, AZ Nu nog: Gespecialiseerde alignement editors BIOEDIT, CINEMA, GDE, DCSE Vaak gebruikt om automatisch gegenereerde alignmenten te bekijken, analyseren en fine-tunen Mogelijk om extra kennis over structuur en functie in te brengen Gebruik kleurencodes voor beter overzicht

54 Multiple sequentie alignementen Automatisch via Dynamic programming Extensie van de paarsgewijze dynamic programming (uitbreiding naar vb 3 sequenties geeft 3D matrix) Multidimensionele D-matrix (4D of 5D matrix,...) Produceert steeds het optimale alignment volgens de gegeven mathematische criteria Enkel bruikbaar voor kleine datasets Groot gebruik van geheugen en CPU: complexiteit O(mn) Zeer sterke stijging gebruik resources met elke sequentie die wordt toegevoegd

55 Multiple sequentie alignementen Consensus methode Consensus sequentie samenvatting alignement in 1 lijn bv. meest voorkomende AZ of NT op elke positie Redelijk goed voor sequenties die evolutief dicht bij elkaar liggen. methode Zoek consensus sequentie via een iteratieve methode Aligneer 2 sequenties en genereer consensus Aligneer telkens een nieuwe sequentie met de consensus sequentie Herhaal tot consensus identiek blijft Aligneer alle sequenties met de consensus Probleem Afhankelijk van volgorde aanbieding sequenties Niet optimaal alignement

56 Multiple sequentie alignementen Clustering methoden (meest gebruikt) Methode 1.Bereken de afstanden tussen alle mogelijke paren van sequentie (via paarsgewijze alignatie per 2 sequenties) 2.Maak een 'voorlopige' verwantschapsboom (guide tree) gebaseerd op deze afstanden (zie later). 3. Progressieve alignatie Aligneer de meest gelijkende sequenties, en groepeer Aligneer telkens de meest gelijkende sequenties of sequentie groepen tot slechts 1 groep overblijft

57 Clustering methoden 1 2 3

58 Multiple sequentie alignementen Clustering methoden Alignatie sequentie groepen door Alignatie consensus sequentie Alignatie door kolom-tot-kolom scoring waarbij het gemiddelde gewicht van de vergelijking van alle elementen van de twee kolommen wordt gebruikt Alignatie van profielen: frequenties van voorkomen van de verschillende basen/az in elke kolom Consensus Kolom-tot-kolom Profiel..A....A.. 75%..A....A.. 25%..T....T....A....T....T.. Score = S AT..T.. Score = 0.75S AT +0.25S TT Score = (S AT +S AT +S AT +S TT )/4

59 Multiple sequentie alignementen Subsequentie of segment methoden 1.Zoeken naar subsequenties of consensus patronen die in alle (of veel van de) sequenties voorkomen 2. Aligneren/verankeren 3.Iteratief gebieden ertussen aligneren Heuristiek sterk geconserveerde gebieden eerst aligneren/verankeren

60 Multiple alignatie programmas Dynamic programming MSA Clustering ClustalW:meest courante Variatie parameters op basis van voorgaande alignmenten T-Coffee Clustering, maar houdt op alle niveaus rekening met andere alignementen Muscle Basis clustering gevolgd door iteratieve verfijning Segment Dialign, Match-Box

61 Multiple sequentie alignementen Conclusie Clustering en segment methoden Heuristiek is ws. meestal biologisch meest correct Meest gebruikt Wees steeds kritisch i.v.m. Alignementen gevonden alignement (mathematisch optimaal) is niet altijd optimaal (biologisch) Alignementen kunnen vaak manueel verfijnd worden, zeker wanneer gegevens over structuur en functie kunnen gebruikt worden Alignementen kunnen betrouwbare en minder betrouwbare gebieden bevatten