Bio-informatica Similariteit. Peter De Rijk

Vergelijkbare documenten
DAR Approximate string matching Casus: biological sequence alignment

Bio-informatica Boom constructie. Peter De Rijk

Biologie Vraag 1 <A> <B> <C> <D> Vraag 1. Dit zijn een aantal gegevens over een nucleïnezuur.

Bio-informatica Similariteit Searches. Peter De Rijk


8. Analyseren van samenhang tussen categorische variabelen

ANTWOORDEN HOOFDSTUK 6 VAN GEN TOT EIWIT

Bioinformatica tentamen D2 voor 2MNW op maandag 30/05/2005 van 13:30-16:30 in Q105

Basisscheikunde voor het hbo ISBN e druk Uitgeverij Syntax media

1. Mendeliaanse overerving - koppelingsanalyse

Oplossingen Datamining 2II15 Juni 2008

Gegevensverwerving en verwerking

WI1808TH1/CiTG - Lineaire algebra deel 1

Examen structurele bioinformatica Naam:

Basaal endogene ileale aminozuurverliezen bij vleeskuikens

Classification - Prediction

3.2 Vectoren and matrices

Uitleg. Welkom bij de Beverwedstrijd Je krijgt 15 vragen, die je in maximaal 45 minuten moet beantwoorden.

Tentamen Van Mens tot Cel

Genetische variatie en inteelt : basisconcepten. Steven Janssens Nadine Buys

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

Bioinformatica tentamen D1 voor 2MNW op woensdag 30 maart 2005 van uur in zaal Q105

Arnout Devos 5WeWi nr.3. Radioactief verval

Leerlingenhandleiding

WI1808TH1/CiTG - Lineaire algebra deel 1

Populaties beschrijven met kansmodellen

Toelatingsexamen arts geel Biologie Vraag 1

Toelatingsexamen arts blauw Biologie Vraag 1

Factor = het getal waarmee je de oude hoeveelheid moet vermenigvuldigen om een nieuwe hoeveelheid te krijgen.

3 Wat is een stelsel lineaire vergelijkingen?

Parking Surveillance. foreground/background segmentation - objectherkenning. Examen Beeldverwerking Pieter Vancoillie

Inhoud. Data. Analyse van tijd tot event data: van Edward Kaplan & Paul Meier tot David Cox

Out of Africa: mtdna en Y chromosoom. Jean-Jacques Cassiman KuLeuven

Meten en experimenteren

Examen Statistiek II: Project

Stelsels Vergelijkingen

Bioinformatica Peter De Rijk

Proteomics. Waarom DNA alleen niet genoeg is

94 Samenvatting te vervormen, wordt de huid bijzonder stijf bij grotere vervormingen. Uit onderzoek is gebleken dat deze eigenschap deels toe te schri

Molecular Pathology for Pathologists. Pr P. Pauwels

Productontwikkeling 3EM

Newsletter April 2013

Onderzoeksvraag zoals geformuleerd door SZW

A. Week 1: Introductie in de statistiek.

Beknopte handleiding voor Derive 5.0 for Windows

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Hoofdstuk 8 Samenvatting in het Nederlands

Eindexamen wiskunde A1-2 compex vwo I


Recognition and Detection of Objects Using Visual and Textual Cues S. Karaoğlu

Statistiek I Samenvatting. Prof. dr. Carette

Antwoorden. 32-jarige vrouwen op 1 januari Zo gaan we jaar per jaar verder en vinden

12.1 Grafen [1] Definitie: Een graaf bestaat uit punten, waarvan er twee of meer door wegen verbonden zijn. Willem-Jan van der Zanden

Afsluitende les. Leerlingenhandleiding. Proteomics voor de massa

VOOR HET SECUNDAIR ONDERWIJS

Werkbladen Gevorderden

Bio-informatica Sequentie Patronen. Peter De Rijk

6.1 Kwadraten [1] HERHALING: Volgorde bij berekeningen:

EXAMEN INFORMATIETHEORIE I (5JJ40 / 5K020) 25 maart 2004, 9u00 12u00-1 -

Bij Value Engineering wordt vaak gebruik gemaakt van Value Metrics, waarmee waarde

Hoe kijken we naar het DNA van een patiënt?

Hoofdstuk 20: Wiskundige functies

Informatica: C# WPO 10

Tijdvak 1. Correctievoorschrift vwo 1992

Logaritmische verbanden

Een objectief Ranglijst Systeem. ontworpen door. Martien Maas

Antwoorden op de theoretische vragen in de examen voorbereiding

16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA

PROEFEXAMEN LINEAIRE ALGEBRA donderdag 17 november 2011

Detector Ability Achtergronden bij het instrument

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert

Lights Out. 1 Inleiding

II. ZELFGEDEFINIEERDE FUNCTIES

Lineaire vergelijkingen II: Pivotering

Uitdagende Sudoku Variaties, Beschrijving Educatieve Sudoku Variaties

Transcriptie:

Bio-informatica Similariteit Peter De Rijk 5

Similariteit, niet zo simpel

Similariteit Similariteit is afhankelijk van de gekozen parameters Grootte, Kleur Functie Afkomst... Globale similariteit (families) Sterk gelijkend Alle parameters zijn vergelijkbaar Locale similariteit (superfamilie) Niet alle componenten zijn gemeenschappelijk Vergelijking van de gemeenschappelijke componenten

Homologie Relatie door afkomst een gemeenschappelijke voorouder sequentie is gedivergeerd in verschillende sequenties door base/az Substitutie Insertie (extra base/az) Deletie (verdwijnen van base/az) Kan wijzen op een gelijkaardige functie Twee sequenties zijn homoloog of niet homoloog geen percentage homologie!

Similariteit vs. Homologie Similariteit wijst op homologie, maar is geen sluitend bewijs Convergente evolutie (structurele, functionele constraints) Deel similariteit bij toeval Similariteit wordt ook beinvloed door andere factoren GC content, complexiteit, coding frames Hoge similariteit -> homologie waarschijnlijker Locale homologie Relaties kunnen verschillen voor verschillende delen van een sequentie: domeinen

Similariteit Mathematisch concept 'Distance score' of 'similarity score' Distance: hoe hoger de score hoe minder ze op elkaar gelijken Similarity: hoe hoger de score hoe meer ze op elkaar gelijken Eigenlijk equivalent Om score te berekenen moet je rekening houden met: Welke parameters worden bekeken Hoe worden verschillen voor een parameter gescoord en gewogen Hoe wordt de uiteindelijke distance/similarity berekend

Geometrische afstand Geometrische afstand vierkantswortel van de som van de afstand tussen alle parameters in het kwadraat Vereist numerieke parameters Afstand tussen parameters = verschil van twee getallen (: moeilijk voor volledige sequenties) op basis van bv. base/az samenstelling Oligo nucleotide/peptide samenstelling Wordt weinig gebruikt Brengt niet hele gelijkenis in rekening Wel snel (bv. voor grove schatting)

Alignement Vergelijken van sequenties door ze onder elkaar te zetten De similaire karakters van de verschillende sequenties worden geplaatst op dezelfde posities in een matrix Een 'gap' of 'indel' symbool kan worden ingevoegd op een positie om de relatieve positie van de andere karakters te bewaren Substitutie: verschillende karakters op zelfde positie W O O R D W O R T

Alignement W O O R D W O R T W O O R D - W O R - T W O O R D W O R T - Distance of similarity score kan berekend worden op basis van een alignement bv. aantal substities en indels Veel verschillende alignementen mogelijk Similariteitsscore tussen 2 sequenties is score van beste (optimaal) alignment

Optimaal alignement Wiskundig optimaal alignment Alignment met de hoogste similariteits score / laagste distance score (zie verder) Afhankelijk van parameters gebruikt voor scoring Biologische optimaal alignment Homologe karakters op dezelfde positie meestal, kan ook structureel, functioneel,... Komt niet altijd overeen met wiskundig optimaal alignement

Alignment Scores Aantal (of percentage) identiteiten Conceptueel eenvoudige similariteitsscore Eenvoudig te berekenen Maar Wat met indels (inserties / deleties)? Gelijkende maar niet gelijke AZ? Edit distance Aantal stappen (substitutie, insertie, deletie) nodig om de ene sequentie te veranderen in de andere; hoe meer stappen nodig, hoe minder similariteit W O O R D W O R T

Alignment Scores Weighted distance Tabel met de kost of score voor elke mogelijke substitie (gealigneerde AZ of NZ) Indel of gap symbool wordt hierbij beschouwd als een karakter en krijgt dus ook een bepaalde kost, net zoals een substitutie een kost krijgt Score : som van alle kosten/scores W O O R D W O R T

Relatieve weging gaps en substituties WOORDEN WOORDEN W-OORD-EN WE--TEN WE-T-EN WE----TEN 2 2 0 mismatch = 1,gap = 0 4 4 6 mismatch = 1,gap = 1 6 6 6 mismatch = 2,gap = 1 7 8 9 mismatch = 2,gap = 1,gap penalty = 1

Weging van gaps Problemen weging gaps Gewicht gap moet niet perse proportioneel zijn tot de grootte van de gap 1 evolutionaire event kan aanleiding geven tot een gap van meer posities 1 gap kan wel het gevolg zijn van meerdere events Weging gap t.o.v. substitutie Insertie / deletie is minder waarschijnlijk dan mutatie/substitutie, maar hoeveel minder? Arbitraire parameters

Weging gaps Tabel Verschillend gewicht voor alle mogelijke gap groottes Te computer intensief, grote tabellen, weinig gebruikt Affine gap cost Score gap: formule die verband legt tussen lengte en weging Gewicht = (gap penalty) + (indel penalty)*(aantal indels) Meest gebruikte weging Gap penalty groter dan indel penalty 2 arbitraire parameters! (Niet theoretisch afgeleid)

Weging/scoring substities Score matrices Niet alle substituties zijn even waarschijnlijk bv. Vervanging van een AZ door een gelijkaardig AZ vs door een compleet ander soort AZ Tabel met verschillende scores voor substitutie van elk karakter met een elk ander karakter Gebaseerd op de (on)waarschijnlijkheid van deze substituties Ook weight matrices of substitution matrices genoemd

Theoretische NZ score matrices Identiteits matrix Simpelste Score voor identieke / niet identieke karakters Typisch voor DNA scoring Eventueel + ambiguiteits codes Eventueel verschillende scores match/mismatch Identiteits matrix A T C G A 1 0 0 0 T 0 1 0 0 C 0 0 1 0 G 0 0 0 1 BLAST matrix A T C G A 5-4 -4-4 T -4 5-4 -4 C -4-4 5-4 G -4-4 -4 5

Theoretische NZ score matrices Transitie/Transversie matrix Transitie (behoud van ringstructuur A-G,T-C) is wss. dan transversie (penalty kleiner) Theoretisch iets beter maar wordt weinig gebruikt Transitie/Transversie A T C G A 1-5 -5-1 T -5 1-1 -5 C -5-1 1-5 G -1-5 -5 1

Theoretische AZ matrices Genetic code scoring Aantal base veranderingen nodig om codon te veranderen Chemische similariteit Verschillend gewicht naarmate gelijkaardige fysico-chemische eigenschappen Polair-niet polair, grote, lading, vorm

Experimentele score matrices Empirische vastelling van de waarschijnlijkheid van substituties Op basis van ondubbelzinnige alignementen (geen/nauwelijks gaps) Belangrijkste: PAM of Dayhoff's mutatie data matrices Gebaseerd op globale alignementen van sterk gelijkende sequenties; grote extrapolatie BLOSUM Locale alignementen van minder verwante sequenties Superieur aan theoretische matrices

PAM of Dayhoff's matrices Geobserveerde substituties Globale alignementen van sterk gelijkende sequenties (>85% identiteit) Vele groepen (cytochrome c, insuline, globine,...)

PAM of Dayhoff's matrices PAM Percent Accepted Mutations of Point Accepted Mutations per 100 residues Eenheid van tijd of evolutionaire afstand de tijd nodig om één AZ te vervangen in een sequentie van 100 AZ met een gemiddelde aminozuursamenstelling Evolutie model: gebruikt assumpties: alle sites hebben eenzelfde mutatie kans en zijn onafhankelijk

Constructie PAM matrix Vind aantal geaccepteerde substituties maak phylogenetische bomen (zie later) bereken ancestrale sequenties Tel A ab = aantal keer AZ b vervangen werd door AZ a (frequentie) Er wordt verondersteld dat mutaties even waarschijnlijk zijn in beide richtingen een substitutie G A wordt ook geteld als een A G bv. A GA = A AG =3 ACGCTAFK I I L A G ACGCTAFKL GCGCTAFKI G A C S A L A G ACACTAFKL ASGCTAFKL GCGCTLFKI GCGCTGFKI

Constructie PAM matrix Genormaliseerde aminozuurfrequenties nodig voor berekening p a = aantal keer AZ a voorkomt aantal keer eender welk AZ voorkomt relatieve blootstelling voor mutaties voor alle aminozuren vb. ALA komt meer voor dus heeft meer kans op een mutatie (: deletie, insertie, substitutie,...) som voor alle AZ = 1

Constructie PAM matrix Genormaliseerde aminozuurfrequenties (p a waarden) Ala 0.096 Gly 0.090 Lys 0.085 Leu 0.085 Val 0.078 Thr 0.062 Ser 0.057 Asp 0.053 Glu 0.053 Phe 0.045 Asn 0.042 Pro 0.041 Ile 0.035 His 0.034 Arg 0.034 Gin 0.032 Tyr 0.030 Cys 0.025 Met 0.012 Trp 0.012

Constructie PAM matrix Relatieve mutabiliteit m a ma = hoe waarschijnlijk is het dat een bepaald AZ a door eender welk ander AZ wordt vervangen ma = (genormaliseerde aminozuurfrequentie van AZ a) x (aantal keer AZ a werd vervangen in observaties) x λ de mutabiliteit wordt vermenigvuldigd met een schaal factor λ =1/100 omdat bij 1 PAM gemiddeld 1 AZ veranderd per 100 AZ

Mutation probability Matrix Mutation Probability Matrix (M1) geeft de kans dat AZ a vervangen wordt door AZ b op 1 PAM? = (mutabiliteit van a) x (aantal observaties waarbij a wordt vervangen door b tov. aantal observaties waarbij a muteert) Simulatie van evolutie Random verandering van elk AZ volgens probabiliteiten in M1 Sequentie van 100 AZ met een gemiddelde aminozuursamenstelling -> gemiddeld 1 AZ verandering

PAM1 matrix Schaal x 10000 Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr Val A R N D C Q E G H I L K M F P S T W Y V Ala A 9867 2 9 10 3 8 17 21 2 6 4 2 6 2 22 35 32 0 2 18 Arg R 1 9913 1 0 1 10 0 0 10 3 1 19 4 1 4 6 1 8 0 1 Asn N 4 1 9822 36 0 4 6 6 21 3 1 13 0 1 2 20 9 1 4 1 Asp D 6 0 42 9859 0 6 53 6 4 1 0 3 0 0 1 5 3 0 0 1 Cys C 1 1 0 0 9973 0 0 0 1 1 0 0 0 0 1 5 1 0 3 2 Gln Q 3 9 4 5 0 9876 27 1 23 1 3 6 4 0 6 2 2 0 0 1 Glu E 10 0 7 56 0 35 9865 4 2 3 1 4 1 0 3 4 2 0 1 2 Gly G 21 1 12 11 1 3 7 9935 1 0 1 2 1 1 3 21 3 0 0 5 His H 1 8 18 3 1 20 1 0 9912 0 1 1 0 2 3 1 1 1 4 1 Ile I 2 2 3 1 2 1 2 0 0 9872 9 2 12 7 0 1 7 0 1 33 Leu L 3 1 3 0 0 6 1 1 4 22 9947 2 45 13 3 1 3 4 2 15 Lys K 2 37 25 6 0 12 7 2 2 4 1 9926 20 0 3 8 11 0 1 1 Met M 1 1 0 0 0 2 0 0 0 5 8 4 9874 1 0 1 2 0 0 4 Phe F 1 1 1 0 0 0 0 1 2 8 6 0 4 9946 0 2 1 3 28 0 Pro P 13 5 2 1 1 8 3 2 5 1 2 2 1 1 9926 12 4 0 0 2 Ser S 28 11 34 7 11 4 6 16 2 2 1 7 4 3 17 9840 38 5 2 2 Thr T 22 2 13 4 1 3 2 2 1 11 2 8 6 1 5 32 9871 0 2 9 Trp W 0 2 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 9976 1 0 Tyr Y 1 0 3 0 3 0 1 0 4 1 1 0 0 21 0 1 1 2 9945 1 Val V 13 2 1 1 3 2 2 3 3 57 11 1 17 1 3 2 10 0 2 9901

Constructie PAM matrix Afleiding andere matrices Opeenvolgende toepassing van M1 op een sequentie 2 maal gemiddeld 2 AZ verandering = PAM2 3 maal gemiddeld 3 AZ verandering = PAM3. Equivalent met toepassing op sequentie van M1*M1 (= PAM2) M1*M1*M1 (= PAM3)... Nadeel : is extrapolatie!

Constructie PAM matrix PAM matrices voor verschillende evolutionaire afstanden 0 PAM Mij = 0, Mjj = 1 (ij= verschillende positie/ jj= zelfde positie) PAM250 nog ongeveer 20% identiteiten Mutaties kunnen op dezelfde plaats gebeuren/ origineel AZ kan terug geplaatst zijn infinity PAM AZ samenstelling dataset/alles aangepast Matrices zijn afhankelijk van compositie dataset

Odds ratio Log Odds Matrix Kans alignatie door evolutie vergelijken met de kans op toevallige alignatie Hoe groter de odds ratio, hoe meer kans dat er similariteit bestaat door evolutie Log odds matrices Score matrix gewoonlijk in de vorm van een log odds matrix Sab = log(q ab /(p a p b )) q ab = de frequentie waarmee a en b gealigneerd geobserveerd worden p a, p b = frequentie van voorkomen van a en van b

Log Odds Matrix Scoring alignment met log odds matrix vermenigvuldigen van de odds ratios voor alle posities hoeveel waarschijnlijker is dit alignment door evolutie ontstaan dan door toeval Waarden in de score matrix worden meestal gegeven als logaritme van de odds ratios Met logaritmes kunnen we optellen ipv. Vermenigvuldigen! Afgeleid van M1 S ab = log(m ab /p a ) p a = genormaliseerde frequentie van het vervangend AZ a

'Log Odds' Matrix voor 250 PAM Schaal x 10 AZ die op elkaar lijken hebben een hogere score AZ die sterk van elkaar verschillen hebben een lagere score Een score van 2 in deze tabel betekent dat een paar bijna 1.6 keer meer voorkomt dan het toeval zou voorspellen (10 0.2 ). Een score van 12 betekent dat een aminozuurpaar bijna 16 keer meer voorkomt dan dit op basis van toeval zou mogen (10 1.2 ) Een score van -10 betekent dat een bepaald paar aminozuren 10 maal minder frequent voorkomt dan het toeval zou voorspellen (10-1 )

PET91 matrix PAM matrices Relatief kleine dataset Sommige mogelijke mutaties kwamen niet voor in de dataset PET91 Later gemaakt op dezelfde manier als de PAM matrices Op basis van een veel grotere dataset

BLOSUM PAM gebaseerd op sequenties met > 85% identiteit voor verdere verwantschappen enkel afgeleid BLOSUM matrices BLocks SUbstitution Matrix Locale alignementen geconserveerde gebieden of blokken in BLOCKS database minder verwante sequenties Rechtstreeks berekening, geen extrapolaties

Constructie BLOSUM matrix Constructie Frequentie tabel qab Hoe dikwijls worden AZ a en b gepaard teruggevonden in deze alignmenten q ab = probabiliteit voorkomen van paar ab Probabiliteit van voorkomen van AZ a Verwachte frequentie van paar a en b e aa = p a2 (a = b) e ab = 2p a p b (a niet b) Log odds matrix

BLOSUM matrix Verschillende BLOSUM matrices Verschillend gewicht op basis van gelijkenis om verschillende evolutionaire afstanden in rekening te brengen Clustering in groepen van sequenties die een percentage identeit hebben hoger dan een gegeven treshhold Weging bijdrage op elke positie zodanig dat alle sequenties van 1 cluster worden gewogen als 1 sequentie bv. BLOSUM80 clustering van sequenties met 80% identiteit Alles wat meer dan 80% op elkaar lijkt wordt als dezelfde sequentie aanzien Lage BLOSUM matrices: verre verwantschappen Hoge BLOSUM matrices: minder ver

PAM250 Welke matrix Veel gebruikt ~20% identity Verre verwantschappen (twilight zone) PAM120 ~ 40% identity Beter compromis voor database searches waar verwantschap niet vooraf is gekend Best combinatie verschillende matrices Volgens Altschul: PAM40, PAM120 en PAM250 Lage PAM matrices -> korte stukken sterk gelijkende sequenties Hoge PAM matrices -> lange stukken minder gelijkende sequenties

BLOSUM Welke matrix Meer sensitief voor verdere verwantschappen Meer tolerantie voor minder frequente substituties Bleek beste voor het terugvinden van gekende leden van proteine families In testen zijn er echter ook significante similariteiten die niet werden gedetecteerd met BLOSUM matrices en wel met PAM BLOSUM62 Standaard voor database searches

Welke matrix Conclusie Experimentele superieur aan theoretische Compromis: PAM120 of BLOSUM62 Best combinatie verschillende matrices Wanneer familie gevonden: heraligneer met toepasselijke matrix

Alignementen Toepassingen Dotplot Paarsgewijze alignatie Multiple alignementen

Toepassingen alignementen Databank searches Vinden van gelijkende sequenties (op basis van meta data) Zelfde sequenties met fouten b.v. EST's Verwante sequenties: afleiden van informatie over structuur, functie,... Verwante regio's sequenties: domeinen,... Bouw en studie van genfamilies Geconserveerde en niet geconserveerde gebieden functie, probes, primers, Afleiden structuur door comparatieve analyse Genome comparison: geconserveerde gebieden wijzen op aanwezigheid genen, regulatie, Fylogenie: studie van de ontstaansgeschiedenis van een groep organismen

Dot plot: 1 van de allereerste manieren om een alignement te zoeken. 2 sequenties uitzetten in matrix en gelijkenissen aanduiden. Elk punt geeft een gelijkenis aan. Een lange lijn geeft aan dat dat deel gelijkaardig is. Een indel geeft een verspringing in de diagonale lijn. Dot plot

Paarsgewijze alignatie Automatische alignatie 2 sequenties Zoeken beste alignement: wiskundig Alignement met maximale similariteit score (of minimale distance score) afhankelijk van model, parameters (zoals find gap coast, mismatch, penalty,...) is niet altijd beste biologische alignement hangt echter ook af van model : evolutief, structureel, functioneel

Paarsgewijze alignatie Globale en lokale alignementen globaal: gelijkenis over gehele sequentie semiglobaal: geen weging van terminale gaps (vanwege bv incomplete gegevens) lokaal: regios van gelijkenis

Dynamic programming Groot aantal alignementen mogelijk Praktisch niet haalbaar om score te berekenen voor alle mogelijke alignementen Oplossing? = Dynamic progamming Oplossing probleem via het oplossen van kleinere, berekenbare overlappende subproblemen Beste score alignement afhankelijk van beste scores alignementen van deel van sequenties Voortgaan op eerder berekende deelproblemen

Dynamic programming : D-Matrix A U G G A A A C U G A U G U G A D - matrix Elk mogelijk alignement kan voorgesteld worden als een pad door een 2 dimensionale matrix horizontale or verticale lijnen in pad: indels diagonale lijnen: match of mismatch D[i,j] = minimale afstand van cel (0,0) to cel (i,j) Twee voorbeelden van mogelijke (geen goede) alignementen met hun pad in de matrix A C U G A U G U G A A U G G - - - A - A A C U G A U G U G A - - - - - - - - - - A U G G A A

Dynamic programming : D-Matrix A U G G A A A C U G A U G U G A 0 2 4 6 8 10 12 14 16 18 20 2 0 2 4 6 8 10 12 14 16 18 4 2 1 2 4 6 8 10 12 14 16 +1 6 4 3? +2 +2 Eenvoudig Scoring voorbeeld Afstand score substitutie Match = 0 Mismatch = 1 Gap = 2 per gap symbool Begin links boven (0) Ga rij per rij af Score in cell is de maximum score van Score links-boven + substitie score Score boven + gap penalty Score links + gap penalty Score in cell is score beste alignment tot dat punt

Dynamic programming A U G G A A A C U G A U G U G A 0 2 4 6 8 10 12 14 16 18 20 2 0 2 4 6 8 10 12 14 16 18 4 2 1 2 4 6 8 10 12 14 16 6 4 3 2 2 4 6 8 10 12 14 8 6 5 4 2 3 5 6 8 10 12 +0 10 8 +2 +2 Blijf dit doen tot de matrix volledig is

Dynamic programming A U G G A A A C U G A U G U G A 0 2 4 6 8 10 12 14 16 18 20 2 0 2 4 6 8 10 12 14 16 18 4 2 1 2 4 6 8 10 12 14 16 6 4 3 2 2 4 6 8 10 12 14 8 6 5 4 2 3 5 6 8 10 12 10 8 7 6 4 2 4 6 7 9 10 12 10 9 8 6 4 3 5 7 8 9 Score rechts onder = beste score voor volledig alignement Backtracking om eigenljke beste alignment te vinden Begin rechts onder Kijk van welke van de 3 voorgaande cellen deze score is gekomen Soms kan de score van meerdere gekomen zijn evenwaardige alignementen A C U G A U G U G A A - U G - - G - A A A C U G A U G U G A A - U G - - G A - A

Dynamic programming Eerst toegepast door Needleman-Wunsch voor globale alignatie van 2 sequenties Later toepassing door Smith & Waterman voor locale alignatie Vele varianten (andere wegingen gaps, geheugenoptimalisatie,...)

Paarsgewijze alignatie programma's ahv dynamic programming seqaln - locale en globale alignement LALIGN k beste locale alignmenten SIM - k beste non-overlappende alignmenten GAP globaal alignement (unweighted endgaps)

Multiple sequentie alignementen Manuele editing Vroeger: Text editors Lastig: Lange lijnen, verschuiven van baseb, AZ Nu nog: Gespecialiseerde alignement editors BIOEDIT, CINEMA, GDE, DCSE Vaak gebruikt om automatisch gegenereerde alignmenten te bekijken, analyseren en fine-tunen Mogelijk om extra kennis over structuur en functie in te brengen Gebruik kleurencodes voor beter overzicht

Multiple sequentie alignementen Automatisch via Dynamic programming Extensie van de paarsgewijze dynamic programming (uitbreiding naar vb 3 sequenties geeft 3D matrix) Multidimensionele D-matrix (4D of 5D matrix,...) Produceert steeds het optimale alignment volgens de gegeven mathematische criteria Enkel bruikbaar voor kleine datasets Groot gebruik van geheugen en CPU: complexiteit O(mn) Zeer sterke stijging gebruik resources met elke sequentie die wordt toegevoegd

Multiple sequentie alignementen Consensus methode Consensus sequentie samenvatting alignement in 1 lijn bv. meest voorkomende AZ of NT op elke positie Redelijk goed voor sequenties die evolutief dicht bij elkaar liggen. methode Zoek consensus sequentie via een iteratieve methode Aligneer 2 sequenties en genereer consensus Aligneer telkens een nieuwe sequentie met de consensus sequentie Herhaal tot consensus identiek blijft Aligneer alle sequenties met de consensus Probleem Afhankelijk van volgorde aanbieding sequenties Niet optimaal alignement

Multiple sequentie alignementen Clustering methoden (meest gebruikt) Methode 1.Bereken de afstanden tussen alle mogelijke paren van sequentie (via paarsgewijze alignatie per 2 sequenties) 2.Maak een 'voorlopige' verwantschapsboom (guide tree) gebaseerd op deze afstanden (zie later). 3. Progressieve alignatie Aligneer de meest gelijkende sequenties, en groepeer Aligneer telkens de meest gelijkende sequenties of sequentie groepen tot slechts 1 groep overblijft

Clustering methoden 1 2 3

Multiple sequentie alignementen Clustering methoden Alignatie sequentie groepen door Alignatie consensus sequentie Alignatie door kolom-tot-kolom scoring waarbij het gemiddelde gewicht van de vergelijking van alle elementen van de twee kolommen wordt gebruikt Alignatie van profielen: frequenties van voorkomen van de verschillende basen/az in elke kolom Consensus Kolom-tot-kolom Profiel..A....A.. 75%..A....A.. 25%..T....T....A....T....T.. Score = S AT..T.. Score = 0.75S AT +0.25S TT Score = (S AT +S AT +S AT +S TT )/4

Multiple sequentie alignementen Subsequentie of segment methoden 1.Zoeken naar subsequenties of consensus patronen die in alle (of veel van de) sequenties voorkomen 2. Aligneren/verankeren 3.Iteratief gebieden ertussen aligneren Heuristiek sterk geconserveerde gebieden eerst aligneren/verankeren

Multiple alignatie programmas Dynamic programming MSA Clustering ClustalW:meest courante Variatie parameters op basis van voorgaande alignmenten T-Coffee Clustering, maar houdt op alle niveaus rekening met andere alignementen Muscle Basis clustering gevolgd door iteratieve verfijning Segment Dialign, Match-Box

Multiple sequentie alignementen Conclusie Clustering en segment methoden Heuristiek is ws. meestal biologisch meest correct Meest gebruikt Wees steeds kritisch i.v.m. Alignementen gevonden alignement (mathematisch optimaal) is niet altijd optimaal (biologisch) Alignementen kunnen vaak manueel verfijnd worden, zeker wanneer gegevens over structuur en functie kunnen gebruikt worden Alignementen kunnen betrouwbare en minder betrouwbare gebieden bevatten