Bio-informatica Sequentie Patronen. Peter De Rijk



Vergelijkbare documenten
Bio-informatica Similariteit Searches. Peter De Rijk

DAR Approximate string matching Casus: biological sequence alignment

Bio-informatica Similariteit. Peter De Rijk

Oplossingen Datamining 2II15 Juni 2008

Bioinformatica tentamen D2 voor 2MNW op maandag 30/05/2005 van 13:30-16:30 in Q105

Inhoud. Neuronen. Synapsen. McCulloch-Pitts neuron. Sigmoids. De bouwstenen van het zenuwstelsel: neuronen en synapsen

Parking Surveillance. foreground/background segmentation - objectherkenning. Examen Beeldverwerking Pieter Vancoillie

Neurale Netwerken en Deep Learning. Tijmen Blankevoort

Classification - Prediction

Tentamen Kunstmatige Intelligentie (INFOB2KI)

Afsluitende les. Leerlingenhandleiding. Proteomics voor de massa

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

HOOFDSTUK VII REGRESSIE ANALYSE

Bio-informatica Genpredictie

In Vlaanderen bestaat er nog geen leerlijn programmeren! Hierdoor baseren wij ons op de leerlijn die men in Nederland toepast voor basisscholen.

Het omzetten van reguliere expressies naar eindige automaten, zie de vakken Fundamentele Informatica 1 en 2.

start -> id (k (f c s) (g s c)) -> k (f c s) (g s c) -> f c s -> s c

Inleiding Programmeren 2

Combinatorische Algoritmen: Binary Decision Diagrams, Deel III

11. Multipele Regressie en Correlatie

Zelftest Inleiding Programmeren

Recognition and Detection of Objects Using Visual and Textual Cues S. Karaoğlu

Een computerprogramma is opgebouwd uit een aantal instructies die op elkaar volgen en die normaal na elkaar uitgevoerd worden.

3 De stelling van Kleene

Bio-informatica Boom constructie. Peter De Rijk

Inleiding Programmeren 2

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

studie waarmee we de principes van de analyse willen demonstreren. Een volledig beschrijving van de algoritmen en de resultaten zijn te vinden in

Automaten. Informatica, UvA. Yde Venema

Exponentiële Functie: Toepassingen

Query SQL Boekje. Fredrik Hamer

Les 15 : updaten van gegevens in de database (deel2).

QR-code op aanvoerbrief 2.xx.0: Specificaties

Lineaire algebra 1 najaar Lineaire codes

1 Complexiteit. of benadering en snel

1 In deze opgave wordt vijftien maal telkens drie beweringen gedaan waarvan er één juist is. Kruis de juiste bewering aan. (2pt. per juist antwoord).

FLIPIT 5. (a i,j + a j,i )d i d j = d j + 0 = e d. i<j

Bioinformatica tentamen D1 voor 2MNW, 3I, 3PHAR op vrijdag 30 maart 2007 van uur in zaal Q105

Tentamen Data Mining

Opdracht 2 Het Multilayer Perceptron

Vakgroep CW KAHO Sint-Lieven

1. Mendeliaanse overerving - koppelingsanalyse

Data Mining: Classificatie

2 Data en datasets verwerken

Stageopdrachten Zilveren Kruis

A. Week 1: Introductie in de statistiek.

Beknopte handleiding voor Derive 5.0 for Windows

RSLigR Programma voor t berekenen van betonplaten, betonbalken en de systeemvloeren volgen Eurocode 2 en VBC 92: - Traditioneel/Voorgespannen:

Skills matrix - Methodiek voor technische training en kennismanagement

2 Data en datasets verwerken

Stelsels Vergelijkingen

Graphical modelling voor Mediastudies Data

Uitleg: In de bovenstaande oefening zie je in het eerste blokje een LEES en een SCHRIJF opdracht. Dit is nog lesstof uit het tweede trimester.

2.1.4 Oefenen. d. Je ziet hier twee weegschalen. Wat is het verschil tussen beide als het gaat om het aflezen van een gewicht?

Hoe goed is een test?

Gaap, ja, nog een keer. In één variabele hebben we deze formule nu al een paar keer gezien:

8. Analyseren van samenhang tussen categorische variabelen

Tentamen Beeldverwerking TI2716-B Woensdag 28 januari

8.1 Herleiden [1] Herleiden bij vermenigvuldigen: -5 3a 6b 8c = -720abc 1) Vermenigvuldigen cijfers (let op teken) 2) Letters op alfabetische volgorde

De bouwstenen van het programmeren 1

Netwerkdiagram voor een project. AOA: Activities On Arrows - activiteiten op de pijlen.

Computer Vision: Hoe Leer ik een Computer Zien?

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

Summary in Dutch 179

Populaties beschrijven met kansmodellen

2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.

naar sporen Forensisch expert worden

Het blijkt dat dit eigenlijk alleen lukt met de exponentiële methode.

Cover Page. The handle holds various files of this Leiden University dissertation.

Samenvatting Nederlands

Bioinformatica tentamen D1 voor 2MNW op woensdag 30 maart 2005 van uur in zaal Q105

String Matching. Algoritmiek

INLEIDING. Definitie Stochastisch Proces:

360 FEEDBACK 15/06/2012. Thomas Leiderschap Vragenlijst. Thomas Voorbeeld. Persoonlijk & Vertrouwelijk

VBA voor Doe het Zelvers deel 20

Kunstmatige Intelligentie (AI) Hoofdstuk 18.7 van Russell/Norvig = [RN] Neurale Netwerken (NN s) voorjaar 2016 College 9, 19 april 2016

Projectieve Vlakken en Codes

Voorbereiding toelatingsexamen arts/tandarts. Wiskunde: Logaritmen en getal e. 23 juli dr. Brenda Casteleyn

Reanimatiescores uitgelegd. Herzien op 19 november 2013

Transcriptie:

Bio-informatica Sequentie Patronen Peter De Rijk 7

Patroon Herkenning

Patroon Herkenning

Patroon Herkenning Afhankelijk van groepsspecificaties!

Doel Patroon Herkenning Met een gegeven set sequenties Behoort een sequentie tot de set of niet Behoort een deel (en welk) van een sequentie tot de set Motieven of patronen definiëren samenvatting wetmatigheden in een bepaald type van (sub)sequentie Bij multiple alignatie: geconserveerde gebieden Vaak belangrijke rol: structureel of functioneel (domeinen) Methoden om patronen te vast te leggen en te herkennen: Van zeer simpel (string) tot zeer complex (HMM)

Patroon Herkenning Toepassing: Domeinen in sequentie herkennen Toewijzing sequentie aan gekend type, familie Onbekende sequentie vergelijken met database van motieven -> idee over functie, familie Verdere verwantschappen (cfr. PSI-BLAST: zie later) Herkenning van signalen (bv. Splice donor) in sequentie Correcter en sensitiever? Sequentie voldoet aan basis wetmatigheden van alle sequenties in een set/groep

String searching Exact matching Patroon voorstellen door (training) set zelf Zoeken of de query sequentie (of een deel van de query) identiek in de set zit Zoeken is gemakkelijk Vele optmalisaties (bv. Knuth-Morris-Pratt, Boyer-Moore) goed als set volledig is Vaak zoeken naar multiple strings Zoeken welke van een set strings voorkomt bv. Restrictie enzyme analyse, translatie (welk codon),... Vele optimalisaties: trees, hashtable

Inexact matching String searching Patroon voorstellen door (training) set zelf Meestal set onvolledig vat niet echt wetmatigheden in hele set samen Similariteit zoeken met alignatie technieken Similariteit met 1 of meer sequenties van de set behoort ws. tot set

Consensus sequenties Ambiguiteitscodes (IUPAC notatie) code beschrijft welke AZ/NZ mogelijk zijn (op een positie) Voor NZ ambiguiteitscodes beschikbaar voor alle mogelijke combinaties bv. S (G of C), W (A of T),... Voor AZ weinig ambiguiteitscodes beschikbaar (vrijwel alle letters zijn al bezet, zeer veel combinaties) X voor eender welk AZ

Consensus sequenties Consensus sequentie = string met ambiguiteitscodes op plaatsen met meer dan 1 mogelijk AZ/NZ Vaak meer dan 1 consensus sequentie nodig om patroon goed te beschrijven Voorbeeld: tyrosine phosphorylation site RXXDXXXY RXXEXXXY KXXDXXXY KXXEXXXY Eigenschappen Beperkte flexibiliteit, enkel simpele patronen Kan gebruikt worden met snelle zoek algoritmes Bij zoeken kan gebruik gemaakt worden van score matrices

Regular expressions Reguliere expressies (RE) Expressie (string met controle karakters met specifieke betekenis) die kan vertaald worden in een eindige set van strings Flexibelere mogelijkheden om ambiguiteiten aan te duiden (met meerdere controle karakters) bv. [RKY] om R, K of Y aan te duiden ook verschillen in aantallen mogelijk Speciale karakters en hun betekenis kunnen verschillen bij verschillende programmas

Regular expressions. Eender welk karakter * Nul of meer + 1 of meer [] Een van [^] Niet een van {x,y} Aantal tussen x en y T..A TTTA, TAAA, TGCA, TGGA,... TG*A TA, TGA, TGGA, TGGGGA,... TG+A TGA, TGGA, TGGGGA,... T[GC]A TGA, TCA T[^GC]A TAA, TTA TG{2,4}A TGGA, TGGGA, TGGGGA Voorbeelden tyrosine phosphorylation site [RK]X{2}[DE]X{3}Y Zinc Finger (C2H2 type) C.{2,4}C.{12}H.{3,5}H N-Glycosylation Site N[^P][ST][^P] Homeobox Domain Signature [LIVMF].{5}[LIVM].{4}[IV][RKQ].W.{8}[RK]

Regular expressions Eigenschappen Flexibeler dan consensus, sneller Strikte matching binair resultaat: match of geen match sterk gelijkende sequenties met 1 klein verschil (niet voorzien in de reguliere expressie worden gemist Keuze van motief soms moeilijk: gekozen motief kan later toch variabeler blijken Sterk geconserveerde motieven (10-20 AZ) met typisch een belangrijke rol

Regular expressions Automatisch vinden van (nieuwe) regular expression patronen EmotifMaker Vindt patronen (~ regular expression) in gealigneerde sequenties Vindt ook patronen voor subsets van het alignement (subfamilies) Pratt Vindt regular expression in ongealigneerde sequenties

Sequentie logo's Sequentie logo's Grafische voorstelling Verdeling afhankelijk van voorkomen verschillende elementen Totale hoogte grafiek geeft een aanduiding van de conservatie

Sequentie logo's Sequentie logo Grafische representatie patroon, gestapelde karakters Hoogte proportioneel tot frequentie karakter Meest frequente karakter bovenaan Totale hoogte positie hangt af van de informativiteit/conservatie Voordelen Meer correct dan consensus sequentie Significante residuen zijn duidelijk Subtiele sequentie patronen worden minder gemakkelijk gemist Aangename voorstelling voor onderzoekers Maar Niet voor automatische herkenning

Profielen Profiel Statistische representatie van het volledige alignement van een similariteitsgroep Mogelijke informatie Welke karakters kunnen voorkomen op elke positie, en in welke verhoudingen Welke posities zijn belangrijk/geconserveerd Welke regios kunnen wegvallen, inserties krijgen Verschillende methoden mogelijk om deze informatie bij te houden en te gebruiken (benamingen kunnen verschillen afhankelijk van auteurs) Weight matrices: profielen die geen indels toelaten, PSSM: position specific scoring matrices, wel indels door scoring via alignment

Position Weight Matrices (PWM)

Position Weight Matrices (PWM) PWM = matrix met Lijn voor elk mogelijk karakter Kolom voor elke positie Waarden die aangeven hoe ws. Het is dat dit karakter voorkomt op deze positie, bv. log-likelihood Log-odds Logaritme van de ratio van hoe dikwijls we dit karakter zien op deze positie in de set t.o.v. Hoeveel we het verwachten (frequentie van voorkomen) Eigenschappen Rechtstreeks gemaakt op basis alignement elke positie onafhankelijk van andere posities geen indels

Position Weight Matrices (PWM) PWM score geeft aan hoe ws. het is dat een test string tot de groep behoort. som van positie-specifieke scores voor elk symbool in de test string (wanneer PWM log waarden bevat) bv. bij PWM met log-odds ->PWM score = log-odds dat de test string gegenereerd werd door het motief versus gegenereerd door de background MEME (Multiple EM for Motif Elicitation) Vindt automatisch weight matrices voor set van sequentie statistische modelering om de beste grootte, aantal, en beschijving van elk motief te kiezen

Fingerprints Fingerprint = Groep van motieven voor karakterisatie van familie Locale Alignementen zonder gaps van alle geconserveerde delen Matrices Unweighted Matrices met frequenties geobserveerd op de verschillende posities Vaak onvoldoende variatie in basis alignemten slechte herkenning verdere verwanten Iteratief werken: hoe meer sequenties, hoe meer mogelijke variaties goed herkend kunnen worden Weighted Weging matrix met b.v. PAM matrix Betere herkenning verdere verwanten Veel lagere specificiteit en dus veel meer ruis

PSSM (Gribskov) PSSM = Positie Specifieke Score matrix Matrix met per positie de score voor de vervanging/alignment met elk mogelijk AZ Gemaakt op basis proteïne alignement voor elke positie analyse distributie van verschillende AZ replacement scores berekenen voor de vervanging door alle AZ, gebaseerd op een PAM matrix M(p,a) = Σ W(p,b) Y(a,b) W(p,b) is gewicht voorkomen van AZ b op positie p Y(a,b) is PAM matrix Variabele gap opening en extension penalties (op basis van gaps gezien in het alignement)

Consensus sequentie PSSM DEAD box (Gribskov) Cons A B C D E F G H I K L M N P Q R S T V W Y Z Gap Len.. G 11 17 0 16 14-16 19 5-6 11-11 -5 16 9 8 4 14 15-1 -13-14 11 100 100 T 12 9-1 7 7-8 9 2 4 12 0 4 10 5 4 3 9 12 7-8 -8 5 100 100 D 1 1 0 2 1-1 1 0 1 0 0 0 1 0 1 0 0 1 2-3 -1 1 22 22 T 2 2 0 3 2-2 3 0 2 0 0 0 1 1 1-1 1 4 2-5 -2 2 22 22 K 0 1-3 0 1 0 0 0 1 4 1 3 1 0 1 1 0 3 1 0-2 1 22 22 G 3 3 0 4 4-1 6-1 3 0 1 1 3 1 1-2 4 3 5-6 -3 2 22 22 L 5-6 -4-7 -4 16-2 -4 21-4 23 17-5 -4-4 -8-2 4 19 0 6-4 22 22 B 5 16-6 15 11-15 10 6-3 16-8 -1 15 4 9 10 12 7-2 -3-11 10 100 100 L 1-13 -12-14 -9 27-8 -7 24-8 36 30-10 -5-7 -10-4 7 23 6 9-8 100 100 D 7 19-7 22 17-22 13 7-6 19-11 -3 14 8 15 14 17 6-5 -5-18 16 100 100 K 11 10-3 10 9-12 5 9-4 16-6 0 10 6 11 12 10 4-4 3-8 10 100 100 V 7-10 11-11 -10 14 0-8 31-11 19 16-10 0-10 -12 2 8 34-22 9-10 100 100 K 4 16-11 16 17-21 6 9-7 27-12 0 16 7 16 20 12 8-7 0-18 17 100 100 F -3-10 3-14 -10 29-10 -3 20-9 26 19-7 -12-13 -10-6 5 14 10 20-11 100 100 L -5-18 -19-21 -14 42-16 -8 34-12 51 40-15 -12-10 -15-12 -3 32 16 17-11 100 100 V 10-11 11-11 -11 15 8-17 66-11 46 34-17 4-12 -17-6 11 83-43 -4-11 100 100 L -4-23 -37-24 -14 53-23 -11 39-10 73 67-19 -14-4 -14-19 -4 39 17 11-9 100 100 D 30 110-50 150 100-100 70 40-20 30-50 -40 70 10 70 0 20 20-20 -110-50 90 100 100 E 30 70-60 100 150-70 50 40-20 30-30 -20 50 10 70 0 20 20-20 -110-50 110 100 100 A 121 17 24 25 25-41 58-8 0 0-9 0 17 41 16-24 33 33 16-66 -25 16 100 100 D 30 110-50 150 100-100 70 40-20 30-50 -40 70 10 70 0 20 20-20 -110-50 90 100 100 R -7 9-16 7 10-23 -7 17-9 36-14 7 8 10 18 49 5 0-10 35-25 14 100 100 rhle_ecoli NA...VKLDQVEILVLDEADR dbp2_schpo NK...TNLRRVTYLVLDEADR dbp2_yeast GK...TNLKRVTYLVLDEADR dbpa_ecoli GT...VSLDALNTLVMDEADR rm62_drome GS...TNLKRCTYLVLDEADR p68_human GK...TNLRRTTYLVLDEADR rhlb_ecoli NH...INLGAIQVVVLDEADR yn21_caeel TK...GFNLKALKFLIMDEADR yhm5_yeast TK...GFSLRKLKFLVMDEADR me31_drome KV...ADMSHCRILVLDEADK drs1_yeast SA...SFNVDSVEILVMDEADR if4a_rabit RY...LSPKYIKMFVLDEADE if41_human RY...LSPKYIKMFVLDEADE vasa_drome TF...ITFEDTRFVVLDEADR srmb_ecoli EN...FDCRAVETLILDEADR dead_ecoli GT...LDLSKLSGLVLDEADE if4a_orysa QS...LRPDYIKMFVLDEADE dead_klepn GT...LDLSKLSGLVLDEADE pl10_mouse GK...IGLDFCKYLVLDEADR p54_human GV...AKVDHVQMIVLDEADK if4a_drome KL...RTQYIKLFVLDEADE ded1_yeast GK...ISLANVKYLVLDEADR ms16_yeast YS...NKFFRFVDYKVLDEADR pr28_yeast HL...LVMKQVETLVLDEADK if4n_human RS...LRTRAIKMLVLDEADE an3_xenla GK...IGLDFCKYLVLDEADR dbp1_yeast GK...VSLANIKYLVLDEADR if4a_yeast RR...FRTDKIKMFILDEADE spb4_yeast PA...VKTSACSMVVMDEADR if4a_caeel NA...LDTSRIKMFVLDEADE pr05_yeast ND.GKLLSTKRITFVVMDEADR if42_mouse RY...LSPKWIKMFVLDEADE dhh1_yeast KV...ADLSDCSLFIMDEADK db73_drome TK...GFCLKSLKFLVIDEADR yk04_yeast TKVIKEQLSQSLRYIVLDEGDK ybz2_yeast DN.TLIKRFSKVNTLILDEADR yhw9_yeast SGDDTVGGLMRAKYLVLDEADI glh1_caeel GT...IKLDKCRFFVLDEADR

PSSM (Gribskov) Testen sequentie Alignatie (dynamic programming) van test sequentie met de PSSM Score van alignatie van een positie in de PSSM met een positie in de test sequentie uit matrix gehaald Positief of negatief effect van vervangingen in geconserveerd gebied (rood) is veel groter Weging van gaps is ook afhankelijk van de positie bv. in het magenta gebied met gaps in het alignment is de gap penalty (Gap) en indel penalty (Len) lager Verbeteringen Houdt wel rekening met indels Geeft rechtstreeks een score rekening houdend met wat de kans is dat je dat bepaald karakter kan tegenkomen.

PSSM (Gribskov) PSSM conclusies Sensitiever door gebruik score matrix gelijkende AZ kunnen ook goed matchen Mogelijk wel lagere specificiteit Houd rekening met Indels Informatie indels in de set worden gebruikt in patroon Laat ook andere indels toe (test via alignment) Mogelijke verbeteringen verschillende weging sequenties om overrepresentatie eigenschappen van vele sterk verwante sequenties vermijden Gap penalties gebaseerd op gemiddelde gap lengte Profile alignementen t.o.v. 6-frame translaties van DNA sequenties

PSI-BLAST Position Specific Iterative BLAST Doel Vinden van sequentie families inclusief verre verwanten weinig overeenkomst) Patroon (PSSM) van deze familie Methode Gewone BLAST search PSSM (Position-Specific Score Matrix) profiel op basis van alle significante alignementen Evt. eerst selectie correcte hits Doorzoek databank met PSSM (ipv sequentie) Voeg sequenties toe van dezelfde familie die mogelijk nog niet gevonden werden Iteratief maak nieuw profiel met nieuwe sequenties en herhaal

Nog andere BLASTS PHI-BLAST Patern Hit Initiated BLAST Sequenties die matchen aan een gegeven query sequentie EN een gegeven patroon PSSM gebaseerd op (omgeving van) patroon Vaak begin van PSI-BLAST RPS-BLAST Reverse Position Specific BLAST Query t.o.v databank van voorgecompileerde PSSM's bv. CDD: Conserved Domain Database

Hidden Markov Modellen (HMM) HMM (Hidden Markov Model) Veel gebruikte techniek voor patroonherkenning Kan complexe patronen herkennen Machine learning techniek leert zelf patronen herkennen op basis van trainings/voorbeeld data

Hidden Markov Modellen (HMM) Markov Model Aantal toestanden waarin een waarneming wordt gedaan Verbindingen tussen toestanden met een gewicht dat de waarschijnlijkheid van doorgang bepaald Pad: opeenvolging van toestanden in het model Rainy 0.6 Start 0.3 0.4 Sunny 0.4 0.7 0.6 Simpel voorbeeld dat het weer per dag modeleert Cirkels = toestanden het weer op een bepaalde dag: Rainy of Sunny Pijlen = verbindingen/overgangen bv. Wanneer het vandaag regenachtig is, is er 30% kans dat het morgen zonnig is

Hidden Markov Modellen (HMM) Hidden Markov Model toestand kan niet direct waargenomen worden: serie waarnemings waarschijnlijkheden Evt. Begin en eindtoestand zonder waarneming (non-emitting) Walk 0.7 0.1 Rainy 0.6 0.6 0.4 Start 0.3 0.4 0.5 0.4 0.3 Sunny 0.6 0.1 Clean We kunnen de toestand (weer) niet direct waarnemen We krijgen wel de activiteiten van een persoon te weten (waarnemingen) Waarschijnlijkheid activiteiten is afhankelijk van het weer bv. als het regenachtig is, is er slechts 10% kans dat er gewandeld werd Shop

Hidden Markov Modellen (HMM) Evaluatie wat is de kans dat een serie waarnemingen gegenereerd wordt door een gegeven model (Forward algoritme) Padvinden Wat is het meest waarschijnlijke pad door het model gegeven een serie waarnemingen (Viterbi algoritme) toewijzen van toestand aan elke waarneming Walk 0.7 0.1 Rainy 0.6 0.6 0.4 Start 0.3 0.4 Shop 0.5 0.4 0.3 Sunny 0.6 0.1 Clean

Hidden Markov Modellen (HMM) Training van een HMM Gegeven Model waarbij parameters (gewichten, ) niet zijn ingevuld een aantal waarnemingen = trainings data Automatische instelling parameters (gewichten,...) van het model om zo goed mogelijk de observaties te produceren (Forward-Backward algoritme)

Profile of lineair HMM Statistisch model vergelijkbaar met profiel Aan elke verbinding is een waarschijnlijkheid verbonden Staten Match: match een karakter aan een kolom in een multiple alignement (meerdere emissies mogelijk) Insert: emit karakters niet gemodelleerd door het HMM Delete: sla een kolom over Alignement Elk karakter in de sequentie wordt geassocieerd met een match of insert staat Pad van hoogste probabiliteit door HMM

Profile of lineair HMM Probabiliteit pad Alignement uit het profiel halen vermenigvuldiging probabiliteiten van alle overgangen op het pad en de probabiliteiten dat het specifiek AZ wordt gevonden in elke staat in het pad Klein! optelling via log odds Programma's: HMMer, SAM

Profile of lineair HMM Voordelen (t.o.v. Profielen) Betere afhandeling deleties en inserties Kan automatisch getraind worden op ongealigneerde sequenties Probleem: Overfitting Statistisch insignificante AZ distributies per positie door klein aantal sequenties: bv. 2 seq. met H op positie 2 kans 0 dat er een ander AZ op die positie kan komen Oplossing: Pseudocounts Aangepaste scores die geen waarschijnlijkheid van '0' toelaten Belang trainingset!

Neurale netwerken Model gebaseerd op werking neuronen Gebaseerd op verschillende lagen neuronen/perceptrons Elke neuron/perceptron combineert informatie uit de onderliggende laag Perceptronen werken samen om patronen te herkennen

Perceptron Perceptron mathematische contructie die een set regels omvat 1 invoer sequentie gegevens met discreet aantal posities Gewichts functie: elke verschillende invoer heeft een bepaald gewicht Uitvoer Getal > 1 sequentie behoort tot de set / bevat de feature Getal < -1 sequentie behoort niet tot de set

Perceptron Training Met een Dataset (trainings set) die bestaat uit: aantal positieve sequenties (behoren tot de set) aantal negatieve sequenties (lijken sterk op de set maar behoren niet tot de set) Iteratief proces Afwisselend positieve en negatieve sequentie aanbieden Score berekenen Als pos. score < 0 of neg. score > 0 gewichten aanpassen Herhalen tot gewichten gelijk blijven bij 1 iteratie over de hele lijst

Neurale netwerken Neuraal netwerk Verschillende lagen samenwerkende neuronen/perceptrons Parameters: invoer gewichten, treshhold, uitvoer gewicht Training: feed-forward, back-propagation Voordelen Zeer complexe patronen mogelijk Enkel trainingsdata nodig: geen vooraf opgesteld model Nadelen Model kan niet gemakkelijk worden afgeleid (Veel) positieve en negatieve trainingsdata nodig Wat wordt er getraind?

Patroon databanken Databanken van patronen/motieven Patronen/motieven met gegevens (functie, structuur) afgeleid van alignmenten van sequenties in primaire databanken t.o.v. Sequentie databanken minder redundatie 1 patroon ipv. veel gelijkende sequenties in db bv. in primaire db. Kunnen de vele hits voor 1 domein de enkele, minder duidelijke hits voor een ander domein verdoezelen Kortere weg naar mogelijke structuur en functie Geen problemen met plaats van hit, domeinen annotatie Vaak gevoeliger voor verdere verwantschappen Echter niet compleet

Patroon databanken: PROSITE regular expressions Een van de eerste patroon databanken Gebruikt regular expressions om patronen weer te geven Motieven specifiek voor een proteine familie nadruk op de meest geconserveerde en functioneel belangrijke residues Vaak functioneel belangrijke motieven Korte, zeer strikte patronen Geen volledige domeinen Minder geschikt voor minder sterk verwante sequenties Vaak niet genoeg informatie om statistisch significante 'matches' in grote proteïne databanken op te leveren

Patroon databanken: PROSITE Formaat Patroon en hits file Formaat ~ SWISS-PROT ID id, AC (accessie nummer) PA (patroon) NR diagnostic power: aantal correct herkende leden familie in SWISS-PROT, aantal vals positieven en vals negatieven CC commentaar: evt. repeats, functionele sites,... DR accessie nummers Documentatie file Details over de gekarakteriseerde familie Beschrijving biologische rol motief/motieven, bibliografie Vrije text

Patroon databanken: PROSITE Definitie patroon IUPAC 1 letter codes voor AZ X eender welk AZ [] keuze uit verschillende AZ {} keuze uit alle AZ behalve degene tussen de accolades - scheiding elementen (x) x maal het voorgaand (x,y) tussen x en y maal het voorgaande < N-terminus > C-terminus Any : eender welk karakter Voorbeelden [AC]-x-V-x(4)-{ED} vertaald als: [Ala or Cys]-any-Val-any-any-any-any-{alles behalve Glu or Asp} <A-x-[ST](2)-x(0,1)-V In de N-terminal van de sequentie (`<'): Ala-any-[Ser or Thr]-[Ser or Thr]-(any or none)-val

id PROSITE documentatie regular expression

Patroon databanken: via alignementen PRINTS Fingerprints: meeste/alle motieven in sequenties van de families als diagnostische signatuur Lokale alignementen zonder gaps Uitgebreide annotatie Prodom Alignementen met gaps uit SWISS-PROT Blocks Lokale alignementen zonder gaps

Patroon databanken: profielen PROSITE profile library Profielen Worden gebruikt om patronen beter voor te stellen Ook informatie variabelere stukken, indels Zoeken naar complete domeinen Detectie van veel verdere verwanten Zelfde annotatie standaard als PROSITE Formaat Gelijkaardig aan PROSITE MA matrix lijnen i.p.v. patroon lijn (PA) Bevatten alle parameters zoals alfabet,cut-off scores en positie specifieke scores voor match posities (/M) en indels posities (/I)

Prosite profile entry ID AC DT DE MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA MA... KRINGLE_2; MATRIX. PS50070; NOV-1997 (CREATED); NOV-1997 (DATA UPDATE); JUN-2013 (INFO UPDATE). Kringle domain profile. /GENERAL_SPEC: ALPHABET='ABCDEFGHIKLMNPQRSTVWYZ'; LENGTH=79; /DISJOINT: DEFINITION=PROTECT; N1=6; N2=74; /NORMALIZATION: MODE=1; FUNCTION=LINEAR; R1=.7529; R2=.00952475; TEXT='-LogE'; /CUT_OFF: LEVEL=0; SCORE=813; N_SCORE=8.5; MODE=1; TEXT='!'; /CUT_OFF: LEVEL=-1; SCORE=603; N_SCORE=6.5; MODE=1; TEXT='?'; /DEFAULT: D=-20; I=-20; B1=-50; E1=-50; MI=-105; MD=-105; IM=-105; DM=-105; /I: B1=0; BI=-105; BD=-105; /M: SY='D'; M=-15,29,-30,44,37,-36,-15,1,-34,5,-25,-24,10,-6,13,-4,0,-10,-30,-34,-19,25; /M: SY='C'; M=-10,-20,120,-30,-30,-20,-30,-30,-30,-30,-20,-20,-20,-40,-30,-30,-10,-10,-10,-50,-30,-30; /M: SY='Y'; M=-11,-21,-25,-25,-20,16,-27,-1,10,-12,9,15,-20,-25,-12,-12,-18,-9,3,1,31,-18; /M: SY='H'; M=-13,-8,-26,-9,0,-9,-23,16,-13,-2,-9,-1,-5,-15,2,2,-8,-6,-13,-19,4,-1; /M: SY='G'; M=-4,-5,-11,-4,-14,-29,45,-17,-38,-18,-28,-21,0,-21,-17,-19,-1,-17,-27,-26,-28,-16; /M: SY='N'; M=-9,19,-22,11,2,-22,-10,1,-19,4,-22,-14,26,-17,5,5,5,0,-21,-32,-14,3; /M: SY='G'; M=0,-10,-30,-10,-20,-30,70,-20,-40,-20,-30,-20,0,-20,-20,-20,0,-20,-30,-20,-30,-20; /M: SY='E'; M=-10,-1,-27,1,17,-26,-19,0,-19,11,-16,-7,-2,-11,16,8,-4,-8,-17,-25,-11,16; /M: SY='S'; M=-1,8,-18,3,-2,-19,5,-6,-22,-7,-25,-17,16,-15,-2,-7,17,6,-18,-33,-18,-2; /M: SY='Y'; M=-20,-20,-30,-20,-20,30,-30,20,0,-10,0,0,-20,-30,-10,-10,-20,-10,-10,30,80,-20; /M: SY='R'; M=-18,-7,-30,-7,3,-21,-19,1,-27,25,-18,-7,0,-18,12,54,-9,-10,-20,-21,-10,4; /M: SY='G'; M=0,-10,-30,-10,-20,-30,70,-20,-40,-20,-30,-20,0,-20,-20,-20,0,-20,-30,-20,-30,-20; /M: SY='T'; M=-4,2,-18,-4,-3,-17,-18,-12,-16,5,-16,-10,5,-10,-3,1,8,21,-9,-28,-11,-4; /M: SY='V'; M=-1,-19,-19,-22,-17,-2,-21,-13,5,-12,2,5,-16,-21,-13,-12,-7,-1,9,-13,0,-16; /M: SY='S'; M=14,6,-13,2,-1,-20,-1,-9,-19,-8,-25,-18,12,-12,-3,-10,25,10,-12,-35,-19,-2; /M: SY='T'; M=-5,-8,-17,-14,-10,-10,-23,-15,-4,-2,-7,-4,-7,-15,-9,-3,3,20,5,-27,-8,-10; /M: SY='T'; M=0,2,-12,-6,-9,-12,-19,-19,-10,-10,-11,-10,1,-10,-9,-11,17,41,-1,-30,-11,-9; /M: SY='V'; M=-4,-12,-20,-14,-5,-12,-22,-13,-2,-2,-5,0,-11,-17,-7,-2,-4,3,5,-20,-9,-7; /M: SY='S'; M=5,0,-13,-5,-5,-17,-6,-11,-15,-7,-19,-12,6,-12,-4,-9,22,21,-8,-33,-15,-5; /M: SY='G'; M=0,-10,-30,-10,-19,-30,68,-20,-40,-19,-30,-20,0,-20,-19,-19,0,-20,-30,-20,-30,-19;

Prosite profile entry MA /M: SY='R'; M=-7,-2,-25,-2,5,-22,-17,-3,-18,8,-17,-8,-1,-12,13,14,0,-3,-15,-23,-9,7; MA /M: SY='C'; M=-10,-20,120,-30,-30,-20,-30,-30,-30,-30,-20,-20,-20,-40,-30,-30,-10,-10,-10,-50,-30,-30; MA /I: E1=0; IE=-105; DE=-105; NR /RELEASE=2013_08,540732; NR /TOTAL=219(94); /POSITIVE=219(94); /UNKNOWN=0(0); /FALSE_POS=0(0); NR /FALSE_NEG=0; /PARTIAL=1; CC /MATRIX_TYPE=protein_domain; CC /SCALING_DB=reversed; CC /AUTHOR=K_Hofmann; CC /TAXO-RANGE=??E??; /MAX-REPEAT=38; CC /FT_KEY=DOMAIN; /FT_DESC=Kringle; CC /VERSION=1; DR P08519, APOA_HUMAN, T; P14417, APOA_MACMU, T; P98140, FA12_BOVIN, T; DR Q04962, FA12_CAVPO, T; P00748, FA12_HUMAN, T; Q80YC5, FA12_MOUSE, T; DR O97507, FA12_PIG, T; D3ZTE0, FA12_RAT, T; Q5E9Z2, HABP2_BOVIN, T; DR Q14520, HABP2_HUMAN, T; Q8K0D2, HABP2_MOUSE, T; Q6L711, HABP2_RAT, T; DR Q6QNF4, HGFA_CANFA, T; Q04756, HGFA_HUMAN, T; Q9R098, HGFA_MOUSE, T; DR Q24K22, HGFL_BOVIN, T; P26927, HGFL_HUMAN, T; P26928, HGFL_MOUSE, T; DR Q76BS1, HGF_BOVIN, T; Q867B7, HGF_CANFA, T; Q9BH09, HGF_FELCA, T; DR P14210, HGF_HUMAN, T; Q08048, HGF_MOUSE, T; P17945, HGF_RAT, T; DR Q96MU8, KREM1_HUMAN, T; Q99N43, KREM1_MOUSE, T; Q924S4, KREM1_RAT, T; DR Q90Y90, KREM1_XENLA, T; Q8NCW0, KREM2_HUMAN, T; Q8K1S7, KREM2_MOUSE, T; DR Q16609, LPAL2_HUMAN, T; Q2TV78, MST1L_HUMAN, T; Q8AXY6, MUSK_CHICK, T; DR Q5G270, NETR_GORGO, T; P56730, NETR_HUMAN, T; Q5G267, NETR_MACMU, T; DR O08762, NETR_MOUSE, T; Q5G268, NETR_NOMLE, T; Q5G271, NETR_PANTR, T; DR Q5G269, NETR_PONPY, T; G3V801, NETR_RAT, T; Q5G265, NETR_SAGLB, T; DR Q5G266, NETR_TRAPH, T; Q1RMT9, P3IP1_BOVIN, T; Q7SXB3, P3IP1_DANRE, T; DR Q96FE7, P3IP1_HUMAN, T; Q7TMJ8, P3IP1_MOUSE, T; Q5RCS3, P3IP1_PONAB, T; DR Q56A20, P3IP1_RAT, T; P06868, PLMN_BOVIN, T; P80009, PLMN_CANFA, T; DR Q7M323, PLMN_CAPHI, T; Q29485, PLMN_ERIEU, T; P80010, PLMN_HORSE, T;...

Patroon databanken: HMMs PFAM Herkenning via HMMs, maar ook lokale alignementen met gaps PFAM-A gecurateerd PFAM-B Kleine families gebaseerd op de Prodom database (lokale alignementen met gaps uit Swiss-Prot) die niet overlappen met PFAM-A Niet gecurateerd/nagekeken SMART Uitgebreid geannoteerd TIGRFAMs PIR SuperFamily Superfamily

Interpro Samengestelde patroon databank Samenwerking curatoren verschillende databanken Unificatie in documentatie en identificatie Zoektocht met verschilende methoden Resultaten worden samengesteld na toepassing alle methodes Databanken in Interpro PROSITE (regular expressions + profielen) PRINTS PFAM-A PRODOM UniProt SMART TIGRFAMs PIRSF (PIR Super Family)) Superfamily

Interpro

InterPro Korte hits: regular expression Hidden Markov model: match over groter deel van de sequentie Fingerprinting: kleine korte stukjes matchen

Conserved Domain Database CDD Samengestelde patroon/motief databank PSSM Doorzocht met RPS-BLAST Databanken gebaseerd op SMART PFAM Lokale contributies

CDD