Bio-informatica Structuur

Vergelijkbare documenten

Examen structurele bioinformatica Naam:

Bioinformatica tentamen D2 voor 2MNW op maandag 30/05/2005 van 13:30-16:30 in Q105

DAR Approximate string matching Casus: biological sequence alignment

Bio-informatica Similariteit Searches. Peter De Rijk

DNA & eiwitsynthese Oefen- en zelftoetsmodule behorende bij hoofdstuk 16 en 17 van Campbell, 7 e druk December 2008

De antwoorden op vragen 1 en 2, 3 en 4, en 5 t/m 8 graag op verschillende vellen schrijven. Vergeet ook niet op de 3 vellen je naam en studentnr.

Bio-informatica Similariteit. Peter De Rijk

Bio-informatica Genpredictie

Nederlandse samenvatting

DNA & eiwitsynthese Vragen bij COO-programma bij hoofdstuk 11 en 12 Life

4. Een heeft een zowel een gunstig patroon van waterstofbruggen en φ en ψ waarden die binnen het toegelaten gebied van een Ramachandran diagram vallen

GEPE. Deeltoets 1 CURSUSJAAR september uur

Bio-informatica Boom constructie. Peter De Rijk

Afsluitende les. Leerlingenhandleiding. Proteomics voor de massa

Transcriptie en de Genetische code

ANTWOORDEN HOOFDSTUK 6 VAN GEN TOT EIWIT

1 (~20 minuten; 20 punten)

Humane levenscyclus 1

a. Geef de 1-lettercode van de aminozuren in het peptide in de corresponderende volgorde. (4P)

Hand-out bij de oefen- en zelftoets-module bij hoofdstuk 7 van 'The Molecular Biology of the Cell', Alberts et al.

Classification - Prediction

Docentenhandleiding. Afsluitende module. Op zoek naar een gen in een databank

Parking Surveillance. foreground/background segmentation - objectherkenning. Examen Beeldverwerking Pieter Vancoillie

TENTAMEN BIOCHEMIE (8S135) Prof. Dr. Ir. L. Brunsveld :00 17:00 (totaal 100 punten) 6 opgaven in totaal (aangegeven tijd is indicatie)

Hetzelfde DNA in elke cel

Bioinformatica en Systeembiologie (BIS)

Oplossingen Datamining 2II15 Juni 2008

Samenvatting. Figuur 1. Algemene structuur van een nucleotide (links) en de structuren van de verschillende basen (rechts).

Hoofdstuk 8 Samenvatting in het Nederlands

1 Peptiden en eiwitten (~20 minuten; 20 punten)

Inhoud. Neuronen. Synapsen. McCulloch-Pitts neuron. Sigmoids. De bouwstenen van het zenuwstelsel: neuronen en synapsen

a. Geef de 1-lettercode van de aminozuren in het peptide in de corresponderende volgorde. (4P) LLORETDEMAR (iedere fout -1P)

Figuur 1. Representatie van de dubbele helix en de structuren van de verschillende basen.

BOUWSTENEN VAN HET LEVEN

94 Transcriptie en vorming van mrna bij prokaryoten en eukaryoten

Gegevensverwerving en verwerking

Onderstaand is een stukje peptide getoond dat deel uit maakt van een groter eiwit en de naam draagt van een lokaal beroemde biochemicus:

Naam: Studentnummer: Opleiding:..

Nederlandse Samenvatting

Samenvatting Biologie B2

Modeluitwerking Tentamen Computationele Intelligentie Universiteit Leiden Informatica Vrijdag 11 Januari 2013

Bioinformatica tentamen D1 voor 2MNW, 3I, 3PHAR op vrijdag 30 maart 2007 van uur in zaal Q105

2,4. Samenvatting door R woorden 5 maart keer beoordeeld. Biologie voor jou. Stofwisseling Biologie. Atomen en Moleculen

Neurale Netwerken en Deep Learning. Tijmen Blankevoort

Het menselijk genoom. Inleiding Medisch Technische Wetenschappen. Bioinformatica Deel 2. Gevouwen chromosoom. X chromosoom DNA.

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

Bioinformatica tentamen D1 voor 2MNW op woensdag 30 maart 2005 van uur in zaal Q105

2 e SMT Workshop Moleculaire Typeringen spa typering en MLST

Optimalisatie van de eerste klinische studies in bi ondere patie ntengroepen: op weg naar gebruik van semifysiologische

DNA & eiwitsynthese (Junior College Utrecht) Vragen bij COO-programma

Afsluitende les. Leerlingenhandleiding. Visualiseren van eiwitten

Cover Page. The handle holds various files of this Leiden University dissertation.

AI introductie voor testers

Summary in Dutch 179

Recognition and Detection of Objects Using Visual and Textual Cues S. Karaoğlu

Uitwerking Tentamen Datamining (2II15) 26/06/09

In Vlaanderen bestaat er nog geen leerlijn programmeren! Hierdoor baseren wij ons op de leerlijn die men in Nederland toepast voor basisscholen.

IWEX 3D imaging. Content 11/03/2015

Dataconversie met Oracle Spatial

Path-Metadynamics. A Computational Study of Conformational Transitions in Proteins G. Díaz Leines

studie waarmee we de principes van de analyse willen demonstreren. Een volledig beschrijving van de algoritmen en de resultaten zijn te vinden in

Samenvatting en algemene discussie Het DNA, de drager van alle genetische informatie, wordt constant bedreigd door verschillende factoren.

94 Samenvatting te vervormen, wordt de huid bijzonder stijf bij grotere vervormingen. Uit onderzoek is gebleken dat deze eigenschap deels toe te schri

Data Mining: Classificatie

1 (~20 minuten; 20 punten)

Bio-informatica Sequentie Patronen. Peter De Rijk

4,4. Praktische-opdracht door een scholier 2016 woorden 4 november keer beoordeeld

We wensen je veel succes met studeren en het halen van jouw tentamens!

Biologie Vraag 1 <A> <B> <C> <D> Vraag 1. Dit zijn een aantal gegevens over een nucleïnezuur.

Biofysische Scheikunde: NMR-Spectroscopie

Tentamen Biochemie,, onderdeel Abrahams, 2e jaar MST, Antwoorden

Hoe kijken we naar het DNA van een patiënt?

Personiceren van stemmen met Deep Learning

Theoretische Biologie: 13 april Vraag 1: Dit zijn multiple choice vragen. Om-cirkel het meest correcte antwoord.

Transcriptie:

Bio-informatica Structuur 10

Structuur niveaus Primaire structuur Sequentie Secundaire structuur Basis structuur elementen Tertiaire structuur 3D structuur Posttranslationele (posttranscriptionele) modificaties Helices (binding korte complementaire gebieden) in RNA Alpha helices, beta sheets,... in proteïnes signaal peptide cleavage, glycosylatie, Quaternaire structuur Complexen van 2 of meer ketens Niet covalente binding Specifieke ratios en 3D configuratie Predictie moeilijk

CATH Proteïne structuur klassificatie Klasse (C) Architectuur (A) Algemene vorm domein structuur Orientatie secundaire structuur bv.: barrel, 3-layer sandwich Topologie (fold) (T) Samenstelling secundaire structuur Mainly-alpha, mainly-beta, alpha-beta, low secundary structure Fold families met gelijkaardige algemene vorm en connectiviteit van de secundaire Structuur bv. alpha-beta 3-layer sandwich Homologe superfamilie (H) Zelfde afkomst Hoge sequentie identiteit (>35%) en/of SSAP (Sequential Structure Alignment Program) score

CATH

SCOP proteine klassificatie SCOP Database over alle proteinen met gekende 3D structuur Geeft structurele en evolutionaire verwantschappen aan Classificatie Familie Superfamilie duidelijke evolutionaire verwantschap Gewoonlijk sequentie identiteit > 30% Soms kleinere identiteit wanneer structurele en functionele gelijkenissen zeer overtuigend zijn Waarschijnlijke evolutionaire verwantschap Lage sequentie identiteit Structurele en functionale eigenschappen sugereren gemeenschappelijke afkomst Fold Grote structurele gelijkenis

Proteïne domeinen HLA-A2

Proteïne domeinen Modulaire opbouw Proteinen bestaan vaak uit verschillende herkenbare delen (domeinen) met vaak specifieke functies Domein Structureel: deel van een polypeptideketen dat onafhankelijk vouwt tot een ruimtelijk te onderscheiden structurele eenheid (fold) Functioneel: goed-gedefinieerde regio in een proteïne dat overeenkomt met een specifieke functie Binding ligand, transmembranair element, catalytische site, DNA-binding,...

Domein structuur Domeinen best afzonderlijk bekijken Domeinstrucuur voorspellen grote sequenties (>500) vrijwel altijd multidomein deel sequentie homologie met gekende proteinen domein databanken domeinen vaak gescheiden door low complexity sequence Kan voorspeld worden met programma SEG transmembranaire segmenten coiled-coils secundaire structuur kan soms aanwijzingen geven "all α domein", "all β domein"

Experimentele 3D structuur Methoden X-straal diffractie De Referentie Veel werk, tijd, rekentijd (atomaire structuur berekenen) Vaak moeilijk / niet altijd mogelijk NMR Kristallisatie, stabiliteit, flexibiliteit, grootte Vnl voor dynamische structuur Databank van experimenteel bepaalde structuren PDB (protein data bank) Verzameling van de gekende 3D structuren Viewers,...

Andere experimentele methoden Analyse van de zwavelbruggen Cysteines die zwavelbrug vormen bevinden zich in elkaars buurt (in 3d structuur) Spectroscopische data Site-directed mutagenesis aminozuren veranderen heeft effect op structuur en/of functie in het aktief centrum bij bindingsplaatsen Proteolytische klievingsplaatsen idee over de secundaire structuur van het eiwit toegankelijkheid betrokken aminozuren post-translationele modificaties toegankelijkheid betrokken aminozuren

Kwaliteit structuur predictie CASP Critical Assessment of Techniques for Protein Structure Prediction Workshop waar verschillende groepen/programmas structuur voorspellen van proteinen waarvoor de structuur experimenteel bepaald is maar nog niet publiek beschikbaar (vergelijkbaar met EGASP) Verschillende categorien tertiaire structuur, secundaire structuur, complexen, domein grenzen, functie, model refinement,... Verdere opdeling tertaire structuur voorspelling homology modeling, fold recognition, de novo predictie ( nu new fold omdat vaak gebruik gemaakt word van gekende folds voor training ML) sinds CASP7: Template based modeling, Template free modeling

Proteïne secundaire structuur DSSP Database of secondary structure assignments secundaire structuur sequentie van secundaire structuur elementen gebaseerd op coordinaten in PDB files met programma DSSP (Definition of Secondary Structure of Proteins) Secundaire structuur elementen in database H B E G alpha helix beta-sheet extended strand 3/10 helix Belang Alignatie Klassificatie Actieve sites I pi helix T hydrogen bonded turn S bend

Proteïne secundaire structuur predictie Statistische methoden Residu waarschijnlijkheden voor verschillende staten (empirisch afgeleid) Sliding window Hydrofoob moment Assymetrie van hydrophobiciteit van een AZ keten b.v. Alfa helix (periodiciteit 3.6) met een kant in de core: Typisch hydrophobiciteits patroon Comparatief Patronen van conservatie Structuur wordt beter geconserveerd dan sequentie want heeft een rechtstreeks belang voor de functie Gebaseerd op alignementen Gly hoge ws. in reverse turns, Pro weinig ws. in helix, sterke verbetering predictie Machine learning methoden Trainingset: gekende proteïnen en proteïne structuren DSSP databank NN, HMM

Proteïne secundaire structuur Programma's JPRED2 PHD, PHDsec, PHDacc Verbeterde versie van PHD Profile-based neuraal netwerk predictie JPRED Secundaire structuur, solvent accessibiliteit Neurale netwerken Op basis van alignementen (10% betere predictie dan op basis van 1 sequentie) PROF, PROFseq, PROFacc Combinatie van verschillende methoden (PHD, PREDATOR,...) Consensus voorspelling 2 3-layer neurale netwerken (sliding window) PSIPRED Neurale netwerken die positie-specifieke score matrix in PSI-BLAST output analyseren

Transmembranaire regios Transmembranaire regios Typishe hydrophobiciteits profiel Herkenning transmembranaire elementen Patroonherkennings algoritmen NN HMM

Transmembranaire regios Programma's PHDhtm TMHMM multiple alignmenten: als slechts 1 sequentie, zoekt andere in db propensity values voor midden en uiteinde transmembranaire regio weging volgens conservatie TopPred HMM TMAP Locatie en topologie van transmembranaire helices Op basis van alignementen Neurale netwerken, verfijning met empirische filter en dynamic programming ~95% correcte predictie Hydrofobiciteits patronen DAS Hydrofobiciteits patronen

Coiled Coils Coiled coils verschillende α-helixen op hun beurt nog eens in elkaar gedraaid bv. in myosine of fibrine programma COILS waarschijnlijkheid dat de sequentie een coiled coil conformatie zal aannemen similariteits score in databank van gekende coiled-coil structuren (~ alignatie) vergeleken met distributie scores met gekende globulaire en coiled coil eiwitten specifiek voor linksdraaiende coiled coils gewogen scan coiled coil vnl. hydrofiel behalve aminozuren op plaats 1 en 4 ongewogen hydrofiele aminozuren erg bevoordeeld gewogen scan plaatsen 1 en 4 extra gewicht

Andere structuur elementen Programma's CYSPRED Welke Cys residus vormen disulfide bruggen Neuraal netwerk Predictie score 72% (81% voor alingementen) GLOBE Predictie van globulariteit proteine

3D proteïne structuur

Databank zoektocht Patronen Domein databanken Gekende domeinen Kunnen informatie opleveren over structuur en functie van delen Sequentie methoden PDB BLAST, FASTA,BLITZ, SCANPS PSI-BLAST, HMMer: verhoging gevoeligheid Gekende 3D structuren Structuur naar homologie Proteine databanken Geen gekende structuur Multiple alignementen van homologe sequenties met gelijkaardige structuur Kunnen gebruikt worden om predictie te verbeteren

Proteïne 3D structuur Theoretische methoden Homology modeling Threading / Fold herkenning Gekende structuur met goede similariteit (>30% identiteit) Minder goede / geen similariteit Ab initio Geen homologen

Homology modelling Methode Homologie searches sequenties met gekende 3D structuur BLASTP, MAXHom, PSIBlast duidelijke globale similariteit Structurele alignatie Modelleer backbone vertrekkend vanaf alignment ~ rekening houden met indel Modelleer zijketens Energie optimalisatie (structuur met minimum free energy) tijdsrovend Resultaten 90% id.: resultaat vergelijkbaar met X-straal diffractie 50% id.: fouten tot 1.5Å en grotere locale fouten 25% id.: grote fouten (slechte alignatie)

Homology modelling Programma's SWISS-MODEL MODELLER WHAT IF CPHmodels BLASTP2: Zoek similaire sequenties met gekende structuur in database (ExNRL) SIM: Selecteer templates met id>20%, model langer dan 20AZ, detecteer domeinen ProModII: genereer modellen Gromos96: energie minimalisatie van alle modellen dat ProModII genereert Collectie databases en methoden imoltalk...

Fold herkenning Beperkt aantal mogelijke folds zijn energetisch interessant Proteinen vaak zelfde fold, zelfs zonder significante similariteit Voor veel proteinen geschikte structuur in de databanken Niet gevonden wegens gebrek aan similariteit Databanken van gekende folds Fold herkenning (Inverse folding problem) Voorspelling welke fold best past op een gegeven sequentie Alle mogelijke structuren voorspellen: tijdsrovend evt. gebruik maken van gegevens over secundaire structuur, om zoektocht te beperken

Threading Threading (~techniek fold herkenning) Database van gekende folds thread sequentie door meest waarschijnlijke / alle structuren Selecteer beste structuur Predictie gebaseerde threading Verre homologen zonder significante sequentie gelijkenis (0-25%) Detectie van gelijkaardige patronen van sec. structuur en accessibiliteit tussen ongekende sequentie en gekende fold Voorspel sec. structuur onbekende sequentie Alignatie met DSSP Verhoog zo mogelijkheid tot gebruik homologie gegevens

Threading/fold recognition programma's TOPITS Predictie gebaseerd threading programma Zoekt naar structurele homologen in de DSSP databank Gekende 3D structuren in de vorm van 1D strings van sec. structuur en solvent accessibiliteit Predictie SS en solvent accessibiliteit van query sequentie met PHD -> string Alignatie strings met dynamic programming Eerste hit in 30% van de gevallen correct (beter bij hogere score) Threader 2 Database van folds Dynamic programming voor alignatie sequentie structuur Afgeleid van gekende structuren (geen sequentie info) Scoring op basis van continue, statistische afgeleide potentiaal Werkt met volledige database Test query sequentie t.o.v. alle folds Bereken energie -> laagste energie is beste match

Ab initio Ab initio methoden Wanneer er geen gekende structuur op de onbekende sequentie past Enkel vertrekkende van de sequentie Energie minimalisatie; minimale energie berekenen Simulaties van folding (molecular dynamics) Problemen Zeer rekenintensief Enkel kleine molecules Beperkt succes Rosetta Gebruikt wel homologie wanneer gevonden (~geen zuivere ab initio ) De novo modeling wanneer geen homologie Fragmenten van bestaande PDB structuren als gids Combinatie met energie functies is niet puur ab initio

Conclusie structuur predictie Secundaire structuur Relatief betrouwbare resultaten wanneer we vertrekken van een alignement Gebruik en vergelijk verschillende methoden Tertiaire structuur Betrouwbare resultaten wanneer goed gekend homoloog voorhanden is Problematischer bij minder duidelijke of geen homologen Gebruik en vergelijk verschillende methoden

Homologie en functie Genfamilies Groepen genen die homoloog zijn door duplicatie (paralogen) ~ binnen 1 soort door speciatie (orthologen) ~ tussen verschillende soorten Vaak dezelfde of gelijkaardige functie b.v. transporter eiwitten Niet altijd dezelfde/gelijkaardige functie: kan soms compleet anders zijn Domein analyse Belangrijke stap bij bekijken onbekend proteïne Domein databanken: sequentie patronen profielen, weight matrices,... Interpro,... Komt vaak overeen met typische folds Domeinen hebben vaak een typische functie, maar kan toch verschillen in bv. specificiteit

RNA structuur Primary structure AG U C... Secondary structure GA U. A G A.. A A G G.. UC G A.. CC A U G. C G. U C C A

Belang RNA structuur Invloed structuur Translationele controle in mrna Replicatie controle bij virussen Vele functionele/actieve RNA moleculen die niet coderen voor AZ (ncrna) rrna (ribosomaal RNA): translatie snrna (small nuclear RNAs): splicing snorna (small nulceolar RNAs): constructie ribosomen, telomeren mirna (microrna): regulatie van expressie sirna: targetting voor afbraak...

Base interacties in RNA Canonische paren (Watson-Crick type) Wobble paren AU en GC zoals bv. 3d base in anticodon met 1st base codon GU paar wordt vaak gevonden in RNA structuur Vrijwel zelfde gedrag als canonische paren Niet - canonische paren experimenteel vastgesteld (X-straal diffractie van kleine artificiële RNAs) b.v. GA paar komt vrij regelmatig voor (vaak uiteinde helix) Er zijn verschillen in de waarschijnlijkheid van voorkomen van niet-canonische paren

Secundaire RNA structuur 1. Helix 3 duplex (A-form) van minstens 2 baseparen 2. Enkelstrengige gebieden 3. Hairpin tetraloops UUCG, GCAA, CUUG 4. Bulge loop 5. Internal loop 6. Junctie of multibranched loop 3 1 5 1 1 4 6 1 2

Tertiaire structuur interacties Tertiaire base paringen loop-loop interacties Pseudoknopen Vaak zeldzame interactions segment in hairpin vormt helix met segment buiten de hairpin helix Moeilijk te zeggen welke interactie secundair en welke tertiair is Andere tertiaire interacties intercalatie base triples helix - helix interacties

Pseudoknoop

RNA Structuur voorspelling Experimenteel Chemische en enzymatische methoden X-straal diffractie Single of double strand specifieke modificatie, crosslinking,... Maken van kristallen is moeilijk NMR Voorspellen Thermodynamische methoden Probabilistische modellen Comparatieve methoden

Thermodynamische methoden Vinden van de energetisch meest voordelige structuur MFE (minimum Free Energy) Theoretisch mogelijk Problemen: experimenteel bepaalde thermodynamische data is niet altijd accuraat Invloed van interacties met solvent, ionen, proteinen, etc. moeilijk te quantificeren dikwijls niet in rekening gebracht computationeel complex zware vereenvoudigingen zijn noodzakelijk

Thermodynamische methoden Vrije energie parameters Variatie van parameters tot gekende structuren (trna and 5S) correct voorspeld worden experimentele studies op de stabiliteit van structuren gevormd door kleine oligoribonucleotides Door Calorimetrie (bepalen smeltcurves) Stabiliteit basepaar (door waterstofbruggen) wordt beinvloed door zijn omgeving Nearest neighbor model simplificatie: stabiliteit van de interacties is enkel afhankelijk van vlakbij gelegen base paren loop regios: enkel afhankelijk van lengte Niet correct: b.v. tetraloops (sommige sequenties van 4 basen in de loop zijn veel stabieler dan andere sequnties)

Thermodynamische methoden Combinatorische Algoritmen Algoritme Voordelen Lijst van alle mogelijke helices (op basis canonische en wobble paren) Combinatie met laagste vrije energie Niet nearest neigbor interacties kunnen in rekening gebracht worden Pseudo-knopen zijn mogelijk Nadelen Aantal mogelijkheden stijgt te snel voor grotere sequenties

Thermodynamische methoden Dynamic programming algoritme Algoritme Voordeel Bereken laagste energie voor segment S met lengte i-j S(i,j) voor elke subsequentie ri...rj: is afhankelijk van subsequenties Start met pentanucleotides, dan hexanucleotides, etc. Herhaal tot laagste vrije energie voor de volledige sequentie wordt gevonden Vind de structuur door backtracing snelheid Nadeel Enkel nearest-neighbor kan in rekening gebracht worden Geen pseudoknopen

Thermodynamische methoden Dynamic programming algoritme e(ri,rj) = vrije energie bij paren van ri en rj S(i,j) = optimale vrije energie van segment ri...rj S(i+1,j) S(i,j-1) S(i+1,j-1)+e(ri,rj) S(i,k)+S(k+1,j) De optimale vrije energie van een segment van positie i tot j = beste van alle mogelijkheden hierboven Laatste mogelijkheid maakt vertakkingen mogelijk k varieert tussen I en j

Thermodynamische methoden programma's Mfold Nearest-neighbor, geen pseudoknopen Dynamic programming om energie optimalisatie te doen Verschillende verbeteringen Grote complexiteit: O(n3) tijd, O(n2) ruimte Vienna RNA Package Verschillende dynamic programming algoritmes Suboptimale folds, experimentele constraints Minimum free energy (~mfold) Partition function Suboptimal folding Rnadraw Dynamic programming (~ mfold)

Probabilistische modelen Probabilistische modellen statistische modellen van RNA structuur ~ vergelijkbaar met HMM, maar HMM veronderstellen dat alle posities onafhankelijke, niet interagerende distributies hebben. Dit klopt niet voor RNA structuur b.v. stochastic context free grammars (SCFG) komen van computationele linguistiek parameters worden berekend op basis van gekende sequenties structuur relaties (set geannoteerde RNA sequenties) Programmas CONTRAfold conditional log-linear models (extensie van SCFGs)

Pobabilistische modellen Stochastic Context Free grammars set van formele regels (productions). bv. (simpel) Opeenvolging van regels (=parse) sequentie ws. vorige parse = ps asu ps gsc ps us ps e Mapping van een parse structuur bv. sequentie agucu: S asu agscu aguscu agucu Meerdere parses mogelijk voor zelfde sequentie waarschijnlijkheden voor verschillende mogelijkheden S asu usa csg gsc gsu usg as cs gs us e Base paar wanneer twee letters worden gegenereerd in dezelfde stap Training: gegeven een set sequenties waarschijnlijkheden invullen

Comparatieve methode Basis secondaire structuur van functioneel RNA wordt geconserveerd in de evolutie Zoeken naar een structuur model dat past op een set van homologe sequenties Structuur model gemeenschappelijk in een set van homologe sequenties

Comparatieve methode

Comparatieve Analyse Compenserende base veranderingen Verandering van een base in een helix wordt gecompenseerd door een verandering op de complementaire positie om de baseparing te behouden Bevestigt de aanwezigheid van een interactie Covariatie 2 posities varieren gelijktijdig (zonder per se canonieke base paren te vormen) duidt op constraints in de structuur mutual information I ( X ; Y )= p ( x, y )log ( p(x, y) ) p( x ) p ( y) y Y y X Maat voor covariatie tussen 2 posities berekend op basis van voorkomen van elk paar basen op de twee posities t.o.v. hoeveel we ze verwachten terug te vinden bij toeval =0 als posities onafhankelijk (log van verhouding, die 1 is als toeval)

Automatische comparatieve analyse Alignement gevolgd door covariatie analyse Covariatie scores voor mogelijke baseparen met b.v. mutual-information Combinatie met MFE methoden ILM (Iterative Loop Matching) supporteert ook pseudoknopen Vienna RNA pakket (als nieuwe methode) Probabilistische modelen parameters worden berekend op basis van gekende sequentie structuur relaties Pfold stochastic context free grammars probabiliteit van structuur gegeven alignement en boom

automatische comparatieve analyse Simultane alignatie en structuur predictie Sankoff-Algorithm zoeken naar structureel geconserveerde ankers en iteratieve extensie binnen deze ankers zeer computationeel intens (traag, beperkte grootte) vb. Carnac, Foldalign, Dynalign, Pmcomp vb. RNAscf (RNA stacks based consensus folding), carnac Structuur alignatie Bij zeer slecht aligneerbare sequenties methode Predictie structuur sequenties afzonderlijk Alignatie van structuur Zoeken naar consensus structuur bv. RNAforester, MARNA

Overzicht

Plan A: align, then fold Plan B: align and fold Scores Plan C: fold and compare folds

Comparatieve methode Voordelen enkel sequencing experimenten Geen hinder van interacties met andere moleculen Succesvol nieuwe structurele elementen voorgesteld op basis van comparatieve analyse zijn later bewezen op basis van hoge resolutie experimentele methoden (pseudo-knoop, niet-canonische paringen, tetraloops) correcte predictie structuur (t.o.v. latere resultaten met X-straal diffractie) trna ribosomaal RNA

Comparatieve methode Nadelen (groot) aantal verwante sequenties nodig Volledig geconserveerde regios kunnen niet opgelost worden Arbeidsintensief Zeer variable regios Problemen met alignement (maar alignement kan verbeterd worden met behulp van structuur informatie) Locale variaties in structuur zijn altijd mogelijk Inserties die slechts terugevonden worden in een beperkt aantal sequenties sequentie fouten

X straal diffractie