Bio-informatica Structuur 10
Structuur niveaus Primaire structuur Sequentie Secundaire structuur Basis structuur elementen Tertiaire structuur 3D structuur Posttranslationele (posttranscriptionele) modificaties Helices (binding korte complementaire gebieden) in RNA Alpha helices, beta sheets,... in proteïnes signaal peptide cleavage, glycosylatie, Quaternaire structuur Complexen van 2 of meer ketens Niet covalente binding Specifieke ratios en 3D configuratie Predictie moeilijk
CATH Proteïne structuur klassificatie Klasse (C) Architectuur (A) Algemene vorm domein structuur Orientatie secundaire structuur bv.: barrel, 3-layer sandwich Topologie (fold) (T) Samenstelling secundaire structuur Mainly-alpha, mainly-beta, alpha-beta, low secundary structure Fold families met gelijkaardige algemene vorm en connectiviteit van de secundaire Structuur bv. alpha-beta 3-layer sandwich Homologe superfamilie (H) Zelfde afkomst Hoge sequentie identiteit (>35%) en/of SSAP (Sequential Structure Alignment Program) score
CATH
SCOP proteine klassificatie SCOP Database over alle proteinen met gekende 3D structuur Geeft structurele en evolutionaire verwantschappen aan Classificatie Familie Superfamilie duidelijke evolutionaire verwantschap Gewoonlijk sequentie identiteit > 30% Soms kleinere identiteit wanneer structurele en functionele gelijkenissen zeer overtuigend zijn Waarschijnlijke evolutionaire verwantschap Lage sequentie identiteit Structurele en functionale eigenschappen sugereren gemeenschappelijke afkomst Fold Grote structurele gelijkenis
Proteïne domeinen HLA-A2
Proteïne domeinen Modulaire opbouw Proteinen bestaan vaak uit verschillende herkenbare delen (domeinen) met vaak specifieke functies Domein Structureel: deel van een polypeptideketen dat onafhankelijk vouwt tot een ruimtelijk te onderscheiden structurele eenheid (fold) Functioneel: goed-gedefinieerde regio in een proteïne dat overeenkomt met een specifieke functie Binding ligand, transmembranair element, catalytische site, DNA-binding,...
Domein structuur Domeinen best afzonderlijk bekijken Domeinstrucuur voorspellen grote sequenties (>500) vrijwel altijd multidomein deel sequentie homologie met gekende proteinen domein databanken domeinen vaak gescheiden door low complexity sequence Kan voorspeld worden met programma SEG transmembranaire segmenten coiled-coils secundaire structuur kan soms aanwijzingen geven "all α domein", "all β domein"
Experimentele 3D structuur Methoden X-straal diffractie De Referentie Veel werk, tijd, rekentijd (atomaire structuur berekenen) Vaak moeilijk / niet altijd mogelijk NMR Kristallisatie, stabiliteit, flexibiliteit, grootte Vnl voor dynamische structuur Databank van experimenteel bepaalde structuren PDB (protein data bank) Verzameling van de gekende 3D structuren Viewers,...
Andere experimentele methoden Analyse van de zwavelbruggen Cysteines die zwavelbrug vormen bevinden zich in elkaars buurt (in 3d structuur) Spectroscopische data Site-directed mutagenesis aminozuren veranderen heeft effect op structuur en/of functie in het aktief centrum bij bindingsplaatsen Proteolytische klievingsplaatsen idee over de secundaire structuur van het eiwit toegankelijkheid betrokken aminozuren post-translationele modificaties toegankelijkheid betrokken aminozuren
Kwaliteit structuur predictie CASP Critical Assessment of Techniques for Protein Structure Prediction Workshop waar verschillende groepen/programmas structuur voorspellen van proteinen waarvoor de structuur experimenteel bepaald is maar nog niet publiek beschikbaar (vergelijkbaar met EGASP) Verschillende categorien tertiaire structuur, secundaire structuur, complexen, domein grenzen, functie, model refinement,... Verdere opdeling tertaire structuur voorspelling homology modeling, fold recognition, de novo predictie ( nu new fold omdat vaak gebruik gemaakt word van gekende folds voor training ML) sinds CASP7: Template based modeling, Template free modeling
Proteïne secundaire structuur DSSP Database of secondary structure assignments secundaire structuur sequentie van secundaire structuur elementen gebaseerd op coordinaten in PDB files met programma DSSP (Definition of Secondary Structure of Proteins) Secundaire structuur elementen in database H B E G alpha helix beta-sheet extended strand 3/10 helix Belang Alignatie Klassificatie Actieve sites I pi helix T hydrogen bonded turn S bend
Proteïne secundaire structuur predictie Statistische methoden Residu waarschijnlijkheden voor verschillende staten (empirisch afgeleid) Sliding window Hydrofoob moment Assymetrie van hydrophobiciteit van een AZ keten b.v. Alfa helix (periodiciteit 3.6) met een kant in de core: Typisch hydrophobiciteits patroon Comparatief Patronen van conservatie Structuur wordt beter geconserveerd dan sequentie want heeft een rechtstreeks belang voor de functie Gebaseerd op alignementen Gly hoge ws. in reverse turns, Pro weinig ws. in helix, sterke verbetering predictie Machine learning methoden Trainingset: gekende proteïnen en proteïne structuren DSSP databank NN, HMM
Proteïne secundaire structuur Programma's JPRED2 PHD, PHDsec, PHDacc Verbeterde versie van PHD Profile-based neuraal netwerk predictie JPRED Secundaire structuur, solvent accessibiliteit Neurale netwerken Op basis van alignementen (10% betere predictie dan op basis van 1 sequentie) PROF, PROFseq, PROFacc Combinatie van verschillende methoden (PHD, PREDATOR,...) Consensus voorspelling 2 3-layer neurale netwerken (sliding window) PSIPRED Neurale netwerken die positie-specifieke score matrix in PSI-BLAST output analyseren
Transmembranaire regios Transmembranaire regios Typishe hydrophobiciteits profiel Herkenning transmembranaire elementen Patroonherkennings algoritmen NN HMM
Transmembranaire regios Programma's PHDhtm TMHMM multiple alignmenten: als slechts 1 sequentie, zoekt andere in db propensity values voor midden en uiteinde transmembranaire regio weging volgens conservatie TopPred HMM TMAP Locatie en topologie van transmembranaire helices Op basis van alignementen Neurale netwerken, verfijning met empirische filter en dynamic programming ~95% correcte predictie Hydrofobiciteits patronen DAS Hydrofobiciteits patronen
Coiled Coils Coiled coils verschillende α-helixen op hun beurt nog eens in elkaar gedraaid bv. in myosine of fibrine programma COILS waarschijnlijkheid dat de sequentie een coiled coil conformatie zal aannemen similariteits score in databank van gekende coiled-coil structuren (~ alignatie) vergeleken met distributie scores met gekende globulaire en coiled coil eiwitten specifiek voor linksdraaiende coiled coils gewogen scan coiled coil vnl. hydrofiel behalve aminozuren op plaats 1 en 4 ongewogen hydrofiele aminozuren erg bevoordeeld gewogen scan plaatsen 1 en 4 extra gewicht
Andere structuur elementen Programma's CYSPRED Welke Cys residus vormen disulfide bruggen Neuraal netwerk Predictie score 72% (81% voor alingementen) GLOBE Predictie van globulariteit proteine
3D proteïne structuur
Databank zoektocht Patronen Domein databanken Gekende domeinen Kunnen informatie opleveren over structuur en functie van delen Sequentie methoden PDB BLAST, FASTA,BLITZ, SCANPS PSI-BLAST, HMMer: verhoging gevoeligheid Gekende 3D structuren Structuur naar homologie Proteine databanken Geen gekende structuur Multiple alignementen van homologe sequenties met gelijkaardige structuur Kunnen gebruikt worden om predictie te verbeteren
Proteïne 3D structuur Theoretische methoden Homology modeling Threading / Fold herkenning Gekende structuur met goede similariteit (>30% identiteit) Minder goede / geen similariteit Ab initio Geen homologen
Homology modelling Methode Homologie searches sequenties met gekende 3D structuur BLASTP, MAXHom, PSIBlast duidelijke globale similariteit Structurele alignatie Modelleer backbone vertrekkend vanaf alignment ~ rekening houden met indel Modelleer zijketens Energie optimalisatie (structuur met minimum free energy) tijdsrovend Resultaten 90% id.: resultaat vergelijkbaar met X-straal diffractie 50% id.: fouten tot 1.5Å en grotere locale fouten 25% id.: grote fouten (slechte alignatie)
Homology modelling Programma's SWISS-MODEL MODELLER WHAT IF CPHmodels BLASTP2: Zoek similaire sequenties met gekende structuur in database (ExNRL) SIM: Selecteer templates met id>20%, model langer dan 20AZ, detecteer domeinen ProModII: genereer modellen Gromos96: energie minimalisatie van alle modellen dat ProModII genereert Collectie databases en methoden imoltalk...
Fold herkenning Beperkt aantal mogelijke folds zijn energetisch interessant Proteinen vaak zelfde fold, zelfs zonder significante similariteit Voor veel proteinen geschikte structuur in de databanken Niet gevonden wegens gebrek aan similariteit Databanken van gekende folds Fold herkenning (Inverse folding problem) Voorspelling welke fold best past op een gegeven sequentie Alle mogelijke structuren voorspellen: tijdsrovend evt. gebruik maken van gegevens over secundaire structuur, om zoektocht te beperken
Threading Threading (~techniek fold herkenning) Database van gekende folds thread sequentie door meest waarschijnlijke / alle structuren Selecteer beste structuur Predictie gebaseerde threading Verre homologen zonder significante sequentie gelijkenis (0-25%) Detectie van gelijkaardige patronen van sec. structuur en accessibiliteit tussen ongekende sequentie en gekende fold Voorspel sec. structuur onbekende sequentie Alignatie met DSSP Verhoog zo mogelijkheid tot gebruik homologie gegevens
Threading/fold recognition programma's TOPITS Predictie gebaseerd threading programma Zoekt naar structurele homologen in de DSSP databank Gekende 3D structuren in de vorm van 1D strings van sec. structuur en solvent accessibiliteit Predictie SS en solvent accessibiliteit van query sequentie met PHD -> string Alignatie strings met dynamic programming Eerste hit in 30% van de gevallen correct (beter bij hogere score) Threader 2 Database van folds Dynamic programming voor alignatie sequentie structuur Afgeleid van gekende structuren (geen sequentie info) Scoring op basis van continue, statistische afgeleide potentiaal Werkt met volledige database Test query sequentie t.o.v. alle folds Bereken energie -> laagste energie is beste match
Ab initio Ab initio methoden Wanneer er geen gekende structuur op de onbekende sequentie past Enkel vertrekkende van de sequentie Energie minimalisatie; minimale energie berekenen Simulaties van folding (molecular dynamics) Problemen Zeer rekenintensief Enkel kleine molecules Beperkt succes Rosetta Gebruikt wel homologie wanneer gevonden (~geen zuivere ab initio ) De novo modeling wanneer geen homologie Fragmenten van bestaande PDB structuren als gids Combinatie met energie functies is niet puur ab initio
Conclusie structuur predictie Secundaire structuur Relatief betrouwbare resultaten wanneer we vertrekken van een alignement Gebruik en vergelijk verschillende methoden Tertiaire structuur Betrouwbare resultaten wanneer goed gekend homoloog voorhanden is Problematischer bij minder duidelijke of geen homologen Gebruik en vergelijk verschillende methoden
Homologie en functie Genfamilies Groepen genen die homoloog zijn door duplicatie (paralogen) ~ binnen 1 soort door speciatie (orthologen) ~ tussen verschillende soorten Vaak dezelfde of gelijkaardige functie b.v. transporter eiwitten Niet altijd dezelfde/gelijkaardige functie: kan soms compleet anders zijn Domein analyse Belangrijke stap bij bekijken onbekend proteïne Domein databanken: sequentie patronen profielen, weight matrices,... Interpro,... Komt vaak overeen met typische folds Domeinen hebben vaak een typische functie, maar kan toch verschillen in bv. specificiteit
RNA structuur Primary structure AG U C... Secondary structure GA U. A G A.. A A G G.. UC G A.. CC A U G. C G. U C C A
Belang RNA structuur Invloed structuur Translationele controle in mrna Replicatie controle bij virussen Vele functionele/actieve RNA moleculen die niet coderen voor AZ (ncrna) rrna (ribosomaal RNA): translatie snrna (small nuclear RNAs): splicing snorna (small nulceolar RNAs): constructie ribosomen, telomeren mirna (microrna): regulatie van expressie sirna: targetting voor afbraak...
Base interacties in RNA Canonische paren (Watson-Crick type) Wobble paren AU en GC zoals bv. 3d base in anticodon met 1st base codon GU paar wordt vaak gevonden in RNA structuur Vrijwel zelfde gedrag als canonische paren Niet - canonische paren experimenteel vastgesteld (X-straal diffractie van kleine artificiële RNAs) b.v. GA paar komt vrij regelmatig voor (vaak uiteinde helix) Er zijn verschillen in de waarschijnlijkheid van voorkomen van niet-canonische paren
Secundaire RNA structuur 1. Helix 3 duplex (A-form) van minstens 2 baseparen 2. Enkelstrengige gebieden 3. Hairpin tetraloops UUCG, GCAA, CUUG 4. Bulge loop 5. Internal loop 6. Junctie of multibranched loop 3 1 5 1 1 4 6 1 2
Tertiaire structuur interacties Tertiaire base paringen loop-loop interacties Pseudoknopen Vaak zeldzame interactions segment in hairpin vormt helix met segment buiten de hairpin helix Moeilijk te zeggen welke interactie secundair en welke tertiair is Andere tertiaire interacties intercalatie base triples helix - helix interacties
Pseudoknoop
RNA Structuur voorspelling Experimenteel Chemische en enzymatische methoden X-straal diffractie Single of double strand specifieke modificatie, crosslinking,... Maken van kristallen is moeilijk NMR Voorspellen Thermodynamische methoden Probabilistische modellen Comparatieve methoden
Thermodynamische methoden Vinden van de energetisch meest voordelige structuur MFE (minimum Free Energy) Theoretisch mogelijk Problemen: experimenteel bepaalde thermodynamische data is niet altijd accuraat Invloed van interacties met solvent, ionen, proteinen, etc. moeilijk te quantificeren dikwijls niet in rekening gebracht computationeel complex zware vereenvoudigingen zijn noodzakelijk
Thermodynamische methoden Vrije energie parameters Variatie van parameters tot gekende structuren (trna and 5S) correct voorspeld worden experimentele studies op de stabiliteit van structuren gevormd door kleine oligoribonucleotides Door Calorimetrie (bepalen smeltcurves) Stabiliteit basepaar (door waterstofbruggen) wordt beinvloed door zijn omgeving Nearest neighbor model simplificatie: stabiliteit van de interacties is enkel afhankelijk van vlakbij gelegen base paren loop regios: enkel afhankelijk van lengte Niet correct: b.v. tetraloops (sommige sequenties van 4 basen in de loop zijn veel stabieler dan andere sequnties)
Thermodynamische methoden Combinatorische Algoritmen Algoritme Voordelen Lijst van alle mogelijke helices (op basis canonische en wobble paren) Combinatie met laagste vrije energie Niet nearest neigbor interacties kunnen in rekening gebracht worden Pseudo-knopen zijn mogelijk Nadelen Aantal mogelijkheden stijgt te snel voor grotere sequenties
Thermodynamische methoden Dynamic programming algoritme Algoritme Voordeel Bereken laagste energie voor segment S met lengte i-j S(i,j) voor elke subsequentie ri...rj: is afhankelijk van subsequenties Start met pentanucleotides, dan hexanucleotides, etc. Herhaal tot laagste vrije energie voor de volledige sequentie wordt gevonden Vind de structuur door backtracing snelheid Nadeel Enkel nearest-neighbor kan in rekening gebracht worden Geen pseudoknopen
Thermodynamische methoden Dynamic programming algoritme e(ri,rj) = vrije energie bij paren van ri en rj S(i,j) = optimale vrije energie van segment ri...rj S(i+1,j) S(i,j-1) S(i+1,j-1)+e(ri,rj) S(i,k)+S(k+1,j) De optimale vrije energie van een segment van positie i tot j = beste van alle mogelijkheden hierboven Laatste mogelijkheid maakt vertakkingen mogelijk k varieert tussen I en j
Thermodynamische methoden programma's Mfold Nearest-neighbor, geen pseudoknopen Dynamic programming om energie optimalisatie te doen Verschillende verbeteringen Grote complexiteit: O(n3) tijd, O(n2) ruimte Vienna RNA Package Verschillende dynamic programming algoritmes Suboptimale folds, experimentele constraints Minimum free energy (~mfold) Partition function Suboptimal folding Rnadraw Dynamic programming (~ mfold)
Probabilistische modelen Probabilistische modellen statistische modellen van RNA structuur ~ vergelijkbaar met HMM, maar HMM veronderstellen dat alle posities onafhankelijke, niet interagerende distributies hebben. Dit klopt niet voor RNA structuur b.v. stochastic context free grammars (SCFG) komen van computationele linguistiek parameters worden berekend op basis van gekende sequenties structuur relaties (set geannoteerde RNA sequenties) Programmas CONTRAfold conditional log-linear models (extensie van SCFGs)
Pobabilistische modellen Stochastic Context Free grammars set van formele regels (productions). bv. (simpel) Opeenvolging van regels (=parse) sequentie ws. vorige parse = ps asu ps gsc ps us ps e Mapping van een parse structuur bv. sequentie agucu: S asu agscu aguscu agucu Meerdere parses mogelijk voor zelfde sequentie waarschijnlijkheden voor verschillende mogelijkheden S asu usa csg gsc gsu usg as cs gs us e Base paar wanneer twee letters worden gegenereerd in dezelfde stap Training: gegeven een set sequenties waarschijnlijkheden invullen
Comparatieve methode Basis secondaire structuur van functioneel RNA wordt geconserveerd in de evolutie Zoeken naar een structuur model dat past op een set van homologe sequenties Structuur model gemeenschappelijk in een set van homologe sequenties
Comparatieve methode
Comparatieve Analyse Compenserende base veranderingen Verandering van een base in een helix wordt gecompenseerd door een verandering op de complementaire positie om de baseparing te behouden Bevestigt de aanwezigheid van een interactie Covariatie 2 posities varieren gelijktijdig (zonder per se canonieke base paren te vormen) duidt op constraints in de structuur mutual information I ( X ; Y )= p ( x, y )log ( p(x, y) ) p( x ) p ( y) y Y y X Maat voor covariatie tussen 2 posities berekend op basis van voorkomen van elk paar basen op de twee posities t.o.v. hoeveel we ze verwachten terug te vinden bij toeval =0 als posities onafhankelijk (log van verhouding, die 1 is als toeval)
Automatische comparatieve analyse Alignement gevolgd door covariatie analyse Covariatie scores voor mogelijke baseparen met b.v. mutual-information Combinatie met MFE methoden ILM (Iterative Loop Matching) supporteert ook pseudoknopen Vienna RNA pakket (als nieuwe methode) Probabilistische modelen parameters worden berekend op basis van gekende sequentie structuur relaties Pfold stochastic context free grammars probabiliteit van structuur gegeven alignement en boom
automatische comparatieve analyse Simultane alignatie en structuur predictie Sankoff-Algorithm zoeken naar structureel geconserveerde ankers en iteratieve extensie binnen deze ankers zeer computationeel intens (traag, beperkte grootte) vb. Carnac, Foldalign, Dynalign, Pmcomp vb. RNAscf (RNA stacks based consensus folding), carnac Structuur alignatie Bij zeer slecht aligneerbare sequenties methode Predictie structuur sequenties afzonderlijk Alignatie van structuur Zoeken naar consensus structuur bv. RNAforester, MARNA
Overzicht
Plan A: align, then fold Plan B: align and fold Scores Plan C: fold and compare folds
Comparatieve methode Voordelen enkel sequencing experimenten Geen hinder van interacties met andere moleculen Succesvol nieuwe structurele elementen voorgesteld op basis van comparatieve analyse zijn later bewezen op basis van hoge resolutie experimentele methoden (pseudo-knoop, niet-canonische paringen, tetraloops) correcte predictie structuur (t.o.v. latere resultaten met X-straal diffractie) trna ribosomaal RNA
Comparatieve methode Nadelen (groot) aantal verwante sequenties nodig Volledig geconserveerde regios kunnen niet opgelost worden Arbeidsintensief Zeer variable regios Problemen met alignement (maar alignement kan verbeterd worden met behulp van structuur informatie) Locale variaties in structuur zijn altijd mogelijk Inserties die slechts terugevonden worden in een beperkt aantal sequenties sequentie fouten
X straal diffractie