Bioinformatica tentamen D2 voor 2MNW op maandag 29/05/2006 van 08.45-10:45 in KC159 Naam: Studentnummer: NB: er zijn extra vellen achteraan bijgevoegd om antwoorden verder uit te werken, mocht je over een pagina heen gaan. Vermeld duidelijk welke vraag je beantwoordt op de extra vellen. Het tentamen bestaat uit 15 meerkeuzevragen (deel A) en 5 open vragen (deel B) A. Meerkeuzevragen: 1. Heuristische methoden voor homology searching zoals FASTA en BLAST hebben een snelle stap om sequenties in een database te filteren, waarna dan d.m.v. een langzamere (maar preciezere) stap de sequentieparen (query sequentie-database sequentie) aligned worden. Het gevaar dat samenhangt met de snelle stap van deze methoden (en waardoor het biologische resultaat negatief beïnvloed kan worden) is: a. dat deze te veel homologe sequenties doorlaat. b. dat deze te weinig homologe sequenties doorlaat. c. dat deze te veel niet-homologe sequenties doorlaat. d. dat deze te weinig niet-homologe sequenties doorlaat. 2. Wanneer we met een gegeven query sequentie twee maal het programa PSI-BLAST gebruiken, éen keer met e-value = 0.001 en een keer met e-value = 2, dan verwachten we a. de meeste true positives (TP) met e-value = 0.001, b. de meeste false negatives (FN) met e-value = 0.001 c. de meeste true negatives (TN) met e-value = 2 d. de meeste false positives (FP) met e-value = 0.001 Hint: de E-value geeft aan hoeveel niet-homologe (random) sequenties uit de database zouden komen met dezelfde of hogere alignment score als de onderhavige database sequentie, wanneer al deze sequenties met de query sequentie worden aligned. 3. Het verschil tussen het standaard programma BLAST en PSI-BLAST is: a. PSI-BLAST is sneller dan BLAST. b. PSI-BLAST zoekt met eiwitsequenties en BLAST niet. c. PSI-BLAST gebruikt een position-specific scoring matrix (PSSM) en BLAST niet. d. BLAST is een iteratieve methode en PSI-BLAST niet. 4. Een twee-domein eiwit met domeinen waartussen twee linkers worden waargenomen bestaat uit a. twee discontinue domeinen b. drie β-hairpins c. twee β-barrels d. een continu en een discontinu domein 5. Om de stabiliteit van internal nodes in een fylogenetische boom te testen wordt bootstrapping uitgevoerd. Dit wordt vaak gedaan door bijv. 100 alternatieve multiple sequence alignments te genereren op de volgende manier: (i) (ii) selecteer alleen de alignment kolommen zonder gaps doe random trekkingen met teruglegging over de oorspronkelijke alignment kolommen zonder gaps. Vraag: wanneer alle interne nodes met waarden >95% scoren, dan betekent dit dat a. de alignment kolommen een verschillend conserveringspatroon laten zien. b. het oorspronkelijke multiple sequence alignment veranderd is en een nieuwe fylogenetische boom is gemaakt. c. de fylogenetische boom betrouwbaar is. d. de fylogenetische boom onbetrouwbaar is. 1
6. Het grootste probleem dat optreedt bij het sequencen van genoom-sequenties m.b.v. de shotgun methode is: a. het voorkomen van repeats in DNA sequenties b. het voorkomen van variatie op verschillende posities van de DNA sequenties tussen individuen van een soort (single nucleotide polymorphisms (SNPs)) c. het feit dat de shotgun methode een bottom-up benadering is d. het in random stukken opdelen van de DNA sequenties. 7. Een belangrijk verschil tussen de moleculaire dynamica techniek (MD) en de Monte Carlo techniek (MC) is: a. het feit dat MD configuraties van eiwitten simuleert en MC configuraties van DNA moleculen. b. dat m.b.v. MD de moleculaire bewegingen door de tijd gesimuleerd worden en met de MC methode niet. c. dat m.b.v. MD energieën worden uitgerekend en met MC niet. d. het feit dat MD een veel snellere techniek is dan MC. 8. De rood-groen ratio bij microarray experimenten wordt vastgesteld met de formule Log 2 (Red intensity/green intensity). Om de intensiteiten van rood en groen vast te stellen: a. wordt gebruik gemaakt van de voorgrond-intensiteit van rood en van de achtergrondintensiteit van groen. b. wordt gebruik gemaakt van de achtergrond-intensiteit van rood en van de voorgrondintensiteit van groen. c. Wordt voor zowel rood als groen het verschil tussen de voorgrond- en de achtergrondintensiteit berekend. d. Worden voor zowel rood als groen de voorgrond- en de achtergrond-intensiteit opgeteld. 9. Het belangrijkste verschil tussen een C-DNA microarray experiment en Serial Analysis of Gene Expression (SAGE) is a. dat bij SAGE met een enkele kleur gewerkt wordt en bij microarrays met twee kleuren. b. dat de SAGE techniek geen gebruik maakt van gene-chip technologie en microarrays wel. c. dat bij microarrays altijd twee samples nodig zijn (bijv. een gezonde en een zieke cel) en bij SAGE meer dan twee. d. Dat m.b.v. microarrays absolute hoeveelheden transcripten gemeten worden en met SAGE altijd relatieve hoeveelheden. 10. De similariteitsmaat die meestal gebruikt wordt om paarsgewijs de gen-expressieprofielen (zoals in de onderstaande figuur) met elkaar te vergelijken is: a. cityblock distance, omdat daarmee de absolute verschillen tussen corresponderende punten van de profielen in de score betrokken worden. b. Pearson s correlatie, omdat daarmee de absolute verschillen tussen de gen expressie patronen er niet toe doen en alleen het relatieve verloop van de expressiepatronen belangrijk is. c. Euclidian distance, omdat hiermee de wortel van de som van de gekwadrateerde verschillen tussen corresponderende punten van de profielen genomen wordt. d. de som van de punten op iedere curve, omdat hierdoor de totale amplitude van twee expressiepatronen uitgerekend wordt. 2
11. Een geobserveerde trend in cellen m.b.t. gen expressie is dat a. genen waarvoor veel mrna kopieën gemaakt worden (100-1000 mrna kopieën per cel) vaak specifieke functies vervullen en niet de meest belangrijke taken in de cel uitvoeren. b. genen waarvoor transcriptie leidt tot relatief weinig mrna moleculen (gemiddeld 1 of minder mrna kopieën per cel) vaak specifieke functies vervullen. c. de minst belangrijke genen meestal een middenpositie innemen wat betreft de hoogte van de expressie. d. er geen verband bestaat tussen het belang van de functie van een gen en de hoogte van de expressie. 12. Phylogeny: De UPGMA methode kan correct toegepast worden op phylogenetische data wanneer de afstanden tussen de objecten ultrametric zijn. De neighbour joining (NJ) clustermethode verlangt dat de afstanden additive zijn. De volgende stelling met betrekking tot deze twee criteria is juist: a. Wanneer afstanden ultrametric zijn, dan zijn ze zeker ook additive. b. Wanneer afstanden additive zijn, dan zijn ze zeker ook ultrametric. c. Bij een tree gebaseerd op additive afstanden, zijn de afstanden van de leaves naar de root van de boom altijd gelijk. d. Ultrametricity is mathematisch equivalent met additivity. 13. RNA secondary structure (cloverleaf structure) kan worden voorspeld met (i) de comparative method, die gebruik maakt van compensatory mutations, en (ii) energy-based methods die proberen het aantal base pairs te maximaliseren. De volgende stelling met betrekking tot deze twee methoden (of éen van de twee) is juist: a. Beide methoden concentreren zich op de loops in een RNA cloverleaf structuur. b. De energy-based methoden baseren zich op een multiple sequence alignment van homologe RNA sequenties. c. De comparative method maakt gebruik van een multiple alignment van homologe RNA sequenties. d. Beide methoden werken op nagenoeg dezelfde manier als secundaire structuur voorspellingsmethoden voor eiwitten. 14. De A-, B- en Z-types nucleotide structuren laten de volgende globale regels zien: a. De meest voorkomende vorm van DNA is A-DNA, en de meest voorkomende vorm van RNA is Z-RNA b. De meest voorkomende vorm van DNA is B-DNA, en de meest voorkomende vorm van RNA is A-RNA c. De meest voorkomende vorm van DNA is Z-DNA, en de meest voorkomende vorm van RNA is A-RNA d. De meest voorkomende vorm van DNA is B-DNA, en de meest voorkomende vorm van RNA is Z-RNA. 15. De twee krachten die duplex formatie veroorzaken in DNA zijn (Watson-Crick) base paring en base stacking (zie onder). De volgende stelling is juist: a. Base pairing zorgt ervoor dat opeenvolgende base-pairs in de sequentie niet onafhankelijk maar coöperatief zijn. b. Base stacking zorgt ervoor dat opeenvolgende base-pairs in de sequentie niet onafhankelijk maar coöperatief zijn. c. Zowel base stacking als base pairing zijn onafhankelijk van de volgorde in de sequentie. d. Zowel base stacking als base pairing zorgen ervoor dat opeenvolgende base-pairs in de sequentie niet onafhankelijk maar coöperatief zijn. 5 3 Same strand stacking cross-strand stacking 3 3 5 Base pairing
B. Open vragen: B.1. Hieronder vind je het phylogenetic profile van 5 open reading frames (ORFs) over de genomen van 30 verschillende soorten. genome orf1034:111011011001011111010001010000 orf1036:101111000100000101000001001000 orf1037:110110101000000111001000011111 orf1038:111010011001001011001001100000 orf1039:111111111111111111111111111111 Phylogenetic profiles worden gebruikt om functionele verwantschappen tussen genen (ORFs) vast te stellen ( guilt by association ). Hiervoor wordt de gezamenlijke presentie of absentie van de ORFs over de geselecteerde genomen gebruikt. Hint: gezamenlijke presentie wordt aangegeven door een 1 voor een gegeven ORF in twee genomen, en gezamenlijke absentie door een 0 in twee genomen. In de matrix hieronder zijn de gezamenlijke presenties/absenties aangegeven als fractie van 30 genomen. Twee plaatsen zijn nog niet ingevuld. orf1034 orf1036 orf1037 orf1038 orf1039 orf1034 X X X X X orf1036 18/30 X X X X orf1037 15/30 X X X orf1038 23/30 16/30 16/30 X X orf1039 16/30 10/30 13/30 X (a) Opdracht: Vul de twee ontbrekende fracties in de matrix hierboven in. (b) Vraag: wanneer we functionele verwantschap tussen twee ORFs vaststellen wanneer tenminste 60% van de genomen gezamenlijke presentie/absentie voor deze ORFs laat zien, in welke functionele groepen vallen de ORFs dan uiteen? Geef de namen van de ORFs in iedere groep. Hint: stel vast welke ORF paren voldoen aan guilt by association bij de grenswaarde van 60% (18/30) gezamenlijke presentie/absentie ( 60%). NB: een groep kan bestaan uit 1 of meerdere ORFs. 4
B.2. De matrix van de vorige vraag is hieronder veranderd in een matrix die de phylogenetische afstanden tussen de ORFs aangeeft. Dit is gedaan door de gezamenlijke presenties/absenties van 30 af te trekken. Zo is bijv. de afstand tussen orf1034 en orf1036 hieronder gelijk aan 30-18 = 12. orf1034 orf1036 orf1037 orf1038 orf1039 orf1034 X X X X X orf1036 12 X X X X orf1037 15 13 X X X orf1038 7 14 14 X X orf1039 14 20 15 17 X Opdracht: Gebruik de UPGMA methode om de ORFs te clusteren. Maak gebruik van de onderstaande beschrijvingen (algoritme en afstandsdefinitie). Laat de clusterstappen zien en geef de boom (dendrogram) met taklengten (branch lengths). Het UPGMA algoritme: Initialisation: Fill distance matrix with pairwise distances Start with N clusters of 1 element each Iteration: Merge cluster C i and C j for which d ij is minimal Place internal node connecting C i and C j at height d ij/2 Delete C i and C j (keep internal node) Termination: When two clusters i, j remain, place root of tree at height d ij/2 De afstand d i,j tussen cluster C i end cluster C j is gedefinieerd als: 1 d i,j = Σ pσ q d p,q, where p C i and q C j Ci Cj 5
B.3. Een moleculair bioloog heeft een multiple alignment waarvoor hij graag de secundaire structuur zou willen bepalen. Onderstaand zijn twee segmenten van het multiple alignment: voorspel hiervoor de secundaire structuur (d.w.z. éen secundaire structuur per alignment). De fragmenten van het multiple alignment zijn: DFKWRVCA en DFRCTLRI EYKCDLDL EIKLKIKF DLKLEIDY MVDRLIKEFYTSDNQ MIDRLLREFYTTDDQ MIERLLRDSYSTNDQ VIDKILRDSFGSNNN PAAKIIDDAFGSDEE Neem als hydrofiele aminozuren: D, E, G, H, K, N, Q, R, S, en T. Neem als hydrofobe aminozuren: A, C, F, I, L, M, P, V, W, en Y. Hieronder staan de periodicity patterns zoals verwacht voor de α-helix en twee soorten β-strand (NB: de lengten van de secundaire structuren zoals aangegeven met accolades zijn hier toevallig gekozen): Periodicity patterns Burried β-strand Edge β-strand α-helix hydrophobic hydrophilic Vraag: voorspel de secundaire structuur van de twee bovenstaande stukken multiple alignment (éen secundaire structuur symbool per alignment kolom) met gebruikmaking van de periodicity patterns. Gebruik de letters H voor helix, B voor burried β-strand, E voor edge β-strand, en C voor coil. Schrijf de secundaire structuur onder de alignments. Hint: Let op de conserveringspatronen in de multiple alignments. Wat voor aminozuren staan in iedere alignment kolom? 6
B.4. Profile (PSSM) comparison: de volgende twee MSA fragmenten worden met elkaar vergeleken: -GAYK DHA-V -GAYK EYP-- SGVFK en EHP-V SGVFR EYA-V SGLF- GHPGI De twee dikgedrukte alignment kolommen staan hieronder: A A A P V en P V A L P Deze zijn het onderwerp van de onderstaande vragen: a) Maak de profile voor ieder van deze alignment kolommen (ieder van de twee kolommen representeren een kolom van een multiple alignment van 5 sequenties). b) Bereken de score voor het matchen van deze twee alignment posities, gebruik makend van twee profile kolommen gemaakt in a). NB: Bereken de score gewogen naar de frequenties in de profiles. De benodigde residue exchange matrix voor de aminozuren die voorkomen in de alignment kolommen is als volgt (waarden volgens PAM250): A 2 L -2 6 P 1-3 6 V 0 2-1 4 A L P V c) Bepaal de score voor het matchen van de twee profile posities wanneer gebruik gemaakt wordt van de grootste evolutionaire overeenkomst (hoogste residue exchange matrix score) tussen aminozuren in de twee kolommen. Score: 7
B.5. De onderstaande tabel (slide van het college) toont het conserveringspatroon waargenomen in een multiple DNA alignment van vier gistsoorten. Te zien is hoe sequence identities, gaps en frame shifts zich verhouden binnen coding sequences en intergenic sequencies. Opdracht: Verklaar waarom je de waargenomen conserveringspercentages voor identity, gap en frame shift verwacht (of niet verwacht). identity gap frame shift Coding sequences 60% 1.3% 0.14% Intergenic sequences 30% 14% 10.2% +stop codons ratio 2x 10x 75x 8
Extra vel 1 9
Extra vel 2 10