Bioinformatica tentamen D2 voor 2MNW op maandag 29/05/2006 van :45 in KC159. Studentnummer:

Vergelijkbare documenten
Bioinformatica tentamen D2 voor 2MNW op maandag 30/05/2005 van 13:30-16:30 in Q105

Bioinformatica tentamen D2 voor 2MNW op maandag 29/05/2007 van :45 in Q105

Bioinformatica tentamen D1 voor 2MNW, 3I, 3PHAR op vrijdag 31 maart 2006 van uur in zaal Q105

Bioinformatica tentamen D1 voor 2MNW, 3I, 3PHAR op vrijdag 30 maart 2007 van uur in zaal Q105

Bioinformatica tentamen D1 voor 2MNW op woensdag 30 maart 2005 van uur in zaal Q105

Bioinformatica tentamen D1 voor MNW2 op 23 maart 2004 van uur in S111. DEEL A: MEERKEUZE VRAGEN omcirkel het juiste antwoord

DAR Approximate string matching Casus: biological sequence alignment

De antwoorden op vragen 1 en 2, 3 en 4, en 5 t/m 8 graag op verschillende vellen schrijven. Vergeet ook niet op de 3 vellen je naam en studentnr.

Yves Moreau 3de jr. Burg. Ir. Elektrotechniek Dataverwerking & Automatisatie

Groeiende hoeveelheid data. Inleiding Medisch Technische Wetenschappen. Bioinformatica Deel 4. Structuur van een database. Selectie uit NIH-databases

Tentamen Bioinformatic Data Analysis (1/3 deel van de cursus Systems Biology) April 9 th 2015, 17:00-20:00, Educatorium Gamma

Hertentamen Bioinformatic Data Analysis (1/3 deel van de cursus Systems Biology) July 2 nd 2015, 9:00-12:00, Educatorium Alfa

Bio-informatica Similariteit Searches. Peter De Rijk

Bio-informatica Boom constructie. Peter De Rijk

Hertentamen Biostatistiek 3 / Biomedische wiskunde

DNA & eiwitsynthese Oefen- en zelftoetsmodule behorende bij hoofdstuk 16 en 17 van Campbell, 7 e druk December 2008

Examen structurele bioinformatica Naam:

Tentamen Biostatistiek 3 / Biomedische wiskunde

HERKANSINGSTENTAMEN Moleculaire Biologie deel 2, 5 Jan 2007

Opgave 2 ( = 12 ptn.)

Theoretische Biologie: 13 april Vraag 1: Dit zijn multiple choice vragen. Om-cirkel het meest correcte antwoord.

DNA & eiwitsynthese Vragen bij COO-programma bij hoofdstuk 11 en 12 Life

Principe Maken van een Monte Carlo data-set populatie-parameters en standaarddeviaties standaarddeviatie van de bepaling statistische verdeling

Genetic code. Assignment

(~30 minuten; 20 punten)

Department of Mathematics Exam: Voortgezette biostatistiek / Biomedische wiskunde VU University Amsterdam 2017, Juni 7

Samenstelling van de moedermelk van een aantal zoogdieren. Soort Vetten (%) Proteïnen (%)

Examen Statistiek I Feedback

Hertentamen Voortgezette biostatistiek / Biomedische wiskunde

Hoe goed is een test?

1. Welk van de onderstaande DNA sequenties zijn mogelijke herkenning-sites voor restrictie-enzymen? c 5' GAATTC 3' c 5' GGGGCCCC 3' c 5' CTGCAG 3' 5'

DEC DSP SDR 5 Dicrete Fourier Transform

Figuur 1. Representatie van de dubbele helix en de structuren van de verschillende basen.

Genomics: een doorbraak in de strijd tegen de aardappelziekte?!

waarin de op dit moment relevante bron data als ook de analyse technieken worden geintegreerd.

Gegevensverwerving en verwerking

User Profile Repository Testrapportage kwaliteit

Cover Page. The handle holds various files of this Leiden University dissertation.

Onafhankelijke verzamelingen en Gewogen Oplossingen, door Donald E. Knuth, The Art of Computer Programming, Volume 4, Combinatorial Algorithms

Tentamen Simulaties van biochemische systemen - 8C110 3 juli uur

TENTAMEN BIOCHEMIE (8S135) Prof. Dr. Ir. L. Brunsveld :00 17:00 (totaal 100 punten) 6 opgaven in totaal (aangegeven tijd is indicatie)

Hand-out bij de oefen- en zelftoets-module bij hoofdstuk 7 van 'The Molecular Biology of the Cell', Alberts et al.

GEPE. Deeltoets 1 CURSUSJAAR september uur

Molecular Pathology for Pathologists. Pr P. Pauwels

Proteomics en toepassingen in het veld van kankeronderzoek. Simone Lemeer Utrecht University

a. Geef de 1-lettercode van de aminozuren in het peptide in de corresponderende volgorde. (4P)

Nederlandse samenvatting

PLANNINGSMODULE HANDLEIDING. OTYS Recruiting Technology

2 e SMT Workshop Moleculaire Typeringen spa typering en MLST

Hertentamen Voortgezette biostatistiek / Biomedische wiskunde

Hetzelfde DNA in elke cel

Implementatie LIMS binnen afdeling Genetica van het Radboudumc. Ermanno Bosgoed

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen

Duration: 2 hrs; Total points: 100 No documents allowed. You can use a regular calculator.

Docentenhandleiding. Afsluitende module. Op zoek naar een gen in een databank

College 3 Interne consistentie; Beschrijvend onderzoek

Tentamen Kunstmatige Intelligentie (INFOB2KI)

Oplossingen Datamining 2II15 Juni 2008

1 (~20 minuten; 20 punten)

Overzicht. Celbiologie. Overzicht. Celbiologie (3) Celbiologie (2)

BOUWSTENEN VAN HET LEVEN

Detectie van chromosomale imbalances mbv Next Generation Sequencing (NGS)

Tentamen Voortgezette biostatistiek / Biomedische wiskunde

Handleiding Invoeren van een Catia V5R19 document in SmarTeam

De logica van bacteriele groei

Bepaling energie en soortelijke warmte 2D-atoomrooster m.b.v. de Metropolis Monte Carlo methode

Mutation detection and correction experiments in epidermolysis bullosa simplex Schuilenga-Hut, Petra Henriette Lidia

Tentamen Chemische Binding NWI-MOL056 Prof. dr. ir. Gerrit C. Groenenboom, HG00.068, 30 aug 2013

Van DNA naar eiwit naar multiple sequence alignment.

Oefententamen in2505-i Algoritmiek

VU University Amsterdam 2018, Maart 27

7. Hamiltoniaanse systemen

Tweede Toets Datastructuren 26 juni 2019, , Educ-β.

Assembleren van het DNA van organismen uit miljoenen korte fragmenten

DATABASEBEHEER IN EXCEL

Statistiekcursus aan het Gymnasium

Structuur, vorm en dynamica van biologische membranen

Nederlandse Samenvatting

BIOLOGIE MOLECULAIRE GENETICA EIWITSYNTHESE VWO KLASSE 6

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn

Tentamen Celbiologie. DATUM TIJD 14 tot 17 uur ZAAL N109 Wentgebouw. Beantwoord elk onderdeel op een apart vel. Veel succes!

Opdrachten numerieke methoden, week 1

9. Lineaire Regressie en Correlatie

Grootste examentrainer en huiswerkbegeleider van Nederland. Biologie. Trainingsmateriaal. De slimste bijbaan van Nederland! lyceo.

SQL Aantekeningen 3. Maarten de Rijke 22 mei 2003

Elfde college algoritmiek. 18 mei Algoritme van Dijkstra, Heap, Heapify & Heapsort

We wensen je veel succes met studeren en het halen van jouw tentamens!

Tentamen in2205 Kennissystemen

Hoofdstuk 5 Een populatie: parametrische toetsen

CGM/ Advies: klonering van een synthetische DNA sequentie in Escherichia coli

Statistiek ( ) ANTWOORDEN eerste tentamen

Hoofdstuk 8 Samenvatting in het Nederlands

Excel 2010 NL. Stap voor Stap formulier maken. Een formulier maken in Excel 2010 NL aan stap voor stap beschreven. Blad kopiëren en Afdrukken.

Hoofdstuk 26: Modelleren in Excel

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Nederlandse Samenvatting. Nederlandse Samenvatting


Bio-informatica Genpredictie

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Transcriptie:

Bioinformatica tentamen D2 voor 2MNW op maandag 29/05/2006 van 08.45-10:45 in KC159 Naam: Studentnummer: NB: er zijn extra vellen achteraan bijgevoegd om antwoorden verder uit te werken, mocht je over een pagina heen gaan. Vermeld duidelijk welke vraag je beantwoordt op de extra vellen. Het tentamen bestaat uit 15 meerkeuzevragen (deel A) en 5 open vragen (deel B) A. Meerkeuzevragen: 1. Heuristische methoden voor homology searching zoals FASTA en BLAST hebben een snelle stap om sequenties in een database te filteren, waarna dan d.m.v. een langzamere (maar preciezere) stap de sequentieparen (query sequentie-database sequentie) aligned worden. Het gevaar dat samenhangt met de snelle stap van deze methoden (en waardoor het biologische resultaat negatief beïnvloed kan worden) is: a. dat deze te veel homologe sequenties doorlaat. b. dat deze te weinig homologe sequenties doorlaat. c. dat deze te veel niet-homologe sequenties doorlaat. d. dat deze te weinig niet-homologe sequenties doorlaat. 2. Wanneer we met een gegeven query sequentie twee maal het programa PSI-BLAST gebruiken, éen keer met e-value = 0.001 en een keer met e-value = 2, dan verwachten we a. de meeste true positives (TP) met e-value = 0.001, b. de meeste false negatives (FN) met e-value = 0.001 c. de meeste true negatives (TN) met e-value = 2 d. de meeste false positives (FP) met e-value = 0.001 Hint: de E-value geeft aan hoeveel niet-homologe (random) sequenties uit de database zouden komen met dezelfde of hogere alignment score als de onderhavige database sequentie, wanneer al deze sequenties met de query sequentie worden aligned. 3. Het verschil tussen het standaard programma BLAST en PSI-BLAST is: a. PSI-BLAST is sneller dan BLAST. b. PSI-BLAST zoekt met eiwitsequenties en BLAST niet. c. PSI-BLAST gebruikt een position-specific scoring matrix (PSSM) en BLAST niet. d. BLAST is een iteratieve methode en PSI-BLAST niet. 4. Een twee-domein eiwit met domeinen waartussen twee linkers worden waargenomen bestaat uit a. twee discontinue domeinen b. drie β-hairpins c. twee β-barrels d. een continu en een discontinu domein 5. Om de stabiliteit van internal nodes in een fylogenetische boom te testen wordt bootstrapping uitgevoerd. Dit wordt vaak gedaan door bijv. 100 alternatieve multiple sequence alignments te genereren op de volgende manier: (i) (ii) selecteer alleen de alignment kolommen zonder gaps doe random trekkingen met teruglegging over de oorspronkelijke alignment kolommen zonder gaps. Vraag: wanneer alle interne nodes met waarden >95% scoren, dan betekent dit dat a. de alignment kolommen een verschillend conserveringspatroon laten zien. b. het oorspronkelijke multiple sequence alignment veranderd is en een nieuwe fylogenetische boom is gemaakt. c. de fylogenetische boom betrouwbaar is. d. de fylogenetische boom onbetrouwbaar is. 1

6. Het grootste probleem dat optreedt bij het sequencen van genoom-sequenties m.b.v. de shotgun methode is: a. het voorkomen van repeats in DNA sequenties b. het voorkomen van variatie op verschillende posities van de DNA sequenties tussen individuen van een soort (single nucleotide polymorphisms (SNPs)) c. het feit dat de shotgun methode een bottom-up benadering is d. het in random stukken opdelen van de DNA sequenties. 7. Een belangrijk verschil tussen de moleculaire dynamica techniek (MD) en de Monte Carlo techniek (MC) is: a. het feit dat MD configuraties van eiwitten simuleert en MC configuraties van DNA moleculen. b. dat m.b.v. MD de moleculaire bewegingen door de tijd gesimuleerd worden en met de MC methode niet. c. dat m.b.v. MD energieën worden uitgerekend en met MC niet. d. het feit dat MD een veel snellere techniek is dan MC. 8. De rood-groen ratio bij microarray experimenten wordt vastgesteld met de formule Log 2 (Red intensity/green intensity). Om de intensiteiten van rood en groen vast te stellen: a. wordt gebruik gemaakt van de voorgrond-intensiteit van rood en van de achtergrondintensiteit van groen. b. wordt gebruik gemaakt van de achtergrond-intensiteit van rood en van de voorgrondintensiteit van groen. c. Wordt voor zowel rood als groen het verschil tussen de voorgrond- en de achtergrondintensiteit berekend. d. Worden voor zowel rood als groen de voorgrond- en de achtergrond-intensiteit opgeteld. 9. Het belangrijkste verschil tussen een C-DNA microarray experiment en Serial Analysis of Gene Expression (SAGE) is a. dat bij SAGE met een enkele kleur gewerkt wordt en bij microarrays met twee kleuren. b. dat de SAGE techniek geen gebruik maakt van gene-chip technologie en microarrays wel. c. dat bij microarrays altijd twee samples nodig zijn (bijv. een gezonde en een zieke cel) en bij SAGE meer dan twee. d. Dat m.b.v. microarrays absolute hoeveelheden transcripten gemeten worden en met SAGE altijd relatieve hoeveelheden. 10. De similariteitsmaat die meestal gebruikt wordt om paarsgewijs de gen-expressieprofielen (zoals in de onderstaande figuur) met elkaar te vergelijken is: a. cityblock distance, omdat daarmee de absolute verschillen tussen corresponderende punten van de profielen in de score betrokken worden. b. Pearson s correlatie, omdat daarmee de absolute verschillen tussen de gen expressie patronen er niet toe doen en alleen het relatieve verloop van de expressiepatronen belangrijk is. c. Euclidian distance, omdat hiermee de wortel van de som van de gekwadrateerde verschillen tussen corresponderende punten van de profielen genomen wordt. d. de som van de punten op iedere curve, omdat hierdoor de totale amplitude van twee expressiepatronen uitgerekend wordt. 2

11. Een geobserveerde trend in cellen m.b.t. gen expressie is dat a. genen waarvoor veel mrna kopieën gemaakt worden (100-1000 mrna kopieën per cel) vaak specifieke functies vervullen en niet de meest belangrijke taken in de cel uitvoeren. b. genen waarvoor transcriptie leidt tot relatief weinig mrna moleculen (gemiddeld 1 of minder mrna kopieën per cel) vaak specifieke functies vervullen. c. de minst belangrijke genen meestal een middenpositie innemen wat betreft de hoogte van de expressie. d. er geen verband bestaat tussen het belang van de functie van een gen en de hoogte van de expressie. 12. Phylogeny: De UPGMA methode kan correct toegepast worden op phylogenetische data wanneer de afstanden tussen de objecten ultrametric zijn. De neighbour joining (NJ) clustermethode verlangt dat de afstanden additive zijn. De volgende stelling met betrekking tot deze twee criteria is juist: a. Wanneer afstanden ultrametric zijn, dan zijn ze zeker ook additive. b. Wanneer afstanden additive zijn, dan zijn ze zeker ook ultrametric. c. Bij een tree gebaseerd op additive afstanden, zijn de afstanden van de leaves naar de root van de boom altijd gelijk. d. Ultrametricity is mathematisch equivalent met additivity. 13. RNA secondary structure (cloverleaf structure) kan worden voorspeld met (i) de comparative method, die gebruik maakt van compensatory mutations, en (ii) energy-based methods die proberen het aantal base pairs te maximaliseren. De volgende stelling met betrekking tot deze twee methoden (of éen van de twee) is juist: a. Beide methoden concentreren zich op de loops in een RNA cloverleaf structuur. b. De energy-based methoden baseren zich op een multiple sequence alignment van homologe RNA sequenties. c. De comparative method maakt gebruik van een multiple alignment van homologe RNA sequenties. d. Beide methoden werken op nagenoeg dezelfde manier als secundaire structuur voorspellingsmethoden voor eiwitten. 14. De A-, B- en Z-types nucleotide structuren laten de volgende globale regels zien: a. De meest voorkomende vorm van DNA is A-DNA, en de meest voorkomende vorm van RNA is Z-RNA b. De meest voorkomende vorm van DNA is B-DNA, en de meest voorkomende vorm van RNA is A-RNA c. De meest voorkomende vorm van DNA is Z-DNA, en de meest voorkomende vorm van RNA is A-RNA d. De meest voorkomende vorm van DNA is B-DNA, en de meest voorkomende vorm van RNA is Z-RNA. 15. De twee krachten die duplex formatie veroorzaken in DNA zijn (Watson-Crick) base paring en base stacking (zie onder). De volgende stelling is juist: a. Base pairing zorgt ervoor dat opeenvolgende base-pairs in de sequentie niet onafhankelijk maar coöperatief zijn. b. Base stacking zorgt ervoor dat opeenvolgende base-pairs in de sequentie niet onafhankelijk maar coöperatief zijn. c. Zowel base stacking als base pairing zijn onafhankelijk van de volgorde in de sequentie. d. Zowel base stacking als base pairing zorgen ervoor dat opeenvolgende base-pairs in de sequentie niet onafhankelijk maar coöperatief zijn. 5 3 Same strand stacking cross-strand stacking 3 3 5 Base pairing

B. Open vragen: B.1. Hieronder vind je het phylogenetic profile van 5 open reading frames (ORFs) over de genomen van 30 verschillende soorten. genome orf1034:111011011001011111010001010000 orf1036:101111000100000101000001001000 orf1037:110110101000000111001000011111 orf1038:111010011001001011001001100000 orf1039:111111111111111111111111111111 Phylogenetic profiles worden gebruikt om functionele verwantschappen tussen genen (ORFs) vast te stellen ( guilt by association ). Hiervoor wordt de gezamenlijke presentie of absentie van de ORFs over de geselecteerde genomen gebruikt. Hint: gezamenlijke presentie wordt aangegeven door een 1 voor een gegeven ORF in twee genomen, en gezamenlijke absentie door een 0 in twee genomen. In de matrix hieronder zijn de gezamenlijke presenties/absenties aangegeven als fractie van 30 genomen. Twee plaatsen zijn nog niet ingevuld. orf1034 orf1036 orf1037 orf1038 orf1039 orf1034 X X X X X orf1036 18/30 X X X X orf1037 15/30 X X X orf1038 23/30 16/30 16/30 X X orf1039 16/30 10/30 13/30 X (a) Opdracht: Vul de twee ontbrekende fracties in de matrix hierboven in. (b) Vraag: wanneer we functionele verwantschap tussen twee ORFs vaststellen wanneer tenminste 60% van de genomen gezamenlijke presentie/absentie voor deze ORFs laat zien, in welke functionele groepen vallen de ORFs dan uiteen? Geef de namen van de ORFs in iedere groep. Hint: stel vast welke ORF paren voldoen aan guilt by association bij de grenswaarde van 60% (18/30) gezamenlijke presentie/absentie ( 60%). NB: een groep kan bestaan uit 1 of meerdere ORFs. 4

B.2. De matrix van de vorige vraag is hieronder veranderd in een matrix die de phylogenetische afstanden tussen de ORFs aangeeft. Dit is gedaan door de gezamenlijke presenties/absenties van 30 af te trekken. Zo is bijv. de afstand tussen orf1034 en orf1036 hieronder gelijk aan 30-18 = 12. orf1034 orf1036 orf1037 orf1038 orf1039 orf1034 X X X X X orf1036 12 X X X X orf1037 15 13 X X X orf1038 7 14 14 X X orf1039 14 20 15 17 X Opdracht: Gebruik de UPGMA methode om de ORFs te clusteren. Maak gebruik van de onderstaande beschrijvingen (algoritme en afstandsdefinitie). Laat de clusterstappen zien en geef de boom (dendrogram) met taklengten (branch lengths). Het UPGMA algoritme: Initialisation: Fill distance matrix with pairwise distances Start with N clusters of 1 element each Iteration: Merge cluster C i and C j for which d ij is minimal Place internal node connecting C i and C j at height d ij/2 Delete C i and C j (keep internal node) Termination: When two clusters i, j remain, place root of tree at height d ij/2 De afstand d i,j tussen cluster C i end cluster C j is gedefinieerd als: 1 d i,j = Σ pσ q d p,q, where p C i and q C j Ci Cj 5

B.3. Een moleculair bioloog heeft een multiple alignment waarvoor hij graag de secundaire structuur zou willen bepalen. Onderstaand zijn twee segmenten van het multiple alignment: voorspel hiervoor de secundaire structuur (d.w.z. éen secundaire structuur per alignment). De fragmenten van het multiple alignment zijn: DFKWRVCA en DFRCTLRI EYKCDLDL EIKLKIKF DLKLEIDY MVDRLIKEFYTSDNQ MIDRLLREFYTTDDQ MIERLLRDSYSTNDQ VIDKILRDSFGSNNN PAAKIIDDAFGSDEE Neem als hydrofiele aminozuren: D, E, G, H, K, N, Q, R, S, en T. Neem als hydrofobe aminozuren: A, C, F, I, L, M, P, V, W, en Y. Hieronder staan de periodicity patterns zoals verwacht voor de α-helix en twee soorten β-strand (NB: de lengten van de secundaire structuren zoals aangegeven met accolades zijn hier toevallig gekozen): Periodicity patterns Burried β-strand Edge β-strand α-helix hydrophobic hydrophilic Vraag: voorspel de secundaire structuur van de twee bovenstaande stukken multiple alignment (éen secundaire structuur symbool per alignment kolom) met gebruikmaking van de periodicity patterns. Gebruik de letters H voor helix, B voor burried β-strand, E voor edge β-strand, en C voor coil. Schrijf de secundaire structuur onder de alignments. Hint: Let op de conserveringspatronen in de multiple alignments. Wat voor aminozuren staan in iedere alignment kolom? 6

B.4. Profile (PSSM) comparison: de volgende twee MSA fragmenten worden met elkaar vergeleken: -GAYK DHA-V -GAYK EYP-- SGVFK en EHP-V SGVFR EYA-V SGLF- GHPGI De twee dikgedrukte alignment kolommen staan hieronder: A A A P V en P V A L P Deze zijn het onderwerp van de onderstaande vragen: a) Maak de profile voor ieder van deze alignment kolommen (ieder van de twee kolommen representeren een kolom van een multiple alignment van 5 sequenties). b) Bereken de score voor het matchen van deze twee alignment posities, gebruik makend van twee profile kolommen gemaakt in a). NB: Bereken de score gewogen naar de frequenties in de profiles. De benodigde residue exchange matrix voor de aminozuren die voorkomen in de alignment kolommen is als volgt (waarden volgens PAM250): A 2 L -2 6 P 1-3 6 V 0 2-1 4 A L P V c) Bepaal de score voor het matchen van de twee profile posities wanneer gebruik gemaakt wordt van de grootste evolutionaire overeenkomst (hoogste residue exchange matrix score) tussen aminozuren in de twee kolommen. Score: 7

B.5. De onderstaande tabel (slide van het college) toont het conserveringspatroon waargenomen in een multiple DNA alignment van vier gistsoorten. Te zien is hoe sequence identities, gaps en frame shifts zich verhouden binnen coding sequences en intergenic sequencies. Opdracht: Verklaar waarom je de waargenomen conserveringspercentages voor identity, gap en frame shift verwacht (of niet verwacht). identity gap frame shift Coding sequences 60% 1.3% 0.14% Intergenic sequences 30% 14% 10.2% +stop codons ratio 2x 10x 75x 8

Extra vel 1 9

Extra vel 2 10