Bio-informatica Similariteit. Peter De Rijk
|
|
|
- Oscar Segers
- 9 jaren geleden
- Aantal bezoeken:
Transcriptie
1 Bio-informatica Similariteit Peter De Rijk 5
2 Similariteit, niet zo simpel
3 Similariteit Similariteit is afhankelijk van de gekozen parameters Grootte, Kleur Functie Afkomst... Globale similariteit (families) Sterk gelijkend Alle parameters zijn vergelijkbaar Locale similariteit (superfamilie) Niet alle componenten zijn gemeenschappelijk Vergelijking van de gemeenschappelijke componenten
4 Homologie Relatie door afkomst een gemeenschappelijke voorouder sequentie is gedivergeerd in verschillende sequenties door base/az Substitutie Insertie (extra base/az) Deletie (verdwijnen van base/az) Kan wijzen op een gelijkaardige functie Twee sequenties zijn homoloog of niet homoloog geen percentage homologie!
5 Similariteit vs. Homologie Similariteit wijst op homologie, maar is geen sluitend bewijs Convergente evolutie (structurele, functionele constraints) Deel similariteit bij toeval Similariteit wordt ook beinvloed door andere factoren GC content, complexiteit, coding frames Hoge similariteit -> homologie waarschijnlijker Locale homologie Relaties kunnen verschillen voor verschillende delen van een sequentie: domeinen
6 Similariteit Mathematisch concept 'Distance score' of 'similarity score' Distance: hoe hoger de score hoe minder ze op elkaar gelijken Similarity: hoe hoger de score hoe meer ze op elkaar gelijken Eigenlijk equivalent Om score te berekenen moet je rekening houden met: Welke parameters worden bekeken Hoe worden verschillen voor een parameter gescoord en gewogen Hoe wordt de uiteindelijke distance/similarity berekend
7 Geometrische afstand Geometrische afstand vierkantswortel van de som van de afstand tussen alle parameters in het kwadraat Vereist numerieke parameters Afstand tussen parameters = verschil van twee getallen (: moeilijk voor volledige sequenties) op basis van bv. base/az samenstelling Oligo nucleotide/peptide samenstelling Wordt weinig gebruikt Brengt niet hele gelijkenis in rekening Wel snel (bv. voor grove schatting)
8 Alignement Vergelijken van sequenties door ze onder elkaar te zetten De similaire karakters van de verschillende sequenties worden geplaatst op dezelfde posities in een matrix Een 'gap' of 'indel' symbool kan worden ingevoegd op een positie om de relatieve positie van de andere karakters te bewaren Substitutie: verschillende karakters op zelfde positie W O O R D W O R T
9 Alignement W O O R D W O R T W O O R D - W O R - T W O O R D W O R T - Distance of similarity score kan berekend worden op basis van een alignement bv. aantal substities en indels Veel verschillende alignementen mogelijk Similariteitsscore tussen 2 sequenties is score van beste (optimaal) alignment
10 Optimaal alignement Wiskundig optimaal alignment Alignment met de hoogste similariteits score / laagste distance score (zie verder) Afhankelijk van parameters gebruikt voor scoring Biologische optimaal alignment Homologe karakters op dezelfde positie meestal, kan ook structureel, functioneel,... Komt niet altijd overeen met wiskundig optimaal alignement
11 Alignment Scores Aantal (of percentage) identiteiten Conceptueel eenvoudige similariteitsscore Eenvoudig te berekenen Maar Wat met indels (inserties / deleties)? Gelijkende maar niet gelijke AZ? Edit distance Aantal stappen (substitutie, insertie, deletie) nodig om de ene sequentie te veranderen in de andere; hoe meer stappen nodig, hoe minder similariteit W O O R D W O R T
12 Alignment Scores Weighted distance Tabel met de kost of score voor elke mogelijke substitie (gealigneerde AZ of NZ) Indel of gap symbool wordt hierbij beschouwd als een karakter en krijgt dus ook een bepaalde kost, net zoals een substitutie een kost krijgt Score : som van alle kosten/scores W O O R D W O R T
13 Relatieve weging gaps en substituties WOORDEN WOORDEN W-OORD-EN WE--TEN WE-T-EN WE----TEN mismatch = 1,gap = mismatch = 1,gap = mismatch = 2,gap = mismatch = 2,gap = 1,gap penalty = 1
14 Weging van gaps Problemen weging gaps Gewicht gap moet niet perse proportioneel zijn tot de grootte van de gap 1 evolutionaire event kan aanleiding geven tot een gap van meer posities 1 gap kan wel het gevolg zijn van meerdere events Weging gap t.o.v. substitutie Insertie / deletie is minder waarschijnlijk dan mutatie/substitutie, maar hoeveel minder? Arbitraire parameters
15 Weging gaps Tabel Verschillend gewicht voor alle mogelijke gap groottes Te computer intensief, grote tabellen, weinig gebruikt Affine gap cost Score gap: formule die verband legt tussen lengte en weging Gewicht = (gap penalty) + (indel penalty)*(aantal indels) Meest gebruikte weging Gap penalty groter dan indel penalty 2 arbitraire parameters! (Niet theoretisch afgeleid)
16 Weging/scoring substities Score matrices Niet alle substituties zijn even waarschijnlijk bv. Vervanging van een AZ door een gelijkaardig AZ vs door een compleet ander soort AZ Tabel met verschillende scores voor substitutie van elk karakter met een elk ander karakter Gebaseerd op de (on)waarschijnlijkheid van deze substituties Ook weight matrices of substitution matrices genoemd
17 Theoretische NZ score matrices Identiteits matrix Simpelste Score voor identieke / niet identieke karakters Typisch voor DNA scoring Eventueel + ambiguiteits codes Eventueel verschillende scores match/mismatch Identiteits matrix A T C G A T C G BLAST matrix A T C G A T C G
18 Theoretische NZ score matrices Transitie/Transversie matrix Transitie (behoud van ringstructuur A-G,T-C) is wss. dan transversie (penalty kleiner) Theoretisch iets beter maar wordt weinig gebruikt Transitie/Transversie A T C G A T C G
19 Theoretische AZ matrices Genetic code scoring Aantal base veranderingen nodig om codon te veranderen Chemische similariteit Verschillend gewicht naarmate gelijkaardige fysico-chemische eigenschappen Polair-niet polair, grote, lading, vorm
20 Experimentele score matrices Empirische vastelling van de waarschijnlijkheid van substituties Op basis van ondubbelzinnige alignementen (geen/nauwelijks gaps) Belangrijkste: PAM of Dayhoff's mutatie data matrices Gebaseerd op globale alignementen van sterk gelijkende sequenties; grote extrapolatie BLOSUM Locale alignementen van minder verwante sequenties Superieur aan theoretische matrices
21 PAM of Dayhoff's matrices Geobserveerde substituties Globale alignementen van sterk gelijkende sequenties (>85% identiteit) Vele groepen (cytochrome c, insuline, globine,...)
22 PAM of Dayhoff's matrices PAM Percent Accepted Mutations of Point Accepted Mutations per 100 residues Eenheid van tijd of evolutionaire afstand de tijd nodig om één AZ te vervangen in een sequentie van 100 AZ met een gemiddelde aminozuursamenstelling Evolutie model: gebruikt assumpties: alle sites hebben eenzelfde mutatie kans en zijn onafhankelijk
23 Constructie PAM matrix Vind aantal geaccepteerde substituties maak phylogenetische bomen (zie later) bereken ancestrale sequenties Tel A ab = aantal keer AZ b vervangen werd door AZ a (frequentie) Er wordt verondersteld dat mutaties even waarschijnlijk zijn in beide richtingen een substitutie G A wordt ook geteld als een A G bv. A GA = A AG =3 ACGCTAFK I I L A G ACGCTAFKL GCGCTAFKI G A C S A L A G ACACTAFKL ASGCTAFKL GCGCTLFKI GCGCTGFKI
24 Constructie PAM matrix Genormaliseerde aminozuurfrequenties nodig voor berekening p a = aantal keer AZ a voorkomt aantal keer eender welk AZ voorkomt relatieve blootstelling voor mutaties voor alle aminozuren vb. ALA komt meer voor dus heeft meer kans op een mutatie (: deletie, insertie, substitutie,...) som voor alle AZ = 1
25 Constructie PAM matrix Genormaliseerde aminozuurfrequenties (p a waarden) Ala Gly Lys Leu Val Thr Ser Asp Glu Phe Asn Pro Ile His Arg Gin Tyr Cys Met Trp 0.012
26 Constructie PAM matrix Relatieve mutabiliteit m a ma = hoe waarschijnlijk is het dat een bepaald AZ a door eender welk ander AZ wordt vervangen ma = (genormaliseerde aminozuurfrequentie van AZ a) x (aantal keer AZ a werd vervangen in observaties) x λ de mutabiliteit wordt vermenigvuldigd met een schaal factor λ =1/100 omdat bij 1 PAM gemiddeld 1 AZ veranderd per 100 AZ
27 Mutation probability Matrix Mutation Probability Matrix (M1) geeft de kans dat AZ a vervangen wordt door AZ b op 1 PAM? = (mutabiliteit van a) x (aantal observaties waarbij a wordt vervangen door b tov. aantal observaties waarbij a muteert) Simulatie van evolutie Random verandering van elk AZ volgens probabiliteiten in M1 Sequentie van 100 AZ met een gemiddelde aminozuursamenstelling -> gemiddeld 1 AZ verandering
28 PAM1 matrix Schaal x Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr Val A R N D C Q E G H I L K M F P S T W Y V Ala A Arg R Asn N Asp D Cys C Gln Q Glu E Gly G His H Ile I Leu L Lys K Met M Phe F Pro P Ser S Thr T Trp W Tyr Y Val V
29 Constructie PAM matrix Afleiding andere matrices Opeenvolgende toepassing van M1 op een sequentie 2 maal gemiddeld 2 AZ verandering = PAM2 3 maal gemiddeld 3 AZ verandering = PAM3. Equivalent met toepassing op sequentie van M1*M1 (= PAM2) M1*M1*M1 (= PAM3)... Nadeel : is extrapolatie!
30 Constructie PAM matrix PAM matrices voor verschillende evolutionaire afstanden 0 PAM Mij = 0, Mjj = 1 (ij= verschillende positie/ jj= zelfde positie) PAM250 nog ongeveer 20% identiteiten Mutaties kunnen op dezelfde plaats gebeuren/ origineel AZ kan terug geplaatst zijn infinity PAM AZ samenstelling dataset/alles aangepast Matrices zijn afhankelijk van compositie dataset
31 Odds ratio Log Odds Matrix Kans alignatie door evolutie vergelijken met de kans op toevallige alignatie Hoe groter de odds ratio, hoe meer kans dat er similariteit bestaat door evolutie Log odds matrices Score matrix gewoonlijk in de vorm van een log odds matrix Sab = log(q ab /(p a p b )) q ab = de frequentie waarmee a en b gealigneerd geobserveerd worden p a, p b = frequentie van voorkomen van a en van b
32 Log Odds Matrix Scoring alignment met log odds matrix vermenigvuldigen van de odds ratios voor alle posities hoeveel waarschijnlijker is dit alignment door evolutie ontstaan dan door toeval Waarden in de score matrix worden meestal gegeven als logaritme van de odds ratios Met logaritmes kunnen we optellen ipv. Vermenigvuldigen! Afgeleid van M1 S ab = log(m ab /p a ) p a = genormaliseerde frequentie van het vervangend AZ a
33 'Log Odds' Matrix voor 250 PAM Schaal x 10 AZ die op elkaar lijken hebben een hogere score AZ die sterk van elkaar verschillen hebben een lagere score Een score van 2 in deze tabel betekent dat een paar bijna 1.6 keer meer voorkomt dan het toeval zou voorspellen ( ). Een score van 12 betekent dat een aminozuurpaar bijna 16 keer meer voorkomt dan dit op basis van toeval zou mogen ( ) Een score van -10 betekent dat een bepaald paar aminozuren 10 maal minder frequent voorkomt dan het toeval zou voorspellen (10-1 )
34 PET91 matrix PAM matrices Relatief kleine dataset Sommige mogelijke mutaties kwamen niet voor in de dataset PET91 Later gemaakt op dezelfde manier als de PAM matrices Op basis van een veel grotere dataset
35 BLOSUM PAM gebaseerd op sequenties met > 85% identiteit voor verdere verwantschappen enkel afgeleid BLOSUM matrices BLocks SUbstitution Matrix Locale alignementen geconserveerde gebieden of blokken in BLOCKS database minder verwante sequenties Rechtstreeks berekening, geen extrapolaties
36 Constructie BLOSUM matrix Constructie Frequentie tabel qab Hoe dikwijls worden AZ a en b gepaard teruggevonden in deze alignmenten q ab = probabiliteit voorkomen van paar ab Probabiliteit van voorkomen van AZ a Verwachte frequentie van paar a en b e aa = p a2 (a = b) e ab = 2p a p b (a niet b) Log odds matrix
37 BLOSUM matrix Verschillende BLOSUM matrices Verschillend gewicht op basis van gelijkenis om verschillende evolutionaire afstanden in rekening te brengen Clustering in groepen van sequenties die een percentage identeit hebben hoger dan een gegeven treshhold Weging bijdrage op elke positie zodanig dat alle sequenties van 1 cluster worden gewogen als 1 sequentie bv. BLOSUM80 clustering van sequenties met 80% identiteit Alles wat meer dan 80% op elkaar lijkt wordt als dezelfde sequentie aanzien Lage BLOSUM matrices: verre verwantschappen Hoge BLOSUM matrices: minder ver
38 PAM250 Welke matrix Veel gebruikt ~20% identity Verre verwantschappen (twilight zone) PAM120 ~ 40% identity Beter compromis voor database searches waar verwantschap niet vooraf is gekend Best combinatie verschillende matrices Volgens Altschul: PAM40, PAM120 en PAM250 Lage PAM matrices -> korte stukken sterk gelijkende sequenties Hoge PAM matrices -> lange stukken minder gelijkende sequenties
39 BLOSUM Welke matrix Meer sensitief voor verdere verwantschappen Meer tolerantie voor minder frequente substituties Bleek beste voor het terugvinden van gekende leden van proteine families In testen zijn er echter ook significante similariteiten die niet werden gedetecteerd met BLOSUM matrices en wel met PAM BLOSUM62 Standaard voor database searches
40 Welke matrix Conclusie Experimentele superieur aan theoretische Compromis: PAM120 of BLOSUM62 Best combinatie verschillende matrices Wanneer familie gevonden: heraligneer met toepasselijke matrix
41 Alignementen Toepassingen Dotplot Paarsgewijze alignatie Multiple alignementen
42 Toepassingen alignementen Databank searches Vinden van gelijkende sequenties (op basis van meta data) Zelfde sequenties met fouten b.v. EST's Verwante sequenties: afleiden van informatie over structuur, functie,... Verwante regio's sequenties: domeinen,... Bouw en studie van genfamilies Geconserveerde en niet geconserveerde gebieden functie, probes, primers, Afleiden structuur door comparatieve analyse Genome comparison: geconserveerde gebieden wijzen op aanwezigheid genen, regulatie, Fylogenie: studie van de ontstaansgeschiedenis van een groep organismen
43 Dot plot: 1 van de allereerste manieren om een alignement te zoeken. 2 sequenties uitzetten in matrix en gelijkenissen aanduiden. Elk punt geeft een gelijkenis aan. Een lange lijn geeft aan dat dat deel gelijkaardig is. Een indel geeft een verspringing in de diagonale lijn. Dot plot
44 Paarsgewijze alignatie Automatische alignatie 2 sequenties Zoeken beste alignement: wiskundig Alignement met maximale similariteit score (of minimale distance score) afhankelijk van model, parameters (zoals find gap coast, mismatch, penalty,...) is niet altijd beste biologische alignement hangt echter ook af van model : evolutief, structureel, functioneel
45 Paarsgewijze alignatie Globale en lokale alignementen globaal: gelijkenis over gehele sequentie semiglobaal: geen weging van terminale gaps (vanwege bv incomplete gegevens) lokaal: regios van gelijkenis
46 Dynamic programming Groot aantal alignementen mogelijk Praktisch niet haalbaar om score te berekenen voor alle mogelijke alignementen Oplossing? = Dynamic progamming Oplossing probleem via het oplossen van kleinere, berekenbare overlappende subproblemen Beste score alignement afhankelijk van beste scores alignementen van deel van sequenties Voortgaan op eerder berekende deelproblemen
47 Dynamic programming : D-Matrix A U G G A A A C U G A U G U G A D - matrix Elk mogelijk alignement kan voorgesteld worden als een pad door een 2 dimensionale matrix horizontale or verticale lijnen in pad: indels diagonale lijnen: match of mismatch D[i,j] = minimale afstand van cel (0,0) to cel (i,j) Twee voorbeelden van mogelijke (geen goede) alignementen met hun pad in de matrix A C U G A U G U G A A U G G A - A A C U G A U G U G A A U G G A A
48 Dynamic programming : D-Matrix A U G G A A A C U G A U G U G A ? Eenvoudig Scoring voorbeeld Afstand score substitutie Match = 0 Mismatch = 1 Gap = 2 per gap symbool Begin links boven (0) Ga rij per rij af Score in cell is de maximum score van Score links-boven + substitie score Score boven + gap penalty Score links + gap penalty Score in cell is score beste alignment tot dat punt
49 Dynamic programming A U G G A A A C U G A U G U G A Blijf dit doen tot de matrix volledig is
50 Dynamic programming A U G G A A A C U G A U G U G A Score rechts onder = beste score voor volledig alignement Backtracking om eigenljke beste alignment te vinden Begin rechts onder Kijk van welke van de 3 voorgaande cellen deze score is gekomen Soms kan de score van meerdere gekomen zijn evenwaardige alignementen A C U G A U G U G A A - U G - - G - A A A C U G A U G U G A A - U G - - G A - A
51 Dynamic programming Eerst toegepast door Needleman-Wunsch voor globale alignatie van 2 sequenties Later toepassing door Smith & Waterman voor locale alignatie Vele varianten (andere wegingen gaps, geheugenoptimalisatie,...)
52 Paarsgewijze alignatie programma's ahv dynamic programming seqaln - locale en globale alignement LALIGN k beste locale alignmenten SIM - k beste non-overlappende alignmenten GAP globaal alignement (unweighted endgaps)
53 Multiple sequentie alignementen Manuele editing Vroeger: Text editors Lastig: Lange lijnen, verschuiven van baseb, AZ Nu nog: Gespecialiseerde alignement editors BIOEDIT, CINEMA, GDE, DCSE Vaak gebruikt om automatisch gegenereerde alignmenten te bekijken, analyseren en fine-tunen Mogelijk om extra kennis over structuur en functie in te brengen Gebruik kleurencodes voor beter overzicht
54 Multiple sequentie alignementen Automatisch via Dynamic programming Extensie van de paarsgewijze dynamic programming (uitbreiding naar vb 3 sequenties geeft 3D matrix) Multidimensionele D-matrix (4D of 5D matrix,...) Produceert steeds het optimale alignment volgens de gegeven mathematische criteria Enkel bruikbaar voor kleine datasets Groot gebruik van geheugen en CPU: complexiteit O(mn) Zeer sterke stijging gebruik resources met elke sequentie die wordt toegevoegd
55 Multiple sequentie alignementen Consensus methode Consensus sequentie samenvatting alignement in 1 lijn bv. meest voorkomende AZ of NT op elke positie Redelijk goed voor sequenties die evolutief dicht bij elkaar liggen. methode Zoek consensus sequentie via een iteratieve methode Aligneer 2 sequenties en genereer consensus Aligneer telkens een nieuwe sequentie met de consensus sequentie Herhaal tot consensus identiek blijft Aligneer alle sequenties met de consensus Probleem Afhankelijk van volgorde aanbieding sequenties Niet optimaal alignement
56 Multiple sequentie alignementen Clustering methoden (meest gebruikt) Methode 1.Bereken de afstanden tussen alle mogelijke paren van sequentie (via paarsgewijze alignatie per 2 sequenties) 2.Maak een 'voorlopige' verwantschapsboom (guide tree) gebaseerd op deze afstanden (zie later). 3. Progressieve alignatie Aligneer de meest gelijkende sequenties, en groepeer Aligneer telkens de meest gelijkende sequenties of sequentie groepen tot slechts 1 groep overblijft
57 Clustering methoden 1 2 3
58 Multiple sequentie alignementen Clustering methoden Alignatie sequentie groepen door Alignatie consensus sequentie Alignatie door kolom-tot-kolom scoring waarbij het gemiddelde gewicht van de vergelijking van alle elementen van de twee kolommen wordt gebruikt Alignatie van profielen: frequenties van voorkomen van de verschillende basen/az in elke kolom Consensus Kolom-tot-kolom Profiel..A....A.. 75%..A....A.. 25%..T....T....A....T....T.. Score = S AT..T.. Score = 0.75S AT +0.25S TT Score = (S AT +S AT +S AT +S TT )/4
59 Multiple sequentie alignementen Subsequentie of segment methoden 1.Zoeken naar subsequenties of consensus patronen die in alle (of veel van de) sequenties voorkomen 2. Aligneren/verankeren 3.Iteratief gebieden ertussen aligneren Heuristiek sterk geconserveerde gebieden eerst aligneren/verankeren
60 Multiple alignatie programmas Dynamic programming MSA Clustering ClustalW:meest courante Variatie parameters op basis van voorgaande alignmenten T-Coffee Clustering, maar houdt op alle niveaus rekening met andere alignementen Muscle Basis clustering gevolgd door iteratieve verfijning Segment Dialign, Match-Box
61 Multiple sequentie alignementen Conclusie Clustering en segment methoden Heuristiek is ws. meestal biologisch meest correct Meest gebruikt Wees steeds kritisch i.v.m. Alignementen gevonden alignement (mathematisch optimaal) is niet altijd optimaal (biologisch) Alignementen kunnen vaak manueel verfijnd worden, zeker wanneer gegevens over structuur en functie kunnen gebruikt worden Alignementen kunnen betrouwbare en minder betrouwbare gebieden bevatten
DAR Approximate string matching Casus: biological sequence alignment
DAR Approximate string matching Casus: biological sequence alignment 1 Text search Approx string matching dynamic programming, edit distance example application: Google search Text indexing inverted list
Bio-informatica Boom constructie. Peter De Rijk
Bio-informatica Boom constructie Peter De Rijk 8 Waarom boomconstructie Evolutionaire analyse: verwantschap tussen genen en/of species Studie oorsprong en divergentietijden bv. divergentie mens-mensapen,
Biologie Vraag 1 <A> <B> <C> <D> Vraag 1. Dit zijn een aantal gegevens over een nucleïnezuur.
Biologie Vraag 1 Dit zijn een aantal gegevens over een nucleïnezuur. 1. Het is een enkelvoudige keten. 2. Het bevat als basen: G A C T. 3. Het varieert naargelang de soort cel binnen één organisme. 4.
Bio-informatica Similariteit Searches. Peter De Rijk
Bio-informatica Similariteit Searches Peter De Rijk 6 Similariteit searches Zoeken naar gelijkende sequenties in sequentie databanken Korte sequentie (b.v. EST) waar we meer van willen weten Andere korte
www. Biologie 2001 Vraag 1 Dit zijn een aantal gegevens over een nucleïnezuur. 1. Het is een enkelvoudige keten. 2. Het bevat als basen: G - A - C - T. 3. Het varieert naargelang de soort cel binnen één
8. Analyseren van samenhang tussen categorische variabelen
8. Analyseren van samenhang tussen categorische variabelen Er bestaat een samenhang tussen twee variabelen als de verdeling van de respons (afhankelijke) variabele verandert op het moment dat de waarde
ANTWOORDEN HOOFDSTUK 6 VAN GEN TOT EIWIT
ANTWOORDEN HOOFDSTUK 6 VAN GEN TOT EIWIT ANTWOORDEN 6.5 /TM 6.8 Codering 1.een juiste aanvulling van het schema : nucleotiden in mrna juist nucleotiden in DNA juist 3 kant en 5 kant bij mrna en DNA juist
Bioinformatica tentamen D2 voor 2MNW op maandag 30/05/2005 van 13:30-16:30 in Q105
Bioinformatica tentamen D2 voor 2MNW op maandag 30/05/2005 van 13:30-16:30 in Q105 Naam: Studentnummer: NB: er zijn extra vellen achteraan bijgevoegd die je kunt gebruiken om antwoorden verder uit te werken,
Basisscheikunde voor het hbo ISBN e druk Uitgeverij Syntax media
Hoofdstuk 11 Biomoleculen bladzijde 1 Opgave 1 Geef de reactie van de verbranding van glucose (C 6H 12O 6) tot CO 2 en water. C 6H 12O 6 + 6 O 2 6 CO 2 + 6 H 2O Opgave 2 Hoe luidt de reactie (bruto formules)
1. Mendeliaanse overerving - koppelingsanalyse
1. Mendeliaanse overerving - koppelingsanalyse 1.1 Inleiding Genetische kenmerken die afhangen van één enkel gen (meer precies : locus) noemen wij mendeliaans. Mendeliaanse kenmerken segregeren in families
Oplossingen Datamining 2II15 Juni 2008
Oplossingen Datamining II1 Juni 008 1. (Associatieregels) (a) Zijn de volgende beweringen juist of fout? Geef een korte verklaring voor alle juiste beweringen en een tegenvoorbeeld voor alle foute be-weringen:
Gegevensverwerving en verwerking
Gegevensverwerving en verwerking Staalname - aantal stalen/replicaten - grootte staal - apparatuur Experimentele setup Bibliotheek Statistiek - beschrijvend - variantie-analyse - correlatie - regressie
WI1808TH1/CiTG - Lineaire algebra deel 1
WI1808TH1/CiTG - Lineaire algebra deel 1 College 6 26 september 2016 1 Hoofdstuk 3.1 en 3.2 Matrix operaties Optellen van matrices Matrix vermenigvuldigen met een constante Matrices vermenigvuldigen Machten
Examen structurele bioinformatica Naam:
1. Uit welke onderdelen bestaat elk aminozuur? Leg kort uit waarvoor ze verantwoordelijk zijn (vanuit structureel oogpunt). centraal koolstofatoom (C α ) amino groep (NH 2 ) => peptidebinding carboxyl
Basaal endogene ileale aminozuurverliezen bij vleeskuikens
Basaal endogene ileale aminozuurverliezen bij vleeskuikens Rol bij de overgang van schijnbare fecale naar gestandaardiseerde ileale verteerbaarheid van aminozuren Alfons Jansman, Carolien Makkink en Machiel
Classification - Prediction
Classification - Prediction Tot hiertoe: vooral classification Naive Bayes k-nearest Neighbours... Op basis van predictor variabelen X 1, X 2,..., X p klasse Y (= discreet) proberen te bepalen. Training
3.2 Vectoren and matrices
we c = 6 c 2 = 62966 c 3 = 32447966 c 4 = 72966 c 5 = 2632833 c 6 = 4947966 Sectie 32 VECTOREN AND MATRICES Maar het is a priori helemaal niet zeker dat het stelsel vergelijkingen dat opgelost moet worden,
Uitleg. Welkom bij de Beverwedstrijd 2006. Je krijgt 15 vragen, die je in maximaal 45 minuten moet beantwoorden.
Uitleg Welkom bij de Beverwedstrijd 2006 Je krijgt 15 vragen, die je in maximaal 45 minuten moet beantwoorden. Je krijgt 5 vragen van niveau A, 5 vragen van niveau B en 5 vragen van niveau C. Wij denken
Tentamen Van Mens tot Cel
Tentamen Van Mens tot Cel 1. Hans en Tineke willen graag een kindje. Zowel de ouders van Hans als de ouders van Tineke zijn beide drager van een autosomaal recessieve ziekte. Wat is de kans dat Hans en
Genetische variatie en inteelt : basisconcepten. Steven Janssens Nadine Buys
Genetische variatie en inteelt : basisconcepten Steven Janssens Nadine Buys Inteelt Inteelt treedt op voor dieren waarvan de ouderdieren met elkaar verwant zijn (dit betekent dat in de afstamming van vader
Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid
Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid Dr.ir. P.W. Heijnen Faculteit Techniek, Bestuur en Management Technische Universiteit Delft 22 april 2010 1 1 Introductie De
Bioinformatica tentamen D1 voor 2MNW op woensdag 30 maart 2005 van 9.30-12.30 uur in zaal Q105
Bioinformatica tentamen D1 voor 2MNW op woensdag 30 maart 2005 van 9.30-12.30 uur in zaal Q105 Naam: Studentnummer: NB: er zijn extra vellen achteraan bijgevoegd die je kunt gebruiken om antwoorden verder
Arnout Devos 5WeWi nr.3. Radioactief verval
Doel Radioactief verval We willen meer te weten komen over het radioactief verval van een radioactieve stof. Met ons onderzoek zullen we de halfwaardetijd van onze stof bepalen en hiermee kunnen we de
Leerlingenhandleiding
Leerlingenhandleiding Niveau: basis Bioinformatica: leven in de computer Ontwikkeld door het Netherlands Bioinformatics Centre in samenwerking met het Centre for Molecular and Biomolecular Informatics
WI1808TH1/CiTG - Lineaire algebra deel 1
WI1808TH1/CiTG - Lineaire algebra deel 1 College 10 13 oktober 2016 1 Samenvatting Hoofdstuk 4.1 Een constante λ is een eigenwaarde van een n n matrix A als er een niet-nul vector x bestaat, zodat Ax =
Populaties beschrijven met kansmodellen
Populaties beschrijven met kansmodellen Prof. dr. Herman Callaert Deze tekst probeert, met voorbeelden, inzicht te geven in de manier waarop je in de statistiek populaties bestudeert. Dat doe je met kansmodellen.
Toelatingsexamen arts geel Biologie Vraag 1
Biologie Vraag 1 De genen A en B liggen 14 centimorgan (cm) van elkaar. Een persoon die heterozygoot is voor deze twee genen, heeft ouders met Aabb en aabb als genotype. De verwachte frequenties van de
Toelatingsexamen arts blauw Biologie Vraag 1
Biologie Vraag 1 De genen A en B liggen 14 centimorgan (cm) van elkaar. Een persoon die heterozygoot is voor deze twee genen, heeft ouders met Aabb en aabb als genotype. De verwachte frequenties van de
Factor = het getal waarmee je de oude hoeveelheid moet vermenigvuldigen om een nieuwe hoeveelheid te krijgen.
Samenvatting door een scholier 1569 woorden 23 juni 2017 5,8 6 keer beoordeeld Vak Methode Wiskunde Moderne wiskunde Wiskunde H1 t/m H5 Hoofdstuk 1 Factor = het getal waarmee je de oude hoeveelheid moet
3 Wat is een stelsel lineaire vergelijkingen?
In deze les bekijken we de situatie waarin er mogelijk meerdere vergelijkingen zijn ( stelsels ) en meerdere variabelen, maar waarin elke vergelijking er relatief eenvoudig uitziet, namelijk lineair is.
Parking Surveillance. foreground/background segmentation - objectherkenning. Examen Beeldverwerking Pieter Vancoillie
Parking Surveillance foreground/background segmentation - objectherkenning Examen Beeldverwerking Pieter Vancoillie Doel van het (deel)project Uit beelden van een camera voetgangers, fietsers en auto s
Inhoud. Data. Analyse van tijd tot event data: van Edward Kaplan & Paul Meier tot David Cox
van tijd tot event data: van Edward Kaplan & Paul Meier tot David Cox Bram Ramaekers Bianca de Greef KEMTA Masterclass Inhoud Data Kaplan-Meier curve Hazard rate Log-rank test Hazard ratio Cox regressie
Out of Africa: mtdna en Y chromosoom. Jean-Jacques Cassiman KuLeuven
Out of Africa: mtdna en Y chromosoom Jean-Jacques Cassiman KuLeuven 12.05.2007 Kern DNA CME 06 CME 06 CME 06 Start in 2007: twee zonen per generatie (25j) In 2258 (10 generaties of 250 jaar) zullen er
Meten en experimenteren
Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 3 oktober 006 Deel I Toevallige veranderlijken Steekproef Beschrijving van gegevens Histogram Gemiddelde en standaarddeviatie
Examen Statistiek II: Project
Examen Statistiek II: Project S. Vansteelandt Academiejaar 2014-2015 U krijgt 2 uur 30 minuten voor het examen, inclusief het mondelinge examen dat maximaal 15 min duurt. Het examen is relatief lang omdat,
Stelsels Vergelijkingen
Hoofdstuk 5 Stelsels Vergelijkingen Eén van de motiverende toepassingen van de lineaire algebra is het bepalen van oplossingen van stelsels lineaire vergelijkingen. De belangrijkste techniek bestaat uit
Bioinformatica Peter De Rijk
Bioinformatica Peter De Rijk ([email protected]) Inhoud 1.Introductie 2.Computers and netwerken Operating/Besturings - systemen Interfaces Data opslag: File formaten Tekst files vs. binary
Proteomics. Waarom DNA alleen niet genoeg is
Proteomics Waarom DNA alleen niet genoeg is Reinout Raijmakers Netherlands Proteomics Centre Universiteit Utrecht, Biomolecular Mass Spectrometry and Proteomics Group Van DNA naar organisme Eiwitten zijn
94 Samenvatting te vervormen, wordt de huid bijzonder stijf bij grotere vervormingen. Uit onderzoek is gebleken dat deze eigenschap deels toe te schri
Samenvatting De biofysica kan worden beschouwd als het grensgebied tussen de natuurkunde en de biologie. In dit vakgebied worden natuurkundige methoden gebruikt om biologische systemen te analyseren en
Molecular Pathology for Pathologists. Pr P. Pauwels
Molecular Pathology for Pathologists Pr P. Pauwels NGS moleculair pathologie rapport ontcijferen Nomenclatuur waarin gerapporteerd wordt: EGFR c.2573t>g, p.(leu858arg) Coderende sequentie Eiwit/proteïne
Productontwikkeling 3EM
Vragen Productontwikkeling 3EM Les 10 Sterkteleer (deel 2) Zijn er nog vragen over voorgaande lessen?? Paul Janssen 2 Inleiding Inleiding Sterkteberekening van liggers (en assen) Voorbeelden Berekening
Newsletter April 2013
1. Inleiding Met het thema van deze nieuwsbrief willen we ons richten op de fundamenten van het fokken: de basisgenetica. Want of je het nu wil of niet. dit is ook de basis voor een succesvolle fok! Misschien
Onderzoeksvraag zoals geformuleerd door SZW
aan SZW van Peter-Paul de Wolf en Sander Scholtus (Senior) methodoloog onderwerp Aandeel 0-jarigen onder aanvragen toeslag kinderdagopvang datum 5 september 2018 Inleiding Naar aanleiding van een voorgestelde
A. Week 1: Introductie in de statistiek.
A. Week 1: Introductie in de statistiek. Populatie en steekproef. In dit vak leren we de basis van de statistiek. In de statistiek probeert men erachter te komen hoe we de populatie het beste kunnen observeren.
Beknopte handleiding voor Derive 5.0 for Windows
- Lesbrief Beknopte handleiding voor Derive 5.0 for Voorspelbaarheid en Populaties in de tijd Doelgroep Klas 5 t/m 6 havo en vwo Vakken en domeinen Algemene natuurwetenschappen VWO Wiskunde VWO: A domein
Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008
Examen Statistische Modellen en Data-analyse Derde Bachelor Wiskunde 14 januari 2008 Vraag 1 1. Stel dat ɛ N 3 (0, σ 2 I 3 ) en dat Y 0 N(0, σ 2 0) onafhankelijk is van ɛ = (ɛ 1, ɛ 2, ɛ 3 ). Definieer
Hoofdstuk 8 Samenvatting in het Nederlands
Hoofdstuk 8 Samenvatting in het Nederlands 135 Inleiding Het stoppen van een bloeding bestaat uit twee processen: bloedstelping en bloedstolling. Tijdens de bloedstelping worden bloedplaatjes aan de beschadigde
Eindexamen wiskunde A1-2 compex vwo I
Eindexamen wiskunde A1-2 compex vwo 29 - I Tijdens dit examen werk je in Excel. Door in het openingsscherm op Excel werkbladen te klikken start Excel automatisch op. Je komt dan meteen in het eerste werkblad
Biologie 2000 Vraag 1 De plaats waar de chromatiden van een chromosoom tijdens de eerste fasen van een cel/kerndeling aan mekaar vastzitten noemt men: A. Centriool B. Centromeer C. Centrosoom D. Chromomeer
Recognition and Detection of Objects Using Visual and Textual Cues S. Karaoğlu
Recognition and Detection of Objects Using Visual and Textual Cues S. Karaoğlu Samenvatting Met dit proefschrift richten we onze aandacht op object herkenning en detectie voor een beter begrip in afbeeldingen.
Statistiek I Samenvatting. Prof. dr. Carette
Statistiek I Samenvatting Prof. dr. Carette Opleiding: bachelor of science in de Handelswetenschappen Academiejaar 2016 2017 Inhoudsopgave Hoofdstuk 1: Statistiek, gegevens en statistisch denken... 3 De
Antwoorden. 32-jarige vrouwen op 1 januari Zo gaan we jaar per jaar verder en vinden
Antwoorden 1. De tabel met bevolkingsaantallen is niet moeilijk te begrijpen. We zullen gebruik maken van de bevolkingsaantallen volgens geslacht en leeftijdsklassen van 1 jaar (de cijfers die in het midden
12.1 Grafen [1] Definitie: Een graaf bestaat uit punten, waarvan er twee of meer door wegen verbonden zijn. Willem-Jan van der Zanden
12.1 Grafen [1] Een spoorwegkaart is een voorbeeld van een graaf; Een graaf bestaat uit punten; De punten worden door wegen met elkaar verbonden; De plaats van de punten en de vorm van de wegen is van
Afsluitende les. Leerlingenhandleiding. Proteomics voor de massa
Afsluitende les Leerlingenhandleiding Proteomics voor de massa Computeropdracht Inleiding - data van een massaspectrometer Bij dit computerpracticum gaan jullie zelf de data van de analyse van een eiwit
VOOR HET SECUNDAIR ONDERWIJS
VOOR HET SECUNDAIR ONDERWIJS Steekproefmodellen en normaal verdeelde steekproefgrootheden 5. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg
Werkbladen Gevorderden
Werkbladen Gevorderden Microsoft Excel 2010 Werkblad Excel 2010 (Gevorderden) Met dit werkblad ga je oefenen met formules binnen Excel. De meest voorkomende formules ga je leren. Bij iedere oefening hoort
Bio-informatica Sequentie Patronen. Peter De Rijk
Bio-informatica Sequentie Patronen Peter De Rijk 7 Patroon Herkenning Patroon Herkenning Patroon Herkenning Afhankelijk van groepsspecificaties! Doel Patroon Herkenning Met een gegeven set sequenties Behoort
6.1 Kwadraten [1] HERHALING: Volgorde bij berekeningen:
6.1 Kwadraten [1] HERHALING: Volgorde bij berekeningen: 1) Haakjes wegwerken 2) Vermenigvuldigen en delen van links naar rechts 3) Optellen en aftrekken van links naar rechts Schrijf ALLE stappen ONDER
EXAMEN INFORMATIETHEORIE I (5JJ40 / 5K020) 25 maart 2004, 9u00 12u00-1 -
EXAMEN INFORMATIETHEORIE I (5JJ40 / 5K020) 25 maart 2004, 9u00 12u00-1 - Zet de antwoorden in de daarvoor bestemde vakjes en lever alleen deze bladen in! LET OP: Dit werk bevat zowel de opgaven voor het
Bij Value Engineering wordt vaak gebruik gemaakt van Value Metrics, waarmee waarde
Toepassing Value Metrics in Value Engineering (VE) studies Dew Ramadhin Bij Value Engineering wordt vaak gebruik gemaakt van Value Metrics, waarmee waarde gekwantificeerd wordt. Aan de hand van twee voorbeelden
Hoe kijken we naar het DNA van een patiënt?
Hoe kijken we naar het DNA van een patiënt? Ies Nijman UMC Utrecht Dept of Genetics, Centre for Molecular Medicine Center for Personalized Cancer Treatment (CPCT), Hartwig Medical Foundation 1994 DNA sequenties,
Hoofdstuk 20: Wiskundige functies
Hoofdstuk 20: Wiskundige functies 20.0 Introductie Er is een uitgebreid aanbod aan wiskundige functies in Excel, variërend van het simpele + teken tot de esoterische statistiek functies voor een correlatie
Informatica: C# WPO 10
Informatica: C# WPO 10 1. Inhoud 2D arrays, lijsten van arrays, NULL-values 2. Oefeningen Demo 1: Fill and print 2D array Demo 2: Fill and print list of array A: Matrix optelling A: Matrix * constante
Tijdvak 1. Correctievoorschrift vwo 1992
Correctievoorschrift vwo 992 Tijdvak Inhoud lgemene regels 2 scoringsvoorschrift 2. scoringsregels algemeen 2.2 scoringsregels gesloten vragen 2.3 scoringsregels open vragen 2.4 ntwoordmodel 3289 CV23
Logaritmische verbanden
9 Zes momentopnamen van een zeester Van elke zeester is de armlengte gemeten, vanuit het midden van de ster. De resultaten staat in de tabel: a. Voer de gegevens in op de GR. Dat gaat dat als volgt: Toets
Een objectief Ranglijst Systeem. ontworpen door. Martien Maas
Een objectief Ranglijst Systeem ontworpen door Martien Maas Nijmegen, Nederland, Augustus 2014 1 Eigenschappen van het Ranglijst Systeem: Het Maas Ranglijst Systeem is objectief: op geen enkele manier
Antwoorden op de theoretische vragen in de examen voorbereiding
Antwoorden op de theoretische vragen in de examen voorbereiding Theorie vraag Zij A een m n-matrix. Geef het verband tussen de formule voor de dimensie d van een niet-strijdig stelsel, d = n rang (A) (zie
16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA
16. MANOVA MANOVA Multivariate variantieanalyse (MANOVA) kan gebruikt worden in een situatie waarin je meerdere afhankelijke variabelen hebt. Met MANOVA kan er 1 onafhankelijke variabele gebruikt worden
PROEFEXAMEN LINEAIRE ALGEBRA donderdag 17 november 2011
PROEFEXAMEN LINEAIRE ALGEBRA donderdag 17 november 2011 Familienaam:....................................................................... Voornaam:.........................................................................
Detector Ability Achtergronden bij het instrument
Detector Ability Achtergronden bij het instrument P E O P L E I M P R O V E P E R F O R M A N C E Computerweg 1, 3542 DP Utrecht Postbus 1087, 3600 BB Maarssen tel. 0346-55 90 10 fax 0346-55 90 15 www.picompany.nl
VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert
VOOR HET SECUNDAIR ONDERWIJS Kansmodellen 4. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Een concreet voorbeeld.... Een kansmodel
Lights Out. 1 Inleiding
Lights Out 1 Inleiding Het spel Lights Out is een elektronisch spel dat gelanceerd werd in 1995 door Tiger Electronics. Het originele spel heeft een bord met 25 lampjes in een rooster van 5 rijen en 5
II. ZELFGEDEFINIEERDE FUNCTIES
II. ZELFGEDEFINIEERDE FUNCTIES In Excel bestaat reeds een uitgebreide reeks van functies zoals SOM, GEMIDDELDE, AFRONDEN, NU enz. Het is de bedoeling om functies aan deze lijst toe te voegen door in Visual
Lineaire vergelijkingen II: Pivotering
1/25 Lineaire vergelijkingen II: Pivotering VU Numeriek Programmeren 2.5 Charles Bos Vrije Universiteit Amsterdam [email protected], 1A40 15 april 2013 2/25 Overzicht Pivotering: Methodes Norm en conditionering
Uitdagende Sudoku Variaties, Beschrijving Educatieve Sudoku Variaties
AfhankelijkheidsDoku: Een AfhankelijkheidsDoku bevat twee of meer Sudoku, die op een speciale manier afhankelijk van elkaar zijn om van alle Sudoku's de unieke oplossing logisch te kunnen afleiden. CalculoDoku:
