Bio-informatica Boom constructie. Peter De Rijk

Maat: px
Weergave met pagina beginnen:

Download "Bio-informatica Boom constructie. Peter De Rijk"

Transcriptie

1 Bio-informatica Boom constructie Peter De Rijk 8

2 Waarom boomconstructie Evolutionaire analyse: verwantschap tussen genen en/of species Studie oorsprong en divergentietijden bv. divergentie mens-mensapen, oorspong van het HIV,... Evolutiegeschiedenis Testen van evolutionaire hypothesen convergentie, co-evoluties, geografische verspreiding,... Documentatie van de evolutie van genfamilies (door bv. genduplicaties) achterhalen recombinatie en/of horizontale gentransfer Similariteitsgroepen Verspreiding van ziekten ( epidemiologie) Maar ook Alignatie van sequenties (clustering methoden) Micro-array: clustering van genen met gelijkaardige expressie...

3 Moleculaire fylogenie Achterhalen evolutionaire geschiedenis op basis van moleculen Sequentie Sequentie databases databases Zoeken op annotatie: Entrez, SRS Zoeken op sequentie: FASTA, (PSI) BLAST Automatische alignatie: ClustalW, Dialign,... Controle en finetuning alignment: Bioedit, DCSE,... Homologe Homologe sequenties sequenties Sequentie Sequentie alignement alignement econtroleerd sequentie sequentie alignement alignement Boomconstructie: Phylip,... Phylogenetische bomen bomen

4 Fylogenetische bomen Wat? rafische voorstelling (topologie) van evolutionaire verwantschappen tussen Otu Otu Operational Taxonomic Units Uiteinden (leaves) van de boom bv. Sequenties, taxa, species Soorten Ongewortelde bomen Oorsprong (root) is ongeweten, kan op verschillende plaatsen liggen ewortelde bomen De oorsprong wordt aangeduid ( stam helemaal links) Boom constructie Vinden van de boom die het best in overeenstemming is met de gegevens van de eindpunten C A D B E F Ongewortelde boom A B C D E F ewortelde boom

5 Boomconstructie methoden Expliciet evolutiemodel Karakter gebaseerd Maximum likelihood Niet karakter gebaseerd Afstandsmethoden een expliciet evolutiemodel Maximale spaarzaamheid

6 Basis Maximale spaarzaamheid Beste boom = degene die het minste aantal mutaties vereist Methode.Onderzoek (in theorie) alle mogelijke topologieën (bomen) 2.Reconstrueer voor elke mogelijke topologie de ancestrale sequenties (op de knooppunten) 3.Tel het minimum aantal substituties nodig voor elke topologie 4.Kies de topologie met minste mutaties

7 Methode 3 2 4

8 Aantal topologieën Probleem Voor 4 sequenties slechts 3 (ongewortelde) topologieën Aantal stijgt spectaculair bij meer sequenties 'exhaustive search' (alle topologieën bestuderen) is praktisch slechts mogelijk bij zeer klein aantal sequenties (~0)

9 Aantal topologieën OTU's ewortelde Ongewortelde bomen bomen

10 Heuristiek

11 Heuristiek Stepwise addition Telkens toevoegen nieuwe taak aan beste boom tot dan Heuristiek beperkt aantal te onderzoeken topologieën Meest spaarzame boom wordt niet altijd gevonden Branch swapping Testen van een aantal alternatieve topologieën door boom in stukken te breken en in een andere configuratie terug in elkaar te zetten Vind soms betere boom die gemist werd door stepwise addition

12 Branch swapping

13 Informativiteit Enkel posities waarin verschillende basen 2 keer voorkomen zijn fylogenetisch informatief

14 Consensus bomen A B C D E F A C B D E F of? Vaak verschillende bomen met eenzelfde aantal substituties Consensus boom Voor groepen waar de vertakkingsvolgorde verschilt in verschillende optimale bomen, wordt een multifurcatie gebruikt A B C D E F Consensus boom

15 Taklengte Bomen vaak zonder taklengten Dikwijls niet mogelijk te beslissen in welke tak mutatie zit Aantal mutaties per tak vaak niet te bepalen Taklengten niet relevant

16 Maximale spaarzaamheid Conclusies Klassieke methode Voordelen Alternatieve topologieën een reductie van sequentie informatie; volledige info wordt gebruikt. Nadelen Traag, zeker voor grote datasets een correctie voor meervoudige mutaties evoelig voor ongelijke evolutiesnelheden in verschillende takken

17 Basis Afstandsmethoden Informatie reduceren vóór het maken van boom Dissimilariteiten tussen alle mogelijke paren sequenties: fractie geobserveerde verschillen Omzetting naar evolutionaire afstanden via alignement Schatting aantal werkelijk gebeurde mutaties Correctie voor meervoudige- en terugmutaties Zoeken naar topologie die in overeenstemming is met deze afstanden Distance matrix methoden Afstanden meestal in de vorm van een matrix

18 Evolutionaire afstanden: RNA/DNA Ribosomaal RNA Niet proteine coderend Wordt erg veel voor evolutionaire studies gebruikt Komt in alles voor (behalve virussen) Sterk geconserveerde en ook meer divergente delen een laterale gen transfer

19 Evolutionaire afstanden: RNA/DNA UCAAUCAUUCA 2 UCCAUUAACUCA 3 UUCAAUCACCCA /5= /5= /5=0.333 d = -3/4 ln(-4/3 f) Correcties volgens substitutiemodel b.v. Jukes & Cantor voor meervoudige mutaties in DNA sequenties (zie verder)

20 Substitutiemodel Substitutie modellen Beschrijft de kans dat een nucleotide (of aminozuur) wordt vervangen (substitutie) door een ander nucleotide (of aminozuur) Kan voorgesteld worden in een matrix (zie bv. onder) Voor proteïne sequenties, zie score matrices π A,π,π C,π T = frequentie (hoeveelheid) van A,, C en T a,b,c,...,l = snelheid waarmee elk nucleotide kan vervangen worden door elk andere nucleotide Time reversible: als g=a, h=b, j=d, k=e en l=f

21 Jukes & Cantor substitutiemodel Premissen Alle substituties zijn onafhankelijk van elkaar Alle posities hebben dezelfde kans om substitutie te ondergaan Elk nucleotide heeft evenveel kans om te muteren naar eender welk ander nucleotide Inserties of deleties worden niet in rekening gebracht Matrix πa = π = πc = πt a=b=c=d=e=f=g=h=i=j=k=l

22 Jukes & Cantor substitutiemodel.4.2 d JC = 3 4 ln ( 4 3 f ) Jukes&Cantor ecorrigeerd voor meervoudige mutaties op dezelfde positie evolutionaire afstand > fractie verschillen evolutionaire afstand d Fractie verwachte verschillen een correctie Niet gecorrigeerd evolutionaire afstand = fractie verschillen Dissimilariteit f Fractie geobserveerde verschillen 2 Willekeurige nucleotide sequenties ~ 25% identiteit verwacht fractie verschillen ~ 75% Zijn niet verwant evolutionaire afstand oneindig

23 Andere substitutie modellen Kimura's 2 parameter model Transitie & transversie/verschillende mutatie rates Complexere modellen, b.v. 2 parameter model Zeer complex mathematisch geven niet echt betere resultaten (veel meer assumpties nodig) Niet courant gebruikt

24 Ongelijke substitutie snelheden Problemen bij Jukes & Cantor: Afwijkingen naar hogere C gehaltes Ongelijke substitutiesnelheden van verschillende posities in een sequentie-alignement econserveerde stukken (functionele of structurele constraints) vs. neutrale evolutie Onderschatting van grote evolutionaire afstanden Neiging om artificeel lange takken te clusteren ver uit elkaar gelegen sequenties lijken dichter Correcties hiervoor leveren vaak betrouwbaardere bomen op

25 Ongelijke substitutiesnelheden 20 substituties bij identieke substitutie rate op alle posities roen = terugmutatie Rood = mutatie Substituties: gebeurd = 20 afstand = 20/20 = eobserveerd = 4-3 = afstand = /20 = substituties bij verschillende substitutie rates Substituties: gebeurd = 20 afstand = 20/20 = eobserveerd = 9- = 8 afstand = 8/20 = 0.4

26 amma distributie amma distributie kan gebruikt worden als model voor de heterogeneiteit in substitutie snelheid Welke distributie (parameter α) hangt af van de dataset In principe kan/moet je α berekenen op basis van het alignement wel vaak bv. α= als default genomen bv. α=20 meeste posities substitutie rate ~ weinig posities met veel grotere of kleinere r bv. α= meeste posities substitutie rate bijna 0 andere r komen ook veel voor

27 Ongelijke substitutiesnelheden evolutionaire afstand d Fractie verwachte verschillen d d JC = 3 4 ln ( 4 3 f ) JN = 3 4 α(( 4 α 3 f ) ) Methode van Jin &Nei Jin&Nei Jukes&Cantor Dissimilariteit f Fractie geobserveerde verschillen een correctie ~ Jukes&Cantor, maar houdt rekening met ongelijke substitutie snelheden Welke gamma distributie Parameter α Aanpassing evolutionaire afstand nog groter (J&C is nog altijd onderschatting)

28 Clustering Boom reconstructie Oudste methode Sequentiele clustering van meest verwante groepen in de afstands matrix Herberekening matrix Eenvoudig te implementeren snel

29 Clustering roepeer OTU's met kleinste onderlinge afstand in matrix A,B,C,D,E : verschillende taxa A & B liggen het dichtste bij elkaar A B A B C D E B 2 C 4 4 D E F

30 Clustering Bereken nieuwe afstanden tussen groep AB en andere OTU's d (AB)C = (d AC +d BC )/2 = 4... roepeer OTU's met kleinste afstand (AB) C D E C 4 D 6 6 E F A B D E

31 Clustering Bereken nieuwe afstanden tussen groep AB en andere OTU's d (DE)(AB) = (d D(AB) +d E(AB) )/2 = 6... roepeer OTU's met kleinste afstand (AB) C (DE) C 4 (DE) 6 6 F A B C D E

32 Clustering Bereken nieuwe afstanden tussen groep AB en andere OTU's d (ABC)(DE) = (d (AB)(DE) +d C(DE) )/2 = 6... roepeer OTU's met kleinste afstand (ABC) (DE) (DE) 6 F A B C D E

33 Clustering Bereken nieuwe afstanden tussen groep AB en andere OTU's d (ABC)(DE) = (d (AB)(DE) +d C(DE) )/2 = 6... roepeer OTU's met kleinste afstand (ABC),(DE) F 8 Resultaat ewortelde boom Afstand van wortel tot alle eindnodes is dezelfde A B C D E F

34 Boom reconstructie Clustering verschillende methoden WPMA (in voorbeeld) Weighted Pair roup Method with Arithmetic mean Bij samengestelde groepen gemiddelde van gemiddelden UPMA Unweighted Pair roup Method with Arithmetic mean Bij samengestelde groepen gemiddelde genomen van de afstanden tot alle taxa in de groep

35 Clustering Boom reconstructie Veronderstelt (zou correct zijn voor) ultrametrische data Ultrametrische data = data met devolgende eigenschappen Additief distance tussen twee taxa = som van de lengtes van alle takken tussen twee taxa elijke evolutie snelheid in alle takken er kan een wortel gevonden worden zodanig dat alle taxa even ver van deze wortel verwijderd zijn Komt in de praktijk (matrix van afstanden berekend op basis van bv. moleculaire data) niet echt voor (Meervoudige) mutaties op dezelfde posities Fouten in model/correcties Stochastische verschillen in bv. evolutiesnelheid Verschillen in evolutiesnelheid

36 Additieve methoden Additieve data Distance tussen twee taxa = som van de lengtes van alle takken tussen twee taxa In realiteit zijn matrices zelden additief Stochastische fouten Fouten in het model Methoden Transformed distance omzetting naar ultrametrische data, clustering Fitch-Margoliash Boom met minimale error bij het fitten van experimenteel bepaalde afstanden met deze berekend op basis van de boom tijdsintensief

37 Neigbor-joining Methode Vergelijkbaar met cluster analyse Minimum in Q-matrix (gebaseerd op distance matrix) Afstand tussen elk paar nodes wordt aangepast op basis van de afstand ten opzichte van alle andere nodes Meest nabije nodes (in Q-matrix) worden gelinkt Vervangen door een ancestrale node Afstanden van alle nodes to nieuwe node berekend Herhalen Ongewortelde boom ebruik van een outgroup om de wortel te bepalen...

38 Neigbor-joining Voordelen Zeer snel, grote datasets goede resultaten Minder gevoelig voor ongelijke evolutiesnelheden in verschillende takken van de boom Kan ongelijke taklengtes hebben Nadelen Slechts resultaat kan geen suboptimale/alternatieve resultaten terug geven Ongewortelde bomen

39 Afstandsmethoden Voordelen Snel Laten verwerking grote datasets toe Correctie voor meervoudige - en terugmutaties emakkelijker stabiliteit te testen bij veranderende datasets Nadelen sterke reductie fylogenetische informatie sommige methoden (zoals bv. neighbor-joining) geven slechts topologie en laten niet toe om alternatieve topologieën te onderzoeken Soms sterke afhankelijkheid van het gevolgde substitutiemodel

40 Basis Maximum likelihood De kans dat het door een boomtopologie gesuggereerde evolutieschema heeft geleid tot de sequenties waarover men beschikt ebaseerd op een bepaald substitutiemodel Voor elke mogelijke boomtopologie Elke positie in het alignement wordt afzonderlijk geevalueerd esofistikeerde statistische methoden

41 Maximum likelihood Voordelen Statistisch zeer goed onderbouwd Mogelijk om te corrigeren voor meervoudige - en terugmutaties ebruikt volledige sequentie informatie Mogelijk om alternatieve boomtopologieën te onderzoeken Robuust tegen foute assumpties in evolutie model Dikwijls een lagere variantie dan de andere methoden Nadelen Zeer traag Ook afhankelijk van het gevolgde substitutiemodel

42 Betrouwbaarheid van evolutiebomen Factoren die boomconstructie beinvloeden Stochastische (toevallige) fouten Systematische fouten verkeerde veronderstellingen maakt. b.v. door het Jukes en Cantor model toe te passen om sequenties met zeer verschillende C inhoud. versnelde evolutie in verschillende takken van de boom (ongelijke evolutiesnelheden) ongelijke substitutiesnelheden afwijkingen in de sequentie-inhoud 'gene tree' is niet gelijk aan 'species tree' horizontale gen-transfer convergente evolutie Afhankelijk van gebruikte molecule om boom op te bouwen Enz...

43 Bootstrap analyse eeft een idee van de betrouwbaarheid v.d. boom Methode Een (groot) aantal datasets wordt geconstrueerd op basis van de originele dataset Random selectie van posities in originele alignement tot een even groot aantal posities bereikt wordt positie kan dus meerdere keren voor komen in elke nieuwe dataset, sommige posities komen niet voor C C 4 C 2 A A A C 2 C C 4 A A A C 2 3 C C 4 T T - 5 C 2 C 2 C 2 T T - 5 A A A 3 A A A 3 C C 4 T T - 5 T T

44 Bootstrap analyse Op basis van elke nieuwe dataset wordt een boom geconstrueerd Op elke tak van de originele boom wordt aangeduid hoe dikwijls deze groep werd teruggevonden in alle aangemaakte bomen groepen die in vrijwel alle bomen teruggevonden zijn veel betrouwbaarder

45 Bootstrap analyse Resultaten Idee van de betrouwbaarheid van verschillende takken in de boom eeft enkel informatie over stochastische fouten Sample size moet groot zijn Zijn niet altijd betekenisvol o.w.v. Systematische fouten worden er niet uitgehaald Sommige afwijkingen in de dataset bv. twee sequenties samen clusteren omwille van een gemeenschappelijke afwijking in C gehalte

46 Conclusies Vergelijking van resultaten op basis van Verschillende methoden Verschillende molecules Verschillende datasets Boomconstructie Programma's Phylip Klassieker, vele methoden rote lijst (93 programma's, 8 servers) ware.html

Bio-informatica Similariteit. Peter De Rijk

Bio-informatica Similariteit. Peter De Rijk Bio-informatica Similariteit Peter De Rijk 5 Similariteit, niet zo simpel Similariteit Similariteit is afhankelijk van de gekozen parameters Grootte, Kleur Functie Afkomst... Globale similariteit (families)

Nadere informatie

Bioinformatica tentamen D2 voor 2MNW op maandag 30/05/2005 van 13:30-16:30 in Q105

Bioinformatica tentamen D2 voor 2MNW op maandag 30/05/2005 van 13:30-16:30 in Q105 Bioinformatica tentamen D2 voor 2MNW op maandag 30/05/2005 van 13:30-16:30 in Q105 Naam: Studentnummer: NB: er zijn extra vellen achteraan bijgevoegd die je kunt gebruiken om antwoorden verder uit te werken,

Nadere informatie

Bio-informatica Similariteit Searches. Peter De Rijk

Bio-informatica Similariteit Searches. Peter De Rijk Bio-informatica Similariteit Searches Peter De Rijk 6 Similariteit searches Zoeken naar gelijkende sequenties in sequentie databanken Korte sequentie (b.v. EST) waar we meer van willen weten Andere korte

Nadere informatie

Gegevensverwerving en verwerking

Gegevensverwerving en verwerking Gegevensverwerving en verwerking Staalname - aantal stalen/replicaten - grootte staal - apparatuur Experimentele setup Bibliotheek Statistiek - beschrijvend - variantie-analyse - correlatie - regressie

Nadere informatie

Classification - Prediction

Classification - Prediction Classification - Prediction Tot hiertoe: vooral classification Naive Bayes k-nearest Neighbours... Op basis van predictor variabelen X 1, X 2,..., X p klasse Y (= discreet) proberen te bepalen. Training

Nadere informatie

De antwoorden op vragen 1 en 2, 3 en 4, en 5 t/m 8 graag op verschillende vellen schrijven. Vergeet ook niet op de 3 vellen je naam en studentnr.

De antwoorden op vragen 1 en 2, 3 en 4, en 5 t/m 8 graag op verschillende vellen schrijven. Vergeet ook niet op de 3 vellen je naam en studentnr. Tentamen Genoombiologie, 28 Oktober 2009, 9.00-11.45 h De antwoorden op vragen 1 en 2, 3 en 4, en 5 t/m 8 graag op verschillende vellen schrijven. Vergeet ook niet op de 3 vellen je naam en studentnr.

Nadere informatie

Hoofdstuk 12: Eenweg ANOVA

Hoofdstuk 12: Eenweg ANOVA Hoofdstuk 12: Eenweg ANOVA 12.1 Eenweg analyse van variantie Eenweg en tweeweg ANOVA Wanneer we verschillende populaties of behandelingen met elkaar vergelijken, dan zal er binnen de data altijd sprake

Nadere informatie

Oplossingen Datamining 2II15 Juni 2008

Oplossingen Datamining 2II15 Juni 2008 Oplossingen Datamining II1 Juni 008 1. (Associatieregels) (a) Zijn de volgende beweringen juist of fout? Geef een korte verklaring voor alle juiste beweringen en een tegenvoorbeeld voor alle foute be-weringen:

Nadere informatie

DAR Approximate string matching Casus: biological sequence alignment

DAR Approximate string matching Casus: biological sequence alignment DAR Approximate string matching Casus: biological sequence alignment 1 Text search Approx string matching dynamic programming, edit distance example application: Google search Text indexing inverted list

Nadere informatie

Samenvatting Nederlands

Samenvatting Nederlands Samenvatting Nederlands 178 Samenvatting Mis het niet! Incomplete data kan waardevolle informatie bevatten In epidemiologisch onderzoek wordt veel gebruik gemaakt van vragenlijsten om data te verzamelen.

Nadere informatie

Meten en experimenteren

Meten en experimenteren Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 3 oktober 006 Deel I Toevallige veranderlijken Steekproef Beschrijving van gegevens Histogram Gemiddelde en standaarddeviatie

Nadere informatie

Out of Africa: mtdna en Y chromosoom. Jean-Jacques Cassiman KuLeuven

Out of Africa: mtdna en Y chromosoom. Jean-Jacques Cassiman KuLeuven Out of Africa: mtdna en Y chromosoom Jean-Jacques Cassiman KuLeuven 12.05.2007 Kern DNA CME 06 CME 06 CME 06 Start in 2007: twee zonen per generatie (25j) In 2258 (10 generaties of 250 jaar) zullen er

Nadere informatie

1 Coördinaten in het vlak

1 Coördinaten in het vlak Coördinaten in het vlak Verkennen Meetkunde Coördinaten in het vlak Inleiding Verkennen Beantwoord de vragen bij Verkennen. (Als je er niet uitkomt, ga je gewoon naar de Uitleg, maar bekijk het probleem

Nadere informatie

2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.

2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren. 1. Veronderstel dat je als datamining consultant werkt voor een Internet Search Engine bedrijf. Beschrijf hoe datamining het bedrijf kan helpen door voorbeelden te geven van specifieke toepassingen van

Nadere informatie

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

Stochastiek 2. Inleiding in the Mathematische Statistiek. staff.fnwi.uva.nl/j.h.vanzanten

Stochastiek 2. Inleiding in the Mathematische Statistiek. staff.fnwi.uva.nl/j.h.vanzanten Stochastiek 2 Inleiding in the Mathematische Statistiek staff.fnwi.uva.nl/j.h.vanzanten 1 / 12 H.1 Introductie 2 / 12 Wat is statistiek? - 2 Statistiek is de kunst van het (wiskundig) modelleren van situaties

Nadere informatie

Summary in Dutch 179

Summary in Dutch 179 Samenvatting Een belangrijke reden voor het uitvoeren van marktonderzoek is het proberen te achterhalen wat de wensen en ideeën van consumenten zijn met betrekking tot een produkt. De conjuncte analyse

Nadere informatie

2WO12: Optimalisering in Netwerken

2WO12: Optimalisering in Netwerken 2WO12: Optimalisering in Netwerken Leo van Iersel Technische Universiteit Eindhoven (TU/E) en Centrum Wiskunde & Informatica (CWI) 27 februari 2014 http://homepages.cwi.nl/~iersel/2wo12/ [email protected]

Nadere informatie

NEDERLANDSE SAMENVATTING

NEDERLANDSE SAMENVATTING NEDERLANDSE SAMENVATTING NEDERLANDSE SAMENVATTING In het kort Chronische ziekten zoals astma, reuma en bepaalde soorten kanker hebben deels een genetische achtergrond. Dit betekent dat de kans op de aandoening

Nadere informatie

Meten en experimenteren

Meten en experimenteren Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 6 oktober 009 Catherine De Clercq Statistische verwerking van gegevens Kursus statistiek voor fysici door Jorgen D Hondt

Nadere informatie

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten Hoofdstuk 8 Betrouwbaarheidsintervallen In het vorige hoofdstuk lieten we zien hoe het mogelijk is om over een ongekende karakteristiek van een populatie hypothesen te formuleren. Een andere manier van

Nadere informatie

Implementations of Tests on the Exogeneity of Selected Variables and Their Performance in Practice M. Pleus

Implementations of Tests on the Exogeneity of Selected Variables and Their Performance in Practice M. Pleus Implementations of Tests on the Exogeneity of Selected Variables and Their Performance in Practice M. Pleus Dat economie in essentie geen experimentele wetenschap is maakt de econometrie tot een onmisbaar

Nadere informatie

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN Inleiding Statistische gevolgtrekkingen (statistical inference) gaan over het trekken van conclusies over een populatie op basis van steekproefdata.

Nadere informatie

1 (~20 minuten; 20 punten)

1 (~20 minuten; 20 punten) TENTAMEN Moleculaire Cel Biologie (8A840) Prof. Dr. Ir. L. Brunsveld & Dr. M. Merkx 27-01-2012 14:00 17:00 (totaal 100 punten) 6 opgaven in totaal + 1 bonusvraag! (aangegeven tijd is indicatie) Gebruik

Nadere informatie

1 Cartesische coördinaten

1 Cartesische coördinaten Cartesische coördinaten Verkennen www.math4all.nl MAThADORE-basic HAVO/VWO 4/5/6 VWO wi-d Analytische Meetkunde Cartesische coördinaten Inleiding Verkennen Beantwoord de vragen bij Verkennen. (Als je er

Nadere informatie

KWANTITATIEF TESTEN. experimenteel ontwerp (MIT 14) statistische analyse (MIT 15)

KWANTITATIEF TESTEN. experimenteel ontwerp (MIT 14) statistische analyse (MIT 15) KWANTITATIEF TESTEN experimenteel ontwerp (MIT 14) statistische analyse (MIT 15) tips Google Wikipedia MIT 14, 15 stats.stackexhchange.com ander onderzoek dat lijkt op het jouwe experimenteel ontwerp kwantitatieve

Nadere informatie

1. Reductie van error variantie en dus verhogen van power op F-test

1. Reductie van error variantie en dus verhogen van power op F-test Werkboek 2013-2014 ANCOVA Covariantie analyse bestaat uit regressieanalyse en variantieanalyse. Er wordt een afhankelijke variabele (intervalniveau) voorspeld uit meerdere onafhankelijke variabelen. De

Nadere informatie

Hand-out Microbiologie

Hand-out Microbiologie Hand-out Microbiologie COO-module bij hoofdstuk 25, 26, 27, 28 en 31 uit Biology van Campbell. NB In de module krijg je een random selectie van 18 van deze vragen. Hieronder staan dus meer vragen dan je

Nadere informatie

Genetische variatie en inteelt : basisconcepten. Steven Janssens Nadine Buys

Genetische variatie en inteelt : basisconcepten. Steven Janssens Nadine Buys Genetische variatie en inteelt : basisconcepten Steven Janssens Nadine Buys Inteelt Inteelt treedt op voor dieren waarvan de ouderdieren met elkaar verwant zijn (dit betekent dat in de afstamming van vader

Nadere informatie

HERKANSINGSTENTAMEN Moleculaire Biologie deel 2, 5 Jan 2007

HERKANSINGSTENTAMEN Moleculaire Biologie deel 2, 5 Jan 2007 HERKANSINGSTENTAMEN Moleculaire Biologie deel 2, 5 Jan 2007 NAAM: STUDENTNUMMER: CONTROLEER OF DIT TENTAMEN 14 PAGINA S BEVAT. Veel succes! o Je mag de achterkant van het papier ook zo nodig gebruiken,

Nadere informatie

Parking Surveillance. foreground/background segmentation - objectherkenning. Examen Beeldverwerking Pieter Vancoillie

Parking Surveillance. foreground/background segmentation - objectherkenning. Examen Beeldverwerking Pieter Vancoillie Parking Surveillance foreground/background segmentation - objectherkenning Examen Beeldverwerking Pieter Vancoillie Doel van het (deel)project Uit beelden van een camera voetgangers, fietsers en auto s

Nadere informatie

(iii) Enkel deze bundel afgeven; geen bladen toevoegen, deze worden toch niet gelezen!

(iii) Enkel deze bundel afgeven; geen bladen toevoegen, deze worden toch niet gelezen! Examen Wiskundige Basistechniek, reeks A 12 oktober 2013, 13:30 uur Naam en Voornaam: Lees eerst dit: (i) Naam en voornaam hierboven invullen. (ii) Nietje niet losmaken. (iii) Enkel deze bundel afgeven;

Nadere informatie

11. Multipele Regressie en Correlatie

11. Multipele Regressie en Correlatie 11. Multipele Regressie en Correlatie Meervoudig regressie model Nu gaan we kijken naar een relatie tussen een responsvariabele en meerdere verklarende variabelen. Een bivariate regressielijn ziet er in

Nadere informatie

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R 14. Herhaalde metingen Introductie Bij herhaalde metingen worden er bij verschillende condities in een experiment dezelfde proefpersonen gebruikt of waarbij dezelfde proefpersonen op verschillende momenten

Nadere informatie

nederlandse samenvatting Dutch summary

nederlandse samenvatting Dutch summary Dutch summary 211 dutch summary De onderzoeken beschreven in dit proefschrift zijn onderdeel van een grootschalig onderzoek naar individuele verschillen in algemene cognitieve vaardigheden. Algemene cognitieve

Nadere informatie

Het menselijk genoom. Inleiding Medisch Technische Wetenschappen. Bioinformatica Deel 2. Gevouwen chromosoom. X chromosoom DNA.

Het menselijk genoom. Inleiding Medisch Technische Wetenschappen. Bioinformatica Deel 2. Gevouwen chromosoom. X chromosoom DNA. Het menselijk genoom Het menselijk genoom (DN) bestaat uit: Mega Basenparen (MB),,, C,. Inleiding Medisch echnische Wetenschappen Bioinformatica Deel Michael Egmont-Petersen Het menselijk DN is ingedeeld

Nadere informatie

PhD Thesis Wouter J. Peyrot

PhD Thesis Wouter J. Peyrot PhD Thesis Wouter J. Peyrot NEDERLANDSE SAMENVATTING In het eerste deel van dit proefschrift wordt de complexe relatie tussen genetische effecten en omgevingsfactoren bij het ontstaan van depressie onderzocht

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS

VOOR HET SECUNDAIR ONDERWIJS VOOR HET SECUNDAIR ONDERWIJS Steekproefmodellen en normaal verdeelde steekproefgrootheden 5. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg

Nadere informatie

Inhoud. Data. Analyse van tijd tot event data: van Edward Kaplan & Paul Meier tot David Cox

Inhoud. Data. Analyse van tijd tot event data: van Edward Kaplan & Paul Meier tot David Cox van tijd tot event data: van Edward Kaplan & Paul Meier tot David Cox Bram Ramaekers Bianca de Greef KEMTA Masterclass Inhoud Data Kaplan-Meier curve Hazard rate Log-rank test Hazard ratio Cox regressie

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 4. Het steekproefgemiddelde. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Kansmodellen 4. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Een concreet voorbeeld.... Een kansmodel

Nadere informatie

Formulier voor het beoordelen van de kwaliteit van een artikel over een diagnostische test of screeningsinstrument.

Formulier voor het beoordelen van de kwaliteit van een artikel over een diagnostische test of screeningsinstrument. Formulier voor het beoordelen van de kwaliteit van een artikel over een diagnostische test of screeningsinstrument. Behorend bij: Evidence-based logopedie, hoofdstuk 3. Toelichting bij de criteria voor

Nadere informatie

Paleontologie, de studie van fossielen die gebruikt wordt om een beeld te krijgen over de geschiedenis van het leven op aarde.

Paleontologie, de studie van fossielen die gebruikt wordt om een beeld te krijgen over de geschiedenis van het leven op aarde. Paleontologie, de studie van fossielen die gebruikt wordt om een beeld te krijgen over de geschiedenis van het leven op aarde. Fig. 22-3 Verschillende aardlagen, Ontstaan in verschillende tijden Jongere

Nadere informatie

In dit gedeelte worden drie problemen genoemd die kunnen voorkomen in netwerken.

In dit gedeelte worden drie problemen genoemd die kunnen voorkomen in netwerken. Aantekening Wiskunde Steiner Aantekening door D. 2086 woorden 25 mei 2016 2,1 1 keer beoordeeld Vak Wiskunde Resultaten Vragen bij het wetenschappelijk materiaal 9.1 Prototype example, p. 374-376 In dit

Nadere informatie

Dag van GeoGebra zaterdag 19 oktober 2013

Dag van GeoGebra zaterdag 19 oktober 2013 Dag van GeoGebra zaterdag 19 oktober 2013 Random oefenen met GeoGebra Wiskunde leer je door te doen. Willen we leerlingen oefeningen aanbieden die telkens een nieuwe uitdaging vormen? Willen we leerlingen

Nadere informatie

Het schatten van de Duitse oorlogsproductie: maximum likelihood versus de momentenmethode

Het schatten van de Duitse oorlogsproductie: maximum likelihood versus de momentenmethode Het schatten van de Duitse oorlogsproductie: maximum likelihood versus de momentenmethode Rik Lopuhaä TU Delft 30 januari, 2015 Rik Lopuhaä (TU Delft) Schatten van de Duitse oorlogsproductie 30 januari,

Nadere informatie

IJkingstoets burgerlijk ingenieur-architect september 2018: feedback deel wiskunde

IJkingstoets burgerlijk ingenieur-architect september 2018: feedback deel wiskunde IJkingstoets burgerlijk ingenieur-architect september 8: feedback deel wiskunde Positionering ten opzichte van andere deelnemers In totaal namen 5 studenten deel aan de ijkingstoets burgerlijk ingenieur-architect

Nadere informatie

IJkingstoets burgerlijk ingenieur-architect september 2018: feedback deel wiskunde

IJkingstoets burgerlijk ingenieur-architect september 2018: feedback deel wiskunde IJkingstoets burgerlijk ingenieur-architect september 8: feedback deel wiskunde Positionering ten opzichte van andere deelnemers In totaal namen 5 studenten deel aan de ijkingstoets burgerlijk ingenieur-architect

Nadere informatie

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen

Nadere informatie

Bioinformatica en Systeembiologie (BIS)

Bioinformatica en Systeembiologie (BIS) Waarom een major Bioinformatica en Systeembiologie? Huidige methoden van onderzoek, zoals de DNAchiptechnologie, leveren enorme hoeveelheden gegevens op die met bestaande statistische methoden niet meer

Nadere informatie

Six Sigma. Wat is Six Sigma?

Six Sigma. Wat is Six Sigma? Six Sigma Wat is het, wat brengt het? Oktober 2015 Wat is Six Sigma? OVERZICHT Statistische benadering Lange termijn Continu verbeteren Streven om te voldoen aan klantwens Een business filosofie en strategie

Nadere informatie

Exponentiële Functie: Toepassingen

Exponentiële Functie: Toepassingen Exponentiële Functie: Toepassingen 1 Overgang tussen exponentiële functies en lineaire functies Wanneer we werken met de exponentiële functie is deze niet altijd gemakkelijk te herkennen. Daarom proberen

Nadere informatie

Nederlandse Samenvatting

Nederlandse Samenvatting Nederlandse Samenvatting Samenvatting De mogelijkheid om genen op een specifieke wijze te reguleren creëert diverse manieren om genfunctie te kunnen bestuderen of moduleren. Artificiële transcriptiefactoren

Nadere informatie

. Dan geldt P(B) = a. 1 4. d. 3 8

. Dan geldt P(B) = a. 1 4. d. 3 8 Tentamen Statistische methoden 4052STAMEY juli 203, 9:00 2:00 Studienummers: Vult u alstublieft op het meerkeuzevragenformulier uw Delftse studienummer in (tbv automatische verwerking); en op het open

Nadere informatie

Examen Statistiek II: Project

Examen Statistiek II: Project Examen Statistiek II: Project S. Vansteelandt Academiejaar 2014-2015 U krijgt 2 uur 30 minuten voor het examen, inclusief het mondelinge examen dat maximaal 15 min duurt. Het examen is relatief lang omdat,

Nadere informatie

Les 1: de normale distributie

Les 1: de normale distributie Les 1: de normale distributie Elke Debrie 1 Statistiek 2 e Bachelor in de Biomedische Wetenschappen 18 oktober 2018 1 Met dank aan Koen Van den Berge Indeling lessen Elke bullet point is een week. R en

Nadere informatie

HOOFDSTUK VII REGRESSIE ANALYSE

HOOFDSTUK VII REGRESSIE ANALYSE HOOFDSTUK VII REGRESSIE ANALYSE 1 DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens

Nadere informatie

mlw stroom 2.2: Biostatistiek en Epidemiologie

mlw stroom 2.2: Biostatistiek en Epidemiologie mlw stroom 2.2: Biostatistiek en Epidemiologie Hoorcollege 1: Onderzoeksopzet en risikomaten Rosner 13.1-13.4 Capaciteitsgroep Methodologie en Statistiek tul / UM 10 januari 2006 Methodologie en Statistiek

Nadere informatie

1. Statistiek gebruiken 1

1. Statistiek gebruiken 1 Hoofdstuk 0 Inhoudsopgave 1. Statistiek gebruiken 1 2. Gegevens beschrijven 3 2.1 Verschillende soorten gegevens......................................... 3 2.2 Staafdiagrammen en histogrammen....................................

Nadere informatie

Samenvatting (Summary in Dutch)

Samenvatting (Summary in Dutch) In dit proefschrift worden een aantal psychometrische methoden beschreven waarmee de accuratesse en efficientie van psychodiagnostiek in de klinische praktijk verbeterd kan worden. Psychodiagnostiek wordt

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, 14.00-17.00 uur De uitwerkingen van de opgaven dienen duidelijk geformuleerd

Nadere informatie

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y 1 Regressie analyse Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y Regressie: wel een oorzakelijk verband verondersteld: X Y Voorbeeld

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 12 Donderdag 21 Oktober 1 / 38 2 Statistiek Indeling: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 38 Deductieve

Nadere informatie

Over streepjescodes en boswitjes (DNA-barcoding bij Leptidea) : Hoe, Wat, Waarom? Een inleiding

Over streepjescodes en boswitjes (DNA-barcoding bij Leptidea) : Hoe, Wat, Waarom? Een inleiding Over streepjescodes en boswitjes (DNA-barcoding bij Leptidea) : Hoe, Wat, Waarom? Een inleiding Kurt Jonckheere VVE Werkgroep Dagvlinders 12 maart 2016 Agenda : Wat is een soort? DNA? Hoe ontstaan (nieuwe)

Nadere informatie

Onderzoeksgroep Neurodegeneratieve Hersenziekten

Onderzoeksgroep Neurodegeneratieve Hersenziekten WETENSCHAPPELIJK ONDERZOEK NAAR DE ROL VAN GENETICA IN JONGDEMENTIE: FAMILIES, MUTATIES EN GENETISCHE TESTEN. Christine Van Broeckhoven Neurodegeneratieve Hersenziekten Groep, Department Moleculaire Genetica,

Nadere informatie

Opgave 1: bewijs zelf op algebraïsche wijze dat de lengte van DE gelijk is aan de helft van de lengte van BC.

Opgave 1: bewijs zelf op algebraïsche wijze dat de lengte van DE gelijk is aan de helft van de lengte van BC. Opgave 1: bewijs zelf op algebraïsche wijze dat de lengte van DE gelijk is aan de helft van de lengte van BC. Antwoord: de lengteverhouding vertaalt als: (x 3 x 1 ) + (x 4 x ) = (u 5 u 3 ) + (u 6 u 4 )

Nadere informatie

College 3 Interne consistentie; Beschrijvend onderzoek

College 3 Interne consistentie; Beschrijvend onderzoek College 3 Interne consistentie; Beschrijvend onderzoek Inleiding M&T 2012 2013 Hemmo Smit Overzicht van dit college Kwaliteit van een meetinstrument (herhaling) Interne consistentie: Cronbach s alpha Voorbeeld:

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 12 Vrijdag 16 Oktober 1 / 38 2 Statistiek Indeling vandaag: Normale verdeling Wet van de Grote Getallen Centrale Limietstelling Deductieve statistiek Hypothese toetsen

Nadere informatie

A network approach to interrelated insurance risk. Ted van der Aalst

A network approach to interrelated insurance risk. Ted van der Aalst A network approach to interrelated insurance risk Ted van der Aalst Kunnen we netwerken gebruiken om cyberverzekeringen te modelleren? Ted van der Aalst Cyberrisico - Problemen Onderlinge afhankelijkheid

Nadere informatie

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen M, M & C 7.3 Optional Topics in Comparing Distributions: F-toets 6.4 Power & Inference as a Decision 7.1 The power of the t-test 7.3 The power of the sample t- Toetsende Statistiek Week 5. De F-toets &

Nadere informatie

Kengetallen E-23 Fokwaarde levensvatbaarheid bij geboorte Fokwaarde levensvatbaarheid bij afkalven

Kengetallen E-23 Fokwaarde levensvatbaarheid bij geboorte Fokwaarde levensvatbaarheid bij afkalven Kengetallen E-23 Fokwaarde levensvatbaarheid bij geboorte Fokwaarde levensvatbaarheid bij afkalven Inleiding Sinds 1989 wordt op basis van geboortegegevens van koeien de index geboortegemak berekend. Deze

Nadere informatie

Samenvatting De belangrijkste onderzoeksvraag waarop het werk in dit proefschrift een antwoord probeert te vinden, is welke typen taalkundige informatie het nuttigst zijn voor de lexicale desambiguatie

Nadere informatie

Figuur 1. Representatie van de dubbele helix en de structuren van de verschillende basen.

Figuur 1. Representatie van de dubbele helix en de structuren van de verschillende basen. Het DNA molecuul is verantwoordelijk voor het opslaan van de genetische informatie die gebruikt wordt voor de ontwikkeling en het functioneren van levende organismen. Aangezien het de instructies voor

Nadere informatie

HOVO statistiek November 2011 1

HOVO statistiek November 2011 1 Principale Componentenanalyse en hockeystick-short centring Principale Componentenanalyse bedacht door Karl Pearson in 1901 Peter Grünwald HOVO 31-10 2011 Stel we hebben een grote hoeveelheid data. Elk

Nadere informatie