De Statistische Analyse van Netwerken

Maat: px
Weergave met pagina beginnen:

Download "De Statistische Analyse van Netwerken"

Transcriptie

1 De Statistische Analyse van Netwerken Rodel van Rooijen 15 juli 2014 Bachelorscriptie Begeleiding: prof. dr. J.H. Harry) van Zanten Korteweg-De Vries Instituut voor Wiskunde Faculteit der Natuurwetenschappen, Wiskunde en Informatica Universiteit van Amsterdam

2 Samenvatting Het modelleren van netwerken zorgt voor het beter begrijpen van veel dingen in ons hedendaags leven. Zonder er vaak kennis van te hebben bevinden dit soort netwerken zich overal om ons heen. Het bestuderen van netwerken verbreedt bijvoorbeeld ons begrip van het internet, transportnetwerken, sociale netwerken en de verspreiding van ziektes. In deze scriptie worden daarom een aantal statistische netwerkmodellen behandeld en zal in het bijzonder gefocust worden op één netwerkmodel namelijk het exponentiële random graaf model. Verder zullen er statistische methoden gebruikt worden om het model toe te kunnen passen in de praktijk. Een van deze methoden gebruikt een zogenaamd Monte Carlo Markovketen algoritme dat zelfs in de meest gecompliceerde gevallen een benadering kan geven van de ware parameters van het model. Na het behandelen van deze methoden voor het algemene model zal er nog een praktische toepassing gegeven worden. Titel: De Statistische Analyse van Netwerken Auteur: Rodel van Rooijen, Begeleiding: prof. dr. J.H. Harry) van Zanten Einddatum: 15 juli 2014 Korteweg-De Vries Instituut voor Wiskunde Universiteit van Amsterdam Science Park 904, 1098 XH Amsterdam 2

3 Inhoudsopgave 1. Inleiding 4 2. Een introductie tot netwerken Wat is een netwerk? Sociale netwerken Informatienetwerken Waarom bestuderen we netwerken? Grafentheorie en de exponentiële familie van verdelingen Grafentheorie De exponentiële familie van verdelingen De meest aannemelijke schatter Netwerk modellen Het Erdős-Rényi-Gilbert random graaf model Het stochastische blokmodel Gegroepeerde netwerken Het exponentiële random graaf model Maximum likelihood op het exponentiële random graaf model De Monte Carlo Markovketen De benadering van de meest aannemelijke schatter Het benaderen van de log-likelihood functie Het genereren van een steekproef De normalisatiefactor Convergentie naar evenwicht Een toepassing van het exponentiële random graaf model Het complexe hersennetwerk model Conclusie 32 Bibliografie 33 A. Appendix 35 B. Populaire samenvatting 38 3

4 1. Inleiding Sinds ik begonnen ben aan mijn studie wiskunde aan de Universiteit van Amsterdam UvA) ligt mijn interesse vooral bij de stochastiek kansrekening en statistiek). In het eerste jaar was er tevens een vak dat ging over grafentheorie dat mij erg aansprak. Toen ik een scriptie onderwerp moest kiezen wilde ik allereerst gaan kijken of ik iets met toegepaste stochastiek kon doen. Al snel werd ik in de richting van prof. dr. Harry van Zanten gestuurd en niet zonder succes, al snel stelde hij mij een onderwerp voor dat ging over netwerken. In dit onderwerp zou ik de stochastiek en de grafentheorie perfect kunnen combineren en zelfs in toegepaste zin, daarmee was mijn keuze snel gemaakt. Niet alleen dit maakt het een heel interessant onderwerp, want er valt namelijk veel over te zeggen. Netwerken liggen aan het fundament van de hedendaagse samenleving, bijvoorbeeld het sociale netwerk Facebook en het internet in de vorm van het World Wide Web hebben een prominente positie ingenomen. Allereerst zullen we in het kort de volgende vraag beantwoorden: Wat is een netwerk?. In hoofstuk 2 zal deze vraag in detail beantwoordt worden, kort gezegd is een netwerk een verbonden geheel waar vaak mensen of dingen centraal staan. Voorbeelden van netwerken die onmisbaar zijn in ons dagelijks leven zijn bijvoorbeeld de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informatienetwerk zoals het internet is een kenmerkend voorbeeld. Het bestuderen van dit soort netwerken zou dus kunnen helpen bij het beter begrijpen van veel aspecten die deel uitmaken van ons dagelijks leven. Maar niet alleen netwerken die we vaak tegenkomen zijn interessant om te bestuderen. Netwerken van de verspreiding van ziektes en marketingmodellen zijn andere voorbeelden die tevens interessant zijn om te bekijken. In hoofdstuk 2 en 3 zullen we zien dat in het algemeen netwerken weergegeven kunnen worden als grafen. Bij het bekijken van netwerken bekijken we dus eigenlijk de achterliggende netwerkgraaf. In een netwerkgraaf representeren de punten entiteiten of dingen in een netwerk en zijn de relaties tussen punten gegeven door de lijnen van de graaf. Als we netwerken bestuderen bekijken dus eigenlijk de achterliggende grafen. Een manier om deze netwerken te bestuderen is door gebruik te maken van statistische modellen. In een statistisch model zoeken we een formele representatie van een onderliggend stochastisch proces. Dit wordt vaak gedaan door een model te selecteren in de vorm van een kansverdeling en dan door middel van observaties de parameters) in het model schatten. Deze methode van modelleren geeft de mogelijkheid om algemene eigenschappen te bekijken van netwerken zoals de verbondenheid en clustering van een netwerk. 4

5 Een andere reden waarom het voor de hand ligt om voor een statistische benadering te kiezen is, omdat al bestaande statistische methoden en technieken dan toegepast kunnen worden. De modellen die bekeken gaan worden liggen op het grensgebied van de grafentheorie en de stochastiek en worden vaak random graaf modellen genoemd. Het random aan deze grafen is dat deze afhankelijk zijn van een kansverdeling. In hoofdstuk 3 zal er allereerst een stuk theorie behandeld worden dat nodig is om in hoofdstuk 4 voorbeelden te geven van dit soort statistische netwerkmodellen. In deze scriptie zullen we één netwerkmodel in detail gaan behandelen namelijk het exponentiële random graaf model. De benadering van de ware parameters) in het model is niet in alle gevallen even makkelijk en daarom zal er in hoofstuk 5 een methode gegeven worden om deze toch in alle gevallen te kunnen benaderen. In de praktijk wordt dit model veel toegepast en daarom zal er een praktische toepassing van het model behandeld worden in hoofdstuk 6. Deze scriptie wordt daarna afgesloten met een terugblik en eventueel verdere onderzoeksmogelijkheden. Verder wil ik nog mijn begeleider Harry van Zanten hartelijk bedanken voor het voorstellen van dit interessante onderwerp en zijn inbreng in deze scriptie. Rodel van Rooijen juli

6 2. Een introductie tot netwerken Ter introductie zullen we in dit hoofdstuk een paar kernvragen rond netwerken behandelen zoals: Wat is een netwerk?, Welke soorten netwerken zijn er? en Waarom bestuderen we netwerken?. Voordat we namelijk kunnen beginnen met het analyseren van netwerken zullen we eerst moeten bekijken wat het begrip netwerk precies inhoudt. Om daarna een beter begrip te krijgen waar deze netwerken voorkomen zullen we deze in categoriën verdelen en zullen er voorbeelden gegeven worden. We beantwoorden tevens de vraag waarom het bekijken van deze netwerken zo interessant is Wat is een netwerk? Een netwerk is een geheel van verbonden punten waarbij deze punten opgevat kunnen worden als entiteiten of dingen. In een netwerk zijn twee punten verbonden met elkaar als er een connectie bestaat tussen deze punten. Deze connecties hebben vaak verschillende betekenissen, bij mensen zijn bijvoorbeeld de connecties vaak van sociale aard. Indien er gekeken word naar bijvoorbeeld webpagina s zijn de connecties vaak van informatieve aard, daarom zullen we in het vervolg onderscheid gaan maken tussen verschillende soorten connecties. In het bijzonder kunnen netwerken in verschillende categoriën worden opgedeeld aan de hand van de betekenis van de connecties in een netwerk. In dit hoofdstuk worden in het bijzonder twee categoriën bekeken en worden deze met voorbeelden geïllustreerd. Toch zijn deze categoriën niet bindend en kunnen netwerken in verschillende categoriën simultaan voorkomen Sociale netwerken Een interessante voor de hand liggende categorie van netwerken om te bekijken zijn de sociale netwerken, deze bevinden zich namelijk overal om ons heen. In een sociaal netwerk gaat het vooral om de sociale interactie tussen mensen en soms tussen dieren. Een eenvoudig voorbeeld van een sociaal netwerk is een vriendschapsnetwerk, waarbij mensen in een netwerk verbonden zijn als er een vriendschapsrelatie bestaat. Andere voorbeelden van sociale netwerken naast vriendschapsrelaties zijn bijvoorbeeld handelsverdragen, co-auteurschap in wetenschappelijke artikelen en de alliantie tussen bedrijven. Onderzoek naar sociale netwerken wordt al sinds omstreeks 1930 [8] gedaan en de ontwikkeling van de sociogram wordt vaak gezien als het startpunt. Een sociogram is een 6

7 visuele weergave van een sociaal netwerk in de vorm van een graaf. Uiteraard zijn niet alleen deze netwerken weer te geven als graaf en daarom zullen we later zien dat dit voor elk netwerk mogelijk is. Een klassiek voorbeeld van een onderzoek dat gedaan is naar sociale netwerken is het Small-World Problem [9]. In dit experiment moest een brief verzonden worden naar een specifiek persoon onder de regel dat de brief alleen doorgestuurd mocht worden naar kennissen. Als resultaat werd bevonden dat de keten van kennissen tussen twee mensen een mediaan heeft van zes. Dit onderzoek is in 2011 herhaald met de beschikbare data van het online sociale netwerk Facebook [10] en leverde een gemiddelde op van 3.74 vrienden tussen twee mensen op het netwerk. Netwerken hoeven uiteraard niet altijd een grote omvang te hebben, er bestaan ook kleinschaligere netwerken die bestudeerd zijn daarom bekijken we nu het volgende voorbeeld. Voorbeeld 2.1 Zachary s karate club netwerk [11]). Aangezien een netwerk bestaat uit een verzameling van punten en connecties kan een netwerk weergegeven worden als een graaf, connecties kunnen gezien worden als lijnen tussen punten. In dit voorbeeld worden de vriendschappen in kaart gebracht binnen een karate club en weergegeven als graaf. Figuur 2.1.: Het karatenetwerk weergegeven als graaf. De verschillende vormen van de punten staan voor de subgroepen die zich vormen rond 7

8 persoon a1 en persoon a34. De connecties binnen de graaf staan voor vriendschappen tussen twee personen. De kleuren blauw en rood geven respectievelijk de connecties aan binnen de bovenste en onderste subgroep en de kleur geel geeft de connectie aan tussen personen van verschillende subgroepen. In volgende hoofdstukken zullen methodes bekeken worden om grafen van netwerken te modelleren. Wellicht een bekender voorbeeld in de wetenschappelijke wereld is het volgende voorbeeld. Voorbeeld 2.2 Erdősgetal). Een bekender voorbeeld van een sociaal netwerk is het netwerk gebaseerd op het Erdősgetal. Dit Erdősgetal geeft de samenwerkingsafstand in wetenschappelijke artikelen tussen een auteur en Erdős en is gedefiniëerd als volgt Paul Erdős zelf heeft Erdősgetal 0, Het Erdősgetal van elke andere auteur X is 1 hoger dan het kleinste Erdősgetal van alle auteurs met wie X ooit een artikel heeft gepubliceerd, Indien geen van de auteurs met wie X ooit een artikel heeft gepubliceerd, een eindig Erdősgetal heeft, heeft het Erdősgetal van X een waarde van oneindig. Door middel van dit Erdősgetal en het netwerk dat zich hierdoor vormt wordt dus als ware het netwerk van co-auteurschap vastgelegd met als startpunt Paul Erdős zelf Informatienetwerken We leven in een tijd waarbij het verkrijgen van informatie een belangrijke rol speelt. Een van de belangrijkste en meest gebruikte bronnen van informatie is het internet, iets preciezer benoemd is dit het World Wide Web WWW). In het netwerk dat ontstaan is door het WWW zijn de punten gegeven door webpagina s en de connecties door referentie s tussen deze pagina s. In zijn geheel is het WWW een zéér groot informatienetwerk en wel een van de grootste informatienetwerken dat vandaag de dag bestaat. Toch is dit niet het enige informatienetwerk dat interessant is om te bekijken en zijn deze net als de sociale netwerken overal te vinden. Vooral na de komst van het internet zijn er veel andere nieuwe informatienetwerken in het leven geroepen. Zoals eerder gezegd zijn de informatienetwerken voortgekomen uit het internet niet de enige netwerken in deze categorie. Andere voorbeelden zijn netwerken die semantische relatie s tussen woorden aangeven synoniemen, antonumen, etc.), netwerken van citatie s tussen wetenschappelijke artikelen en ook behoren de netwerken van co-auteurschap van wetenschappelijke artikelen tot deze categorie. We zien dus dat deze categoriën niet strict zijn aangezien het laatste voorbeeld ook in de categorie sociale netwerken geplaatst kon worden. Onderzoeken die gedaan zijn naar informatienetwerken gaan vaak over de structuur van het netwerk, zoals welk punt verbonden is door het meeste aantal lijnen. Bijbehorende vragen zijn bijvoorbeeld: Welke webpagina heeft wordt het meest gerefereerd? 8

9 of Welke wiskundige artikel is het meest geciteert?. Andere onderzoeken gaan vaak over het in kaart brengen van informatienetwerken, wat in de meeste gevallen een niet gemakkelijke taak is gezien de omvang van sommige netwerken. Voorbeeld 2.3 Peer-to-peernetwerken). Een peer-to-peernetwerk is een informatienetwerk waarin computers direct met elkaar verbonden zijn zonder dat een centrale server hiervoor nodig is. Belangrijke voorbeelden van peer-to-peernetwerken zijn de uitwisselingsnetwerken waarbij gratis en anoniem bestanden gedeeld kunnen worden over het internet. Een van de grootste en meest gebruikte uitwisselingsnetwerken ontstaan door het internet is BitTorrent. In 2009 was BitTorrent verantwoordelijk voor ongeveer 43% tot 70% [12] van al het internetverkeer afhankelijk van geografische locatie. Een ander voorbeeld van een peer-to-peernetwerk is het netwerk ontstaan door het computervirus ZeuS. In dit netwerk werden computers voornamelijk onvrijwillig geïnfecteerd met het virus dat ervoor zorgde dat die computers op afstand overgenomen konden worden. In een onderzoek [13] dat gedaan is naar dit niet meer bestaande netwerk is een graaf gegenereerd die het netwerk weergeeft. Figuur 2.2.: De graaf van het ZeuSnetwerk. De blauwe punten staan voor geïnfecteerde computers en de groene lijnen geven een peer-to-peer connectie aan tussen twee punten. 9

10 Overige categoriën van netwerken zijn de biologische netwerken en de technologische netwerken. Met voorbeelden zoals het netwerk van de verspreiding van een virus in een populatie als biologisch netwerk en een elektriciteitsnetwerk als technologisch netwerk. In het laatste hoofdstuk zal een toepassing behandeld worden van een model waarbij het netwerk valt binnen de biologische netwerken Waarom bestuderen we netwerken? De interessante vraag is nu: Waarom willen we netwerken bekijken?. Voordat we netwerken gaan modelleren zullen we eerst deze vraag beantwoorden. Om een beter inzicht te krijgen in welke context netwerken zo interessant zijn zullen we wederom verschillende deelgebieden bekijken. De sociale wetenschappen zijn vaak geïnteresseerd in de interpretatie van de connecties binnen een sociaal netwerk. Wat achterhaald wilt worden is of deze ontstaan uit vriendschap, strategische overwegingen, gedwongen of wellicht een andere relatie? Een groot deel van de literatuur in sociale wetenschappen is daarom gewijd aan het modelleren van de sociale netwerken en het testen van hypotheses om netwerk structuur te achterhalen. In de zogenaamde machine learning community worden netwerken vaak gebruikt om nog niet acherhaalde informatie te voorspellen zoals ontbrekende connecties binnen een netwerk. Andere toepassingen zijn het vinden van een missende connectie in een bedrijf of terroristisch netwerk en bijvoorbeeld het berekenen van de kans dat een klant een product koopt gegeven de aankopen van zijn vrienden. Het laatste voorbeeld kan breder opgevat worden en is te zien als het voorspellen van de voorkeuren van een individu aan de hand van gegevens van vrienden van dit individu. Een recente toepassing van deze vorm van netwerk analyse is onder de aandacht gebracht door het bedrijf Netflix [14] dat online films en series aanbiedt. Het bedrijf heeft namelijk een prijs van één miljoen dollar uitgekeerd aan een groep onderzoekers die konden voorspellen hoe films beoordeeld gingen worden meer dan 10% nauwkeuriger hun eigen systemen zelf konden. Niet alleen in deze vakgebied worden netwerken gebruikt om dingen te voorspellen. In de computationele biologie worden netwerken bijvoorbeeld gebruikt om HIV infecties binnen een populatie te voorspellen en de verspreiding van virussen te modelleren. Waar netwerken ook een belangrijke rol hebben is in het vinden van verborgen groepen. Dit soort worden netwerken worden bestudeerd om bijvoorbeeld terroristische cellen te vinden in een samenleving. Netwerken worden dus in veel vakgebieden bekeken en hebben een belangrijke rol in het voorspellen en beantwoorden van vragen die opkomen als groepen mensen of dingen bekeken worden. Toch is niet alleen de link van netwerken met de werkelijkheid interessant. Netwerken zijn ook wiskundig interessant, namelijk Wat gebeurd er met een netwerk als het aantal punten naar oneindig gaat? is een wiskundig interessante vraag. En Wat is de beste 10

11 manier om een netwerk te modelleren? is nog zo n vraag. Er zijn dus genoeg toepassingen, maar in elk van deze vakgebieden is het analyseren van netwerken niet mogelijk zonder de wiskundige modellen. In de volgende hoofdstukken moet dus eerst allereerst het wiskundig fundament gelegd voordat er naar toepassingen gekeken kan worden. 11

12 3. Grafentheorie en de exponentiële familie van verdelingen Voordat er een begin gemaakt kan worden met behandelen van netwerkmodellen moet er eerst een stuk theorie opgebouwd worden. In dit hoofdstuk zal daarom de benodigde voorkennis gegeven worden. Er zal terminologie en notatie ingevoerd worden om de graaf van een netwerk precies te definiëren en ook zullen eigenschappen behandeld worden van de exponentiële familie van verdelingen die nodig zijn voor het model dat behandeld zal worden in sectie Grafentheorie Een netwerk kan zoals eerder genoemd weergegeven worden als een graaf, daarom zal notatie en terminologie worden ingevoerd om dit precies te maken. In de grafentheorie bestaat een graaf netwerk) G uit punten en lijnen G G N, E), waarbij N de verzameling van punten voorstelt en E de verzameling van lijnen. Het aantal punten is dan gegeven door N = N en h tal lijnen is E = E. In het algemeen wordt G vaak gedefinieerd in termen van de connecties tussen paren punten. De verzameling van connecties Y wordt vaak uitgedrukt in een matrix Y van grootte N N. Deze matrix wordt ook wel de verbindingsmatrix genoemd en is gedefinieerd als volgt. Definitie 3.1 De verbindingsmatrix). Stel we bekijken de graaf G G N, E) van deze graaf labelen we de punten uit N met de nummers 1, 2,..., N. Dan is het element entry) op de i-de rij en j-de kolom van de verbindingsmatrix gegeven door { 1 als de punten i en j verbonden zijn Y ij = 0 anders. In het vervolg van deze scriptie beschouwen we alleen niet-gerichte grafen, waarbij het niet-gerichte aanduidt dat de lijnen geen oriëntatie hebben dat wil zeggen dat de lijn vanuit het punt i naar j precies hetzelfde voorstelt als de lijn vanuit j naar i. Als dan in een graaf i een connectie heeft met j geeft dit aan dat j ook een connectie heeft met i. Het aantal lijnen van een niet-gerichte graaf kan dus worden berekend aan de hand van de volgende uitdrukking i<j Y ij en volgt uit de symmetrie van de verbindingsmatrix. Immers in een niet-gerichte graaf heeft de entry Y ij dezelfde waarde als de entry Y ji. 12

13 Voorbeeld 3.2 Gelabelde graaf met verbindingsmatrix). Een eenvoudig voorbeeld om de voorgaande definitie te illustreren is met de volgende graaf. Figuur 3.1.: Een voorbeeld graaf met bijbehorende verbindingsmatrix. Naast de graaf is de bijbehorende verbindingsmatrix gegeven. Alle diagonaalelementen van de verbindingsmatrix zijn nul, omdat er in een netwerk geen connectie tot zichzelf bestaat De exponentiële familie van verdelingen Definitie 3.3. Laat X een random variabele zijn met verdeling uit de parametrische familie van verdelingen {P θ θ Θ} waarbij Θ R. Waarbij de parameterverzameling komt uit R = R {± } en is het dus ook mogelijk dat de parameter de waarde ± aanneemt. De familie van verdelingen {P θ θ Θ} behoort dan tot de één-parameter exponentiële familie als de dichtheden px θ) = p θ x) voldoen aan p θ x) = e ηθ)t x) ψηθ)) hx), waarbij T x), ηθ), ψ η θ)) en hx) 0 allen reëelwaardige functies zijn. Voorbeeld 3.4 De Bernoulli verdeling). Stel X is Bernoulliα) alternatief) verdeeld met α 0, 1). Om nu te laten zien dat de Bernoulliα) verdeling behoort tot de familie van exponentiële verdelingen zullen we de dichtheid omschrijven. Er geldt nu dat p α x) = α x 1 α) 1 x = exp { log α x 1 α) 1 x)} = exp {x log α) + 1 x) log 1 α)} { ) } α = exp x log + log 1 α) 1 α { = exp xηα) log 1 + e ηα))}. ) Volgens de voorgaande definitie geldt nu met T x) = x, ηα) = log α 1 α, ψηα)) = log 1 + e ηα)) en hx) = 1 dat er aan alle voorwaarden voldaan is. Dus behoort deze verdeling tot de één-parameter exponentiële familie met parameter θ = α. 13

14 Definitie 3.5 De s-parameter exponentiële familie). Stel wederom dat X een random variabele is met verdeling uit {P θ θ Θ} waarbij Θ R s. Zij θ nu een vector van parameters θ = θ 1, θ 2,..., θ s ) t. Dan behoort de familie van verdelingen {P θ θ Θ} tot de s-parameter exponentiële familie als de dichtheden voldoen aan { s } p θ x) = exp η i θ)t i x) ψηθ)) hx) i=1 = exp { ηθ) t T x) ψηθ)) } hx) waarbij T x) = T 1 x),..., T s x)) t en ηθ) = η 1 θ),..., η s θ)) t. En waarbij T i x), η i θ), ψηθ)) en hx) 0 met i {1, 2,..., s} allen reëelwaardige functies zijn. Definitie 3.6 De kanonieke exponentiële familie). Als de random variabele X een verdeling heeft uit de exponentiële familie van verdelingen en er geldt verder dat ηθ) = θ. Dan komt deze verdeling uit de zogenaamde kanonieke exponentiële familie van verdelingen. Voorbeeld 3.7 De normale verdeling). Stel X is normaal verdeeld dat wil zeggen X Nµ, σ 2 ). Dan onder de veronderstelling dat θ t = µ, σ 2 ) onbekend is, is de dichtheid gegeven door { } 1 p µ,σ 2 = exp x µ)2 2πσ 2 2σ 2 = 1 2π exp = 1 2π exp { logσ) x2 2σ 2 + µx } σ 2 µ2 2σ 2 } {ηθ)t x) logσ) µ2 2σ 2, waarbij T x) = T 1 x), T 2 x)) t = x, x 2) t, ηθ) = η1 θ), η 2 θ)) t = µ, 1 ) t, σ 2 2σ ψηθ)) = 2 µ 2 + logσ) = η2 2σ 2 1 4η log 1 2η 2 en hx) = 1 2π. En dus behoort de normale verdeling tot de 2-parameter exponentiële familie van verdelingen. In het volgende hoofdstuk zullen we zien dat een belangrijk netwerkmodel behoort tot deze familie van verdelingen De meest aannemelijke schatter Een veel gebruikte methode in de statistiek om de parameter θ te achterhalen van een statistisch geparametriseerd model is de meest aannemelijke schatter ˆθ vinden. Gegeven geobserveerde data en een model kan de meest aannemelijke schatter een schatting geven van de ware parameters van het model. De manier waarop dit gebeurd heet maximum likelihood hierbij wordt de zogenaamde log-likelihood functie gemaximaliseerd om zo de kans op de geobserveerde data te maximaliseren. Allereerst zullen we beginnen met wat definities. 14

15 Definitie 3.8 De likelihood functie). Zij X een random variabele met verdeling uit {P θ θ Θ}. Als X discreet verdeeld is, dan is de likelihood van θ gegeven een observatie x gedefinieerd als Lθ) = Lθ x) = p θ x) = P θ X = x). Als X continu verdeeld is dan is de likelihood van θ gegeven een observatie gedefinieerd als Lθ) = Lθ x) = p θ x), waarbij p θ x) de dichtheidsfunctie voorstelt. De log-likelihood functie l is dan gegeven door het natuurlijk logaritme van de likelihood functie. Definitie 3.9 De meest aannemelijke schatter). We definiëren de meest aannemelijke schatter nu als de waarde ˆθ van θ dat een globaal maximum is van de log-likelihood functie en dus ook van de likelihood. Voor een model uit de kanonieke s-parameter exponentiële familie van verdelingen geparametriseerd door θ Θ R s geldt dat de dichtheid geven is door: p θ x) = exp { θ t T x) ψθ) } hx). Om nu de meest aannemelijke schatter ˆθ van θ te vinden gebaseerd op een observatie x schrijven we lθ) = log Lθ) = θ t T x) ψθ) + log hx)) s = θ j T j x) ψθ) + log hx)). j=1 Om nu het maximum te bepalen moeten er van deze uitdrukking de partiële afgeleiden gelijk aan 0 gesteld worden met andere woorden er moet gelden θ r lθ) = 0 T r x) = E θ [T r X)], 3.1) voor alle r {1,..., s}. Waarbij de waarde r de r-de entry van de respectievelijke vectoren aangeeft. De bovenstaande uitdrukking is een direct gevolg als we opmerken dat θ r ψθ) = E θ [T r X)] 1. Als we dan nu de tweede afgeleide nemen krijgen we dat 2 θ r θ q lθ) = i r,q θ) = Cov θ [T r X), T q X)], waarbij r, q {1,..., s} en i r,q de r, q-de entry is van de Hessian van de log-likelihood functie die onder regulariteitsvoorwaarden correspondeert met de covariantiematrix van T die altijd symmetrisch is aangezien de covariantie in zijn argumenten symmetrisch is. 1 Voor afleiding zie appendix stelling A.1. 15

16 We zullen nu laten zien dat deze symmetrische matrix negatief definiet 1 is. Namelijk eerst nemen we een willekeurige v R s en stellen we dat Hθ) de Hessian voorstelt van de log-likelihood functie dan geldt v t Hθ)v = v t Var [T 1 X), T 2 X),..., T s X)] v = v t E [ T X) E T X))) T X) E T X))) t] v = E [ v t T X) E T X))) T X) E T X))) t v ] [ T = E X) E T X))) t v ) t T X) E T X))) t v )] = E W t W ) 0, waarbij W = T X) E T X))) v). Er geldt nu dus dat de uitdrukkingen een negatief definiete matrix vormen en dus is elk stabiel punt een maximum en is er ten hoogste één maximum. Voor de meest aannemelijke schatter ˆθ voorgekomen uit 3.1) geldt dus dat Eˆθ [T r X)] = T r x). 3.2) Een soortgelijke afleiding is mogelijk waarbij we stellen dat θ = ηθ), maar zal hier niet worden afgeleid. 1 Een matrix H is negatief definiet als voor alle vectoren v, er geldt v t Hv < 0. Voor symmetrische matrices is dit equivalent aan dat alle eigenwaarden negatief zijn. 16

17 4. Netwerk modellen In dit hoofdstuk zullen er een aantal netwerkmodellen behandeld worden. Het eerste model dat we zullen bekijken is het Erdős-Rényi-Gilbert model en is een klassiek voorbeeld van een random graaf model. Andere modellen die behandeld zullen worden zijn de blokmodellen waarbij het onderscheiden van groepen gemakkelijker gaat en het meer algemene exponentiële random graaf model. Vooral het exponentiële random graaf model zal in het volgend hoofdstuk in detail uitgewerkt worden Het Erdős-Rényi-Gilbert random graaf model Dit netwerk model bedacht door Erdős en Rényi wordt ook wel het GN, p) model genoemd. In dit model voor een netwerk met N punten wordt er een lijn getrokken tussen paren punten met kans p onafhankelijk van wat er eerder gebeurd is. Een andere formulering van dit model is geformuleerd door Gilbert en is het GN, E) model, waarbij het aantal lijnen E in het model vaststaat en deze willekeurig gekozen worden uit de ) N 2 mogelijke lijnen. Het GN, p) model heeft een binomiale likelihood-functie voor het aantal lijnen en is gegeven door LGN, p) heeft E lijnen p) = p E 1 p) N 2 ) E. Een equivalente formulering in termen van de N N verbindingsmatrix Y is LY p) = i j p Y ij 1 p) 1 Y ij. Een probleem met dit model is dat elke lijn dezelfde kans gegeven wordt, in het bijzonder wordt elke graaf met hetzelfde aantal lijnen dezelfde kans gegeven. In de realiteit hoeft dit echter niet het geval te zijn en daarom bekijken we nu wat specifiekere modellen Het stochastische blokmodel Een probleem dat zich voordoet bij het Erdős-Rényi-Gilbert random graaf model is dat er geen onderscheid gemaakt kan worden tussen verschillende groepen in een netwerk. In een blokmodel kan er wel onderscheid gemaakt worden tussen verschillende groepen 17

18 punten. In dit model wordt de verzameling van punten N onderverdeeld in verschillende partities of groepen. Op deze manier kan er een specifieke kans gegeven worden voor het bestaan van connecties tussen punten van verschillende partities of binnen een partitie zelf. Allereerst zullen we nu het model gaan definiëren. Definitie 4.1 Het stochastische blokmodel). Een stochastisch blokmodel is voor N genummerde punten gedefinieerd aan de hand van de volgende drie keuzes: k: Een scalere waarde die aangeeft hoeveel partities of groepen er in het netwerk zijn, z: Een N 1 vector waar zl) de groepindex geeft van het genummerde punt l {1, 2,..., N}, M: Een k k stochastische blokmatrix, met entries M ij die de kans geven dat een punt uit groep i verbonden is met een punt uit groep j. Allereerst moet er in dit model een keuze voor k gemaakt worden die het aantal verschillende groepen aangeeft in het netwerk. Daarna moeten de punten onderverdeeld worden tussen deze groepen en zo ontstaat de vector z. Het enige wat dan nog resteert is de keuze van de kansen tussen verschillende groepen dat resulteert in de stochastische blokmatrix M. De likelihood-functie van dit model is dan gegeven door LG M, z) = u,v P Er is een lijn tussen u en v M, z), waarbij de vector z de punten u en v verdeeld in de respectievelijke groepen en de matrix M de kans tussen deze punten geeft. In deze scriptie zal deze likelihood niet verder uitgewerkt worden omdat dit model niet in detail behandeld zal worden. Om wel een overzicht te geven in welke gevallen het gebruik van een blokmodel voor de hand ligt zullen hier een paar voorbeeldnetwerken gegeven worden Gegroepeerde netwerken Een voorbeeld van een gegroepeerd netwerk dat voor de hand ligt is een assortatief netwerk. In een assortatief netwerk hebben punten die uit dezelfde groep komen een grotere kans om met elkaar verbonden te zijn. In een groep zullen er dus relatief meer connecties voorkomen dan tussen groepen onderling. Voor de matrix M betekent dit dat de diagonaalblokken een grotere waarde hebben dan de overige blokken. Om dit te illustreren volgt nu een voorbeeld. 18

19 Voorbeeld 4.2 Een assortatief netwerk). Hieronder is aan de linkerkant een stochastische blokmatrix gegeven en aan de rechterkant een gegenereerd 1 voorbeeld netwerk aan de hand van deze blokmatrix. De verschillende kleuren van de punten staan voor de groepen waartoe zij behoren. Figuur 4.1.: Een assortatief netwerk met blokmatrix en gegenereerd voorbeeld. Het tegenovergestelde van een assortatief netwerk is een disassortatief netwerk. In een disassortatief netwerk hebben punten binnen dezelfde groep juist een lagere kans om met elkaar verbonden te zijn dan met punten uit andere groepen. Voorbeeld 4.3 Een disassortatief netwerk). Hieronder is wederom een stochastische blokmatrix gegeven met een voorbeeld netwerk. Figuur 4.2.: Een disassortatief netwerk met blokmatrix en gegenereerd voorbeeld. Andere voorbeelden van gegroepeerde netwerken zijn bijvoorbeeld de gecentreerde netwerken waarbij de groep met de laagste groepsindex de meeste kans op connecties heeft en naarmate de groepsindex toeneemt dat de kans op connecties toeneemt en de geordende netwerken waarbij de blokken onder en boven de diagonaal van de blokmatrix 1 Plaatjes van netwerken kunnen gegenereerd worden met behulp van de package Statnet in de programmeertaal R. 19

20 dezelfde kans krijgen. En zo zijn er nog veel andere soorten netwerken waar blokmodellen op toegepast zouden kunnen worden Het exponentiële random graaf model Het exponentiële random graaf model ERG model) is een veel toegepast model in het onderzoek naar netwerken en wordt ook wel het p -model genoemd. De naam van dit model is afkomstig van zijn specificatie namelijk het model behoort tot de in hoofdstuk 2 gedefinieerde familie van exponentiële verdelingen. Om dit te laten zien zullen we nu eerst het model gaan definiëren. Definitie 4.4 Het exponentiële random graaf model ERG model)). In dit model is de klasse van modellen gedefinieerd als random graaf modellen voor een vast N aantal punten door de volgende verdeling: P θ Y = y) = exp { θ t sy) }. κθ, Y) voor y Y waarbij: Y is een random graaf die een bijbehorende verbindingsmatrix heeft, Y is de verzameling van alle mogelijke netwerkconfiguraties en kan geïdentificeerd worden met {0, 1} N, θ = θ 1,..., θ s ) t is een s-vector van parameters, sy) is een gegeven s-vector met de netwerk informatie van y, κθ, Y) is de normalisatiefactor die ervoor zorgt dat het een kansmaat definieert en is gegeven door de volgende uitdrukking κθ, Y) = z Y exp { θ t sz) }. Dat deze klasse van modellen behoort tot de familie van exponentiële verdelingen is gemakkelijk in te zien immers aangezien de verdeling discreet is geldt p θ y) = P θ Y = y) = exp { θ t sy) } κθ, Y) = exp { θ t sy) log κ θ, Y)) } = exp { θ t T y) ψ θ, Y) } { s } = exp θ i T i y) ψ θ, Y) Dus geldt met T y) = sy), ηθ) t = θ t, ψθ, Y) = log κθ, Y) en hy) = 1 dat deze klasse van modellen behoort tot de s-parameter exponentiële familie van verdelingen. i=1 20

21 Voorbeeld 4.5. In dit voorbeeld zullen we afleiden dat het GN, p) model behoort tot de ERG modellen. In dit model is de enige revalante netwerkinformatie het aantal lijnen. Voor een y Y kiezen we dus als netwerkinformatie sy) = i<j Y ij waarbij Y de verbindingsmatrix is van de graaf y en dus het aantal lijnen geeft. In dit model is er dus alleen één parameter θ aangezien de netwerkinformatie één-dimensionaal is. We zullen nu de normalisatiefactor gaan afleiden. Er geldt nu dat κθ, Y) = exp {θsz)} = exp θ Y ij z Y i<j 1 {Y ij } Y = exp {θy ij } = i<j Y ij =0 i<j 1 + e θ ) = 1 + e θ ) N 2 ) en dus is de normalisatiefactor gegeven door κθ, Y) = 1 + e θ ) N 2 ). Schrijven we dan nu het ERG model uit met de bijbehorende normalisatiefactor dan volgt: P θ Y = y) = exp { θ t sy) } = exp { θ t sy) } κθ, Y) = 1 e θ + 1 ) sy) 1 = p sy) 1 p) N 2 ) sy) = p Ey 1 p) N 2 ) E y 1 + e θ ) N 2 ) 1 e θ + 1 ) N 2 ) sy) met p = 1 e θ +1 en E y het aantal lijnen van de graaf y is. En dus zien we dat het GN, p) model een ERG model is. In de praktijk is het niet zo gemakkelijk om een algemeen ERG model uit te rekenen. Daarom bespreken we in het volgende hoofdstuk een manier om deze toch te benaderen. 21

22 5. Maximum likelihood op het exponentiële random graaf model In het algemeen is het niet makkelijk om een exacte oplossing te vinden voor de meest aannemelijke schatter van een ERG model. Het probleem dat zich voordoet zit in de normalisatiefactor. Deze is in sommige gevallen nog makkelijk uit te rekenen, maar bij een toename van het aantal punten N wordt deze al snel lastig om uit te rekenen. Als bijvoorbeeld gekeken wordt naar een netwerkgraaf met N punten dan moet er gesommeerd worden over 2 N 2 ) termen. In het geval van N = 10 zijn dit al zo n termen en bij N = 20 zijn het er ongeveer en dit neemt snel toe. Daarom is er een alternatief gevonden onder de naam Monte Carlo Markov Chain MCMC). In dit hoofdstuk zullen we behandelen hoe deze manier gebruikt wordt om de meest aannemelijk schatter te bepalen van een ERG model De Monte Carlo Markovketen Een Markovketen 1 Markov Chain) is een proces dat alleen afhankelijk is van wat er op het tijdstip daarvoor gebeurd is. Iets preciezer als {X t } t N een Markovketen is dan is de Markovketen op tijdstip t + 1 gedefinieerd als X t+1 alleen afhankelijk van X t op tijdstip t. Één van de belangrijke eigenschappen van een Markovketen is dat deze onder de juiste voorwaarden convergeert naar een evenwichtsverdeling π dit zal in detail worden besproken in sectie 5.3. Een Monte Carlo Markovketen MCMC) algoritme is een algoritme waarbij de uitkomst X t+1 op tijdstip t+1 alleen afhangt van wat er op tijdstip t is gebeurd. In een MCMC algoritme genereerd het Monte Carlo proces een willekeurige waarde dat daarna vergeleken word met de huidige situatie en zo een volgende stap zet. 1 Een precieze definitie is gegeven in de appendix. 22

23 5.2. De benadering van de meest aannemelijke schatter Om een algemene benadering te geven van een ERG model willen we nu de meest aannemelijke schatter bepalen. Om deze te bepalen moeten we eerst de log-likelihood functie l bepalen. Deze is voor een algemeen s-parameter ERG model gegeven door lθ) = log Lθ) = θ t sy) κθ, Y). Als we direct de meest aannemelijke schatter willen bepalen moeten nu de partiële afgeleiden genomen worden. In sectie hebben we gezien dat dit leidt tot de volgende vergelijking Eˆθ [s r Y )] = s r y), 5.1) waarbij θ r κθ, Y) = E θ [s r Y )]. Het probleem hierbij is echter dat de normalisatiefactor zoals eerder genoemd in de meeste gevallen moeilijk te berekenen is en toch voorkomt in vergelijking 5.1). We zullen nu een alternatieve methode bekijken dat gebruik maakt van een MCMC algoritme om dit op te lossen Het benaderen van de log-likelihood functie We veronderstellen nu wederom dat we een ERG model P θ Y = y) hebben met bijbehorende eigenschappen. Laat dan nu θ 0 een willekeurig gekozen vaste vector van parameters zijn. Voor iedere y Y geldt dan nu dat E θ0 [ exp { θ θ0 ) t sy) }] = y Y exp { θ θ 0 ) t sy) } P θ0 Y = y) = y Y 1 = exp { θ t sy) } = κθ 0, Y) exp { θ θ 0 ) t sy) } exp { θ t 0 sy)} κθ 0, Y) y Y κθ, Y) κθ 0, Y), volgens de eigenschappen van een ERG model en de definitie van een discrete verwachting. κθ,y) Uit het bovenstaande zien we nu in dat κθ 0,Y) een verwachting is ten opzichte van de vaste parameters θ 0. Als deze verwachting te bepalen is dan weten we ook wat de normalisatiefactor is. In een ideale situatie is nu de algemene wet van de grote aantallen toe te passen om deze verwachting te benaderen, echter is het probleem dat hier een onafhankelijke steekproef voor nodig is die niet zomaar te verkrijgen is. Toch is hier een oplossing voor namelijk met een aangepaste versie van de wet van de grote 23

24 aantallen 1 kunnen we deze verwachting benaderen met een gemiddelde van een steekproef die voldoet de Markov eigenschap en dus is onafhankelijkheid niet nodig. In de volgende sectie zal behandeld worden hoe met een MCMC algoritme deze steekproef bepaald kan worden. Als er nu even vanuit wordt gegaan dat we een random steekproef y 1, y 2,..., y n gegeven hebben die voldoet aan de Markov eigenschap. Dan kunnen we met behulp van deze wet van de grote aantallen en dat de e-macht een reële niet-negatieve functie zeggen dat κθ, Y) κθ 0, Y) = E θ 0 [ exp { θ θ0 ) t sy) }], 5.2) benaderd kan worden met een gemiddelde namelijk 1 n n exp { θ θ 0 ) t sy i ) }. i=1 in subsectie wordt behandeld hoe er random steekproef gegenereerd kan worden uit de kansmaat P θ0. In het bijzonder geldt er dus dat 1 n P lim exp { θ θ 0 ) t sy i ) } [ { = E θ0 exp θ θ0 ) t sy) }]) = 1, n n i=1 we kunnen dus zeggen dat dit steekproef gemiddelde bijna zeker 1 naar deze verwachting gaat. Dus nu gegeven de steekproef y 1, y 2,..., y n van grafen en als we ervanuit gaan dat we een observatie y obs hebben kunnen we de log-likelihood functie lθ) volgens de definities in hoofdstuk 3 bepalen. Deze is dan gegeven door { lθ) = loglθ)) = log P θ Y = y obs)) exp θ t sy obs ) } ) = log. 5.3) κθ, Y) Om de bovenstaande resultaten te gebruiken zullen we nu de loglikelihood omschrijven met behulp van lθ 0 ). Met wat omschrijfwerk krijgen we dan dat { exp θ t s y obs)} { exp θ t lθ) lθ 0 ) = log log 0 s y obs)} )) κθ, Y) κθ, Y) { = log exp θ 0 θ) t s y obs)} ) κθ, Y). κθ 0, Y) 1 Zie appendix stelling A.4 voor de algemene wet van de grote aantallen en stelling A.8 voor de aangepaste wet. 1 Zie appendix definitie A.2 24

25 Uit het voorgaande zien we dus dat de term κθ,y) κθ 0,Y) terugkomt. Omdat we nu ook weten deze term benaderd kan worden met een gemiddelde geldt { lθ) lθ 0 ) log exp θ 0 θ) t s y obs)} 1 n exp { θ θ 0 ) t sy i ) }) n 1 n = log n i=1 1 n = log n i=1 i=1 { exp θ θ 0 ) t s y obs)} exp { θ θ 0 ) t sy i ) }) { exp θ θ 0 ) t sy i ) s y obs))}). Als nu de laatste uitdrukking gemaximaliseerd word als functie van θ dan maximaliseren we ongeveer) lθ) lθ 0 ). Maar aangezien we verondersteld hebben dat θ 0 vast gekozen is en dus niet variabel is geldt nu dat we lθ) maximaliseren. Door de bovenstaande uitdrukking te maximaliseren kunnen we dus de meeste aannemelijke schatter ˆθ vinden. Vaak wordt dit maximalisatie probleem numeriek opgelost, een manier om dit iteratief te doen is bijvoorbeeld met de Newton-Raphson methode Het genereren van een steekproef De vraag is die nu over is gebleven is hoe we een steekproef van grafen y 1, y 2,..., y n met de Markov eigenschap kunnen genereren uit de kansmaat P θ0. Om deze steekproef te verkrijgen zullen we een MCMC algoritme gaan gebruiken waarmee ook meteen aan de Markov eigenschap voldaan is. Namelijk veronderstel dat we beginnen met een geobserveerde graaf y obs als we op deze graaf een MCMC algoritme toepassen dan zal deze convergeren naar een gegeven verdeling. Als dan elke graaf die gegenereerd is opgeslagen word verkrijgen we zo een steekproef van grafen. We zullen nu twee verschillende MCMC algoritmes bekijken die dit voor elkaar kunnen krijgen. Definitie 5.1 De Gibbs Sampler). Stel we hebben een vaste willekeurig gekozen s- vector van parameters θ 0 en een geobserveerd netwerk y obs N, E) met verbindingsmatrix Y waar we mee beginnen. Het algoritme is dan gedefinieerd als volgt Allereerst selecteren we willekeurig twee punten u, v N met u v. Als er een lijn loopt tussen de twee punten dan definiëren we y + ij als yobs en de graaf waar alleen deze lijn weggelaten wordt noemen we y ij. Als er geen lijn loopt dan definiëren we y + ij als yobs waarbij de lijn tussen u en v toegevoegd wordt en y ij als yobs zelf. We genereren dan de nieuwe graaf y nieuw gegeven y obs op de volgende manier: Ongeacht of y obs al een lijn tussen u en v heeft zal er in de nieuwe graaf een lijn 25

26 tussen u en v lopen met kans: { exp 1 + exp θ t 0 s s { θ t 0 y + ij ) y + ij s ) s y ij ))} y ij ))}. Als we deze stappen steeds herhalen op de nieuwe graaf y nieuw en ook de verkregen graaf opgeslaan dan verkrijgen we hieruit een steekproef van grafen. Met andere woorden als de bovenstaande waarde kans) groter is dan een willekeurige gegenereerde waarde tussen 0 en 1 het Monte Carlo sample) dan wordt er in die stap een lijn getekend of toegestaan tussen u en v. Als de waarde kans) kleiner of gelijk is aan de waarde gegenereerd door het Monte Carlo proces dan zal er geen lijn tussen u en v lopen in de nieuwe graaf y nieuw. Definitie 5.2 Metropolis-Hastings). Een andere algoritme dat in essentie hetzelfde doet als de Gibbs Sampler is het Metropolis-Hastings algoritme. Het enige verschil is dat er bij Metropolis-Hastings gekeken wordt of er een lijn toegevoegd moet worden of als hij er al is verwijderd moet worden. De eerste stappen gaan analoog met het eerste algoritme tot het nieuwe netwerk gegenereerd moet worden namelijk na y ij + en y ij gedefinieerd te hebben wordt y nieuw op de volgende manier gegenereerd Als er in de gegeven graaf geen lijn bestaat tussen u en v dan wordt er met kans: { ) ))}) min1, π 1 ) = min 1, exp θ0 t s s, een lijn tussen u en v toegevoegd. Als er in de gegeven graaf wel een lijn bestaat tussen u en v dan wordt met kans: { ) ))}) min1, π 2 ) = min 1, exp θ0 t s s, de lijn verwijderd uit de graaf. De verkregen nieuwe graaf y nieuw wordt dan wederom opgeslagen om zo een steekproef te genereren. Op de dan verkregen nieuwe graaf y nieuw wordt dit algoritme herhaald analoog aan het Gibbs Sampler algoritme. Aan de hand van deze algoritmes kan er dus een steekproef verkregen worden. De steekproef voldoet aan de eisen, want aan de Markov eigenschap is per definitie voldaan en aan de andere eis van irreducibiliteit is ook voldaan aangezien het model gedefinieerd is voor een eindig aantal punten. In sectie 5.3 zal ook de detailed balance vergelijking voor deze algoritmes nagegaan worden zodat de aangepaste wet van de grote aantallen toe te passen is. y + ij y + ij y ij y ij 26

27 De normalisatiefactor Uit de voorgaande secties hebben we nu een methode verkregen om de vector van parameters te schatten. Het enige wat nog resteert is de normalisatiefactor onder θ 0 te bepalen. Door vergelijking 5.1) weten we dat κθ, Y) κθ 0, Y) 1 n met y 1, y 2,..., y n de eerder genoemde random steekproef. n exp { θ θ 0 ) t sy i ) }, 5.4) i=1 Als we nu stellen θ 0 = 0 kunnen we de definitie van een ERG model gebruiken om te verkrijgen dat κθ, Y) = κ0, Y) = e 0 = 1, y Y y Y en is in dit geval de normalisatiefactor dus precies het aantal grafen in Y en is dus alle grafen met N punten en geldt er κ0, Y) = 2 N 2 ). Dus kunnen we vergelijking 5.4) omschrijven tot κθ 0, Y) ) N 1 2 n ) N exp 2 n exp { θ0sy t i ) }) 1 i=1 { θ t 0s y obs)} 1 n n i=1 { 1 exp θ0 t sy i ) s y obs))}). Hiermee hebben we een uitdrukking gevonden voor de normalisatiefactor onder θ Convergentie naar evenwicht Een probleem dat zich kan voordoen bij het gebruik van MCMC algoritmes is dat er geen convergentie optreedt en dus zo de wet van de grote aantallen niet toe te passen is. Aangezien er willekeurig twee punten geselecteerd worden in beide algoritmes kunnen we er van uitgaan dat elke mogelijke netwerkconfiguratie bereikt kan worden in een eindig aantal stappen. Met deze eigenschap en de zogenaamde detailed balance vergelijking van de Markovketen in het algoritme kan convergentie aangetoond worden. We definiëren eerst de overgangskans P t y α, y β ) die de kans aangeeft dat de graaf y α veranderd in de graaf y β op tijdstip t in het algoritme. Als er dan nu een verdeling π bestaat zodanig dat voor alle y α, y β Y de volgende vergelijking stand houdt: π y α ) P t y α, y β ) = π y β ) P t y β, y α ), 5.5) dan geldt er dat P en π in zogenaamde detailed balance zijn en dat π de stationaire verdeling is van de Markovketen met overgangskansen P t y α, y β ). 27

28 We zullen nu aantonen dat deze detailed balance vergelijking geldt voor het Gibbs Sampler algoritme. We definiëren allereerst de overgangskansen van de onderliggende Markovketen voor een zekere θ Θ als: P t y α, y β ) = exp { θ t s y β ) s y α )) } 1 + exp {θ t s y β ) s y α ))}. Als detailed balance verdeling π definiëren we πy) = exp{θt sy)} κθ,y). We kunnen dan nu vergelijking 5.5) omschrijven naar de volgende vorm P t y α, y β ) P t y β, y α ) = πy β) πy α ). 5.6) Als we dan nu eerst de linkerkant van de bovenstaande vergelijking uitschrijven dan krijgen we dat log ) Pt y α, y β ) P t y β, y α ) = log exp{θ t sy β) sy α))} 1+exp{θ t sy β) sy α))} exp{θ t sy α) sy β))} 1+exp{θ t sy α) sy β))} = log exp{θt sy β ) sy α ) sy α ) + sy β )) 1 + exp{θ t sy α sy β )) ) 1 + exp{θ t sy β ) sy α ))} = log exp{θ t sy β ) sy α ))} = θ t sy β ) sy α )). Schrijven we dan nu de rechterkant van de vergelijking uit en zien we in dat er hetzelfde uitkomt namelijk: ) exp{θ t sy β ) πyβ ) log = log κθ,y) πy α ) exp{θ t sy α) κθ,y) = log exp{θ t sy β ) sy α ))} ) = θ t sy β ) sy α )). En zo zien we dat er aan de detailed balance vergelijking is voldaan en dat er in het algoritme convergentie optreedt dus is er aan alle voorwaarden voldaan. Zo hebben we een manier gevonden om de meest aannemelijke schatter te benaderen voor ERG modellen. 28

29 6. Een toepassing van het exponentiële random graaf model In dit hoofdstuk zal een toepassing van het exponentiële random graaf model behandeld worden. Namelijk we zullen een model gaan bekijken dat gebruikt is bij het modelleren van complexe hersen netwerken Het complexe hersennetwerk model In de neurowetenschappen speelt het onderzoeken naar de verbondenheid van verschillende hersendelen een belangrijke rol. Een van de manieren om dit te bestuderen is door netwerkmodellen toe te passen op een aantal geselecteerde punten binnen de hersenen. We zullen een model gaan definiëren dat bij een onderzoek [15] opgesteld is om een netwerkmodel te maken van de hersenen. In dit onderzoek zijn er 90 vaste punten genomen in de hersenen van proefpersonen en tijdens experimenten werd de verbondenheid tussen deze punten bestudeerd. Na deze experimenten en observaties zijn de verschillende hersennetwerken vertaald in verbindingsmatrices zoals gedefinieerd in hoofdstuk 2. In dit hoofdstuk zullen we een model gaan opstellen dat als algemeen hersennetwerk model kan dienen. Voorbeeld 6.1 Grafische weergave van een hersennetwerk). Hieronder is een grafische weergave van het hersennetwerk van een van de proefpersonen gegeven. Figuur 6.1.: Een grafische weergave van een hersennetwerk. De groene lijnen geven verbindingen aan tussen verschillende gebieden in de hersenen van de proefpersoon. 29

30 Definitie 6.2 De verklarende variabelen binnen hersennetwerken). Om het model verder toe te kunnen lichten zullen er eerst verklarende variabelen gedefinieerd worden. Stel we hebben een gegeven decay parameter τ dan definiëren we nu de volgende variabelen: De geometrically weighted degree variabele GWD) als; de gewogen som van het aantal punten dat verbonden is met precies i andere punten partners) met als gewicht de geometrische reeks 1 exp{ τ}) i. De geometrically weighted edge-wise shared partner variabele GWESP) als; de gewogen som van het aantal punten met precies i gedeelde partners met als gewicht de geometrische reeks 1 exp{ τ}) i. De geometrically weighted non-edge-wise shared partner variabele GWNSP) als; de gewogen som van het aantal niet verbonden punten met precies i gedeelde partners met gewicht de geometrische reeks 1 exp{ τ}) i. De eerste verklarende variabele geeft de verbondenheid aan binnen een hersennetwerk, de tweede variabele geeft de lokale clustering binnen het netwerk aan waarbij dit de lokale dichtheid van de punten aangeeft en de derde variabele geeft de global efficiency dat de gemiddelde lengte van het kortste pad tussen twee punten aangeeft. Voorbeeld 6.3. Om de bovenstaande begrippen te illustreren zal een voorbeeld gegeven worden. Beschouw de volgende netwerkgraaf op 6 punten: Definieer dan ESP i en NSP i als respectievelijk de niet gewogen som van de GWESP en GWNSP zoals eerder gedefinieerd. Dan geldt er dat ESP 0, ESP 1,..., ESP 4 ) = 1, 5, 1, 0, 0). Immers alleen het paar 1, 2) heeft geen gedeelde partners. De paren punten met 1 gedeelde partners zijn 2, 4), 2, 3), 2, 6), 4, 5) en 5, 6) en het enige paar punten met 2 gedeelte partners is 4, 6). Zo kan ook afgeleidt worden dat NSP 0, NSP 1,..., NSP 4 ) = 1, 4, 2, 0, 0). Er geldt namelijk dat alleen het niet verbonden paar 1, 5) geen gedeelde partners heeft, de paren 1, 4), 1, 3), 1, 6) en 3, 5) van niet verbonden punten hebben 1 gedeelde partner en de paren 2, 5) en 3, 6) hebben 2 gedeelde partners. 30

Populaties beschrijven met kansmodellen

Populaties beschrijven met kansmodellen Populaties beschrijven met kansmodellen Prof. dr. Herman Callaert Deze tekst probeert, met voorbeelden, inzicht te geven in de manier waarop je in de statistiek populaties bestudeert. Dat doe je met kansmodellen.

Nadere informatie

Cover Page. The handle holds various files of this Leiden University dissertation

Cover Page. The handle   holds various files of this Leiden University dissertation Cover Page The handle http://hdl.handle.net/1887/39637 holds various files of this Leiden University dissertation Author: Smit, Laurens Title: Steady-state analysis of large scale systems : the successive

Nadere informatie

MARKOV KETENS, OF: WAT IS DE KANS DAT MEVROUW DE VRIES NAT ZAL WORDEN?

MARKOV KETENS, OF: WAT IS DE KANS DAT MEVROUW DE VRIES NAT ZAL WORDEN? MARKOV KETENS, OF: WAT IS DE KANS DAT MEVROUW DE VRIES NAT ZAL WORDEN? KARMA DAJANI In deze lezing gaan we over een bijzonder model in kansrekening spreken Maar eerst een paar woorden vooraf Wat doen we

Nadere informatie

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Inleveren: 12 januari 2011, VOOR het college Afspraken Serie 1 mag gemaakt en ingeleverd worden in tweetallen. Schrijf duidelijk je naam, e-mail

Nadere informatie

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van 14.00 17.00 uur.

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van 14.00 17.00 uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Mathematische Statistiek (WS05), vrijdag 9 oktober 010, van 14.00 17.00 uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

Deze week: Schatten. Statistiek voor Informatica Hoofdstuk 6: Schatten. Voorbeeld Medicijnentest. Statistische inferentie

Deze week: Schatten. Statistiek voor Informatica Hoofdstuk 6: Schatten. Voorbeeld Medicijnentest. Statistische inferentie Deze week: Schatten Statistiek voor Informatica Hoofdstuk 6: Schatten Cursusjaar 2009 Peter de Waal Departement Informatica Statistische inferentie A Priori en posteriori verdelingen Geconjugeerde a priori

Nadere informatie

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1)

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1) Cursus Statistiek Hoofdstuk 4 Statistiek voor Informatica Hoofdstuk 4: Verwachtingen Cursusjaar 29 Peter de Waal Departement Informatica Inhoud Verwachtingen Variantie Momenten en Momentengenererende functie

Nadere informatie

Bayes Factor voor samengestelde hypothesen

Bayes Factor voor samengestelde hypothesen Bayes Factor voor samengestelde hypothesen Rob Steur 20 juli 2012 Bachelorscriptie Begeleiding: prof. dr. Marjan Sjerps Tweedebeoordelaar: dr. A.J. (Bert) van Es Thomas Bayes (1702-1761) KdV Instituut

Nadere informatie

Summary in Dutch 179

Summary in Dutch 179 Samenvatting Een belangrijke reden voor het uitvoeren van marktonderzoek is het proberen te achterhalen wat de wensen en ideeën van consumenten zijn met betrekking tot een produkt. De conjuncte analyse

Nadere informatie

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur.

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Kansrekening en Statistiek (2WS4, dinsdag 17 juni 28, van 9. 12. uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten Deze week: Steekproefverdelingen Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen Cursusjaar 29 Peter de Waal Zuivere Schatters Betrouwbaarheidsintervallen Departement Informatica Hfdstk

Nadere informatie

Combinatorische Algoritmen: Binary Decision Diagrams, Deel III

Combinatorische Algoritmen: Binary Decision Diagrams, Deel III Combinatorische Algoritmen: Binary Decision Diagrams, Deel III Sjoerd van Egmond LIACS, Leiden University, The Netherlands svegmond@liacs.nl 2 juni 2010 Samenvatting Deze notitie beschrijft een nederlandse

Nadere informatie

en-splitsingen: een aantal alternatieven worden parallel toegepast, of-splitsingen: van een aantal alternatieven wordt er één toegepast,

en-splitsingen: een aantal alternatieven worden parallel toegepast, of-splitsingen: van een aantal alternatieven wordt er één toegepast, Kansrekening voor Informatiekunde, 25 Les 8 Proces analyse Veel processen laten zich door netwerken beschrijven, waarin knopen acties aangeven en opdrachten langs verbindingen tussen de knopen verwerkt

Nadere informatie

Examenvragen Hogere Wiskunde I

Examenvragen Hogere Wiskunde I 1 Examenvragen Hogere Wiskunde I Vraag 1. Zij a R willekeurig. Gegeven is dat voor alle r, s Q geldt dat a r+s = a r a s. Bewijs dat voor alle x, y R geldt dat a x+y = a x a y. Vraag 2. Gegeven 2 functies

Nadere informatie

Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u

Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u Technische Universiteit Delft Mekelweg 4 Faculteit Elektrotechniek, Wiskunde en Informatica 2628 CD Delft Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u Formulebladen, rekenmachines,

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening (2WS2, Vrijdag 23 januari 25, om 9:-2:. Dit is een tentamen met gesloten boek. De uitwerkingen van de opgaven dienen

Nadere informatie

We zullen in deze les kijken hoe we netwerken kunnen analyseren, om bijvoorbeeld de volgende vragen te kunnen beantwoorden:

We zullen in deze les kijken hoe we netwerken kunnen analyseren, om bijvoorbeeld de volgende vragen te kunnen beantwoorden: Wiskunde voor kunstmatige intelligentie, 24 Les 5 Proces analyse Veel processen laten zich door netwerken beschrijven, waarin een aantal knopen acties aangeeft en opdrachten langs verbindingen tussen de

Nadere informatie

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur Kansrekening en statistiek wi205in deel 2 6 april 200, 4.00 6.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na afloop

Nadere informatie

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen Vandaag Onderzoeksmethoden: Statistiek 2 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Theoretische kansverdelingen

Nadere informatie

TW2040: Complexe Functietheorie

TW2040: Complexe Functietheorie TW2040: Complexe Functietheorie week 4.1, donderdag K. P. Hart Faculteit EWI TU Delft Delft, 21 april, 2016 K. P. Hart TW2040: Complexe Functietheorie 1 / 32 Outline 1 K. P. Hart TW2040: Complexe Functietheorie

Nadere informatie

Stochastische grafen in alledaagse modellen

Stochastische grafen in alledaagse modellen Stochastische grafen in alledaagse modellen Ionica Smeets en Gerard Hooghiemstra 27 februari 2004 Stochastische grafen zijn grafen waarbij het aantal kanten bepaald wordt door kansverdelingen. Deze grafen

Nadere informatie

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008 Examen Statistische Modellen en Data-analyse Derde Bachelor Wiskunde 14 januari 2008 Vraag 1 1. Stel dat ɛ N 3 (0, σ 2 I 3 ) en dat Y 0 N(0, σ 2 0) onafhankelijk is van ɛ = (ɛ 1, ɛ 2, ɛ 3 ). Definieer

Nadere informatie

Hertentamen Biostatistiek 3 / Biomedische wiskunde

Hertentamen Biostatistiek 3 / Biomedische wiskunde Hertentamen Biostatistiek 3 / Biomedische wiskunde 2 juni 2014; 18:30-20:30 NB. Geef een duidelijke toelichting bij de antwoorden. Na correctie liggen de tentamens ter inzage bij het onderwijsbureau. Het

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Kansrekening (2WS2), Vrijdag 24 januari 24, om 9:-2:. Dit is een tentamen met gesloten boek. De uitwerkingen van de opgaven

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 12 Vrijdag 16 Oktober 1 / 38 2 Statistiek Indeling vandaag: Normale verdeling Wet van de Grote Getallen Centrale Limietstelling Deductieve statistiek Hypothese toetsen

Nadere informatie

Kansrekening en statistiek wi2105in deel I 29 januari 2010, uur

Kansrekening en statistiek wi2105in deel I 29 januari 2010, uur Kansrekening en statistiek wi20in deel I 29 januari 200, 400 700 uur Bij dit examen is het gebruik van een (evt grafische rekenmachine toegestaan Tevens krijgt u een formuleblad uitgereikt na afloop inleveren

Nadere informatie

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur Kansrekening en statistiek WI22TI / WI25IN deel 2 2 februari 22, 4. 6. uur VOOR WI22TI: Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Een formuleblad is niet toegestaan.

Nadere informatie

Examen Statistiek I Feedback

Examen Statistiek I Feedback Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Eindtentamen Kansrekening en Statistiek (WS), Tussentoets Kansrekening en Statistiek (WS), Vrijdag 8 april, om 9:-:. Dit is een tentamen

Nadere informatie

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN Inleiding Statistische gevolgtrekkingen (statistical inference) gaan over het trekken van conclusies over een populatie op basis van steekproefdata.

Nadere informatie

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur Kansrekening en statistiek wi2105in deel 2 27 januari 2010, 14.00 16.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na

Nadere informatie

Biofysische Scheikunde: Statistische Mechanica

Biofysische Scheikunde: Statistische Mechanica Biofysische Scheikunde: Statistische Mechanica Vrije Universiteit Brussel 27 november Outline 1 Statistische Definitie van 2 Statistische Definitie van Outline 1 Statistische Definitie van 2 Statistische

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS

VOOR HET SECUNDAIR ONDERWIJS VOOR HET SECUNDAIR ONDERWIJS Steekproefmodellen en normaal verdeelde steekproefgrootheden 5. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg

Nadere informatie

Statistiek in een rechtzaak

Statistiek in een rechtzaak Statistiek in een rechtzaak Maarten van Kampen & Soon-Yip Wong 1 april 00 1 Schuldig of niet? Naar aanleiding van een recent krantenartikel over de rechtzaak omtrent Lucy B. willen wij onderzoeken wat

Nadere informatie

Examen Kansrekening en Wiskundige Statistiek: oplossingen

Examen Kansrekening en Wiskundige Statistiek: oplossingen Examen Kansrekening en Wiskundige Statistiek: oplossingen S. Vansteelandt Academiejaar 006-007 1. Een team van onderzoekers wil nagaan of een bepaald geneesmiddel Triptan meer effectief is dan aspirine

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 8 Donderdag 13 Oktober 1 / 23 2 Statistiek Vandaag: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 23 Stochast en populatie

Nadere informatie

Griepepidemie. Modelleren B. Javiér Sijen. Janine Sinke

Griepepidemie. Modelleren B. Javiér Sijen. Janine Sinke Javiér Sijen Janine Sinke Griepepidemie Modelleren B Om de uitbraak van een epidemie te voorspellen, wordt de verspreiding van een griepvirus gemodelleerd. Hierbij wordt zowel een detailbenadering als

Nadere informatie

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19 Stochastiek 2 Inleiding in de Mathematische Statistiek 1/19 Herhaling H.1 2/19 Mathematische Statistiek We beschouwen de beschikbare data als realisatie(s) van een stochastische grootheid X.(Vaak een vector

Nadere informatie

Inhoud. Introductie tot de cursus

Inhoud. Introductie tot de cursus Inhoud Introductie tot de cursus 1 Inleiding 7 2 Voorkennis 7 3 Het cursusmateriaal 7 4 Structuur, symbolen en taalgebruik 8 5 De cursus bestuderen 9 6 Studiebegeleiding 10 7 Huiswerkopgaven 10 8 Het tentamen

Nadere informatie

3.2 Vectoren and matrices

3.2 Vectoren and matrices we c = 6 c 2 = 62966 c 3 = 32447966 c 4 = 72966 c 5 = 2632833 c 6 = 4947966 Sectie 32 VECTOREN AND MATRICES Maar het is a priori helemaal niet zeker dat het stelsel vergelijkingen dat opgelost moet worden,

Nadere informatie

Tentamen Inleiding Kansrekening wi juni 2010, uur

Tentamen Inleiding Kansrekening wi juni 2010, uur Technische Universiteit Delft Mekelweg Faculteit Electrotechniek, Wiskunde en Informatica 8 CD Delft Tentamen Inleiding Kansrekening wi juni, 9.. uur Bij dit examen is het gebruik van een (evt. grafische

Nadere informatie

P (X n+1 = j X n = i, X n 1,..., X 0 ) = P (X n+1 = j X n = i). P (X n+1 = j X n = i) MARKOV KETENS. Definitie van Markov keten:

P (X n+1 = j X n = i, X n 1,..., X 0 ) = P (X n+1 = j X n = i). P (X n+1 = j X n = i) MARKOV KETENS. Definitie van Markov keten: Definitie van Markov keten: MARKOV KETENS Een stochastisch proces {X n, n 0} met toestandsruimte S heet een discrete-tijd Markov keten (DTMC) als voor alle i en j in S geldt P (X n+ = j X n = i, X n,...,

Nadere informatie

Gaap, ja, nog een keer. In één variabele hebben we deze formule nu al een paar keer gezien:

Gaap, ja, nog een keer. In één variabele hebben we deze formule nu al een paar keer gezien: Van de opgaven met een letter en dus zonder nummer staat het antwoord achterin. De vragen met een nummer behoren tot het huiswerk. Spieken achterin helpt je niets in het beter snappen... 1 Stelling van

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 12 Donderdag 21 Oktober 1 / 38 2 Statistiek Indeling: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 38 Deductieve

Nadere informatie

Cover Page. The handle http://hdl.handle.net/1887/20358 holds various files of this Leiden University dissertation.

Cover Page. The handle http://hdl.handle.net/1887/20358 holds various files of this Leiden University dissertation. Cover Page The handle http://hdl.handle.net/1887/20358 holds various files of this Leiden University dissertation. Author: Witsenburg, Tijn Title: Hybrid similarities : a method to insert relational information

Nadere informatie

Continuous Learning in Computer Vision S.L. Pintea

Continuous Learning in Computer Vision S.L. Pintea Continuous Learning in Computer Vision S.L. Pintea Continuous Learning in Computer Vision Natura non facit saltus. Gottfried Leibniz Silvia-Laura Pintea Intelligent Sensory Information Systems University

Nadere informatie

Exponentiële Functie: Toepassingen

Exponentiële Functie: Toepassingen Exponentiële Functie: Toepassingen 1 Overgang tussen exponentiële functies en lineaire functies Wanneer we werken met de exponentiële functie is deze niet altijd gemakkelijk te herkennen. Daarom proberen

Nadere informatie

Stelsels Vergelijkingen

Stelsels Vergelijkingen Hoofdstuk 5 Stelsels Vergelijkingen Eén van de motiverende toepassingen van de lineaire algebra is het bepalen van oplossingen van stelsels lineaire vergelijkingen. De belangrijkste techniek bestaat uit

Nadere informatie

Samenvatting (Summary in Dutch)

Samenvatting (Summary in Dutch) Samenvatting (Summary in Dutch) Dit proefschrift behandelt een aantal onderwerpen uit de multivariate analyse, waarbij het begrip multivariate analyse ruim moet worden geïnterpreteerd. Naast onderwerpen

Nadere informatie

WISKUNDE C VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0

WISKUNDE C VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0 WISKUNDE C VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0 De vakinformatie in dit document is vastgesteld door het College voor Toetsen en Examens (CvTE). Het CvTE is verantwoordelijk voor de afname van de

Nadere informatie

De dimensie van een deelruimte

De dimensie van een deelruimte De dimensie van een deelruimte Een deelruimte van R n is een deelverzameling die op zichzelf ook een vectorruimte is. Ter herinnering : Definitie. Een deelverzameling H van R n heet een deelruimte van

Nadere informatie

Leeswijzer bij het college Functies en Reeksen

Leeswijzer bij het college Functies en Reeksen Leeswijzer bij het college Functies en Reeksen Erik van den Ban Najaar 2012 Introductie eze leeswijzer bij het dictaat Functies en Reeksen (versie augustus 2011) heeft als doel een gewijzigde opbouw van

Nadere informatie

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

Aanvullingen bij Hoofdstuk 8

Aanvullingen bij Hoofdstuk 8 Aanvullingen bij Hoofdstuk 8 8.5 Definities voor matrices De begrippen eigenwaarde eigenvector eigenruimte karakteristieke veelterm en diagonaliseerbaar worden ook gebruikt voor vierkante matrices los

Nadere informatie

TENTAMEN WISKUNDIGE BEELDVERWERKINGSTECHNIEKEN

TENTAMEN WISKUNDIGE BEELDVERWERKINGSTECHNIEKEN TENTAMEN WISKUNDIGE BEELDVERWERKINGSTECHNIEKEN Vakcode: 8D. Datum: Donderdag 8 juli 4. Tijd: 14. 17. uur. Plaats: MA 1.44/1.46 Lees dit vóórdat je begint! Maak iedere opgave op een apart vel. Schrijf je

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 2 Donderdag 15 September 1 / 42 1 Kansrekening Vandaag: Vragen Eigenschappen van kansen Oneindige discrete uitkomstenruimtes Continue uitkomstenruimtes Continue stochasten

Nadere informatie

Statistiek voor A.I. College 4. Donderdag 20 September 2012

Statistiek voor A.I. College 4. Donderdag 20 September 2012 Statistiek voor A.I. College 4 Donderdag 20 September 2012 1 / 30 2 Deductieve statistiek Kansrekening 2 / 30 Cycle 3 / 30 Context 4 / 30 2 Deductieve statistiek Vandaag: Eigenschappen kansen Oneindige

Nadere informatie

Examenprogramma wiskunde D vwo

Examenprogramma wiskunde D vwo Examenprogramma wiskunde D vwo Het eindexamen Het eindexamen bestaat uit het schoolexamen. Het examenprogramma bestaat uit de volgende domeinen: Domein A Vaardigheden Domein B Kansrekening en statistiek

Nadere informatie

(x x 1 ) + y 1. x x k+1 x k x k+1

(x x 1 ) + y 1. x x k+1 x k x k+1 Les Talor reeksen We hebben in Wiskunde een aantal belangrijke reële functies gezien, bijvoorbeeld de exponentiële functie exp(x) of de trigonometrische functies sin(x) en cos(x) Toen hebben we wel eigenschappen

Nadere informatie

Bayesiaans leren. Les 2: Markov Chain Monte Carlo. Joris Bierkens. augustus Vakantiecursus 1/15

Bayesiaans leren. Les 2: Markov Chain Monte Carlo. Joris Bierkens. augustus Vakantiecursus 1/15 Bayesiaans leren Les 2: Markov Chain Monte Carlo Joris Bierkens Vakantiecursus augustus 209 /5 Samenvatting en vooruitblik Veel statistische problemen kunnen we opvatten in een Bayesiaanse context n π(θ)

Nadere informatie

WISKUNDE D VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0

WISKUNDE D VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0 WISKUNDE D VWO VAKINFORMATIE STAATSEAMEN 2016 V15.7.0 De vakinformatie in dit document is vastgesteld door het College voor Toetsen en Examens (CvTE). Het CvTE is verantwoordelijk voor de afname van de

Nadere informatie

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle  holds various files of this Leiden University dissertation. Cover Page The handle http://hdl.handle.net/1887/29764 holds various files of this Leiden University dissertation. Author: Takes, Frank Willem Title: Algorithms for analyzing and mining real-world graphs

Nadere informatie

De Minimax-Stelling en Nash-Evenwichten

De Minimax-Stelling en Nash-Evenwichten De Minima-Stelling en Nash-Evenwichten Sebastiaan A. Terwijn Radboud Universiteit Nijmegen Afdeling Wiskunde 20 september 2010 Dit is een bijlage bij het eerstejaars keuzevak Wiskunde, Politiek, en Economie.

Nadere informatie

Inleiding Applicatie Software - Statgraphics

Inleiding Applicatie Software - Statgraphics Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek /k 1/35 OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een

Nadere informatie

VU University Amsterdam 2018, juli 11.

VU University Amsterdam 2018, juli 11. Department of Mathematics Herexamen: Voortgezette biostatistiek VU University Amsterdam 018, juli 11. c Dept. of Mathematics, VU University Amsterdam NB. Geef een duidelijke toelichting bij de antwoorden.

Nadere informatie

9. Strategieën en oplossingsmethoden

9. Strategieën en oplossingsmethoden 9. Strategieën en oplossingsmethoden In dit hoofdstuk wordt nog even terug gekeken naar alle voorgaande hoofdstukken. We herhalen globaal de structuren en geven enkele richtlijnen voor het ontwerpen van

Nadere informatie

Tentamen Mathematische Statistiek (2WS05), dinsdag 3 november 2009, van uur.

Tentamen Mathematische Statistiek (2WS05), dinsdag 3 november 2009, van uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Mathematische Statistiek (2WS05), dinsdag 3 november 2009, van 4.00 7.00 uur. Dit is een tentamen met gesloten boek. De uitwerkingen

Nadere informatie

Department of Mathematics Exam: Voortgezette biostatistiek / Biomedische wiskunde VU University Amsterdam 2017, Juni 7

Department of Mathematics Exam: Voortgezette biostatistiek / Biomedische wiskunde VU University Amsterdam 2017, Juni 7 Department of Mathematics Exam: Voortgezette biostatistiek / Biomedische wiskunde VU University Amsterdam 07, Juni 7 c Dept. of Mathematics, VU University Amsterdam NB. Geef een duidelijke toelichting

Nadere informatie

Oefenvragen bij Statistics for Business and Economics van Newbold

Oefenvragen bij Statistics for Business and Economics van Newbold Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd

Nadere informatie

EWMA Control Charts in Statistical Process Monitoring I.M. Zwetsloot

EWMA Control Charts in Statistical Process Monitoring I.M. Zwetsloot EWMA Control Charts in Statistical Process Monitoring I.M. Zwetsloot EWMA Control Charts in Statistical Process Monitoring Inez M. Zwetsloot Samenvatting EWMA Regelkaarten in Statistische Procesmonitoring

Nadere informatie

WISKUNDE D HAVO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0

WISKUNDE D HAVO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0 WISKUNDE D HAVO VAKINFORMATIE STAATSEAMEN 2016 V15.7.0 De vakinformatie in dit document is vastgesteld door het College voor Toetsen en Examens (CvTE). Het CvTE is verantwoordelijk voor de afname van de

Nadere informatie

Bayesiaans leren. Les 2: Markov Chain Monte Carlo. Joris Bierkens. augustus Vakantiecursus 1/15

Bayesiaans leren. Les 2: Markov Chain Monte Carlo. Joris Bierkens. augustus Vakantiecursus 1/15 Bayesiaans leren Les 2: Markov Chain Monte Carlo Joris Bierkens Vakantiecursus augustus 2019 1/15 Samenvatting en vooruitblik Veel statistische problemen kunnen we opvatten in een Bayesiaanse context n

Nadere informatie

Onafhankelijke verzamelingen en Gewogen Oplossingen, door Donald E. Knuth, The Art of Computer Programming, Volume 4, Combinatorial Algorithms

Onafhankelijke verzamelingen en Gewogen Oplossingen, door Donald E. Knuth, The Art of Computer Programming, Volume 4, Combinatorial Algorithms Onafhankelijke verzamelingen en Gewogen Oplossingen, door Donald E. Knuth, The Art of Computer Programming, Volume 4, Combinatorial Algorithms Giso Dal (0752975) Pagina s 5 7 1 Deelverzameling Representatie

Nadere informatie

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een klein kapitaaltje

Nadere informatie

Samenvatting (in Dutch)

Samenvatting (in Dutch) Samenvatting (in Dutch) Geordende latente klassen modellen voor nonparametrische itemresponstheorie Een geordend latente klassen model kan als een nonparametrisch itemresponstheorie model beschouwd worden.

Nadere informatie

1 Rekenen in eindige precisie

1 Rekenen in eindige precisie Rekenen in eindige precisie Een computer rekent per definitie met een eindige deelverzameling van getallen. In dit hoofdstuk bekijken we hoe dit binnen een computer is ingericht, en wat daarvan de gevolgen

Nadere informatie

Lineaire Algebra voor W 2Y650

Lineaire Algebra voor W 2Y650 Lineaire Algebra voor W 2Y650 Docent: L. Habets HG 8.09, Tel: 040-2474230, Email: l.c.g.j.m.habets@tue.nl http://www.win.tue.nl/wsk/onderwijs/2y650 1 Eigenwaarden en eigenvectoren Zij A een n n matrix.

Nadere informatie

Sensornetwerk controleert omgeving

Sensornetwerk controleert omgeving Sensornetwerk controleert omgeving Wiskunde repareert imperfectie van een sensornetwerk en spoort zo indringers op. Een draadloos sensornetwerk kan gebruikt worden om een omgeving in de gaten te houden,

Nadere informatie

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling. Opgaven hoofdstuk 6 I Learning the Mechanics 6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling. De random variabele x wordt tweemaal waargenomen. Ga na dat, indien de waarnemingen

Nadere informatie

. Dan geldt P(B) = a. 1 4. d. 3 8

. Dan geldt P(B) = a. 1 4. d. 3 8 Tentamen Statistische methoden 4052STAMEY juli 203, 9:00 2:00 Studienummers: Vult u alstublieft op het meerkeuzevragenformulier uw Delftse studienummer in (tbv automatische verwerking); en op het open

Nadere informatie

Tentamen Wiskunde A. Het gebruik van een mobiele telefoon of andere telecommunicatieapparatuur tijdens het tentamen

Tentamen Wiskunde A. Het gebruik van een mobiele telefoon of andere telecommunicatieapparatuur tijdens het tentamen CENTRALE COMMISSIE VOORTENTAMEN WISKUNDE Tentamen Wiskunde A Datum: 11 juni 2012 Tijd: 19.00-22.00 uur Aantal opgaven: 8 Zet uw naam op alle in te leveren blaadjes. Laat bij elke opgave door middel van

Nadere informatie

Set 3 Inleveropgaven Kansrekening (2WS20) Opgaven met sterretjes zijn lastiger dan opgaven zonder sterretje.

Set 3 Inleveropgaven Kansrekening (2WS20) Opgaven met sterretjes zijn lastiger dan opgaven zonder sterretje. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Set 3 Inleveropgaven Kansrekening (2WS2) 23-24 Opgaven met sterretjes zijn lastiger dan opgaven zonder sterretje.. Voetbalplaatjes. Bij

Nadere informatie

Hoofdstuk!7!Kortste!paden!

Hoofdstuk!7!Kortste!paden! oofdstukkortstepaden oofdstukkortstepaden In een gewogen graaf is men soms geïnteresseerd in het kortste pad tussen twee punten: dat is een pad, waarbij de som van de gewichten zo klein mogelijk is..inleiding

Nadere informatie

Uitwerkingen Mei Eindexamen VWO Wiskunde A. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek

Uitwerkingen Mei Eindexamen VWO Wiskunde A. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek Uitwerkingen Mei 2012 Eindexamen VWO Wiskunde A Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek Schroefas Opgave 1. In de figuur trekken we een lijn tussen 2600 tpm op de linkerschaal en

Nadere informatie

De partitieformule van Euler

De partitieformule van Euler De partitieformule van Euler Een kennismaking met zuivere wiskunde J.H. Aalberts-Bakker 29 augustus 2008 Doctoraalscriptie wiskunde, variant Communicatie en Educatie Afstudeerdocent: Dr. H. Finkelnberg

Nadere informatie

Uitwerking Tentamen Inleiding Kansrekening 11 juni 2015, uur Docent: Prof. dr. F. den Hollander

Uitwerking Tentamen Inleiding Kansrekening 11 juni 2015, uur Docent: Prof. dr. F. den Hollander Uitwerking Tentamen Inleiding Kansrekening juni 25,. 3. uur Docent: Prof. dr. F. den Hollander () [6] Zij F een gebeurtenissenruimte. Laat zien dat voor elke B F de verzameling G {A B : A F} opnieuw een

Nadere informatie

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan.

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan. Afdeling Wiskunde Volledig tentamen Statistics Deeltentamen 2 Statistics Vrije Universiteit 28 mei 2015 Gebruik van een (niet-grafische) rekenmachine is toegestaan. Geheel tentamen: opgaven 1,2,3,4. Cijfer=

Nadere informatie

Basiskennis lineaire algebra

Basiskennis lineaire algebra Basiskennis lineaire algebra Lineaire algebra is belangrijk als achtergrond voor lineaire programmering, omdat we het probleem kunnen tekenen in de n-dimensionale ruimte, waarbij n gelijk is aan het aantal

Nadere informatie

Tentamen Kansrekening en Statistiek (2WS04), woensdag 30 juni 2010, van 9.00 12.00 uur.

Tentamen Kansrekening en Statistiek (2WS04), woensdag 30 juni 2010, van 9.00 12.00 uur. Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Kansrekening en Statistiek (WS4), woensdag 3 juni, van 9.. uur. Dit is een tentamen met gesloten boek. De uitwerkingen van de

Nadere informatie

Opgaven Functies en Reeksen. E.P. van den Ban

Opgaven Functies en Reeksen. E.P. van den Ban Opgaven Functies en Reeksen E.P. van den Ban c Mathematisch Instituut Universiteit Utrecht Augustus 2014 1 Opgaven bij Hoofdstuk 1 Opgave 1.1 Zij f : R n R partieel differentieerbaar naar iedere variabele

Nadere informatie

Numerieke aspecten van de vergelijking van Cantor. Opgedragen aan Th. J. Dekker. H. W. Lenstra, Jr.

Numerieke aspecten van de vergelijking van Cantor. Opgedragen aan Th. J. Dekker. H. W. Lenstra, Jr. Numerieke aspecten van de vergelijking van Cantor Opgedragen aan Th. J. Dekker H. W. Lenstra, Jr. Uit de lineaire algebra is bekend dat het aantal oplossingen van een systeem lineaire vergelijkingen gelijk

Nadere informatie

Overzicht Fourier-theorie

Overzicht Fourier-theorie B Overzicht Fourier-theorie In dit hoofdstuk geven we een overzicht van de belangrijkste resultaten van de Fourier-theorie. Dit kan als steun dienen ter voorbereiding op het tentamen. Fourier-reeksen van

Nadere informatie

Stochastische Modellen in Operations Management (153088)

Stochastische Modellen in Operations Management (153088) S1 S2 X ms X ms Stochastische Modellen in Operations Management (153088) R1 S0 240 ms Ack Internet R2 L1 R3 L2 10 ms 1 10 ms D1 Richard Boucherie Stochastische Operations Research TW, Ravelijn H 219 http://wwwhome.math.utwente.nl/~boucherierj/onderwijs/153088/153088.html

Nadere informatie

Hoofdstuk 10: Partiële differentiaalvergelijkingen en Fourierreeksen

Hoofdstuk 10: Partiële differentiaalvergelijkingen en Fourierreeksen Hoofdstuk : Partiële differentiaalvergelijkingen en Fourierreeksen Partiële differentiaalvergelijkingen zijn vergelijkingen waarin een onbekende functie van twee of meer variabelen en z n partiële afgeleide(n)

Nadere informatie

Statistiek I Samenvatting. Prof. dr. Carette

Statistiek I Samenvatting. Prof. dr. Carette Statistiek I Samenvatting Prof. dr. Carette Opleiding: bachelor of science in de Handelswetenschappen Academiejaar 2016 2017 Inhoudsopgave Hoofdstuk 1: Statistiek, gegevens en statistisch denken... 3 De

Nadere informatie

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert VOOR HET SECUNDAIR ONDERWIJS Kansmodellen. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Populatie: een intuïtieve definitie.... Een

Nadere informatie

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen SPSS Introductiecursus Sanne Hoeks Mattie Lenzen Statistiek, waarom? Doel van het onderzoek om nieuwe feiten van de werkelijkheid vast te stellen door middel van systematisch onderzoek en empirische verzamelen

Nadere informatie

SOCIALE STATISTIEK (deel 2)

SOCIALE STATISTIEK (deel 2) SOCIALE STATISTIEK (deel 2) D. Vanpaemel KU Leuven D. Vanpaemel (KU Leuven) SOCIALE STATISTIEK (deel 2) 1 / 57 Hoofdstuk 5: Schatters en hun verdeling 5.1 Steekproefgemiddelde als toevalsvariabele D. Vanpaemel

Nadere informatie

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17 Stochastiek 2 Inleiding in de Mathematische Statistiek 1 / 17 Statistische toetsen 2 / 17 Toetsen - algemeen - 1 Setting: observatie X in X, model {P θ : θ Θ}. Gegeven partitie Θ = Θ 0 Θ 1, met Θ 0 Θ 1

Nadere informatie

Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling

Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling Moore, McCabe & Craig: 3.3 Toward Statistical Inference From Probability to Inference 5.1 Sampling Distributions for

Nadere informatie