De Statistische Analyse van Netwerken



Vergelijkbare documenten
Populaties beschrijven met kansmodellen

Cover Page. The handle holds various files of this Leiden University dissertation

MARKOV KETENS, OF: WAT IS DE KANS DAT MEVROUW DE VRIES NAT ZAL WORDEN?

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van uur.

Deze week: Schatten. Statistiek voor Informatica Hoofdstuk 6: Schatten. Voorbeeld Medicijnentest. Statistische inferentie

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1)

Bayes Factor voor samengestelde hypothesen

Summary in Dutch 179

Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur.

Deze week: Steekproefverdelingen. Statistiek voor Informatica Hoofdstuk 7: Steekproefverdelingen. Kwaliteit van schatter. Overzicht Schatten

Combinatorische Algoritmen: Binary Decision Diagrams, Deel III

en-splitsingen: een aantal alternatieven worden parallel toegepast, of-splitsingen: van een aantal alternatieven wordt er één toegepast,

Examenvragen Hogere Wiskunde I

Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

We zullen in deze les kijken hoe we netwerken kunnen analyseren, om bijvoorbeeld de volgende vragen te kunnen beantwoorden:

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

Vandaag. Onderzoeksmethoden: Statistiek 2. Basisbegrippen. Theoretische kansverdelingen

TW2040: Complexe Functietheorie

Stochastische grafen in alledaagse modellen

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Hertentamen Biostatistiek 3 / Biomedische wiskunde

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

Kansrekening en Statistiek

Kansrekening en statistiek wi2105in deel I 29 januari 2010, uur

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

Examen Statistiek I Feedback

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur

Biofysische Scheikunde: Statistische Mechanica

VOOR HET SECUNDAIR ONDERWIJS

Statistiek in een rechtzaak

Examen Kansrekening en Wiskundige Statistiek: oplossingen

Kansrekening en Statistiek

Griepepidemie. Modelleren B. Javiér Sijen. Janine Sinke

Stochastiek 2. Inleiding in de Mathematische Statistiek 1/19

Inhoud. Introductie tot de cursus

3.2 Vectoren and matrices

Tentamen Inleiding Kansrekening wi juni 2010, uur

P (X n+1 = j X n = i, X n 1,..., X 0 ) = P (X n+1 = j X n = i). P (X n+1 = j X n = i) MARKOV KETENS. Definitie van Markov keten:

Gaap, ja, nog een keer. In één variabele hebben we deze formule nu al een paar keer gezien:

Kansrekening en Statistiek

Cover Page. The handle holds various files of this Leiden University dissertation.

Continuous Learning in Computer Vision S.L. Pintea

Exponentiële Functie: Toepassingen

Stelsels Vergelijkingen

Samenvatting (Summary in Dutch)

WISKUNDE C VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0

De dimensie van een deelruimte

Leeswijzer bij het college Functies en Reeksen

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Aanvullingen bij Hoofdstuk 8

TENTAMEN WISKUNDIGE BEELDVERWERKINGSTECHNIEKEN

Kansrekening en Statistiek

Statistiek voor A.I. College 4. Donderdag 20 September 2012

Examenprogramma wiskunde D vwo

(x x 1 ) + y 1. x x k+1 x k x k+1

Bayesiaans leren. Les 2: Markov Chain Monte Carlo. Joris Bierkens. augustus Vakantiecursus 1/15

WISKUNDE D VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0

Cover Page. The handle holds various files of this Leiden University dissertation.

De Minimax-Stelling en Nash-Evenwichten

Inleiding Applicatie Software - Statgraphics

VU University Amsterdam 2018, juli 11.

9. Strategieën en oplossingsmethoden

Tentamen Mathematische Statistiek (2WS05), dinsdag 3 november 2009, van uur.

Department of Mathematics Exam: Voortgezette biostatistiek / Biomedische wiskunde VU University Amsterdam 2017, Juni 7

Oefenvragen bij Statistics for Business and Economics van Newbold

EWMA Control Charts in Statistical Process Monitoring I.M. Zwetsloot

WISKUNDE D HAVO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0

Bayesiaans leren. Les 2: Markov Chain Monte Carlo. Joris Bierkens. augustus Vakantiecursus 1/15

Onafhankelijke verzamelingen en Gewogen Oplossingen, door Donald E. Knuth, The Art of Computer Programming, Volume 4, Combinatorial Algorithms

Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek

Samenvatting (in Dutch)

1 Rekenen in eindige precisie

Lineaire Algebra voor W 2Y650

Sensornetwerk controleert omgeving

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

. Dan geldt P(B) = a d. 3 8

Tentamen Wiskunde A. Het gebruik van een mobiele telefoon of andere telecommunicatieapparatuur tijdens het tentamen

Set 3 Inleveropgaven Kansrekening (2WS20) Opgaven met sterretjes zijn lastiger dan opgaven zonder sterretje.

Hoofdstuk!7!Kortste!paden!

Uitwerkingen Mei Eindexamen VWO Wiskunde A. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek

De partitieformule van Euler

Uitwerking Tentamen Inleiding Kansrekening 11 juni 2015, uur Docent: Prof. dr. F. den Hollander

Vrije Universiteit 28 mei Gebruik van een (niet-grafische) rekenmachine is toegestaan.

Basiskennis lineaire algebra

Tentamen Kansrekening en Statistiek (2WS04), woensdag 30 juni 2010, van uur.

Opgaven Functies en Reeksen. E.P. van den Ban

Numerieke aspecten van de vergelijking van Cantor. Opgedragen aan Th. J. Dekker. H. W. Lenstra, Jr.

Overzicht Fourier-theorie

Stochastische Modellen in Operations Management (153088)

Hoofdstuk 10: Partiële differentiaalvergelijkingen en Fourierreeksen

Statistiek I Samenvatting. Prof. dr. Carette

VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert

SPSS Introductiecursus. Sanne Hoeks Mattie Lenzen

SOCIALE STATISTIEK (deel 2)

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17

Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling

Transcriptie:

De Statistische Analyse van Netwerken Rodel van Rooijen 15 juli 2014 Bachelorscriptie Begeleiding: prof. dr. J.H. Harry) van Zanten Korteweg-De Vries Instituut voor Wiskunde Faculteit der Natuurwetenschappen, Wiskunde en Informatica Universiteit van Amsterdam

Samenvatting Het modelleren van netwerken zorgt voor het beter begrijpen van veel dingen in ons hedendaags leven. Zonder er vaak kennis van te hebben bevinden dit soort netwerken zich overal om ons heen. Het bestuderen van netwerken verbreedt bijvoorbeeld ons begrip van het internet, transportnetwerken, sociale netwerken en de verspreiding van ziektes. In deze scriptie worden daarom een aantal statistische netwerkmodellen behandeld en zal in het bijzonder gefocust worden op één netwerkmodel namelijk het exponentiële random graaf model. Verder zullen er statistische methoden gebruikt worden om het model toe te kunnen passen in de praktijk. Een van deze methoden gebruikt een zogenaamd Monte Carlo Markovketen algoritme dat zelfs in de meest gecompliceerde gevallen een benadering kan geven van de ware parameters van het model. Na het behandelen van deze methoden voor het algemene model zal er nog een praktische toepassing gegeven worden. Titel: De Statistische Analyse van Netwerken Auteur: Rodel van Rooijen, rodel.vanrooijen@student.uva.nl, 10184023 Begeleiding: prof. dr. J.H. Harry) van Zanten Einddatum: 15 juli 2014 Korteweg-De Vries Instituut voor Wiskunde Universiteit van Amsterdam Science Park 904, 1098 XH Amsterdam http://www.science.uva.nl/math 2

Inhoudsopgave 1. Inleiding 4 2. Een introductie tot netwerken 6 2.1. Wat is een netwerk?.............................. 6 2.1.1. Sociale netwerken............................ 6 2.1.2. Informatienetwerken.......................... 8 2.2. Waarom bestuderen we netwerken?...................... 10 3. Grafentheorie en de exponentiële familie van verdelingen 12 3.1. Grafentheorie.................................. 12 3.2. De exponentiële familie van verdelingen................... 13 3.2.1. De meest aannemelijke schatter.................... 14 4. Netwerk modellen 17 4.1. Het Erdős-Rényi-Gilbert random graaf model................ 17 4.2. Het stochastische blokmodel.......................... 17 4.2.1. Gegroepeerde netwerken........................ 18 4.3. Het exponentiële random graaf model.................... 20 5. Maximum likelihood op het exponentiële random graaf model 22 5.1. De Monte Carlo Markovketen......................... 22 5.2. De benadering van de meest aannemelijke schatter............. 23 5.2.1. Het benaderen van de log-likelihood functie............. 23 5.2.2. Het genereren van een steekproef................... 25 5.2.3. De normalisatiefactor......................... 27 5.3. Convergentie naar evenwicht......................... 27 6. Een toepassing van het exponentiële random graaf model 29 6.1. Het complexe hersennetwerk model...................... 29 7. Conclusie 32 Bibliografie 33 A. Appendix 35 B. Populaire samenvatting 38 3

1. Inleiding Sinds ik begonnen ben aan mijn studie wiskunde aan de Universiteit van Amsterdam UvA) ligt mijn interesse vooral bij de stochastiek kansrekening en statistiek). In het eerste jaar was er tevens een vak dat ging over grafentheorie dat mij erg aansprak. Toen ik een scriptie onderwerp moest kiezen wilde ik allereerst gaan kijken of ik iets met toegepaste stochastiek kon doen. Al snel werd ik in de richting van prof. dr. Harry van Zanten gestuurd en niet zonder succes, al snel stelde hij mij een onderwerp voor dat ging over netwerken. In dit onderwerp zou ik de stochastiek en de grafentheorie perfect kunnen combineren en zelfs in toegepaste zin, daarmee was mijn keuze snel gemaakt. Niet alleen dit maakt het een heel interessant onderwerp, want er valt namelijk veel over te zeggen. Netwerken liggen aan het fundament van de hedendaagse samenleving, bijvoorbeeld het sociale netwerk Facebook en het internet in de vorm van het World Wide Web hebben een prominente positie ingenomen. Allereerst zullen we in het kort de volgende vraag beantwoorden: Wat is een netwerk?. In hoofstuk 2 zal deze vraag in detail beantwoordt worden, kort gezegd is een netwerk een verbonden geheel waar vaak mensen of dingen centraal staan. Voorbeelden van netwerken die onmisbaar zijn in ons dagelijks leven zijn bijvoorbeeld de sociale netwerken waarbij vriendschapsrelaties centraal zijn, maar ook een informatienetwerk zoals het internet is een kenmerkend voorbeeld. Het bestuderen van dit soort netwerken zou dus kunnen helpen bij het beter begrijpen van veel aspecten die deel uitmaken van ons dagelijks leven. Maar niet alleen netwerken die we vaak tegenkomen zijn interessant om te bestuderen. Netwerken van de verspreiding van ziektes en marketingmodellen zijn andere voorbeelden die tevens interessant zijn om te bekijken. In hoofdstuk 2 en 3 zullen we zien dat in het algemeen netwerken weergegeven kunnen worden als grafen. Bij het bekijken van netwerken bekijken we dus eigenlijk de achterliggende netwerkgraaf. In een netwerkgraaf representeren de punten entiteiten of dingen in een netwerk en zijn de relaties tussen punten gegeven door de lijnen van de graaf. Als we netwerken bestuderen bekijken dus eigenlijk de achterliggende grafen. Een manier om deze netwerken te bestuderen is door gebruik te maken van statistische modellen. In een statistisch model zoeken we een formele representatie van een onderliggend stochastisch proces. Dit wordt vaak gedaan door een model te selecteren in de vorm van een kansverdeling en dan door middel van observaties de parameters) in het model schatten. Deze methode van modelleren geeft de mogelijkheid om algemene eigenschappen te bekijken van netwerken zoals de verbondenheid en clustering van een netwerk. 4

Een andere reden waarom het voor de hand ligt om voor een statistische benadering te kiezen is, omdat al bestaande statistische methoden en technieken dan toegepast kunnen worden. De modellen die bekeken gaan worden liggen op het grensgebied van de grafentheorie en de stochastiek en worden vaak random graaf modellen genoemd. Het random aan deze grafen is dat deze afhankelijk zijn van een kansverdeling. In hoofdstuk 3 zal er allereerst een stuk theorie behandeld worden dat nodig is om in hoofdstuk 4 voorbeelden te geven van dit soort statistische netwerkmodellen. In deze scriptie zullen we één netwerkmodel in detail gaan behandelen namelijk het exponentiële random graaf model. De benadering van de ware parameters) in het model is niet in alle gevallen even makkelijk en daarom zal er in hoofstuk 5 een methode gegeven worden om deze toch in alle gevallen te kunnen benaderen. In de praktijk wordt dit model veel toegepast en daarom zal er een praktische toepassing van het model behandeld worden in hoofdstuk 6. Deze scriptie wordt daarna afgesloten met een terugblik en eventueel verdere onderzoeksmogelijkheden. Verder wil ik nog mijn begeleider Harry van Zanten hartelijk bedanken voor het voorstellen van dit interessante onderwerp en zijn inbreng in deze scriptie. Rodel van Rooijen juli 2014 5

2. Een introductie tot netwerken Ter introductie zullen we in dit hoofdstuk een paar kernvragen rond netwerken behandelen zoals: Wat is een netwerk?, Welke soorten netwerken zijn er? en Waarom bestuderen we netwerken?. Voordat we namelijk kunnen beginnen met het analyseren van netwerken zullen we eerst moeten bekijken wat het begrip netwerk precies inhoudt. Om daarna een beter begrip te krijgen waar deze netwerken voorkomen zullen we deze in categoriën verdelen en zullen er voorbeelden gegeven worden. We beantwoorden tevens de vraag waarom het bekijken van deze netwerken zo interessant is. 2.1. Wat is een netwerk? Een netwerk is een geheel van verbonden punten waarbij deze punten opgevat kunnen worden als entiteiten of dingen. In een netwerk zijn twee punten verbonden met elkaar als er een connectie bestaat tussen deze punten. Deze connecties hebben vaak verschillende betekenissen, bij mensen zijn bijvoorbeeld de connecties vaak van sociale aard. Indien er gekeken word naar bijvoorbeeld webpagina s zijn de connecties vaak van informatieve aard, daarom zullen we in het vervolg onderscheid gaan maken tussen verschillende soorten connecties. In het bijzonder kunnen netwerken in verschillende categoriën worden opgedeeld aan de hand van de betekenis van de connecties in een netwerk. In dit hoofdstuk worden in het bijzonder twee categoriën bekeken en worden deze met voorbeelden geïllustreerd. Toch zijn deze categoriën niet bindend en kunnen netwerken in verschillende categoriën simultaan voorkomen. 2.1.1. Sociale netwerken Een interessante voor de hand liggende categorie van netwerken om te bekijken zijn de sociale netwerken, deze bevinden zich namelijk overal om ons heen. In een sociaal netwerk gaat het vooral om de sociale interactie tussen mensen en soms tussen dieren. Een eenvoudig voorbeeld van een sociaal netwerk is een vriendschapsnetwerk, waarbij mensen in een netwerk verbonden zijn als er een vriendschapsrelatie bestaat. Andere voorbeelden van sociale netwerken naast vriendschapsrelaties zijn bijvoorbeeld handelsverdragen, co-auteurschap in wetenschappelijke artikelen en de alliantie tussen bedrijven. Onderzoek naar sociale netwerken wordt al sinds omstreeks 1930 [8] gedaan en de ontwikkeling van de sociogram wordt vaak gezien als het startpunt. Een sociogram is een 6

visuele weergave van een sociaal netwerk in de vorm van een graaf. Uiteraard zijn niet alleen deze netwerken weer te geven als graaf en daarom zullen we later zien dat dit voor elk netwerk mogelijk is. Een klassiek voorbeeld van een onderzoek dat gedaan is naar sociale netwerken is het Small-World Problem [9]. In dit experiment moest een brief verzonden worden naar een specifiek persoon onder de regel dat de brief alleen doorgestuurd mocht worden naar kennissen. Als resultaat werd bevonden dat de keten van kennissen tussen twee mensen een mediaan heeft van zes. Dit onderzoek is in 2011 herhaald met de beschikbare data van het online sociale netwerk Facebook [10] en leverde een gemiddelde op van 3.74 vrienden tussen twee mensen op het netwerk. Netwerken hoeven uiteraard niet altijd een grote omvang te hebben, er bestaan ook kleinschaligere netwerken die bestudeerd zijn daarom bekijken we nu het volgende voorbeeld. Voorbeeld 2.1 Zachary s karate club netwerk [11]). Aangezien een netwerk bestaat uit een verzameling van punten en connecties kan een netwerk weergegeven worden als een graaf, connecties kunnen gezien worden als lijnen tussen punten. In dit voorbeeld worden de vriendschappen in kaart gebracht binnen een karate club en weergegeven als graaf. Figuur 2.1.: Het karatenetwerk weergegeven als graaf. De verschillende vormen van de punten staan voor de subgroepen die zich vormen rond 7

persoon a1 en persoon a34. De connecties binnen de graaf staan voor vriendschappen tussen twee personen. De kleuren blauw en rood geven respectievelijk de connecties aan binnen de bovenste en onderste subgroep en de kleur geel geeft de connectie aan tussen personen van verschillende subgroepen. In volgende hoofdstukken zullen methodes bekeken worden om grafen van netwerken te modelleren. Wellicht een bekender voorbeeld in de wetenschappelijke wereld is het volgende voorbeeld. Voorbeeld 2.2 Erdősgetal). Een bekender voorbeeld van een sociaal netwerk is het netwerk gebaseerd op het Erdősgetal. Dit Erdősgetal geeft de samenwerkingsafstand in wetenschappelijke artikelen tussen een auteur en Erdős en is gedefiniëerd als volgt Paul Erdős zelf heeft Erdősgetal 0, Het Erdősgetal van elke andere auteur X is 1 hoger dan het kleinste Erdősgetal van alle auteurs met wie X ooit een artikel heeft gepubliceerd, Indien geen van de auteurs met wie X ooit een artikel heeft gepubliceerd, een eindig Erdősgetal heeft, heeft het Erdősgetal van X een waarde van oneindig. Door middel van dit Erdősgetal en het netwerk dat zich hierdoor vormt wordt dus als ware het netwerk van co-auteurschap vastgelegd met als startpunt Paul Erdős zelf. 2.1.2. Informatienetwerken We leven in een tijd waarbij het verkrijgen van informatie een belangrijke rol speelt. Een van de belangrijkste en meest gebruikte bronnen van informatie is het internet, iets preciezer benoemd is dit het World Wide Web WWW). In het netwerk dat ontstaan is door het WWW zijn de punten gegeven door webpagina s en de connecties door referentie s tussen deze pagina s. In zijn geheel is het WWW een zéér groot informatienetwerk en wel een van de grootste informatienetwerken dat vandaag de dag bestaat. Toch is dit niet het enige informatienetwerk dat interessant is om te bekijken en zijn deze net als de sociale netwerken overal te vinden. Vooral na de komst van het internet zijn er veel andere nieuwe informatienetwerken in het leven geroepen. Zoals eerder gezegd zijn de informatienetwerken voortgekomen uit het internet niet de enige netwerken in deze categorie. Andere voorbeelden zijn netwerken die semantische relatie s tussen woorden aangeven synoniemen, antonumen, etc.), netwerken van citatie s tussen wetenschappelijke artikelen en ook behoren de netwerken van co-auteurschap van wetenschappelijke artikelen tot deze categorie. We zien dus dat deze categoriën niet strict zijn aangezien het laatste voorbeeld ook in de categorie sociale netwerken geplaatst kon worden. Onderzoeken die gedaan zijn naar informatienetwerken gaan vaak over de structuur van het netwerk, zoals welk punt verbonden is door het meeste aantal lijnen. Bijbehorende vragen zijn bijvoorbeeld: Welke webpagina heeft wordt het meest gerefereerd? 8

of Welke wiskundige artikel is het meest geciteert?. Andere onderzoeken gaan vaak over het in kaart brengen van informatienetwerken, wat in de meeste gevallen een niet gemakkelijke taak is gezien de omvang van sommige netwerken. Voorbeeld 2.3 Peer-to-peernetwerken). Een peer-to-peernetwerk is een informatienetwerk waarin computers direct met elkaar verbonden zijn zonder dat een centrale server hiervoor nodig is. Belangrijke voorbeelden van peer-to-peernetwerken zijn de uitwisselingsnetwerken waarbij gratis en anoniem bestanden gedeeld kunnen worden over het internet. Een van de grootste en meest gebruikte uitwisselingsnetwerken ontstaan door het internet is BitTorrent. In 2009 was BitTorrent verantwoordelijk voor ongeveer 43% tot 70% [12] van al het internetverkeer afhankelijk van geografische locatie. Een ander voorbeeld van een peer-to-peernetwerk is het netwerk ontstaan door het computervirus ZeuS. In dit netwerk werden computers voornamelijk onvrijwillig geïnfecteerd met het virus dat ervoor zorgde dat die computers op afstand overgenomen konden worden. In een onderzoek [13] dat gedaan is naar dit niet meer bestaande netwerk is een graaf gegenereerd die het netwerk weergeeft. Figuur 2.2.: De graaf van het ZeuSnetwerk. De blauwe punten staan voor geïnfecteerde computers en de groene lijnen geven een peer-to-peer connectie aan tussen twee punten. 9

Overige categoriën van netwerken zijn de biologische netwerken en de technologische netwerken. Met voorbeelden zoals het netwerk van de verspreiding van een virus in een populatie als biologisch netwerk en een elektriciteitsnetwerk als technologisch netwerk. In het laatste hoofdstuk zal een toepassing behandeld worden van een model waarbij het netwerk valt binnen de biologische netwerken. 2.2. Waarom bestuderen we netwerken? De interessante vraag is nu: Waarom willen we netwerken bekijken?. Voordat we netwerken gaan modelleren zullen we eerst deze vraag beantwoorden. Om een beter inzicht te krijgen in welke context netwerken zo interessant zijn zullen we wederom verschillende deelgebieden bekijken. De sociale wetenschappen zijn vaak geïnteresseerd in de interpretatie van de connecties binnen een sociaal netwerk. Wat achterhaald wilt worden is of deze ontstaan uit vriendschap, strategische overwegingen, gedwongen of wellicht een andere relatie? Een groot deel van de literatuur in sociale wetenschappen is daarom gewijd aan het modelleren van de sociale netwerken en het testen van hypotheses om netwerk structuur te achterhalen. In de zogenaamde machine learning community worden netwerken vaak gebruikt om nog niet acherhaalde informatie te voorspellen zoals ontbrekende connecties binnen een netwerk. Andere toepassingen zijn het vinden van een missende connectie in een bedrijf of terroristisch netwerk en bijvoorbeeld het berekenen van de kans dat een klant een product koopt gegeven de aankopen van zijn vrienden. Het laatste voorbeeld kan breder opgevat worden en is te zien als het voorspellen van de voorkeuren van een individu aan de hand van gegevens van vrienden van dit individu. Een recente toepassing van deze vorm van netwerk analyse is onder de aandacht gebracht door het bedrijf Netflix [14] dat online films en series aanbiedt. Het bedrijf heeft namelijk een prijs van één miljoen dollar uitgekeerd aan een groep onderzoekers die konden voorspellen hoe films beoordeeld gingen worden meer dan 10% nauwkeuriger hun eigen systemen zelf konden. Niet alleen in deze vakgebied worden netwerken gebruikt om dingen te voorspellen. In de computationele biologie worden netwerken bijvoorbeeld gebruikt om HIV infecties binnen een populatie te voorspellen en de verspreiding van virussen te modelleren. Waar netwerken ook een belangrijke rol hebben is in het vinden van verborgen groepen. Dit soort worden netwerken worden bestudeerd om bijvoorbeeld terroristische cellen te vinden in een samenleving. Netwerken worden dus in veel vakgebieden bekeken en hebben een belangrijke rol in het voorspellen en beantwoorden van vragen die opkomen als groepen mensen of dingen bekeken worden. Toch is niet alleen de link van netwerken met de werkelijkheid interessant. Netwerken zijn ook wiskundig interessant, namelijk Wat gebeurd er met een netwerk als het aantal punten naar oneindig gaat? is een wiskundig interessante vraag. En Wat is de beste 10

manier om een netwerk te modelleren? is nog zo n vraag. Er zijn dus genoeg toepassingen, maar in elk van deze vakgebieden is het analyseren van netwerken niet mogelijk zonder de wiskundige modellen. In de volgende hoofdstukken moet dus eerst allereerst het wiskundig fundament gelegd voordat er naar toepassingen gekeken kan worden. 11

3. Grafentheorie en de exponentiële familie van verdelingen Voordat er een begin gemaakt kan worden met behandelen van netwerkmodellen moet er eerst een stuk theorie opgebouwd worden. In dit hoofdstuk zal daarom de benodigde voorkennis gegeven worden. Er zal terminologie en notatie ingevoerd worden om de graaf van een netwerk precies te definiëren en ook zullen eigenschappen behandeld worden van de exponentiële familie van verdelingen die nodig zijn voor het model dat behandeld zal worden in sectie 4.3. 3.1. Grafentheorie Een netwerk kan zoals eerder genoemd weergegeven worden als een graaf, daarom zal notatie en terminologie worden ingevoerd om dit precies te maken. In de grafentheorie bestaat een graaf netwerk) G uit punten en lijnen G G N, E), waarbij N de verzameling van punten voorstelt en E de verzameling van lijnen. Het aantal punten is dan gegeven door N = N en h tal lijnen is E = E. In het algemeen wordt G vaak gedefinieerd in termen van de connecties tussen paren punten. De verzameling van connecties Y wordt vaak uitgedrukt in een matrix Y van grootte N N. Deze matrix wordt ook wel de verbindingsmatrix genoemd en is gedefinieerd als volgt. Definitie 3.1 De verbindingsmatrix). Stel we bekijken de graaf G G N, E) van deze graaf labelen we de punten uit N met de nummers 1, 2,..., N. Dan is het element entry) op de i-de rij en j-de kolom van de verbindingsmatrix gegeven door { 1 als de punten i en j verbonden zijn Y ij = 0 anders. In het vervolg van deze scriptie beschouwen we alleen niet-gerichte grafen, waarbij het niet-gerichte aanduidt dat de lijnen geen oriëntatie hebben dat wil zeggen dat de lijn vanuit het punt i naar j precies hetzelfde voorstelt als de lijn vanuit j naar i. Als dan in een graaf i een connectie heeft met j geeft dit aan dat j ook een connectie heeft met i. Het aantal lijnen van een niet-gerichte graaf kan dus worden berekend aan de hand van de volgende uitdrukking i<j Y ij en volgt uit de symmetrie van de verbindingsmatrix. Immers in een niet-gerichte graaf heeft de entry Y ij dezelfde waarde als de entry Y ji. 12

Voorbeeld 3.2 Gelabelde graaf met verbindingsmatrix). Een eenvoudig voorbeeld om de voorgaande definitie te illustreren is met de volgende graaf. Figuur 3.1.: Een voorbeeld graaf met bijbehorende verbindingsmatrix. Naast de graaf is de bijbehorende verbindingsmatrix gegeven. Alle diagonaalelementen van de verbindingsmatrix zijn nul, omdat er in een netwerk geen connectie tot zichzelf bestaat. 3.2. De exponentiële familie van verdelingen Definitie 3.3. Laat X een random variabele zijn met verdeling uit de parametrische familie van verdelingen {P θ θ Θ} waarbij Θ R. Waarbij de parameterverzameling komt uit R = R {± } en is het dus ook mogelijk dat de parameter de waarde ± aanneemt. De familie van verdelingen {P θ θ Θ} behoort dan tot de één-parameter exponentiële familie als de dichtheden px θ) = p θ x) voldoen aan p θ x) = e ηθ)t x) ψηθ)) hx), waarbij T x), ηθ), ψ η θ)) en hx) 0 allen reëelwaardige functies zijn. Voorbeeld 3.4 De Bernoulli verdeling). Stel X is Bernoulliα) alternatief) verdeeld met α 0, 1). Om nu te laten zien dat de Bernoulliα) verdeling behoort tot de familie van exponentiële verdelingen zullen we de dichtheid omschrijven. Er geldt nu dat p α x) = α x 1 α) 1 x = exp { log α x 1 α) 1 x)} = exp {x log α) + 1 x) log 1 α)} { ) } α = exp x log + log 1 α) 1 α { = exp xηα) log 1 + e ηα))}. ) Volgens de voorgaande definitie geldt nu met T x) = x, ηα) = log α 1 α, ψηα)) = log 1 + e ηα)) en hx) = 1 dat er aan alle voorwaarden voldaan is. Dus behoort deze verdeling tot de één-parameter exponentiële familie met parameter θ = α. 13

Definitie 3.5 De s-parameter exponentiële familie). Stel wederom dat X een random variabele is met verdeling uit {P θ θ Θ} waarbij Θ R s. Zij θ nu een vector van parameters θ = θ 1, θ 2,..., θ s ) t. Dan behoort de familie van verdelingen {P θ θ Θ} tot de s-parameter exponentiële familie als de dichtheden voldoen aan { s } p θ x) = exp η i θ)t i x) ψηθ)) hx) i=1 = exp { ηθ) t T x) ψηθ)) } hx) waarbij T x) = T 1 x),..., T s x)) t en ηθ) = η 1 θ),..., η s θ)) t. En waarbij T i x), η i θ), ψηθ)) en hx) 0 met i {1, 2,..., s} allen reëelwaardige functies zijn. Definitie 3.6 De kanonieke exponentiële familie). Als de random variabele X een verdeling heeft uit de exponentiële familie van verdelingen en er geldt verder dat ηθ) = θ. Dan komt deze verdeling uit de zogenaamde kanonieke exponentiële familie van verdelingen. Voorbeeld 3.7 De normale verdeling). Stel X is normaal verdeeld dat wil zeggen X Nµ, σ 2 ). Dan onder de veronderstelling dat θ t = µ, σ 2 ) onbekend is, is de dichtheid gegeven door { } 1 p µ,σ 2 = exp x µ)2 2πσ 2 2σ 2 = 1 2π exp = 1 2π exp { logσ) x2 2σ 2 + µx } σ 2 µ2 2σ 2 } {ηθ)t x) logσ) µ2 2σ 2, waarbij T x) = T 1 x), T 2 x)) t = x, x 2) t, ηθ) = η1 θ), η 2 θ)) t = µ, 1 ) t, σ 2 2σ ψηθ)) = 2 µ 2 + logσ) = η2 2σ 2 1 4η 2 + 1 2 log 1 2η 2 en hx) = 1 2π. En dus behoort de normale verdeling tot de 2-parameter exponentiële familie van verdelingen. In het volgende hoofdstuk zullen we zien dat een belangrijk netwerkmodel behoort tot deze familie van verdelingen. 3.2.1. De meest aannemelijke schatter Een veel gebruikte methode in de statistiek om de parameter θ te achterhalen van een statistisch geparametriseerd model is de meest aannemelijke schatter ˆθ vinden. Gegeven geobserveerde data en een model kan de meest aannemelijke schatter een schatting geven van de ware parameters van het model. De manier waarop dit gebeurd heet maximum likelihood hierbij wordt de zogenaamde log-likelihood functie gemaximaliseerd om zo de kans op de geobserveerde data te maximaliseren. Allereerst zullen we beginnen met wat definities. 14

Definitie 3.8 De likelihood functie). Zij X een random variabele met verdeling uit {P θ θ Θ}. Als X discreet verdeeld is, dan is de likelihood van θ gegeven een observatie x gedefinieerd als Lθ) = Lθ x) = p θ x) = P θ X = x). Als X continu verdeeld is dan is de likelihood van θ gegeven een observatie gedefinieerd als Lθ) = Lθ x) = p θ x), waarbij p θ x) de dichtheidsfunctie voorstelt. De log-likelihood functie l is dan gegeven door het natuurlijk logaritme van de likelihood functie. Definitie 3.9 De meest aannemelijke schatter). We definiëren de meest aannemelijke schatter nu als de waarde ˆθ van θ dat een globaal maximum is van de log-likelihood functie en dus ook van de likelihood. Voor een model uit de kanonieke s-parameter exponentiële familie van verdelingen geparametriseerd door θ Θ R s geldt dat de dichtheid geven is door: p θ x) = exp { θ t T x) ψθ) } hx). Om nu de meest aannemelijke schatter ˆθ van θ te vinden gebaseerd op een observatie x schrijven we lθ) = log Lθ) = θ t T x) ψθ) + log hx)) s = θ j T j x) ψθ) + log hx)). j=1 Om nu het maximum te bepalen moeten er van deze uitdrukking de partiële afgeleiden gelijk aan 0 gesteld worden met andere woorden er moet gelden θ r lθ) = 0 T r x) = E θ [T r X)], 3.1) voor alle r {1,..., s}. Waarbij de waarde r de r-de entry van de respectievelijke vectoren aangeeft. De bovenstaande uitdrukking is een direct gevolg als we opmerken dat θ r ψθ) = E θ [T r X)] 1. Als we dan nu de tweede afgeleide nemen krijgen we dat 2 θ r θ q lθ) = i r,q θ) = Cov θ [T r X), T q X)], waarbij r, q {1,..., s} en i r,q de r, q-de entry is van de Hessian van de log-likelihood functie die onder regulariteitsvoorwaarden correspondeert met de covariantiematrix van T die altijd symmetrisch is aangezien de covariantie in zijn argumenten symmetrisch is. 1 Voor afleiding zie appendix stelling A.1. 15

We zullen nu laten zien dat deze symmetrische matrix negatief definiet 1 is. Namelijk eerst nemen we een willekeurige v R s en stellen we dat Hθ) de Hessian voorstelt van de log-likelihood functie dan geldt v t Hθ)v = v t Var [T 1 X), T 2 X),..., T s X)] v = v t E [ T X) E T X))) T X) E T X))) t] v = E [ v t T X) E T X))) T X) E T X))) t v ] [ T = E X) E T X))) t v ) t T X) E T X))) t v )] = E W t W ) 0, waarbij W = T X) E T X))) v). Er geldt nu dus dat de uitdrukkingen een negatief definiete matrix vormen en dus is elk stabiel punt een maximum en is er ten hoogste één maximum. Voor de meest aannemelijke schatter ˆθ voorgekomen uit 3.1) geldt dus dat Eˆθ [T r X)] = T r x). 3.2) Een soortgelijke afleiding is mogelijk waarbij we stellen dat θ = ηθ), maar zal hier niet worden afgeleid. 1 Een matrix H is negatief definiet als voor alle vectoren v, er geldt v t Hv < 0. Voor symmetrische matrices is dit equivalent aan dat alle eigenwaarden negatief zijn. 16

4. Netwerk modellen In dit hoofdstuk zullen er een aantal netwerkmodellen behandeld worden. Het eerste model dat we zullen bekijken is het Erdős-Rényi-Gilbert model en is een klassiek voorbeeld van een random graaf model. Andere modellen die behandeld zullen worden zijn de blokmodellen waarbij het onderscheiden van groepen gemakkelijker gaat en het meer algemene exponentiële random graaf model. Vooral het exponentiële random graaf model zal in het volgend hoofdstuk in detail uitgewerkt worden. 4.1. Het Erdős-Rényi-Gilbert random graaf model Dit netwerk model bedacht door Erdős en Rényi wordt ook wel het GN, p) model genoemd. In dit model voor een netwerk met N punten wordt er een lijn getrokken tussen paren punten met kans p onafhankelijk van wat er eerder gebeurd is. Een andere formulering van dit model is geformuleerd door Gilbert en is het GN, E) model, waarbij het aantal lijnen E in het model vaststaat en deze willekeurig gekozen worden uit de ) N 2 mogelijke lijnen. Het GN, p) model heeft een binomiale likelihood-functie voor het aantal lijnen en is gegeven door LGN, p) heeft E lijnen p) = p E 1 p) N 2 ) E. Een equivalente formulering in termen van de N N verbindingsmatrix Y is LY p) = i j p Y ij 1 p) 1 Y ij. Een probleem met dit model is dat elke lijn dezelfde kans gegeven wordt, in het bijzonder wordt elke graaf met hetzelfde aantal lijnen dezelfde kans gegeven. In de realiteit hoeft dit echter niet het geval te zijn en daarom bekijken we nu wat specifiekere modellen. 4.2. Het stochastische blokmodel Een probleem dat zich voordoet bij het Erdős-Rényi-Gilbert random graaf model is dat er geen onderscheid gemaakt kan worden tussen verschillende groepen in een netwerk. In een blokmodel kan er wel onderscheid gemaakt worden tussen verschillende groepen 17

punten. In dit model wordt de verzameling van punten N onderverdeeld in verschillende partities of groepen. Op deze manier kan er een specifieke kans gegeven worden voor het bestaan van connecties tussen punten van verschillende partities of binnen een partitie zelf. Allereerst zullen we nu het model gaan definiëren. Definitie 4.1 Het stochastische blokmodel). Een stochastisch blokmodel is voor N genummerde punten gedefinieerd aan de hand van de volgende drie keuzes: k: Een scalere waarde die aangeeft hoeveel partities of groepen er in het netwerk zijn, z: Een N 1 vector waar zl) de groepindex geeft van het genummerde punt l {1, 2,..., N}, M: Een k k stochastische blokmatrix, met entries M ij die de kans geven dat een punt uit groep i verbonden is met een punt uit groep j. Allereerst moet er in dit model een keuze voor k gemaakt worden die het aantal verschillende groepen aangeeft in het netwerk. Daarna moeten de punten onderverdeeld worden tussen deze groepen en zo ontstaat de vector z. Het enige wat dan nog resteert is de keuze van de kansen tussen verschillende groepen dat resulteert in de stochastische blokmatrix M. De likelihood-functie van dit model is dan gegeven door LG M, z) = u,v P Er is een lijn tussen u en v M, z), waarbij de vector z de punten u en v verdeeld in de respectievelijke groepen en de matrix M de kans tussen deze punten geeft. In deze scriptie zal deze likelihood niet verder uitgewerkt worden omdat dit model niet in detail behandeld zal worden. Om wel een overzicht te geven in welke gevallen het gebruik van een blokmodel voor de hand ligt zullen hier een paar voorbeeldnetwerken gegeven worden. 4.2.1. Gegroepeerde netwerken Een voorbeeld van een gegroepeerd netwerk dat voor de hand ligt is een assortatief netwerk. In een assortatief netwerk hebben punten die uit dezelfde groep komen een grotere kans om met elkaar verbonden te zijn. In een groep zullen er dus relatief meer connecties voorkomen dan tussen groepen onderling. Voor de matrix M betekent dit dat de diagonaalblokken een grotere waarde hebben dan de overige blokken. Om dit te illustreren volgt nu een voorbeeld. 18

Voorbeeld 4.2 Een assortatief netwerk). Hieronder is aan de linkerkant een stochastische blokmatrix gegeven en aan de rechterkant een gegenereerd 1 voorbeeld netwerk aan de hand van deze blokmatrix. De verschillende kleuren van de punten staan voor de groepen waartoe zij behoren. Figuur 4.1.: Een assortatief netwerk met blokmatrix en gegenereerd voorbeeld. Het tegenovergestelde van een assortatief netwerk is een disassortatief netwerk. In een disassortatief netwerk hebben punten binnen dezelfde groep juist een lagere kans om met elkaar verbonden te zijn dan met punten uit andere groepen. Voorbeeld 4.3 Een disassortatief netwerk). Hieronder is wederom een stochastische blokmatrix gegeven met een voorbeeld netwerk. Figuur 4.2.: Een disassortatief netwerk met blokmatrix en gegenereerd voorbeeld. Andere voorbeelden van gegroepeerde netwerken zijn bijvoorbeeld de gecentreerde netwerken waarbij de groep met de laagste groepsindex de meeste kans op connecties heeft en naarmate de groepsindex toeneemt dat de kans op connecties toeneemt en de geordende netwerken waarbij de blokken onder en boven de diagonaal van de blokmatrix 1 Plaatjes van netwerken kunnen gegenereerd worden met behulp van de package Statnet in de programmeertaal R. 19

dezelfde kans krijgen. En zo zijn er nog veel andere soorten netwerken waar blokmodellen op toegepast zouden kunnen worden. 4.3. Het exponentiële random graaf model Het exponentiële random graaf model ERG model) is een veel toegepast model in het onderzoek naar netwerken en wordt ook wel het p -model genoemd. De naam van dit model is afkomstig van zijn specificatie namelijk het model behoort tot de in hoofdstuk 2 gedefinieerde familie van exponentiële verdelingen. Om dit te laten zien zullen we nu eerst het model gaan definiëren. Definitie 4.4 Het exponentiële random graaf model ERG model)). In dit model is de klasse van modellen gedefinieerd als random graaf modellen voor een vast N aantal punten door de volgende verdeling: P θ Y = y) = exp { θ t sy) }. κθ, Y) voor y Y waarbij: Y is een random graaf die een bijbehorende verbindingsmatrix heeft, Y is de verzameling van alle mogelijke netwerkconfiguraties en kan geïdentificeerd worden met {0, 1} N, θ = θ 1,..., θ s ) t is een s-vector van parameters, sy) is een gegeven s-vector met de netwerk informatie van y, κθ, Y) is de normalisatiefactor die ervoor zorgt dat het een kansmaat definieert en is gegeven door de volgende uitdrukking κθ, Y) = z Y exp { θ t sz) }. Dat deze klasse van modellen behoort tot de familie van exponentiële verdelingen is gemakkelijk in te zien immers aangezien de verdeling discreet is geldt p θ y) = P θ Y = y) = exp { θ t sy) } κθ, Y) = exp { θ t sy) log κ θ, Y)) } = exp { θ t T y) ψ θ, Y) } { s } = exp θ i T i y) ψ θ, Y) Dus geldt met T y) = sy), ηθ) t = θ t, ψθ, Y) = log κθ, Y) en hy) = 1 dat deze klasse van modellen behoort tot de s-parameter exponentiële familie van verdelingen. i=1 20

Voorbeeld 4.5. In dit voorbeeld zullen we afleiden dat het GN, p) model behoort tot de ERG modellen. In dit model is de enige revalante netwerkinformatie het aantal lijnen. Voor een y Y kiezen we dus als netwerkinformatie sy) = i<j Y ij waarbij Y de verbindingsmatrix is van de graaf y en dus het aantal lijnen geeft. In dit model is er dus alleen één parameter θ aangezien de netwerkinformatie één-dimensionaal is. We zullen nu de normalisatiefactor gaan afleiden. Er geldt nu dat κθ, Y) = exp {θsz)} = exp θ Y ij z Y i<j 1 {Y ij } Y = exp {θy ij } = i<j Y ij =0 i<j 1 + e θ ) = 1 + e θ ) N 2 ) en dus is de normalisatiefactor gegeven door κθ, Y) = 1 + e θ ) N 2 ). Schrijven we dan nu het ERG model uit met de bijbehorende normalisatiefactor dan volgt: P θ Y = y) = exp { θ t sy) } = exp { θ t sy) } κθ, Y) = 1 e θ + 1 ) sy) 1 = p sy) 1 p) N 2 ) sy) = p Ey 1 p) N 2 ) E y 1 + e θ ) N 2 ) 1 e θ + 1 ) N 2 ) sy) met p = 1 e θ +1 en E y het aantal lijnen van de graaf y is. En dus zien we dat het GN, p) model een ERG model is. In de praktijk is het niet zo gemakkelijk om een algemeen ERG model uit te rekenen. Daarom bespreken we in het volgende hoofdstuk een manier om deze toch te benaderen. 21

5. Maximum likelihood op het exponentiële random graaf model In het algemeen is het niet makkelijk om een exacte oplossing te vinden voor de meest aannemelijke schatter van een ERG model. Het probleem dat zich voordoet zit in de normalisatiefactor. Deze is in sommige gevallen nog makkelijk uit te rekenen, maar bij een toename van het aantal punten N wordt deze al snel lastig om uit te rekenen. Als bijvoorbeeld gekeken wordt naar een netwerkgraaf met N punten dan moet er gesommeerd worden over 2 N 2 ) termen. In het geval van N = 10 zijn dit al zo n 10 13 termen en bij N = 20 zijn het er ongeveer 10 57 en dit neemt snel toe. Daarom is er een alternatief gevonden onder de naam Monte Carlo Markov Chain MCMC). In dit hoofdstuk zullen we behandelen hoe deze manier gebruikt wordt om de meest aannemelijk schatter te bepalen van een ERG model. 5.1. De Monte Carlo Markovketen Een Markovketen 1 Markov Chain) is een proces dat alleen afhankelijk is van wat er op het tijdstip daarvoor gebeurd is. Iets preciezer als {X t } t N een Markovketen is dan is de Markovketen op tijdstip t + 1 gedefinieerd als X t+1 alleen afhankelijk van X t op tijdstip t. Één van de belangrijke eigenschappen van een Markovketen is dat deze onder de juiste voorwaarden convergeert naar een evenwichtsverdeling π dit zal in detail worden besproken in sectie 5.3. Een Monte Carlo Markovketen MCMC) algoritme is een algoritme waarbij de uitkomst X t+1 op tijdstip t+1 alleen afhangt van wat er op tijdstip t is gebeurd. In een MCMC algoritme genereerd het Monte Carlo proces een willekeurige waarde dat daarna vergeleken word met de huidige situatie en zo een volgende stap zet. 1 Een precieze definitie is gegeven in de appendix. 22

5.2. De benadering van de meest aannemelijke schatter Om een algemene benadering te geven van een ERG model willen we nu de meest aannemelijke schatter bepalen. Om deze te bepalen moeten we eerst de log-likelihood functie l bepalen. Deze is voor een algemeen s-parameter ERG model gegeven door lθ) = log Lθ) = θ t sy) κθ, Y). Als we direct de meest aannemelijke schatter willen bepalen moeten nu de partiële afgeleiden genomen worden. In sectie 3.2.1 hebben we gezien dat dit leidt tot de volgende vergelijking Eˆθ [s r Y )] = s r y), 5.1) waarbij θ r κθ, Y) = E θ [s r Y )]. Het probleem hierbij is echter dat de normalisatiefactor zoals eerder genoemd in de meeste gevallen moeilijk te berekenen is en toch voorkomt in vergelijking 5.1). We zullen nu een alternatieve methode bekijken dat gebruik maakt van een MCMC algoritme om dit op te lossen. 5.2.1. Het benaderen van de log-likelihood functie We veronderstellen nu wederom dat we een ERG model P θ Y = y) hebben met bijbehorende eigenschappen. Laat dan nu θ 0 een willekeurig gekozen vaste vector van parameters zijn. Voor iedere y Y geldt dan nu dat E θ0 [ exp { θ θ0 ) t sy) }] = y Y exp { θ θ 0 ) t sy) } P θ0 Y = y) = y Y 1 = exp { θ t sy) } = κθ 0, Y) exp { θ θ 0 ) t sy) } exp { θ t 0 sy)} κθ 0, Y) y Y κθ, Y) κθ 0, Y), volgens de eigenschappen van een ERG model en de definitie van een discrete verwachting. κθ,y) Uit het bovenstaande zien we nu in dat κθ 0,Y) een verwachting is ten opzichte van de vaste parameters θ 0. Als deze verwachting te bepalen is dan weten we ook wat de normalisatiefactor is. In een ideale situatie is nu de algemene wet van de grote aantallen toe te passen om deze verwachting te benaderen, echter is het probleem dat hier een onafhankelijke steekproef voor nodig is die niet zomaar te verkrijgen is. Toch is hier een oplossing voor namelijk met een aangepaste versie van de wet van de grote 23

aantallen 1 kunnen we deze verwachting benaderen met een gemiddelde van een steekproef die voldoet de Markov eigenschap en dus is onafhankelijkheid niet nodig. In de volgende sectie zal behandeld worden hoe met een MCMC algoritme deze steekproef bepaald kan worden. Als er nu even vanuit wordt gegaan dat we een random steekproef y 1, y 2,..., y n gegeven hebben die voldoet aan de Markov eigenschap. Dan kunnen we met behulp van deze wet van de grote aantallen en dat de e-macht een reële niet-negatieve functie zeggen dat κθ, Y) κθ 0, Y) = E θ 0 [ exp { θ θ0 ) t sy) }], 5.2) benaderd kan worden met een gemiddelde namelijk 1 n n exp { θ θ 0 ) t sy i ) }. i=1 in subsectie 5.2.2 wordt behandeld hoe er random steekproef gegenereerd kan worden uit de kansmaat P θ0. In het bijzonder geldt er dus dat 1 n P lim exp { θ θ 0 ) t sy i ) } [ { = E θ0 exp θ θ0 ) t sy) }]) = 1, n n i=1 we kunnen dus zeggen dat dit steekproef gemiddelde bijna zeker 1 naar deze verwachting gaat. Dus nu gegeven de steekproef y 1, y 2,..., y n van grafen en als we ervanuit gaan dat we een observatie y obs hebben kunnen we de log-likelihood functie lθ) volgens de definities in hoofdstuk 3 bepalen. Deze is dan gegeven door { lθ) = loglθ)) = log P θ Y = y obs)) exp θ t sy obs ) } ) = log. 5.3) κθ, Y) Om de bovenstaande resultaten te gebruiken zullen we nu de loglikelihood omschrijven met behulp van lθ 0 ). Met wat omschrijfwerk krijgen we dan dat { exp θ t s y obs)} { exp θ t lθ) lθ 0 ) = log log 0 s y obs)} )) κθ, Y) κθ, Y) { = log exp θ 0 θ) t s y obs)} ) κθ, Y). κθ 0, Y) 1 Zie appendix stelling A.4 voor de algemene wet van de grote aantallen en stelling A.8 voor de aangepaste wet. 1 Zie appendix definitie A.2 24

Uit het voorgaande zien we dus dat de term κθ,y) κθ 0,Y) terugkomt. Omdat we nu ook weten deze term benaderd kan worden met een gemiddelde geldt { lθ) lθ 0 ) log exp θ 0 θ) t s y obs)} 1 n exp { θ θ 0 ) t sy i ) }) n 1 n = log n i=1 1 n = log n i=1 i=1 { exp θ θ 0 ) t s y obs)} exp { θ θ 0 ) t sy i ) }) { exp θ θ 0 ) t sy i ) s y obs))}). Als nu de laatste uitdrukking gemaximaliseerd word als functie van θ dan maximaliseren we ongeveer) lθ) lθ 0 ). Maar aangezien we verondersteld hebben dat θ 0 vast gekozen is en dus niet variabel is geldt nu dat we lθ) maximaliseren. Door de bovenstaande uitdrukking te maximaliseren kunnen we dus de meeste aannemelijke schatter ˆθ vinden. Vaak wordt dit maximalisatie probleem numeriek opgelost, een manier om dit iteratief te doen is bijvoorbeeld met de Newton-Raphson methode. 5.2.2. Het genereren van een steekproef De vraag is die nu over is gebleven is hoe we een steekproef van grafen y 1, y 2,..., y n met de Markov eigenschap kunnen genereren uit de kansmaat P θ0. Om deze steekproef te verkrijgen zullen we een MCMC algoritme gaan gebruiken waarmee ook meteen aan de Markov eigenschap voldaan is. Namelijk veronderstel dat we beginnen met een geobserveerde graaf y obs als we op deze graaf een MCMC algoritme toepassen dan zal deze convergeren naar een gegeven verdeling. Als dan elke graaf die gegenereerd is opgeslagen word verkrijgen we zo een steekproef van grafen. We zullen nu twee verschillende MCMC algoritmes bekijken die dit voor elkaar kunnen krijgen. Definitie 5.1 De Gibbs Sampler). Stel we hebben een vaste willekeurig gekozen s- vector van parameters θ 0 en een geobserveerd netwerk y obs N, E) met verbindingsmatrix Y waar we mee beginnen. Het algoritme is dan gedefinieerd als volgt Allereerst selecteren we willekeurig twee punten u, v N met u v. Als er een lijn loopt tussen de twee punten dan definiëren we y + ij als yobs en de graaf waar alleen deze lijn weggelaten wordt noemen we y ij. Als er geen lijn loopt dan definiëren we y + ij als yobs waarbij de lijn tussen u en v toegevoegd wordt en y ij als yobs zelf. We genereren dan de nieuwe graaf y nieuw gegeven y obs op de volgende manier: Ongeacht of y obs al een lijn tussen u en v heeft zal er in de nieuwe graaf een lijn 25

tussen u en v lopen met kans: { exp 1 + exp θ t 0 s s { θ t 0 y + ij ) y + ij s ) s y ij ))} y ij ))}. Als we deze stappen steeds herhalen op de nieuwe graaf y nieuw en ook de verkregen graaf opgeslaan dan verkrijgen we hieruit een steekproef van grafen. Met andere woorden als de bovenstaande waarde kans) groter is dan een willekeurige gegenereerde waarde tussen 0 en 1 het Monte Carlo sample) dan wordt er in die stap een lijn getekend of toegestaan tussen u en v. Als de waarde kans) kleiner of gelijk is aan de waarde gegenereerd door het Monte Carlo proces dan zal er geen lijn tussen u en v lopen in de nieuwe graaf y nieuw. Definitie 5.2 Metropolis-Hastings). Een andere algoritme dat in essentie hetzelfde doet als de Gibbs Sampler is het Metropolis-Hastings algoritme. Het enige verschil is dat er bij Metropolis-Hastings gekeken wordt of er een lijn toegevoegd moet worden of als hij er al is verwijderd moet worden. De eerste stappen gaan analoog met het eerste algoritme tot het nieuwe netwerk gegenereerd moet worden namelijk na y ij + en y ij gedefinieerd te hebben wordt y nieuw op de volgende manier gegenereerd Als er in de gegeven graaf geen lijn bestaat tussen u en v dan wordt er met kans: { ) ))}) min1, π 1 ) = min 1, exp θ0 t s s, een lijn tussen u en v toegevoegd. Als er in de gegeven graaf wel een lijn bestaat tussen u en v dan wordt met kans: { ) ))}) min1, π 2 ) = min 1, exp θ0 t s s, de lijn verwijderd uit de graaf. De verkregen nieuwe graaf y nieuw wordt dan wederom opgeslagen om zo een steekproef te genereren. Op de dan verkregen nieuwe graaf y nieuw wordt dit algoritme herhaald analoog aan het Gibbs Sampler algoritme. Aan de hand van deze algoritmes kan er dus een steekproef verkregen worden. De steekproef voldoet aan de eisen, want aan de Markov eigenschap is per definitie voldaan en aan de andere eis van irreducibiliteit is ook voldaan aangezien het model gedefinieerd is voor een eindig aantal punten. In sectie 5.3 zal ook de detailed balance vergelijking voor deze algoritmes nagegaan worden zodat de aangepaste wet van de grote aantallen toe te passen is. y + ij y + ij y ij y ij 26

5.2.3. De normalisatiefactor Uit de voorgaande secties hebben we nu een methode verkregen om de vector van parameters te schatten. Het enige wat nog resteert is de normalisatiefactor onder θ 0 te bepalen. Door vergelijking 5.1) weten we dat κθ, Y) κθ 0, Y) 1 n met y 1, y 2,..., y n de eerder genoemde random steekproef. n exp { θ θ 0 ) t sy i ) }, 5.4) i=1 Als we nu stellen θ 0 = 0 kunnen we de definitie van een ERG model gebruiken om te verkrijgen dat κθ, Y) = κ0, Y) = e 0 = 1, y Y y Y en is in dit geval de normalisatiefactor dus precies het aantal grafen in Y en is dus alle grafen met N punten en geldt er κ0, Y) = 2 N 2 ). Dus kunnen we vergelijking 5.4) omschrijven tot κθ 0, Y) ) N 1 2 n ) N exp 2 n exp { θ0sy t i ) }) 1 i=1 { θ t 0s y obs)} 1 n n i=1 { 1 exp θ0 t sy i ) s y obs))}). Hiermee hebben we een uitdrukking gevonden voor de normalisatiefactor onder θ 0. 5.3. Convergentie naar evenwicht Een probleem dat zich kan voordoen bij het gebruik van MCMC algoritmes is dat er geen convergentie optreedt en dus zo de wet van de grote aantallen niet toe te passen is. Aangezien er willekeurig twee punten geselecteerd worden in beide algoritmes kunnen we er van uitgaan dat elke mogelijke netwerkconfiguratie bereikt kan worden in een eindig aantal stappen. Met deze eigenschap en de zogenaamde detailed balance vergelijking van de Markovketen in het algoritme kan convergentie aangetoond worden. We definiëren eerst de overgangskans P t y α, y β ) die de kans aangeeft dat de graaf y α veranderd in de graaf y β op tijdstip t in het algoritme. Als er dan nu een verdeling π bestaat zodanig dat voor alle y α, y β Y de volgende vergelijking stand houdt: π y α ) P t y α, y β ) = π y β ) P t y β, y α ), 5.5) dan geldt er dat P en π in zogenaamde detailed balance zijn en dat π de stationaire verdeling is van de Markovketen met overgangskansen P t y α, y β ). 27

We zullen nu aantonen dat deze detailed balance vergelijking geldt voor het Gibbs Sampler algoritme. We definiëren allereerst de overgangskansen van de onderliggende Markovketen voor een zekere θ Θ als: P t y α, y β ) = exp { θ t s y β ) s y α )) } 1 + exp {θ t s y β ) s y α ))}. Als detailed balance verdeling π definiëren we πy) = exp{θt sy)} κθ,y). We kunnen dan nu vergelijking 5.5) omschrijven naar de volgende vorm P t y α, y β ) P t y β, y α ) = πy β) πy α ). 5.6) Als we dan nu eerst de linkerkant van de bovenstaande vergelijking uitschrijven dan krijgen we dat log ) Pt y α, y β ) P t y β, y α ) = log exp{θ t sy β) sy α))} 1+exp{θ t sy β) sy α))} exp{θ t sy α) sy β))} 1+exp{θ t sy α) sy β))} = log exp{θt sy β ) sy α ) sy α ) + sy β )) 1 + exp{θ t sy α sy β )) ) 1 + exp{θ t sy β ) sy α ))} = log exp{θ t sy β ) sy α ))} = θ t sy β ) sy α )). Schrijven we dan nu de rechterkant van de vergelijking uit en zien we in dat er hetzelfde uitkomt namelijk: ) exp{θ t sy β ) πyβ ) log = log κθ,y) πy α ) exp{θ t sy α) κθ,y) = log exp{θ t sy β ) sy α ))} ) = θ t sy β ) sy α )). En zo zien we dat er aan de detailed balance vergelijking is voldaan en dat er in het algoritme convergentie optreedt dus is er aan alle voorwaarden voldaan. Zo hebben we een manier gevonden om de meest aannemelijke schatter te benaderen voor ERG modellen. 28

6. Een toepassing van het exponentiële random graaf model In dit hoofdstuk zal een toepassing van het exponentiële random graaf model behandeld worden. Namelijk we zullen een model gaan bekijken dat gebruikt is bij het modelleren van complexe hersen netwerken. 6.1. Het complexe hersennetwerk model In de neurowetenschappen speelt het onderzoeken naar de verbondenheid van verschillende hersendelen een belangrijke rol. Een van de manieren om dit te bestuderen is door netwerkmodellen toe te passen op een aantal geselecteerde punten binnen de hersenen. We zullen een model gaan definiëren dat bij een onderzoek [15] opgesteld is om een netwerkmodel te maken van de hersenen. In dit onderzoek zijn er 90 vaste punten genomen in de hersenen van proefpersonen en tijdens experimenten werd de verbondenheid tussen deze punten bestudeerd. Na deze experimenten en observaties zijn de verschillende hersennetwerken vertaald in 90 90 verbindingsmatrices zoals gedefinieerd in hoofdstuk 2. In dit hoofdstuk zullen we een model gaan opstellen dat als algemeen hersennetwerk model kan dienen. Voorbeeld 6.1 Grafische weergave van een hersennetwerk). Hieronder is een grafische weergave van het hersennetwerk van een van de proefpersonen gegeven. Figuur 6.1.: Een grafische weergave van een hersennetwerk. De groene lijnen geven verbindingen aan tussen verschillende gebieden in de hersenen van de proefpersoon. 29

Definitie 6.2 De verklarende variabelen binnen hersennetwerken). Om het model verder toe te kunnen lichten zullen er eerst verklarende variabelen gedefinieerd worden. Stel we hebben een gegeven decay parameter τ dan definiëren we nu de volgende variabelen: De geometrically weighted degree variabele GWD) als; de gewogen som van het aantal punten dat verbonden is met precies i andere punten partners) met als gewicht de geometrische reeks 1 exp{ τ}) i. De geometrically weighted edge-wise shared partner variabele GWESP) als; de gewogen som van het aantal punten met precies i gedeelde partners met als gewicht de geometrische reeks 1 exp{ τ}) i. De geometrically weighted non-edge-wise shared partner variabele GWNSP) als; de gewogen som van het aantal niet verbonden punten met precies i gedeelde partners met gewicht de geometrische reeks 1 exp{ τ}) i. De eerste verklarende variabele geeft de verbondenheid aan binnen een hersennetwerk, de tweede variabele geeft de lokale clustering binnen het netwerk aan waarbij dit de lokale dichtheid van de punten aangeeft en de derde variabele geeft de global efficiency dat de gemiddelde lengte van het kortste pad tussen twee punten aangeeft. Voorbeeld 6.3. Om de bovenstaande begrippen te illustreren zal een voorbeeld gegeven worden. Beschouw de volgende netwerkgraaf op 6 punten: 1 2 3 4 6 5 Definieer dan ESP i en NSP i als respectievelijk de niet gewogen som van de GWESP en GWNSP zoals eerder gedefinieerd. Dan geldt er dat ESP 0, ESP 1,..., ESP 4 ) = 1, 5, 1, 0, 0). Immers alleen het paar 1, 2) heeft geen gedeelde partners. De paren punten met 1 gedeelde partners zijn 2, 4), 2, 3), 2, 6), 4, 5) en 5, 6) en het enige paar punten met 2 gedeelte partners is 4, 6). Zo kan ook afgeleidt worden dat NSP 0, NSP 1,..., NSP 4 ) = 1, 4, 2, 0, 0). Er geldt namelijk dat alleen het niet verbonden paar 1, 5) geen gedeelde partners heeft, de paren 1, 4), 1, 3), 1, 6) en 3, 5) van niet verbonden punten hebben 1 gedeelde partner en de paren 2, 5) en 3, 6) hebben 2 gedeelde partners. 30