Deel II. Probabilistische Modellen
|
|
|
- Pieter Bruno Jansen
- 7 jaren geleden
- Aantal bezoeken:
Transcriptie
1 Deel II Probabilistische Modellen
2 Les 10 Entropie, informatie en afstanden van kansverdelingen Het algemeen probleem in de patroonherkenning is, gegeven een aantal klassen K 1,..., K n van mogelijke patronen, een nieuw patroon aan een van de klassen K i toe te wijzen. Denk bij de klassen bijvoorbeeld aan letters in de handschriftherkenning, aan woorden of fonemen in de spraakherkenning of objecten in de beeldherkenning. In het verleden is geprobeerd, regels te vinden waarmee de klasse van een nieuw patroon bepaald kan worden. Maar er is gebleken dat dit slechts zeer beperkt inzetbaar is en de beste methoden in de patroonherkenning gebruiken nu probabilistische modellen. Er zijn verschillende mogelijkheden voor de rol die kansverdelingen hierbij kunnen spelen: Het nieuwe patroon wordt door een vector (of een rij vectoren) in de feature space weergegeven. De klassen zijn gerepresenteerd door kansverdelingen op de feature space die aangeven hoe groot de kans is dat een patroon met een zekere feature vector bij deze klasse hoort. Het patroon wordt dan aan de klasse toegewezen waarvoor deze kans maximaal is. Ook voor het patroon wordt een kansverdeling bepaald en er wordt de klasse gekozen, waarvoor deze kansverdeling het meeste op de kansverdeling van de klasse lijkt. We zullen later zien, dat deze twee mogelijkheden niet eens zo heel verschillend zijn, maar we zullen nu eerst het tweede idee bekijken, omdat dit niet zo intuïtief is Afstanden tussen kansverdelingen Als voorbeeld bekijken we het probleem van de automatische taalherkenning op geschreven tekst. Voor een mens is dat natuurlijk geen erg groot probleem, tenminste bij bekende talen of bij talen waar men iets over weet, maar de automatisering hiervan is al een stukje lastiger. Onze aanpak is, de relatieve frequenties van de letters te gebruiken. Het is natuurlijk bekend dat de letters in het alfabet niet even vaak gebruikt worden, in het Nederlands is bijvoorbeeld de letter E de meest frequente. Het idee is dat de relatieve frequenties voor verschillende talen er verschillend uit zien en dat we hiermee de talen kunnen onderscheiden. Vanaf de 16de eeuw zijn de relatieve frequenties in de cryptanalyse gebruikt om versleutelingen met monoalfabetische substitutie (elke letter wordt door een andere letter vervangen, maar één letter steeds door dezelfde) te kraken. Tot op die tijd dacht men eigenlijk dat zo n versleuteling niet te kraken was, omdat er veel te veel sleutels bestaan (26! ) om alle te proberen. Maar als men al weet dat de meest frequente letter in de versleuteling een E is en de volgende waarschijnlijk een N kan men al gauw verdere letters gokken. 134
3 Het idee dat de letters überhaupt verschillende frequenties hebben, is waarschijnlijk pas na de opkomst van de boekdrukkerij (door Gutenberg) ontdekt, omdat de loodletters verschillend snel versleten waren. Voor een gegeven taal kan men nu op een grote achtergrondtekst de frequenties tellen en dit als kansverdeling van de stochast X die de letters beschrijft nemen. Men krijgt zo de kansen p 1 := p(x = A), p 2 := p(x = B),..., p 26 := p(x = Z), p 27 := p(x = spatie). De volgende tabel geeft deze kansverdelingen voor de vier talen Nederlands, Engels, Duits en Fins weer. De gebruikte achtergrondtekst is een tekst van de Europese Unie die in de verschillende talen vertaald is en ongeveer letters bevat. letter Nederlands Engels Duits Fins A 5.55% 6.37% 4.14% 9.57% B 1.45% 0.99% 1.82% 0.10% C 1.45% 3.20% 2.09% 0.05% D 4.72% 2.56% 4.09% 1.40% E 17.31% 9.93% 13.89% 8.50% F 0.68% 1.95% 2.28% 0.07% G 2.79% 1.41% 2.67% 0.19% H 1.83% 3.00% 3.00% 1.77% I 6.09% 7.62% 8.22% 9.90% J 0.70% 0.10% 0.14% 1.57% K 1.51% 0.27% 1.21% 4.74% L 2.87% 2.93% 2.83% 3.75% M 1.98% 2.52% 2.81% 2.65% N 8.67% 7.63% 9.14% 8.08% O 4.94% 7.73% 2.92% 6.68% P 1.53% 2.78% 1.03% 1.78% Q 0.01% 0.04% 0.01% 0.01% R 5.81% 5.15% 6.69% 2.16% S 3.44% 4.92% 5.10% 8.24% T 5.63% 8.30% 5.40% 9.54% U 2.01% 2.57% 3.85% 4.70% V 2.77% 0.70% 0.80% 2.10% W 0.67% 0.75% 0.77% 0.02% X 0.05% 0.12% 0.05% 0.01% Y 0.04% 0.84% 0.06% 1.71% Z 0.55% 0.02% 1.36% 0.05% spatie 14.94% 15.61% 13.63% 10.64% Uit deze tabel kan men concluderen dat de kansverdelingen voor Nederlands, Engels en Duits enigszins op elkaar lijken, terwijl de verdeling voor Fins er behoorlijk anders uit ziet. Bijvoorbeeld bepaalt de relatieve frequentie van de spatie de gemiddelde lengte van de woorden (namelijk door len = 1 p 1) en men ziet dat de woorden in het Fins duidelijk langer zijn dan in de andere talen. 135
4 Een goed idee van de frequentieverdelingen krijgt men door de verdelingen als histogrammen te plotten, zo als in Figuur II.1 te zien Figuur II.1: Letter-frequentieverdelingen voor Nederlands (links boven) en Engels (rechts boven), Duits (links onder) en Fins (rechts onder). Als men nu een nieuwe tekst krijgt waarvan men de taal wil bepalen, berekent men de frequentieverdeling voor deze tekst en vergelijkt deze met de bekende kansverdelingen van de verschillende talen. De aanname is dan, dat de tekst bij die taal hoort waarvoor de kansverdelingen het meeste op elkaar lijken. De vraag is nu hoe men objectief bepaald, dat een kansverdeling meer op een dan op een andere lijkt. Om een eenvoudige notatie te krijgen, beschrijven we een discrete kansverdeling P op de verzameling Ω = {1,..., n} door de vector van kansen p i := p(i), dus P = (p 1, p 2,..., p n ). Voor een tweede kansverdeling Q = (q 1, q 2,..., q n ) op dezelfde verzameling Ω willen we nu een afstand tussen P en Q definiëren. Een voor de hand liggende idee is, de euclidische afstand van de vectoren P 136
5 en Q in de n-dimensionale ruimte te nemen, dit geeft ( ) 1 2 d 2 (P, Q) = (p i q i ) 2. Maar net zo goed zouden we in plaats van de kwadraten van de verschillen tussen p i en q i ook de absolute waarden van de verschillen kunnen optellen: d 1 (P, Q) = p i q i. We kunnen zelfs heel algemeen een macht van de verschillen tussen p i en q i optellen, dit geeft ( ) 1 r d r (P, Q) = p i q i r. Hierbij hoeft r niet eens een geheel getal te zijn, we kunnen een willekeurige r met 0 < r < kiezen. De reden dat we bij een r-de macht ook weer een r-de wortel trekken, heeft ermee te maken dat men graag wil dat een vermenigvuldiging van de vectoren met een constante factor tot een vermenigvuldiging van de afstand met dezelfde factor leidt. Voor de volledigheid noemen we nog een verdere afstand, die we formeel kunnen krijgen als we bij d r (P, Q) de r laten lopen. Dan krijgen we namelijk de afstand d (P, Q) = max i p i q i die gewoon het grootste verschil in een van de componenten aangeeft. Maar als we naar vectoren van kansverdelingen kijken, is dit meestal geen bijzonder nuttige afstand. De vraag welke afstand nu een slimme keuze is, heeft helaas geen eenvoudig antwoord. Het hangt namelijk van het probleem af. Hoe groter de waarde van de parameter r is hoe groter is relatief het gewicht van de grotere verschillen en hoe kleiner de invloed van kleine verschillen. Als r heel groot wordt, speelt inderdaad alleen maar het grootste verschil nog een rol. In sommige problemen is het misschien wenselijk, kleine verschillen te onderdrukken, maar soms ligt de informatie juist in de componenten met kleine verschillen. In een iets algemenere opzet zou men voor elke component een functie d i (p i, q i ) definiëren, die de afstand in deze component aangeeft. Als afstand krijgt men dan d(p, Q) = d i (p i, q i ). Hierbij kan de functie d i aan de ene kant ervoor zorgen, dat componenten met belangrijkere informatie een hoog gewicht krijgen, maar ook dat afhankelijk van de kansen een hoger of lager gewicht toegewezen wordt. 137
6 Een eenvoudig voorbeeld hiervan is het toewijzen van gewichten aan de enkele componenten, dus bijvoorbeeld d(p, Q) = w i p i q i of d(p, Q) = w i p i q i. Het laatste is een inproduct van de twee vectoren P en Q en geeft weer dat we in principe ook de hoek tussen twee vectoren als een soort afstand kunnen interpreteren, zeker als de lengte van de vectoren genormeerd is. Deze methode wordt bijvoorbeeld in (eenvoudige) zoekmachines gebruikt, de gewichten zijn dan bijvoorbeeld de negatieve logaritmen van de relatieve frequenties van de woorden. Zo houdt men rekening ermee, dat frequente woorden weinig informatie over een document geven, terwijl minder frequente woorden vaak een belangrijke hint zijn. De afstanden die we tot nu toe hebben bekeken, hebben op zich weinig met kansverdelingen te maken, want we hebben eigenlijk alleen maar naar de vectoren gekeken. Het enige wat van de kansverdelingen over blijft, is dat n p i = 1. We zullen nu naar een alternatieve aanpak kijken, die geïnspireerd is van de communicatie- en informatietheorie Onzekerheid Als we een experiment of gebeurtenis door een kansverdeling beschrijven, drukken we hiermee uit dat we niet zeker over de uitkomst zijn. Maar we hebben ook een intuïtieve idee dat de onzekerheid soms groter is dan in andere gevallen. Bijvoorbeeld zijn we onzekerder over de uitkomst bij het werpen van een dobbelsteen dan bij het werpen van een munt, omdat er in het ene geval 6 mogelijke uitkomsten zijn, maar in het andere geval slechts 2. Ook bij een sportwedstrijd hangt onze onzekerheid ervan af hoe we de kansen voor de uitkomst inschatten: Als alleen maar de KI-studenten onderling een zwemwedstrijd uitvechten is de onzekerheid waarschijnlijk groter dan als Pieter van den Hoogenband ook meedoet. Het is duidelijk dat de onzekerheid bepaald wordt door de kansen die we aan de mogelijke uitkomsten toewijzen. We kunnen ons dus afvragen hoe we voor een kansverdeling P = (p 1,..., p n ) een waarde voor de onzekerheid kunnen berekenen. Het idee dat we hiervoor hebben, is een functie H(P ) = H(p 1,..., p n ) te vinden, die de onzekerheid weergeeft. Omdat we intuïtief wel een idee van de onzekerheid bij een kansverdeling hebben, moet zo n functie zekere eigenschappen hebben. In het jaar 1948 is hiervoor door C.E. Shannon (dezelfde Shannon als bij het sampling theorema) in het kader van de communicatietheorie een voorstel gedaan aan welke eisen zo n functie H(P ) zou moeten voldoen. De link tussen communicatietheorie en kansrekening bestaat erin, dat communicatie als transmissie (van bit-strings, dus van ketens van 0en en 1en) via kanalen gemodelleerd wordt, waarbij er toevallig fouten kunnen optreden. De vraag is dan, hoe veel onzekerheid in het ontvangen signaal ligt. De eisen van Shannon zijn als volgt: 138
7 (1) Voor kansverdelingen P op n punten is H(P ) maximaal als P de uniforme verdeling is met p i = 1 n voor alle i. Dit zegt dat we bij n mogelijke uitkomsten de grootste onzekerheid hebben, als elke optie dezelfde kans heeft. (2) De onzekerheid hangt alleen maar van de kansen p i, maar niet van hun volgorde af, dus geldt H(p 1,..., p n ) = H(p π(1),..., p π(n) ) voor elke permutatie π van de indices. (3) H(P ) 0 en H(P ) = 0 alleen maar als één van de p i = 1 is (en de anderen dus 0). Dit betekent dat we altijd onzeker zijn, behalve als een uitkomst kans 1 heeft en dus zeker gaat gebeuren. (4) H(p 1,..., p n ) = H(p 1,..., p n, 0), dus de onzekerheid verandert niet, als we de kansverdeling uitbreiden tot meer mogelijke gebeurtenissen, maar de nieuwe opties kans 0 hebben en dus nooit kunnen gebeuren. (5) H( 1 n,..., 1 n ) H( 1 n+1,..., 1 n+1 ), d.w.z. de onzekerheid bij een uniforme verdeling met n + 1 mogelijke uitkomsten is groter dan bij n mogelijke uitkomsten. (6) H(P ) is een continue functie in de argumenten p 1,..., p n, want als we de kansen maar heel weinig veranderen, verandert ook de onzekerheid nauwelijks. (7) H( 1 mn,..., 1 mn ) = H( 1 m,..., 1 m ) + H( 1 n,..., 1 n ). Als we twee onafhankelijke experimenten met uniforme verdelingen tot een gezamenlijk experiment combineren, willen we dat de onzekerheid van het gecombineerde experiment juist de som van de onzekerheden bij de enkele experimenten is. (8) We splitsen de verzameling Ω = {1,..., n} op in de twee deelverzamelingen Ω 1 = {1,..., r} en Ω 2 = {r + 1,..., n}. De totale kans voor de uitkomsten in Ω 1 is q 1 = p p r en de kans voor Ω 2 is q 2 = p r p n. De onzekerheid of een uitkomst in Ω 1 of Ω 2 ligt, is H(q 1, q 2 ), de onzekerheid over een uitkomst in Ω 1 is H( p 1 q 1,..., pr q 1 ), omdat ( p 1 q 1,..., pr q 1 ) juist de kansverdeling op Ω 1 is. Net zo is H( p r+1 q 2,..., pn q 2 ) de onzekerheid over een uitkomst in Ω 2. De totale onzekerheid over de uitkomst van P is samengesteld uit de onzekerheden in welke deelverzameling een uitkomst ligt en de onzekerheden van de twee deelverzamelingen, die met hun kansen q 1 en q 2 gewogen zijn, dus moet gelden: H(p 1,..., p n ) = H(q 1, q 2 ) + q 1 H( p 1 q 1,..., p r q 1 ) + q 2 H( p r+1 q 2,..., p n q 2 ). De meeste van deze punten zijn redelijk vanzelfsprekend, alleen maar de punten (7) en (8) stellen inhoudelijke eisen, namelijk hoe de onzekerheden van verschillende gebeurtenissen gecombineerde moeten worden. Het interessante is 139
8 nu, dat deze eisen zo sterk zijn dat er in principe alleen maar een functie H(P ) bestaat die aan de eisen voldoet, namelijk de functie: H(P ) = H(p 1,..., p n ) = λ p i log(p i ) met λ > 0, waarbij de som alleen maar over de p i met p i 0 loopt. We zullen dit hier niet bewijzen, maar wel nagaan dat de functie H(P ) aan de eisen (1)-(8) voldoet. Hierbij zijn de punten (2), (3), (4) en (6) duidelijk. (1) In het punt x = 1 is log(x) = 0 en log (x) = 1, dus is de lijn met vergelijking y = x 1 de raaklijn aan de grafiek van de logaritme in het punt x = 1. Omdat log (x) = 1 < 0, blijft de logaritme steeds onder x 2 deze raaklijn, daarom geldt log(x) x 1. Voor twee kansverdelingen P = (p 1,..., p n ) en Q = (q 1,..., q n ) volgt hieruit dat p i log( q i p i ) p i ( q i p i 1) = q i p i = 1 1 = 0. Wegens log( q i p i ) = log(q i ) log(p i ) volgt hieruit dat p i log(p i ) p i log(q i ). Als we nu voor Q speciaal de uniforme verdeling met q i = 1 n kiezen, volgt hieruit aan de ene kant dat H(P ) p i log( 1 n ) = p i log(n) = log(n). Maar aan de andere kant is H(Q) = n 1 n log( 1 n ) = log(n), dus is de waarde voor de uniforme verdeling inderdaad maximaal. (5) Dit volgt nu meteen uit deel (1), omdat voor een uniforme verdeling geldt dat H( 1 n,..., 1 n ) = log(n) en log(n) < log(n + 1). (7) Dit volgt ook uit deel (1), omdat log(mn) = log(m) + log(n). (8) Uit q 1 = r p i en q 2 = n i=r+1 p i volgt H(q 1, q 2 ) + q 1 H( p 1 q 1,..., p r q 1 ) + q 2 H( p r+1 = q 1 log(q 1 ) q 2 log(q 2 ) q 1 r = r p i log(q 1 ) i=r+1 i=r+1 p i log(q 2 ) p i (log(p i ) log(q 2 )) = 140 q 2,..., p n q 2 ) p i log( p i ) q 2 q 1 q 1 i=r+1 p i q 2 log( p i q 2 ) r p i (log(p i ) log(q 1 )) p i log(p i ) = H(p 1,..., p n ).
9 We hebben bij punt (1) twee belangrijke resultaten bewezen, die we nog eens expliciet willen noemen: (I) Voor een uniforme verdeling P op n punten is H(P ) = log(n). (II) Voor twee kansverdelingen P en Q is p i log(q i ) minimaal voor Q = P. Omdat de ideeën voor het formaliseren van onzekerheid uit de communicatietheorie komen waar men het over bit-strings heeft, is het gebruikelijk de functie H(P ) niet met behulp van de natuurlijke logaritme (met basis e) maar met de logaritme met basis 2 te formuleren. Omdat 2 log(x) = log(x) log(2) geeft dit alleen maar een verschil van de constante factor log(2). De functie H(P ) = H(p 1,..., p n ) = p 2 i log(p i ) heet de entropie van de kansverdeling P. Het begrip entropie speelt ook in de natuurkunde, vooral in de thermodynamica, een belangrijke rol. Hier geeft de entropie een maat voor de wanorde in een systeem. De tweede hoofdstelling van de thermodynamica zegt (in het grof) dat in een gesloten systeem de entropie nooit afneemt, d.w.z. dat zonder invloed van buiten de wanorde in een systeem steeds toeneemt. (Dit is natuurlijk ook een alledaagse ervaring.) We hebben tot nu toe de entropie alleen maar voor een kansverdeling gedefinieerd. Vaak spreekt men immers ook van de entropie van een stochast X. Hiermee is de entropie van de kansverdeling van de mogelijke uitkomsten van X bedoelt. Stel een stochast X heeft de mogelijke uitkomsten x 1,..., x n, dan geeft p i := p(x = x i ) de kans op de i-de mogelijke uitkomst en de kansverdeling P = (p 1,..., p n ) beschrijft de kansen van de mogelijke uitkomsten van X. We definiëren dus de de entropie van een stochast X met mogelijke uitkomsten x 1,..., x n door H(X) := p(x = x i ) 2 log(p(x = x i )). We zullen het in deze les alleen maar over discrete kansverdelingen hebben. De overgang tot continue kansverdeling is echter geen probleem: In plaats van de kansen p i krijgen we een dichtheidsfunctie f(x) voor de kansverdeling en de som over de mogelijke uitkomsten wordt de integraal over de continue variabel x. Voor de entropie van een stochast X met dichtheidsfunctie f(x) krijgt men zo: H(X) := f(x) 2 log(f(x)) dx. We komen even terug op het voorbeeld van de frequentieverdelingen voor de letters in verschillende talen. Als we voor deze kansverdelingen de entropieën uitrekenen, krijgen we: 141
10 H(Nederlands) = 4.019, H(Engels) = 4.070, H(Duits) = 4.109, H(Fins) = We zullen later nog zien hoe we deze waarden moeten interpreteren. Het enige wat we nu al kunnen zeggen is dat de onzekerheid in het Duits het grootst en in het Fins het kleinste lijkt. Om in te kunnen schatten, hoe significant de verschillen tussen de talen zijn, vergelijken we de waarden met de entropie van de uniforme verdeling op 27 letters, deze is 2 log(27) Dit betekent dat de entropieën tot op ongeveer 0.7 na bij de maximaal mogelijke waarde liggen, en het verschil van meer dan 0.1 tussen Duits en Fins lijkt dus redelijk groot Voorwaardelijke entropie Een belangrijke vraag is hoe zich de entropie van verschillende stochasten gedraagt als we deze combineren. We zouden verwachten, dat voor twee onafhankelijke stochasten X en Y de entropie van de combinatie van X en Y de som van de entropieën van X en Y is. Voor stochasten X, Y met uniforme verdelingen is dit juist eis (7) in onze lijst. Voor twee stochasten X en Y geldt inderdaad de stelling: H(X, Y ) H(X) + H(Y ) en H(X, Y ) = H(X) + H(Y ) alleen maar als X en Y onafhankelijk zijn. Dit zien we als volgt in: We definiëren de kansen voor de stochasten als p i := p(x = x i ) voor 1 i n, y j := p(y = y j ) voor 1 j m en de gecombineerde kans als r ij := p(x = x i, Y = y j ). Als we voor vaste i de kansen r ij voor alle j optellen, krijgen we de kans op x i, dus geldt p i = m j=1 r ij en evenzo q j = n r ij. We hebben dus H(X) + H(Y ) = = = p 2 i log(p i ) m q 2 j log(q j ) j=1 m ( r ij ) 2 log(p i ) j=1 j=1 j=1 m ( r ij ) 2 log(q j ) j=1 m r ij ( 2 log(p i ) + 2 log(q j )) = m r 2 ij log(r ij ) = H(X, Y ). j=1 m r 2 ij log(p i q j ) De ongelijkheid r ij 2 log(p i q j ) r ij 2 log(r ij ) volgt hierbij weer uit de eigenschap (II) die we boven hebben bewezen, omdat ook p i q j een kansverdeling op {1,..., n} {1,..., m} is. We zien dat H(X) + H(Y ) alleen maar geldt als p i q j = r ij voor alle paren (i, j), dus als p(x = x i ) p(y = y j ) = p(x = x i, Y = y j ), maar dit is precies de uitspraak dat X en Y onafhankelijk zijn. 142
11 Als we stochasten combineren, moeten we het natuurlijk ook over voorwaardelijke kansen hebben. Maar voorwaardelijke kansen zijn ook gewoon kansverdelingen: Als we de kans op een uitkomst x i voor de stochast X onder de voorwaarde A weer als p i := p(x = x i A) beschrijven, is P = (p 1,..., p n ) een kansverdeling en n p i = 1. We definiëren daarom de voorwaardelijke entropie H(X A) door H(X A) := p(x = x i A) 2 log(p(x = x i A)). Nog algemener kunnen we ook de voorwaardelijke entropie van een stochast X, gegeven een andere stochast Y definiëren. Het idee hierbij is, dat de uitkomsten van de stochast Y de onzekerheid over de stochast X kunnen veranderen. We lopen dus over alle mogelijke uitkomsten y j van de stochast Y, berekenen voor deze uitkomsten de voorwaardelijke entropie H(X y j ) en tellen deze entropieën op, met de kansen op de enkele y j als gewichten, dus: H(X Y ) := = m m H(X Y = y j )p(y = x j ) j=1 j=1 p(x = x i Y = y j ) 2 log(p(x = x i Y = y j )) p(y = y j ). Dat deze definitie enigszins zinvol is, zien we aan de twee extreme gevallen Y = X en X en Y onafhankelijk: Als Y = X is, dan is p(x = x i X = x j ) = 1 als i = j en 0 als i j. Maar dan geldt H(X X) = n p(x = x i X = x i ) 2 log(p(x = x i X = x i ))p(x = x i ) = n 1 0 p(x = x i) = 0. Er geldt dus H(X X) = 0. Dit zegt dat er geen onzekerheid over X meer bestaat, als we de uitkomsten van X al kennen. Omgekeerd, als X en Y onafhankelijk zijn, dan geldt p(x = x i Y = y j ) = p(x = x i ), en hieruit volgt H(X Y ) = m n j=1 p(x = x i) 2 log(p(x = x i ))p(y = y j ) = n p(x = x i) 2 log(p(x = x i )) = H(X). Voor onafhankelijke stochasten X en Y geldt dus dat H(X Y ) = H(X). Dit betekent, dat de kennis over Y de onzekerheid bij X niet reduceert, en dat is precies wat we bij onafhankelijke stochasten zouden verwachten. We kunnen nu ook de precieze samenhang tussen de voorwaardelijke entropie H(X Y ) en de entropie van de combinatie van X en Y aangeven, er geldt namelijk H(X, Y ) = H(Y ) + H(X Y ) of te wel H(X Y ) = H(X, Y ) H(Y ). 143
12 Dit zien we als volgt in: We schrijven weer r ij := p(x = x i, Y = y j ) voor de gecombineerde kans op x i en y j. Volgens de definitie van de voorwaardelijke kans geldt dat p(x = x i Y = y j ) = r ij q j en dus r ij = p(x = x i Y = y j )q j, waarbij we weer q j := p(y = y j ) schrijven. Er geldt dus: H(X, Y ) = i,j r ij 2 log(r ij ) = i,j r ij 2 log(p(x = x i Y = y j )q j ) = i,j r ij 2 log(p(x = x i Y = y j )) i,j r ij 2 log(q j ) = i,j = i,j m r 2 ij log(p(x = x i Y = y j )) q 2 j log(q j ) j=1 p(x = x i Y = y j )q j 2 log(p(x = x i Y = y j )) H(Y ) = H(X Y ) + H(Y ). Hieruit volgt in het bijzonder dat H(X Y ) H(X), want H(X Y ) = H(X, Y ) H(Y ) H(X) + H(Y ) H(Y ) = H(X), en dus is de voorwaardelijke entropie van een stochast nooit groter dan zijn absolute entropie. Ook dit is een eigenschap die we van een redelijke maat voor onzekerheid hadden kunnen verwachten, want door aanvullende informatie zouden we niet onzekerder over de uitkomsten van X worden Informatie We hebben bij de voorwaardelijke entropie gezien, dat kennis over een stochast Y de onzekerheid over de stochast X kan reduceren. Het verschil van de entropieën H(X) H(X Y ) kunnen we dus zien als de informatie die Y aan onze kennis over X bijdraagt. Dit lijdt tot een precieze definitie van het begrip informatie, die we nu gaan bespreken. Net als bij de entropie geven we ook bij de informatie aan, wat we van een functie verwachten, die de informatie van een gebeurtenis beschrijft. We schrijven I(X = x i ) voor de informatie die de uitkomst x i van de stochast X oplevert. Maar eigenlijk mag een abstracte definitie van informatie niet van de specifieke uitkomst afhangen, maar alleen maar van de kans op deze uitkomst. We willen dus dat I(X = x i ) = I(p i ) voor p i = p(x = x i ). Een verdere eigenschap eisen we voor de informatie van onafhankelijke gebeurtenissen: Als X en Y onafhankelijke stochasten zijn, geldt met p i = p(x = x i ) en q j = p(y = y j ) dat p(x = x i, Y = y j ) = p i q j. Maar het ligt voor de hand dat de informatie die in de uitkomst X = x i en Y = y j zit, de som van de informaties van de enkele uitkomsten is. Dit geeft de eis I(p i q j ) = I(p i ) + I(q j ). Met een soortgelijke (maar eenvoudigere) redenering als bij de entropie kan men nu aantonen dat de functie I noodzakelijk van de vorm I(p) = λ log(p) is, en ook hier kiest men voor de logaritme met basis 2, dus definieert men: 144
13 De informatie van een uitkomst X = x met p(x = x) = p is I(p) := 2 log(p). Deze definitie van informatie klopt ook met onze intuïtie dat een gebeurtenis met een kleine kans meer informatie oplevert dan een gebeurtenis met een grote kans, namelijk het gewone. Een belangrijke rechtvaardiging van deze definitie van informatie vinden we weer in de communicatietheorie: Als we een bit-string van lengte n produceren door toevallig n keer een 0 of 1 te kiezen, heeft elke bit van de string de informatie I( 1 2 ) = 2 log( 1 2 ) = 2 log(2) = 1 en de totale informatie in de string is dus n 2 log( 1 n ) = n, omdat de keuzes van de bits onafhankelijk zijn. Het is daarom ook gebruikelijk, informatie (en entropie) in bits aan te geven. Met behulp van het begrip van informatie kunnen we nu de entropie herinterpreteren. Er geldt H(X) = p i 2 log(p i ) = p i I(p i ) dus is de entropie het gemiddelde van de informatie in de enkele uitkomsten, gewogen met de kansen van de uitkomsten. In de taal van de kansrekening is zo n gemiddelde juist de verwachtingswaarde, de entropie van een stochast is dus de verwachtingswaarde van de informatie van de enkele uitkomsten. Maar dit kunnen we ook nog iets anders formuleren: Een uitkomst met informatie I = 2 log(n) heeft kans p = 1 n. Als de uitkomst bij een uniforme verdeling hoort, is 1 p = n het aantal mogelijke uitkomsten. Dit betekent dat we voor een uniforme verdeling het aantal mogelijke uitkomsten kunnen schrijven als n = 2 I. Maar we hebben nu gezien dat de entropie de verwachtingswaarde van de informatie in de enkele uitkomsten is, dus kunnen we 2 H(X) interpreteren als het gemiddelde aantal alternatieven, dat we bij de stochast X kunnen verwachten, met andere woorden de onzekerheid bij onze stochast X is even groot als de onzekerheid bij een uniforme verdeling met 2 H(X) mogelijke uitkomsten. Met deze interpretatie van de entropie kijken we nu nog eens naar het voorbeeld van de frequentieverdelingen. We hebben: 2 H(Nederlands) = 16.21, 2 H(Engels) = 16.80, 2 H(Duits) = 17.26, 2 H(Fins) = Het gemiddelde aantal alternatieven, dat we in de verschillende talen voor een letter verwachten, ligt dus tussen voor Fins en voor Duits, terwijl we bij een uniforme verdeling 27 alternatieven zouden hebben. We hebben in het begin van deze sectie gezegd, dat het verschil van de entropieën H(X) H(X Y ) de informatie is, die Y over X onthuld. Als notatie hiervoor gebruiken we I(X Y ) := H(X) H(X Y ). 145
14 Er geldt I(X X) = H(X), want H(X X) = 0 en voor onafhankelijke stochasten X en Y is I(X Y ) = 0, omdat H(X Y ) = H(X) + H(Y ). Bij deze definitie kijken we naar de gemiddelde reductie die de enkele uitkomsten van Y voor de entropie van X opleveren. We kunnen natuurlijk ook naar de informatie kijken, die een bepaalde uitkomst Y = y voor de stochast Y over X oplevert, deze is I(X Y = y) = H(X) H(X Y = y). Er bestaat een iets verrassende symmetrie voor het onthullen van informatie van een stochast over de andere. We hebben namelijk I(X Y ) = H(X) H(X Y ) = H(X) (H(X, Y ) H(Y )) = H(Y ) + (H(X) H(X, Y )) = H(Y ) H(Y X) = I(Y X), dus de stochast X onthuld over Y net zo veel informatie als de stochast Y over X Kullback-Leibler afstand We komen nu nog eens terug op de afstanden tussen kansverdelingen. hebben gezien dat p 2 i log(p i ) p 2 i log(q i ), dus pi ( 2 log(p i ) 2 log(q i )) = p 2 i log( p i ) 0 q i We met gelijkheid alleen maar als p i = q i voor alle i. Men kan dus p i 2 log( p i q i ) als een soort afstand tussen de kansverdelingen Q = (q 1,..., q n ) en P = (p 1,..., p n ) opvatten en men noemt d KL (P, Q) := p i 2 log( p i q i ) de Kullback-Leibler afstand die Q van P heeft. Merk op dat d KL (P, Q) niet symmetrisch in de argumenten P en Q is, d.w.z. in het algemeen is d KL (P, Q) d KL (Q, P ). De Kullback-Leibler afstand wordt vaak gebruikt om de afstanden van verschillende kansverdelingen Q van een vaste (doel-)kansverdeling P te bepalen. Maar het is makkelijk om met behulp van d KL (P, Q) een afstand maken, die wel symmetrisch in de argumenten is, namelijk d(p, Q) := 1 2 (d KL(P, Q) + d KL (Q, P )) = 1 2 pi 2 log( p i q i ) + q i 2 log( q i p i ). Ook dit heet meestal de Kullback-Leibler afstand, soms met het attribuut symmetrisch erbij. Let op dat de symmetrische Kullback-Leibler afstand geen afstandsfunctie in de gebruikelijke zin is, zo als de euclidische afstand bijvoorbeeld. Een echte afstandsfunctie moet namelijk de volgende drie eigenschappen hebben: (i) d(p, Q) 0 en d(p, Q) = 0 alleen maar als P = Q, 146
15 (ii) d(p, Q) = d(q, P ) (symmetrie), (iii) d(p, Q) + d(q, R) d(p, R) (driehoeksongelijkheid). De symmetrische Kullback-Leibler afstand heeft wel de eerste twee eigenschappen, maar voldoet niet aan de driehoeksongelijkheid. De Kullback-Leibler afstand geeft het verschil tussen p 2 i log(q i ) en de entropie H(P ) van de kansverdeling P aan, er geldt dus p 2 i log(q i ) = H(P ) + d KL (P, Q). Als we nu 2 H(P ) als gemiddelde alternatieven interpreteren, die we bij een stochast X met kansverdeling P verwachten, kunnen we ook de Kullback-Leibler afstand op deze manier interpreteren. Er geldt 2 H(P )+dkl(p,q) = 2 H(P ) 2 dkl(p,q), dus is 2 dkl(p,q) de factor waarmee we het gemiddelde aantal alternatieven moeten vermenigvuldigen, omdat we de verkeerde kansverdeling Q in plaats van P toepassen. De volgende tabellen geven links de Kullback-Leibler afstanden tussen de talen uit het voorbeeld met de frequentieverdelingen en rechts de factoren 2 d KL(P,Q). Hierbij kan men een factor interpreteren als een afwijking van 13.8% van het aantal verwachtte alternatieven bij de juiste kansverdeling. taal NL EN DU FI NL EN DU FI taal NL EN DU FI NL EN DU FI Het is opvallend hoe sterk Duits en Fins van elkaar afwijken, terwijl Nederlands en Duits redelijk dicht bij elkaar liggen. De Kullback-Leibler afstand speelt een belangrijke rol bij het bepalen van de parameters van probabilistische modellen. Het idee is dat op een training set de kansen p i bepaald worden en vervolgens een probabilistisch model gebouwd wordt, dat van enkele parameters afhangt. Dit kan bijvoorbeeld een normaalverdeling zijn, met als parameters de verwachtingswaarde en de variantie. Deze parameters kunnen meestal niet rechtstreeks berekent worden, maar worden in een iteratief proces benadert, waarbij de Kullback-Leibler afstand stapsgewijs kleiner wordt. Als geen verbetering meer bereikt wordt, worden deze parameters voor het model gekozen. Belangrijke begrippen in deze les afstanden tussen kansverdelingen onzekerheid, entropie voorwaardelijke entropie 147
16 informatie Kullback-Leibler afstand Opgaven 44. Er vinden twee paardenraces plaats, het eerste met 7 paarden en het tweede met 8 paarden. In de eerste race hebben 3 paarden kans 1 6 om te winnen, de andere 4 hebben kans 1 8. In de tweede race hebben 2 paarden kans 1 4 om te winnen en de andere 6 kans Maak eerst een gok in welk van de races de uitkomst onzekerder is (en geef een reden hiervoor), en bereken dan de entropieën voor de twee races. 45. Er wordt met een eerlijke dobbelsteen gedobbeld. De stochast X geeft het aantal ogen dat gedobbeld wordt, de stochast Y heeft de waarde 0 of 1, afhankelijk of het aantal ogen even of oneven is. Bereken H(X), H(Y ) en H(X Y ). 46. Voor een geheel getal N neemt de stochast X volgens een uniforme verdeling de waarden 1, 2,..., 2N aan. De stochast Y is 0 als de waarde van X even is en Y is 1 als de waarde van X oneven is. Laat zien dat H(X Y ) = H(X) 1 en dat H(Y X) = De uitkomsten van twee (eerlijke) dobbelstenen worden door de stochasten X en Y beschreven, de som van de twee dobbelstenen door de stochast Z. Ga na dat voor de combinatie van de stochasten X en Y geldt dat H(X, Y ) = H(X) + H(Y ) en dat H(Z) < H(X, Y ). 48. Een stochast X heeft een binomiale verdeling met parameters n en p, d.w.z. de kans op de i-de uitkomst is p(x = i) = ( n i) p i (1 p) n i. Laat zien dat H(X) = n(p 2 log(p) + (1 p) 2 log(1 p)). 49. Waar zit meer informatie in, in een string van 10 letters uit {A,..., Z} of in een string van 26 cijfers uit {0,..., 9}? 50. Er wordt met een eerlijke dobbelsteen gedobbeld. Wat is de informatie, die de kennis dat het aantal ogen niet door 3 deelbaar is, over het aantal ogen onthuld? 51. Uit onderzoek is gebleken dat 70% van de mannen donker haar hebben en 25% van de vrouwen blond zijn. Verder is bekend dat 80% van de blonde vrouwen met een donkerharig man trouwen. Hoeveel informatie over de haarkleur van de man onthuld de haarkleur van zijn vrouw? 148
11 Informatie en entropie.
1 11 Informatie en entropie. 11.1 Discrete kansverdelingen. Als we een experiment doen levert dat informatie op. Als de uitkomst van het experiment vrijwel zeker is, dan is dat weinig informatie. Als de
en-splitsingen: een aantal alternatieven worden parallel toegepast, of-splitsingen: van een aantal alternatieven wordt er één toegepast,
Kansrekening voor Informatiekunde, 25 Les 8 Proces analyse Veel processen laten zich door netwerken beschrijven, waarin knopen acties aangeven en opdrachten langs verbindingen tussen de knopen verwerkt
Voorwaardelijke kansen, de Bayes regel en onafhankelijkheid
Les 4 Voorwaardelijke kansen, de Bayes regel en onafhankelijkheid Sommige vragen uit de kanstheorie hebben een antwoord dat niet met de intuïtie van iedereen klopt. Een voorbeeld hiervoor is het Monty-Hall
Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening
Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Inleveren: 12 januari 2011, VOOR het college Afspraken Serie 1 mag gemaakt en ingeleverd worden in tweetallen. Schrijf duidelijk je naam, e-mail
Voorwaardelijke kansen, de Bayes regel en onafhankelijkheid
Les 2 Voorwaardelijke kansen, de Bayes regel en onafhankelijkheid Sommige vragen uit de kanstheorie hebben een antwoord die intuïtief niet verwacht zou worden. Een voorbeeld hiervoor is het Monty-Hall
Populaties beschrijven met kansmodellen
Populaties beschrijven met kansmodellen Prof. dr. Herman Callaert Deze tekst probeert, met voorbeelden, inzicht te geven in de manier waarop je in de statistiek populaties bestudeert. Dat doe je met kansmodellen.
is, dat de zijde met cijfer boven te liggen komt, evenzo als de kans voor de koningin 1 2
Hoofdstuk III Kansrekening Les 1 Combinatoriek Als we het over de kans hebben dat iets gebeurt, hebben we daar wel intuïtief een idee over, wat we hiermee bedoelen. Bijvoorbeeld zeggen we, dat bij het
We zullen in deze les kijken hoe we netwerken kunnen analyseren, om bijvoorbeeld de volgende vragen te kunnen beantwoorden:
Wiskunde voor kunstmatige intelligentie, 24 Les 5 Proces analyse Veel processen laten zich door netwerken beschrijven, waarin een aantal knopen acties aangeeft en opdrachten langs verbindingen tussen de
Kansrekening en Statistiek
Kansrekening en Statistiek College 8 Donderdag 13 Oktober 1 / 23 2 Statistiek Vandaag: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 23 Stochast en populatie
36, P (5) = 4 36, P (12) = 1
Les 2 Kansverdelingen We hebben in het begin gesteld dat we de kans voor een zekere gunstige uitkomst berekenen als het aantal gunstige uitkomsten gedeelt door het totale aantal mogelijke uitkomsten. Maar
Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1)
Cursus Statistiek Hoofdstuk 4 Statistiek voor Informatica Hoofdstuk 4: Verwachtingen Cursusjaar 29 Peter de Waal Departement Informatica Inhoud Verwachtingen Variantie Momenten en Momentengenererende functie
Voorwaardelijke kansen, de Regel van Bayes en onafhankelijkheid
Wiskunde voor kunstmatige intelligentie, 2006 Les 9 Voorwaardelijke kansen, de Regel van Bayes en onafhankelijkheid Sommige vragen uit de kanstheorie hebben een antwoord dat niet met de intuïtie van iedereen
Statistiek voor A.I. College 6. Donderdag 27 September
Statistiek voor A.I. College 6 Donderdag 27 September 1 / 1 2 Deductieve statistiek Kansrekening 2 / 1 Vraag: Afghanistan In het leger wordt uit een groep van 6 vrouwelijke en 14 mannelijke soldaten een
III.2 De ordening op R en ongelijkheden
III.2 De ordening op R en ongelijkheden In de vorige paragraaf hebben we axioma s gegeven voor de optelling en vermenigvuldiging in R, maar om R vast te leggen moeten we ook ongelijkheden in R beschouwen.
(x x 1 ) + y 1. x x k+1 x k x k+1
Les Talor reeksen We hebben in Wiskunde een aantal belangrijke reële functies gezien, bijvoorbeeld de exponentiële functie exp(x) of de trigonometrische functies sin(x) en cos(x) Toen hebben we wel eigenschappen
Kansrekening en Statistiek
Kansrekening en Statistiek College 7 Dinsdag 11 Oktober 1 / 33 2 Statistiek Vandaag: Populatie en steekproef Maten Standaardscores Normale verdeling Stochast en populatie Experimenten herhalen 2 / 33 3
9.0 Voorkennis. Bij samengestelde kansexperimenten maak je gebruik van de productregel.
9.0 Voorkennis Bij samengestelde kansexperimenten maak je gebruik van de productregel. Productregel: Voor de gebeurtenis G 1 bij het ene kansexperiment en de gebeurtenis G 2 bij het andere kansexperiment
Opgaven voor Kansrekening - Oplossingen
Wiskunde voor kunstmatige intelligentie Opgaven voor Kansrekening - Opgave. Een oneerlijke dobbelsteen is zo gemaakt dat drie keer zo vaak valt als 4 en twee keer zo vaak als 5. Verder vallen,, en even
Schatten en simuleren
Les 5 Schatten en simuleren 5.1 Maximum likelihood schatting Tot nu toe hebben we meestal naar voorbeelden gekeken waar we van een kansverdeling zijn uitgegaan en dan voorspellingen hebben gemaakt. In
Sterrenkunde Praktikum 1 Fouten en fitten
Sterrenkunde Praktikum 1 Fouten en fitten Paul van der Werf 12 februari 2008 1 Inleiding In de sterrenkunde werken we vaak met zwakke signalen, of met grote hoeveelheden metingen van verschillende nauwkeurigheid.
Kansrekening en Statistiek
Kansrekening en Statistiek College 2 Donderdag 15 September 1 / 42 1 Kansrekening Vandaag: Vragen Eigenschappen van kansen Oneindige discrete uitkomstenruimtes Continue uitkomstenruimtes Continue stochasten
VOOR HET SECUNDAIR ONDERWIJS. Kansmodellen. 3. Populatie en steekproef. Werktekst voor de leerling. Prof. dr. Herman Callaert
VOOR HET SECUNDAIR ONDERWIJS Kansmodellen. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg . Populatie: een intuïtieve definitie.... Een
3.2 Kritieke punten van functies van meerdere variabelen
Wiskunde voor kunstmatige intelligentie, 007/008 Als in een kritiek punt x 0 ook de tweede afgeleide f (x 0 ) = 0 is, kunnen we nog steeds niet beslissen of de functie een minimum, maximum of een zadelpunt
Opgaven voor Kansrekening
Wiskunde 1 voor kunstmatige intelligentie Opgaven voor Kansrekening Opgave 1. Een oneerlijke dobbelsteen is zo gemaakt dat 3 drie keer zo vaak valt als 4 en 2 twee keer zo vaak als 5. Verder vallen 1,
More points, lines, and planes
More points, lines, and planes Make your own pictures! 1. Lengtes en hoeken In het vorige college hebben we het inwendig product (inproduct) gedefinieerd. Aan de hand daarvan hebben we ook de norm (lengte)
MARKOV KETENS, OF: WAT IS DE KANS DAT MEVROUW DE VRIES NAT ZAL WORDEN?
MARKOV KETENS, OF: WAT IS DE KANS DAT MEVROUW DE VRIES NAT ZAL WORDEN? KARMA DAJANI In deze lezing gaan we over een bijzonder model in kansrekening spreken Maar eerst een paar woorden vooraf Wat doen we
Tentamen Kansrekening en Statistiek (2WS04), dinsdag 17 juni 2008, van uur.
Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Tentamen Kansrekening en Statistiek (2WS4, dinsdag 17 juni 28, van 9. 12. uur. Dit is een tentamen met gesloten boek. De uitwerkingen
II.3 Equivalentierelaties en quotiënten
II.3 Equivalentierelaties en quotiënten Een belangrijk begrip in de wiskunde is het begrip relatie. Een relatie op een verzameling is een verband tussen twee elementen uit die verzameling waarbij de volgorde
Lineaire algebra 1 najaar Lineaire codes
Lineaire algebra 1 najaar 2008 Lineaire codes Bij het versturen van digitale informatie worden in principe ketens van bits verstuurd die de waarde 0 of 1 kunnen hebben. Omdat de transmissiekanalen door
Bijzondere kettingbreuken
Hoofdstuk 15 Bijzondere kettingbreuken 15.1 Kwadratische getallen In het vorige hoofdstuk hebben we gezien dat 2 = 1, 2, 2, 2, 2, 2, 2,.... Men kan zich afvragen waarom we vanaf zeker moment alleen maar
11 e editie. Inhoudsopgaven VWO 5
11 e editie Inhoudsopgaven VWO 5 Inhoudsopgave 5 vwo A 1 Formules herleiden 1-1 Lineaire formules 1-2 Gebroken formules 1-3 Wortelformules 1-4 Machtsformules 1-5 Gemengde opdrachten 2 Statistiek (op computer)
Hoofdstuk 3. Equivalentierelaties. 3.1 Modulo Rekenen
Hoofdstuk 3 Equivalentierelaties SCHAUM 2.8: Equivalence Relations Twee belangrijke voorbeelden van equivalentierelaties in de informatica: resten (modulo rekenen) en cardinaliteit (aftelbaarheid). 3.1
Extrema van functies van meerdere variabelen
Wiskunde voor kunstmatige intelligentie, 005 Les 3 Extrema van functies van meerdere variabelen Bij gewone functies van één variabel hebben we in Wiskunde 1 de vraag behandeld hoe we minima en maxima van
5.0 Voorkennis. Voorbeeld 1: In een vaas zitten 10 rode, 5 witte en 6 blauwe knikkers. Er worden 9 knikkers uit de vaas gepakt.
5.0 Voorkennis Voorbeeld 1: In een vaas zitten 10 rode, 5 witte en 6 blauwe knikkers. Er worden 9 knikkers uit de vaas gepakt. a) Bereken de kans op minstens 7 rode knikkers: P(minstens 7 rood) = P(7 rood)
Examen Statistiek I Feedback
Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).
Kansrekening en statistiek wi2105in deel I 29 januari 2010, uur
Kansrekening en statistiek wi20in deel I 29 januari 200, 400 700 uur Bij dit examen is het gebruik van een (evt grafische rekenmachine toegestaan Tevens krijgt u een formuleblad uitgereikt na afloop inleveren
Toegepaste Wiskunde 2: Het Kalman-filter
Toegepaste Wiskunde 2: Het Kalman-filter 25 februari, 2008 Hans Maassen 1. Inleiding Het Kalman filter schat de toestand van een systeem op basis van een reeks, door ruis verstoorde waarnemingen. Een meer
Opgaven voor Kansrekening
Opgaven voor Kansrekening Opgave 1. Je hebt 4 verschillende wiskunde boeken, 6 psychologie boeken en 2 letterkundige boeken. Hoeveel manieren zijn er om deze twaalf boeken op een boord te plaatsen als:
Kansrekening en statistiek WI2105IN deel I 4 november 2011, uur
Kansrekening en statistiek WI05IN deel I 4 november 0, 4.00 7.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Een formuleblad wordt uitgereikt. Meerkeuzevragen Toelichting:
Overzicht Fourier-theorie
B Overzicht Fourier-theorie In dit hoofdstuk geven we een overzicht van de belangrijkste resultaten van de Fourier-theorie. Dit kan als steun dienen ter voorbereiding op het tentamen. Fourier-reeksen van
Complexe e-macht en complexe polynomen
Aanvulling Complexe e-macht en complexe polynomen Dit stuk is een uitbreiding van Appendix I, Complex Numbers De complexe e-macht wordt ingevoerd en het onderwerp polynomen wordt in samenhang met nulpunten
Machten, exponenten en logaritmen
Machten, eponenten en logaritmen Machten, eponenten en logaritmen Macht, eponent en grondtal Eponenten en logaritmen hebben alles met machtsverheffen te maken. Een macht als 4 is niets anders dan de herhaalde
Voorbeeld 1: kansverdeling discrete stochast discrete kansverdeling
12.0 Voorkennis Voorbeeld 1: Yvette pakt vier knikkers uit een vaas waar er 20 inzitten. 9 van de knikkers zijn rood en 11 van de knikkers zijn blauw. X = het aantal rode knikkers dat Yvette pakt. Er zijn
Inleiding Applicatie Software - Statgraphics
Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek /k 1/35 OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een
Kansrekening en Statistiek
Kansrekening en Statistiek College 12 Donderdag 21 Oktober 1 / 38 2 Statistiek Indeling: Stochast en populatie Experimenten herhalen Wet van de Grote Getallen Centrale Limietstelling 2 / 38 Deductieve
Tentamen Functies en Reeksen
Tentamen Functies en Reeksen 6 november 204, 3:30 6:30 uur Schrijf op ieder vel je naam en bovendien op het eerste vel je studentnummer, de naam van je practicumleider (Arjen Baarsma, KaYin Leung, Roy
TRILLINGEN EN GOLVEN HANDOUT FOURIER
TRILLINGEN EN GOLVEN HANDOUT FOURIER Cursusjaar 2009 / 2010 2 Inhoudsopgave 1 FOURIERANALYSE 5 1.1 INLEIDING............................... 5 1.2 FOURIERREEKSEN.......................... 5 1.3 CONSEQUENTIES
1 Delers 1. 3 Grootste gemene deler en kleinste gemene veelvoud 12
Katern 2 Getaltheorie Inhoudsopgave 1 Delers 1 2 Deelbaarheid door 2, 3, 5, 9 en 11 6 3 Grootste gemene deler en kleinste gemene veelvoud 12 1 Delers In Katern 1 heb je geleerd wat een deler van een getal
Kansrekening en Statistiek
Kansrekening en Statistiek College 12 Vrijdag 16 Oktober 1 / 38 2 Statistiek Indeling vandaag: Normale verdeling Wet van de Grote Getallen Centrale Limietstelling Deductieve statistiek Hypothese toetsen
Statistiek I Samenvatting. Prof. dr. Carette
Statistiek I Samenvatting Prof. dr. Carette Opleiding: bachelor of science in de Handelswetenschappen Academiejaar 2016 2017 Inhoudsopgave Hoofdstuk 1: Statistiek, gegevens en statistisch denken... 3 De
Tentamen Inleiding Kansrekening wi juni 2010, uur
Technische Universiteit Delft Mekelweg Faculteit Electrotechniek, Wiskunde en Informatica 8 CD Delft Tentamen Inleiding Kansrekening wi juni, 9.. uur Bij dit examen is het gebruik van een (evt. grafische
Inleiding Applicatie Software - Statgraphics. Beschrijvende Statistiek
Inleiding Applicatie Software - Statgraphics Beschrijvende Statistiek OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een klein kapitaaltje
Inleiding Analyse 2009
Inleiding Analyse 2009 Inleveropgaven A). Stel f(, y) = In (0, 0) is f niet gedefinieerd. We bestuderen y2 2 + y 4. lim f(, y). (,y) (0,0) 1. Bepaal de waarde van f(, y) op een willekeurige rechte lijn
Dualiteit. Raymond van Bommel. 6 april 2010
Dualiteit Raymond van Bommel 6 april 2010 1 Inleiding Op veel manieren kan meetkunde worden bedreven. De bekendste en meest gebruikte meetkunde is de Euclidische meetkunde. In dit artikel gaan we kijken
Vectorruimten met inproduct
Hoofdstuk 3 Vectorruimten met inproduct 3. Inleiding In R 2 en R 3 hebben we behalve de optelling en scalairvermenigvuldiging nog meer structuur ; bij een vector kun je spreken over zijn lengte en bij
VOOR HET SECUNDAIR ONDERWIJS
VOOR HET SECUNDAIR ONDERWIJS Steekproefmodellen en normaal verdeelde steekproefgrootheden 5. Werktekst voor de leerling Prof. dr. Herman Callaert Hans Bekaert Cecile Goethals Lies Provoost Marc Vancaudenberg
Bekijk nog een keer het stelsel van twee vergelijkingen met twee onbekenden x en y: { De tweede vergelijking van de eerste aftrekken geeft:
Determinanten Invoeren van het begrip determinant Bekijk nog een keer het stelsel van twee vergelijkingen met twee onbekenden x en y: { a x + b y = c a 2 a 2 x + b 2 y = c 2 a Dit levert op: { a a 2 x
1 Rekenen in eindige precisie
Rekenen in eindige precisie Een computer rekent per definitie met een eindige deelverzameling van getallen. In dit hoofdstuk bekijken we hoe dit binnen een computer is ingericht, en wat daarvan de gevolgen
Opgaven bij het vormen van ruimte: van Poincaré tot Perelman
Opgaven bij het vormen van ruimte: van Poincaré tot Perelman Roland van der Veen Inleiding Deze reeks opgaven is bedoeld voor de werkcolleges van de vakantiecursus Wiskunde in Wording, Augustus 2013. 1
(x x 1 ) + y 1. x x 1 x k x x x k 1
Les Taylor reeksen We hebben in Wiskunde een aantal belangrijke reële functies gezien, bijvoorbeeld de exponentiële functie exp(x) of de trigonometrische functies sin(x) en cos(x) Toen hebben we wel eigenschappen
Bij het oplossen van een telprobleem zijn de volgende 2 dingen belangrijk: Is de volgorde van de gekozen dingen van belang?
4. tellen & kansen 4.1 Tellen Herkennen Je kunt een vraag over telproblemen herkennen aan signaalwoorden: - hoeveel mogelijkheden, manieren, routes, volgordes etc. zijn er?, - bereken het aantal mogelijkheden/manieren
Empirische kansen = op ervaring gegrond; bereken je door relatieve frequenties te gebruiken. Wet van de grote aantallen.
Samenvatting Kansen Definitie van Laplace : P(G) = aantal _ gunstige _ uitkomsten aantal _ mogelijke _ uitkomsten Voorbeeld : Vb kans op 4 gooien met dobbelsteen: Aantal gunstige uitkomsten = 1 ( namelijk
Opgaven Getaltheorie en Cryptografie (deel 4) Inleverdatum: 13 mei 2002
Opgaven Getaltheorie en Cryptografie (deel 4) Inleverdatum: 13 mei 2002 19.a) Laat zien dat 5 een voortbrenger is van F 37. b) In het sleuteldistributiesysteem van Diffie en Hellman (met G = F 37, α =
8. Analyseren van samenhang tussen categorische variabelen
8. Analyseren van samenhang tussen categorische variabelen Er bestaat een samenhang tussen twee variabelen als de verdeling van de respons (afhankelijke) variabele verandert op het moment dat de waarde
Uitwerkingen Mei 2012. Eindexamen VWO Wiskunde C. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek
Uitwerkingen Mei 2012 Eindexamen VWO Wiskunde C Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek I Tjing Opgave 1. Het aantal hoofdstukken in de I Tjing correspondeert met het totale aantal
Inwendig product, lengte en orthogonaliteit
Inwendig product, lengte en orthogonaliteit We beginnen met een definitie : u u Definitie. Als u =. en v = u n v v. v n twee vectoren in Rn zijn, dan heet u v := u T v = u v + u v +... + u n v n het inwendig
Tentamen Inleiding Kansrekening 9 juni 2016, 10:00 13:00 Docent: Prof. dr. F. den Hollander
Tentamen Inleiding Kansrekening 9 juni 6, : 3: Docent: Prof. dr. F. den Hollander Bij dit tentamen is het gebruik van boek en aantekeningen niet toegestaan. Er zijn 8 vragen, elk met onderdelen. Elk onderdeel
Gezamenlijke kansverdeling van twee stochasten
Gezamenlijke kansverdeling van twee stochasten Voorbeeld: V = de windsnelheid H = hoogte van het waterniveau in een rivier/zee De combinatie (V, H) is van belang voor een overstroming en niet zozeer V
1 Continuïteit en differentieerbaarheid.
1 1 Continuïteit en differentieerbaarheid. In dit hoofdstuk bekijken we continuiteit en differentieerbaarheid voor functies van meerdere variabelen. Ter orientatie repeteren we eerst hoe het zat met functies
(iii) intervallen, bijvoorbeeld afgesloten intervallen zoals D = [0, 1] := {x en halfopen intervallen zoals D = (0, 1] := {x R 0 < x 1},
Hoofdstuk II Calculus Les Differentiatie van functies Waarscijnlijk eeft iedereen wel een idee ervan wat een functie is, maar voor de duidelijkeid zal et andig zijn om de meest belangrijke begrippen na
De partitieformule van Euler
De partitieformule van Euler Een kennismaking met zuivere wiskunde J.H. Aalberts-Bakker 29 augustus 2008 Doctoraalscriptie wiskunde, variant Communicatie en Educatie Afstudeerdocent: Dr. H. Finkelnberg
Je hebt twee uur de tijd voor het oplossen van de vraagstukken. µkw uitwerkingen. 12 juni 2015
Je hebt twee uur de tijd voor het oplossen van de vraagstukken. Elk vraagstuk is maximaal 10 punten waard. Begin elke opgave op een nieuw vel papier. µkw uitwerkingen 12 juni 2015 Vraagstuk 1. We kunnen
11.1 Kansberekeningen [1]
11.1 Kansberekeningen [1] Kansdefinitie van Laplace: P(gebeurtenis) = Aantal gunstige uitkomsten/aantal mogelijke uitkomsten Voorbeeld 1: Wat is de kans om minstens 16 te gooien, als je met 3 dobbelstenen
De verstrooide professor
Inleiding De verstrooide professor Edward Omey HU - Stormstraat 2 000 russel [email protected] In hun nota bestuderen Guido Herweyers en Ronald Rouseau (G. Herweyers en R. Rousseau, Een onverwacht
opgaven formele structuren tellen Opgave 1. Zij A een oneindige verzameling en B een eindige. Dat wil zeggen (zie pagina 6 van het dictaat): 2 a 2.
opgaven formele structuren tellen Opgave 1. Zij A een oneindige verzameling en B een eindige. Dat wil zeggen (zie pagina 6 van het dictaat): ℵ 0 #A, B = {b 0,..., b n 1 } voor een zeker natuurlijk getal
7.1 Het aantal inverteerbare restklassen
Hoofdstuk 7 Congruenties in actie 7.1 Het aantal inverteerbare restklassen We pakken hier de vraag op waarmee we in het vorige hoofdstuk geëindigd zijn, namelijk hoeveel inverteerbare restklassen modulo
We beginnen met de eigenschappen van de gehele getallen.
II.2 Gehele getallen We beginnen met de eigenschappen van de gehele getallen. Axioma s voor Z De gegevens zijn: (a) een verzameling Z; (b) elementen 0 en 1 in Z; (c) een afbeelding +: Z Z Z, de optelling;
Inhoud college 5 Basiswiskunde Taylorpolynomen
Inhoud college 5 Basiswiskunde 4.10 Taylorpolynomen 2 Basiswiskunde_College_5.nb 4.10 Inleiding Gegeven is een functie f met punt a in domein D f. Gezocht een eenvoudige functie, die rond punt a op f lijkt
Tentamen WISN101 Wiskundige Technieken 1 Ma 7 nov :30 16:30
Tentamen WISN11 Wiskundige Technieken 1 Ma 7 nov 16 13:3 16:3 Normering voor 4 pt vragen (andere vragen naar rato): 4pt Goed begrepen en goed uitgevoerd met voldoende toelichting, eventueel enkele onbelangrijke
Set 3 Inleveropgaven Kansrekening (2WS20) Opgaven met sterretjes zijn lastiger dan opgaven zonder sterretje.
Technische Universiteit Eindhoven Faculteit Wiskunde en Informatica Set 3 Inleveropgaven Kansrekening (2WS2) 23-24 Opgaven met sterretjes zijn lastiger dan opgaven zonder sterretje.. Voetbalplaatjes. Bij
3. Structuren in de taal
3. Structuren in de taal In dit hoofdstuk behandelen we de belangrijkst econtrolestructuren die in de algoritmiek gebruikt worden. Dit zijn o.a. de opeenvolging, selectie en lussen (herhaling). Vóór we
Enkele valkuilen om te vermijden
Enkele valkuilen om te vermijden Dit document is bedoeld om per onderwerp enkele nuttige strategieën voor opgaven te geven. Ook wordt er op een aantal veelgemaakte fouten gewezen. Het is géén volledige
Tentamen Grondslagen van de Wiskunde A Met beknopte uitwerking
Tentamen Grondslagen van de Wiskunde A Met beknopte uitwerking 10 december 2013, 09:30 12:30 Dit tentamen bevat 5 opgaven; zie ook de ommezijde. Alle opgaven tellen even zwaar (10 punten); je cijfer is
De dimensie van een deelruimte
De dimensie van een deelruimte Een deelruimte van R n is een deelverzameling die op zichzelf ook een vectorruimte is. Ter herinnering : Definitie. Een deelverzameling H van R n heet een deelruimte van
Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur
Tentamen Kansrekening en Statistiek MST 14 januari 2016, 14.00 17.00 uur Het tentamen bestaat uit 15 meerkeuzevragen 2 open vragen. Een formuleblad wordt uitgedeeld. Normering: 0.4 punt per MC antwoord
Combinatoriek groep 1 & 2: Recursie
Combinatoriek groep 1 & : Recursie Trainingsweek juni 008 Inleiding Bij een recursieve definitie van een rij wordt elke volgende term berekend uit de vorige. Een voorbeeld van zo n recursieve definitie
Kansrekening en Statistiek
Kansrekening en Statistiek College 6 Donderdag 30 September 1 / 25 1 Kansrekening Indeling: Voorwaardelijke kansen Onafhankelijkheid Stelling van Bayes 2 / 25 Vraag: Afghanistan Vb. In het leger wordt
