Informatieuitwisseling

UU Informatieuitwisseling Inleiding Informatietheorie Robbert Jan Beun 9-12-2015 Dit document bevat een inleiding op het college van Prof. dr. Jan van Leeuwen over informatietheorie en is bedoeld als achtergrondinformatie. We behandelen hier een aantal basisbegrippen zoals zelfinformatie en entropie. Het is raadzaam het document voor het college door te nemen.

Inhoud Introductie... 2 Zelfinformatie en entropie... 4 Afsluiting... 6 Referenties... 7 Introductie In het inleidende document van het vak (Beun, 2015) hebben we al kunnen lezen dat de informatietheorie wiskundig gereedschap verschaft om informatie te kunnen kwantificeren. Hierdoor kunnen we bijvoorbeeld uitspraken doen over de minimale tijd die het, gegeven een bepaald kanaal, zal duren om een bepaalde boodschap over te sturen. Hiermee samenhangend willen we bepaalde uitspraken doen over de codering van een boodschap, bijv. of er wellicht nog efficiëntere codes bestaan. De informatietheorie verschaft daarmee dus gereedschap voor het ontwerp van de symbolen die we gebruiken in de communicatie. In dit document behandelen we de achtergrond en het belang van de informatietheorie en sluiten daarmee aan op het gastcollege van Prof. dr. Jan van Leeuwen. Informatie wordt hierbij beschouwd als een middel om onzekerheid te reduceren: hoe groter de kans dat een bepaalde gebeurtenis optreedt, des te minder informatie de gebeurtenis oplevert en andersom. Zo is in het Engels de kans op het vóórkomen van een e in een tekst het grootst en de kans op een z het kleinst (zie Tabel 1); de e levert dan de minste en de z de meeste informatie op. In de praktijk houdt dit in dat we bij het coderen van letters of boodschappen ervoor moeten zorgen dat we meer bits toekennen aan boodschappen die weinig voor zullen komen. Een voorbeeld van een dergelijke codering is de afgebeelde Morsecode in Tabel 1. Veel voorkomende letters zoals de e zijn kort en weinig voorkomende letters als de q krijgen een langere code. Tabel 1: Relatieve letterfrequenties van het Engels en de bijbehorende morsecode. positie letter percentage morsecode positie letter percentage morsecode 1 e 12,70 15 m 2,41 4 t 9,06 19 w 2,36 3 a 8,17 23 f 2,23 5 i 6,97 11 g 2,02 2 n 6,75 25 y 1,97 7 o 7,51 18 p 1,93 9 s 6,33 17 b 1,49 13 h 6,09 12 v 0,98 6 r 5,99 14 k 0,77 8 d 4,25 24 x 0,15 10 l 4,03 20 j 0,15 22 c 2,78 26 q 0,10 16 u 2,76 21 z 0,07 Dit verschijnsel zien we ook in de Nederlandse taal terug, waar veel voorkomende woorden als de, het, een, in, dit en dat relatief kort zijn. Ook kennen we de voorbeelden uit email- of whatsapp gesprekken waar veel voorkomende uitdrukkingen worden afgekort tot nieuwe woorden, waardoor een volstrekt nieuw woordenboek ontstaat. We geven hieronder nogmaals het communicatiemodel van Shannon en voegen hier nog de laag aan toe die ervoor zorgt dat de digitale code (D) wordt omgezet in een analoog (fysiek) signaal (A) (Figuur 1). In termen van het OSI 7-lagen model bevindt de codeerder zich op alle lagen, behalve de fysieke laag; deze wordt hier gerepresenteerd door de D A en de A D laag. De codeerder zorgt er nu voor dat de boodschap zodanig wordt bewerkt dat overbodige informatie wordt weggehaald en zo efficiënt mogelijk wordt gecodeerd (denk 2

aan jpeg-codering). Bovendien kan de codeerder de boodschap versleutelen om ervoor te zorgen dat anderen het bericht niet kunnen lezen (encryptie) en informatie toevoegen om ervoor te zorgen dat fouten in de verzending kunnen worden gedetecteerd of zelfs gecorrigeerd. We concentreren ons nu op de middenlaag in Figuur 1 en specifiek op het deel dat zorgt voor een efficiënte codering. Ruis bron codeer der A D->A analoog kanaal A->D decodeerder bestemming A B Figuur 1: Het communicatiemodel van Shannon. Net zoals we de dimensies afstand en tijd uitdrukken in eenheden als meters en seconden, hanteren we ook een eenheid voor informatie, namelijk de bit (binary digit). Een boodschap die geen informatie bevat, heeft dan 0 bit informatie. In een situatie waarin twee boodschappen kunnen voorkomen met ieder 50% kans hebben de boodschappen een informatiehoeveelheid van precies 1 bit. We kunnen bijvoorbeeld aan de ene boodschap de code 0 toekennen en aan de andere 1 ; we kunnen er ook geen kortere code voor bedenken. In het randgeval waarbij een zender maar één boodschap kan versturen, is de kans op andere boodschappen 0% waardoor de verstuurde boodschap dus geen informatie bevat. Denk aan een muntje met aan beide kanten kop, dan zal, hoe we ook gooien, altijd kop verschijnen. Omdat iedere boodschap of gebeurtenis hetzelfde is en daarmee volstrekt voorspelbaar, bevat deze dus geen informatie voor de ontvanger. Stel nu dat de bron vier boodschappen kan versturen a 1, a 2, a 3 of a 4 en dat we deze boodschappen door de codeerder een bepaalde code willen geven. In Tabel 2 hebben we iedere a op twee manieren gecodeerd. In de eerste methode hebben we voor iedere boodschap 2 bits nodig, in de tweede methode gebruiken we een variabel aantal bits. Stel nu dat negentig procent van de boodschappen bestaat uit a 1, dan betekent dit dat de codering van methode 2 veel efficiënter is dan die van methode 1. Zoals we al eerder zagen hangt de efficiëntie van de methodes cruciaal af van de frequentie van voorkomen van de verschillende waardes. Tabel 2. Twee manieren om een vierletter-alfabet om te zetten in binaire cijfers. Code I Code 2 a 1 00 0 a 2 01 10 a 3 10 110 a 4 11 111 Merk overigens op dat we allerlei eisen kunnen stellen aan het ontwerpen van de codes en dat we de verschillende symbolen in een alfabet niet willekeurig kunnen coderen in nullen en enen. In Tabel 3, waar we ook de waarschijnlijkheden van de boodschap hebben toegevoegd, zien we bijvoorbeeld vier verschillende coderingen, maar zowel Code 3 als Code 4 is niet geschikt omdat ze niet uniek decodeerbaar zijn. In Code 3 zijn de eerste twee codewoorden niet te onderscheiden; in Code 4 is het derde codewoord niet te onderscheiden van twee maal het eerste codewoord. 1 Code 1 is een zogenaamde comma-code, ieder woord begint met een 0; deze kan eenduidig worden gedecodeerd. Code 2 is echter beter omdat het onmiddellijk gedecodeerd kan worden zodra het binnen is (ga na!). Code 2 blijkt, gegeven de verschillende waarschijnlijkheden p, tevens een optimale code te zijn. 1 In de natuurlijke taal zouden we deze dubbelzinnigheden kunnen oplossen met behulp van de context. 3

Tabel 3. Vier coderingen voor een bron met alfabet { a 1, a 2, a 3, a 4 } met waarschijnlijkheden van voorkomen. p Code I Code 2 Code 3 Code 4 a 1 0,5 0 0 0 0 a 2 0,25 01 10 0 1 a 3 0,125 011 110 1 00 a 4 0,125 0111 111 10 11 We beschouwen de bron nu als een generator van een eindig aantal berichten met ieder een kans op verzending. Die berichten kunnen bijvoorbeeld proposities 2, woorden of letters zijn, maar ook plaatjes, video s of geluidsboodschappen die omgezet zijn in pixels of bits. We nemen verder aan dat een verzonden boodschap altijd aankomt, maar wel verstoord kan zijn. Zelfinformatie en entropie In Shannons model worden bronnen voorgesteld als generatoren van een willekeurige opeenvolging van symbolen uit een vast alfabet, bijv. a 1, a 2,..., a K ; we noemen dit het bronalfabet. We nemen hier aan dat de bron geen geheugen heeft, wat inhoudt dat de symbolen in de bronoutput niet met elkaar gecorreleerd zijn 3 ; we noemen dit een geheugenloze informatiebron. We kunnen nu aan ieder symbool met behulp van de functie p een kans p(a 1 ),..., p(a K ) toekennen dat het geselecteerd wordt voor verzending. Ga (in Tabel 3) na dat de som van alle kansen gelijk is aan 1, oftewel: Als we informatie gaan kwantificeren werken we dikwijls met logaritmes, in het bijzonder de logaritme met grondtal twee (log 2 (x)). We definiëren de zelfinformatie van een letter dan als: I(a k ) = def log 2 p(a k ) Deze definitie heeft een aantal eigenschappen die we ook in onze eerder geschetste manier van denken over informatie tegengekomen zijn. Als de kans op een bepaalde letter 1 is, is de zelfinformatie 0 (immers, log 2 1=0). Oftewel, deze boodschap is niet informatief, want hij verschijnt altijd. En ook, hoe kleiner de kans op de boodschap a K, des te groter de zelfinformatie (zie Figuur 2). In Figuur 2 wordt de zelfinformatie van het symbool m weergegeven als functie van de waarschijnlijkheid (p m ) dat de bron het symbool m produceert. We zien in Figuur 2 ook dat indien de waarschijnlijkheid afneemt naar 0, de zelf-informatie toeneemt naar. Een prettige bijeenkomst van het gebruik van de logaritme met grondtal 2 is dat we direct kunnen rekenen in termen van bits (zie ook hieronder). De zelfinformatie kwantificeert dus een aantal intuïtieve eigenschappen van informatie. We kunnen nu ook uitrekenen wat de gemiddelde hoeveelheid informatie is gegeven een bepaald bronalfabet met de bijbehorende kansverdeling; dit wordt ook wel de entropie (H) genoemd. We doen dat door aan de hoeveelheid informatie die een gebeurtenis oplevert een gewicht mee te geven in termen van de kans dat de gebeurtenis optreedt en dit op te tellen voor alle gebeurtenissen. 2 Een propositie is een zin waar we een waarheidswaarde aan toe kunnen kennen. Voorbeelden zijn zinnen als het regent, de zon schijnt, Obama heeft de pest in, etc.. 3 Dat is in het algemeen niet het geval; we weten bijv. dat in het Nederlands een q bijna altijd wordt gevolgd door een u. In menselijke talen is de opeenvolging van letters verre van willekeurig. 4

I(m) 0 p m Figuur 2: Zelf-informatie als functie van de waarschijnlijkheid van het bronsymbool. Dit getal kun je interpreteren als het aantal bits dat gemiddeld aan informatie aanwezig is voor één gebeurtenis en is daarbij een maat voor de gemiddelde onzekerheid of onvoorspelbaarheid van de symbolen die de bron genereert (Melissen, 2001). Het geeft ook de orde aan van een systeem: een wanordelijk systeem, waarbij grote onzekerheid is, heeft een hogere entropie dan een systeem dat meer gestructureerd is. De entropie heeft dus betrekking op het gehele systeem, terwijl de zelfinformatie juist gaat over een enkel symbool. Entropie is een van de basisbegrippen in de informatietheorie. We zullen het begrip illustreren aan de hand van een simpel voorbeeld waarbij het alfabet bestaat uit twee symbolen. We gaan daarbij uit van een bron waarbij vaste waarschijnlijkheden worden toegekend aan de verschillende symbolen van het bronalfabet. Stel dat we de symbolen X en Y hebben waartussen de bron voortdurend kan kiezen en dat de keuze voor een bepaald symbool onafhankelijk is van eerdere symbolen. Stel verder dat het voorkomen van X een waarschijnlijkheid heeft van p 0 en het voorkomen van Y een waarschijnlijkheid van p 1. In dit simpele geval is de entropie H gedefinieerd als: H = ( p 0 log 2 p 0 + p 1 log 2 p 1) bits per symbool Indien de kans op beide symbolen even groot is, is de entropie dus 1 bit per symbool, immers: H = ( ½ log 2 ½ + ½ log 2 ½) = (( ½ x 1) +( ½ x 1) ) = 1 bit per symbool Als de bron een sequentie van nullen en enen produceert met een waarschijnlijkheid van ¼ en ¾ bedraagt de entropie 0,811 bit per symbool (ga dit na!). We zien in Figuur 3 de waarde van H voor de verschillende waarden van p 0 en, aangezien p 0 = 1 p 1, ook van p 1. 4 We kunnen op dezelfde manier spreken over de informatie-inhoud van een beeldscherm. Stel we nemen een zwart-wit tv met 576 lijnen en 720 pixels per lijn en dat ieder pixel 10 verschillende grijswaarden kan aannemen (zie ook weer Melissen, 2001). Stel verder dat iedere mogelijkheid even waarschijnlijk is, dan krijgen we n=10 414720 verschillende beelden. De kans op een zo n beeld is p=1/n en de entropie is dan: 168kByte Er zit in een dergelijk televisiebeeld dus 168 kilobyte aan informatie, wat precies het aantal bytes is dat we nodig hebben om een dergelijk beeld binair te coderen. Informatietheorie zoals tot nu toe geschetst is breed toepasbaar op gebeurtenissen en niet zozeer op een communicatieve situatie waarbij informatie van een zender naar een ontvanger wordt gezonden. We kunnen daarvoor een communicatiekanaal modelleren door gebruik te maken van twee bronnen waarbij de gegenereerde symbolen al dan niet met elkaar samenhangen. In het ideale geval komt alle informatie aan die wordt verstuurd, de samenhang tussen de twee bronnen is dan 1 en de entropie van beide bronnen even groot. Indien het kanaal ruis toevoegt, neemt de onzekerheid toe over het volgende symbool; de entropie van de ont- 4 Merk op dat de log van 0 oneindig is. Je kunt echter bewijzen dat wanneer p naar 0 gaat, p log 2 p ook naar 0 gaat. p gaat namelijk veel sneller naar 0 dan log 2 p (neem bijv. voor p = 2 -x en laat x naar gaan). We laten een precies bewijs hier achterwege. 5

vanger is dus minstens zo groot als de entropie van de zender. Fouten die geïntroduceerd worden door het kanaal doen de entropie dus toenemen. 1.0 0.8 H 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1.0 p 0 Figuur 3: De entropie afhankelijk van de waarde van p 0 Het belang van het gebruik van de entropie van een bronalfabet zit hem bijvoorbeeld in een theorema (dat we hier niet zullen bewijzen) dat zegt dat indien H de entropie is van het bronalfabet voor een discrete bron zonder geheugen, dan kan de opeenvolging van bronoutputs niet gerepresenteerd worden door een binaire reeks waarin gemiddeld minder dan H bits per symbool worden gebruikt, maar wel door een binaire reeks die zo dicht mogelijk als gewenst ligt tegen H. H geeft dus de ondergrens aan voor het gemiddeld minimum aantal benodigde bits per symbool. Om een gevoel te krijgen voor dit resultaat nemen we als voorbeeld een alfabet van 4 symbolen die alle vier dezelfde waarschijnlijkheid hebben (dus p=¼). De entropie heeft nu de waarde 2 bits per symbool (ga na!). Met andere woorden, de ondergrens van het gemiddeld aantal bits per bronsymbool is in dit geval 2 (bijvoorbeeld 00, 01, 10 en 11), een resultaat dat we intuïtief wellicht al hadden verwacht. Stel nu dat de bron kiest uit een alfabet dat bestaat uit getallen van N binaire cijfers. Dan zijn er dus 2 N getallen, met andere woorden K (het aantal symbolen) is hier gelijk aan 2 N. Stel nu dat alle getallen dezelfde waarschijnlijkheid hebben, dan is de zelfinformatie voor K symbolen met gelijke waarschijnlijkheid log 1/K. De entropie bedraagt dan: H = log 2 1/K = log 2 1/2 N = log 2 2 N = log 2 2 N = N log 2 2 = N De entropie geeft dus voor een representatie van binaire cijfers direct het aantal bits aan dat benodigd is om het getal over te zenden, onder de voorwaarde dat de waarschijnlijkheid van ieder getal even groot is. De keuze voor de logaritme met grondtal 2 representeert dat een tweemaal zolang register tweemaal zoveel informatie geeft. Afsluiting We merken hier ten slotte op dat belangrijke betekenisaspecten van het woord informatie niet gedekt worden door de hier gepresenteerde technische definitie. Hoe onwaarschijnlijk een gebeurtenis ook is, we vinden een gebeurtenis niet informatief tenzij deze een zekere betekenis (semantisch) of een zeker belang (pragmatisch) heeft voor ons. Dit betekent niet dat de definitie inadequaat zou zijn, integendeel, het formaliseren van informatie heeft belangrijke kennis opgeleverd voor het ontwerp van codes. Zo kunnen we uitspraken doen over het minimale aantal bits dat we nodig hebben om een bronalfabet te representeren of over de efficiëntie van verschillende coderingen. Tegenwoordig wordt Shannons theorie ook toegepast om bepaalde verschijnselen te begrijpen in de natuurlijke taal; we zagen hierboven voorbeelden over de lengte van bepaalde woorden in relatie tot de kans op het voorkomen ervan in een tekst, maar de waarde ervan ligt op dit moment veel meer op het gebied van het ontwerp van codes voor computercommunicatie dan in het verklaren van verschijnselen in de gesproken of geschreven taal. 6

Referenties Beun, R.J. (2015) Informatieuitwisseling: Een inleiding op het vak. Opleiding Informatiekunde. Universiteit Utrecht. Cover, Thomas M. & Thomas, Joy A. (1991) Elements of Information Theory. New York: John Wiley. Bedoeld voor studenten communicatietheorie (elektrotechnici), statistiek, informatica, etc. Interessant om verschillende problemen (bijv. Kolmogorov Complexiteit) uitgewerkt te zien in informatietheoretische termen. Ook handig als je aandelen wilt gaan kopen, maar zorg dat je wiskundig goed beslagen ten ijs komt. Meadow, C.T. (1975) Sounds and Signals. How we Communicate. Philadelphia: The Westminster Press. Low-level introductie en goed leesbaar boekje op het gebied van technische communicatie. Wellicht iets te simpel. Melissen, Hans (2001) Informatietheorie. Dictaat Universiteit Delft. Duidelijk overzicht van de belangrijkste begrippen, datacompressie en foutendetecterende en -corrigerende codes. (zie ook www.fisme.science.uu.nl/nwd/nwd2001/produkten/melissen.pdf) Gallagher, R.G. (1968) Information Theory and Reliable Communication. New York, John Wiley. Bedoeld voor ingenieurs en wiskundigen die zich willen verdiepen in de informatiethorie. Flinke wiskundige achtergrond en sterk gevoel voor abstraheren noodzakelijk. Pierce, John R. (1980) An Introduction to Information Science. Symbols, Signals and Noise. New York: Dover Publications. Een inleiding voor iedereen die zich zo weinig mogelijk met de technische aspecten van informatietheorie wil bezig houden. Eenvoudig te lezen en zeker een aanrader voor degene die iets meer wil weten over de achtergronden en de geschiedenis van informatietheorie. Reza, Fazlollah M. (1961) An Introduction to Information Theory. New York: McGraw-Hill Book Company. Uitvoerige behandeling van de wiskundige grondslagen, inclusief verzamelingen en waarschijnlijkheidstheorie. Meer bedoeld voor aankomend elektrotechnisch ingenieurs. Nogal gedateerd. Shannon, C.E (1948) A Mathematical Theory of Communication. The Bell System Technical Journal, Vol. 27, pp. 379-423 Het basisartikel van de informatietheorie. Ook verkrijgbaar via de website. 7