Google met energie Michiel Hochstenbach Universitair Docent Scientific Computing Group Wiskunde Faculteit Wiskunde en Informatica www.win.tue.nl/ hochsten TU/e publieksdag 5 oktober 8
Google: wist U dat-jes... bedacht en opgericht in 998 97% van de Nederlanders gebruikt Google wel eens 94% van de Nederlanders gebruikt Google het meest in de VS heeft Google een marktaandeel van ca 65% is belangrijk voor advertentie-inkomsten concurrenten van Google: Yahoo, MSN,...
Google: wist U dat-jes... bedacht en opgericht in 998 97% van de Nederlanders gebruikt Google wel eens 94% van de Nederlanders gebruikt Google het meest in de VS heeft Google een marktaandeel van ca 65% is belangrijk voor advertentie-inkomsten concurrenten van Google: Yahoo, MSN,... Google komt van googol =! de bedenkers van Google waren wiskundestudenten...
Google: wist U dat-jes... bedacht en opgericht in 998 97% van de Nederlanders gebruikt Google wel eens 94% van de Nederlanders gebruikt Google het meest in de VS heeft Google een marktaandeel van ca 65% is belangrijk voor advertentie-inkomsten concurrenten van Google: Yahoo, MSN,... Google komt van googol =! de bedenkers van Google waren wiskundestudenten...... die nu miljardair zijn...
Zoek in Google naar daar krijg je energie van
Hoe wordt de volgorde van de sites bepaald?
Hoe wordt de volgorde van de sites bepaald? De inhoud is aspect
Hoe wordt de volgorde van de sites bepaald? De inhoud is aspect eerst pagina s met als titel daar krijg je energie van daarna pagina s waarbij daar krijg je energie van de hoofdzaak is dan pagina s waar daar krijg je energie van alleen maar genoemd wordt dan pagina s met alleen maar energie etc
Hoe wordt de volgorde van de sites bepaald? De inhoud is aspect eerst pagina s met als titel daar krijg je energie van daarna pagina s waarbij daar krijg je energie van de hoofdzaak is dan pagina s waar daar krijg je energie van alleen maar genoemd wordt dan pagina s met alleen maar energie etc maar als sites allebei in gelijke mate over daar krijg je energie van gaan, welke komt dan hoger?
Hoe wordt de volgorde van de sites bepaald? De inhoud is aspect eerst pagina s met als titel daar krijg je energie van daarna pagina s waarbij daar krijg je energie van de hoofdzaak is dan pagina s waar daar krijg je energie van alleen maar genoemd wordt dan pagina s met alleen maar energie etc maar als sites allebei in gelijke mate over daar krijg je energie van gaan, welke komt dan hoger? Google bepaalt dit met de PageRank hoe hoger je PageRank, hoe beter!
Hoe werkt PageRank? Stel heel simpel internet, met maar 4 sites: A B C D A heeft link naar B, C, D B heeft link naar D C heeft link naar A, B, D D heeft link naar A, B
We maken hier een matrix van naar van A B A heeft link naar B, C, D B heeft link naar D C heeft link naar A, B, D D heeft link naar A, B : er is een link van site X naar site Y : er is geen link van site X naar site Y C D
Kort tussendoortje over kansen Een kans wordt vaak uitgedrukt als een getal tussen en Voorbeeld:.4 staat voor 4 = 4% is dus kans van.... %
Nu gaan we een toevalswandeling maken A B C D We starten in A, en volgen een willekeurige link, elke link maakt evenveel kans Van matrix met links maken we nu matrix met kansen: naar van naar van
Nu gaan we een toevalswandeling maken naar van A C B D Stel we beginnen in A met kans in B Na stap zijn we: met kans in C met kans in D
Nu gaan we een toevalswandeling maken naar van Na stappen zijn we: met kans naar B { met kans naar D met kans naar A met kans naar C met kans naar B met kans naar D A C B D met kans in D met kans 9 in A met kans 9 in B met kans 9 in D { met kans met kans naar D naar A met kans 6 in A met kans naar B met kans 6 in B Totaal na stappen: met kans 5 8 in A, 5 8 in B, in C, 4 9 in D
Bepaling PageRank Als je een wandeling met oneindig ( ) veel stappen doet, op welke site ben je dan met de grootste kans? Die site heeft de hoogste PageRank, en komt bovenaan in de zoekresultaten!
Bepaling PageRank Als je een wandeling met oneindig ( ) veel stappen doet, op welke site ben je dan met de grootste kans? Die site heeft de hoogste PageRank, en komt bovenaan in de zoekresultaten! stappen was al ingewikkeld
Bepaling PageRank Als je een wandeling met oneindig ( ) veel stappen doet, op welke site ben je dan met de grootste kans? Die site heeft de hoogste PageRank, en komt bovenaan in de zoekresultaten! stappen was al ingewikkeld stappen nog erger
Bepaling PageRank Als je een wandeling met oneindig ( ) veel stappen doet, op welke site ben je dan met de grootste kans? Die site heeft de hoogste PageRank, en komt bovenaan in de zoekresultaten! stappen was al ingewikkeld stappen nog erger stappen lijkt bijna onmogelijk
Bepaling PageRank Als je een wandeling met oneindig ( ) veel stappen doet, op welke site ben je dan met de grootste kans? Die site heeft de hoogste PageRank, en komt bovenaan in de zoekresultaten! stappen was al ingewikkeld stappen nog erger stappen lijkt bijna onmogelijk Hoe moeten we de kansen na stappen bepalen???
Dit lijkt onmogelijk te bepalen!! Gelukkig komt de wiskunde ons te hulp! Met wiskunde technieken kun je bepalen dat na veel stapjes:.5% kans dat je op site A bent.% kans dat je op site B bent 7.5% kans dat je op site C bent 4.% kans dat je op site D bent A B C D TU/e-lesstof voor e jaars studenten! (Lineaire algebra, calculus) Volgorde sites in Google: D, B, A, C
Tipje van de sluier: matrices en vectoren Start in A, komt overeen met vector Na stap met kans in B, met kans in C, met kans in D, komt overeen met Kunnen we ook als volgt doen: = + + + =
Tipje van de sluier: matrix maal vector Na stap Na stappen: = + + + = 5 8 5 8 4 9 Dit blijkt een hele handige manier van werken te zijn
Tipje van de sluier: matrix maal vector Na stap Na stappen: = + + + = 5 8 5 8 4 9 Dit blijkt een hele handige manier van werken te zijn Misschien vermoedt u nu wel hoe je moet bepalen hoe de situatie na stapjes is
Tipje van de sluier: matrix maal vector Na stap Na stappen: = + + + = 5 8 5 8 4 9 Dit blijkt een hele handige manier van werken te zijn Misschien vermoedt u nu wel hoe je moet bepalen hoe de situatie na stapjes is Maar voor de situatie na veel stapjes... meer werk nodig!
Maar wat als ons internet er zo uit ziet? A B C D denk aan: B is een plaatje of PDF document
Maar wat als ons internet er zo uit ziet? A B C D denk aan: B is een plaatje of PDF document als we in A beginnen, komen we nooit in D
Maar wat als ons internet er zo uit ziet? A B C D denk aan: B is een plaatje of PDF document als we in A beginnen, komen we nooit in D en als we in B belanden komen we er nooit meer vandaan we moeten onze toevals-wandeling aanpassen!
Aanpassing toevalswandeling in Google met kans 85% volgen we een link met kans 5% gaan we naar een willekeurige site, zonder daarbij een link te hoeven volgen naar van nemen we nu: naar.5 4.85 +.5 4.85 +.5 4 i.p.v.:.5 4.5 4.5 4.85 +.5 4.85 +.5 4 van naar.85 +.5 4.85 +.5 4.5 4.85 +.5 4 van.85 +.5 4.85 +.5 4.5 4.5 4
Kansen na veel stapjes met aangepaste toevalswandeling.7% kans dat je op site A bent (was.5%) 9.% kans dat je op site B bent (was.%).% kans dat je op site C bent (was 7.5%) 7.9% kans dat je op site D bent (was 4.%) A B C D
Google kost veel energie Google houdt vreselijk veel internetpagina s bij!
Google kost veel energie Google houdt vreselijk veel internetpagina s bij! nu al meer dan 5 miljard
Google kost veel energie Google houdt vreselijk veel internetpagina s bij! nu al meer dan 5 miljard = 5... = 5 9 Dat betekent een gigantische matrix met 5 9 rijen en kolommen dus ongeveer (5 9 ) = 6 getallen!
Google kost veel energie Google houdt vreselijk veel internetpagina s bij! nu al meer dan 5 miljard = 5... = 5 9 Dat betekent een gigantische matrix met 5 9 rijen en kolommen dus ongeveer (5 9 ) = 6 getallen! Mijn PC doet ongeveer 4 9 berekeningen per seconde Dit lijken gigantische berekeningen te worden, die honderden jaren duren... 6 /4 9 sec is ongeveer 4955 jaar! Wat een (verspilde) energie!... maar dankzij wiskundige technieken kunnen we het toch efficient doen! Google berekent PageRank eens per maand
Andere uitdagingen in Google Webpagina s veranderen voortdurend!
Andere uitdagingen in Google Webpagina s veranderen voortdurend! 4% van de sites verandert elke week % van de sites verandert zelfs dagelijks Google zorgt ervoor dat de PageRank efficient wordt aangepast!
Andere uitdagingen in Google Webpagina s veranderen voortdurend! 4% van de sites verandert elke week % van de sites verandert zelfs dagelijks Google zorgt ervoor dat de PageRank efficient wordt aangepast! Herkennen van de taal waarin een site is geschreven
Andere uitdagingen in Google Webpagina s veranderen voortdurend! 4% van de sites verandert elke week % van de sites verandert zelfs dagelijks Google zorgt ervoor dat de PageRank efficient wordt aangepast! Herkennen van de taal waarin een site is geschreven Herkennen van vermoedelijke spelfouten in zoekterm
Andere uitdagingen in Google Webpagina s veranderen voortdurend! 4% van de sites verandert elke week % van de sites verandert zelfs dagelijks Google zorgt ervoor dat de PageRank efficient wordt aangepast! Herkennen van de taal waarin een site is geschreven Herkennen van vermoedelijke spelfouten in zoekterm Goede advertenties plaatsen aan zijkant pagina!!!
Andere uitdagingen in Google Webpagina s veranderen voortdurend! 4% van de sites verandert elke week % van de sites verandert zelfs dagelijks Google zorgt ervoor dat de PageRank efficient wordt aangepast! Herkennen van de taal waarin een site is geschreven Herkennen van vermoedelijke spelfouten in zoekterm Goede advertenties plaatsen aan zijkant pagina!!!... Er zit nog veel meer wiskunde in Google!
Er zit nog veel meer wiskunde in Google... Bv: hoe kan het dat Google zo slim is?
Er zit nog veel meer wiskunde in Google... Bv: hoe kan het dat Google zo slim is?
Tenslotte... Hoe zorgt u ervoor dat uw internet pagina op nr verschijnt?
Tenslotte... Hoe zorgt u ervoor dat uw internet pagina op nr verschijnt? Heel simpel... :
Tenslotte... Hoe zorgt u ervoor dat uw internet pagina op nr verschijnt? Heel simpel... : Zorg ervoor dat zoveel mogelijk pagina s naar de uwe verwijzen
Tenslotte... Hoe zorgt u ervoor dat uw internet pagina op nr verschijnt? Heel simpel... : Zorg ervoor dat zoveel mogelijk pagina s naar de uwe verwijzen en liefst zoveel mogelijk belangrijke pagina s
Bedankt voor uw aandacht! Nog een energieke dag toegewenst! Voor eventueel nalezen: deze presentatie staat op: www.win.tue.nl/ hochsten/energie.html