Definitie extractie. Onderzoek naar het automatiseren van een leeshulp voor ICT-terminologie. Olaf Woertel Augustus 2007

Definitie extractie Onderzoek naar het automatiseren van een leeshulp voor ICT-terminologie Olaf Woertel Augustus 2007 1

2 BA-scriptie Olaf Woertel s1397117 Informatiekunde Rijksuniversiteit Groningen http://hagen.let.rug.nl/~s1397117/ba Augustus 2007

INHOUD Inhoudsopgave 3 Introductie 4 Vooronderzoek 5 Onderzoeksopzet 9 Implementatie 10 Resultaten 16 Conclusie 20 Referenties 22 3

INTRODUCTIE Veel onderzoek is de laatste jaren uitgevoerd naar het automatisch vinden van begrippen en afkortingen, inclusief een uitleg over de betekenis ervan. Van veel afkortingen kunnen automatisch de volledige versie en betekenis gevonden worden door herkenning met behulp van algoritmen en begrippen kunnen veelal gevonden en uitgelegd worden in corpora en andere teksten. Deze onderzoeken zijn slechts een klein deel van de ICT die de afgelopen jaren enorm gegroeid is. Niet alleen zijn veel meer mensen computers en toebehoren gaan gebruiken, ook komen er steeds meer producten, applicaties en standaarden. Al deze nieuwe ontwikkelingen dragen hun eigen namen en gaan gepaard met hun eigen termen. Zoals bij namen en termen vaak het geval is, zijn er ook vele afkortingen verschenen, zoals symbolen, initiaalwoorden, acroniemen en verkortingen. Afkortingen als PC, HTTP en MSN, maar ook termen en ICT-producenten als phishing, SQL en nvidia zullen veel mensen bekend voorkomen, maar de betekenis zal niet altijd even bekend zijn. Dit kan het lezen van een ICT-gerelateerde tekst of een gebruiksaanwijzing aanzienlijk vertragen en ingewikkelder maken. Problemen zoals hierboven beschreven komen vaak voor, maar zijn veelal te vermijden, doordat de informatie over deze begrippen en afkortingen wel beschikbaar is. Veel begrippen en afkortingen worden uitgelegd of omschreven, zoals in encyclopedieën, boeken en websites. Eerdere onderzoeken hebben getracht begrippen en afkortingen automatisch uit te leggen met behulp van een corpus, waaruit de nodige informatie gehaald werd. In deze bachelorscriptie zal onderzocht worden in hoeverre een online encyclopedie zoals Wikipedia 1 gebruikt kan worden om automatisch ICTbegrippen te vinden en hier een definitie van te geven. Door gebruik te maken van Wikipedia kunnen grote voordelen behaald worden, zoals het gebruik maken van links tussen begrippen onderling in Wikipedia, maar ook tussen de afkorting en volledige betekenis. Onderzocht wordt in hoeverre dit voordeel biedt voor een automatisch herkenningssysteem. Dit systeem zal gebouwd worden als web-based applicatie waarin teksten kunnen worden gelezen. ICT-begrippen en afkortingen zijn hierin gemarkeerd en deze kunnen door de gebruiker worden aangeklikt. Dit opent een pop-up waarin informatie wordt gegeven over het desbetreffende begrip, gevonden via Wikipedia. Allereerst zal ingegaan worden op eerder uitgevoerde onderzoeken over automatische begrip- en afkortingsherkenning en uitleg. Daarna zal de opzet tot dit onderzoek uitgebreider belicht worden en zullen de uitwerking en resultaten beschreven en uitgelegd worden. Aan het eind de conclusie en mogelijk verder onderzoek. 1 http://nl.wikipedia.org/wiki/hoofdpagina, De Nederlandse Wikipedia, een online encyclopedie. 4

VOORONDERZOEK In het verleden zijn al meerdere onderzoeken gedaan naar het automatisch zoeken en uitleggen van begrippen en afkortingen: Ismail Fahmi en Gosse Bouma, Learning to identify definitions using syntactic features, Groningen University. In dit onderzoek wordt gekeken hoe medische definities kunnen worden uitgelegd met behulp van geparste teksten. De nadruk ligt op de precisie van definitieherkenning die verbeterd wordt met behulp van machine learning technieken, met name hoe deze technieken verschil kunnen maken tussen definitie en non-definitie zinnen. Er werd gebruik gemaakt van het medische gedeelte van de Nederlandse Wikipedia, waar uit de zinnen de syntactische eigenschappen van definities werden gehaald. Het corpus werd syntactisch geannoteerd door Alpino, een robuuste parser voor het Nederlands van de Rijksuniversiteit Groningen. Als testen trainingsdata werden 2500 zinnen handmatig geannoteerd met als categorieën definitie, non-definitie en onbepaald. Zonder de laatste categorie mee te nemen waren er 2299 zinnen waarvan 1366 met een begrip. Dus door alleen de syntax te gebruiken verkreeg de extractiemethode 59%. Als hierbij ook nog de zinspositie wordt meegenomen plus dat alle eerste zinnen als definitie worden gezien en de rest niet, dan volgt er accuracybaseline van 75,9%. Getracht werd de beste attributen te vinden voor tekstclassificatie. Attributen die gebruikt werden: Teksteigenschappen. Dit zijn bijvoorbeeld bigrammen en woordstammen. Stopwoorden werden hierbij niet gebruikt, omdat deze de accuracy negatief beïnvloedden. Documenteigenschappen. Hier wordt voornamelijk gekeken naar de positie van de zin in de tekst. Veelgebruikt in eerdere onderzoeken en nuttig, omdat een definitie meestal in de eerste zin staat. Syntactische eigenschappen. De positie van een onderwerp in de zin is hierbij van belang, zoals 'X is Y'. Ook wordt hierbij gekeken naar het lidwoord dat in definitiezinnen in 62% van de gevallen afwezig blijkt te zijn, waar ze bij nondefinitiezinnen in 50% van de gevallen wel bestaan. Named entity tags. Het toekennen van NEC's (named entity classes) aan onderwerpen, zoals locatie, persoon of organisatie. De meeste definitiezinnen hebben NEC's (40,63%), non-definitiezinnen hebben dit slechts in 11,58% van de gevallen. Om een zo goed mogelijk resultaat te krijgen, werden combinaties van deze attributen uitgeprobeerd, elf in totaal. Deze combinaties werden geëvalueerd met behulp van drie leertechnieken: naive Bayes, maximum entropy en SVM's (support vector machines), waarbij van SVM de lineair, polynomial en radial base function (RBF) kernel werden gebruikt. In alle experimenten wordt beter gescoord dan de baseline van 75,9%, waarbij de SVM technieken het minst scoren. In alle gevallen liggen de scores onder de 90%. Daarnaast kan alleen SVM met RBF naive Bayes net verslaan, met zes betere scores van de in totaal elf configuraties, dit terwijl naive Bayes niet als de best presterende techniek wordt beschouwd. Wat betreft de combinaties zijn woordcombinaties en bigrammen alleen te weinig voor een goede score, ook gecombineerd komen ze niet 5

boven bij de 90%. Verbeteringen zijn zichtbaar indien de positie van zinnen wordt meegenomen. Hier scoort naive Bayes het hoogst, met 90,26%. Dit resultaat kan echter te goed zijn doordat Alpino te veel informatie meegeeft over welke woorden en bigrammen er zijn, waardoor de prestaties hoger liggen. De hoogste performance (92,21%) is te zien bij maximum entropy wanneer naast zinspositie ook syntactische informatie worden meegegeven aan de bigrammen en woordcombinaties. Opvallend uit de resultaten is dat NEC's en woordstammen wel verbeteringen laten zien tussen de resultaten onderling, maar niet onderdeel zijn van het beste resultaat bij zovel naive Bayes als maximum entropy. Van de leertechnieken scoort maximum entropy veruit het beste. Manuel Zahariev, Efficient acronym-expansion matching for automatic acronym acquisition, Simon Fraser University. In dit onderzoek wordt een systeem gepresenteerd waarmee van acroniemen de betekenis kan worden gevonden. Het systeem is een verbeterde ontwikkeling van de al bestaande en besproken systemen. Het systeem werd ontwikkeld om acroniemen te herkennen in een tekst inclusief het zoeken naar de betekenis van een acroniem. Het systeem herkent alleen acroniemen waarvan de letters in dezelfde volgorde staan als de betekenis. Acroniemen in de tekst worden gevonden door gebruik te maken van reguliere expressies, waarbij gezocht wordt naar patronen in de vorm van acronym (betekenis). Daarna wordt gezocht naar de betekenis van dit acronym, waarbij de zoekopdracht wordt geherformuleerd als het zoeken naar de langst gemeenschappelijke string tussen beide gevallen, waarbij de letters in dezelfde volgorde moeten staan en de resultaten plausible moeten zijn, wat inhoudt dat de T s uit HTTP niet beide als betekenis gerelateerd mogen worden met hypertext, maar dat de tweede T als betekenis dient voor transfer. Om het systeem te testen werd een corpus gebruikt uit november 2001 met hierin 17529 acroniembetekenissen. 6 sets van 100 werden willekeurig geselecteerd als trainingssets en een set van 1000 werd geselecteerd als testset, waarbij er geen overlap tussen beide sets bestaat. Na foutcorrectie bleven van de set van 1000 er 962 over, waarmee een precision en recall werden behaald die allebei boven de 99% liggen, voor zowel de gebruikte handmatige als automatische segmentatie in zowel voorwaartse als achterwaartse matching. Gevallen die niet goed gingen waren bijvoorbeeld W3C en XPORT (voor transport), wat het nadeel aangeeft van exacte lettermatching. Ariel Schwartz en Marti Hearst, A simple algorithm for identifying abbreviation definitions in biomedical text, University of California/Berkeley In dit onderzoek wordt een simpel algoritme gepresenteerd waarmee de betekenis van een afkorting kan worden gevonden, door het matchen van de tekens van de afkorting met die van het gehele woord. Dit slaagt indien elke letter van de afkorting gelijk is aan de eerste letter van elk woord van de betekenis, maar het kan ook zijn dat een of meer letters moeten worden gematcht met een bepaald woord. Het algoritme heeft geen trainingsset nodig. Om het algoritme te onderzoeken wordt gekeken naar afkortingen en hun betekenis, waarbij paren <afkorting, betekenis> worden gevonden door te kijken naar haakjes. Dit levert twee vormen op waarin dit kan voorkomen: Betekenis (Afkorting); Afkorting (Betekenis). Als de expressie binnen de haken meer dan twee woorden bevat, wordt automatisch uitgegaan van de tweede vorm. Afkortingen worden als zodanig gezien indien ze 6

bestaan uit maximaal twee woorden, twee tot tien karakters waarvan minimaal een letter is en als het eerste karakter alfanumeriek is. Betekenissen worden geaccepteerd indien ze in dezelfde zin staan als de afkorting en als ze een bepaalde minimale lengte hebben. Uit de lijst die ontstaan is moeten de afkortingen worden gematcht met de betekenissen. Dit wordt gedaan door van zowel de afkorting als de betekenis van rechts van links te bewegen en daarbij de kortst mogelijke betekenis te vinden die matcht met de afkorting. Elk teken van de afkorting moet matchen met minstens een karakter van de betekenis en de gematchte tekens van de betekenis moeten in dezelfde volgorde staan als die van de afkorting. Het eerste teken van de afkorting moet matchen met de eerste letter van het eerste woord van de betekenis, voor de rest mag alles met elkaar matchen, indien voldaan wordt aan de voorwaarden van volgorde. Om het algoritme te evalueren werden 1000 MEDLINE abstracts willekeurig geselecteerd uit de resultaten van de query yeast. Deze werden handmatig geannoteerd waarmee 954 combinaties <afkorting, betekenis> werden verkregen. Het algoritme werd ook getest met behulp van een ander geannoteerd corpus, het Medstract Gold Standard Evaluation Corpus 2. Hierin bevinden zich 168 paren <afkorting, betekenis>. Van deze gouden standaard werden 143 paren geïdentificeerd, waarvan er 137 correct werden geïdentificeerd. Dit leidde tot een recall van 82% en een precision van 96%. Van de zes incorrecte paren bleken er twee wel correct te zijn, deze waren echter niet in de gouden standaard opgenomen. De andere vier paren werden slechts gedeeltelijk gematcht. Door gedeeltelijk correcte matches toe te staan en de twee paren ook mee te nemen, werden een precision van 99% en een recall van 84% bereikt. Oorzaken van de 31 gemiste paren verschillen, al zitten meestal de karakters van de afkorting niet (op volgorde) in de betekenis, zoals bij bijvoorbeeld 5-HT wat serotonin is en ATN voor anterior thalamus. Voor de grote collectie met 954 paren werden 827 paren gevonden. 785 waren daarvan correct, wat leidde tot een recall van 82% en een precisie van 95%. De 169 gemiste paren tonen gemiddeld dezelfde fouten als bij de kleinere set. Manabu Torii, Hongfang Liu, Cathy Wu en Zhangzhi Hu, A comparison study of biomedical short form definition detection algorithms, Georgetown University Medical Center In dit onderzoek worden drie verschillende systemen vergeleken, namelijk: CSA, een Machine Learning systeem van Chang et al., 2006 3. Dit systeem gebruikt het LCS algoritme om naar verschillende paren <afkorting, betekenis> te zoeken. Met behulp van logistieke regressie wordt de beste combinatie gekozen. ALICE, een Templates/rules systeem van Ao en Tagaki, 2005 4. Dit systeem is gebaseerd op 320 handmatig aangemaakte templates en patterns. Door dit te gebruiken in combinatie met een aantal stoplijsten worden de combinaties gevonden. S&H, een Alignment systeem van Schwartz en Hearst, 2003 5. Dit systeem is hierboven besproken. Voor de analyse van de systemen wordt een corpus gemaakt met abstracts van MEDLINE gepubliceerd tussen januari 2006 en juni 2006. Deze teksten zijn anders dan waar de systemen op getraind zijn, dus voordelen kunnen hierdoor niet behaald worden. 2 http://www.medstract.org/gold-standard.html 3 http://uvdb3.hgc.jp/alice/program_download.html 4 http://abbreviation.stanford.edu/ 5 http://biotext.berkeley.edu/software.html 7

Aangezien niet alle afkortingen ook altijd in de tekst vermeld zijn, worden ook twee thesauri gebruikt. Dit zijn de Unified Medical Language System (UMLS) en de BioThesauris. Uit de MEDLINE-teksten worden verschillende <afkorting, betekenis>-paren gehaald, in totaal 258000. Alleen de paren waarin een van beide tussen haakjes staat wordt meegenomen, omdat dit bij alle systemen goed gaat. Voor de rest hebben de drie systemen voor andere mogelijkheden geen of hun eigen manier, waardoor dat niet vergeleken kan worden. In totaal werden door de drie systemen samen 226684 paren gevonden, waarvan 214886 (94%) door alle drie de systemen. Hiervan bestond 61% uit gevallen waarvan de eerste letters van zowel de afkorting als de woorden matchten en bleek uit een steekproef van 100 gevallen alles te kloppen. Dat het simpele algoritme van S&H hierbij ook veel gevallen vindt, komt dan ook vooral door de eerste letter matchen. Daarnaast vindt het algoritme van S&H samen met een van beide andere algoritmen ook veel: met ALICE 3976 paren met 89 van de 100 steekproefgevallen correct en met CSA worden 2428 gevallen gevonden waarvan er 86 van de 100 correct zijn. Opmerkelijk hierbij is dat de combinatie van ALICE en CSA slechts 896 gevallen vindt, waarvan er 75 van de 100 correct zijn. Elk systeem apart vind ook combinaties die niet door andere systemen gevonden worden: ALICE vindt nog 6924 paren waarvan 91/100 correct, CSA 10969 waarvan 66/100 correct en S&H 5606 waarvan 45/100 correct. In de gevallen per systeem apart laat het algoritme van S&H het wel afweten in zowel kwaliteit als kwantiteit. Ook in een vergelijking onderling, waar wordt gekeken naar de paren waarbij elk systeem een andere uitkomst gaf, gaf het algoritme van S&H vaak de lagere scores. In totaal werden 21657 gevallen niet gevonden, waarvan bijna alle gevallen letters of cijfers in de afkorting hadden die niet in het geheel voorkwamen, zoals scheikundige symbolen. Ondanks dit kan voor alle drie de systemen toch een hoge recall gepresenteerd worden, hoger zelfs dan door de onderzoekers zelf in de artikelen gepubliceerd wordt. ALICE behaalt een recall van 97%, beide andere systemen komen niet verder dan 96%. 8

ONDERZOEKSOPZET Eerder ontwikkelde systemen voor automatische begrip- en afkortingsherkenning laten hoge scores zien in zowel de precision als recall. De meest veelvoorkomende begrippen en afkortingen worden correct herkend, iets dat vooral verklaard kan worden vanwege het feit dat deze logisch overeen komen. Zo is bijvoorbeeld de afkorting AMD (Advanced Micro Devices) goed te vinden, omdat de letters van de afkorting de eerste letters van de woorden apart vormen. Ook in gevallen waarbij dit minder duidelijk is, zoals bij MSN (MicroSoft Network), laat het algoritme van Schwartz & Hearst zien dat dit prima te herkennen is. Moeilijk worden de gevallen waarin deze link minder duidelijk zichtbaar is, zoals bij de afkorting W3C (World Wide Web Consortium) en sommige gevallen binnen de chattaal, zoals w8 (wacht). Ook andere besproken technieken, zoals ALICE en CSA in het artikel van het Torii et al. worden afkortingen waarvan de letters of cijfers niet in het geheel voorkomen slecht herkend. Ook bij de begrippen zijn gevallen die niet gevonden worden, maar die veelal wel bestaan in de database of in het corpus. Hierbij kan gedacht worden aan notebook als synoniem voor laptop en computerspel wanneer men het over een game heeft. In dit onderzoek wordt gekeken in hoeverre het mogelijk is Wikipedia als soort van database te gebruiken voor het opzoeken en uitleggen van ICT-begrippen. Wikipedia bevat veel begrippen met uitleg, maar belangrijker nog per begrip meerdere zoektermen. Hierdoor wordt het mogelijk om voor bijvoorbeeld W3C automatisch de redirect op Wikipedia te volgen naar het volledige begrip. Aan de hand daarvan kan bepaald worden wat de betekenis is van de afkorting W3C en kan een uitleg teruggegeven worden aan de gebruiker. Het geheel wordt uitgewerkt als web-based applicatie waarmee een gebruiker Nederlandse ICT-teksten kan lezen en voor moeilijke begrippen en afkortingen een extra informatievenster kan opvragen. 9

IMPLEMENTATIE Binnen de ICT zijn er dagelijks nieuwe ontwikkelingen, welke als nadeel hebben dat ICTbegrippen snel verouderen en dat er dagelijks nieuwe begrippen en afkortingen bijkomen. Om hier goed mee om te kunnen gaan zijn er twee varianten verschenen van de leeshulp: een automatisch geannoteerde versie 6 en een handmatig geannoteerde versie 7. De automatische versie werkt met een lijst met ICT-begrippen waarmee alle ICT-begrippen van de tekst worden veranderd in URL's. De lijst bestaat uit 8525 ICTbegrippen, waaronder woorden, afkortingen, bedrijven en producten. De lijst is samengesteld uit data van CeBit 8 en andere ICT-woordenboeksites 9. Bij de handmatige versie zijn de teksten handmatig geannoteerd. Om de applicatie te ontwikkelen en te trainen werden teksten willekeurig geselecteerd van Hardware.info 10. Deze teksten werden handmatig geannoteerd om alle mogelijke varianten en begrippen te vinden waarmee een web-based applicatie ontwikkeld zou kunnen worden. Als eerste werd de handmatige versie ontwikkeld, samen met Mark Jansen 11. De applicatie is ontwikkeld als web-based applicatie met behulp van Javascript en AJAX. De keuze van deze techniek heeft vooral te maken met de automatische versie van de leeshulp. Indien een tekst gekozen wordt, moet de hele tekst geparsed worden waarbij woorden in de lijst worden aangepast als URL. Om dit snel en onzichtbaar te kunnen doen voor de gebruiker bleek AJAX de beste keuze. Als eerste wordt de handmatige versie besproken, welke als eerste is gebouwd. Hierin werd het parsen van Wikipedia getraind en de handmatige versie diende daardoor als basis voor de automatische versie. De applicatie wordt gestart via een webbrowser en hierin krijgt de gebruiker een menu te zien waaruit een tekst kan worden gekozen, waar bij alle teksten de ICTbegrippen zijn gemarkeerd door middel van een URL. Indien de gebruiker op een van deze begrippen klikt, wordt een pop-up venster getoond waarin de betekenis wordt getoond, zoals zichtbaar in figuur 1. Indien deze betekenis niet gevonden kan worden, zal dat ook in de pop-up duidelijk worden gemaakt. Om de betekenis te vinden wordt allereerst de zoekterm aangepast. Het systeem zoekt naar begrippen op Wikipedia door middel van de URL. Dit gebeurd door de URL te verlengen met het zoekterm. Om dit correct te laten verlopen, moeten de spaties worden vervangen door een underscore, moet een zoekterm met een hoofdletter beginnen en de meeste begrippen bevatten geen hoofdletters naast de eerste letter. Voor een zo groot mogelijk zoekbereik worden vier mogelijke varianten op de zoekterm gemaakt, waarmee Wikipedia zal worden geraadpleegd. De eerste variant bestaat zoals hierboven beschreven uit de term met een hoofdletter en eventuele spaties vervangen door een underscore. Daarnaast wordt het hele woord geconverteerd naar lowercase, wat de meest voorkomende woordvariant op Wikipedia is. Indien dit geen resultaat oplevert worden twee varianten geprobeerd die kijken of de term een meervoudterm is en of 6 De automatisch geannoteerde versie, te vinden op http://hagen.let.rug.nl/~s1397117/ba/av/index.html 7 De handmatig geannoteerde versie, te vinden op http://hagen.let.rug.nl/~s1397117/ba/nl/index.html 8 http://www.cebit.de/search_akl 9 http://www.leren.nl/rubriek/computers_en_internet/ict-terminologie/ & http://www.computerwoorden.nl/ & http://nl.wikipedia.org/wiki/ & http://www.strict.nl/ict_woordenboek.asp 10 http://www.hardware.info 11 Mark Jansen, s1253875 10

deze eenvoudig te herleiden is naar de enkelvoudvorm. Hierbij wordt allereerst gekeken of een begrip wel kan worden gevonden indien een eventuele s aan het eind van de Figuur 1, het opvragen van computer. zoekterm verwijderd wordt. Veel woorden zoals processors en computers zijn de meervoudvorm van processor en computer. De meervoudvariant wordt door Wikipedia niet gevonden, de enkelvoudvorm wel waardoor retrieval aanzienlijk verbetert. De andere meervoudvariant verwijdert een eventuele en aan het eind, waardoor zoektermen als beeldschermen ook op Wikipedia kunnen worden gevonden, zijnde als beeldscherm. Deze vormt levert wel een aantal extra woorden op, maar slaagt aanzienlijk minder, omdat deze vorm vaker onderdeel is van grotere woordmutaties, zoals kloksnelheden waarbij de 'en'-verwijdering leidt tot kloksnelhed, wat geen bestaand woord is. Betere stemming is zeker mogelijk binnen de corpustaalkunde, maar dit viel helaas buiten het bereik van deze scriptie, waar de zoekmethode voorop staat. De vierde variant op de zoekterm laat het originele woord bijna intact, maar veranderd alleen de eerste letter in een hoofdletter en vervangt spaties door underscores. Deze optie voorziet vooral in gevallen die niet de standaard volgen. Indien geen van deze vier zoekwoordvarianten iets vindt, wordt de zoekopdracht afgebroken en wordt dit aan de gebruiker gemeld door middel van een pop-up. In veel gevallen wordt echter wel een pagina gevonden, waarbij deze pagina ontleed wordt van alle overbodige opmaak en informatie waarbij alleen het relevante (tekst)gedeelte overblijft. In dit gedeelte wordt bekeken of het een doorverwijspagina betreft, waarbij een begrip dus in meerdere sectoren kan voorkomen en er meerdere betekenissen voor bestaan. Indien de pagina een doorverwijspagina is, wordt eerst 11

gekeken of het begrip een afkorting is en of de volledige betekenis ervan kan worden verkregen via TechWeb 12. Een begrip wordt gezien als afkorting indien het geheel bestaat uit hoofdletters. Indien TechWeb een volledige beschrijving teruggeeft wordt met dit begrip nogmaals de Wikipedia-request uitgevoerd met vier mogelijke zoektermvarianten. Een voorbeeld hiervan is de afkorting USB. Dit levert in Wikipedia een doorverwijspagina op, met hierop meerdere betekenissen voor USB. Na een analyse blijkt dit begrip geheel uit hoofdletters te bestaan en wordt het begrip naar TechWeb gestuurd. Met het resultaat van TechWeb kan een nieuwe request bij Wikipedia uitgevoerd worden met de zoekterm Universal Serial Bus. Het programma zal hierbij de spaties vervangen door underscores en de correcte pagina teruggeven, met uitleg van het begrip. In de dan getoonde pop-up zal getoond worden dat Universal Serial Bus de betekenis is van USB. In de gevallen dat TechWeb geen uitkomst kan geven bij de doorverwijspagina's van Wikipedia, zal het relevante deel van de doorverwijspagina in zijn geheel getoond worden in de pop-up, zoals zichtbaar in figuur 2. Hierbij worden de relatieve links van Wikipedia aangepast in absolute links, zodat deze blijven werken. Figuur 2, weergave van een meerkeuzepagina in de pop-up. Tijdens de ontwikkeling van het systeem is geprobeerd op een andere manier de correcte betekenis te vinden van de doorverwijspagina. Een voorbeeld hiervan is de doorverwijspagina die verkregen wordt indien met op Wikipedia zoekt naar partitie, 12 http://www.techweb.com/encyclopedia 12

zichtbaar in figuur 3. Per begrip staat beschreven tot welke categorie het behoort, zoals informatica en wiskunde. Nu kan het originele zoekbegrip vervangen worden indien in deze beschrijving ICT-gerelateerde begrippen staan zoals informatie, informatica, informatiekunde, computer, digitaal of ICT. Dit leidde in een aantal gevallen, waaronder partitie, wel tot het gewenste resultaat. Hierbij werd de originele zoekterm partitie vervangen door partitie_(informatica) waarmee de correcte pagina op Wikipedia gevonden werd. Echter bleek deze methode ook in veel gevallen tot minder gewenste resultaten te leiden. Er zijn veel doorverwijspagina's op Wikipedia en dit aantal blijft groeien. Het is daarmee niet ondenkbaar dat een request in een loop kan komen, doordat van doorverwijspagina naar doorverwijspagina verwezen wordt. Ook al wordt dit geval gelimiteerd aan een aantal iteraties of andere beperkingen, het blijft moeilijk uit een serie doorverwijspagina's de correcte pagina te kiezen. Voor het begrip 'Accu' kwam het systeem bijvoorbeeld uit bij 'Registergeheugen', dankzij twee doorverwijspagina's. Vanwege een te hoog aantal complicaties bij het verwerken van de doorverwijspagina s wordt de doorverwijspagina daarom in het geheel getoond, tenzij TechWeb een nuttige aanvulling kan geven op de doorverwijspagina. In veel gevallen, zoals partitie, blijkt de doorverwijspagina ook al een redelijke uitleg te geven en anders kan de gebruiker doorklikken naar het correct begrip, welke in een nieuw venster opent. Het woord partitie betekent in het algemeen opdeling. In sommige vakgebieden heeft het een specifieke technische betekenis. Partitie kan verwijzen naar: Partitie (informatica), een logische onderverdeling van een harde schijf Partitie (wiskunde), een opdeling van een verzameling in onderling disjuncte niet-lege delen Partitiefunctie, een wiskundige functie in de statistische mechanica die iets verklapt over de kansverdeling van verschillende energietoestanden bij gegeven temperatuur; zie ook simulated annealing. Figuur 3: Partitie 13 Voor alle pagina's die geen doorverwijspagina zijn, wordt het relevante tekstgedeelte geselecteerd die de betekenis van een begrip of afkorting bevat. In een eerder stadium van ontwikkeling werd hierbij gekeken naar relaties, zoals 'X is een producent van Y', waarvan vooral gekeken werd naar 'is een'-relaties. Dit bleek in veel gevallen toch te beperkt of niets op te leveren, zoals bij begrippen als graphics en online, welke zich moeilijk in een 'is een'-relatie laten beschrijven. Ook in figuur 3 is zichtbaar dat het begrip partitie zich moeilijk laat definiëren door een is een -relatie. Daarnaast heeft Wikipedia niet een standaard staan voor de opmaak van tekst, waardoor deze oplossing verviel. Gekozen is om de tekst te selecteren vanaf de zoekterm tot aan de newline (\n). Hierbij wordt gekeken naar het eerste voorkomen van de zoekterm in de tekst en wordt het begin gezet op het begin van de eerste zin met de zoekterm erin. Overwogen is te selecteren tot aan de punt in plaats van de newline, maar ook dit bleek in veel gevallen beperkt en selectie tot de newline bleek in bijna alle gevallen binnen lengteproporties te vallen en net wat meer relevante informatie te geven, waardoor is gekozen voor deze oplossing. Indien de tekst werd gevonden na een redirect, zoals bij bijvoorbeeld notebook (welke de pagina laptop oplevert), wordt de 13 http://nl.wikipedia.org/wiki/partitie (23-07-2007) 13

zoekterm vervangen door de paginatitel en wordt met deze term de relevante tekstpassage geselecteerd. In dit geval wordt wel in de pop-up gemeld dat de begrippen synoniem van elkaar zijn, wat zichtbaar is in figuur 4. Figuur 4, weergave van de redirect in de pop-up. De automatische versie verschilt weinig van de handmatige versie. In de automatische versie kan een gebruiker, net als in de handmatige versie, een tekst aanklikken waarna de tekst verschijnt met woorden gemarkeerd als URL. Het verschil is dat de teksten niet geannoteerd zijn en dat dit automatisch gedaan wordt, met behulp van een lijst met 8525 begrippen, waaronder ICT gerelateerde afkortingen, begrippen en bedrijven. Opzoeken, parsen en weergave van begrippen en afkortingen gaat allemaal op dezelfde manier als in de handmatige versie. De automatische versie is gebouwd zonder trainingsset, omdat deze gebaseerd is op de handmatige versie, waarbij al met een trainingsset gewerkt werd. Tijdens de ontwikkeling van de Nederlandse leeshulp bleek al snel dat retrieval niet mee zou zitten, vooral vanwege het beperkte aantal artikelen van Wikipedia en het aantal namen en productmerken dat in de teksten voorkwam. Een vergelijking met de Engelse Wikipedia zou daarom niet misstaan, vooral omdat die veel meer pagina s bevat, waaronder veel namen en producten. Naast de Nederlandse leeshulp is ook een handmatige versie van een Engelse leeshulp 14 gemaakt, welke exact hetzelfde werkt als de Nederlandse versie. Naast de taal zijn de enige verschillen dat een pagina op andere 14 http://hagen.let.rug.nl/~s1397117/ba/en/index.html 14

waarden binnen Wikipedia geparst wordt, welke weinig verschilt van de Nederlandse. De rest kon technisch hetzelfde blijven en behoefde alleen een vertaling. 15

RESULTATEN Zowel de handmatig geannoteerde versie als de automatische versie van het Nederlands zijn getest met willekeurig gekozen teksten van Tweakers.net. 15 Voor de handmatige versie zijn de ICT-begrippen in de tekst geannoteerd. Resultaten zijn weergegeven in tabel 1 en 2. Tekst Aantal begrippen* Correct** Incorrect*** Retrieved Correct retrieved T001 19 10/10/00 09/09/00 52,6% 52,6% T002 3 03/03/00 00/00/00 100% 100% T003 30 09/08/01 21/19/02 30% 26,7% T004 49 36/36/00 13/11/02 73,5% 73,5% T005 38 17/17/00 21/21/00 44,7% 44,7% T006 52 30/30/00 22/22/00 57,7% 57,7% T007 31 18/18/00 13/12/01 58,1% 58,1% T008 33 15/15/00 18/18/00 45,5% 45,5% T009 35 24/24/00 11/10/01 68,6% 68,6% T010 39 18/16/02 21/19/02 46,2% 41% Totaal 329 180/177/03 149/141/08 54,7% 53,8% Tabel 1: Resultaten van de handmatige versie, 25-07-2007 16 Tekst Aantal begrippen* Correct** Incorrect*** Retrieved Correct Retrieved T001 9 09/09/00 00/00/00 100% 100% T002 4 04/04/00 00/00/00 100% 100% T003 12 08/08/00 04/04/00 66,7% 66,7% T004 6 05/05/00 01/01/00 83,3% 83,3% T005 8 08/08/00 00/00/00 100% 100% T006 9 06/06/00 03/02/01 66,7% 66,7% T007 7 07/07/00 00/00/00 100% 100% T008 6 04/04/00 02/02/00 66,7% 66,7% T009 10 09/09/00 01/01/00 90% 90% T010 10 09/09/00 01/01/00 90% 90% Totaal 81 69/69/00 12/11/01 85,2% 85,2% Tabel 2: Resultaten van de automatische versie, 25-07-2007 17 De verschillen tussen beide versies zijn groot, waarbij er een aantal dingen zijn die opvallen. 15 http://www.tweakers.net 16 Opmerkingen bij de handmatige Nederlandse versie: * Unieke begrippen, eventuele dubbele begrippen zijn eenmaal geannoteerd/meegeteld. ** Alle gevonden gevallen / alle gevallen die correct waren / wel wat gevonden, maar verkeerd. *** Alle niet gevonden gevallen / welke niet op Wikipedia stonden / welke wel op Wikipedia stonden. 17 Opmerkingen bij de automatische Nederlandse versie: *Unieke begrippen, automatische annotatie bevat vele begrippen meerdere malen, maar deze worden eenmaal geteld. ** Alle gevonden gevallen / alle gevallen die correct waren / wel wat gevonden, maar verkeerd. *** Alle niet gevonden gevallen / welke ook niet op Wikipedia stonden / welke wel op Wikipedia stonden. 16

Ten eerste ligt het aantal unieke begrippen in de teksten van de handmatige versie vele malen hoger dan in de automatische versie. Opgeteld zijn in de handmatige versie 329 begrippen geanalyseerd, terwijl in de automatische versie slechts 81 begrippen zijn geanalyseerd. Dit verschil is vooral te verklaren door de lijst die wordt gebruikt in de automatische versie, welke beperkt is door het aantal begrippen. Alle ICTbegrippen verzamelen, voor zover dit te doen is, is een enorme taak en levert een enorme lijst op. Daarnaast komen er vele nieuwe begrippen, afkortingen en namen per dag bij, dat deze lijst per definitie achterloopt, zeker voor begrippen binnen de ICT. Deze begrippen worden allemaal wel in de handmatige versie geannoteerd, waardoor het aantal woorden hier ook veel hoger zal liggen. Ten tweede is het verschil in het percentage gevonden begrippen enorm afwijkend tussen beide versies. Dit wordt ten dele weer verklaard door de lijst die gehanteerd wordt in de automatische versie. Deze lijst is samengesteld uit bestaande woorden welke grotendeels al ingeburgerd zijn in de ICT en daarmee ook veel vaker gevonden zullen worden op Wikipedia. De gekozen teksten zijn veelal reviews van nieuwe producten, technieken of nieuwsberichten en bevatten dus relatief veel nieuwere termen, die mogelijkerwijs nog niet op Wikipedia bestaan. In de handmatige selectie worden deze wel geannoteerd, de automatische versie heeft deze begrippen niet in de lijst staan en zal deze woorden dan ook ongemoeid laten. Tekst Aantal begrippen* Correct** Incorrect*** Retrieved Correct Retrieved H001 40 33/31/02 07/07/00 82,5% 77,5% H002 40 22/20/02 14/12/02 55% 50% H003 26 22/21/01 04/04/00 84,6% 80,8% H004 33 26/26/00 07/07/00 78,8% 78,8% H005 24 15/14/01 09/09/00 62,5% 58,3% H006 18 10/10/00 08/08/00 55,6% 55,6% H007 57 37/36/01 20/19/01 64,9% 63,2% H008 40 17/16/01 23/23/00 42,5% 40% H009 37 25/24/01 12/12/00 67,6% 64,9% H010 30 25/23/02 05/05/00 83,3% 76,7% H011 41 30/29/01 11/11/00 73,2% 70,1% H012 30 22/21/01 08/08/00 73,3% 70% Totaal 416 284/271/13 132/129/03 68,3% 65,1% Tabel 3: resultaten van de trainingsdata met de handmatige versie, 24-07-2007 18 De retrievalpercentages liggen bij de handmatige versie niet alleen zo laag omdat de begrippen relatief nieuw zijn, in de handmatige versie worden ook alle producten en bedrijven geselecteerd en die worden veelal niet gevonden op Wikipedia. Een ander groot nadeel was de scheiding van sommige begrippen, zoals ATA-schijf. Beide delen apart worden wel gevonden als begrip op Wikipedia, maar gecombineerd niet. Dit probleem dook ook op bij bedrijven gecombineerd met productnamen. Een voorbeeld hiervan is Microsoft Windows Vista Home Edition, welk begrip moet worden gezien als een combinatie tussen een bedrijf (Microsoft) en een product, namelijk Windows Vista Home Edition. Deze productnaam moet worden gezien als een geheel en wordt niet gevonden op Wikipedia, terwijl Windows en Vista Home Edition los wel 18 Opmerkingen bij trainingsdata van de Nederlandse handmatige versie: * Unieke begrippen, eventuele dubbele begrippen zijn eenmaal geannoteerd/meegeteld. ** Alle gevonden gevallen / alle gevallen die correct waren / wel wat gevonden, maar verkeerd. *** Alle niet gevonden gevallen / welke ook niet op Wikipedia stonden / welke wel op Wikipedia stonden. 17

gevonden worden. Saillant detail hierbij is dat dit probleem zich opdook tijdens de ontwikkeling en dat op een dag het begrip in zijn geheel wel te vinden was op Wikipedia. Dit voorval is ook de reden om bij alle resultaten in dit onderzoek de datum van evaluatie te publiceren. De gehaalde percentages zijn een momentopname voor die dag en het is aannemelijk dat de applicatie zich zal verbeteren in de toekomst, vanwege een groter aantal artikelen op Wikipedia. Dit voorval geeft meteen een ander probleem aan dat zich soms voordeed, al was het beperkt. Een begrip kan wel bestaan op Wikipedia, maar door verschillen in schrijfwijze of door onbestaande links niet gevonden worden. Dit probleem deed zich vooral voor met Core 2 Duo, welke niet rechtstreeks op Wikipedia gevonden kan worden, maar wel als Intel Core 2 Duo en Intel Core 2. Dit wordt ook weergegeven in tabel 1 en 2, de kolom incorrect vermeldt eerst het aantal foute gevallen, daarna hoeveel van die gevallen ook daadwerkelijk niet voorkomen op Wikipedia en als laatste hoeveel van die gevallen wel voorkomen op Wikipedia en dus gevonden hadden moeten worden. Dit bleek in de handmatige versie van de 329 keer 8 keer voor te komen en in de automatische versie 1 van de 81 keer. Zoals in tabel 3 te zien kwam dit ook slechts 3 van de 416 keer voor bij de trainingsdata. Van de gevonden begrippen is het overgrote deel wel correct, bij de handmatige versie gaat dit slechts in 3 van de 180 gevonden gevallen fout (98,3% correct), bij de automatische versie waren alle gevonden begrippen correct (100% correct). De uiteindelijke retrieval van het handmatige systeem ligt op 177 correcte gevallen van de 329, een correcte retrieval van 53,8%, het automatische systeem ligt hoger met 69 van de 81 gevallen correct en daarmee een correcte retrieval van 85,2%. Zoals vermeld bij de implementatie is van de leeshulp ook een Engelse variant gebouwd. Hiermee kan hetzelfde systeem voor Engelse teksten met de Engelse Wikipedia getest worden, vooral om te kijken of het zich hierbij beter verhoudt dan bij de Nederlandse leeshulp. Resultaten van de Engelse leeshulp zijn te vinden in tabel 4. Deze resultaten zijn gebaseerd op teksten die willekeurig zijn geselecteerd van InfoWorld 19. Tekst Aantal begrippen* Correct** Incorrect*** Retrieved Correct Retrieved I001 31 28/28/00 03/03/00 90,3% 90,3% I002 38 36/36/00 02/02/00 94,7% 94,7% I003 29 27/27/00 02/02/00 93,1% 93,1% I004 43 38/38/00 05/05/00 88,4% 88,4% I005 26 24/24/00 02/02/00 92,3% 92,3% Totaal 167 153/153/00 14/14/00 91,6% 91,6% Tabel 4: resultaten van de handmatige Engelse versie, 26-07-2007 20 Het verschil met de Nederlandse versie is groot, de Engelse versie scoort aanzienlijk beter. Van de in totaal 167 begrippen worden er 153 gevonden, die ook allemaal correct zijn, en daarmee bereikt de Engelse leeshulp een correcte retrieval van 91,6%, welke aanzienlijk hoger ligt dan de 53,8% (handmatige versie) en de 85,2% (automatische versie) van de Nederlandse leeshulpen. Daarnaast is het systeem in de gevonden begrippen foutloos en bestaat de niet gevonden begrippen ook daadwerkelijk niet in de Engelse Wikipedia. 19 http://www.infoworld.com/ 20 Opmerkingen bij de Engelse leeshulp, handmatige versie: * Unieke begrippen, eventuele dubbele begrippen zijn eenmaal geannoteerd/meegeteld ** Alle gevonden gevallen / alle gevallen die correct waren / wel wat gevonden, maar verkeerd *** Alle niet gevonden gevallen / welke ook niet in de database stonden / welke wel in de database stonden 18

Het verschil laat zich eenvoudig verklaren. De Engelse Wikipedia is kwantitatief vele malen groter dan de Nederlandse Wikipedia, wat ten eerste al resulteert in een hogere retrieval. Niet alleen zijn er veel meer woorden te vinden, ook bestaan er per lemma veel meer links. Zo wordt bijvoorbeeld in de Engelse Wikipedia versie bij Core 2 Duo wel correct doorverwezen naar de pagina over de Intel Core 2. In de Nederlandse Wikipedia gebeurt dit niet, terwijl de pagina over de Intel Core 2 wel bestaat. Daarnaast zijn er ook veel meer producten te vinden, die veelal wel wijzen naar een algemene noemer of beschrijving. Ook is de Engelse versie minder strikt in de opmaak van de URL, waardoor hoofdlettergevoeligheid bijna geen rol meer speelt. Een ander punt dat niet geheel onbelangrijk is, is dat de ICT grotendeels door het Engels beïnvloed is. Voor een Engels begrip is per definitie al sneller meer informatie te vinden dan voor het Nederlandse equivalent. Het enige nadeel van de Engelse versie, welke juist vooral veroorzaakt wordt doordat er zoveel artikelen zijn, is dat er veel doorverwijspagina s zijn, waardoor veel meer dan in het Nederlands, een doorverwijspagina als resultaat wordt weergegeven. Op zich kan voor de Nederlandse leeshulp ook de Engelse Wikipedia als informatiebron worden genomen. Nadeel hieraan is dat er begrippen blijven die al Nederlands zijn, zoals harde schijf en breedbeeld, maar ook dat er een Engelse uitleg wordt gegeven bij een Nederlandse leeshulp. Hierbij kan er wel een cross-link gemaakt worden tussen de Engelse en Nederlandse Wikipedia begrippen, voor zover deze bestaat, De Engelse Wikipedia kan zeker helpen bij het zoeken naar afkortingen en de betekenis hiervan, voor zover TechWeb hierin nog niet voorziet. Nadeel hieraan is dan weer het hoge aantal doorverwijspagina s in de Engelse Wikipedia, waardoor er moeilijk een goed resultaat gegeven kan worden. Naast de problemen met lage retrievalpercentages in de Nederlandse leeshulp was ook het testen en uitvoeren van de evaluatie niet altijd even eenvoudig. Wikipedia reageert verschillend op een request van PHP en een request van de browser. Dit verschil kwam naar voren doordat sommige definities op de ene dag niet op te vragen waren via de applicatie, maar op de andere dag weer wel. Het is onduidelijk waaraan dit ligt, maar wel is bekend dat Wikipedia verspreid is over meerdere servers. Indien een hiervan flink belast wordt, kan het zijn dat een request via geautomatiseerde protocollen, zoals het in de applicatie gebruikte PHP, geweigerd worden en alleen browserrequest geaccepteerd worden. Alle gevallen die op een bepaalde dag niet opgevraagd konden worden via de applicatie, waren wel opvraagbaar door het intoetsen van de URL in een browser. 19

CONCLUSIE Uitgangspunt van dit onderzoek was om te onderzoeken in hoeverre een online encyclopedie zoals Wikipedia gebruikt kan worden om automatisch ICT-begrippen uit te leggen. Hiervoor werd een web-based applicatie gebouwd waarin voor Nederlandse, maar ook Engelse teksten voor ICT-begrippen weblinks beschikbaar werden gesteld die extra informatie geven. Deze informatie zou van Wikipedia verkregen worden. Het systeem werkt voor beide talen voor de meest basale ICT-begrippen prima, een verschil tussen beide systemen is echter duidelijk zichtbaar indien gecompliceerdere begrippen of producten merknamen opgevraagd worden. De Engelse leeshulp blijft daarbij hoog in retrieval en vindt slechts een enkel geval niet. De Nederlandse leeshulp heeft hier veel meer moeite mee. De handmatige versie, waar veruit de meeste namen en producten inzitten, blijft dan ook steken op een magere 53,8% in correcte retrieval. De automatische Nederlandse leeshulp, die dankzij de beperkte lijst bijna geen namen en producten bevat, komt tot 85,2% in correcte retrieval, welke stukken hoger ligt, maar nog altijd lager dan de 91,6% correcte retrieval van de Engelse leeshulp. Een systeem voor automatische definitie-extractie werkt dus prima voor het Engels met de Engelse Wikipedia, vooral vanwege de kwantiteit van de Engelse Wikipedia. Ook voor ingewikkelde afkortingen, zoals W3C, wordt de juiste uitleg gegeven. Voor een Nederlandse leeshulp voor de ICT is Wikipedia niet goed te gebruiken, vooral vanwege het lage aantal artikelen en het ontbreken van vele links tussen lemma s en artikelen. Belangrijk hierbij op te merken is, dat zelfs tijdens de ontwikkeling van de applicatie de retrieval verbeterde dankzij de verbetering van Wikipedia zelf, in de kwantitatieve zin. Hiermee kan worden aangegeven dat de Engelse leeshulp zich alleen nog maar kan verbeteren, maar ook dat de Nederlandse leeshulp in de huidige vorm in de toekomst wel goed kan functioneren, indien Wikipedia voldoende artikelen bevat. Voor verder onderzoek in de leeshulp liggen er nog wel een aantal dingen open. Wat betreft het correcte retrievelpercentage is er weinig meer te behalen: alle begrippen die op Wikipedia gevonden konden worden, werden ook gevonden, zonder significant veel fouten. De enige verbeteringen van de applicatie zijn Wikipedia zelf, welke meer artikelen en links moet gaan bevatten. Hier ligt tot nu toe het grootste probleem voor beide Nederlandse versies, vooral voor de handmatige. Veel begrippen worden niet gevonden omdat ze niet bestaan, maar ook veel omdat een link tussen twee synoniemen of namen niet bestaat. Anderzijds kan in de Nederlandse versie een lexicale parser ingebouwd worden waarmee beter enkelvoudvormen verkregen kunnen worden en duidelijker kan worden beslist wanneer een begrip gesplitst moet worden en wanneer niet. In het onderzoek waren onder andere kloksnelheden en VGA-aansluiting een probleem, de eerste om een enkelvoudvorm te krijgen, de tweede vanwege een mogelijke opsplitsing in meerdere termen. In de Engelse versie was dit veel beter te beheersen, vooral omdat woorden daar vaker los geschreven worden, er minder problemen zijn met meervoudvormen en de Engelse Wikipedia bevat veel meer artikelen. Deze complicaties brengen direct het tweede verbeterpunt aan het licht, welke de automatische versie betreft. De automatische versie werkt met een lijst met hierin ICT gerelateerde begrippen, zoals namen, standaarden, afkortingen en merken. Deze lijst bestaat uit 8525 begrippen, maar is veel te kort. Veel begrippen komen niet voor en de 20

lijst bevat ook veel oude begrippen die bijna niet tot niet meer gebruikt worden. De beperking van deze lijst leidt ertoe dat het aantal aangemerkte begrippen erg laag ligt, zeker ten opzichte van de handmatige versie. Veel nieuwe begrippen, zoals namen en producten komen niet voor, wat duidelijk te zien is in de resultaten van de automatische versie, welke aanzienlijk hoger liggen dan de handmatige versie. Een verbetering zou gevonden kunnen worden door te werken zonder een lijst. Hiertoe zou van een tekst eerst kunnen worden bekeken welke woorden niet in het woordenboek, zoals Van Dale, voorkomen om aangemerkt te worden als begrip. Getallen en leestekens moeten hierbij worden uitgezonderd. Voordeel is nu dat alles wat overblijft niet in het woordenboek staat en dus een moeilijk begrip kan zijn. Basale ICT-begrippen vallen echter buiten de boot, aangezien die al opgenomen zouden kunnen zijn in het woordenboek. Men zou hier ook nog een lijst naast kunnen houden, maar het mooiste zou zijn zonder een lijst, zodat de applicatie feitelijk voor elk deelgebied kan werken, zolang de begrippen maar via Wikipedia opgevraagd worden. Nadeel is hierbij wel dat mogelijk moeilijke Nederlandse woorden dankzij deze woordenboekmethode niet aangemerkt zullen worden. Tweede nadeel hierbij is de uitzondering van de getallen, welke sommige productnamen onmogelijk maakt. Hoewel de opzet en implementatie niet gemakkelijk te verbeteren zijn, is er wat betreft het technische deel wel het een en ander te verbeteren. Op zich staat de applicatie al redelijk stabiel door gebruik te maken van AJAX, wat de laadtijden aanzienlijk verkort, zeker bij de automatische versie van de leeshulp. Daarnaast is de applicatie gebouwd als web-based applicatie, waardoor er geen client-side installatie nodig is. Echter zijn er wel een aantal technische punten vatbaar voor verbetering. Ten eerste kan de lay-out aanzienlijk verbeterd worden, welke nu niet meer is dan een primitieve interface. Ten tweede kan het parsergedeelte van de automatische functie verbeterd worden. Nu zijn er nog enkele gevallen die zowel in de lijst als de tekst voorkomen, maar niet gevonden worden. Ten derde en als laatste zou het systeem meer toepasmogelijkheden moeten krijgen. Een einddoel waar hierbij aan gedacht kan worden, is een web-based applicatie waarbij de gebruiker een tekst kan uploaden of een tekst via een URL kan opgeven waarbij de tekst wordt ingelezen en waarbij dan de moeilijke begrippen worden geannoteerd en als URL zichtbaar worden gemaakt in de tekst. Extra tekstopties zoals vergroten kunnen hierbij extra geïmplementeerd worden. Wikipedia gebruiken bij een leeshulp voor ICT-begrippen is een mogelijkheid die toegepast kan worden, maar voornamelijk voor een Engelse versie. Wikipedia, vooral de Nederlandse, mist veel artikelen en links, waarmee retrieval lastig wordt. Het systeem kan wel gebruikt worden in combinatie met andere systemen, zoals ook gedaan is in het artikel van Torii et al (2003). Naast een controlefunctie, kan het systeem goed dienen voor afkortingen die minder voor de hand liggen, zoals W3C. Daarnaast kunnen tussen bepaalde synoniemen verbanden worden gelegd waardoor alsnog een betekenis gevonden kan worden. Waar de Engelse versie als losstaand systeem nog net acceptabel is, is de Nederlandse versie vooralsnog te beperkt. 21

REFERENTIES Ismail Fahmi and Gosse Bouma, Learning to Identify Definitions using Syntactic Features, Proceedings of the EACL 2006 workshop on Learning Structured Information in Natural Language Applications. A Simple Algorithm For Identifying Abbreviation Definitions in Biomedical Text, Ariel Schwartz and Marti Hearst, 2003. Proceedings of the Pacific Symposium on Biocomputing A comparison study of biomedical short form definition detection algorithms, Manabu Torii, Hongfang Liu, Zhangzhi Hu, Cathy Wu. Proceedings of the 1st international workshop on Text mining in bioinformatics 2006 Efficient Acronym-Expansion Matching for Automatic Acronym Acquisition Manuel Zahariev Department of Computing Sciences, Simon Fraser University, Burnaby, B.C., Canada 22