Definitie extractie. Onderzoek naar het automatiseren van een leeshulp voor ICT-terminologie. Olaf Woertel Augustus 2007

Maat: px
Weergave met pagina beginnen:

Download "Definitie extractie. Onderzoek naar het automatiseren van een leeshulp voor ICT-terminologie. Olaf Woertel Augustus 2007"

Transcriptie

1 Definitie extractie Onderzoek naar het automatiseren van een leeshulp voor ICT-terminologie Olaf Woertel Augustus

2 2 BA-scriptie Olaf Woertel s Informatiekunde Rijksuniversiteit Groningen Augustus 2007

3 INHOUD Inhoudsopgave 3 Introductie 4 Vooronderzoek 5 Onderzoeksopzet 9 Implementatie 10 Resultaten 16 Conclusie 20 Referenties 22 3

4 INTRODUCTIE Veel onderzoek is de laatste jaren uitgevoerd naar het automatisch vinden van begrippen en afkortingen, inclusief een uitleg over de betekenis ervan. Van veel afkortingen kunnen automatisch de volledige versie en betekenis gevonden worden door herkenning met behulp van algoritmen en begrippen kunnen veelal gevonden en uitgelegd worden in corpora en andere teksten. Deze onderzoeken zijn slechts een klein deel van de ICT die de afgelopen jaren enorm gegroeid is. Niet alleen zijn veel meer mensen computers en toebehoren gaan gebruiken, ook komen er steeds meer producten, applicaties en standaarden. Al deze nieuwe ontwikkelingen dragen hun eigen namen en gaan gepaard met hun eigen termen. Zoals bij namen en termen vaak het geval is, zijn er ook vele afkortingen verschenen, zoals symbolen, initiaalwoorden, acroniemen en verkortingen. Afkortingen als PC, HTTP en MSN, maar ook termen en ICT-producenten als phishing, SQL en nvidia zullen veel mensen bekend voorkomen, maar de betekenis zal niet altijd even bekend zijn. Dit kan het lezen van een ICT-gerelateerde tekst of een gebruiksaanwijzing aanzienlijk vertragen en ingewikkelder maken. Problemen zoals hierboven beschreven komen vaak voor, maar zijn veelal te vermijden, doordat de informatie over deze begrippen en afkortingen wel beschikbaar is. Veel begrippen en afkortingen worden uitgelegd of omschreven, zoals in encyclopedieën, boeken en websites. Eerdere onderzoeken hebben getracht begrippen en afkortingen automatisch uit te leggen met behulp van een corpus, waaruit de nodige informatie gehaald werd. In deze bachelorscriptie zal onderzocht worden in hoeverre een online encyclopedie zoals Wikipedia 1 gebruikt kan worden om automatisch ICTbegrippen te vinden en hier een definitie van te geven. Door gebruik te maken van Wikipedia kunnen grote voordelen behaald worden, zoals het gebruik maken van links tussen begrippen onderling in Wikipedia, maar ook tussen de afkorting en volledige betekenis. Onderzocht wordt in hoeverre dit voordeel biedt voor een automatisch herkenningssysteem. Dit systeem zal gebouwd worden als web-based applicatie waarin teksten kunnen worden gelezen. ICT-begrippen en afkortingen zijn hierin gemarkeerd en deze kunnen door de gebruiker worden aangeklikt. Dit opent een pop-up waarin informatie wordt gegeven over het desbetreffende begrip, gevonden via Wikipedia. Allereerst zal ingegaan worden op eerder uitgevoerde onderzoeken over automatische begrip- en afkortingsherkenning en uitleg. Daarna zal de opzet tot dit onderzoek uitgebreider belicht worden en zullen de uitwerking en resultaten beschreven en uitgelegd worden. Aan het eind de conclusie en mogelijk verder onderzoek. 1 De Nederlandse Wikipedia, een online encyclopedie. 4

5 VOORONDERZOEK In het verleden zijn al meerdere onderzoeken gedaan naar het automatisch zoeken en uitleggen van begrippen en afkortingen: Ismail Fahmi en Gosse Bouma, Learning to identify definitions using syntactic features, Groningen University. In dit onderzoek wordt gekeken hoe medische definities kunnen worden uitgelegd met behulp van geparste teksten. De nadruk ligt op de precisie van definitieherkenning die verbeterd wordt met behulp van machine learning technieken, met name hoe deze technieken verschil kunnen maken tussen definitie en non-definitie zinnen. Er werd gebruik gemaakt van het medische gedeelte van de Nederlandse Wikipedia, waar uit de zinnen de syntactische eigenschappen van definities werden gehaald. Het corpus werd syntactisch geannoteerd door Alpino, een robuuste parser voor het Nederlands van de Rijksuniversiteit Groningen. Als test- en trainingsdata werden 2500 zinnen handmatig geannoteerd met als categorieën definitie, non-definitie en onbepaald. Zonder de laatste categorie mee te nemen waren er 2299 zinnen waarvan 1366 met een begrip. Dus door alleen de syntax te gebruiken verkreeg de extractiemethode 59%. Als hierbij ook nog de zinspositie wordt meegenomen plus dat alle eerste zinnen als definitie worden gezien en de rest niet, dan volgt er accuracybaseline van 75,9%. Getracht werd de beste attributen te vinden voor tekstclassificatie. Attributen die gebruikt werden: Teksteigenschappen. Dit zijn bijvoorbeeld bigrammen en woordstammen. Stopwoorden werden hierbij niet gebruikt, omdat deze de accuracy negatief beïnvloedden. Documenteigenschappen. Hier wordt voornamelijk gekeken naar de positie van de zin in de tekst. Veelgebruikt in eerdere onderzoeken en nuttig, omdat een definitie meestal in de eerste zin staat. Syntactische eigenschappen. De positie van een onderwerp in de zin is hierbij van belang, zoals 'X is Y'. Ook wordt hierbij gekeken naar het lidwoord dat in definitiezinnen in 62% van de gevallen afwezig blijkt te zijn, waar ze bij nondefinitiezinnen in 50% van de gevallen wel bestaan. Named entity tags. Het toekennen van NEC's (named entity classes) aan onderwerpen, zoals locatie, persoon of organisatie. De meeste definitiezinnen hebben NEC's (40,63%), non-definitiezinnen hebben dit slechts in 11,58% van de gevallen. Om een zo goed mogelijk resultaat te krijgen, werden combinaties van deze attributen uitgeprobeerd, elf in totaal. Deze combinaties werden geëvalueerd met behulp van drie leertechnieken: naive Bayes, maximum entropy en SVM's (support vector machines), waarbij van SVM de lineair, polynomial en radial base function (RBF) kernel werden gebruikt. In alle experimenten wordt beter gescoord dan de baseline van 75,9%, waarbij de SVM technieken het minst scoren. In alle gevallen liggen de scores onder de 90%. Daarnaast kan alleen SVM met RBF naive Bayes net verslaan, met zes betere scores van de in totaal elf configuraties, dit terwijl naive Bayes niet als de best presterende techniek wordt beschouwd. Wat betreft de combinaties zijn woordcombinaties en bigrammen alleen te weinig voor een goede score, ook gecombineerd komen ze niet 5

6 boven bij de 90%. Verbeteringen zijn zichtbaar indien de positie van zinnen wordt meegenomen. Hier scoort naive Bayes het hoogst, met 90,26%. Dit resultaat kan echter te goed zijn doordat Alpino te veel informatie meegeeft over welke woorden en bigrammen er zijn, waardoor de prestaties hoger liggen. De hoogste performance (92,21%) is te zien bij maximum entropy wanneer naast zinspositie ook syntactische informatie worden meegegeven aan de bigrammen en woordcombinaties. Opvallend uit de resultaten is dat NEC's en woordstammen wel verbeteringen laten zien tussen de resultaten onderling, maar niet onderdeel zijn van het beste resultaat bij zovel naive Bayes als maximum entropy. Van de leertechnieken scoort maximum entropy veruit het beste. Manuel Zahariev, Efficient acronym-expansion matching for automatic acronym acquisition, Simon Fraser University. In dit onderzoek wordt een systeem gepresenteerd waarmee van acroniemen de betekenis kan worden gevonden. Het systeem is een verbeterde ontwikkeling van de al bestaande en besproken systemen. Het systeem werd ontwikkeld om acroniemen te herkennen in een tekst inclusief het zoeken naar de betekenis van een acroniem. Het systeem herkent alleen acroniemen waarvan de letters in dezelfde volgorde staan als de betekenis. Acroniemen in de tekst worden gevonden door gebruik te maken van reguliere expressies, waarbij gezocht wordt naar patronen in de vorm van acronym (betekenis). Daarna wordt gezocht naar de betekenis van dit acronym, waarbij de zoekopdracht wordt geherformuleerd als het zoeken naar de langst gemeenschappelijke string tussen beide gevallen, waarbij de letters in dezelfde volgorde moeten staan en de resultaten plausible moeten zijn, wat inhoudt dat de T s uit HTTP niet beide als betekenis gerelateerd mogen worden met hypertext, maar dat de tweede T als betekenis dient voor transfer. Om het systeem te testen werd een corpus gebruikt uit november 2001 met hierin acroniembetekenissen. 6 sets van 100 werden willekeurig geselecteerd als trainingssets en een set van 1000 werd geselecteerd als testset, waarbij er geen overlap tussen beide sets bestaat. Na foutcorrectie bleven van de set van 1000 er 962 over, waarmee een precision en recall werden behaald die allebei boven de 99% liggen, voor zowel de gebruikte handmatige als automatische segmentatie in zowel voorwaartse als achterwaartse matching. Gevallen die niet goed gingen waren bijvoorbeeld W3C en XPORT (voor transport), wat het nadeel aangeeft van exacte lettermatching. Ariel Schwartz en Marti Hearst, A simple algorithm for identifying abbreviation definitions in biomedical text, University of California/Berkeley In dit onderzoek wordt een simpel algoritme gepresenteerd waarmee de betekenis van een afkorting kan worden gevonden, door het matchen van de tekens van de afkorting met die van het gehele woord. Dit slaagt indien elke letter van de afkorting gelijk is aan de eerste letter van elk woord van de betekenis, maar het kan ook zijn dat een of meer letters moeten worden gematcht met een bepaald woord. Het algoritme heeft geen trainingsset nodig. Om het algoritme te onderzoeken wordt gekeken naar afkortingen en hun betekenis, waarbij paren <afkorting, betekenis> worden gevonden door te kijken naar haakjes. Dit levert twee vormen op waarin dit kan voorkomen: Betekenis (Afkorting); Afkorting (Betekenis). Als de expressie binnen de haken meer dan twee woorden bevat, wordt automatisch uitgegaan van de tweede vorm. Afkortingen worden als zodanig gezien indien ze 6

7 bestaan uit maximaal twee woorden, twee tot tien karakters waarvan minimaal een letter is en als het eerste karakter alfanumeriek is. Betekenissen worden geaccepteerd indien ze in dezelfde zin staan als de afkorting en als ze een bepaalde minimale lengte hebben. Uit de lijst die ontstaan is moeten de afkortingen worden gematcht met de betekenissen. Dit wordt gedaan door van zowel de afkorting als de betekenis van rechts van links te bewegen en daarbij de kortst mogelijke betekenis te vinden die matcht met de afkorting. Elk teken van de afkorting moet matchen met minstens een karakter van de betekenis en de gematchte tekens van de betekenis moeten in dezelfde volgorde staan als die van de afkorting. Het eerste teken van de afkorting moet matchen met de eerste letter van het eerste woord van de betekenis, voor de rest mag alles met elkaar matchen, indien voldaan wordt aan de voorwaarden van volgorde. Om het algoritme te evalueren werden 1000 MEDLINE abstracts willekeurig geselecteerd uit de resultaten van de query yeast. Deze werden handmatig geannoteerd waarmee 954 combinaties <afkorting, betekenis> werden verkregen. Het algoritme werd ook getest met behulp van een ander geannoteerd corpus, het Medstract Gold Standard Evaluation Corpus 2. Hierin bevinden zich 168 paren <afkorting, betekenis>. Van deze gouden standaard werden 143 paren geïdentificeerd, waarvan er 137 correct werden geïdentificeerd. Dit leidde tot een recall van 82% en een precision van 96%. Van de zes incorrecte paren bleken er twee wel correct te zijn, deze waren echter niet in de gouden standaard opgenomen. De andere vier paren werden slechts gedeeltelijk gematcht. Door gedeeltelijk correcte matches toe te staan en de twee paren ook mee te nemen, werden een precision van 99% en een recall van 84% bereikt. Oorzaken van de 31 gemiste paren verschillen, al zitten meestal de karakters van de afkorting niet (op volgorde) in de betekenis, zoals bij bijvoorbeeld 5-HT wat serotonin is en ATN voor anterior thalamus. Voor de grote collectie met 954 paren werden 827 paren gevonden. 785 waren daarvan correct, wat leidde tot een recall van 82% en een precisie van 95%. De 169 gemiste paren tonen gemiddeld dezelfde fouten als bij de kleinere set. Manabu Torii, Hongfang Liu, Cathy Wu en Zhangzhi Hu, A comparison study of biomedical short form definition detection algorithms, Georgetown University Medical Center In dit onderzoek worden drie verschillende systemen vergeleken, namelijk: CSA, een Machine Learning systeem van Chang et al., Dit systeem gebruikt het LCS algoritme om naar verschillende paren <afkorting, betekenis> te zoeken. Met behulp van logistieke regressie wordt de beste combinatie gekozen. ALICE, een Templates/rules systeem van Ao en Tagaki, Dit systeem is gebaseerd op 320 handmatig aangemaakte templates en patterns. Door dit te gebruiken in combinatie met een aantal stoplijsten worden de combinaties gevonden. S&H, een Alignment systeem van Schwartz en Hearst, Dit systeem is hierboven besproken. Voor de analyse van de systemen wordt een corpus gemaakt met abstracts van MEDLINE gepubliceerd tussen januari 2006 en juni Deze teksten zijn anders dan waar de systemen op getraind zijn, dus voordelen kunnen hierdoor niet behaald worden

8 Aangezien niet alle afkortingen ook altijd in de tekst vermeld zijn, worden ook twee thesauri gebruikt. Dit zijn de Unified Medical Language System (UMLS) en de BioThesauris. Uit de MEDLINE-teksten worden verschillende <afkorting, betekenis>-paren gehaald, in totaal Alleen de paren waarin een van beide tussen haakjes staat wordt meegenomen, omdat dit bij alle systemen goed gaat. Voor de rest hebben de drie systemen voor andere mogelijkheden geen of hun eigen manier, waardoor dat niet vergeleken kan worden. In totaal werden door de drie systemen samen paren gevonden, waarvan (94%) door alle drie de systemen. Hiervan bestond 61% uit gevallen waarvan de eerste letters van zowel de afkorting als de woorden matchten en bleek uit een steekproef van 100 gevallen alles te kloppen. Dat het simpele algoritme van S&H hierbij ook veel gevallen vindt, komt dan ook vooral door de eerste letter matchen. Daarnaast vindt het algoritme van S&H samen met een van beide andere algoritmen ook veel: met ALICE 3976 paren met 89 van de 100 steekproefgevallen correct en met CSA worden 2428 gevallen gevonden waarvan er 86 van de 100 correct zijn. Opmerkelijk hierbij is dat de combinatie van ALICE en CSA slechts 896 gevallen vindt, waarvan er 75 van de 100 correct zijn. Elk systeem apart vind ook combinaties die niet door andere systemen gevonden worden: ALICE vindt nog 6924 paren waarvan 91/100 correct, CSA waarvan 66/100 correct en S&H 5606 waarvan 45/100 correct. In de gevallen per systeem apart laat het algoritme van S&H het wel afweten in zowel kwaliteit als kwantiteit. Ook in een vergelijking onderling, waar wordt gekeken naar de paren waarbij elk systeem een andere uitkomst gaf, gaf het algoritme van S&H vaak de lagere scores. In totaal werden gevallen niet gevonden, waarvan bijna alle gevallen letters of cijfers in de afkorting hadden die niet in het geheel voorkwamen, zoals scheikundige symbolen. Ondanks dit kan voor alle drie de systemen toch een hoge recall gepresenteerd worden, hoger zelfs dan door de onderzoekers zelf in de artikelen gepubliceerd wordt. ALICE behaalt een recall van 97%, beide andere systemen komen niet verder dan 96%. 8

9 ONDERZOEKSOPZET Eerder ontwikkelde systemen voor automatische begrip- en afkortingsherkenning laten hoge scores zien in zowel de precision als recall. De meest veelvoorkomende begrippen en afkortingen worden correct herkend, iets dat vooral verklaard kan worden vanwege het feit dat deze logisch overeen komen. Zo is bijvoorbeeld de afkorting AMD (Advanced Micro Devices) goed te vinden, omdat de letters van de afkorting de eerste letters van de woorden apart vormen. Ook in gevallen waarbij dit minder duidelijk is, zoals bij MSN (MicroSoft Network), laat het algoritme van Schwartz & Hearst zien dat dit prima te herkennen is. Moeilijk worden de gevallen waarin deze link minder duidelijk zichtbaar is, zoals bij de afkorting W3C (World Wide Web Consortium) en sommige gevallen binnen de chattaal, zoals w8 (wacht). Ook andere besproken technieken, zoals ALICE en CSA in het artikel van het Torii et al. worden afkortingen waarvan de letters of cijfers niet in het geheel voorkomen slecht herkend. Ook bij de begrippen zijn gevallen die niet gevonden worden, maar die veelal wel bestaan in de database of in het corpus. Hierbij kan gedacht worden aan notebook als synoniem voor laptop en computerspel wanneer men het over een game heeft. In dit onderzoek wordt gekeken in hoeverre het mogelijk is Wikipedia als soort van database te gebruiken voor het opzoeken en uitleggen van ICT-begrippen. Wikipedia bevat veel begrippen met uitleg, maar belangrijker nog per begrip meerdere zoektermen. Hierdoor wordt het mogelijk om voor bijvoorbeeld W3C automatisch de redirect op Wikipedia te volgen naar het volledige begrip. Aan de hand daarvan kan bepaald worden wat de betekenis is van de afkorting W3C en kan een uitleg teruggegeven worden aan de gebruiker. Het geheel wordt uitgewerkt als web-based applicatie waarmee een gebruiker Nederlandse ICT-teksten kan lezen en voor moeilijke begrippen en afkortingen een extra informatievenster kan opvragen. 9

10 IMPLEMENTATIE Binnen de ICT zijn er dagelijks nieuwe ontwikkelingen, welke als nadeel hebben dat ICTbegrippen snel verouderen en dat er dagelijks nieuwe begrippen en afkortingen bijkomen. Om hier goed mee om te kunnen gaan zijn er twee varianten verschenen van de leeshulp: een automatisch geannoteerde versie 6 en een handmatig geannoteerde versie 7. De automatische versie werkt met een lijst met ICT-begrippen waarmee alle ICT-begrippen van de tekst worden veranderd in URL's. De lijst bestaat uit 8525 ICTbegrippen, waaronder woorden, afkortingen, bedrijven en producten. De lijst is samengesteld uit data van CeBit 8 en andere ICT-woordenboeksites 9. Bij de handmatige versie zijn de teksten handmatig geannoteerd. Om de applicatie te ontwikkelen en te trainen werden teksten willekeurig geselecteerd van Hardware.info 10. Deze teksten werden handmatig geannoteerd om alle mogelijke varianten en begrippen te vinden waarmee een web-based applicatie ontwikkeld zou kunnen worden. Als eerste werd de handmatige versie ontwikkeld, samen met Mark Jansen 11. De applicatie is ontwikkeld als web-based applicatie met behulp van Javascript en AJAX. De keuze van deze techniek heeft vooral te maken met de automatische versie van de leeshulp. Indien een tekst gekozen wordt, moet de hele tekst geparsed worden waarbij woorden in de lijst worden aangepast als URL. Om dit snel en onzichtbaar te kunnen doen voor de gebruiker bleek AJAX de beste keuze. Als eerste wordt de handmatige versie besproken, welke als eerste is gebouwd. Hierin werd het parsen van Wikipedia getraind en de handmatige versie diende daardoor als basis voor de automatische versie. De applicatie wordt gestart via een webbrowser en hierin krijgt de gebruiker een menu te zien waaruit een tekst kan worden gekozen, waar bij alle teksten de ICTbegrippen zijn gemarkeerd door middel van een URL. Indien de gebruiker op een van deze begrippen klikt, wordt een pop-up venster getoond waarin de betekenis wordt getoond, zoals zichtbaar in figuur 1. Indien deze betekenis niet gevonden kan worden, zal dat ook in de pop-up duidelijk worden gemaakt. Om de betekenis te vinden wordt allereerst de zoekterm aangepast. Het systeem zoekt naar begrippen op Wikipedia door middel van de URL. Dit gebeurd door de URL te verlengen met het zoekterm. Om dit correct te laten verlopen, moeten de spaties worden vervangen door een underscore, moet een zoekterm met een hoofdletter beginnen en de meeste begrippen bevatten geen hoofdletters naast de eerste letter. Voor een zo groot mogelijk zoekbereik worden vier mogelijke varianten op de zoekterm gemaakt, waarmee Wikipedia zal worden geraadpleegd. De eerste variant bestaat zoals hierboven beschreven uit de term met een hoofdletter en eventuele spaties vervangen door een underscore. Daarnaast wordt het hele woord geconverteerd naar lowercase, wat de meest voorkomende woordvariant op Wikipedia is. Indien dit geen resultaat oplevert worden twee varianten geprobeerd die kijken of de term een meervoudterm is en of 6 De automatisch geannoteerde versie, te vinden op 7 De handmatig geannoteerde versie, te vinden op & & & Mark Jansen, s

11 deze eenvoudig te herleiden is naar de enkelvoudvorm. Hierbij wordt allereerst gekeken of een begrip wel kan worden gevonden indien een eventuele s aan het eind van de Figuur 1, het opvragen van computer. zoekterm verwijderd wordt. Veel woorden zoals processors en computers zijn de meervoudvorm van processor en computer. De meervoudvariant wordt door Wikipedia niet gevonden, de enkelvoudvorm wel waardoor retrieval aanzienlijk verbetert. De andere meervoudvariant verwijdert een eventuele en aan het eind, waardoor zoektermen als beeldschermen ook op Wikipedia kunnen worden gevonden, zijnde als beeldscherm. Deze vormt levert wel een aantal extra woorden op, maar slaagt aanzienlijk minder, omdat deze vorm vaker onderdeel is van grotere woordmutaties, zoals kloksnelheden waarbij de 'en'-verwijdering leidt tot kloksnelhed, wat geen bestaand woord is. Betere stemming is zeker mogelijk binnen de corpustaalkunde, maar dit viel helaas buiten het bereik van deze scriptie, waar de zoekmethode voorop staat. De vierde variant op de zoekterm laat het originele woord bijna intact, maar veranderd alleen de eerste letter in een hoofdletter en vervangt spaties door underscores. Deze optie voorziet vooral in gevallen die niet de standaard volgen. Indien geen van deze vier zoekwoordvarianten iets vindt, wordt de zoekopdracht afgebroken en wordt dit aan de gebruiker gemeld door middel van een pop-up. In veel gevallen wordt echter wel een pagina gevonden, waarbij deze pagina ontleed wordt van alle overbodige opmaak en informatie waarbij alleen het relevante (tekst)gedeelte overblijft. In dit gedeelte wordt bekeken of het een doorverwijspagina betreft, waarbij een begrip dus in meerdere sectoren kan voorkomen en er meerdere betekenissen voor bestaan. Indien de pagina een doorverwijspagina is, wordt eerst 11

12 gekeken of het begrip een afkorting is en of de volledige betekenis ervan kan worden verkregen via TechWeb 12. Een begrip wordt gezien als afkorting indien het geheel bestaat uit hoofdletters. Indien TechWeb een volledige beschrijving teruggeeft wordt met dit begrip nogmaals de Wikipedia-request uitgevoerd met vier mogelijke zoektermvarianten. Een voorbeeld hiervan is de afkorting USB. Dit levert in Wikipedia een doorverwijspagina op, met hierop meerdere betekenissen voor USB. Na een analyse blijkt dit begrip geheel uit hoofdletters te bestaan en wordt het begrip naar TechWeb gestuurd. Met het resultaat van TechWeb kan een nieuwe request bij Wikipedia uitgevoerd worden met de zoekterm Universal Serial Bus. Het programma zal hierbij de spaties vervangen door underscores en de correcte pagina teruggeven, met uitleg van het begrip. In de dan getoonde pop-up zal getoond worden dat Universal Serial Bus de betekenis is van USB. In de gevallen dat TechWeb geen uitkomst kan geven bij de doorverwijspagina's van Wikipedia, zal het relevante deel van de doorverwijspagina in zijn geheel getoond worden in de pop-up, zoals zichtbaar in figuur 2. Hierbij worden de relatieve links van Wikipedia aangepast in absolute links, zodat deze blijven werken. Figuur 2, weergave van een meerkeuzepagina in de pop-up. Tijdens de ontwikkeling van het systeem is geprobeerd op een andere manier de correcte betekenis te vinden van de doorverwijspagina. Een voorbeeld hiervan is de doorverwijspagina die verkregen wordt indien met op Wikipedia zoekt naar partitie,

13 zichtbaar in figuur 3. Per begrip staat beschreven tot welke categorie het behoort, zoals informatica en wiskunde. Nu kan het originele zoekbegrip vervangen worden indien in deze beschrijving ICT-gerelateerde begrippen staan zoals informatie, informatica, informatiekunde, computer, digitaal of ICT. Dit leidde in een aantal gevallen, waaronder partitie, wel tot het gewenste resultaat. Hierbij werd de originele zoekterm partitie vervangen door partitie_(informatica) waarmee de correcte pagina op Wikipedia gevonden werd. Echter bleek deze methode ook in veel gevallen tot minder gewenste resultaten te leiden. Er zijn veel doorverwijspagina's op Wikipedia en dit aantal blijft groeien. Het is daarmee niet ondenkbaar dat een request in een loop kan komen, doordat van doorverwijspagina naar doorverwijspagina verwezen wordt. Ook al wordt dit geval gelimiteerd aan een aantal iteraties of andere beperkingen, het blijft moeilijk uit een serie doorverwijspagina's de correcte pagina te kiezen. Voor het begrip 'Accu' kwam het systeem bijvoorbeeld uit bij 'Registergeheugen', dankzij twee doorverwijspagina's. Vanwege een te hoog aantal complicaties bij het verwerken van de doorverwijspagina s wordt de doorverwijspagina daarom in het geheel getoond, tenzij TechWeb een nuttige aanvulling kan geven op de doorverwijspagina. In veel gevallen, zoals partitie, blijkt de doorverwijspagina ook al een redelijke uitleg te geven en anders kan de gebruiker doorklikken naar het correct begrip, welke in een nieuw venster opent. Het woord partitie betekent in het algemeen opdeling. In sommige vakgebieden heeft het een specifieke technische betekenis. Partitie kan verwijzen naar: Partitie (informatica), een logische onderverdeling van een harde schijf Partitie (wiskunde), een opdeling van een verzameling in onderling disjuncte niet-lege delen Partitiefunctie, een wiskundige functie in de statistische mechanica die iets verklapt over de kansverdeling van verschillende energietoestanden bij gegeven temperatuur; zie ook simulated annealing. Figuur 3: Partitie 13 Voor alle pagina's die geen doorverwijspagina zijn, wordt het relevante tekstgedeelte geselecteerd die de betekenis van een begrip of afkorting bevat. In een eerder stadium van ontwikkeling werd hierbij gekeken naar relaties, zoals 'X is een producent van Y', waarvan vooral gekeken werd naar 'is een'-relaties. Dit bleek in veel gevallen toch te beperkt of niets op te leveren, zoals bij begrippen als graphics en online, welke zich moeilijk in een 'is een'-relatie laten beschrijven. Ook in figuur 3 is zichtbaar dat het begrip partitie zich moeilijk laat definiëren door een is een -relatie. Daarnaast heeft Wikipedia niet een standaard staan voor de opmaak van tekst, waardoor deze oplossing verviel. Gekozen is om de tekst te selecteren vanaf de zoekterm tot aan de newline (\n). Hierbij wordt gekeken naar het eerste voorkomen van de zoekterm in de tekst en wordt het begin gezet op het begin van de eerste zin met de zoekterm erin. Overwogen is te selecteren tot aan de punt in plaats van de newline, maar ook dit bleek in veel gevallen beperkt en selectie tot de newline bleek in bijna alle gevallen binnen lengteproporties te vallen en net wat meer relevante informatie te geven, waardoor is gekozen voor deze oplossing. Indien de tekst werd gevonden na een redirect, zoals bij bijvoorbeeld notebook (welke de pagina laptop oplevert), wordt de 13 ( ) 13

14 zoekterm vervangen door de paginatitel en wordt met deze term de relevante tekstpassage geselecteerd. In dit geval wordt wel in de pop-up gemeld dat de begrippen synoniem van elkaar zijn, wat zichtbaar is in figuur 4. Figuur 4, weergave van de redirect in de pop-up. De automatische versie verschilt weinig van de handmatige versie. In de automatische versie kan een gebruiker, net als in de handmatige versie, een tekst aanklikken waarna de tekst verschijnt met woorden gemarkeerd als URL. Het verschil is dat de teksten niet geannoteerd zijn en dat dit automatisch gedaan wordt, met behulp van een lijst met 8525 begrippen, waaronder ICT gerelateerde afkortingen, begrippen en bedrijven. Opzoeken, parsen en weergave van begrippen en afkortingen gaat allemaal op dezelfde manier als in de handmatige versie. De automatische versie is gebouwd zonder trainingsset, omdat deze gebaseerd is op de handmatige versie, waarbij al met een trainingsset gewerkt werd. Tijdens de ontwikkeling van de Nederlandse leeshulp bleek al snel dat retrieval niet mee zou zitten, vooral vanwege het beperkte aantal artikelen van Wikipedia en het aantal namen en productmerken dat in de teksten voorkwam. Een vergelijking met de Engelse Wikipedia zou daarom niet misstaan, vooral omdat die veel meer pagina s bevat, waaronder veel namen en producten. Naast de Nederlandse leeshulp is ook een handmatige versie van een Engelse leeshulp 14 gemaakt, welke exact hetzelfde werkt als de Nederlandse versie. Naast de taal zijn de enige verschillen dat een pagina op andere

15 waarden binnen Wikipedia geparst wordt, welke weinig verschilt van de Nederlandse. De rest kon technisch hetzelfde blijven en behoefde alleen een vertaling. 15

16 RESULTATEN Zowel de handmatig geannoteerde versie als de automatische versie van het Nederlands zijn getest met willekeurig gekozen teksten van Tweakers.net. 15 Voor de handmatige versie zijn de ICT-begrippen in de tekst geannoteerd. Resultaten zijn weergegeven in tabel 1 en 2. Tekst Aantal begrippen* Correct** Incorrect*** Retrieved Correct retrieved T /10/00 09/09/00 52,6% 52,6% T /03/00 00/00/00 100% 100% T /08/01 21/19/02 30% 26,7% T /36/00 13/11/02 73,5% 73,5% T /17/00 21/21/00 44,7% 44,7% T /30/00 22/22/00 57,7% 57,7% T /18/00 13/12/01 58,1% 58,1% T /15/00 18/18/00 45,5% 45,5% T /24/00 11/10/01 68,6% 68,6% T /16/02 21/19/02 46,2% 41% Totaal /177/03 149/141/08 54,7% 53,8% Tabel 1: Resultaten van de handmatige versie, Tekst Aantal begrippen* Correct** Incorrect*** Retrieved Correct Retrieved T /09/00 00/00/00 100% 100% T /04/00 00/00/00 100% 100% T /08/00 04/04/00 66,7% 66,7% T /05/00 01/01/00 83,3% 83,3% T /08/00 00/00/00 100% 100% T /06/00 03/02/01 66,7% 66,7% T /07/00 00/00/00 100% 100% T /04/00 02/02/00 66,7% 66,7% T /09/00 01/01/00 90% 90% T /09/00 01/01/00 90% 90% Totaal 81 69/69/00 12/11/01 85,2% 85,2% Tabel 2: Resultaten van de automatische versie, De verschillen tussen beide versies zijn groot, waarbij er een aantal dingen zijn die opvallen Opmerkingen bij de handmatige Nederlandse versie: * Unieke begrippen, eventuele dubbele begrippen zijn eenmaal geannoteerd/meegeteld. ** Alle gevonden gevallen / alle gevallen die correct waren / wel wat gevonden, maar verkeerd. *** Alle niet gevonden gevallen / welke niet op Wikipedia stonden / welke wel op Wikipedia stonden. 17 Opmerkingen bij de automatische Nederlandse versie: *Unieke begrippen, automatische annotatie bevat vele begrippen meerdere malen, maar deze worden eenmaal geteld. ** Alle gevonden gevallen / alle gevallen die correct waren / wel wat gevonden, maar verkeerd. *** Alle niet gevonden gevallen / welke ook niet op Wikipedia stonden / welke wel op Wikipedia stonden. 16

17 Ten eerste ligt het aantal unieke begrippen in de teksten van de handmatige versie vele malen hoger dan in de automatische versie. Opgeteld zijn in de handmatige versie 329 begrippen geanalyseerd, terwijl in de automatische versie slechts 81 begrippen zijn geanalyseerd. Dit verschil is vooral te verklaren door de lijst die wordt gebruikt in de automatische versie, welke beperkt is door het aantal begrippen. Alle ICTbegrippen verzamelen, voor zover dit te doen is, is een enorme taak en levert een enorme lijst op. Daarnaast komen er vele nieuwe begrippen, afkortingen en namen per dag bij, dat deze lijst per definitie achterloopt, zeker voor begrippen binnen de ICT. Deze begrippen worden allemaal wel in de handmatige versie geannoteerd, waardoor het aantal woorden hier ook veel hoger zal liggen. Ten tweede is het verschil in het percentage gevonden begrippen enorm afwijkend tussen beide versies. Dit wordt ten dele weer verklaard door de lijst die gehanteerd wordt in de automatische versie. Deze lijst is samengesteld uit bestaande woorden welke grotendeels al ingeburgerd zijn in de ICT en daarmee ook veel vaker gevonden zullen worden op Wikipedia. De gekozen teksten zijn veelal reviews van nieuwe producten, technieken of nieuwsberichten en bevatten dus relatief veel nieuwere termen, die mogelijkerwijs nog niet op Wikipedia bestaan. In de handmatige selectie worden deze wel geannoteerd, de automatische versie heeft deze begrippen niet in de lijst staan en zal deze woorden dan ook ongemoeid laten. Tekst Aantal begrippen* Correct** Incorrect*** Retrieved Correct Retrieved H /31/02 07/07/00 82,5% 77,5% H /20/02 14/12/02 55% 50% H /21/01 04/04/00 84,6% 80,8% H /26/00 07/07/00 78,8% 78,8% H /14/01 09/09/00 62,5% 58,3% H /10/00 08/08/00 55,6% 55,6% H /36/01 20/19/01 64,9% 63,2% H /16/01 23/23/00 42,5% 40% H /24/01 12/12/00 67,6% 64,9% H /23/02 05/05/00 83,3% 76,7% H /29/01 11/11/00 73,2% 70,1% H /21/01 08/08/00 73,3% 70% Totaal /271/13 132/129/03 68,3% 65,1% Tabel 3: resultaten van de trainingsdata met de handmatige versie, De retrievalpercentages liggen bij de handmatige versie niet alleen zo laag omdat de begrippen relatief nieuw zijn, in de handmatige versie worden ook alle producten en bedrijven geselecteerd en die worden veelal niet gevonden op Wikipedia. Een ander groot nadeel was de scheiding van sommige begrippen, zoals ATA-schijf. Beide delen apart worden wel gevonden als begrip op Wikipedia, maar gecombineerd niet. Dit probleem dook ook op bij bedrijven gecombineerd met productnamen. Een voorbeeld hiervan is Microsoft Windows Vista Home Edition, welk begrip moet worden gezien als een combinatie tussen een bedrijf (Microsoft) en een product, namelijk Windows Vista Home Edition. Deze productnaam moet worden gezien als een geheel en wordt niet gevonden op Wikipedia, terwijl Windows en Vista Home Edition los wel 18 Opmerkingen bij trainingsdata van de Nederlandse handmatige versie: * Unieke begrippen, eventuele dubbele begrippen zijn eenmaal geannoteerd/meegeteld. ** Alle gevonden gevallen / alle gevallen die correct waren / wel wat gevonden, maar verkeerd. *** Alle niet gevonden gevallen / welke ook niet op Wikipedia stonden / welke wel op Wikipedia stonden. 17

18 gevonden worden. Saillant detail hierbij is dat dit probleem zich opdook tijdens de ontwikkeling en dat op een dag het begrip in zijn geheel wel te vinden was op Wikipedia. Dit voorval is ook de reden om bij alle resultaten in dit onderzoek de datum van evaluatie te publiceren. De gehaalde percentages zijn een momentopname voor die dag en het is aannemelijk dat de applicatie zich zal verbeteren in de toekomst, vanwege een groter aantal artikelen op Wikipedia. Dit voorval geeft meteen een ander probleem aan dat zich soms voordeed, al was het beperkt. Een begrip kan wel bestaan op Wikipedia, maar door verschillen in schrijfwijze of door onbestaande links niet gevonden worden. Dit probleem deed zich vooral voor met Core 2 Duo, welke niet rechtstreeks op Wikipedia gevonden kan worden, maar wel als Intel Core 2 Duo en Intel Core 2. Dit wordt ook weergegeven in tabel 1 en 2, de kolom incorrect vermeldt eerst het aantal foute gevallen, daarna hoeveel van die gevallen ook daadwerkelijk niet voorkomen op Wikipedia en als laatste hoeveel van die gevallen wel voorkomen op Wikipedia en dus gevonden hadden moeten worden. Dit bleek in de handmatige versie van de 329 keer 8 keer voor te komen en in de automatische versie 1 van de 81 keer. Zoals in tabel 3 te zien kwam dit ook slechts 3 van de 416 keer voor bij de trainingsdata. Van de gevonden begrippen is het overgrote deel wel correct, bij de handmatige versie gaat dit slechts in 3 van de 180 gevonden gevallen fout (98,3% correct), bij de automatische versie waren alle gevonden begrippen correct (100% correct). De uiteindelijke retrieval van het handmatige systeem ligt op 177 correcte gevallen van de 329, een correcte retrieval van 53,8%, het automatische systeem ligt hoger met 69 van de 81 gevallen correct en daarmee een correcte retrieval van 85,2%. Zoals vermeld bij de implementatie is van de leeshulp ook een Engelse variant gebouwd. Hiermee kan hetzelfde systeem voor Engelse teksten met de Engelse Wikipedia getest worden, vooral om te kijken of het zich hierbij beter verhoudt dan bij de Nederlandse leeshulp. Resultaten van de Engelse leeshulp zijn te vinden in tabel 4. Deze resultaten zijn gebaseerd op teksten die willekeurig zijn geselecteerd van InfoWorld 19. Tekst Aantal begrippen* Correct** Incorrect*** Retrieved Correct Retrieved I /28/00 03/03/00 90,3% 90,3% I /36/00 02/02/00 94,7% 94,7% I /27/00 02/02/00 93,1% 93,1% I /38/00 05/05/00 88,4% 88,4% I /24/00 02/02/00 92,3% 92,3% Totaal /153/00 14/14/00 91,6% 91,6% Tabel 4: resultaten van de handmatige Engelse versie, Het verschil met de Nederlandse versie is groot, de Engelse versie scoort aanzienlijk beter. Van de in totaal 167 begrippen worden er 153 gevonden, die ook allemaal correct zijn, en daarmee bereikt de Engelse leeshulp een correcte retrieval van 91,6%, welke aanzienlijk hoger ligt dan de 53,8% (handmatige versie) en de 85,2% (automatische versie) van de Nederlandse leeshulpen. Daarnaast is het systeem in de gevonden begrippen foutloos en bestaat de niet gevonden begrippen ook daadwerkelijk niet in de Engelse Wikipedia Opmerkingen bij de Engelse leeshulp, handmatige versie: * Unieke begrippen, eventuele dubbele begrippen zijn eenmaal geannoteerd/meegeteld ** Alle gevonden gevallen / alle gevallen die correct waren / wel wat gevonden, maar verkeerd *** Alle niet gevonden gevallen / welke ook niet in de database stonden / welke wel in de database stonden 18

19 Het verschil laat zich eenvoudig verklaren. De Engelse Wikipedia is kwantitatief vele malen groter dan de Nederlandse Wikipedia, wat ten eerste al resulteert in een hogere retrieval. Niet alleen zijn er veel meer woorden te vinden, ook bestaan er per lemma veel meer links. Zo wordt bijvoorbeeld in de Engelse Wikipedia versie bij Core 2 Duo wel correct doorverwezen naar de pagina over de Intel Core 2. In de Nederlandse Wikipedia gebeurt dit niet, terwijl de pagina over de Intel Core 2 wel bestaat. Daarnaast zijn er ook veel meer producten te vinden, die veelal wel wijzen naar een algemene noemer of beschrijving. Ook is de Engelse versie minder strikt in de opmaak van de URL, waardoor hoofdlettergevoeligheid bijna geen rol meer speelt. Een ander punt dat niet geheel onbelangrijk is, is dat de ICT grotendeels door het Engels beïnvloed is. Voor een Engels begrip is per definitie al sneller meer informatie te vinden dan voor het Nederlandse equivalent. Het enige nadeel van de Engelse versie, welke juist vooral veroorzaakt wordt doordat er zoveel artikelen zijn, is dat er veel doorverwijspagina s zijn, waardoor veel meer dan in het Nederlands, een doorverwijspagina als resultaat wordt weergegeven. Op zich kan voor de Nederlandse leeshulp ook de Engelse Wikipedia als informatiebron worden genomen. Nadeel hieraan is dat er begrippen blijven die al Nederlands zijn, zoals harde schijf en breedbeeld, maar ook dat er een Engelse uitleg wordt gegeven bij een Nederlandse leeshulp. Hierbij kan er wel een cross-link gemaakt worden tussen de Engelse en Nederlandse Wikipedia begrippen, voor zover deze bestaat, De Engelse Wikipedia kan zeker helpen bij het zoeken naar afkortingen en de betekenis hiervan, voor zover TechWeb hierin nog niet voorziet. Nadeel hieraan is dan weer het hoge aantal doorverwijspagina s in de Engelse Wikipedia, waardoor er moeilijk een goed resultaat gegeven kan worden. Naast de problemen met lage retrievalpercentages in de Nederlandse leeshulp was ook het testen en uitvoeren van de evaluatie niet altijd even eenvoudig. Wikipedia reageert verschillend op een request van PHP en een request van de browser. Dit verschil kwam naar voren doordat sommige definities op de ene dag niet op te vragen waren via de applicatie, maar op de andere dag weer wel. Het is onduidelijk waaraan dit ligt, maar wel is bekend dat Wikipedia verspreid is over meerdere servers. Indien een hiervan flink belast wordt, kan het zijn dat een request via geautomatiseerde protocollen, zoals het in de applicatie gebruikte PHP, geweigerd worden en alleen browserrequest geaccepteerd worden. Alle gevallen die op een bepaalde dag niet opgevraagd konden worden via de applicatie, waren wel opvraagbaar door het intoetsen van de URL in een browser. 19

20 CONCLUSIE Uitgangspunt van dit onderzoek was om te onderzoeken in hoeverre een online encyclopedie zoals Wikipedia gebruikt kan worden om automatisch ICT-begrippen uit te leggen. Hiervoor werd een web-based applicatie gebouwd waarin voor Nederlandse, maar ook Engelse teksten voor ICT-begrippen weblinks beschikbaar werden gesteld die extra informatie geven. Deze informatie zou van Wikipedia verkregen worden. Het systeem werkt voor beide talen voor de meest basale ICT-begrippen prima, een verschil tussen beide systemen is echter duidelijk zichtbaar indien gecompliceerdere begrippen of product- en merknamen opgevraagd worden. De Engelse leeshulp blijft daarbij hoog in retrieval en vindt slechts een enkel geval niet. De Nederlandse leeshulp heeft hier veel meer moeite mee. De handmatige versie, waar veruit de meeste namen en producten inzitten, blijft dan ook steken op een magere 53,8% in correcte retrieval. De automatische Nederlandse leeshulp, die dankzij de beperkte lijst bijna geen namen en producten bevat, komt tot 85,2% in correcte retrieval, welke stukken hoger ligt, maar nog altijd lager dan de 91,6% correcte retrieval van de Engelse leeshulp. Een systeem voor automatische definitie-extractie werkt dus prima voor het Engels met de Engelse Wikipedia, vooral vanwege de kwantiteit van de Engelse Wikipedia. Ook voor ingewikkelde afkortingen, zoals W3C, wordt de juiste uitleg gegeven. Voor een Nederlandse leeshulp voor de ICT is Wikipedia niet goed te gebruiken, vooral vanwege het lage aantal artikelen en het ontbreken van vele links tussen lemma s en artikelen. Belangrijk hierbij op te merken is, dat zelfs tijdens de ontwikkeling van de applicatie de retrieval verbeterde dankzij de verbetering van Wikipedia zelf, in de kwantitatieve zin. Hiermee kan worden aangegeven dat de Engelse leeshulp zich alleen nog maar kan verbeteren, maar ook dat de Nederlandse leeshulp in de huidige vorm in de toekomst wel goed kan functioneren, indien Wikipedia voldoende artikelen bevat. Voor verder onderzoek in de leeshulp liggen er nog wel een aantal dingen open. Wat betreft het correcte retrievelpercentage is er weinig meer te behalen: alle begrippen die op Wikipedia gevonden konden worden, werden ook gevonden, zonder significant veel fouten. De enige verbeteringen van de applicatie zijn Wikipedia zelf, welke meer artikelen en links moet gaan bevatten. Hier ligt tot nu toe het grootste probleem voor beide Nederlandse versies, vooral voor de handmatige. Veel begrippen worden niet gevonden omdat ze niet bestaan, maar ook veel omdat een link tussen twee synoniemen of namen niet bestaat. Anderzijds kan in de Nederlandse versie een lexicale parser ingebouwd worden waarmee beter enkelvoudvormen verkregen kunnen worden en duidelijker kan worden beslist wanneer een begrip gesplitst moet worden en wanneer niet. In het onderzoek waren onder andere kloksnelheden en VGA-aansluiting een probleem, de eerste om een enkelvoudvorm te krijgen, de tweede vanwege een mogelijke opsplitsing in meerdere termen. In de Engelse versie was dit veel beter te beheersen, vooral omdat woorden daar vaker los geschreven worden, er minder problemen zijn met meervoudvormen en de Engelse Wikipedia bevat veel meer artikelen. Deze complicaties brengen direct het tweede verbeterpunt aan het licht, welke de automatische versie betreft. De automatische versie werkt met een lijst met hierin ICT gerelateerde begrippen, zoals namen, standaarden, afkortingen en merken. Deze lijst bestaat uit 8525 begrippen, maar is veel te kort. Veel begrippen komen niet voor en de 20

21 lijst bevat ook veel oude begrippen die bijna niet tot niet meer gebruikt worden. De beperking van deze lijst leidt ertoe dat het aantal aangemerkte begrippen erg laag ligt, zeker ten opzichte van de handmatige versie. Veel nieuwe begrippen, zoals namen en producten komen niet voor, wat duidelijk te zien is in de resultaten van de automatische versie, welke aanzienlijk hoger liggen dan de handmatige versie. Een verbetering zou gevonden kunnen worden door te werken zonder een lijst. Hiertoe zou van een tekst eerst kunnen worden bekeken welke woorden niet in het woordenboek, zoals Van Dale, voorkomen om aangemerkt te worden als begrip. Getallen en leestekens moeten hierbij worden uitgezonderd. Voordeel is nu dat alles wat overblijft niet in het woordenboek staat en dus een moeilijk begrip kan zijn. Basale ICT-begrippen vallen echter buiten de boot, aangezien die al opgenomen zouden kunnen zijn in het woordenboek. Men zou hier ook nog een lijst naast kunnen houden, maar het mooiste zou zijn zonder een lijst, zodat de applicatie feitelijk voor elk deelgebied kan werken, zolang de begrippen maar via Wikipedia opgevraagd worden. Nadeel is hierbij wel dat mogelijk moeilijke Nederlandse woorden dankzij deze woordenboekmethode niet aangemerkt zullen worden. Tweede nadeel hierbij is de uitzondering van de getallen, welke sommige productnamen onmogelijk maakt. Hoewel de opzet en implementatie niet gemakkelijk te verbeteren zijn, is er wat betreft het technische deel wel het een en ander te verbeteren. Op zich staat de applicatie al redelijk stabiel door gebruik te maken van AJAX, wat de laadtijden aanzienlijk verkort, zeker bij de automatische versie van de leeshulp. Daarnaast is de applicatie gebouwd als web-based applicatie, waardoor er geen client-side installatie nodig is. Echter zijn er wel een aantal technische punten vatbaar voor verbetering. Ten eerste kan de lay-out aanzienlijk verbeterd worden, welke nu niet meer is dan een primitieve interface. Ten tweede kan het parsergedeelte van de automatische functie verbeterd worden. Nu zijn er nog enkele gevallen die zowel in de lijst als de tekst voorkomen, maar niet gevonden worden. Ten derde en als laatste zou het systeem meer toepasmogelijkheden moeten krijgen. Een einddoel waar hierbij aan gedacht kan worden, is een web-based applicatie waarbij de gebruiker een tekst kan uploaden of een tekst via een URL kan opgeven waarbij de tekst wordt ingelezen en waarbij dan de moeilijke begrippen worden geannoteerd en als URL zichtbaar worden gemaakt in de tekst. Extra tekstopties zoals vergroten kunnen hierbij extra geïmplementeerd worden. Wikipedia gebruiken bij een leeshulp voor ICT-begrippen is een mogelijkheid die toegepast kan worden, maar voornamelijk voor een Engelse versie. Wikipedia, vooral de Nederlandse, mist veel artikelen en links, waarmee retrieval lastig wordt. Het systeem kan wel gebruikt worden in combinatie met andere systemen, zoals ook gedaan is in het artikel van Torii et al (2003). Naast een controlefunctie, kan het systeem goed dienen voor afkortingen die minder voor de hand liggen, zoals W3C. Daarnaast kunnen tussen bepaalde synoniemen verbanden worden gelegd waardoor alsnog een betekenis gevonden kan worden. Waar de Engelse versie als losstaand systeem nog net acceptabel is, is de Nederlandse versie vooralsnog te beperkt. 21

22 REFERENTIES Ismail Fahmi and Gosse Bouma, Learning to Identify Definitions using Syntactic Features, Proceedings of the EACL 2006 workshop on Learning Structured Information in Natural Language Applications. A Simple Algorithm For Identifying Abbreviation Definitions in Biomedical Text, Ariel Schwartz and Marti Hearst, Proceedings of the Pacific Symposium on Biocomputing A comparison study of biomedical short form definition detection algorithms, Manabu Torii, Hongfang Liu, Zhangzhi Hu, Cathy Wu. Proceedings of the 1st international workshop on Text mining in bioinformatics 2006 Efficient Acronym-Expansion Matching for Automatic Acronym Acquisition Manuel Zahariev Department of Computing Sciences, Simon Fraser University, Burnaby, B.C., Canada 22

Definitie-herkenning: het begrijpelijker maken van medische wetenschappelijke teksten

Definitie-herkenning: het begrijpelijker maken van medische wetenschappelijke teksten Definitie-herkenning: het begrijpelijker maken van medische wetenschappelijke teksten BA Informatiekunde, Rijksuniversiteit Groningen 8 augustus 2007 Martijn Eikenhorst (s1583271) Bachelor scriptie Inhoudsopgave

Nadere informatie

Automatisch definities verkrijgen van webbronnen.

Automatisch definities verkrijgen van webbronnen. Inleiding Automatisch definities verkrijgen van webbronnen. Verslag van Mark Jansen s1253875 Information Science Groningen University In samenwerking met Olaf Woertel s1397117 Bij het lezen van wetenschappelijke

Nadere informatie

Samenvatting De hoofdonderzoeksvraag van dit proefschrift is vast te stellen hoe term- en relatie-extractietechnieken kunnen bijdragen tot het beantwoorden van medische vragen. Deze vraag is ingegeven

Nadere informatie

Samenvatting De belangrijkste onderzoeksvraag waarop het werk in dit proefschrift een antwoord probeert te vinden, is welke typen taalkundige informatie het nuttigst zijn voor de lexicale desambiguatie

Nadere informatie

Modulehandleiding VivianCMS. Zoeken

Modulehandleiding VivianCMS. Zoeken Modulehandleiding VivianCMS Zoeken Versie: 1.0 Startdatum: 22-05-2006 Datum laatste wijziging: 19-06-2006 Opmerking: Gepubliceerd op http://www.viviancms.nl Inhoudsopgave 1. Inleiding...3 1.1. Algemene

Nadere informatie

Cover Page. The handle http://hdl.handle.net/1887/20358 holds various files of this Leiden University dissertation.

Cover Page. The handle http://hdl.handle.net/1887/20358 holds various files of this Leiden University dissertation. Cover Page The handle http://hdl.handle.net/1887/20358 holds various files of this Leiden University dissertation. Author: Witsenburg, Tijn Title: Hybrid similarities : a method to insert relational information

Nadere informatie

2. Syntaxis en semantiek

2. Syntaxis en semantiek 2. Syntaxis en semantiek In dit hoofdstuk worden de begrippen syntaxis en semantiek behandeld. Verder gaan we in op de fouten die hierin gemaakt kunnen worden en waarom dit in de algoritmiek zo desastreus

Nadere informatie

Starten van de tool De tool wordt opgestart door een web browser te openen (bij voorkeur Google Chrome) en in de adresbalk te typen:

Starten van de tool De tool wordt opgestart door een web browser te openen (bij voorkeur Google Chrome) en in de adresbalk te typen: Gist demo Toelichting op de interface en werking van de tool. v0.1, 20 januari 2016, Erik Boertjes v0.2, 1 februari 2016, Rianne Kaptein v0.3, 9 mei 2016, Rianne Kaptein Doel Met behulp van de tool beschreven

Nadere informatie

COAVA. Gebruikershandleiding. Gebruikershandleiding bij de COAVA web applicatie CLARIN-NL

COAVA. Gebruikershandleiding. Gebruikershandleiding bij de COAVA web applicatie CLARIN-NL CLARIN-NL COAVA Gebruikershandleiding Gebruikershandleiding bij de COAVA web applicatie M e e r t e n s I n s t i t u u t, J o a n M u y s k e n s w e g 2 5, 1 0 9 6 C J A m s t e r d a m Gebruikershandleiding

Nadere informatie

Software Test Plan. Yannick Verschueren

Software Test Plan. Yannick Verschueren Software Test Plan Yannick Verschueren November 2014 Document geschiedenis Versie Datum Auteur/co-auteur Beschrijving 1 November 2014 Yannick Verschueren Eerste versie 1 Inhoudstafel 1 Introductie 3 1.1

Nadere informatie

Gebruikershandleiding Google Forms voor selectietrainingen

Gebruikershandleiding Google Forms voor selectietrainingen Gebruikershandleiding Google Forms voor selectietrainingen Dit is een bijlage van het hockeyvisie artikel De (on)mogelijkheden van beoordelen en selecteren in de hockeysport door Niels Papen. Om alle beoordelingen

Nadere informatie

Instellen Finchline Topics & Booleaans zoeken

Instellen Finchline Topics & Booleaans zoeken Instellen Finchline Topics & Booleaans zoeken Versie 3.0 Introductie In deze handleiding wordt uitgelegd hoe je in Finchline topics kunt instellen. Een topic is een zoekactie naar een bepaald onderwerp.

Nadere informatie

Handleiding genormeerde tekstenbank

Handleiding genormeerde tekstenbank Handleiding genormeerde tekstenbank Voor leesvaardigheid zijn op internet veel oude examens beschikbaar om mee te oefenen. Niet alle teksten zijn even moeilijk, daarom is het lastig de betekenis van de

Nadere informatie

Dit voorbeeldproject beschrijft het gebruik van web services (open standaarden) voor de ontsluiting van kernregistraties bij de gemeente Den Haag.

Dit voorbeeldproject beschrijft het gebruik van web services (open standaarden) voor de ontsluiting van kernregistraties bij de gemeente Den Haag. Voorbeeldproject Een Haagse SOA Dit voorbeeldproject beschrijft het gebruik van web services (open standaarden) voor de ontsluiting van kernregistraties bij de gemeente Den Haag. Aanleiding Vanuit de visie

Nadere informatie

Query SQL Boekje. Fredrik Hamer

Query SQL Boekje. Fredrik Hamer Query SQL Boekje Query SQL Boekje Fredrik Hamer Schrijver: Fredrik Hamer Coverontwerp: Fredrik Hamer ISBN: 9789402162103 Fredrik Hamer Inhoudsopgave A. Aanhef bepalen 17 Aantal 18 Aantal dagen tussen

Nadere informatie

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle  holds various files of this Leiden University dissertation. Cover Page The handle http://hdl.handle.net/1887/29716 holds various files of this Leiden University dissertation. Author: Schraagen, Marijn Paul Title: Aspects of record linkage Issue Date: 2014-11-11

Nadere informatie

Leerjaar 1/2 ICT-Academie. Niveau 4. Applicatie ontwikkeling

Leerjaar 1/2 ICT-Academie. Niveau 4. Applicatie ontwikkeling Databases SQL Leerjaar 1/2 ICT-Academie Niveau 4 Applicatie ontwikkeling Auteur: R. Meijerink Datum: Januari 2013 0. Inleiding Databases / SQL In deze lessen wordt je geleerd databases te bouwen in SQL-code.

Nadere informatie

Combinatorische Algoritmen: Binary Decision Diagrams, Deel III

Combinatorische Algoritmen: Binary Decision Diagrams, Deel III Combinatorische Algoritmen: Binary Decision Diagrams, Deel III Sjoerd van Egmond LIACS, Leiden University, The Netherlands svegmond@liacs.nl 2 juni 2010 Samenvatting Deze notitie beschrijft een nederlandse

Nadere informatie

Inhoudsopgave Disclaimer... 3 Voorwoord... 4 Inleiding... 5 Het downloaden van XAMPP... 7 Het installeren van XAMPP... 8 Joomla installeren op

Inhoudsopgave Disclaimer... 3 Voorwoord... 4 Inleiding... 5 Het downloaden van XAMPP... 7 Het installeren van XAMPP... 8 Joomla installeren op 1 Inhoudsopgave Disclaimer... 3 Voorwoord... 4 Inleiding... 5 Het downloaden van XAMPP... 7 Het installeren van XAMPP.... 8 Joomla installeren op XAMPP... 15 Handige links... 16 2 Disclaimer Bij de samenstelling

Nadere informatie

Instructies annotatie experiment

Instructies annotatie experiment Instructies annotatie experiment Achtergrond Het Rijksmuseum maakt bij het beschrijven van de collectie gebruik van zelf ontwikkelde thesauri en gecontroleerde woordenlijsten. Aan de ene kant kost het

Nadere informatie

Handleiding Sportlink Club

Handleiding Sportlink Club Handleiding Sportlink Club Dit document is automatisch gegenereerd. We raden u aan de handleiding online te raadplegen via www.sportlinkclub.nl/support. 1. Installatiehandleiding.........................................................................................

Nadere informatie

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle  holds various files of this Leiden University dissertation. Cover Page The handle http://hdl.handle.net/1887/29764 holds various files of this Leiden University dissertation. Author: Takes, Frank Willem Title: Algorithms for analyzing and mining real-world graphs

Nadere informatie

Internet Veiligheidspakket van KPN Handleiding Windows XP, Vista, 7,8 Versie 13.04.19

Internet Veiligheidspakket van KPN Handleiding Windows XP, Vista, 7,8 Versie 13.04.19 Internet Veiligheidspakket van KPN Handleiding Windows XP, Vista, 7,8 Versie 13.04.19 Inhoudsopgave 1 Inleiding... 3 2 Systeemeisen... 4 3 Installatie... 5 4 Gebruik en instellingen... 12 4.1 Algemeen...

Nadere informatie

ALL-CRM Gebruikershandleiding AC-DataCumulator

ALL-CRM Gebruikershandleiding AC-DataCumulator ALL-CRM Gebruikershandleiding AC-DataCumulator Author: Bas Dijk Date: 23-04-2013 Version: v1.2 Reference: 2013, All-CRM 1 Inhoudsopgave 1 Inhoudsopgave 2 2 Inleiding 3 3 Gebruikershandleiding Windows Forms

Nadere informatie

ALL-CRM Gebruikers Handleiding AC-DataClean 7.0

ALL-CRM Gebruikers Handleiding AC-DataClean 7.0 ALL-CRM Gebruikers Handleiding AC-DataClean 7.0 Auteur: Jeroen van der Werff Datum: 28-02-2014 Versie: v1.3 Reference: 2014, All-CRM 1 Inhoudsopgave 1 Inhoudsopgave 2 2 Document geschiedenis 3 3 Disclaimer

Nadere informatie

Toetsen in Blackboard

Toetsen in Blackboard Toetsen in Blackboard Met de tool Test kun je toetsvragen maken en afnemen. In dit document wordt uitgelegd 1. Hoe een toets gemaakt kan worden. 2. Hoe een toets bewerkt kan worden. 3. Hoe een toets beschikbaar

Nadere informatie

Koppeling met een database

Koppeling met een database PHP en MySQL Koppeling met een database 11.1 Inleiding In PHP is het eenvoudig om een koppeling te maken met een database. Een database kan diverse gegevens bewaren die met PHP aangeroepen en/of bewerkt

Nadere informatie

ONSCREENKEYS 5. Windows XP / Windows Vista / Windows 7 / Windows 8

ONSCREENKEYS 5. Windows XP / Windows Vista / Windows 7 / Windows 8 ONSCREENKEYS 5 Windows XP / Windows Vista / Windows 7 / Windows 8 [ PRODUCT BESCHRIJVING ] [ Dit vernuftige on-screen toetsenbord met virtuele muis klik mogelijkheden en spraak uitvoer maakt snel typen

Nadere informatie

Program overview. Year 2013/2014 Electrical Engineering, Mathematics and Computer Science

Program overview. Year 2013/2014 Electrical Engineering, Mathematics and Computer Science Program overview 5-Jun-017 0:17 Year 013/014 Organization Electrical Engineering, Mathematics and Computer Science Education Minors EWI Code Omschrijving ECTS TI-Mi-110-13 TI-Mi-110-13 Software Ontwerpen

Nadere informatie

2. Syntaxis en semantiek

2. Syntaxis en semantiek 2. Syntaxis en semantiek In dit hoofdstuk worden de begrippen syntaxis en semantiek behandeld. Verder gaan we in op de fouten die hierin gemaakt kunnen worden en waarom dit in de algoritmiek zo desastreus

Nadere informatie

3. Structuren in de taal

3. Structuren in de taal 3. Structuren in de taal In dit hoofdstuk behandelen we de belangrijkst econtrolestructuren die in de algoritmiek gebruikt worden. Dit zijn o.a. de opeenvolging, selectie en lussen (herhaling). Vóór we

Nadere informatie

Werking van de Office Connector, en het oplossen van fouten.

Werking van de Office Connector, en het oplossen van fouten. Werking van de Office Connector, en het oplossen van fouten. De Office Connector zorgt ervoor dat de Microsoft Officeomgeving gebruikt kan worden als ontwerp en genereeromgeving voor documenten waarbij

Nadere informatie

SEO handleiding Footsteps. Inleiding. Opbouw

SEO handleiding Footsteps. Inleiding. Opbouw SEO handleiding Footsteps Inleiding Dit document is bedoeld om de zoekmachine resultaten van uw website in grote lijnen te verbeteren. Alle functies ter verbetering van deze resultaten die het Footsteps

Nadere informatie

1. Probleemstelling formuleren en sleutelwoorden bepalen.

1. Probleemstelling formuleren en sleutelwoorden bepalen. 1. Probleemstelling formuleren en sleutelwoorden bepalen. Vooraleer je aan een literatuuronderzoek begint, is het belangrijk om voldoende informatie over je onderwerp te verzamelen via vakwoordenboeken,

Nadere informatie

Cover Page. The handle holds various files of this Leiden University dissertation

Cover Page. The handle  holds various files of this Leiden University dissertation Cover Page The handle http://hdl.handle.net/1887/22286 holds various files of this Leiden University dissertation Author: Nezhinsky, A.E. Title: Pattern recognition in high-throughput zebrafish imaging

Nadere informatie

Artificial Intelligence in uw dagelijkse praktijk. Hilversum, 22 September 2016

Artificial Intelligence in uw dagelijkse praktijk. Hilversum, 22 September 2016 Artificial Intelligence in uw dagelijkse praktijk Hilversum, 22 September 2016 Agenda 09:30 Welkom en introductie 09:35 Artificial Intelligence, al meer dan 50 jaar een actief onderzoeksgebied Jaap van

Nadere informatie

Toelichting bij applicatie "betekenis geven aan cijfers"

Toelichting bij applicatie betekenis geven aan cijfers Toelichting bij applicatie "betekenis geven aan cijfers" De toelichting op deze applicatie bestaat uit twee onderdelen: een praktische handleiding voor het gebruik van de applicatie; uitleg over de informatie

Nadere informatie

U kunt een waardebon toepassen op alle klanten, op een klantengroep of op een enkele klant; u kunt de vervaldatum bepalen.

U kunt een waardebon toepassen op alle klanten, op een klantengroep of op een enkele klant; u kunt de vervaldatum bepalen. Winkelwagenregels Winkelwagenregels De pagina "Winkelwagenregels" geeft u toegang tot een geavanceerde tool dat het waardebonnensysteem van PrestaShop 1.4 opvolgt. Doorgewinterde PrestaShop-gebruikers

Nadere informatie

HANDLEIDING DMS Plugin Installatie, configuratie & werking

HANDLEIDING DMS Plugin Installatie, configuratie & werking HANDLEIDING DMS Plugin Installatie, configuratie & werking Dit document is de handleiding voor de installatie, configuratie en werking van de DMS Plugin. Versie 1-12/09/2005 Inhoudstafel 1 Installatie...

Nadere informatie

INHOUD VAN SERVICE CALLS

INHOUD VAN SERVICE CALLS INHOUD VAN SERVICE CALLS door Welke service zit wel/niet in het Swiftpage abonnement? De technische support door Swiftpage als onderdeel van een actief abonnement of supportplan is onderhevig aan de systeemgebonden

Nadere informatie

Configuratie. EasySecure International B.V. +31(0)88 0000 083 Info@EasySecure.nl Support.EasySecure.nl. v2.0.11 22-09-2014

Configuratie. EasySecure International B.V. +31(0)88 0000 083 Info@EasySecure.nl Support.EasySecure.nl. v2.0.11 22-09-2014 Configuratie EasySecure International B.V. +31(0)88 0000 083 Info@EasySecure.nl Support.EasySecure.nl v2.0.11 22-09-2014 In deze handleiding zal het configuratie menu binnen IdentySoft worden behandeld.

Nadere informatie

DUPLICATI (Bestand back-up)

DUPLICATI (Bestand back-up) DUPLICATI (Bestand back-up) Een erg compleet programma dat al jaren prima diensten bewijst is Duplicati. U kunt Dulplicati downloaden van de website duplicati.com van de makers. Versie 1.3.4 stamt uit

Nadere informatie

IC Mail Gateway Gebruikershandleiding

IC Mail Gateway Gebruikershandleiding IC Mail Gateway Gebruikershandleiding Versiebeheer Versie Datum Naam Wijziging 1.0 27 oktober 2008 ICA Initieel document 1.1 18 juni 2010 ICA Document geheel herzien 2.0 30 januari 2013 ICA Aanpassing

Nadere informatie

6 Valkuilen bij het maken van testvragen die eenvoudig zijn te ontwijken. Meer informatie? Bezoek ons op

6 Valkuilen bij het maken van testvragen die eenvoudig zijn te ontwijken. Meer informatie? Bezoek ons op 6 Valkuilen bij het maken van testvragen die eenvoudig zijn te ontwijken Veel hangt af van de formulering van een vraag in een test, quiz of enquête. Ook als je precies weet wat je wilt vragen beïnvloedt

Nadere informatie

Statistiek met Excel. Schoolexamen en Uitbreidingsopdrachten. Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14

Statistiek met Excel. Schoolexamen en Uitbreidingsopdrachten. Dit materiaal is gemaakt binnen de Leergang Wiskunde schooljaar 2013/14 Statistiek met Excel Schoolexamen en Uitbreidingsopdrachten 2 Inhoudsopgave Achtergrondinformatie... 4 Schoolexamen Wiskunde VWO: Statistiek met grote datasets... 5 Uibreidingsopdrachten vwo 5... 6 Schoolexamen

Nadere informatie

Wat maakt WizeNote uniek?

Wat maakt WizeNote uniek? wizenote Wat maakt WizeNote uniek? Het belang van begrijpelijk schrijven Online informatie is vaak veel te moeilijk. Op basis van veel onderzoek is onze schatting dat 80% van de zakelijke teksten geschreven

Nadere informatie

Software Test Plan. Yannick Verschueren

Software Test Plan. Yannick Verschueren Software Test Plan Yannick Verschueren Maart 2015 Document geschiedenis Versie Datum Auteur/co-auteur Beschrijving 1 November 2014 Yannick Verschueren Eerste versie 2 December 2014 Yannick Verschueren

Nadere informatie

Oplossingen Datamining 2II15 Juni 2008

Oplossingen Datamining 2II15 Juni 2008 Oplossingen Datamining II1 Juni 008 1. (Associatieregels) (a) Zijn de volgende beweringen juist of fout? Geef een korte verklaring voor alle juiste beweringen en een tegenvoorbeeld voor alle foute be-weringen:

Nadere informatie

Gebruikershandleiding

Gebruikershandleiding . Gebruikershandleiding Inhoudsopgave 1 Inleiding... 3 1.1 Wat is Citrix?... 3 1.2 Voordelen van Citrix... 3 1.3 Wat heeft u nodig om toegang te krijgen... 3 2 Systeemeisen... 4 2.1 Ondersteunde Web browsers...

Nadere informatie

Handleiding. Model ter ondersteuning van investeringsbeslissingen in de bouw

Handleiding. Model ter ondersteuning van investeringsbeslissingen in de bouw Handleiding Model ter ondersteuning van investeringsbeslissingen in de bouw 09-07-2009 Introductie... 3 Tabblad Inleiding... 4 Hoofdalternatieven... 5 Subalternatief... 6 Bouwdata... 6 Gebouwen... 6 Tabblad

Nadere informatie

Informatie & Databases

Informatie & Databases Informatie Wat is informatie en waaruit het bestaat? Stel op een kaart staat het getal 37 geschreven. Wat kun je dan zeggen van het cijfer 37? Niets bijzonders, toch? Alleen dat het een getal is. Gaat

Nadere informatie

IVS-Basic 4.4 IVS-Professional 4.4 IVS-PowerPoint 1.1

IVS-Basic 4.4 IVS-Professional 4.4 IVS-PowerPoint 1.1 Handleiding IVS-Basic 4.4 IVS-Professional 4.4 IVS-PowerPoint 1.1 Toevoeging aansluiten USB Lite Base Station 1213 2 Inhoud Inhoud... 3 Het Lite Base Station aansluiten op de USB-poort... 4 Voorgeïnstalleerde

Nadere informatie

User Profile Repository Testrapportage kwaliteit

User Profile Repository Testrapportage kwaliteit CatchPlus User Profile Repository Testrapportage kwaliteit Versie 1.1 User Profile Repository Testrapportage kwaliteit Versie: 1.1 Publicatiedatum: 20-4-2012 Vertrouwelijk GridLine B.V., 2012 Pagina 1

Nadere informatie

Handleiding CMS Online Identity Webontwikkeling. Handleiding CMS

Handleiding CMS Online Identity Webontwikkeling. Handleiding CMS Handleiding CMS 1 Inhoudsopgave 1. Inloggen... 3 2. Het CMS... 3 3. Websitecontent... 4 3.1 Een nieuwe pagina toevoegen... 4 3.2 Een pagina wijzigen... 4 3.3 Een pagina verwijderen... 5 4. De WYSIWYG editor...

Nadere informatie

Mijn project noemt Het Wari-spel. De doelgroep van mijn programma is iedereen die houdt van strategische spelen.

Mijn project noemt Het Wari-spel. De doelgroep van mijn programma is iedereen die houdt van strategische spelen. Voorstel project Mijn project noemt Het Wari-spel. De doelgroep van mijn programma is iedereen die houdt van strategische spelen. Het doel van mijn project is de spelers een ontspannende, plezierige en

Nadere informatie

Quickstart. Browser instellingen

Quickstart. Browser instellingen Browser instellingen Projectadministratie is getest onder : Mac OS 10.3 met Safari versie 1.3 Mac OS 10.4 met Safari versie 2.0.3 (417.9.2) Windows met Internet Explorer versie 6.0.2900.2180. Belangrijke

Nadere informatie

Data Definition Language

Data Definition Language Data Definition Language We gaan hier dezelfde database gebruiken als in de vorige les. Nu gaan we deze echter maken met behulp van DDL gedeelte van SQL. Om in het SQL deel van Microsoft Access te komen

Nadere informatie

Het twee of meer planningssysteem ziet er als volgt uit wanneer de gebruiker is ingelogged.

Het twee of meer planningssysteem ziet er als volgt uit wanneer de gebruiker is ingelogged. Twee of meer planningssysteem Het twee of meer planningssysteem ziet er als volgt uit wanneer de gebruiker is ingelogged. Inloggen Het systeem is gebaseerd op user verificatie. Hiervoor kan elke gebruiker

Nadere informatie

Medewerkershandleiding. 25-01-2013 Versie 1.1

Medewerkershandleiding. 25-01-2013 Versie 1.1 Medewerkershandleiding 25-01-2013 Versie 1.1 Inhoud 1) Uitgangspunt... 2 2) Startscherm... 3 2.1) Fitheid en speerpunten... 3 2.2) Speerpunten en de benodigde kennis... 4 2.3) Kennisdoelen... 4 3) Uw persoonlijke

Nadere informatie

De combinatie van verrijkingen, machine learning en crowd sourcing

De combinatie van verrijkingen, machine learning en crowd sourcing Verbetering vindbaarheid en bruikbaarheid van de digitale content van de KB De combinatie van verrijkingen, machine learning en crowd sourcing Theo van Veen, 31-1-2017 Theo van Veen, 31-1-2017 Verrijken:

Nadere informatie

Stappenplan zoeken en verwerken van informatie

Stappenplan zoeken en verwerken van informatie Stappenplan zoeken en verwerken van informatie Oriëntatie op het onderwerp Wat is het onderwerp? Welke zoektermen? Welke bronnen? Zoeken naar informatie Welke informatiebron gebruik je? Hoe zoek je digitale

Nadere informatie

MultimediaN E-Culture en Prenten Kabinet Online

MultimediaN E-Culture en Prenten Kabinet Online MultimediaN E-Culture en Prenten Kabinet Online Vragenlijst voor subject annotatie Mei 2008 Een onderdeel van het invoeren van de objecten is het vastleggen van de onderwerpsontsluiting; ook wel subject

Nadere informatie

Gebruikersinformatie m.b.t. de PSI Unicode oplevering (Bestemd voor Nederlandse klanten)

Gebruikersinformatie m.b.t. de PSI Unicode oplevering (Bestemd voor Nederlandse klanten) Gebruikersinformatie m.b.t. de PSI Unicode oplevering (Bestemd voor Nederlandse klanten) De PSI Unicode oplevering is een onderdeel van het OCLC PICA Unicode project. Het Unicode project richt zich op

Nadere informatie

Exercise assistant on-line

Exercise assistant on-line Exercise assistant on-line Onderwerpen - Introductie Exercise Assistant - On-line volgens MVC principe - Problemen bij MVC principe - Mogelijke oplossing - Richtingen onderzoek - Mogelijkheid tot meedoen

Nadere informatie

Technische implementatie De infrastructuur rondom Transit kent de volgende rollen:

Technische implementatie De infrastructuur rondom Transit kent de volgende rollen: Transit Herkent u het? Steeds dezelfde uitdagingen in migratieprojecten; meerdere variabelen, in verschillende stadia en in een blijvend veranderende omgeving, managen. Grote hoeveelheden gegevens over

Nadere informatie

1. Inleiding. 1. Inleiding... 1. 1.1. Installatieprocedure...2. 1.1.1. De installatie van LisCAD 5.0... 3. 1.2. Licentieprocedure...

1. Inleiding. 1. Inleiding... 1. 1.1. Installatieprocedure...2. 1.1.1. De installatie van LisCAD 5.0... 3. 1.2. Licentieprocedure... 1. Inleiding... 1 1.1. Installatieprocedure...2 1.1.1. De installatie van LisCAD 5.0... 3 1.2. Licentieprocedure...8 1.2.1. Introductie... 8 1.2.2. Evaluatielicenties... 8 1.2.3. Het bestellen van een

Nadere informatie

Snel op weg met Solid Edge ST5

Snel op weg met Solid Edge ST5 Snel op weg met Solid Edge ST5 Dit document helpt u, om na installatie van Solid Edge ST5, snel aan de slag te kunnen met de software. Beschreven staat welke instellingen u kunt aanpassen om een betere

Nadere informatie

Aan Metis Groep (MG) Van MCC Datum 08 01 2009. Betreft Release notes patch 33 - versie 2.1.33 - versie 3.0.33 VERSIE 2.1.33

Aan Metis Groep (MG) Van MCC Datum 08 01 2009. Betreft Release notes patch 33 - versie 2.1.33 - versie 3.0.33 VERSIE 2.1.33 Aan Metis Groep (MG) Van MCC Datum 08 01 2009 Betreft Release notes patch 33 - versie 2.1.33 - versie 3.0.33 VERSIE 2.1.33 Functionele uitbreidingen -. Interface tussen Personeelsysteem en Metis -. Inlezen

Nadere informatie

Module II - Enkele Begrippen

Module II - Enkele Begrippen Module II - Enkele Begrippen Wanneer we spreken over het Internet, het bekijken van websites, komen we al gauw een aantal begrippen tegen. Enkele van de veelgebruikte begrippen binnen de Internet wereld

Nadere informatie

Met deze module heeft u de mogelijkheid om gemakkelijk, snel en efficiënt uw documenten als naslag in Unit 4 Multivers te koppelen.

Met deze module heeft u de mogelijkheid om gemakkelijk, snel en efficiënt uw documenten als naslag in Unit 4 Multivers te koppelen. Handleiding Scan+ Introductie Met Scan+ gaat een lang gekoesterde wens voor vele gebruikers van Unit 4 Multivers in vervulling: eenvoudig koppelen van documenten in relatiebeheer of documentmanagement

Nadere informatie

Cursus Excel voor beginners (6) Functies.

Cursus Excel voor beginners (6) Functies. Cursus Excel voor beginners (6) Functies. Handleiding van Auteur: CorVerm September 2008 Functies in Excel. Laten we eerst even kijken wat een functie is. Een functie bestaat uit een aantal argumenten

Nadere informatie

SuperOffice Systeemvereisten

SuperOffice Systeemvereisten Minimale systeemvereisten voor SuperOffice CRM De minimale systeemvereisten voor SuperOffice CRM zijn tevens afhankelijk van het besturingssysteem en de services/applicaties die op het systeem actief zijn.

Nadere informatie

HANDLEIDING VOOR AFNAME VAN DE SON-R 2½ - 7 OP DE COMPUTER Een toepassing voor kinderen met een lichamelijke handicap

HANDLEIDING VOOR AFNAME VAN DE SON-R 2½ - 7 OP DE COMPUTER Een toepassing voor kinderen met een lichamelijke handicap HANDLEIDING VOOR AFNAME VAN DE SON-R 2½ - 7 OP DE COMPUTER Een toepassing voor kinderen met een lichamelijke handicap Marijke Dijkstra Rijksuniversiteit Groningen, maart 2006 INHOUDSOPGAVE 1 INLEIDING

Nadere informatie

Information Retrieval: introductie 1

Information Retrieval: introductie 1 Information Retrieval: introductie 1 hoe is relevante informatie in zeer grote hoveelheden van documenten te vinden? deze documenten moeten wel door de computer verwerkbaar zijn vaak zijn er te veel hits:

Nadere informatie

Beschrijving functioneel en technisch design van de website

Beschrijving functioneel en technisch design van de website Bespreking Punten: Beschrijving functioneel en technisch design van de website Nr. Punt 1 Student 2 Bedrijf 3 Algemene lay out 4 Technologieën 5 Webruimte en datatrafiek 1. Student Registratie Bij de registratie

Nadere informatie

Handleiding HBO GO V.2

Handleiding HBO GO V.2 Handleiding HBO GO V.2 Inhoudsopgave: Inhoudsopgave 2 Ophalen HBO GO Ipad applicatie in de App Store. 3 Ophalen HBO GO Android Tablet applicatie in de Google Play Store.. 4 HBO GO Registreren en Inloggen..

Nadere informatie

Handleiding website. Inloggen Start uw internet browser en ga naar http://www.rbaoreven.nl/.

Handleiding website. Inloggen Start uw internet browser en ga naar http://www.rbaoreven.nl/. Handleiding website In deze handleiding staat alles wat u nodig heeft om een bericht op de website van de Reddingsbrigade Aoreven Heythuysen te plaatsen. Alles wordt in woord en beeld uitgelegd. Inloggen

Nadere informatie

Quickstart. 1 Inleiding Welkom bij projectadministratie.nl. 2 Browser en instellingen. 2.1 Browsers. 2.2 Instellingen

Quickstart. 1 Inleiding Welkom bij projectadministratie.nl. 2 Browser en instellingen. 2.1 Browsers. 2.2 Instellingen 1 Inleiding Welkom bij projectadministratie.nl 2 Browser en instellingen 2.1 Browsers Projectadministratie is getest en werkt onder : Safari versie 1.3 en hoger Internet Explorer versie 6 en hoger Google

Nadere informatie

Rabo CORPORATE CONNECT. Certificaatvernieuwing

Rabo CORPORATE CONNECT. Certificaatvernieuwing Rabo CORPORATE CONNECT Certificaatvernieuwing Inhoud 1 INLEIDING... 3 2 SYSTEEMVEREISTEN... 4 3 CERTIFICAAT VERNIEUWEN... 6 4 TROUBLESHOOTING... 8 5 ONDERSTEUNING EN SERVICE... 9 BIJLAGE 1 INSTALLATIE

Nadere informatie

icafe Project Joeri Verdeyen Stefaan De Spiegeleer Ben Naim Tanfous

icafe Project Joeri Verdeyen Stefaan De Spiegeleer Ben Naim Tanfous icafe Project Joeri Verdeyen Stefaan De Spiegeleer Ben Naim Tanfous 2006-2007 Inhoudsopgave 1 2 1.1 Programmeertaal PHP5..................... 2 1.2 MySQL database......................... 3 1.3 Adobe Flash...........................

Nadere informatie

Peridos. Gegevens aanleveren en controleren in Peridos door zorginstelling

Peridos. Gegevens aanleveren en controleren in Peridos door zorginstelling Peridos Gegevens aanleveren en controleren in Peridos door zorginstelling Plaats: Utrecht Datum: 30-01-2017 Auteur: Landelijk beheer Peridos Versie: 2.2 1. Inleiding De module Gegevens wordt gebruikt voor

Nadere informatie

MatrixKozijn Productentabel versie Service Pack 3

MatrixKozijn Productentabel versie Service Pack 3 MatrixKozijn versie 2.0 - Service Pack 3 Compatibiliteit De MatrixKozijn 2.0-SP3 met database revisie: 2.0.6 is compatibel met: MatrixKozijn Hout 3.4-SP7 MatrixKozijn Hout 3.5 (is enkel nog beschikbaar

Nadere informatie

AFO 113 Authoritybeheer

AFO 113 Authoritybeheer AFO 113 Authoritybeheer 113.1 Inleiding Authority records die gebruikt worden in de catalogusmodule kunnen via deze AFO beheerd worden. U kunt hier records opzoeken, wijzigen, verwijderen of toevoegen.

Nadere informatie

Berichten maken en beheren

Berichten maken en beheren Berichten maken en beheren Berichten (of het Engels: posts) zijn de basis van WordPress. Als uw website een blog is, zijn de berichten het meest gebruikte onderdeel. Anderszins zijn berichten actualiteiten,

Nadere informatie

Systeemvereisten. Datum: Naam: Systeemvereisten versie 43 revisie 15 Status:

Systeemvereisten. Datum: Naam: Systeemvereisten versie 43 revisie 15 Status: Datum: 12-11-2012 Naam: Systeemvereisten versie 43 revisie 15 Status: Inhoudsopgave 1. Systeemvereisten... 3 1.1. Systeem- en configuratievereisten Ontwikkelomgeving... 3 1.1.1. Minimale systeemvereisten

Nadere informatie

Algemene en vakspecifieke regels bij de correctie digitale CE s BB en KB 2017 in Facet

Algemene en vakspecifieke regels bij de correctie digitale CE s BB en KB 2017 in Facet Algemene en vakspecifieke regels bij de correctie digitale CE s BB en KB 2017 in Facet Voor de digitale centrale examens BB en KB zijn de algemene correctievoorschriften enigszins aangepast ten opzichte

Nadere informatie

Frontend ontwikkeling

Frontend ontwikkeling Frontend ontwikkeling Mark Jansen Edwin Vlieg PHPFreakz ledendag 10 november 2007 Frontend ontwikkeling De interface is je product richting de eindgebruiker Goede PHP code met een slechte interface geeft

Nadere informatie

Normering en schaallengte

Normering en schaallengte Bron: www.citogroep.nl Welk cijfer krijg ik met mijn score? Als je weet welke score je ongeveer hebt gehaald, weet je nog niet welk cijfer je hebt. Voor het merendeel van de scores wordt het cijfer bepaald

Nadere informatie

AdBackup Pro November 2015 AdBackup Pro 6.13 is beschikbaar op het platform Oodrive Vision en als een op zichzelf staand product AdBackup Pro

AdBackup Pro November 2015 AdBackup Pro 6.13 is beschikbaar op het platform Oodrive Vision en als een op zichzelf staand product AdBackup Pro AdBackup Pro 6.13 - November 2015 AdBackup Pro 6.13 is beschikbaar op het platform Oodrive Vision en als een op zichzelf staand product AdBackup Pro Pagina 1 van 6 INDEX VAN DE FUNCTIES 1. HERZIENING VAN

Nadere informatie

Handleiding ZKM Online. Versie 2.1

Handleiding ZKM Online. Versie 2.1 Handleiding ZKM Online Versie 2.1 Februari 2015 Inhoudsopgave 1. Inloggen... 3 1.1 Eerste keer dat je inlogt... 3 1.1.1 Profiel... 4 1.1.2. Wachtwoord (wijzigen)... 4 1.1.3. Bureau... 5 1.1.4. Consultants

Nadere informatie

Handleiding FOCWA Kennisbank. Kennisbank V 1.0 Remco Jansen

Handleiding FOCWA Kennisbank. Kennisbank V 1.0 Remco Jansen Handleiding FOCWA Kennisbank Kennisbank V 1.0 Remco Jansen 1 Inhoud : Login Loginnaam laten bewaren Zoeken naar FOCWA Kennisbank documenten Taal, Categorie en Subcategorieën Trefwoord Verfijnen van uw

Nadere informatie

Stappenplan zoeken en verwerken van informatie

Stappenplan zoeken en verwerken van informatie Stappenplan zoeken en verwerken van informatie Oriëntatie op het onderwerp Wat is het onderwerp Welke zoektermen Welke bronnen Zoeken naar informatie Welke informatiebronnen Kiezen en beoordelen van informatie

Nadere informatie

Tekstmanipulatie. Week 3: Reguliere expressies. Gosse Bouma 2007/2008. Informatiekunde Rijksuniversiteit Groningen

Tekstmanipulatie. Week 3: Reguliere expressies. Gosse Bouma 2007/2008. Informatiekunde Rijksuniversiteit Groningen Tekstmanipulatie Week 3: Reguliere expressies Gosse Bouma g.bouma@rug.nl Informatiekunde Rijksuniversiteit Groningen 2007/2008 Gosse Bouma 1/38 Overzicht 1 Wildcards 2 Keuze 3 Ranges 4 Begin en Eind van

Nadere informatie

HANDLEIDING Installatie TESTS 2012

HANDLEIDING Installatie TESTS 2012 HANDLEIDING Installatie TESTS 2012 INHOUDSOPGAVE: Algemeen:... 2 Installatie instructies voor stand-alone computer.. 2 Uitsluitend voor netwerk-installatie.. 6 Client installatie deel 1... 6 Deel 2 netwerkinstallatie:

Nadere informatie

SCHOOL (OWA) handleiding

SCHOOL (OWA) handleiding SCHOOL (OWA) handleiding Kibro België Kibro Nederland Handleiding voor Online Web Admin (v:1.0.0.1) DOWNLOAD ALS PDF BEKIJK DE VIDEO HANDLEIDING De OWA kort uitgelegd... De KinderBrowser Online Web Admin

Nadere informatie

Inhoudsopgave... 1 Disclaimer... 3 Voorwoord... 3 Inleiding... 5 Het downloaden van XAMPP... 7 Het installeren van XAMPP... 8 Joomla installeren op

Inhoudsopgave... 1 Disclaimer... 3 Voorwoord... 3 Inleiding... 5 Het downloaden van XAMPP... 7 Het installeren van XAMPP... 8 Joomla installeren op 1 Inhoudsopgave... 1 Disclaimer... 3 Voorwoord... 3 Inleiding... 5 Het downloaden van XAMPP... 7 Het installeren van XAMPP... 8 Joomla installeren op XAMPP... 14 Handige links... 15 2 Disclaimer Bij de

Nadere informatie

Installatiehandleiding Windows XP / Vista / Windows 7

Installatiehandleiding Windows XP / Vista / Windows 7 Installatiehandleiding Windows XP / Vista / Windows 7 Versie 1.4 Datum 11 januari 2011 Status definitief Inhoud 1 Downloaden installatiebestand 3 2 SafeSign installeren 4 3 Certificaten toevoegen aan de

Nadere informatie

Stacks and queues. Hoofdstuk 6

Stacks and queues. Hoofdstuk 6 Hoofdstuk 6 Stacks and queues I N T R O D U C T I E In dit hoofdstuk worden drie datastructuren stack, queue en deque behandeld. Om deze datastructuren te implementeren, worden onder andere arrays en linked

Nadere informatie

Introductie. Handleiding: Owncloud instellen

Introductie. Handleiding: Owncloud instellen Introductie QSIT Owncloud is de hollandse en 100% privacy-veilige variant van Dropbox of Google Drive. Het stelt u in staat om vanaf elk apparaat aan dezelfde bestanden te werken. Omdat wij onze servers

Nadere informatie

Handleiding VITA aanpassing naar azmm.be Windows VITA. veilige internettoegang voor artsen v3.0. Link website VITA : https://meunier.azmm.

Handleiding VITA aanpassing naar azmm.be Windows VITA. veilige internettoegang voor artsen v3.0. Link website VITA : https://meunier.azmm. Handleiding VITA aanpassing naar azmm.be Windows VITA veilige internettoegang voor artsen v3.0 Link website VITA : https://meunier.azmm.be/ 2/11 Inhoudstafel: 1 AANPASSINGEN ------------------------------------------------------------------------------------------------

Nadere informatie