TAALTECHNOLOGIE 2.0: SENTIMENTANALYSE EN

Vergelijkbare documenten
DUTCH PARALLEL CORPUS EN SONAR

xxxx xxxx AMiCA Brainstorm 18 oktober 2010 xxxx xxxx

Sentimentanalyse voor online politieke berichtgeving

Preventie 2.0: suïcidepreventie via internet en sociale media

AUTOMATISCHE TEKSTANALYSE VOOR

Zoeken binnen Pleio Moderne zoektechnologie in een sociale omgeving

Het gebruik van data binnen Tax PwC Eric Dankaart November 2016

Automatische Tekstanalyse voor Cyberpestdetectie

Preventie 2.0: suïcidepreventie via internet

VWEC: kritische reflectie Alex Van Leeuwen Social Media Monitoring

Vak: Nederlands EBR Klas: IG 2 mh/hv Onderdeel: Leesvaardigheid Algemene informatie: Wat moet je kennen: Wat moet je kunnen: Toetsing:

Whitepaper. Personal Targeting Platform. De juiste content Op het juiste moment Aan de juiste persoon

Marketingmed.nl Gastbloggen & partnerships

Zakelijk Professioneel (PROF) - B2

6 Marketing-trends voor Sharing knowledge Connecting people

Educatief Startbekwaam (STRT) - B2

Niveaubepaling Nederlandse taal

Begrippenlijst Inzicht in de wereld van big data, marketing en analyse

DPC. Dutch Parallel Corpus. Corpus Design. Lidia Rura

MODERNE VREEMDE TALEN - ASO DUITS Het voorliggende pakket eindtermen beantwoordt aan de decretale situatie waarbij in de basisvorming in de derde

Finchline Widgets. Versie 4.0

Dutch Parallel Corpus Multilinguaal & multifunctioneel. Lieve Macken LT 3 Hogeschool Gent

Amsterdam Rotterdam UTRECHT

Management Summary. Auteur Tessa Puijk. Organisatie Van Diemen Communicatiemakelaars

Services. Kwettr Communicatie Kwettr Marketing Kwettr Data Analyses

Dutch Parallel Corpus Multilinguaal & multifunctioneel. Lieve Macken Hogeschool Gent

Cover Page. The handle holds various files of this Leiden University dissertation.

Workshop CBS data. Dennis Ramondt

Vak: Nederlands EBR Klas: IG2 hv Onderdeel: Fictie en Schrijven Algemene informatie: Wat moet je kennen: Wat moet je kunnen: Toetsing:

Haal het maximale uit je marketing budget. Sander Jacobs, Search Science Internetmarketing

Tussendoelen Engels onderbouw vo havo/vwo

Masterproeven Wireless & Cable Research Group (WiCa)

CONCEPT. Tussendoelen Engels onderbouw vo havo/vwo

Yournews. Een volledig geautomatiseerde en. gepersonaliseerde nieuwsdienst

Het Ontwikkelteam Digitale geletterdheid geeft de volgende omschrijving aan het begrip digitale technologie:

VOLAUTOMATISCH TEKSTEN SAMENVATTEN

Syntheseproef kerst 2013 Theoretische richtingen

OZMO s webcare oplossing DÉ TOOL VOOR SOCIAL MEDIA MONITORING, WEBCARE, MESSAGING, PUBLISHING & SOCIAL ANALYTICS.

Clipit whitepaper. Onderzoek online en social media berichten over steden. 1 september november 2012

ZIGGO GAMED! Tijdens het Marketing & Insights Event (MIE) hebben Nicole Verhoeven (Customer. Hufen (Consultant & Concept Developer

Spraaktechnologie. Gerrit Bloothooft.

Webinar: Wat is Social Media Monitoring?

Maak schrijven op B1 niveau makkelijk

MARKTONDERZOEK. Content By Creative ArtWorks BV. Pagina 6 van 18

Artificial Intelligence. Tijmen Blankevoort

Resultaten van de eerste MIM Snomed Hackathon

Alzheimer Nederland en sociale media

WHITEPAPER Sentiment Analyse

REPUTATIE, RELATIES, TIPS & TRAINING DOOR MICHIEL HOLSHEIMER (CONTENT BRIDGES)

Vervolg op het STEVIN Programma

BIG DATA wat is het eigenlijk?

Syntens. emarketing Internationaal zakendoen via internet

Minor Data Science (NIOC april)

1. Persoonsgegevens die wij verwerken 2. Toestemming

Lesideeën. Hedendaagse Propaganda Analyseren. uitgewerkt door

Workshop discoursanalyse. Sarah Scheepers Genderdag 26 januari 2016

MVI Congres: Samen werkt! App downloaden en instructie

Wat is IoT? To T egankelijk uitlegd!

Whitepaper SEA Haal maximale resultaten vanuit zoekmachine adverteren door structuur, optimalisatie en analyse.

HOE MEETBAAR IS LEESBAARHEID?

PRIVACYVERKLARING. 1. Persoonsgegevens die wij verwerken

Big Data: social media monitoring

Gedragscode social media reddingsbrigade Heerhugowaard

Optimaliseren van het online imago van jouw gemeente Door: Rens Dietz (Coosto)

LES 3. Taalvariatie voor de brugklas Jongerentaal

Bedrijf. Merk. Activiteit. Opvallen. Logo. Ontwerp. Samenhang. Verkoop. Succes. Uw klanten en leden zijn. interactief!

LESMAP DATAWIJSHEID CIJFERS IN HET NIEUWS

Correctievoorschrift HAVO Informatica. Tijdvak 1 Woensdag 24 mei uur. College-examen schriftelijk.

Praktische gids voor het gebruik van sociale netwerksites

Afstanden in Sociale Netwerken. Frank Takes Open Dag Informatica 30 november 2012

PRIVACY BELEID CONFORM DE HAAN LAW. Privacy Beleid

Eigenlijk kan het niet vaak genoeg worden herhaald: doel en doelgroep zijn het belangrijkste onderdeel van het Internet Project Plan.

tips & tricks voor een sterk merk

Begrippenlijst Inzicht in de wereld van big data, marketing en analyse

HUB. non lineair ---

Tussendoelen Gevorderde Geletterdheid. 1. Tussendoelen lees- en schrijfmotivatie. 2. Tussendoelen technisch lezen

Hoe bedrijven social media gebruiken

The Future: what s in it for us!

Adverteren via het grootste regionale nieuwsplatform

Zelfcertificeringsvragen ZegelGezond

Monitoring en Engagement met BeSocialEasy.

Europees Referentiekader

EUROPEES PARLEMENT. Recht en Criminaliteit in cyberspace

OPLEIDING ONLINE MARKETEER (EXPERT) IDEALE MIX VAN THEORIE EN PRAKTIJK. Ga naar de website»

30 nieuwe ios 4.0 features. v1.0

Online Marketing Vraagstuk: Conversie Marketing Datum: juni 2016

INTERNATIONAL STANDARD ON AUDITING (ISA)

Online Marketing Vraagstuk: marketing Datum: juni 2016

Gesprekjes voeren Waar sta ik nu?

Customer Communication Management

Niveaus Europees Referentie Kader

HET NATIONAAL EMOJI ONDERZOEK 2018

Onderzoeksopdracht Crossmedialab. Titel Mobile meets Social: de volgende stap voor mobile marketing

Social media keuzes. Meetup Business Boost, 17 juni 2014 Door Lieke Muller en Linda Krijns

Social CRM, wat kan je er mee? Hans Reuver, Teleperformance Epco Pottinga, SAP

Netwerk Digitaal Erfgoed Logo plaatsing richtlijnen. Versie 1.0

IN 4 STAPPEN NAAR EEN DATAGEDREVEN ORGANISATIE ALLES WAT JE MOET WETEN VOOR EEN SUCCESVOLLE DATA TRANSFORMATIE

Community Oplossingen Interactie met en tussen klanten op een eigen Klant Community

Onderzoeksopdracht Crossmedialab. Titel Blended Learning & Crossmedia

Informatieavond groep 3/4. donderdag 25 september 2014

Transcriptie:

157 TAALTECHNOLOGIE 2.0: SENTIMENTANALYSE EN NORMALISATIE Bart Desmet, Orphée De Clercq, Marjan Van de Kauter, Sarah Schulz, Cynthia Van Hee & Véronique Hoste De opkomst van het internet voor en door iedereen, dat als Web 2.0 bekendstaat, heeft ingrijpende gevolgen gehad voor wat er (online) wordt geschreven. Naarmate het volume tekst in blogposts, tweets, Facebookupdates en andere sociale media toeneemt, slinkt het aandeel geredigeerde tekst. Internetgebruikers schrijven wat ze denken en voelen, en doen dat niet altijd in standaardtaal. Dat taal in nieuwe media afwijkt van de norm, kan op verschillende manieren worden verklaard: spreektaal, jongerentaal, een klein toetsenbord, weinig tijd, een beperkt aantal karakters Daarnaast wordt het internet niet enkel gebruikt om objectieve informatie te zoeken en te delen. We uiten ons enthousiasme of ongenoegen over gebeurtenissen, producten of diensten, en gaan ook actief op zoek naar de mening van anderen, bijvoorbeeld over een hotel, een film of een politieke beslissing. Er is ook interesse om in de veelheid aan online tekst bepaalde gevoelens te kunnen vinden, samen te vatten of tendensen te ontdekken. In het domein van de automatische sentimentanalyse, ook wel opinion mining genoemd, wordt onderzoek gedaan naar de detectie en analyse van polariteit, opinies, emoties en andere subjectieve informatie. Een systeem dat sentiment analyseert, heeft diverse toepassingsmogelijkheden, zowel maatschappelijk als commercieel. De pers bericht bijvoorbeeld geregeld over de gevaren van sociale netwerksites. In het HOF-project SubTLe[1] onderzoeken we of suïcidale berichten op zulke sites automatisch gedetecteerd kunnen worden, en in AMiCA[2] wordt schadelijke content opgespoord, zoals online pestgedrag of pedofilie. Het IWT-project SentiFM[3] analyseert

158 dan weer sentiment over specifieke gebeurtenissen in economische nieuwsberichten. De resultaten van dergelijk onderzoek kunnen onder meer als hulpmiddel gebruikt worden om het effect van specifieke informatie op de financiële markten te achterhalen. Hoe we automatische sentimentanalyse kunnen aanwenden om de voorkeuren van online gebruikers te bepalen om vervolgens gepersonaliseerde advertenties aan te bieden, is dan weer het onderwerp van het PARIS[4]-project. De eerste en fundamentele stap in al deze projecten is om via diepe tekstuele analyse automatisch een model van het sentiment in een tekst te vormen. Daarvoor baseren we ons op corpora waarin expressie van sentiment manueel geannoteerd wordt. Omdat bij de bestaande annotatieschema's de nadruk vooral ligt op expliciete uitingen van positief of negatief sentiment (Wiebe et al., 2005), stelden we nieuwe richtlijnen op die dieper gaan en ook impliciet sentiment kunnen detecteren en analyseren (Van de Kauter et al., 2013). Dat laatste is met name van belang in objectievere teksttypes zoals nieuwsberichtgeving, waarin expliciet uitgedrukt sentiment vaak ontbreekt. Een paar voorbeelden maken dat duidelijk: (1) Khaaaat men leve!!! :( (2) Batterij van nieuwe iphone 5s gaat 2 uur mee In (1) wordt expliciet negatief sentiment uitgedrukt (haten) door een bron (ik) over een doel (mijn leven). Het sentiment wordt verder versterkt door zogenaamde modificatoren als!!! en :(. Ook (2) drukt negativiteit uit, namelijk over het doel batterij van nieuwe iphone 5s, maar dan op een impliciete manier. Ook al geeft de zin objectieve informatie, een batterij met een levensduur van 2 uur wordt (in deze context en met wereldkennis) als een minpunt beschouwd. We spreken in dat geval over een polair feit. Door inferentie willen we ook uit de formulering kunnen afleiden dat een negatief oordeel over de batterij bovendien slecht nieuws betekent voor de iphone 5s, en

159 bij uitbreiding Apple. Dergelijke deel-van-relaties worden daarom ook geannoteerd. Uit de bespreking van (1) wordt al snel duidelijk dat er op sociale media niet noodzakelijk in standaardtaal wordt geschreven. Dit is een groot probleem voor onze huidige taaltechnologische tools, aangezien zij moeilijk overweg kunnen met niet-standaardtaal. Hier zijn twee mogelijke oplossingen voor: de tools robuuster maken voor taalvariatie (adaptatie) of het aangetroffen taalgebruik dichter bij de norm brengen (normalisatie). Wij hebben gekozen voor de laatste aanpak. We verzamelden een corpus van Nederlandse en Engelse teksten uit sociale media en zetten het manueel om naar standaardtaal. Omdat we voor de automatische normalisatie een robuust systeem willen hebben, werden drie verschillende genres geselecteerd: SMS-berichten, forummateriaal en tweets. In zulke berichten worden bepaalde woorden of letters vaak weggelaten, en worden afkortingen en acroniemen frequent gebruikt om tijd of karakters te sparen. Daarnaast bevatten de teksten regionale woorden en klanken, en laat de spelling soms te wensen over. Emoties worden in nieuwe media ook vaak uitgedrukt door herhalingen, smileys of gebruik van hoofdletters. Deze dataset diende als basis voor een eerste automatisch systeem voor het Nederlands. We hebben ervoor gekozen om deze omzetting te beschouwen als een vertaling van een eerste naar een tweede variant van dezelfde taal (De Clercq et al., 2013). Een belangrijk en vernieuwend aspect van dit onderzoek was dat we de vertaling in twee rondes hebben uitgevoerd: eerst een vertaling op woordniveau (een woord-voor-woordvertaling) met de bedoeling om veelvoorkomende afwijkingen van standaardtaal op te vangen (zoals afkortingen), daarna een vertaling op karakterniveau. Met die opsplitsing in karakters hoopten we variaties op de standaardtaal te vinden die bepaalde regelmatigheden vertonen, zoals woorden die aan elkaar geplakt zijn (dak wordt dat ik). Deze aanpak bleek

160 succesvol: in totaal zijn we erin geslaagd om 63% van de variaties om te zetten in de standaardvorm. Momenteel onderzoeken we volop mogelijkheden om het systeem verder uit te breiden zodat ook typische problemen, zoals spellingsfouten of een schrijfwijze gebaseerd op uitspraak (sgatjeuh), genormaliseerd worden. Kortom, taaltechnologie 2.0 is een nieuwe onderzoekslijn binnen LT3, de afdeling Taaltechnologie van de vakgroep, waarvan we de komende jaren veel interessante resultaten mogen verwachten. We streven er bij dit onderzoek dan ook naar om onze tools zoveel mogelijk in te schakelen voor maatschappelijke en commerciële doeleinden, zonder al te veel de Big Brother van de vakgroep te worden. Referenties De Clercq, O., Schulz, S., Desmet, B., Lefever, E. & Hoste, V. (2013). Normalization of Dutch User-Generated Content. Proceedings of the 9th International Conference on Recent Advances in Natural Language Processing (RANLP 2013). Hissar, Bulgaria. Van de Kauter, M., Desmet, B. & Hoste, V. (2013). Guidelines for the Fine-Grained Analysis of Polar Expressions, version 1.0. LT3 Technical Report - LT3 13-01. Wiebe, J., T. Wilson & C. Cardie. (2005). Annotating expressions of opinions and emotions in language. Computer Intelligence, 39(2), 165 210. Projectwebsites [1] Subjectivity Tagging and Learning, http://lt3.hogent.be/en/projects/subtle/ [2] Automatic Monitoring for Cyberspace Applications, http://lt3.hogent.be/en/projects/amica/

161 [3] Sentiment mining for Financial Markets, http://lt3.hogent.be/en/projects/sentifm/ [4] Personalized AdveRtisements built from web Sources, http://lt3.hogent.be/en/projects/paris/