WHITEPAPER Sentiment Analyse
We creëren tegenwoordig In 2 dagen tijd net zoveel data als dat we deden vanaf het ontstaan van de beschaving tot en met 2003. Ruim 88% van die data is Dark Data. Wikipedia definieert Dark Data als data die via verschillende computer netwerken is verzameld maar die niet wordt gebruikt om inzicht te creëren voor besluitvorming. Dit komt doordat Dark Data ongestructureerde data is en bedrijven niet beschikten over de juiste analyse modellen, krachtige computers en knowhow om die enorme hoeveelheid Dark data te analyseren. Een groot deel van deze ongestructureerde data bestaat uit tekst. De laatste jaren is de snelheid van computer processors enorm toegenomen en zijn ook de tekstanalyse modellen sterk verbeterd. Nu is het analyseren van teksten binnen de mogelijkheden van organisaties komen te liggen. Organisaties hebben al veel inzicht gekregen door het analyseren van een fractie van de data. Maar welke inzichten liggen er verborgen in het donker en wat zou het betekenen wanneer die inzichten gebruikt kunnen worden om processen verder te verbeteren. Iedere marketeer weet dat het goud in de tekst zit. In de teksten liggen namelijk de emoties van je klanten verborgen, wat ze blij maakt of waar ze juist heel boos over zijn. Het onderkennen en anticiperen op deze emoties vormt de basis van de relatie die met klanten hebt.
Exocortex heeft 6 jaar ervaring in het geautomatiseerd analyseren van Nederlandse tekst. We hebben verschillende systemen getest en weten welke aanpak in welke situatie het beste werkt. In dit artikel geven we een toelichting op de methodiek die wij voor sentiment analyse gebruiken en wat de toepassingen van sentiment analyse zijn. Om taal te begrijpen is het niet direct nodig dat je alle grammaticale regels van een taal kent, bijvoorbeeld wat de achteliggende theorie is hoe zinnen worden gestructureerd en opgebouwd. Dit is vaak een natuurlijk proces dat bij mensen onbewust gebeurd. De eerste stap om machines een taal te leren is om ze te leren wat de structuur van een taal is. Dit doen we met een parser. Een parser is een computerprogramma, of component van een programma, dat de grammaticale structuur van tekst volgens de vastgelegde grammaticaleregels ontleedt. In onderstaand voorbeeld is de zin "Het ontbijt was erg lekker" ontleed. Een belangrijk onderdeel van het 'parsen' is ieder afzonderlijk woord taalkundig te boemen, zoals; zelfstandige naamwoorden (Noun), bijvoegelijke naanwoorden (Adj) werkwoorden (Aux), etc.
Bij sentimentanalyse zijn het vaak zelfstandige naamwoorden waar het sentiment betrekking op heeft. Zoals "Ontbijt" en zijn het de bijvoegelijke naamwoorden (lekker) die het sentiment bevatten. Bijwoorden kunnen het sentiment van bijvoegelijke naamwoorden weer versterken (erg lekker) of juist omdraaien (niet lekker). Sentimentwoordenboeken. Exocortex heeft een analysemodel ontwikkeld waarbij het sentiment wordt uitgedrukt in een waarde. De sentimentwaarden van woorden en zinsdelen zijn in een sentimentwoordmentwaarden vastgelegd. We gebruiken hiervoor een 7-puntsschaal, van zeer negatief( -3 ) t/m zeer positief (+3). De afgelopen 6 jaar heeft Exocortex voor de Nederlandse taal sentimentwoordenboeken ontwikkeld met meer dan 10.000 sentimentdragende woorden en zinsdelen. Het analysemodel identificeert woorden uit teksten die matchen met de woorden uit het lexicon en koppelt aan die woorden de bijbehorende sentimentwaarde. 'Lekker' heeft in het sentimentwoordenboek een sentimentwaarde van +2. Het analyse model identificeert het bijwoord 'erg' voor 'lekker' waardoor het sentiment wordt versterkt naar +3. Ontbijt krijgt in bovenstaand voorbeeld een sentimentwaarde van +3 toebedeeld. Wanneer we het bijwoord 'erg' vervangen door 'niet', dan wordt de sentimentwaarde van 'lekker' (+2) omgedraaid naar -2. Het ontbijt was niet lekker In bovenstaand voorbeeld krijgt 'ontbijt' een sentimentwaarde van -2.
Sentimentanalyse op verschillende niveaus. Het sentimentanalyse model van Exocortex bepaalt eerst het sentiment van de afzonderlijke topics. De sentimentwaarde van een zin wordt berekend door de sentimentwaarden van de sentimentdragende woorden bij elkaar op te tellen en vervolgens te delen door het het aantal sentimentdragende woorden. Dezelfde methodiek wordt gebruikt om het sentiment van de gehele tekst te bepalen. Denk bijvoorbeeld aan een blog of een artikel. Hiervoor wordt de gemiddelde sentimentwaarde van de zinnen bij elkaar opgeteld en vervolgens gedeeld door het aantal zinnen. De verkoopsters zijn zeer behulpzaam (+3) maar het is in de winkel soms druk (-1)en moet je lang wachten(-2) tot je geholpen wordt. De winkel zelf is ruim (+2) en overzichtelijk(+2). Scanners staan op een makkelijke (+2) plaats waardoor je snel (+2) een product kunt scannen en kopen. In de eerste zin staan 2 topics met de volgende sentimentwaarde: 1. verkoopsters (+3) 2. winkel (-2-2)/2 = -2 De sentimentwaarde van de eerste zin wordt: (+3-2-2)/3= -0,33. De sentimentwaarde van de gehele tekst is (3-2-2+2+2+2+2)/7 = 1
Het zal in de praktijk vaak voorkomen dat een tekst of zin meerdere positieve en negatieve woorden bevatten. Bij grote aantallen tekst zullen er voor topics ook meerdere positieve en negatieve sentimentwoorden gebruikt worden. In bovenstaand voorbeeld zijn; druk, lang wachten, ruim en overzichtelijk, sentimentwoorden die betrekking hebben op winkel. Zowel de positieve als negatieve sentimentwoorden van topics worden in de rapportage inzichtelijk gemaakt. Het sentiment wordt voor de gehele tekst, per zin en voor iedere topic bepaalt. In de rapportage worden de positieve en negatieve sentimentwoorden per topic inzichtelijk gemaakt. Sentimentanalyse voor eigennamen. Een eigennaam is een zelfstandig naamwoord dat een persoon of zaak als een individu of merk benoemt. In de meeste gevallen worden eigennamen met een hoofdletter geschreven. Bijvoorbeeld: Raymond Westerhof, Heineken, de RAI, etc. Het sentimentanalyse model bepaalt ook het sentiment voor eigennamen. Zie het onderstaand voorbeeld: Het optreden van Jasmijn Brouwer was perfect (+3), de jury kon geen enkele fout (+2) vinden en beloonde haar optreden met een 10. Het optreden van de volgende kanditaat, Max ter Steege ging minder goed (-1), hij maakte veel fouten (-2) en kon jury niet bekoren (-2).
Het sentiment over de 2 personen in voorgaande tekst is verschillend. Het sentiment over: Jasmijn Brouwer is positief: + 2,5 Max ter Steege is negatief: -1,67 Met deze functie kunnen organisaties gericht het sentiment over bijvoorbeeld merknamen of personen monitoren. Sentimentanalyse geeft organisaties inzicht in het sentiment over de voor hun belangrijke topics, personen, merknaam, of andere entiteiten. Daarnaast geeft het ook inzicht in de oorzaken achter het sentiment. Waarom zijn mensen negatief of positief? Iedere taal heeft zijn eigen grammaticale regels, uitdrukkingen en eigenaardigheden. Wij bij Exocortex hebben ons gefocused op het analyseren van Nederlandse tekst. Wij analyseren Nederlandse tekst aan de hand van de Nederlandse grammaticale regels. Wij hebben 4 jaar ervaring met het ontwikkelen van Nederlandse sentimentwoorden boeken voor de Nederlandse taal. Onze woordenboeken worden door Nederlandse taalkundigen ontwikkeld en bevatten meer dan 10.000 sentimentwoorden of zinsdelen. De focus op de Nederlandse taal leidt tot een hogere betrouwbaarheid en nauwkeurigheid dan de modellen die dit net doen.
Maak dan nu een afspraak voor een Live Demo! Arno Gudden 06 12 945 890 of 88 134 7300 Zwiepseweg 4, 7244 AK Barchem info@exocortex.nl www.exocortex.nl