APPLIED REAL-TIME TEXT MINING TOM DE SMEDT, GUY DE PAUW, WALTER DAELEMANS Computational Linguistics Research Group CLiPS, www.clips.uantwerpen.be Textgain, www.textgain.com/test
OVERVIEW TEXT ANALYTICS & TEXT MINING sentiment analysis ( how to ) author profiling APPLICATIONS text mining applications REAL-TIME text mining using real-time web services
LANGUAGE TECHNOLOGY
LANGUAGE TECHNOLOGY
TEXT ANALYTICS & TEXT MINING Data mining: structured data Using text analytics tools to extract structured knowledge from unstructured language data 3 types of information objective subjective author profile
OBJECTIVE INFORMATION Facts Concepts Properties of concepts Relationships between concepts who is doing what, where, when, why?
OBJECTIVE INFORMATION
SUBJECTIVE INFORMATION
SENTIMENT ANALYSIS text is objective (fact) or subjective (opinion) OBJECTIVE news, article, product description the new iphone is now for sale SUBJECTIVE tweet, blog, product review the new iphone is so cool
SENTIMENT ANALYSIS text is objective (fact) or subjective (opinion) OBJECTIVE news, article, product description the new iphone is now for sale SUBJECTIVE tweet, blog, product review the new iphone is so cool subjective text = customer insight how do we quantify it?
UNSTRUCTURED DATA STRUCTURED INSIGHT POS NEG JAN 1,000 500 FEB 1,250 250 MAR 750 750
SENTIMENT ANALYSIS different word types = different roles NOUN iphone, Tom object, name VERB buy, love action, state ADJECTIVE good, bad quality, quantity ADVERB really, very intensity PRONOUN it, she, my object, name (mentioned earlier) PREPOSITION in, after relation
SENTIMENT ANALYSIS different word types = different roles NOUN iphone, Tom object, name VERB buy, love action, state ADJECTIVE good, bad quality, quantity ADVERB really, very intensity PRONOUN it, she, my object, name (mentioned earlier) PREPOSITION in, after relation
SENTIMENT ANALYSIS LEXICON put scores on words, count words POSITIVE NEGATIVE nice good super boring bad awful +0.3 +0.5 +0.8 0.4 0.5 0.9
SENTIMENT ANALYSIS LEXICON put scores on words, count words POSITIVE NEGATIVE nice good super boring bad awful +0.3 +0.5 +0.8 0.4 0.5 0.9 (0.3 + 0.9) / 2 = 0.3 < 0 = NEG
SENTIMENT ANALYSIS LEXICON which adjectives? we use 10% of words 90% of the time good (7%) new (4%) insipid (0.1%) FREQUENCY OF ADJECTIVES IN PRODUCT REVIEWS
SENTIMENT ANALYSIS LEXICON which adjectives? 1. collect real reviews 2. collect adjectives in reviews 3. put scores on top 10% adjectives covers 90% of all reviews
CODE EXAMPLE do people like iphone?
CODE EXAMPLE do people like iphone? 1 new tweet / second with #iphone
CODE EXAMPLE do people like iphone? 1 new tweet / second with #iphone how do we collect tweets? how do we quantify unstructured data? (text) how do we tell positive from negative?
CODE EXAMPLE http://www.clips.uantwerpen.be/pattern web mining text analytics machine learning network analysis data visualization free for commercial use
CODE EXAMPLE TWITTER 1 new tweet / second with #iphone PATTERN 500+ sentences / second
CODE EXAMPLE POSITIVE NEGATIVE nice good super boring bad awful +0.3 +0.5 +0.8 0.4 0.5 0.9
CODE EXAMPLE create your own sentiment function, automatically
TEXT ANALYTICS & TEXT MINING Data mining: structured data Using text analytics tools to extract structured knowledge from unstructured language data 3 types of information objective subjective author profile
AUTHOR PROFILE
AUTHOR PROFILE Schwartz HA, Eichstaedt JC, Kern ML, Dziurzynski L, et al. (2013) Personality, Gender, and Age in the Language of Social Media: The Open-Vocabulary Approach. PLoS ONE 8(9): e73791. doi:10.1371/journal. pone.0073791
AUTHOR PROFILE a lot of information in the small words pronouns (I, you, she, himself, ) determiners, quantifiers (a, the, this, some, many, ) Automatic text classifiers for demographic parameters age, gender, education, personality, region
www.amicaproject.be
BUSINESS ANALYTICS UNSTRUCTURED DATA STRUCTURED INSIGHT POS NEG JAN 1,000 500 FEB 1,250 250 MAR 750 750
DUTCH POLITICS http://www.politieketrend.nl
DUTCH POLITICS http://www.politieketrend.nl
DUTCH POLITICS (BREAKDOWN) VVD PVDA CDA D66 PVV GroenLinks
DUTCH POLITICS (BREAKDOWN) VVD PVDA CDA D66 PVV GroenLinks
DUTCH POLITICS (BREAKDOWN) VVD PVDA CDA D66 PVV GroenLinks
HADOOP BUZZ PROFILING Cloudera vs HortonWorks vs MapR very little data (hundreds of tweets)
HADOOP BUZZ PROFILING Cloudera vs HortonWorks vs MapR PLATFORM AGE < 25 AGE > 25 CLOUDERA 10% 90% HORTONWORKS 5% 95% MAPR 5% 95%
HADOOP BUZZ PROFILING Cloudera vs HortonWorks vs MapR PLATFORM MALE FEMALE CLOUDERA 85% 15% HORTONWORKS 75% 25% MAPR 85% 15%
HADOOP BUZZ PROFILING Cloudera vs HortonWorks vs MapR PLATFORM POSITIVE NEGATIVE CLOUDERA 50% 50% HORTONWORKS 45% 55% MAPR 65% 35%
HADOOP BUZZ PROFILING Cloudera vs HortonWorks vs MapR PLATFORM TALKING POINTS CLOUDERA big data, huge, strong, redefines big data HORTONWORKS big data, huge, new, MAPR big data, free, open source, operational, predictive, successful
BELGIAN TELCO February-March 2014 ( 30 days ) 3,800 850 Belgacom 2,950 Telenet 1,450 840 Belgacom 510 Telenet 100 Voo
Telenet 71% 99% 16% 17% MEN DUTCH RUDE CRUEL Belgacom 67% 51% 21% 15% MEN DUTCH RUDE CRUEL RUDE = relative amount of very negative posts CRUEL = relative amount of likes on rude posts Flemish are more negative than Walloons Men are more negative than women
Telenet Belgacom Voo 95% 16% DUTCH RUDE 67% 18% DUTCH RUDE 9% 19% DUTCH RUDE Walloons are noticeably more negative about Telenet than about Belgacom or Voo
?? Achter de campagne, gemaakt door de Mortierbrigade, zit Hand in Hand, de organisatie die in 2006 de bekroonde 'Zonder Haat Straat' lanceerde. Toen was de motivatie de racistisch geïnspireerde dodelijke raid van Hans Van Themsche door Antwerpen. Vandaag verzet de vzw zich tegen de toenemende polarisatie en het steeds heftiger gevoerde maatschappelijke debat, zegt activist Marius Dekeyzer. "Zeker via sociale media zien we dat wantrouwen, xenofobie en vooroordelen volop verspreid worden. Tegelijkertijd zien we dat politici als Bart De Wever en Liesbeth Homans (beiden N-VA, SVL) uitspraken doen die deze vooroordelen zeker niet ontkrachten." Er was nog meer stratego. Peeters verwees uitdrukkelijk naar Johan Van Overtveldt (N-VA) om de 'openingszet' te doen, de minister die volgens CD&V verantwoordelijk was voor de recente chaos rond de berekening van de financieringswet. Her en der wordt in de meerderheid gewezen op capaciteitsproblemen op het kabinet-van Overtveldt. Peeters legt daarmee druk op N-VA, en deelde en passant nog stevige tikjes uit aan die concurrent. CD&V laat zich niet zomaar verdringen als dé Vlaamse centrumpartij. "Deze campagne is bedoeld voor de mensen die twijfelen, de mensen die zich ongemakkelijk voelen bij dergelijke uitspraken maar die misschien niet geneigd zijn om naar de Grote Markt te trekken om hun punt te maken. Via deze weg kun je laten zien: ik ben het niet eens met wat er hier gezegd wordt." De ongemakkelijke waarheid is dat heel wat mensen het wel eens zijn met dit discours en zich niet geremd voelen om dat ook te verkondigen. Luc Haekens, de nepreporter van het satirische programma De Ideale Wereld (VIER), moest bij een reportage over migranten zelfs niet aandringen om vrouwen voor de camera te horen zeggen: 'schiet ze allemaal af' of 'als Hitler er nog moest zijn, zou dat allemaal niet gebeurd zijn.' Wat baten een filmpje en wat kliks als de heimwee naar Hitler openlijk wordt beleden? Het effect van zo'n campagne is bijna onmogelijk te meten. Wat we wel weten, zegt socioloog Mark Elchardus (VUB), is dat onze samenleving wel degelijk minder negatief is gaan kijken naar mensen van buitenlandse origine (het wantrouwen tegen moslims neemt niet af). N-VA liet immers vorige week via haar voorjaarscampagne nog eens weten dat ze die ambitie heeft. Daarom moet de partij positiever, warmer en zachter in de markt gezet worden, moeten tegelijk de torenhoge ambities van het V-verleden stevig getemperd worden. Die kracht van verandering verslijt immers snel in de bestuursmachinerie. Daarom komt een tax shift ook N-VA, die bovendien wat met de eigen besparingen sukkelt, niet per se slecht uit. Het laat én beheerste verandering zien én biedt N-VA een kans om haar sociaal profiel te versterken. Tegelijk is het voor 'gemeenschapspartij' N-VA riskant, want ze dreigt in dezelfde spreidstand terecht te komen als die waarin CD&V al langer zit. Al is het bij CD&V nu wat makkelijker om naar links over te hellen. De lijnen naar het ACW lopen niet enkel via enkele centrale figuren op het kabinet-peeters. Dat Marc Leemans op het ACV-congres sneert naar de 'rechtse regering' maar daarbij CD&V vergeet te vermelden, is uiteraard geen toeval. Zo flexibel als CD&V kan N-VA niet zijn. Ze draagt in haar schoot nog altijd meer rechts tegengewicht en sleept nog steeds haar imago als principiële anderspartij mee.
Achter de campagne, gemaakt door de Mortierbrigade, zit Hand in Hand, de organisatie die in 2006 de bekroonde 'Zonder Haat Straat' lanceerde. Toen was de motivatie de racistisch geïnspireerde dodelijke raid van Hans Van Themsche door Antwerpen. Vandaag verzet de vzw zich tegen de toenemende polarisatie en het steeds heftiger gevoerde maatschappelijke debat, zegt activist Marius Dekeyzer. "Zeker via sociale media zien we dat wantrouwen, xenofobie en vooroordelen volop verspreid worden. Tegelijkertijd zien we dat politici als Bart De Wever en Liesbeth Homans (beiden N-VA, SVL) uitspraken doen die deze vooroordelen zeker niet ontkrachten." "Deze campagne is bedoeld voor de mensen die twijfelen, de mensen die zich ongemakkelijk voelen bij dergelijke uitspraken maar die misschien niet geneigd zijn om naar de Grote Markt te trekken om hun punt te maken. Via deze weg kun je laten zien: ik ben het niet eens met wat er hier gezegd wordt." De ongemakkelijke waarheid is dat heel wat mensen het wel eens zijn met dit discours en zich niet geremd voelen om dat ook te verkondigen. Luc Haekens, de nepreporter van het satirische programma De Ideale Wereld (VIER), moest bij een reportage over migranten zelfs niet aandringen om vrouwen voor de camera te horen zeggen: 'schiet ze allemaal af' of 'als Hitler er nog moest zijn, zou dat allemaal niet gebeurd zijn.' Wat baten een filmpje en wat kliks als de heimwee naar Hitler openlijk wordt beleden? Het effect van zo'n campagne is bijna onmogelijk te meten. Wat we wel weten, zegt socioloog Mark Elchardus (VUB), is dat onze samenleving wel degelijk minder negatief is gaan kijken naar mensen van buitenlandse origine (het wantrouwen tegen moslims neemt niet af). Er was nog meer stratego. Peeters verwees uitdrukkelijk naar Johan Van Overtveldt (N-VA) om de 'openingszet' te doen, de minister die volgens CD&V verantwoordelijk was voor de recente chaos rond de berekening van de financieringswet. Her en der wordt in de meerderheid gewezen op capaciteitsproblemen op het kabinet-van Overtveldt. Peeters legt daarmee druk op N-VA, en deelde en passant nog stevige tikjes uit aan die concurrent. CD&V laat zich niet zomaar verdringen als dé Vlaamse centrumpartij. N-VA liet immers vorige week via haar voorjaarscampagne nog eens weten dat ze die ambitie heeft. Daarom moet de partij positiever, warmer en zachter in de markt gezet worden, moeten tegelijk de torenhoge ambities van het V-verleden stevig getemperd worden. Die kracht van verandering verslijt immers snel in de bestuursmachinerie. Daarom komt een tax shift ook N-VA, die bovendien wat met de eigen besparingen sukkelt, niet per se slecht uit. Het laat én beheerste verandering zien én biedt N-VA een kans om haar sociaal profiel te versterken. Tegelijk is het voor 'gemeenschapspartij' N-VA riskant, want ze dreigt in dezelfde spreidstand terecht te komen als die waarin CD&V al langer zit. Al is het bij CD&V nu wat makkelijker om naar links over te hellen. De lijnen naar het ACW lopen niet enkel via enkele centrale figuren op het kabinet-peeters. Dat Marc Leemans op het ACV-congres sneert naar de 'rechtse regering' maar daarbij CD&V vergeet te vermelden, is uiteraard geen toeval. Zo flexibel als CD&V kan N-VA niet zijn. Ze draagt in haar schoot nog altijd meer rechts tegengewicht en sleept nog steeds haar imago als principiële anderspartij mee.
TEXTGAIN.COM/TEST looking for partners, case studies, data, customers, we ll be around for questions thanks