Vous êtes sur la page 1sur 32

Opinion Mining & sentiment

analysis
Community Management
Wiem Trabelsi
Wiem.trabelsi@esprit.tn
Contexte de la fouille d’opinion
 Savoir ce que pensent les « gens » (électeurs, clients, concurrents, etc.) est fondamental pour la prise de
décision.
 Les enquêtes d’opinions constituent une manière efficace de les collecter.
 Le Web 2.0 a rendu ces informations disponibles à profusion sous différentes formes:
 Avis sur les site de vente en ligne, accompagnés par fois par une note
 Discussions dans les médias et les réseaux sociaux tel que les blogs, wikis, twitter, Facebook, etc.

Difficulté = ces écrits sont de nature différentes de ceux des professionnels , intègrent une
dimension émotionnelle et sont peu codifiés ( non cadrés par un questionnaire)

Equipe CM © Community Management


Intérêt de la fouille d’opinion
 La fouille d’opinion, en particulier à partir des réseaux sociaux, est un excellent
substitut nettement moins couteux des enquêtes d’opinions:
 Evaluation des produits, d’une politique, d’une personnalité.
 Analyse de la popularité, des tendances.
 Peut avoir recourt à des systèmes de recommandations (ex: ne pas proposer des produits qui ont des
mauvaises notes).
 Analyse du positionnement par rapport à un sujet délicat

Equipe CM © Community Management


Intérêt de la fouille d’opinion
 les réseaux sociaux permettent d’aller plus loin:

 Susciter des réactions (ex loi de travail, loi de finance)

 Identifier des leaders d’opinions et/ ou des spammeurs d’opinions.

 Détecter des communautés (ex. Affaire gilets jaunes)

Equipe CM © Community Management


Données Sociales et analyse d’opinions
Analyse des tendances sociétales
Domaines d’applications

Analyse des opinions des citoyens sur les candidats lors des élections.

Analyse des opinions des internautes sur un produit/Analyse de l’e-


reputation d’une marque, d’un produit.

Analyse des critiques de films (movie reviews).

Évaluer le succès de campagne de communication.

Identifier les clients cibles/systèmes de recommandation.

Equipe CM © Community Management


Opinion Mining &
sentiment analysis
1- Cadre général de la fouille d’opinion
2- Analyse des sentiments
3- Analyse des sentiments sur Twitter
4- Plus loin avec la fouille d’opinion
Fouille d’opinions
C A D R E G É N É R A L D E L A F O U I L L E D ’O P I N I O N S
Exemple introductif
(1) I bought an iPhone a few days ago. (2) It was such a nice phone.
(3) The Touch screen was really cool. (4) The voice quality was clear too.
(5) However, my mother was mad with me as I did not tell her before I
bought it. (6) She also thought the phone was too expensive, and wanted
me te return it to the shop…

Equipe CM © Community Management


Exemple introductif
(1) I bought an iPhone a few days ago. (2)It was such a nice phone. (3) The Touch screen was really cool.
(4) The voice quality was clear too. (5) However, my mother was mad with me as I did not tell her before
I bought it. (6) She also thought the phone was too expensive, and wanted me te return it to the shop…

(1) Relate un fait objectif.


(2) , (3) et (4) expriment une opinion subjective, plutôt positive.
(5) Et (6) une opinion négative.

L’entité Iphone en général est le sujet (2), (3) et (4) et (6) sont relatifs respectivement aux aspects « touch screen »,
« voice quality », et « price » de l’Iphone, « me » est le sujet de (5).

« I » est le titulaire des opinions (2), (3) et (4),


« mother » est le titulaire des opinons (5) et (6).

Equipe CM © Community Management


Concepts de base de la fouille d’opinion
Entité est la cible de l’opinion : objet, produit,
évènement, personne, concept,
 Holder (Titulaire) de
l’opinion, celui qui Aspect de l’entité ciblée par
s’exprime. l’opinion. Parfois, l’opinion peut
 Il est très important de porter sur l’entité en général.
les distinguer lorsqu’ils
sont plusieurs et que  L’ Orientation de l’opinion peut
des phénomènes de être une polarité (tonalité)
communautés peuvent positive, négative, neutre ou
apparaitre (coopérant mixte.
ou s’opposant)  Elle peut être aussi régulière
(une appréciation) ou
comparative (en comparaison
avec une autre entité).

Equipe CM © Community Management


Définition d’une opinion
 Une opinion est un quintuplet (ei, aij, oijkl, hk, tl):
ei est l’entité
aij est un des aspects de ei,
hk est le titulaire,
oijkl est l’orientation (polarité)
tl est la date (time) où elle a été exprimée (une opinion peut être fluctuante dans le temps).

Tous les éléments ne sont pas forcément nécessaires (on peut ignorer la date si on travaille à fenêtre
temporelle fixée, etc.)

Equipe CM © Community Management


Etapes usuelles pour identifier le quintuplé
(ei, aij, oijkl, hk, tl) dans un corpus D
1. Extraction des entités et regroupement. Identification des entités, regroupement des
éventuels synonymes.
2. Extraction des aspects. Association avec les entités et regroupement des éventuels
synonymes.
3. Identification du titulaire, datation : un titulaire exprime une opinion à une date donnée, qui
peut être déterminante dans l’analyse.
4. Détermination de l’orientation de l’opinion : elle peut être positive, neutre, mixte ou
négative.
5. Enumération de l’ensemble des (ei, aij, oijkl, hk, tl) dans le corpus suite aux étapes ci-dessus.

Equipe CM © Community Management


Typologie des opinions
• phénomène bref, réaction physiologique, évaluation d’un événement majeur
Emotion (stimulus)

Humeur (Mood) • diffus, sans cause, faible intensité, longue durée.

Positionnement interpersonnel
• positionnement affectif vis-à-vis d’une autre personne dans une interaction.
(interpersonal stance):
• durable, croyances colorées affectivement, disposition envers des objets et des
Attitudes personnes.

• dispositions stables liées à la personnalité, tendances comportementales


Traits de personnalité typiques.

Equipe CM © Community Management


Analyse des sentiments
F O C U S S U R L’O R I E N TAT I O N D E S O P I N I O N S
Analyse des sentiments - Cadre
L’analyse des sentiments s’intéresse à l’orientation d’une opinion par rapport à une entité ou à un aspect
d’une entité.
 On parle de polarité qui peut être positive, neutre, mixte ou négative.
Analyse au niveau du document (document level sentiment)
- L’individu statistique est le document.
- On peut descendre d’un cran et décomposer au niveau des phrases (sentence level sentiment), un document pouvant
être constitué de plusieurs phrases (ex. j’aime les livres, mais l’emballage n’est pas terrible…)
Le titulaire de chaque document est unique
- Il peut y avoir des titulaires différents d’un document à l’autre, plusieurs documents peuvent avoir le même titulaire.
Le niveau de sentiment «neutre» peut être une position intermédiaire entre «positif» et «négatif».
- Il peut être également significatif d’un énoncé objectif (fait), auquel cas il convient de discerner ce qui relève de
l’opinion (subjective) ou non dans un premier temps.

Equipe CM © Community Management


Analyses des sentiments - Approches
 Apprentissage statistique
 Les documents sont étiquetés manuellement par un expert (ex. -1, 0 , +1).

 Catégorisation de textes en utilisant les techniques de machine Learning.

 La démarche est rigoureuse, mais l’étiquetage expert peut être bruité. (l’expert n’est pas infaillible…).

Equipe CM © Community Management


Analyses des sentiments - Approches
 Utilisation d’un thésaurus de sentiments
 Des polarités sont associées à des termes ou à des phrases complètes.
 La polarité d’un document peut être calculée à partir de la somme des polarités des termes ou des phrases qui le
compose.

 Dans la pratique, ce n’est pas toujours facile, il faut gérer:


 la synonymie,
 la polarité ( un même terme peut avoir des polarités différentes selon les domaines).
 la négation,
 l’ironie,
 les sarcasmes, etc.

Equipe CM © Community Management


Analyses des sentiments – Apprentissage
statistique
On considère le corpus étiqueté suivant:

 La représentation « bag of words » +


stemming peuvent servir à la
catégorisation des textes.

 La méthode Naive Bayes (modèle


d’indépendance conditionnelle) est
souvent préconisé dans ce contexte.

 On peut avoir recourt à d’autres


méthodes supervisées.

Equipe CM © Community Management


Analyses des sentiments – Variante de
Naive Bayes
Technique de « Dave et al. » utilisée dans le contexte de l’analyse des critiques de produits

Pour une cible binaire (1/0), le score d’un terme tj est donné par:
Nbre de fois où le terme tj apparaît dans les
documents de la classe1, divisé par le nombre
total de termes apparaissant dans les
documents de la classe 1.
Pour évaluer la « positivité » d’un document d, on calcule:
Sur l’ensemble des termes qui
compose le document d.

Pour classer un document: affectation à la classe 1 ou 0:

Equipe CM © Community Management


Analyses des sentiments – S’appuyer sur
un lexique des sentiments
 A chaque terme peut être associé un degré de positivité ou de négativité.

 SentiWordNet propose un thésaurus décrivant la polarité d’une liste prédéfinie de termes.

 Cette étape nécessite de connaitre la catégorie


Exemple: du terme (‘a’ adjectif, ‘n’ nom, ‘v’ verbe)
Je livre du pain.  Le part of speech tagging (analye
C’est un bon livre. morphosyntaxique) permet d’organiser le terme
d’une phrase en une structure arborescente
Voici une livre de pain. (voir cours text mining) qui permet d’identifier
leur rôle.

Equipe CM © Community Management


Analyse des sentiments sur
Twitter
T W I T T E R , U N C O N T E X T E P R I V I L ÉG I É P O U R L’A N A LY S E D E S S E N T I M E N T S
Twitter, un espace privilégié pour
l’analyse des sentiments
 Twitter est un outil de microbloggage qui permet de communiquer via des messages limité à 140 caractères.

 Les utilisateurs (@) peuvent interagir entre eux.

 Il est possible de définir des sujets avec (#)

 Twitter est incontournable aujourd’hui dans la stratégies de communication des décideurs ( ex. Stratégie Trump,
Stratégie Macron)

Equipe CM © Community Management


Twitter, un espace privilégié pour l’analyse
des sentiments
Pourquoi des analyses sur des tweets
 Les documents sont brefs et de longueur équivalentes.
 Un document est souvent focalisé sur un aspect d’une entité, et est associé à une et une seule orientation.
 On y exprime souvent des avis. Les opinions sont souvent subjectives.
 Les auteurs sont clairement identifiables avec @, les éventuels interlocuteurs aussi.  on peut voir les communautés
émerger.
 Les sujets (entités) sont clairement identifiables avec #
 Mises à jour fréquentes, dynamisme et réactivité des auteurs.  Détecter des tendances par rapport aux auteurs / des
communautés par rapport aux sujets.
 Les messages se prêtent à une multitude d’analyse (ex: Tweet Sentiment Visualisation)

Equipe CM © Community Management


Difficultés spécifiques à Twitter
Le nettoyage du texte est primordial.
 Le format induit l’utilisation de raccourcis et de smiley
qui deviennent une partie intégrante de la langue.
 Tenir compte de la normalisation et des liens (http)

Exemple: 10 tweets avec le sujet


#macron extrait le 17-01-2017
(96 jours avant le 1er tour des
présidentielles 2017)

Equipe CM © Community Management


API pour travailler « efficacement » sur
Twitter

 Dans « Mining the Social Web »,


Russel décrit un ensemble de
recettes en Python pour accéder à
différents types d’analyses.
 D’autres API existent aussi pour
Facebook, LinkedIn, Google+
( dans le même ouvrage)

http://www.webpages.uidaho.edu/~stevel/504/mining-the-
social-web-2nd-edition.pdf

Equipe CM © Community Management


Plus loin avec la fouille
d’opinions
Objectivité VS Subjectivité
 Avant d’étudier la polarité d’un document, il est intéressant d’identifier si ce dernier correspond à une opinion subjective
ou à un fait objectif.
L’analyse se fait en deux temps Faits
Documents Polarité positive
Opinions
Comment? Polarité négative
1- Par apprentissage supervisé; mais avec toujours le coût lié à l’étiquetage manuel.
2- En utilisant un lexique; la catégorie lexicale joue un rôle crucial: les adjectifs et les adverbes sont plus fréquents dans
les documents qui expriment une opinion.
3- Par la présence de formules; annonçant une opinion (in my opinion, it seems to me that, etc)

Equipe CM © Community Management


Une graduation plutôt qu’une polarité
Une note (rating) est associé au document plutôt qu’une polarité.

Exemple: Apple ear-pods

Equipe CM © Community Management


Polarité exprimée sous forme de proportions
 L’opinion s’exprime sous la forme d’un intérêt que l’on peut porter à un document.
 Pour un document, nous disposons de plusieurs évaluations (+eurs observations).
La variable cible s’exprime sous la forme d’une proportion.

Les utilisateurs sont les acteurs


de l’enrichissement de la base.

 Plusieurs techniques (ex: régression logistique) peuvent prendre en compte ce genre de situation où pour une
expression de la description, nous disposons de plusieurs observations de la cible.

Equipe CM © Community Management


Opinion Spam Detection
 Les enjeux sont forts, les agitateurs peuvent venir perturber sciemment la perception d’un produit, d’une
personnalité (fake opinions, fake reviews, etc)

 On distingue généralement deux types de stratégies de spamming:

1- Spammeur individuel: le malandrin agit seul, avec une ou plusieurs identités.


2- Groupes de spammeurs coordonnés: ils agissent en groupe, de manière plus ou moins coordonnée, pour contrôler
et orienter la perception du sujet.

On peut toujours utiliser les techniques supervisées: mais l’étiquetage manuel des documents reste un
goulot d’étranglement. L’affaire devient plus compliquée lorsqu’on a plusieurs acteurs.

Equipe CM © Community Management


Opinion Spam Detection
Recherche des Recherche Analyse de
régularités d’anomalies (outliers) comportements des
titulaires

• Lorsque l’acteur est seul • Lorsque des • Le comportement des


ou lorsque l’action est documents ou des acteurs est une source
coordonnée, les d’identification des
notes s’écartent
éléments de langages spammeurs (ex: un
récurrents apparaissent significativement des acteur se concentre sur
(termes d’opinion, etc), autres, il faut un seul type de produit,
• En recherchant les s’assurer que ces donne
similitudes entre les observations systématiquement des
documents, on peut correspondent à des notes très basses, très
mettre en évidence des minorités basses; un produit
groupe.  une très forte concentre un très grand
homogénéité doit attirer nombre d’évaluations;
notre attention. etc)

Equipe CM © Community Management


http://www.cs.unibo.it/~montesi/CBD/Articoli/SurveyOpinionMining.pdf

Références- http://www.cs.cornell.edu/home/llee/omsa/omsa.pdf
bibliographies
http://www.webpages.uidaho.edu/~stevel/504/mining-the-social-web-
2nd-edition.pdf

https://sentiwordnet.isti.cnr.it/

https://www.cs.uic.edu/~liub/FBS/Sentiment-Analysis-tutorial-AAAI-
2011.pdf

Equipe CM © Community Management