Vous êtes sur la page 1sur 67

Universit e de Montr eal

Analyse des donn ees de microblogs

par Houssem Eddine Dridi

D epartement dinformatique et de recherche op erationnelle Facult e des arts et des sciences

Rapport pour la partie orale de lexamen pr e-doctoral

juin, 2012

c Houssem Eddine Dridi, 2012.

Universit e de Montr eal tudes sup Facult e des e erieures

Cet examen pr e-doctoral intitul e: Analyse des donn ees de microblogs

pr esent e par: Houssem Eddine Dridi

t valu ae ee e par un jury compos e des personnes suivantes: Jian-Yun Nie, pr esident-rapporteur Guy Lapalme, directeur de recherche Philippe Langlais, membre du jury

Examen accept e le: . . . . . . . . . . . . . . . . . . . . . . . . . .

` TABLE DES MATIERES

` TABLE DES MATIERES . . . . . . . . . . . . . . . . . . . . . . . . . . . . LISTE DES TABLEAUX . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

iii v

LISTE DES FIGURES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii CHAPITRE 1 : 1.1 1.2 FOUILLE DOPINIONS . . . . . . . . . . . . . . . . . . 1 2 2 3 4 6 7 9 9 11 11 13 16 16 18 20 22 24 24 26 29

Pr etraitement et nettoyage . . . . . . . . . . . . . . . . . . . . . . . . Classication des sentiments . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 1.2.2 M ethodes par apprentissage supervis e . . . . . . . . . . . . . . M ethodes par orientation s emantique . . . . . . . . . . . . . .

1.3 1.4

R esum e automatique des opinions . . . . . . . . . . . . . . . . . . . . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ANALYSE DES TEXTES COURTS . . . . . . . . . . . .

CHAPITRE 2 : 2.1 2.2

Blogs et Microblogs . . . . . . . . . . . . . . . . . . . . . . . . . . . . Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 2.2.2 Pr esentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fonctionnalit es et caract eristiques . . . . . . . . . . . . . . . . Go et al. [2009] . . . . . . . . . . . . . . . . . . . . . . . . . . Barbosa et Feng [2010] . . . . . . . . . . . . . . . . . . . . . . Jiang et al. [2011] . . . . . . . . . . . . . . . . . . . . . . . . .

2.3

Analyse des sentiments . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 2.3.2 2.3.3 2.3.4

2.4

Tan et al. [2011] . . . . . . . . . . . . . . . . . . . . . . . . . enements . . . . . . . . . . . . . . . . . . . . . . . . . . Tweets vs Ev 2.4.1 2.4.2 Doan et al. [2011] . . . . . . . . . . . . . . . . . . . . . . . . Lampos et Cristianini [2010] . . . . . . . . . . . . . . . . . . .

2.5

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

iv CHAPITRE 3 : 3.1 3.2 EXPERIMENTATIONS . . . . . . . . . . . . . . . . . . . 30 30 33 33 34 36 47 49

Extraction des donn ees . . . . . . . . . . . . . . . . . . . . . . . . . . Statistiques et interpr etations . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 3.2.2 3.2.3 Exp erience 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . Exp erience 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . Exp erience 3 . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.3 3.4

Construction de corpus dapprentissage . . . . . . . . . . . . . . . . . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

CHAPITRE 4 : 4.1 4.2

CONTRIBUTION ET CONCLUSION . . . . . . . . . . . 50 50 52

Contribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

BIBLIOGRAPHIE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

LISTE DES TABLEAUX 1.I 2.I 2.II 2.III 2.IV 2.V ` partir dune opinion R` egles pour extraire les syntagmes de taille 2 a Les 5 pays qui ont le plus grand nombre dutilisateurs. . . . . . . Exemples de tweets . . . . . . . . . . . . . . . . . . . . . . . . . Exemple de r` egles pour la s election des features . . . . . . . . . . Coefcients de corr elation obtenus entre les Flu score obtenus et les donn ees de lAPS . . . . . . . . . . . . . . . . . . . . . . . . Coefcients de corr elation obtenus (par r egion) avec lutilisation des poids . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.I 3.II lections tunisiennes Statistiques sur les tweets qui portent sur les e publi es entre le 18 octobre 2011 et 28 octobre 2011 . . . . . . . . Statistiques sur le nombre des mots trouv es dans les tweets qui lections tunisiennes envoy portent sur les e es entre le 18 octobre 2011 et 28 octobre 2011 . . . . . . . . . . . . . . . . . . . . . . 3.III 3.IV 3.V Statistiques sur le nombre de mots trouv es dans les vocabulaires franc ais et anglais pour les tweets . . . . . . . . . . . . . . . . . Ensemble de mots-cl es utilis es pour extraire des tweets qui portent ` laide du streaming API . . . . . . . . . . . sur la Tunisie a Statistiques sur le nombre de mots trouv es dans les tweets qui portent sur la Tunisie (126 991 tweets publi es entre le 08 f evrier 2012 et le 09 mars 2012) . . . . . . . . . . . . . . . . . . . . . . 3.VI 3.VII 3.VIII 3.IX 3.X 3.XIII Statistiques sur les tweets qui portent sur la Tunisie . . . . . . . . Les hashtags les plus fr equents dans le corpus de tweets qui portent sur la Tunisie . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fr equence des hashtags li es au sujet Wajdi Ghonim . . . . . . Fr equence des hashtags li es au sujet Manouba . . . . . . . . . . Fr equence des hashtags li es au sujet UGTT . . . . . . . . . . . . Informations sur les tops 5 utilisateurs retweet es . . . . . . . . . 38 43 44 45 45 37 37 36 35 35 35 28 27 4 12 15 21

vi 3.XI 3.XII Informations sur les tops 5 utilisateurs . . . . . . . . . . . . . . . Descriptions des 5 tops utilisateurs . . . . . . . . . . . . . . . . . 46 46 47 53 54

3.XIV Type de relation entre les utilisateurs dans le cas dun retweet . . 4.I 4.II Etapes de r ealisation . . . . . . . . . . . . . . . . . . . . . . . . tapes Prochaines e . . . . . . . . . . . . . . . . . . . . . . . . .

LISTE DES FIGURES 1.1 1.2 Exemple de r esum e (Figure1 Hu et Liu [2004] . . . . . . . . . . Comparaison graphique entre deux appareils photo (Figure1 Liu et al. [2005]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 2.2 2.3 2.4 2.5 2.6 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 Page daccueil Twitter . . . . . . . . . . . . . . . . . . . . . . . Probabilit e que deux utilisateurs aient le m eme sentiment sachant le type de leur relation . . . . . . . . . . . . . . . . . . . . . . . Probabilit e que deux utilisateurs soient connect es sachant quils ont le m eme sentiment . . . . . . . . . . . . . . . . . . . . . . . Nombre de tweets par date en anglais et en japonais . . . . . . . . Liste des mot cl es pour le tremblement de terre et tsunami, radiation et lanxi et e des habitants . . . . . . . . . . . . . . . . . . . . Fr equence des mots cl es li es aux tremblements de terre . . . . . . Tweet retourn e par search API (format Json) . . . . . . . . . Extrait dun tweet retourn e par streaming API (format Json). Nombre de tweets par jour sur la Tunisie (126 991 tweets entre le 08 f evrier 2012 et le 09 mars 2012) . . . . . . . . . . . . . . . . Capture d ecran du tableau crois e dynamique pour les hashtags pr esents dans le corpus . . . . . . . . . . . . . . . . . . . . . . . ` l Distribution par jour de 36 hashtags li es a ev enement de Wajdi Ghonim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribution par jour dun hashtag (UGTT) li e au sujet de lUnion g en erale tunisienne du travail . . . . . . . . . . . Capture d ecran de la page d edi ee pour lannotation des tweets . . 42 49 41 ` l Distribution par jour de 2 hashtags li es a ev enement de Manouba 41 39 37 25 26 31 33 24 25 23 7 13 6

viii 4.1 ` l Graphe repr esentant des hashtags li es a ev enement de la mise en ` luniversit berne de drapeau Tunisien a e de manouba le 07 mars 2012 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

INTRODUCTION La r evolution de linformation permet aux utilisateurs dexprimer leurs sentiments ` une accumulation dune e norme quanet leurs opinions. Ce comportement conduit a tit e dinformations. Lobjectif ce travail est de d evelopper un syst` eme qui analyse ces informations pour d eterminer lopinion publique sur diff erents sujets et de pr edire les tendances et les pr eoccupations des utilisateurs. Ces informations jouent un r ole important dans la prise de d ecision pour plusieurs personnes et organisations. Par exemple, il est important pour un gouvernement de conna tre les opinions et les pr eoccupations des citoyens. Pour obtenir des informations pertinentes qui re` etent la situation actuelle, nous devons recueillir linformation la plus r ecente qui contient des avis h et erog` enes. Pour cette raison, il est utile danalyser le contenu des outils de r eseaux social (comme Facebook1 ou Twitter2 ) qui ont acquis une grande popularit e dans le monde. Etant donn e le nombre lev tre utilis dutilisateurs et de leur niveau e e dutilisation, ces outils peuvent e es comme v un reet de lhumeur du public, lopinion publique par rapport aux e enements actuels. ` lanalyse de contenu dans le web, utiLa majorit e des travaux, qui sint eressent a lisent les outils des r eseaux sociaux qui offrent le service de microblogage, les donn ees tant par d trouv ees dans ces outils e efaut publiques. ` Les microblogs permettent aux utilisateurs de publier des messages courts de 140 a 200 caract` eres qui peuvent inclure des hyperliens et divers types de multim edias (images, vid eos, audio). Le style d ecriture utilis e dans les microblogs, est souvent non standard. Les utilisateurs commettent souvent des erreurs comme les fautes dorthographe et de tir grammaire, des abr eviations ou des mots e es. Notre th` ese est men ee dans le contexte dune collaboration entre notre laboratoire (RALI 3 ) et lentreprise MediaBadger4 . MediaBadger est la seule entreprise de son genre au Canada. Elle a d evelopp e une technologie exclusive qui lui permet de recueillir et
1 www.faceboo.com 2 www.twitter.com 3 rali.iro.umontreal.ca 4 http://www.mediabadger.com/

x danalyser une vaste quantit e dinformations provenant de sources en ligne, y compris les m edias sociaux, bases de donn ees publiques et le web. Leur syst` eme est limit e aux informations en anglais. Notre objectif est de d evelopper un syst` eme automatique pour lanalyse des opinions et de d etecter les pr eoccupations des utilisateurs et les tendances ` partir des informations publi a ees sur des microblogs. Dans notre travail, nous avons galement en franc lintention danalyser des textes e ais et en arabe. Nous avons collect e des tweets portant sur la Tunisie que nous avons analys es. ` analyser les opinions trouv Puisque notre objectif consiste a ees sur le web, nous montrons dans le premier chapitre les principaux types de recherche an de r esoudre cette t ache pour des textes assez longs. Dans le deuxi` eme chapitre, nous pr esentons la diff erence entre les blogs traditionnels ` des et les microblogs, la plate-forme Twitter, les principaux travaux qui sint eressent a donn ees provenant des microblogs. Le troisi` eme chapitre pr esente notre corpus avec quelques statistiques. Nous terminerons par une pr esentation de notre plan de travail.

CHAPITRE 1 FOUILLE DOPINIONS Avec lapparition du web 2, nous trouvons plusieurs plates-formes qui permettent aux internautes d echanger leurs id ees et dexprimer leurs opinions sur un sujet particulier : un produit commercial (ordinateur portable, une voiture. . .), un service (agence v de voyage, fournisseur de services internet. . .) ou bien un e enement ( election, nouvelle norme quantit loi. . .). Ce comportement dinternaute entra ne une accumulation dune e e dinformations non structur ees. Lanalyse de ces informations est une t ache indispensable vu limportance et lutilit e des avis et des opinions pour un consommateur, une entreprise ou un gouvernement. Avant lapparition du web, si une personne voulait acheter un produit, utiliser un service, ou d ecider pour qui voter, elle cherchait les opinions et les avis dautres personnes pouvant laider dans son choix. Avec le web, pour conna tre les avis des autres, une des ` faire est de se connecter au web et de consulter les commentaires et premi` eres choses a galement les opinions publi ees par les internautes sur ce sujet. Ces commentaires sont e int eressants pour une entreprise qui veut conna tre la r eputation de ses produits et la com` celle des produits des concurrents. Dans le domaine de la politique, le plus grand parer a souci des gouvernements et des politiciens est de conna tre ce que les citoyens pensent de la politique adopt ee par le gouvernement, leurs avis sur les diff erents partis poli` une d tiques, ou leurs points de vue par rapport a ecision prise par le gouvernement. Pour d ecouvrir les opinions des autres, il est difcile de lire tous les commentaires qui portent sur un sujet vu la grande quantit e trouv ee. Cette difcult e a encourag e lapparition de plusieurs travaux de recherche dont lobjectif est danalyser les opinions exprim ees par des internautes.

2 1.1 Pr etraitement et nettoyage Lun des principaux risques de prendre de linformation sur le web est le fait quelle crite dune mani` nest pas toujours able ou quelle est e ere incompr ehensible. Pour am eliorer les performances de lanalyse des textes porteurs dopinions, un pr etraitement tape peuvent et nettoyage de ces textes sont toujours recommand es. Les t aches de cette e tre : e limination des doublons, correction orthographique. . . e ` promouvoir et Certains travaux se concentrent sur la d etection des spams qui visent a ` la r favoriser un sujet par rapport aux autres, ou m eme de nuire a eputation dun tel sujet. Par exemple, dans une p eriode d election on peut trouver des gens qui publient dune trange des avis qui vantent un parti particulier. Ce type dopinions cherche a ` fac on e ` retourner une information fausse aux tromper les syst` emes danalyse dopinions et a internautes. Dans notre travail, nous supposons que les textes re` etent lopinion de vraies per t tape pr sonnes, ce type de ltrage ayant d ej` ae e appliqu e dans une e ealable. 1.2 Classication des sentiments Pour avoir une id ee concernant un sujet (produit, service,...) la premi` ere question ` cette question a ` partir des commenquon se pose est : est-il est bon ?. Pour r epondre a taires publi es par les internautes, il est important de les classier selon le type global de lopinion exprim ee : favorable, d efavorable ou neutre. Plusieurs travaux (Yu et Hatzivassiloglou [2003], Wiebe et al. [2001] et Dave et al. [2003]) ont montr e quil faut sassurer que le texte exprime une opinion avant de d eterminer son type global. ` On parle souvent de polarit e de texte dans ces cas : polarit e positive correspondant a ` d tudes, on utilise dautres une opinion favorable et n egative a efavorable. Pour certaines e classes telles que excellent, tr` es bien, bien, moyen ou neutre Lobjectif de la classication des sentiments est de donner rapidement une impres` chaque phrase ou paragraphe sion du ton dun texte. Cette classication est appliqu ee a ` la classication des textes qui permet dannoter les dans le texte. Celle-ci ressemble a

3 textes avec des classes (sport, politique, education. . .). Pour chaque classe C, on trouve des termes importants consid er es comme des indices pour C (Liu [2007]) . Par exemple, les termes loi, gouvernement, pr esident, justice. . . sont des indicatifs du sujet politique. Dans la classication des sentiments les termes qui indiquent un sentiment (n egatif ou positif) sont importants : like, dislike, hate,good, excellent. . . t Dans la litt erature deux types de m ethodes ont e e utilis ees pour trouver la polarit e dune opinion : m ethodes par apprentissage supervis e et par orientation s emantique. 1.2.1 M ethodes par apprentissage supervis e

tape de cette approche n La premi` ere e ecessite une intervention manuelle pour anno tape ter les donn ees dapprentissage, ces donn ees sont un ensemble dopinions. Cette e ` lire le commentaire (ou lopinion) et a ` affecter une classe (positive, n consiste a egative ou neutre), cette t ache est g en eralement effectu ee par un ou plusieurs experts. ` construire un classicateur appris a ` partir des donn L etape suivante consiste a ees ` l dapprentissage annot ees a etape pr ec edente. Ce classicateur permet de d eterminer la classe (la polarit e) dun nouveau commentaire (ou opinion). Pour lapprentissage, il faut s electionner un ensemble de caract eristiques utilis e dans la classication de texte, permettant de d ecrire les donn ees dapprentissage avant de tre : ensemble de mots, position construire le classicateur. Ces caract eristiques peuvent e de certains mots dans le texte ou des ponctuations. Chaque document d sera pr esent e comme : d = (n1 (d), n2 (d), . . . , nm (d)). O` u ni (d) est le nombre de fois que la caract eristique ci appara t dans le document d. An de construire un classicateur performant, on peut modier les caract eristiques jusqu` a trouver les caract eristiques qui donnent le meilleur classicateur. l Les e ements indispensables dans cette approche sont : les classes, les donn ees dapprentissage annot ees, le classicateur construit. Cette approche reprend les m ethodes dapprentissage utilis ees souvent dans la classication de textes, comme les r eseaux bay esiens na fs, machines a ` vecteurs de support. . . Pang et al. [2002] ont appliqu e cette approche pour des commentaires sur des lms.

4 Les commentaires sont obtenus de larchive de Internet Movie Database (IMDb)1 . 1.2.2 M ethodes par orientation s emantique

` lapproche par apprentissage supervis Contrairement a e, ces m ethodes nutilisent pas tudes bas un ensemble dapprentissage. La plupart des e ees sur cette approche consid` erent que les adjectifs et les adverbes sont de bons indicateurs pour d eterminer la polarit e dune opinion. Turney [2002] a propos e une m ethode permettant de pr edire la polarit e dune opi tait d nion, celle-ci e etermin ee par lorientation s emantique des phrases qui contiennent un adjectif ou un adverbe. Lorientation s emantique dune phrase est n egative si elle a un caract` ere d efavorable (very bad), et positive pour un caract` ere favorable (is good). Cette tapes : m ethode comporte trois e ` chaque mot sa cat 1. Attribuer a egorie grammaticale (Nom, Verbe, Adjectif,. . . ). Puis gale a ` 2 selon des r` s electionner les syntagmes de taille e egles pr ed enies (tableau 1.I). ` partir dune opinion Tableau 1.I R` egles pour extraire les syntagmes de taille 2 a premier terme deuxi` eme terme troisi` eme terme (qui ne tre) doit pas e 1. Adjectif Nom Rien tre Nom 2. Adverbe, Adverbe com- Adjectif ne doit pas e paratif ou Adverbe superlatif tre Nom 3. Adjectif Adjectif ne doit pas e tre Nom 4. Nom Adjectif ne doit pas e 5. Adverbe, Adverbe com- Verbe a e, Rien ` linnitif, au pass paratif ou Adverbe superla- au pass e compos e ou partitif cipe pr esent

2. On calcule une mesure dorientation s emantique (OS) inspir ee de la mesure PMI (Pointwise Mutual Information) qui est utilis ee pour calculer le degr e de similarit e
1 http://reviews.imdb.com/Reviews/

5 entre deux termes. PMI (terme1, terme2) = log( P(terme1&terme2) ) P(terme1)P(terme2)

P(terme1&terme2) est la probabilit e que terme1 et terme2 apparaissent ensemble dans un m eme document. P(terme2)P(terme2) est la probabilit e que terme1 et terme2 apparaissent ensemble, sils sont statistiquement ind ependants. Le ratio entre P(terme1&terme2) et P(terme1)P(terme2) mesure le degr e de d ependance entre terme1 et terme2. Pour chaque syntagme s, on calcule son OS. Les termes excellent et poor sont utilis es parce quils repr esentent respectivement des bons indicateurs, des caract` eres favorable et d efavorable. OS(s) = log( hits(s NEAR excellent )hits( poor) ) hits(s NEAR poor)hits(excellent )

Do` u hits(poor) est le nombre de documents qui contiennent poor, hits(s NEAR excellent) (hits(s NEAR poor)) contient le nombre de documents o` u s et excellent (poor) cooccurrent. Turney a utilis e le moteur de recherche AltaVista2 dans ses exp eriences. 3. La polarit e de lopinion est d etermin ee par la moyenne des orientations s emantiques des syntagmes s electionn es (tableau 1.I). Si la valeur obtenue est positive, la polarit e est positive sinon elle est n egative. Dautres travaux utilisent des dictionnaires (e.g. general inquirer3 ) pour d eterminer lorientation s emantique des termes pr esents dans lopinion. Pour ce faire, on compare le ` orientation s ` orientanombre de termes a emantique positive avec le nombre de termes a tion s emantique n egative. Si le nombre de positifs est plus grand, la polarit e de lopinion est consid er ee positive et vice versa.
2 www.altavista.com 3 http://www.wjh.harvard.edu/

inquirer/

6 1.3 R esum e automatique des opinions Il est int eressant de conna tre la polarit e dune opinion, mais il est souvent souhai valuations ou les avis : Pourquoi un internaute table dobtenir plus de d etails sur les e donne-t-il un avis favorable ou d efavorable sur un sujet ? Une opinion d efavorable nimplique pas toujours que linternaute soit totalement insatisfait. Une description d etaill ee des opinions est alors indispensable et il faut construire un texte qui r esume les avis des internautes pour chaque caract eristique. Les principaux travaux qui sint eressent au r esum e automatique des opinions poursuivent la d emarche suivante pour obtenir une description d etaill ee pour les opinions qui portent sur un produit P : 1. Identier les caract eristiques C {c0 , c1 ,c2 , ...} du produit P (Hu et Liu [2004], Popescu et Etzioni [2005]). 2. Extraire les phrases qui contiennent une opinion sur une caract eristique ci (Yu et Hatzivassiloglou [2003], Dave et al. [2003], Wiebe et al. [2001]) . 3. Trouver la polarit e de chaque phrase extraite (Turney [2002], Pang et al. [2002]). Lapproche de Hu et Liu [2004] produit des r esum es pour des commentaires qui num` portent sur un produit sp ecique. Le syst` eme e ere les caract eristiques du produit avec le nombre des phrases positives et n egatives pour chaque caract eristique. La gure 1.1 montre un exemple de r esum e pour des commentaires. Figure 1.1 Exemple de r esum e (Figure1 Hu et Liu [2004]

7 Liu et al. [2005] ont propos e un syst` eme qui produit des r esum es sous forme graphique pour la comparaison entre des produits comp etitifs. Dun coup dil, lutilisateur peut voir clairement les forces et les faiblesses de chaque produit. La gure 1.2 montre une comparaison graphique entre deux appareils photo. Chaque barre dans la gure montre le pourcentage de commentaires (sur une caract eristique dune cam era) positifs et n egatifs. Figure 1.2 Comparaison graphique entre deux appareils photo (Figure1 Liu et al. [2005])

La hauteur de la barre repr esente le nombre de phrases positif (ou n egatives) pour une caract eristique c, not ee par L+ (ou L ), est calcul ee comme suit :
+ Li ,j =

Ni+ ,j Max(M + , M )

Li ,j =

Ni ,j Max(M + , M )

O` u Ni+ egatives) pour une caract eristique , j (Ni, j ) est le nombre de phrases positives (n

j dun produit i ; M + (M ) est le nombre maximal des phrases positives (n egatives) de toutes les caract eristiques du produit i ; Max(M + , M ) est le maximum entre M + et M . 1.4 Conclusion Dans ce chapitre, nous avons pr esent e la revue de litt erature pour lanalyse des opinions. Ceci comprend les t aches de r esum e de textes contenant dopinions et la classication des sentiments. Nous avons distingu e deux types dapproches pour la classication

8 des sentiments qui nous int eressent dans notre travail pour d eterminer les attitudes des utilisateurs pour diff erents sujets. Les travaux pr esent es dans ce chapitre traitent des textes assez longs, dans le chapitre suivant nous montrerons les principaux travaux de recherche qui sint eressent aux textes courts.

CHAPITRE 2 ANALYSE DES TEXTES COURTS Dans le chapitre pr ec edent, nous avons pr esent e lanalyse de textes dopinion assez longs. Dans ce chapitre nous pr esentons la diff erence entre les blogs et les microblogs, la plate-forme Twitter, le type de donn ees que nous allons utiliser et les principaux travaux de recherche qui sint eressent aux textes courts. Lanalyse des donn ees de r eseaux sociaux est devenue une tendance majeure dans le domaine de traitement de la langue naturelle. ` lanalyse des Ainsi, les grandes communaut es de TALN ont accord e sa juste part a donn ees de microblogs. Dans les derni` eres ann ees, les grandes conf erences (EACL1 , des workshops pour lanalyse des donn NAACL2 ) ont cr ee ees dans les r eseaux sociaux. t es telle que : International Dans le m eme contexte, beaucoup de conf erences ont e e cr ee Conference on Web-blogs and Social Media (ICWSM) par AAAI et Advances in Social Network Analysis and Mining (ASONAM) . 2.1 Blogs et Microblogs Un blog est un site web, sous forme dun journal, o` u une ou plusieurs personnes v appel ees blogueurs publient leurs opinions et leurs analyses sur un e enement actuel ou dautres questions. Le texte publi e peut contenir des liens hypertextes et plusieurs types de multim edias (images, vid eos, audio). Les blogs fournissent une forme dinteraction en ligne o` u les visiteurs peuvent lire le contenu du blog, laisser leurs commentaires, lais` des discussions avec les ser des liens vers des informations suppl ementaires, participer a blogueurs et avec dautres visiteurs. La discussion dans les blogs se fait dune mani` ere asynchrone (comme les courriels). Plusieurs plateformes de cr eation des blogs (Blog1 http://eacl2012.org/home/index.html 2 http://www.naaclhlt2012.org/

10 ger3 , Skyrock Blog4 ) permettent une diffusion simple et facile pour les blogueurs et les invit es. Plusieurs travaux int eress es par lanalyse dopinions ont eu recours aux blogs pour collecter les donn ees. tre pertinent et bien r Un article doit e edig e pour attirer lattention des visiteurs. Cela implique quun article demande du temps pour le pr eparer. Pour cette raison, la plu tre passifs, ils pr part des internautes aiment mieux e ef` erent lire les articles des autres ou laisser des commentaires, que de cr eer des blogs et diffuser leurs propres articles. G en eralement, les informations publi ees dans les blogs ne sont pas en temps r eel. merg Une nouvelle tendance a e e est celle du microblogage. Cest un d eriv e du blog traditionnel qui permet aux utilisateurs de publier des messages courts (entre 140 et 200 galement plusieurs types mulcaract` eres au maximum) sans titre, qui peut contenir e tim edias. tait de permettre aux internautes dindiquer aux autres ce quils Au d ebut, lid ee e sont en train de faire. Cependant, les choses se sont d evelopp ees vite et les internautes ont prot e de ce service pour exprimer leurs opinions sur diff erents sujets, diffuser des informations et faire des discussions. Contrairement aux blogs la plupart des internautes sont actifs, car ils nont plus besoin de r ediger de longs textes. Le style d ecriture, employ e dans les microblogs, est parfois incompr ehensible par les non-initi es ou par les gens qui ne font pas partie de la conversation. Les utilisateurs commettent fr equemment des fautes dorthographe et de grammaire, utilisent des tirent des mots, et utilisent donomatop abr eviations, e ees (rire = ha ha) et des n eographies (qui =ki). Plusieurs plateformes offrent le service de microbloggage tels que : Twitter5 , Tumblr6 , Jaiku7 , Plurk8 , Identi.ca9 . tait utilis Au d epart, le service de microblogage e e notamment par les jeunes, mais pr esentement tous les groupes d age utilisent ce service. Les microblogs (Plates-formes
3 www.blogger.com/ 4 http://www.skyrock.com/blog/ 5 https://twitter.com/ 6 https://www.tumblr.com/ 7 http://www.jaiku.com/ 8 http://www.plurk.com/ 9 http://www.identi.ca/

11 pour le microbloagage) sont devenus dexcellents outils pour des entreprises pour faire des publicit es sur leurs produits et services ou pour les c el ebrit es pour communiquer avec leurs fans. Les microblogs jouent aussi le r ole dun r eseau social, parce que les utilisateurs sont en mesure de faire des relations avec dautres. On peut trouver deux types de relation dans les microblogs : Asym etriques : Un utilisateur A suit un utilisateur B sans que B suive A, cela implique que A peut consulter (sur son tableau de bord) les messages de B. Par contre, B ne peut pas consulter ceux de A. Sym etrique : Un utilisateur A suit un utilisateur B et B suit A, cela implique que chacun peut consulter (sur son tableau de bord) les messages de lautre. ` sinscrire a ` des microblogs : facilit Plusieurs raisons ont encourag e les internautes a e change did dutilisation, contact avec les amis, information en temps r eel ou e ees avec les autres. tudes les plus r Les e ecentes, portant sur lanalyse des opinions et des sentiments, ont choisi les microblogs comme source des donn ees vu le nombre important des messages publi es par jour. Les messages peuvent contenir beaucoup de sentiments et d emotions parce que la majorit e des messages sont publi es dune fac on spontan ee. 2.2 2.2.1 Twitter Pr esentation

Twitter est actuellement la plate-forme de microbloggage la plus populaire. Son pre tait Que faites-vous? n mier slogan e eanmoins lutilisation a pris une autre piste changent des avis et des informations, le slogan devient Quoi de o` u les utilisateurs e neuf ?. Plusieurs c el ebrit es utilisent Twitter, on y trouve m eme des chefs dEtat. ` 140 Twitter limite le nombre de caract` eres utilis es dans un message, appel e tweet, a galement des liens hypertextes. Les utilisateurs peuvent recevoir et et qui peut contenir e envoyer des messages via le service SMS.

12 Selon les derniers chiffres 10 Twitter a plus que 475 millions utilisateurs inscrits. 175 millions de tweets envoy es chaque jour. Le tableau 2.I illustre les 5 pays qui ont le plus grand nombre dutilisateurs. Tableau 2.I Les 5 pays qui ont le plus grand nombre dutilisateurs. Pays Nombre dutilisateur (en million) Etats-Unis 107.0 Br esil 33.0 Japon 30.0 Royaume-Uni 23.8 Indon esie 19.5
10 http://www.jeffbullas.com/2012/04/23/48-significant-social-mediafacts-figures-and-statistics-plus-7-infographics/

13 2.2.2 Fonctionnalit es et caract eristiques

Figure 2.1 Page daccueil Twitter avec des zones dinformations : 1- champ de texte o` u lutilisateur doit saisir son tweet ; 2- nombre dabonnements et dabonn es de ` suivre ; 4- le l de tweets des abonneExampleOfUsr ; 3- suggestion dutilisateurs a ments de ExampleOfUsr ; 5- un tweet de lutilisateur @jeffbullas ; 6- localisation du tweet.

1 2 6 4 3

` ses membres la posLes tweets sont, par d efaut, publics. Cependant, Twitter offre a ` voir leurs tweets. La plupart des sibilit e de limiter la liste des utilisateurs autoris es a relations effectu ees entre les utilisateurs sont asym etriques. Selon Kwak et al. [2010], seulement 22% des relations dans Twitter sont sym etriques. Les utilisateurs sont en mesure denvoyer et de recevoir des messages priv es. Cette fonctionnalit e est autoris ee, seulement, si la relation entre lexp editeur et le r ecepteur est sym etrique.

14 crits par les abonnements safche. Les abonUne fois connect e, un l de tweets e nements sont les utilisateurs que lon a choisis de suivre. La gure 2.1 pr esente la page ` ses membres de : daccueil de lutilisateur ExampleOfUsr. Twitter permet a ` un tweet ou de le retweeter (zone dinformations 5). cest-` R epondre a a-dire renvoyer un tweet sans changer son contenu. G eolocaliser les tweets envoy es (zone dinformations 6) : cette option permet de d enir lendroit do` u est envoy e un tweet. lections tunisiennes Le tableau 2.II pr esente un exemple de tweets (qui portent sur les e en 2011). Conventions d ecriture : tre pr Le nom dun utilisateur est un identiant qui doit e ec ed e toujours par @. Exemple : @ExampleOfUsr. tiqueter les sujets dont on parle. Un sujet est pr Dans un tweet on peut e ec ed e par un hashtag #. Pour le tweet :jai vot e, ta7ya tounes #TnElec #Vote, les sujets sont TnElec et Vote. En cliquant sur #TnElec la liste des tweets quils ont comme sujet TnElec safche. ` un tweet de lutilisateur X commence toujours par @X. Une r eponse a Un retweet commence par RT @Y o` u Y est le titulaire du tweet. Pour mentionner un utilisateur dans un tweet il suft de taper son nom pr ec ed e par @.

15 Tableau 2.II Exemples de tweets Tweet Explications RT @Aida SAFI: La d emocratie cest que tu accept le Cest un retweet. Lauteur dorigine est r esultat du scrutin @Aida SAFI quel que soit le parti majoritaire #Tnelec #Tunisie Lauteur a inform e quil a d ej` a vot e. Les mots ta7ya et tounes, dans le jai vot e, ta7ya tounes deuxi` eme tweet, sont des n eographes des #TnElec #Vote mots arabes qui correspondent respective` vive et la Tunisie. ment a Lauteur a introduit #google et #tnelec comme sujets du tweet et a ins er e un lien http: #google #tnelec http: ` la //t.co/tnNdPZs8 qui acc` ede a //t.co/tnNdPZs8 lections page google.tn qui a f et e les e tunisiennes. @so9rat11 nous sommes ts Cest une r eponse au tweet de tunisiens et ns ns devons @so9rat11. ns=nous, q=qui, de respecter la loi q est ts =tous. au dessus de ts! #tnelec #Tunisie Quoi quil arrive, 1000 Lauteur a mentionn e lutilisateur mercis ` a @ISIETN et bravo @ISIETN, si est un n eographe de mot si Kamel Jandoubi #tnelec ` monsieur. arabe corresponde a #Tunisie Le texte arabe signie que la photo Le texte arabe signie que la photo de Ben http://t.co/2w4Ishy0 t Ali (pr esident tunisien d echu) a e e reexcellent !!! #tnelec publi ee dans La Goulette (ville tunisienne). Certains URLs quon veut publier sur Twitter sont trop longues et d epassent la taille permise pour un tweet. Pour cela, Twitter utilise un service de r eduction dURL qui rend la page accessible par linterm ediaire dune tr` es courte URL. Il existe plusieurs

16 par Twitter et qui est utilis services de r eduction tels que TinyURL11 , bitly12 et t.co (cr ee e seulement pour les URLs ins er ees dans les tweets). Par Exemple lURL http://www. iro.umontreal.ca/rubrique.php3?id_rubrique=13 devenue http:// t.co/NrUGjAtx par le service t.co. Un service g en` ere toujours la m eme URL pour la m eme entr ee. 2.3 Analyse des sentiments Comme nous lavons d eni dans le chapitre pr ec edent (section 1.2), cette t ache ` d consiste a eterminer la classe (positive, n egative, neutre) de textes assez longs. Dans cette section nous pr esentons les principaux travaux traitant des textes provenant de microblogs. 2.3.1 Go et al. [2009]

Go et al. [2009] ont d evelopp e une application qui est disponible en ligne intitul ee : twitter sentiment13 . Cette application permet de d eterminer les polarit es des messages ` la requ publi es sur Twitter et qui r epondent a ete envoy ee par lutilisateur. Dans ce travail, les auteurs ont consid er e seulement deux classes (positive et n egative). Les m ethodes utilis ees pour d eterminer la polarit e des messages sont des m ethodes bas ees sur lapprentissage supervis e : m ethode bay esienne na ve, m ethode dentropie maximale, les machines a e au cha` vecteurs de support. Comme nous lavons mentionn pitre pr ec edent, les m ethodes par apprentissage supervis e utilisent un ensemble dap motic prentissage annot e a priori. Pour le construire, les auteurs se sont bas es sur les e ones motic pour d eterminer la polarit e dun message. Les e ones, appel es aussi smilies, sont utilis es souvent dans les messages envoy es sur les microblogs, ils sont employ es pour motions (heureux, triste, nerveux. . .). exprimer des e motic Les auteurs ont classi e le message comme positif sil contient un e one posi motic tif :), :p, ;) et comme n egatif sil contient un e one n egatif :(, :s . Un tweet
11 tinyurl.com 12 bit.ly 13 http://twittersentiment.appspot.com/

17 motic motic ` la fois est supprim qui contient un e one positif et un e one n egatif a e de len galement supprim semble dapprentissage. Les tweets dupliqu es et les retweets sont e es. Une autre m ethode pour d eterminer la polarit e dun message est bas ee sur un ensemble14 de termes positifs (quite amazing, thks, so great, highly positive, ;-). . .) et n egatifs (FTL, in a bad way, doesnt recommend, upset, :(. . .) . La polarit e est d etermin ee par la diff erence entre le nombre de termes positifs et n egatifs, pr esents dans le message, si les termes positifs sont plus nombreux que les termes n egatifs la polarit e sera positive et vice versa. t Avant la phase de la classication, un pr etraitement a e e effectu e sur les donn ees dapprentissage dont le but est de r eduire lespace de features : Remplacer les noms dutilisateur dans le message par une seule expression : USERNAME. Exemple : le message @Marwen tu es optimiste ! #tnelec sera remplac e par USERNAME tu es optimiste ! #tnelec. Remplacer tous le(s) URL(s) par lexpression : URL. Par exemple : Radio-Canada d ement avoir publi e La m` ere de St ephen Harper renie son fils: http://is.gd/ioeg2p Original: http://bit.ly/l9a3mI sera Radio-Canada d ement avoir publi e La m` ere de St ephen Harper renie son fils: URL Original:URL. Supprimer les lettres r ep et ees trois fois ou plus par deux. Par exemple : i am very huuuuungry sera i am very huungry tant toujours subjectifs i.e. exprimant des Ce travail consid` ere les tweets comme e sentiments. Un tweet, qui ne contient aucun sentiment, va avoir une polarit e positive ou tre consid n egative. Alors que ce tweet doit e er e comme objectif et ne peut pas avoir une polarit e. Ce travail propose une bonne id ee qui permet d eviter lannotation manuelle de lensemble dapprentissage.
14 http://twitrratr.com/

18 2.3.2 Barbosa et Feng [2010]

tapes ont e t Deux e e utilis ees par Barbosa et Feng [2010] pour classier les tweets : 1. Classication de subjectivit e : d eterminer si le tweet est subjectif ou non. 2. Classication de polarit e : d eterminer, parmi les tweets subjectifs, la polarit e de chacun. Les m ethodes utilis ees an de r ealiser ces t aches, sont bas ees sur lapprentissage ` 3 supervis e. Pour collecter les donn ees dapprentissage, les auteurs ont eu recours a applications qui analysent les sentiments en utilisant Twitter :Twendz15 , TweetFeel16 , Twitter Sentiment [2.3.1]. Ces applications retournent des tweets, qui contiennent le mot cl e saisi par lutilisateur, avec leurs classes. Pour recueillir des tweets g en eriques (qui portent sur diff erents sujets), les auteurs ont utilis e le mot cl e of, un mot tr` es fr equent en anglais qui permet de r ecup erer beaucoup de tweets. Avant la classication, les auteurs ont effectu e un ltrage : Suppression des tweets qui nont pas la m eme classe par les diff erentes applications. Ne conserver quun tweet par utilisateur ayant envoy e plusieurs tweets. Les auteurs ont constat e que la plupart de tweets, envoy es par des personnes qui publient fr equemment, sont des publicit es ou des informations de recrutement. Elimination de lensemble dapprentissage (objectif) des mots fortement subjectifs. Exemple : awesome Le but de cette t ache est de diminuer limportance de mots subjectifs pour classier les tweets objectifs. t Deux ensembles de features ont e e exploit es pour repr esenter les tweets : crit : La fac on dont le tweet est e Sil est un retweet.
15 http://twendz.waggeneredstrom.com/ 16 http://www.tweetfeel.com/

19 Sil est une r eponse. Les liens : si le tweet contient un lien ou non. motic Sil contient : des points dexclamations et/ou dinterrogations, des e ones ou des hashtags. Meta-information sur les mots composant le tweet : Leur classe grammaticale : adjectif, verbe. . . Leur degr e de subjectivit e : si un mot est fortement subjectif ou non. Leur polarit e ` laide dune base lexicale17 . La polarit e et le degr e de subjectivit e des mots sont annot es a Les auteurs ont constat e que la polarit e des mots est le feature le plus important pour d eterminer la polarit e des tweets subjectifs. Cependant, la polarit e de certains mots peut changer selon le contexte du tweet. Pour cela, les auteurs ont vu quil nest pas efcace ` dutiliser la polarit e fournie par la base lexicale. Ainsi, ils ont attribu e une probabilit ea ` la fois dans la base lexicale et dans lensemble dapprenla polarit e dun mot pr esent a tissage. la probabilit e dune polarit e dun mot m est d etermin ee comme suit : polarite pos (m) = nombre( positive, m) nombre(m)

Do` u polarite pos (m) est la probabilit e que la polarit e du m est positive, nombre(positive,m) est le nombre de fois o` u m est pr esent dans un tweet positif, nombre(m) est le nombre doccurrences de m dans lensemble dapprentissage. Si polarite pos (m) >0,5 la polarit e sera consid er ee positive, n egative sinon. ` celle de Go et al. Barbosa et Feng [2010] ont propos e une autre m ethode, diff erente a [2009] (section 2.3.1), pour la construction de lensemble dapprentissage. Contraire` lapproche de Go et al. [2009], les auteurs ont distingu ment a e entre les tweets objectifs galement montr l et les tweets subjectifs. Ils ont e e limportance dautres e ements dans la classication de sentiment tels que : les retweets, les hashtags. . .
17 http://www.cs.pitt.edu/mpqa/

20 2.3.3 Jiang et al. [2011]

Comme dans le travail pr ec edent, Jiang et al. [2011] ont utilis e deux classieurs : un classieur de subjectivit e et un classieur de polarit e pour les tweets classi es comme subjectifs. Au d ebut, les auteurs ont fait des t aches de pr etraitement des donn ees : D enir la classe grammaticale des mots Racinisation des mots : transformer chaque mot par sa racine (la racine des mots traveling et traveled est travel). Normalisation des mots : correction des fautes dorthographe. Lun des probl` emes rencontr es pour la classication des tweets est quils sont g en eralement ambigus et courts, ils ne contiennent pas assez dinformations. Il est difcile de d eterminer la classe du tweet First game: Lakers!, qui contient seulement trois mots. En plus, le tweet People everywhere love Windows & vista. Bill Gates tre classi qui nexprime pas aucun sentiment sur Bill Gates, mais il peut e e comme positifs par les m ethodes de Go et al. [2009] et Barbosa et Feng [2010] vu la pr esence du terme Love. Les auteurs ont vu quil faut s electionner seulement les termes qui portent sur le sujet ` classier. cible et quil ne suft pas consid erer que le tweet a Pour r esoudre le premier probl` eme les auteurs ont d ecid e de : S electionner les syntagmes nominaux incluant le sujet cible. Si le sujet est Microsoft, Microsoft technology est un syntagme nominal. S electionner les pronoms et les groupes nominaux qui r ef` erent au sujet. Dans le tweet Oh, Jon Stewart. How I love you so., You sera s electionn e ` Jon Stewart (le sujet). parce quil r ef` ere a S electionner les noms qui sont fortement associ es au sujet, cest-` a-dire qui cooc` laide de PMI current souvent avec le sujet. Le degr e dassociation est calcul ea [1.2.2].

21 S electionner les features, qui ont une relation avec le sujet ou lun de ses attributs (les termes s electionn es auparavant), en se basant sur un ensemble de r` egles. Le tableau 2.III pr esente deux exemples de r` egles.

Tableau 2.III Exemple de r` egles pour la s election des features Sujet R` egle Exemple Feature iPhone Si le mot m est un verbe transi- I love iPhone love arg2 tif et le sujet (ou lun de ses attributs) est son objet alors le feature m arg2 est g en er e John Si le mot m est un adjectif ou John did that. great arg un verbe intransitif se trouve seul Great! dans une phrase et le sujet (ou lun de ses attributs) appara t dans la phrase pr ec edente alors le feature en er e m arg est g Les features utilis es par Barbosa et Freng (section 2.3.2) sont aussi employ es dans ce travail. ` ne pas consid ` classiPour le deuxi` eme point qui consiste a erer seulement le tweet a er, les auteurs ont envisag e d etudier les polarit es de ses voisins (les tweets qui ont une relation avec lui). t tudi Dans ce contexte trois types de relation entre tweets ont e ee es : Les retweets. Les tweets envoy es par le m eme utilisateur et qui portent sur le sujet. ` ou r ` classier. Tweets r epondant a epondus par le tweet a ` ces relations, les tweets qui portent sur le m tre pr Suite a eme sujet peuvent e esent es dans ` une classe sera calcul un graphe G. La probabilit e quun tweet tw appartienne a ee de la fac on suivante : p(c| , G) = p(c| ) p(c|N (tw)) p(N (tw))

N (tw)

22 ` laquelle tw peut appartenir, est le Do` u c est la classe (neutre, positive, n egative) a ` la classe c sachant son contenu de tw. p(c| ) est la probabilit e que tw appartienne a ` tw. contenu . N(tw) est lensemble de polarit es attribu ees aux tweets connect es a Initialement, ils ont calcul e pour chaque tweet les probabilit es dappartenance aux diff erentes classes. Par la suite, ils ont appliqu e la m ethode de relaxation qui permet ` classier en tenant compte des dajuster it erativement les probabilit es de chaque tweet a ` la n des it probabilit es de ses voisins. A erations, la classe qui a la plus grande valeur de p(c| , G) sera consid er ee. Cet article a pris en consid eration la taille (g en eralement courte) et lambigu t e de texte. Les auteurs ont montr e que ces facteurs peuvent inuencer sur la classication dun tweet. Ils ont prouv e que la relation entre les tweets peut r esoudre ces probl` emes et am eliorer lexactitude de la classication. 2.3.4 Tan et al. [2011]

Les auteurs ont consid er e que les utilisateurs qui sont en relation sont plus susceptibles davoir le m eme sentiment. Les relations entre les utilisateurs sont repr esent ees dans un graphe do` u chaque utilisateur est connect e aux utilisateurs qui sont en relation tudi avec lui. Les auteurs ont e e quatre types de graphe : Directed to-follow graph : utilisateur ui suit u j par contre linverse nest pas n ecessaire. Mutual t-follow graph : utilisateur ui suit u j et vice versa. Directed @ graph : utilisateur ui a mentionn e u j par contre linverse nest pas n ecessaire. Mutual @ graph : utilisateur ui a mentionn e u j et vice versa. ` d La m ethode propos ee sert a eterminer la polarit e de sentiment de lutilisateur pour un sujet et non pas la polarit e dun tweet. Lid ee est de repr esenter les utilisateurs qui ont publi e des tweets portant sur un sujet s dans un graphe. Une portion de ces utilisa tiquettes des autres teurs sont d ej` a annot es manuellement, le but donc est de pr edire les e utilisateurs.

23 Dans la collecte des donn ees, les auteurs ont s electionn e les utilisateurs dont les opinions sont claires. Un utilisateur qui cite dans sa description anti-Obama and America FIRST ou son nom dutilisateur est against obama, son sentiment pour le sujet Obama est consid er e comme n egatif. Les auteurs ont effectu e des statistiques sur les donn ees collect ees pour estimer le degr e dexactitude de leur hypoth` ese (qui consid` ere que deux utilisateurs connect es partagent le m eme sentiment pour un sujet s) : tiquette sachant quils sont La probabilit e que deux utilisateurs aient la m eme e connect es (Figure 2.2). Figure 2.2 Probabilit e que deux utilisateurs aient le m eme sentiment sachant le type de leur relation (Figure1 Tan et al. [2011]). Laxe des abscisses : les sujets trait es ; laxe des ordonn ees : les probabilit es ; random : paires des utilisateurs choisies al eatoirement ; directed : existe au moins un lien deux utilisateurs ; mutual : deux utilisateurs sont reli es dans les deux sens.

Probabilit e que deux utilisateurs soient connect es, sachant quils ont le m eme sentiment (Figure 2.3). Le mod` ele utilis e pour d eterminer l etiquette dun utilisateur int` egre les informations de r eseau social (les relations entre les utilisateurs) et les tweets des utilisateurs. Les auteurs tiquette positive sont positifs. ont consid er e que les tweets, dun utilisateur avec une e Les auteurs dans ce travail ont trait e le probl` eme de la classication de sentiment pour les textes courts, tels que les tweets, avec une nouvelle mani` ere qui int` egre les

24 Figure 2.3 Probabilit e que deux utilisateurs soient connect es sachant quils ont le m eme sentiment (Figure2 Tan et al. [2011]). Laxe des abscisses : les sujets trait es ; laxe des ordonn ees : les probabilit es.

techniques danalyse des r eseaux sociaux et qui ne donne pas une grande importance au contenu de tweets. 2.4 enements Tweets vs Ev ` lanalyse des textes courts ne visent pas seulement Les r ecents qui sint eressent a ` d ` utiliser les messages pour d a eterminer la polarit e des messages, mais a etecter des v e enements ou de pr edire des r esultats. 2.4.1 Doan et al. [2011]

Doan et al. [2011] ont analys e les niveaux de sensibilisation et danxi et e des habitants v tats durgences de Tokyo pour les e enements de tremblements de terre, tsunami et les e nucl eaires au Japon en 2011. Trois grands tremblements de terre ont eu lieu : le premier a frapp e le 11 mars, le tait le 7 avril et le dernier e tait le 11 avril. second e Les auteurs ont utilis e plus que de 1,5 million tweets (48 870 en anglais et 1 611 753 en japonais) envoy es du Japon, pour la p eriode de 9 mars 2011 au 31 mai 2011. La Figure 2.4 pr esente la distribution des tweets par dates.

25 Figure 2.4 Nombre de tweets par date en anglais (` a gauche) et en japonais (` a droite) (Figure1 Doan et al. [2011]). 1- 31/03/2011 (premier tremblement de terre) ; 07/04/2011 (second tremblement de terre) ; 11/04/2011 (troisi` eme tremblement de terre)
1 1 2 3

t Trois ensembles de mots cl es ont e e utilis es pour d etecter parmi les tweets collect es pr ec edemment ceux qui portent sur la sensibilisation des gens aux tremblements de terre et tsunami, la radiation nucl eaire et/ou lanxi et e des habitants (voir Figure 2.5). Figure 2.5 Liste des mot cl es pour le tremblement de terre et tsunami, radiation et lanxi et e des habitants (tableau1 Doan et al. [2011])

v ` laide de la fr La pr esence dun e enement E dans les tweets est calcul ee a equence relative :

26

F (E ) =

nombre de tweets qui contiennent un mot cl e de l ev enement par jour nombre total de tweets par jour

La fr equence des mots cl es li es aux tremblements de terre est pr esent ee dans la gure 2.6. Dapr` es cette gure, on peut observer une forte corr elation entre le contenu des tweets galement que le premier tweet, qui porte sur le et la r ealit e. Les auteurs ont constat ee tait envoy premier tremblement de terre, e e seulement apr` es une minute et 25 secondes de l ev enement. ` diffuser leurs exp Ce travail montre que les internautes tiennent a eriences en temps r eel. Il a prouv e qu` a partir des donn ees trouv ees dans les microblogs, nous pouvons d egager les pr eoccupations et les int er ets des utilisateurs. Figure 2.6 Fr equence des mots cl es li es aux tremblements de terre (Figure2 Doan et al. [2011]).

2.4.2

Lampos et Cristianini [2010]

Lampos et Cristianini [2010] ont utilis e Twitter pour mesurer la pr evalence de la maladie H1N1 pour la population de la Grande-Bretagne. Les auteurs ont collect e des tweets chaque jour pendant 24 semaines : de 22/06/2009 jusqu` a 06/12/2009 qui proviennent de 5 r egions diff erentes dans la Grande-Bretagne. Par la suite, ils ont supprim e les mots vides (stop words) et ont appliqu e un algorithme de racinisation.

27 ` rechercher dans les tweets les sympt La m ethode propos ee dans ce travail consiste a omes ` la grippe H1N1 puis a ` retourner un score intitul li es a e Flu score. Les auteurs ont utilis e un ensemble M qui contient 41 indices (temperature, headache, sore throat. . .) pouvant e comme suit : exprimer la grippe. Le Flu score dun tweet t est calcul mi (t ) s(t ) =
i

` gale a ` 1 si mi appara Do` u mi est ieme indice et k est le nombre des indices, mi (t) est e t

dans le tweet et 0 sinon. Le Flu score des tweets dun jour j est calcul e comme suit : s(tq ) fj =
q

` Do` u tq est le qeme tweets au jour j et n le nombre de tweets dans j.

An d evaluer les r esultats obtenus, les auteurs ont d ecid e de les comparer avec les donn ees de lagence de protection de la sant e (APS). Le tableau 2.IV montre les coefcients de corr elation entre les deux r esultats dans les 5 r egions. Tableau 2.IV Coefcients de corr elation obtenus entre les Flu score obtenus et les donn ees de lAPS R egion coefcient de corr elation A 0.8471 B 0.8293 C 0.8438 D 0.8556 E 0.8178 Les auteurs ont essay e dam eliorer les coefcients de corr elation en attribuant un ` chaque indice. le calcul de Flu score est devenu comme suit : poids a wi mi (t ) sw (t ) =
i

k sw (tq )
q

fw, j =

28 Do` u wi est le poids de lindice mi . Dans le but dapprendre les poids de chaque indice, ils ont appliqu e la m ethode des moindres carr es entre les Flu scores (non pond er es) obtenus et les donn ees de lAPS. Ils ` une r ont utilis e comme ensemble dapprentissage les donn ees qui correspondent a egion, valu puis ils ont e e les poids inf er es sur les donn ees des autres r egions. Le tableau 2.V montre les r esultats obtenus. La valeur 0.9487 (en gras) est le coefcient de corr elation ees de lAPS pour la r egion D en employant les entre les Flu scores obtenus et les donn poids appris dans la r egion B. Tableau 2.V Coefcients de corr elation obtenus (par r egion) avec lutilisation des poids (tableau2 Lampos et Cristianini [2010]. L el ement (i, j) d esigne le coefcient de er e et les r esultats de APS sur la r egion j, apr` es avoir corr elation entre le Flu score pond entrain e les poids sur la r egion i Train/Test A B C D E Moyenne A 0.8389 0.9605 0.9539 0.9723 0.9314 B 0.7669 0.8913 0.9487 0.8896 0.8741 C 0.8532 0.702 0.8887 0.9445 0.8471 D 0.8929 0.9183 0.9388 0.9749 0.9312 E 0.9274 0.8307 0.9204 0.9749 0.9134 galement essay Ils ont e e de pr edire le coefcient de corr elation en utilisant les donn ees ` toutes les r qui correspondent a egions. Do` u les donn ees entre les semaines 28 et 41 sont les donn ees de test et le reste est utilis e pour apprendre les poids. Les auteurs ont tent e dextraire automatiquement les indices. Ils ont collect e un en` partir des articles dans le web li ` la grippe. semble de candidats obtenu a es a Lensemble contient 1560 candidats. Par la suite, ils ont appliqu e le m eme principe utilis e pr ec edemment (apprendre les poids). Le nombre de candidats retenus (leurs poids t >0) est 73. Une corr elation qui d epasse 95% a e e obtenue. Ce travail a conrm e les r esultats obtenus dans Doan et al. [2011] (section 2.4.1). Il ` partager leurs exp a prouv e que les utilisateurs tiennent a eriences via des plates-formes tel que Twitter. Lanalyse de ces exp eriences peut produire des r esultats qui re` etent des donn ees r eelles. v ` partir des tweets, Metzler et al. [2012] Dans le cadre de lextraction des e enement a

29 ` un e v ont d evelopper un framework qui un mot cl e li ea enement particulier est de re` cette requ tourner un r esum e qui r epond a ete. Le r esum e contient lheure de d ebut qui `e tre discut indique quand l ev enement a commenc ea e, une dur ee qui sp ecie combien t de temps l ev enement a e e discut e, et un petit nombre de messages post es pendant cet intervalle de temps. Dans le m eme contexte, Chakrabarti et Punera [2011] ont propos e ` partir des tweets (en temps r une m ethode qui permet de produire des r esum es a eel) qui v portent sur un e enement e. OConnor et al. [2010] ont montr e quil y a une forte corr elation entre des donn ees ` partir des tweets. Les r eelles provenant des sondages et lopinion publique mesur ee a lections am taient parmi les sujets analys e ericaines en 2008 e es. 2.5 Conclusion Dans ce chapitre, nous avons pr esent e les caract eristiques et les particularit es des microblogs, notamment Twitter. ` lanalyse des tweets. Ceux-ci nous Nous avons d ecrit des travaux qui sint eressent a ont apport e des id ees pour le traitement des textes avec une taille r eduite. La plupart crits en anglais. N de ces travaux traitent les tweets e eanmoins dans ce travail nous int eressons aux textes en franc ais et en arabe. Dans le chapitre suivant, nous montrerons le corpus que nous avons collect e et les statistiques que nous avons calcul ees.

CHAPITRE 3 EXPERIMENTATIONS Dans le chapitre pr ec edent, nous avons pr esent e les diff erences entre les microblogs galement pr et les blogs traditionnels. Nous avons e esent e quelques travaux qui analysent les donn ees provenant des microblogs, particuli` erement Twitter. La majorit e de ces tra crits en anglais. vaux traitent les tweets e Pour collecter des donn ees, nous avons impl ement e un programme Java qui a utilis e la biblioth` eque Twitter4j. Cette biblioth` eque permet dacc eder aux donn ees (tweets, les informations des utilisateurs. . .) Twitter via son interface de programmation, Twitter API. Nous pr esentons, dans ce chapitre, les corpus que nous avons collect es et les tudi exp erimentations que nous avons faites. Nous avons e e principalement le contenu des tweets (leurs tailles, les mots les plus fr equents, les mots connus par un lexique franc ais), les pr eoccupations des utilisateurs selon les hashtags utilis es, le comportement des utilisateurs. . . Dans nos exp erimentations, nous avons trait e les tweets qui portent sur la Tunisie crits avec des langues autres que langlais soit le franc et qui sont e ais et larabe (voir tableau 2.II). t ` cause de nos comp Nous avons e e amen es vers ce type de textes a etences qui nous permettent de comprendre le franc ais et larabe, particuli` erement la fac on d ecrire des Tunisiens qui comporte des abr eviations, des fautes de grammaire et dorthographe, des crits avec des alphabets franc mots arabes e ais et chiffres et diff erentes langues dans le m eme tweet. 3.1 Extraction des donn ees tape dans ce travail consistait a ` nous familiariser avec Twitter Notre premi` ere e API1 . Au d ebut, nous avons utilis e search API qui permet de retourner des tweets
1 https://dev.twitter.com/docs

31 ` une requ qui r epondent a ete q. Si q = apple store, search API2 retourne les galement ltrer les tweets qui contiennent les deux termes apple et store. On peut e r esultats selon plusieurs crit` eres tels que : crit. Langue des tweets sp ecier la langue avec laquelle le tweet est e crits entre une date since et une date until. La p eriode trouver les tweets e Type de r esultats sp ecier le type de tweets retourn es les plus populaires (les plus retweet es), les plus r ecents ou mixtes (m elange entre les plus populaires et les plus r ecents). La search API a des limites : Le nombre de tweets retourn es par requ ete ne peut pas d epasser 1500. taient envoy Il ne peut pas trouver les tweets qui e es il y a plus quune semaine. La gure 3.1 montre un exemple de tweet retourn e par search API. Figure 3.1 Tweet retourn e par search API (format Json). Ligne 1 : texte du tweet ; Ligne 4 : langue du text (identier par Twitter).
01 02 03 04 05 06 07 08 09 10 11 12 13 text='Ok, jeudi il fera 31 degr. #Tunisie #auMax', id=193873044287143936 toUserId=-1, toUser='null', fromUser='AnisKhez', fromUserId=121504252, isoLanguageCode='it', source='<a href="http://twitter.com/#!/download/iphone"rel="nofollow">Twitter for iPhone</a>', profileImageUrl='http://a0.twimg.com/profile_images 2008493088/229604_10150324090608888_573338887_7473932_392125_n_normal.jpg', createdAt=Sat Apr 21 21:25:10 EDT 2012, location='null', place=null, geoLocation=null, annotations=null, userMentionEntities=[], urlEntities=[], hashtagEntities=[HashtagEntityJSONImpl{start=28, end=36, text='Tunisie'}, HashtagEntityJSONImpl{start=37, end=43, text='auMax'}], mediaEntities=null

Par la suite, nous avons utilis e la streaming API3 qui permet dobtenir les tweets en temps r eel. On peut ltrer les tweets avec plusieurs (jusqu` a 400) mots-cl es. Exemple : elections Tunisiennes, Tunisie, Tunisia, Ennahdha, CPR, PCOT,
2 https://dev.twitter.com/docs/using-search 3 https://dev.twitter.com/docs/streaming-api

32 PDP, PDM. . .. O` u Ennahdha, CPR, PCOT, PDP et PDM sont des partis politiques tunisiens. galement ltrer les tweets selon leur positionnement g On peut e eographique. Par exemple, pour r ecup erer les tweets qui portent sur le mouvement Occupy Wall Street et qui proviennent de Montr eal, on doit utiliser des mots-cl es qui peuvent d ecrire ce ` Montr mouvement et les latitudes/longitudes qui correspondent a eal. Seuls les tweets s a ` laide de loption de g cr ee eolocalisation sont s electionn es. Cet API nous permet davoir un nombre plus important de tweets distincts, mais on ne peut pas sp ecier la langue de tweets. La gure 3.2 montre un extrait de tweet retourn e par streaming API. Le r esultat retourn e par la streaming API contient plus dinformations que celui retourn e par search API telles que : Les informations t de lutilisateur, nombre de fois que le tweet a e e retweet e. . .

33 Figure 3.2 Extrait dun tweet retourn e par streaming API (format Json). Ligne 1 : informations sur le tweet (date, identiant) ; Ligne 2 : le texte du tweet ; Ligne 21 jusqu` a ligne 32 : informations de lutilisateur.
01 createdAt=Sun Apr 22 00:38:15 EDT 2012, id=193921636305604609, 02 text='RT @tunistribune: Nouvelle publication Lex-dictateur Ben Ali ngocie son retour en Tunisie http://t.co/vWM3t4aM', 03 source='web' ... 05 inReplyToScreenName='null', geoLocation=null, 06 place=null, retweetCount=0, wasRetweetedByMe=false, ... 08 retweetedStatus=StatusJSONImpl{createdAt=Sat Apr 21 21:22:36 EDT 2012, id=193872400662802432, 09 text='Nouvelle publication Lex-dictateur Ben Ali ngocie son retour en Tunisie http://t.co/vWM3t4aM', 10 source='<a href="http://www.hootsuite.com" rel="nofollow">HootSuite</a>', 11 geoLocation=null, place=null, retweetCount=0, ... 13 user=UserJSONImpl{id=259789350, name='Tunis Tribune', screenName='tunistribune', 14 location='', description='', ...}} 16 userMentionEntities=[UserMentionEntityJSONImpl{start=3, end=16, name='Tunis Tribune', 17 screenName='tunistribune', id=259789350}], 18 urlEntities=[URLEntityJSONImpl{start=92, end=112, url=http://t.co/vWM3t4aM, 19 expandedURL=http://ow.ly/1iYwmB, displayURL=ow.ly/1iYwmB}], 20 hashtagEntities=[], 21 user=UserJSONImpl{id=226180205,name='mouldi amamou', screenName='josezit', location='TUNIS TUNISIE', 22 description='Prof Hospitalouniversitaire Medecine# Unv Tn El Manar# Fac Med Tunis# Interniste 23 Ranimateur Mdical# Centre Assistance Mdicale Urgente# Ministre Sant#', ... 25 profileImageUrl='http://a0.twimg.com/profile_images/1739244207/07012012249_normal.jpg', ... 27 url='http://www.mouldiamamou.com', isProtected=false, followersCount=438, 28 profileBackgroundColor='C0DEED', ... 29 friendsCount=291, createdAt=Mon Dec 13 09:39:59 EST 2010, timeZone='Paris' 30 ,profileBackgroundImageUrl='http://a0.twimg.com/images/themes/theme1/bg.png', ... 32 lang='fr', statusesCount=2196, ...}

3.2 3.2.1

Statistiques et interpr etations Exp erience 1

Comme mentionn e dans la section pr ec edente, nous avons commenc e par search crits en anglais qui API pour extraire des tweets. Nous avons s electionn e des tweets e ` diff r epondent a erentes requ etes telles que : Apple, Microsoft, Obama. . . Nous avons essay e de d eterminer la polarit e des tweets en nous basant sur les termes

34 positifs et n egatifs trouv es dans le tweet. La polarit e du tweet est : positive negative neutre Si le nombre(termes positifs) nombre(termes n egatifs) > 0 Si le nombre(termes positifs) nombre(termes n egatifs) < 0 Sinon

` laide de Lorientation s emantique (positive, n egative) des termes est d etermin ee a lexique utilis e dans twitrratr4 . Nous avons constat e que la plupart des tweets sont consid er es neutres. G en eralement ces tweets ne contiennent pas des termes pr esent es dans le lexique utilis e. 3.2.2 Exp erience 2

lections tunisiennes docNous avons encore collect e des tweets qui portent sur les e tabli a ` laide de Search API. Le mot-cl tobre 2011. Ceci est e e que nous avons utilis e lections. Nous avons exploit est tnelec, tn indique Tunisie et elec indique e e ce v terme parce quil est tr` es employ e par les utilisateurs qui parlent de cet e enement. Nous avons collect e des tweets en diff erentes langues : arabe, franc ais et anglais. Le tableau 3.I montre des statistiques sur le corpus collect e. Nous avons remarqu e que la plupart des tre expliqu tweets contiennent au moins un hashtag. Ceci peut e e par le mot cl e utilis e dans la requ ete : tnelec. Ce mot est souvent utilis e comme un hashtag M eme si nous avions sp eci e la langue des tweets, nous avons trouv e que les tweets crits avec la langue sp contiennent des termes qui ne sont pas e eci ee. Le tweet suivant crits en franc est s electionn e avec les tweets e ais :
http://t.co/2w4Ishy0 excellent !!! #tnelec

t Le texte arabe signie que la photo de Ben Ali (pr esident tunisien d echu) a e e republi ee dans La Goulette (ville tunisienne). galement effectu Nous avons e e des statistiques sur le nombre de mots trouv es dans les tweets (tableau 3.II).
4 http://twitrratr.com/

35 lections tunisiennes publi Tableau 3.I Statistiques sur les tweets qui portent sur les e es entre le 18 octobre 2011 et 28 octobre 2011. 11 108 tweets en franc ais, 5 552 en arabe et 4 377 en anglais Fr Ar En Nombre de tweets 11 108 5 552 4 377 Nombre de retweets 4 555 2 759 2 141 Nombre dutilisateurs distincts 2 066 1 649 1 707 Nombre de tweets qui contiennent au moins un hashtag 11 079 5 532 4 353 Nombre de tweets qui contiennent au moins un utilisateur mentionn e 2 525 756 1 112 Nombre de tweets qui contiennent au moins un hyperlien 3 490 1 599 1 729 Nombre de hashtags distincts 1 059 373 527

Tableau 3.II Statistiques sur le nombre des mots trouv es dans les tweets qui portent sur lections tunisiennes envoy les e es entre le 18 octobre 2011 et 28 octobre 2011. Le tweet nettoy e ne contient pas les hashtags, les utilisateurs mentionn es et les hyperliens Original Nettoy e Fr Ar En Fr Ar En Nombre minimal de mots 2 2 1 0 1 0 Nombre maximal de mots 33 34 30 30 30 28 Nombre moyen de mots 17 17 17 14 13 12 t Les lexiques Morphalou5 et BDE ont e e utilis es pour v erier lexistence dun mot respectivement dans le vocabulaire franc ais et anglais (voir tableau 3.III) . Nous avons consid er e comme mot toute suite de caract` eres non blancs de longueur non nulle. Tableau 3.III Statistiques sur le nombre de mots trouv es dans les vocabulaires franc ais et anglais pour les tweets (11 108 en franc ais et 4 377 en anglais) qui portent sur les lections tunisiennes publi e es entre le 18 octobre 2011 et 28 octobre 2011 ) Fr En Nombre minimal des mots 0 0 Nombre maximal de mots 27 25 Nombre moyen de mots 10 9 Nombre de mots distincts 12 638 5 695 Nombre de mots distincts trouv es dans le vocabulaire 6 325 2 838
5 http://www.cnrtl.fr/lexiques/morphalou/

36 3.2.3 Exp erience 3

Cette fois-ci, nous nous sommes int eress e aux tweets qui portent sur la Tunisie, et v non pas sur un e enement ou une personne en particulier. Pour recueillir des tweets, nous avons utilis e le streaming API. Nous avons utilis e un ensemble de mots-cl es, illustr e dans le tableau 3.IV, fortement ` la Tunisie. li es a Tableau 3.IV Ensemble de mots-cl es utilis es pour extraire des tweets (qui portent sur ` laide du streaming API la Tunisie entre le 07 f evrier 2012 et le 10 mars 2012) a Mots-cl es D enition marzouki Pr esident actuel de la Tunisie hammadi jebali Premier ministre actuel Tunisie, tounes tounes est la prononciation arabe de Tunisie lections tunisiennes, nous avons utitnelec Les e lis e ce terme parce que nous avons trouv e que beaucoup dutilisateurs en parlent jusqu` a pr esent sebsi Ex-premier ministre (apr` es la r evolution tunisienne) nahdha, ennahdha Le parti politique qui a gagn e dans la lection. derni` ere e ghannouchi Chef dennahda sidi bouzid La r egion o` u la r evolution tunisienne a commenc e 14jan 14 janvier est la date de fuite de Ben ali (pr esident d echu) ` extraire 126 991 tweets entre le 08 f Nous avons r eussi a evrier 2012 et le 09 mars 2012. La gure 3.3 montre la distribution des tweets selon les dates. Le 20 f evrier 2012, nous avons eu une panne technique, il y a eu une interruption entre 7 h 35 et 15 h 38. ` cette date. Cela explique la diminution de nombre de tweets a Les tableaux 3.VI et 3.V illustrent des statistiques effectu ees sur le corpus obtenu.

37 Figure 3.3 Nombre de tweets par jour sur la Tunisie (126 991 tweets entre le 08 f evrier 2012 et le 09 mars 2012)

Tableau 3.V Statistiques sur le nombre des mots trouv es dans les tweets qui portent sur la Tunisie (126 991 tweets publi es entre le 08 f evrier 2012 et le 09 mars 2012). Le tweet nettoy e ne contient pas les hashtags, les utilisateurs mentionn es et les hyperliens Original Nettoy e Nombre minimal de mots 1 0 Nombre maximal de mots 38 37 Nombre moyen de mots 14,9 12,3

Tableau 3.VI Statistiques sur les tweets qui portent sur la Tunisie publi es entre le 08 f evrier 2012 et le 09 mars 2012). Numbre de tweets 126 991 Nombre des retweets 23 283 Nombre dutilisateurs distincts 16 071 Nombre de tweets qui contiennent au moins un hashtag 72 564 Nombre de tweets qui contiennent au moins un utilisateur mentionn e 48 750 Nombre de tweets qui contiennent au moins un hyperlien 79 250 Nombre de hashtags distincts 7 879 Etant donn e la difcult e de comprendre ce type de texte (courts, fautes d ecriture, convention d ecriture employ ee par les utilisateurs. . .), nous avons essay e de nous ba-

38 l ser sur dautres e ements tels que : les hashtags, le comportement des utilisateurs, les relations entre les utilisateurs. . . l Nous avons constat e que les utilisateurs utilisent souvent de hashtags, cet e ement joue un r ole important pour avoir une id ee sur les pr eoccupations des utilisateurs. Le tableau 3.VII montre les hashtags, qui ne sont pas les mots-cl es utilis es dans la requ ete, les plus pr esents dans le corpus. Ces r esultats re` etent tr` es bien les pr eoccupations des Tunisiens. Tableau 3.VII Les hashtags (qui ne sont pas des mots-cl es) les plus fr equents dans le corpus de tweets qui portent sur la Tunisie (126 991 tweets entre le 08 f evrier 2012 et le 09 mars 2012) nombre enition Hashtags dapparition D Tngov 4 224 Le gouvernement tunisien ` Tunisie, ac r ` lassembl tn r ef` ere a ef` ere a ee ee par la r edaction de Tnac 3 578 constituante qui est charg la nouvelle constitution Union g en erale tunisienne du travail, qui a ore des gr` eves et des manifestations contre Ugtt 1 847 ganis le gouvernement La Tunisie renvoie lambassadeur syrien, orgaerence amis de la Syrie en Syria 1 754 nisation de la conf Tunisie. . . Mustapha Ben Jaafar, le pr esident de lasMbj 1 665 sembl ee constituante le Qatar qui va faire des investissements en Tunisie, refuse dextrader Sakhr Materi (gendre Qatar 1 555 de lancien pr esident), soutient (selon plusieurs personnes) le parti au pouvoir (ennahdha). . . La majorit e des tweets qui contiennent des haEmploi 1 472 ` lemploi sont des offres demploi. shtags li es a Recrutement 1 368 jobs 1 359 Nous avons visualis e les hashtags pr esents dans le corpus dans dun tableau crois e dynamique de Excel (voir gure 3.4). Nous avons remarqu e que certains sujets stimulent lint er et des utilisateurs dans une p eriode d etermin ee.

39 Figure 3.4 Capture d ecran du tableau crois e dynamique pour les hashtags pr esents dans le corpus. Les colonnes sont les hashtags et les lignes sont les dates. L el ement (i,j) ` la date i. est le nombre de hashtags j a

` trois e v Les gures 3.5, 3.6 et 3.7 illustrent la fr equence des hashtags li es a enements qui se sont d eroul es dans cette p eriode : gyptien Wajdi Ghonim en Tunisie le 11 f Larriv ee du pr edicateur e evrier 2012. tant radical. Cela est d ` ses Ce pr edicateur est consid er e par certains comme e ua ` controverse. Une de ses prises de position pol emiques concernant des sujets a fameuses prises de position se rapporte au sujet de lexcision des llettes. Certains accusent le pr edicateur davoir pris une position favorable envers lexcision. 15 t f evrier 2012 : deux plaintes ont e e d epos ees contre Wajdi Ghonim. 17 f evrier 2012 : des manifestations contre larriv ee de Wajdi Ghonim.

40 Les employ es municipaux ont effectu e une gr` eve qui est organis ee par lUGTT. ` cette gr` Cette gr` eve a d ebut e le 20 f evrier 2012. Suite a eve, plusieurs locaux de t lUGTT ont e e attaqu es par des manifestants. LUGTT a accus e le parti ennahdha tre linstigateur. Le 25 f den e evrier, des grandes manifestations (organis ees par UGTT) ont r eclam e le d epart de gouvernement. tudiant salaste dans le b La mise en berne du drapeau tunisien par un e atiment tudiante de la facult e des lettres, des arts et des humanit es de Manouba. Une e tunisienne a essay e de lemp echer denlever le drapeau. Les salastes sont des personnes qui sont jug ees par la plupart des Tunisiens comme des musulmans extr emistes et radicaux. Cet acte, qui a eu lieu le 07 mars 2012, a entra n e une vague de col` ere chez plusieurs Tunisiens qui ont consid er e ` leur dignit quun tel acte est un outrage portant atteinte a e et la souverainet e du pays. Les pics observ es dans les gure 3.5 illustrent la corr elation entre loccurrence des v e enements r eels et les hashtags trouv es dans notre corpus. Nous avons constat e que ` Wajdi Ghonim sont appour la date du 26 f evrier, de nouveaux hashtags relatifs a tre d ` la visite de lislamologue Tariq parus apr` es une p eriode dabscence. Cela peut e ua ` la visite de Wajdi Ghonim. Ramadan le 25 f evrier 2012 o` u les gens font r ef erence a

41 Figure 3.5 Distribution par jour de 36 hashtags (wajdi ghanim, ghanim, ghonim ` l sheikghanim. . .) li es a ev enement de Wajdi Ghonim. 11 f evrier 2012 : arriv ee t de Wajdi Ghonim. 15 f evrier 2012 : deux plaintes ont e e d epos ees contre Wajdi Ghonim. 17 f evrier 2012 : des manifestations contre larriv ee de Wajdi Ghonim.

` Figure 3.6 Distribution par jour de 2 hashtags (manouba, mannouba) li es a l ev enement de Manouba. 07 mars 2012 : La mise en berne du drapeau tunisien par tudiant salaste. un e

42 Figure 3.7 Distribution par jour dun hashtag (UGTT) li e au sujet de lUnion g en erale tunisienne du travail. 20 mars 2012 : Les employ es municipaux ont effectu e une gr` eve qui est organis ee par lUGTT ; Le 25 f evrier, des grandes manifestations organis ees par UGTT r eclament le d epart de gouvernement.

galement dautres hashtags qui cooccurrent avec Nous avons constat e quil existe e ` ces e v les hashtags principaux li es a enements. Ces hashtags (qui cooccurrent avec les ha v shtags principaux) re` etent la nature des e enements et permettent d eclaircir le contexte dans lequel ils ont eu lieu. De tels hashtags sont pr esent es dans les tableaux 3.VIII et 3.IX .

43 Tableau 3.VIII Fr equence des hashtags li es au sujet Wajdi Ghonim. Certains ap` ne pellent le gouvernement, ennahdha et lassembl ee constituante a trangers en Tunisie, dautres les accusent davoir soupas inviter les pr edicateurs e trangers ; le pr tenu larriv ee des pr edicateurs e esident Moncef Marzouki avait quali e le pr edicateur Wagdi Ghonim de microbe (cette d eclaration avait suscit e la pol emique) ; Egypte est le pays dorigine de pr edicateur ; Mourou est politicien qui a r eagi au discours pr ech e de Wajdi Ghonim ; Une de ses fameuses prises de position se rapporte au sujet de lexcision des llettes. Hashtags cooccurrent avec le sujet nombre de fois Sujet Hashtags Tunisie Tunisia Tunisie tun 723 tuni tunisi ennahdha nahdha Ennahdha 104 ennahda ennhdha Le gouvernement Wajdi Ghonim tngov 85 Tunisien Lassembl ee tnac 82 constituante Moncef marzouki 56 Marzouki moncef marzouki egypt 37 Egypte egypte Mourou mourou 23 excision Excision 22 exision Nous avons aussi effectu e des statistiques sur les utilisateurs trouv es dans le corpus. Le tableau 3.XI pr esente les informations qui concernent les 5 utilisateurs qui ont le plus grands nombre de tweets dans le corpus. Dapr` es leurs pseudonymes, nous avons remarqu e que ces utilisateurs travaillent pr ealablement pour des journaux ou des maga galement remarqu zines. Nous avons e e que leur nombre dabonn es est souvent beaucoup plus grand que leur nombre dabonnements. ` lemploi sont parmi les plus pr Dapr` es le tableau 3.VII, les hashtags li es a esents

44 Tableau 3.IX Fr equence des hashtags li es au sujet Manouba. Certaines personnes demandent au gouvernement, ennahdha et lassemble constituante din` tervenir et emp echer ce genre de comportement ; les salastes ont organis e un sit-in a tudiantes de porter le niqab ; la mise en luniversit e pour revendiquer le droit des e t tudiant salafiste. berne du drapeau tunisien a e e faite par un e Hashtags cooccurrent avec le sujet nombre de fois Sujet Hashtags Tunisie Tunisia Tunisie 702 tunisi tn Le gouvernement tngov 126 Tunisien Lassembl ee tnac 108 constituante salafistes Manouba salafiste Salastes salafisme 106 salafis salafist ennahdha Ennahdha nahdha 88 ennahda Drapeau drapeau 11 Tunisien touchepasamondrapeau Niqab niqab 6 ` lemdans le corpus. Nous avons constat e que 96 % de tweets contenant un hashtag li ea ploi (emploi, job, recrutement, candidature) sont envoy es par lutilisateur tunisieup. Tous les tweets sont des offres demploi. Dapr` es ces statistiques, nous avons d eduit que les tweets, provenant de ces utilisateurs, sont g en eralement objectifs (contiennent des nouvelles). Cette constatation est ` ces utiliconrm ee par les descriptions, pr esent ees dans le tableau 3.XII, relatives a crivent souvent, nous avons remarqu sateurs. M eme si ces utilisateurs e e quils ne sont tre expliqu pas les plus retweet es. Cela peut e e par le caract` ere objectif de leurs tweets. Dhabitude, les utilisateurs retweetent des messages qui repr esentent leurs avis. Le tableau 3.XIII illustre les 5 utilisateurs les plus retweet es.

45 Tableau 3.X Fr equence des hashtags li es au sujet UGTT. Dans cette p eriode il y avait des tiraillements entre UGTT et (ennahdha, tngov, tnac) ; Le s ecr etaire g en eral de lUGTT (Jrad) est accus e de faire des obstacles au tngov par lorganisation des gr` eves et des manifestations ; Certains utilisateurs se souviennent que Jrad a soutenu le pr esident d echu zaba Hashtags cooccurrent avec le sujet nombre de fois Sujet Hashtags Tunisie Tunisia Tunisie 1571 tuni tun ennahdha nahdha Ennahdha ennahda 444 enahdha nahda Le gouvernement UGTT tngov 196 Tunisien Lassembl ee tnac 142 constituante Zine Abidine zaba 48 Ben Ali manif Manifestations manifestation 33 maniftunis Abdessalem jrad 28 Jrad

Tableau 3.XIII Informations sur les tops 5 utilisateurs retweet es : NFER est le nombre tait retweet de fois que lutilisateur e e ; NFAR est le nombre de fois que lutilisateur a retweet e Nombre Nombre Nombre Pseudonyme de tweets dabonn es dabonnement NFER NFAR ooouups 803 4 666 631 545 71 toomaa 6 22 2 630 1 063 489 1 nawaat 202 40 434 399 481 8 tn revo 535 199 286 387 59 arabeman2012 1 081 308 219 324 362 ` lutilisateur toomaa 6 sont un Nous avons trouv e que les informations relatives a

46 Tableau 3.XI Informations sur les tops 5 utilisateurs : NFER est le nombre de fois que tait retweet lutilisateur e e ; NFAR est le nombre de fois que lutilisateur a retweet e Pseudonyme Nombre Nombre Nombre NFER NFAR de tweets dabonn es dabonnement tunisinews 1 911 557 1 96 0 tunisieup 1 831 1266 631 16 0 tunisienouvelle 1 520 161 268 21 0 actutunisie 1 407 3818 18 76 0 journaltunisie 1 403 1497 255 88 1 Tableau 3.XII Descriptions des 5 tops utilisateurs Description Latest News About #Tunisia & Arab World. Live 24/24 7/7 tunisieup Ma vision sur Internet, tout semble ` a port ee de clic. Linformation na jamais et e aussi abondante. tunisienouvelle Toutes les informations dans une nouvelle #tunisie actutunisie Actualit e-Tunisie : Les derni` eres informations de lactualit e nationale et internationale ... journaltunisie Offre une compilation darticles publi es par un grand nombre de sources dactualit es tunisiennes. Sp ecial El ections de la constituante 2011. Pseudonyme tunisinews peu bizarre. Il a seulement 22 tweets, mais il est retweet e 489 fois. En fouillant dans les donn ees, il sest av er e que cest un utilisateur bahre nien. Il a utilis e souvent les hashtags Tunisie, tngov, Tunisia, Arabspring m eme si le contenu des tweets tre justi portent sur le Bahre n. Un tel comportement peut e e par le d eroulement de la r evolution bahre nienne dans cette p eriode et il a utilis e ces hashtags pour faire r ef erence ` la r a evolution tunisienne. ` partir de ces analyses, nous avons d A eduit que les utilisateurs qui publient souvent, ne retweetent pas beaucoup et ne sont pas tr` es retweet es sont g en eralement des utilisateurs objectifs (diffusent des informations). Cependant, les utilisateurs qui retweetent

47 souvent et qui sont tr` es retweet es sont des utilisateurs subjectifs (publient des opinions plus que des informations) tudi Nous avons e e le type de relation (sym etrique, asym etrique ou il ny a pas de re chantillon lation) entre deux utilisateurs dans le cas dun retweet. Nous avons utilis e un e de 166 retweets. Le tableau 3.XIV montre les r esultats obtenus. Nous avons constat e que la plupart des retweets sont effectu es entre des utilisateurs qui ne sont pas des amis (relation sym etrique). Tableau 3.XIV Type de relation entre les utilisateurs dans le cas dun retweet Type Pourcentage Asym etrique 36,14% Sym etrique 34,94% Aucune relation 28,92%

3.3

Construction de corpus dapprentissage Jusqu` a pr esent, il ny a aucune ressource linguistique annot ee pour des messages

crits par des arabophones (tunisiens, marocains, e gyptiens, syriens...). Rappelons que e pays arabe a son propre dialecte. Dans ce travail, nous nous sommes int eress es actuelle crits par des Tunisiens. ment aux tweets e Etant donn ee labsence de ressources, il est difcile dappliquer des techniques de traitement de la langue naturelle an de d eterminer la langue et la polarit e dun tweet. Pour cette raison, nous avons d ecid e de construire notre propre corpus dapprentissage. Dans cette t ache, nous avons pr epar e un corpus qui contient plus que 80 000 tweets publi es entre le 08 f evrier et le 09 mars 2012. Le corpus sera annot e par des experts initi es par le dialecte tunisien. Ces experts sont mes copains et mes coll` egues tudiants dans notre laboratoire et dans le d (des e epartement dinformatique de recherche ` d chantillon op erationnelle). Leur t ache consiste a eterminer la polarit e et la langue dun e de tweets tir e al eatoirement du corpus non annot e. ` travers un site web 6 que nous avons cr pour r Lannotation sera effectu ee a ee ealiser cette t ache. La gure 3.8 montre une capture d ecran de la page qui permet aux experts
6 rali.iro.umontreal.ca:8080/dridihou

48 galement une pr dannoter les tweets. Ce site contient e esentation de notre projet et les r esultats de nos exp erimentations. N eanmoins, pour la cr edibilit e de notre corpus nous ` la page d ` lannotation soit par authentication (login avons d ecid e que lacc` es a edi ee a et mot de passe). Les gens qui ne sont pas inscrits dans la liste des experts nont pas le ` cette page droit dannoter des tweets. Cependant, les autres personnes peuvent acc eder a en utilisant comme login = rali et mot de passe = diro. Les annotations effectu ees par ces personnes ne seront pas consid er ees. Une fois notre corpus obtenu, nous pr evoyons appliquer des m ethodes classiques dapprentissage machine (r eseaux bay esiens na fs, machines a ` vecteurs de support. . .) (voir 1.2) pour d eterminer la langue et la polarit e des nouveaux tweets. Nous comptons rendre cette ressource disponible. Cette initiative pourra encourager pour la cr eation dautres ressources annot ees pour diff erents dialectes arabes. Le prin v temps arabe, appel e aussi les r evolutions des r eseaux sociaux, et les e enements apr` es ces r evolutions ont montr e quil est indispensable danalyser les donn ees des r eseaux sociaux publi es par les Arabes an de d eterminer lopinion publique, d etecter leur int er et. . .

49 Figure 3.8 Capture d ecran de la page d edi ee pour lannotation des tweets

3.4

Conclusion Dans ce chapitre, nous avons pr esent e les m ethodes que nous avons utilis ees pour

` partir de Twitter et les exp extraire les donn ees a eriences effectu ees sur les donn ees collect ees. Nous avons constat e que la taille dun tweet est g en eralement trop courte pour y appliquer des m ethodes classiques de traitement de la langue. Les hashtags semblent tre de bons points de d v e epart pour d etecter les e enements et comprendre le contexte. . . t tapes, Jusqu` a ici, les analyses ont e e faites manuellement. Dans les prochaines e nous avons lintention de d evelopper des outils danalyse automatique an de comprendre le type de donn ees. Nous pr esenterons dans le chapitre suivant les principales t aches que nous pr evoyons effectuer.

CHAPITRE 4 CONTRIBUTION ET CONCLUSION 4.1 Contribution v Dans ce travail, nous nous int eressons plut ot aux e enements sociaux et politiques. Notre objectif est de d evelopper un syst` eme qui permet de d etecter les pr eoccupations des utilisateurs (p. ex. elections, l ev enement de drapeau, larriv ee de Wajdi Ghonim. . .) et de pr edire lopinion publique ( p. ex. les partis pr ef er es, lattitude des utilisateurs de l ev enement de drapeau. . .). crits en arabe et en franc Ce syst` eme devrait supporter les tweets e ais. Nous utilisons le microblog Twitter comme source de donn ees. Etant donn e les difcult es (taille r eduite, ambigu t e, style d ecriture) danalyser le contenu de tweet, nous pr evoyons cr eer un mod` ele qui se base sur le contenu de tweets l et dautres e ements tels que les hashtags et les utilisateurs. Parmi les t aches que nous avons lintention de faire : Eliminer les donn ees qui peuvent fausser notre analyse. Prenons lexemple de la section pr ec edente, o` u les tweets envoy es par lutilisateur toomaa 6 sont retourn es par la requ ete mais ils ne contiennent pas des informations sur la Tunisie. Analyser le comportement des utilisateurs : distinguer entre les utilisateurs objectifs et subjectifs, d etecter les utilisateurs qui jouissent de la conance des autres (dans cette t ache on peut prendre en consid eration le nombre de fois o` u un utilisateur est retweet e, le nombre dabonn es. . .) etc. Normaliser les hashtags qui r ef` erent au m eme sujet. G en eralement, les utilisateurs nutilisent pas le m eme hashtag pour un sujet particulier. Pour le sujet de ` ce suWajdi ghonim nous avons d ecouvert plusieurs hashtags qui r ef` erent a jet : ghanim, gonhim, ghoneim, wajdi ghanim, wajdighenim, sheikghanim. . .

51 Repr esenter les hashtags reli es par un graphe. La relation entre les hashtags permet de mieux comprendre le contexte dun sujet. Reprenons l ev enement de la mise en berne de drapeau tunisien dans le b atiment de la facult e des lettres, des arts et des humanit es de Manouba (section 3.2.3). Nous avons repr esent e les ` cet e v principaux hashtags li es a enement dans un graphe (gure 4.1). Les noeuds sont les sujets o` u chaque sujet contient les hashtags qui le repr esentent. Les arcs relient les sujets qui cooccurrent. Nous avons choisi le drapeau comme le sujet principal de ce graphe. La relation entre le sujet Femme tunisienne et l ev enement tre expliqu de la mise en berne du drapeau peut e ee par l etudiante qui a emp ech e l etudiant denlever le drapeau. Le lendemain de l ev enement est la journ ee internationale de la femme, plusieurs femmes ont fait un sit-in devant le local de lassembl ee constituante et elles ont d enonc e lincident de la mise en berne du drapeau. Utiliser des techniques de traitement automatique de la langue naturelle (TALN) pour traiter le contenu textuel des tweets. Le traitement de ce type des tweets est crits avec une seule langue (anglais, plus compliqu e que le traitement des tweets e crit seulement en anglais, nous pouvons utiliser des franc ais). Si un tweet est e lexiques qui aident le traitement. M eme si le tweet contient des fautes et/ou des abr eviations, nous pouvons utiliser des normaliseurs permettant de rendre le texte dans une forme standard. M eme si nos donn ees sont diff erentes de celles trait ees par les travaux mentionn es dans le chapitre 2, nous avons lintention de nous inspirer de ces travaux an de traiter le contenu des tweets. La meilleure fac on de d eterminer lopinion publique est dutiliser une technique de classication. Cette t ache n ecessite parfois un ensemble dapprentissage (Go et al. [2009], Jiang et al. [2011], Barbosa et Feng [2010]). An de construire un site web qui permet aux initi ` la fac cet ensemble nous avons cr ee es a on d ecriture des tunisiens dannoter des tweets (voir section 3.3). Dans le m eme contexte, il est utile de tenir compte de diff erentes relations entre les donn ees (tweets, utilisateurs. . .) pour d eterminer les polarit es des tweets (Jiang et al. [2011], Tan et al. [2011]).

52 Contrairement aux travaux de Doan et al. [2011] et Lampos et Cristianini [2010] qui v utilisent des ensembles de mots-cl es pour d etecter des e enements connus pr ealablement, v dans cette th` ese nous avons lintention de d etecter des e enements (non connus pr ealablement) qui stimulent les utilisateurs dans une p eriode. ` l Figure 4.1 Graphe repr esentant des hashtags li es a evenement de la mise en berne ` luniversit tudiant sade drapeau Tunisien a e de manouba le 07 mars 2012 par un e ` la Tunisie, Le laste. Tous le noeuds sont en relation avec les hashtags li es a gouvernement (Tngov), Ennahdha, assembl ee constituante (Tnac) ; 3alamtounes : 3alam = drapeau et tounes = Tunisie. Le nombre n sur un arc indique que les deux sujets reli es par cet arc cooccurrent n fois.
Journe internationale de la femme #womenday #8Mars2012 #8Mars #journeedelafemme #internationalwomensday ... 33 Femme tunisienne #tunisiennes #tunisienne #femmetunisienne #femme #women #woman ... 2 7 5 1 12 1 Drapeau de la Tunisie #drapeau #touchepasamondrapeau #drapeautunisien #flag #3alamtounes ... 9 95 Islamisme #islamisme #islamiste #islamisation ... 1 7 6 Niqab #Niqab ... 1 Etudiants #Etudiants ... 1 Mannouba #mannouba #manouba ... 2 Campus #campus #universit ... 6

Salaste #salafistes #salafisme #salafy #salafiste #5wenjyya ...

37

4.2

Conclusion ` Dans ce rapport, nous avons pr esent e : les principaux travaux qui sint eressent a

lanalyse des opinions pour les textes assez longs, les diff erences entre les blogs et les microblogs, la plateforme Twitter, les principaux travaux qui analysent les donn ees de

53 Twitter. Dans le troisi` eme chapitre, nous avons pr esent e les diff erentes techniques utilis ees pour collecter les donn ees, les exp erimentations faites sur les donn ees collect ees. Les r esultats ont montr e que les hashtags peuvent jouer un bon r ole pour d etecter des v tapes consistent a ` d e enements dans une p eriode d etermin ee. Nos prochaines e etecter v ` produire des r ces e enements dune fac on automatique puis a esum es qui d ecrivent le v genre de l ev enement et lopinion publique (contre, pour. . .) sur les e enements d etect es. Pour r esoudre cette t ache, nous pr evoyons utiliser des techniques de TALN utilis ees par crits dune fac dautres travaux (chapitre 2), mais pour des tweets e on particuli` ere. eancier Ech

Automne 2010 Hiver 2011 e 2011 Et 28-29 septembre 2011 Automne 2012 09-12 avril 2012

Mai 2012

Tableau 4.I Etapes de r ealisation jai r eussi lexamen pr e-doctoral (partie 1) jai r eussi lexamen pr e-doctoral (partie 2) et jai valid e le cours gestion de documents (IFT 6281) jai commenc e par me familiariser avec Twitter API et de d ecouvrir l etat de lart nous avons visit e Halifax pour se rencontrer avec les responsables de MediaBadger et de lUniversit e de Dalhousie jai valid e le dernier cours : intelligence articielle (IFT 6010) jai visit e Halifax pour se rencontrer avec les responsables de MediaBadger et de lUniversit e de Dalhousie. Dans cette rencontre jai montr e notre avancement et nos prochaines tapes e nous avons pr esent e un papier (Graduate student symposium) dans la conf erence Canadian AI 2012.

54 tapes Tableau 4.II Prochaines e Construire des donn ees dapprentissage et appliquer des techniques dapprentissage machine qui permettent de d eterminer la langue et la polarit e dun tweet. D evelopper une m ethode qui permet de d etecter des v ` partir des tweets et g e enements a en erer des r esum es qui v d ecrivent les e enements. Proposer un algorithme qui permet de regrouper les hashtags qui r ef erent au m eme sujet. Proposer un algorithme qui permet de distinguer les diff erents types dutilisateurs : journaux, neutres, qui essayent dinuencer sur les autres, qui jouissent la conance des autres . . .

3 4

BIBLIOGRAPHIE L. Barbosa et J. Feng. Robust sentiment detection on Twitter from biased and noisy data. Dans Proceedings of the 23rd International Conference on Computational Linguistics : Posters, pages 3644. Association for Computational Linguistics, 2010. D. Chakrabarti et K. Punera. Event summarization using tweets. Dans Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media, pages 6673, 2011. K. Dave, S. Lawrence et D.M. Pennock. Mining the peanut gallery : Opinion extraction and semantic classication of product reviews. Dans Proceedings of the 12th international conference on World Wide Web, pages 519528. ACM, 2003. S. Doan, B.K.H. Vo et N. Collier. An analysis of Twitter messages in the 2011 Tohoku earthquake. Arxiv preprint arXiv :1109.1618, 2011. A. Go, R. Bhayani et L. Huang. Twitter sentiment classication using distant supervision. CS224N Project Report, Stanford, pages 112, 2009. M. Hu et B. Liu. Mining and summarizing customer reviews. Dans Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining, pages 168177. ACM, 2004. L. Jiang, M. Yu, M. Zhou, X. Liu et T. Zhao. Target-dependent Twitter sentiment classication. Proc. 49th ACL : HLT, 1:151160, 2011. H. Kwak, C. Lee, H. Park et S. Moon. What is Twitter, a social network or a news media ? Dans Proceedings of the 19th international conference on World wide web, pages 591600. ACM, 2010. V. Lampos et N. Cristianini. Tracking the u pandemic by monitoring the social web. Dans Cognitive Information Processing (CIP), 2010 2nd International Workshop on, pages 411416. IEEE, 2010.

56 B. Liu. Web data mining : exploring hyperlinks, contents, and usage data. Springer Verlag, 2007. B. Liu, M. Hu et J. Cheng. Opinion observer : Analyzing and comparing opinions on the web. Dans Proceedings of the 14th international conference on World Wide Web, pages 342351. ACM, 2005. D. Metzler, C. Cai et E. Hovy. Structured event retrieval over microblog archives. Dans Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics : Human Language Technologies, pages 646655, Montr eal, Canada, June 2012. Association for Computational Linguistics. B. OConnor, R. Balasubramanyan, B.R. Routledge et N.A. Smith. From tweets to polls : Linking text sentiment to public opinion time series. Dans Proceedings of the International AAAI Conference on Weblogs and Social Media, pages 122129, 2010. B. Pang, L. Lee et S. Vaithyanathan. Thumbs up ? : sentiment classication using machine learning techniques. Dans Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10, pages 7986. Association for Computational Linguistics, 2002. A.M. Popescu et O. Etzioni. Extracting product features and opinions from reviews. Dans Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing, pages 339346. Association for Computational Linguistics, 2005. C. Tan, L. Lee, J. Tang, L. Jiang, M. Zhou et P. Li. User-level sentiment analysis incorporating social networks. Arxiv preprint arXiv :1109.6018, 2011. P.D. Turney. Thumbs up or thumbs down ? : semantic orientation applied to unsupervised classication of reviews. Dans Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, pages 417424. Association for Computational Linguistics, 2002.

57 J. Wiebe, T. Wilson et M. Bell. Identifying collocations for recognizing opinions. Dans Proceedings of the ACL-01 Workshop on Collocation : Computational Extraction, Analysis, and Exploitation, pages 2431, 2001. H. Yu et V. Hatzivassiloglou. Towards answering opinion questions : Separating facts from opinions and identifying the polarity of opinion sentences. Dans Proceedings of the 2003 conference on Empirical methods in natural language processing, pages 129136. Association for Computational Linguistics, 2003.

Vous aimerez peut-être aussi