Vous êtes sur la page 1sur 28

Veille technologique

&
Intelligence économique

Yamina Mathlouthi
ETUDE DE CAS
A partir de ce cycle de veille, montrer comment et à quelle niveau on peut utiliser (exploiter) les
technologies et les outils numériques pour arriver à mieux connaitre son marché et satisfaire ses c
Réseau sociaux : Extraction, visualisation et veille stratégique

« Le marketing traditionnel nous enseignait qu’un client mécontent


pouvait partager avec 10 autres personnes. Aujourd’hui, il a les
moyens de partager avec 10 millions»
Il donc est essentiel pour les entreprises aujourd’hui de
connaître les opinions et les attentes de leurs clients et, pour cela,
Internet représente une source de données importante (différents
sites où les clients s’expriment, la plateforme sociale Twitter est
particulièrement intéressante grâce à son utilisation en forte
croissance, à la facilité d’accès à ses contenus ainsi qu’à son
caractère à la fois média d’information et réseau social).
Twitter : la Collecte des données

• La collecte des tweets (API proposée par Twitter) :


– Méthode de clustering des tweets quasi-identiques : méthode
de « dédoublement » de contenus qui permet de regrouper les
tweets très similaires qui reprennent une même information,
rendant ainsi leurs analyses ultérieures plus simples et plus
efficaces.
– Outil de visualisation de contenus : outil qui permet de suivre
l’évolution temporelle des clusters identifiés auparavant, ainsi
que d’autres paramètres comme, par exemple, les hash-tags.
– Corpus nettoyé avec des filtrages de données
Twitter : un peu d’histoire

• Wikipédia « Twitter est un outil de réseau social et de


microblogage qui permet à l’utilisateur d’envoyer gratuitement
des messages brefs. Créé en mars 2006 par Jack Dorsey. Le site a
très rapidement gagné en popularité, des millions d'utilisateurs
quotidiens ctifs.
• Tweets (« gazouillis ») : messagerie instantanée ou par SMS.
• Les utilisateurs de Twitter publient des messages (appelés «
tweets ») qui sont visibles par tout le monde et qui sont envoyés
directement à leurs abonnés appelés « followers ». Twitter est
surtout utilisé pour la publication d’informations, allant
d’informations d’intérêt général (comme les interventions
d’hommes politiques) à des informations personnelles.
Les spécificités Twitter

• Les tweets ont quelques spécificités :


– ils sont limités à 140 caractères puis 280 ;
– ils peuvent être republiés : une personne A qui reçoit un tweet de la part
d’une personne B peut le republier (tous les followers de A reçoivent alors
le même tweet) ; un tweet republié s’appelle un retweet et commence
souvent par le texte «RT@ B» ;
– ils contiennent fréquemment des URLs ; puisque les tweets sont limités à
280 caractères, les internautes utilisent souvent des services pour «
raccourcir » les URLs
– ils peuvent contenir des hash-tags, c’est-à-dire des mots (qui font partie ou
non de la phrase, dans ce deuxième cas se trouvant à la fin du tweet)
précédés par le symbole # ;
– ils peuvent être adressés à une personne spécifique A (même s’ils ne sont
pas forcement privés) («@A» et A est automatiquement informé).
Twitter: une utilisation en forte croissance

• Les entreprises sont de plus


en plus présentes sur Twitter.
Après avoir passé la phase
leur permettant « d’occuper »
le terrain, elles utilisent ce
canal comme un véritable lien
de relation avec leurs clients
pour y publier des réponses à
des problèmes généraux
pouvant les intéresser.
• Exemple : Banques, les
opérateurs télécoms, les
compagnies aériennes,
concessionnaires de voitures,

• Le réseau Twitter dispose
d’une API qui permet de
chercher et de télécharger
des données du réseau.
Apport de Twitter sur le plan académique
Pourquoi Twitter ?
Sur le plan académique :
• La forte popularité de Twitter et la facilité d’accès aux contenus textuels
qui y sont publiés offrent d’énormes opportunités aux chercheurs en
informatique, en sociologie, en traitement automatique de la langue ou
en physique. Cela explique le grand nombre d’études qui lui sont dédiées
et les nombreuses méthodes envisagées pour analyser les tweets :
– Plusieurs chercheurs se sont intéressés au caractère événementiel très fort des
tweets. Quand un événement est important ou jugé comme tel, il va être tweeté,
retweeté, parfois de nombreuses fois. Plusieurs auteurs ont développé des
méthodes permettant de détecter les événements dont on parle sur Twitter
– D’autres études se sont intéressées à la réputation et l’influence des auteurs de
tweets en analysant le nombre de followers, de citations et de retweets
– Twitter est aussi utilisé pour communiquer sur des sujets à fort contenu de
connaissances mais aussi pour échanger sur des sujets d’intérêt personnel,
comme dans un réseau social « classique ».
– Utilisation par les entreprises comme influenceurs …
Impact de Twitter aujourd’hui : la Clustérisation

Les Enjeux
• Les tweets sont des contenus textuels assez
particuliers (taille limitée à 280 caractères) :
– De nombreux tweets présentent des textes quasiment
identiques (tweet, retweet)
– Plusieurs internautes voient la même information
quelque part (par exemple à la télévision) et publient un
tweet la reprenant. Il peut s’agir du titre d’un reportage
par exemple qui est publié approximativement comme
il a été présenté à la télévision (cluster) .
Impact de Twitter aujourd’hui : la Clustérisation

Le cluster : comprend des tweets avec un contenu très


similaire publiés à des dates assez proches.
• Cette restriction est imposée pour s’assurer de regrouper
des tweets qui reproduisent le même fait : un tweet ou un
titre de journal ou une information vue à la télévision par
exemple. Ces faits ont une date d’apparition (publication
du journal, émission télé, publication de tweet, ..) et ont
une durée de vie assez courte (dans le sens où d’autres
événements, même si sur le même sujet mais avec un titre
et un texte différents, prennent vite leur place dans les
médias.
Impact de Twitter aujourd’hui : la Clustérisation

• Cette approche est différente de la détection


d’événements.
• Dans le cadre de la détection d’événements, on souhaite
regrouper les tweets qui parlent d’une même actualité,
même s’ils utilisent des mots différents ; les groupes de
tweets obtenus sont en conséquence différents,
comprenant des tweets avec des contenus assez
différents.
• A l’inverse, le cluster regroupe des tweets quasiment
identiques pour éviter de surcharger inutilement les
analyses avec des contenus qui se répètent.
Twitter support idéal pour la veille ?

• Chaine de traitements : à partir de Twitter et en utilisant une


série de méthodes et d’outils, la veille nous servira à analyser
les thématiques et les opinions concernant une entreprise
XXX telles qu’elles sont exprimées sur ce réseau social.
• Etapes de la chaine de traitements :
1. La collecte des tweets relatifs à XXX,
2. Filtrer pour éliminer le bruit.
3. Identifier et regrouper les contenus « redondants » en « clusters »
4. Visualiser les clusters ainsi que de « hashtags » afin de suivre leurs
évolutions dans le temps.
Twitter support idéal pour la veille ?

• Twitter occupe une place intéressante pour


plusieurs raisons dans le processus de veille :
– réseau social très populaire (le nombre
d’utilisateurs a connu une augmentation très
importante 400M+ );
Twitter support idéal pour
la veille ?
- message court/style très
synthétique/liens vers les
sources d’origine/accès
facile : Twitter limite peut-
être la taille des
publications, mais collecte
beaucoup d'informations
sur ses utilisateurs... Des
informations personnelles,
les appareils-dates-lieux
utilisés pour se connecter,
ainsi que la tranche d'âge,
les centres d'intérêt, etc.
Twitter support idéal pour
la veille ?
réseau social
particulièrement
adapté à la diffusion
et à la propagation de
l’information
Twitter support idéal pour
la veille ?

Exemple de
propagation
d’un Tweet à
partir d’un nœud
central
• Detecting discussion communities on vaccination
in twitter - ScienceDirect
Twitter support idéal
pour la veille ?
Méthodologie de veille

Pour regrouper les tweets :


– il faut définir une distance entre leurs contenus. Aussi, il faut choisir
deux seuils, un pour la distance textuelle et l’autre pour le temps au-
dessus desquels deux tweets ne peuvent pas se retrouver dans un
même cluster (approche vectorielle) .
– Décrire chaque tweet par l’ensemble des mots qu’il contient après
l’élimination :
• comme des noms précédés par le symbole «@» ;
• des URLs présentes dans les tweets ;
• du mot final, s’il est suivi par « … » et il n’y a pas d’espace entre le mot et « …
»; (par exemple : Fukushima : X veut créer une force d'intervention rapide en
cas d'accident)
• des mots « blancs » qui n’apportent aucune information dans la phrase (« y »,
« en », « à », « et » et les articles définis et indéfinis).
Méthodologie de veille

• Clustering hiérarchique : une


méthode (chronophage)
puisqu’elle calcule et évalue les
distances entre tous les
clusters à chacune de ses
nombreuses itérations.
• On peut faire toutes les fusions
possibles pour un même jour
parce que les tweets quasi-
identiques ont des fortes
chances d’avoir été publiés le
même jour.
• On calcule ensuite les
distances entre les clusters de
chaque jour et ceux des jours
précédents et on fusionne les
clusters les plus proches
identifiés.
Méthodologie de veille

• La Visualisation : Avec la mise à disposition de données de


plus en plus volumineuses, la visualisation de données
connaît un regain d’intérêt croissant (besoin croissant
d’analyser des données textuelles de plus en plus
nombreuses issues de mails, blogs, forum et réseaux sociaux).
• Des outils et techniques de visualisation se perfectionnent
pour représenter des résultats de recherche (par mot clé par
exemple) ou encore pour visualiser des résultats d’un
clustering. Le simple affichage de la « time line » de twitter ne
suffit pas (concours de visualisation organisé par Google pour
les élections présidentielles)
Des Technologies et des outils pour la Veille
• Des logiciels fortement interactifs (pour naviguer dans les
données afin de mieux les comprendre) : Jigsaw , PosVis,
Harvest, …;
• Il existe également des bibliothèques graphiques ou des
techniques de visualisation, plus ou moins adaptées à
chaque domaine, plus ou moins généralistes comme
ManyEyes ou Prefuse;
• Par ailleurs, des visualisations ont spécialement été
développées pour Twitter : l’ensemble des données est
organisé sur une plate-forme en ligne, qui met en avant un
nuage de mots-clés correspondant aux commentaires des
internautes ;
• ….
Exemples

• Nokia Internet Pulse qui


balaie automatiquement
le site de micro-bloging
en fonction de mots clés
particuliers, puis classe,
en deux catégories, les
messages relevés, ceux
faisant acte de
sentiments positifs, et
ceux qui véhiculent
plutôt un message
négatif.
Exemples

• Vox Civitas : un outil, fortement interactif, d’analyse visuelle permettant de


naviguer au sein d’une base de données composées de vidéos & Tweets relatifs à
ces vidéos. L’application permet de visualiser les tweets au fur à mesure de la
lecture de la vidéo, ou encore de naviguer dans ces tweets et de se positionner sur
la vidéo au moment de l’émission du tweet (application utilisée discours de B.
Obama pendant la campagne électorale US) ;
• Tweet Topic Explorer : outil qui commence par récupérer les tweets d’un compte
donné et les assemble en un nuage de bulles crées à partir des mots les plus
fréquents des tweets émis par ce compte ;
• TwitInfo : outil qui permet d’explorer un événement , comme un discours ou une
rencontre sportive, en détectant et labellisant automatiquement des pics dans le
flux d’arrivée des tweets, et en proposant une interface regroupant géolocalisation,
sentiments, liens populaires et tweets significatifs ;
• Twitt3D : outil qui récupère les tweets d’un compte donné et qui les affiche avec la
photo de leur auteur, le tout en trois dimensions.
Quelques exemples de visualisation de tweets : VoxCivitas,
TweetTopicExplorer, TwitInfo et Twitt3D
Visualisation & Veille stratégique

• La Visualisation des clusters permet de :


– récupérer les tweets de la période considérée,
– représenter la répartition dans le temps selon leur cluster
d’appartenance avec un algorithme défini,
– récupérer le premier tweet de chaque cluster.
– voir rapidement :
- Les périodes qui ont connues beaucoup de tweets ;
- Les clusters importants en volume caractérisés par des barres de couleur par
exemple placées sur le haut d’une courbe généralement ;
- Les clusters récurrents, dont la durée de vie peut-être plus ou moins longue
et s’étalent sur plusieurs jours, contrairement à ceux qui ont une faible
durée de vie.
- Visualiser des hashtags.
Conclusion
• Une Chaine de traitements s’appuyant sur Twitter (série de méthodes et d’outils)
permet la veille en temps réel :
– La récupération des données,
– Le filtrage, le regroupement (clustering) et la visualisation,
– et l’analyse ? Usages
• Les usages sont variés, on retiendra en particulier pour la veille stratégique les
usages qui permettent de :
– suivre l’évolution d'une marque, d'un produit, d'une société, d'un individu.
– Suivre l’environnement concurrentiel direct et indirect d’une entreprise et de son marché.
– Gérer les problématiques majeure d’une entreprise (par exemple le repositionnement ).
– mettre l’entreprise (Direction marketing ou commercial sur le terrain) en capacité de
réagir au plus vite à toute crise (client mécontent qui s'exprime sur des forums, ou une
initiative inattendue d’un concurrent).
– limiter le risque lié à une non-prise de décision : les marchés, qu'ils soient financiers ou de
biens et de services, imposent des délais d'intervention rapides aujourd’hui d’où
l’importance de disposer de données pertinnetes en temps opportun.

Vous aimerez peut-être aussi