Vous êtes sur la page 1sur 14

JADT 2014 : 12

es
Journes internationales dAnalyse statistique des Donnes Textuelles
Sphinx Quali : un nouvel outil danalyses textuelles et
smantiques
Youns Boughzala
1
, Jean Moscarola
2
, Mathilde Herv
3

1
Le Sphinx/Universit de Savoie yboughzala@lesphinx.eu
2
Universit de Savoie jean.moscarola@univ-savoie.fr
3
Sphinx Institute mherve@lesphinx.eu
Abstract
This paper focuses on Sphinx Quali presentation, a new Software specialized in Textual Data Analysis (TDA),
which combines approaches and resources analysis. It is a complete set of tools used to analyze very large
corpus of various origins (opened questions, scientific or press articles, historical writings, free or semi-
structured interviews, websites, forums, social networking pages...) and to assemble automated synthesis,
content analysis and text mining.
Referring to three different streams, which are Computer Assisted/Aided Qualitative Data AnalysiS (CAQDAS),
tools for language automatic processing and web search engines, Sphinx Quali integrates three types of
approaches, increasingly complementary: lexical, semantic and statistical methods.
This paper highlights the main innovations: semantic engines (thesauri, ontologies, and sentiment analysis),
lexical and statistical engines (descending hierarchical classification, verbatim selection), learning and automatic
extension of the content coding. Examples will be used to introduce the main innovations and thus to appreciate
the scope and limitations of this new software.
Rsum
Lobjectif de cette communication est de prsenter un nouveau logiciel dAnalyses des Donnes Textuelles
(ADT) : Sphinx Quali . Le dernier n des logiciels danalyse des donnes textuelles, il se veut un outil qui
mlange les approches et les ressources danalyse. Cest un ensemble complet doutils permettant danalyser des
corpus trs volumineux de diverses origines (questions ouvertes, articles scientifiques ou de presse, crits
historiques, entretiens libres ou semi-directifs, sites Web, forums, pages rseaux sociaux), et de combiner des
synthses automatiques, des analyses de contenu et des fouilles de texte. En effet, en se rfrant trois courants
diffrents, savoir les CAQDAS, les outils de traitement automatique des langues et les moteurs de recherche
Web, cet outil intgre trois types dapproches de plus en plus complmentaires : lexicales, smantiques et
statistiques.
La communication met en vidence les principales innovations : lutilisation des moteurs smantiques
(thsaurus, ontologies, analyse des sentiments), les moteurs lexicaux et statistiques (classification hirarchique
descendante, slection de verbatim) et lapprentissage et lextension automatique de codification de contenu. La
prsentation des principales innovations sappuiera sur des exemples permettant dapprcier la porte et les
limites de ce nouveau logiciel.
Mots-cls : Analyses des Donnes Textuelles (ADT), logiciel pour lanalyse textuelle, Sphinx Quali, analyse
lexicale, analyse smantique
1. Introduction
LAnalyse des Donnes Textuelles (ADT), appele aussi lAnalyse Qualitative des Donnes
(AQD), est lensemble des approches, mthodes et outils informatiques qui visent dcouvrir
linformation contenue dans un corpus textuelle. Son objectif est de qualifier les lments
essentiels dun corpus l'aide de catgories lexicales et/ou smantiques et les quantifier en
analysant la rpartition statistique des lments de ce corpus. Lusage de lADT est trs
ancien et vari en sciences humaines et sociales (Lebart et Salem, 1994). Avec le
92 YOUNES BOUGHZALA, JEAN MOSCAROLA, MATHILDE HERVE
JADT 2014 : 12
es
Journes internationales dAnalyse statistique des Donnes Textuelles
dveloppement du Web 2.0, des rseaux sociaux et du Big Data, la grande quantit de textes
disponibles sur le Web a rendu trs laborieux lusage des approches traditionnelles de lADT.
Ainsi, en capitalisant sur les acquis de ces approches, le recours des logiciels et outils
linguistiques et informatiques rpond des nouvelles exigences en termes de volume, de
complexit, de sources, de moyens humains et financiers, de temps, etc. De ce fait, les
diteurs de logiciels multiplient leurs efforts en termes de Recherche et Dveloppement
(R&D) afin de proposer des outils de plus en plus performants et qui rpondent aux nouveaux
besoins des chercheurs, entreprises et cabinets dtudes.
Lobjectif de cette communication est de prsenter un nouveau logiciel dADT : Sphinx
Quali . Lanc le 17 octobre 2013 Paris, cest un outil qui se veut complet et qui mlange
les approches et les ressources danalyse, permettant danalyser de manire rapide des corpus
trs volumineux et de diverses origines, et de combiner des synthses automatiques, des
analyses de contenu, des fouilles de texte et des analyses statistiques. La premire partie de
cette communication rappelle les diffrentes approches de lADT, les cas dusages et
notamment les nouveaux enjeux. La seconde partie prsente lorganisation du logiciel Sphinx
Quali. Elle met en vidence les principales innovations : lutilisation des moteurs smantiques
(thsaurus, ontologies, analyse des sentiments), les moteurs lexicaux et statistiques
(classification hirarchique descendante, slection de verbatim) et lapprentissage et
lextension automatique de codification de contenu. Enfin, pour apprcier les apports et les
limites du logiciel, la troisime partie est consacre la prsentation dun exemple de corpus
analys avec le Sphinx Quali.
2. LADT : tradition et nouveaux enjeux
La notion dtudes qualitatives ou dADT recouvre des pratiques trs varies dans le monde
acadmique et dans le monde professionnel. Les corpus peuvent tre des documents de
diffrentes natures. Des documents disponibles (littrature, compte-rendu, correspondances,
articles scientifiques ou de presse, sites Web, forums, pages rseaux sociaux, etc.) ou des
documents produits par le chercheur ou le charg dtudes pour les besoins de son tude
(entretiens, focus-group, observations du terrain, rponses des questions ouvertes, etc.).
Traditionnellement, lADT consiste prendre connaissance dun corpus textuel, gnralement
un discours, le lire et le fouiller pour en sortir les mots cls, de classer les fragments
spcifiques, ou encore de les coder manuellement sur la base dune grille danalyse pour
dnombrer les principaux thmes. Avec lapparition des CAQDAS (Computer-Aided
Qualitative Data Analysis Software), nous avons alors assist une extension
mthodologique de lapproche qualitative traditionnelle et plusieurs analyses plus au moins
automatiques ont vu le jour grce des outils quantitatifs (Moscarola, 2001 ; Jenny, 1997).
Pour analyser un corpus textuel, trois approches se distinguent. La premire appartient la
tradition littraire, il sagit de construire un nouveau texte pour rendre compte des textes
analyss. Cest la production dune synthse, dun rsum ou dun commentaire critique dont
le but est de dfendre ou de contredire un point de vue. Dans tous les cas, il sagt darticuler
une pense autour dides ou de concepts illustrs par des citations judicieusement choisies.
La qualit du rsultat dpend alors des aptitudes du rdacteur convaincre par la clart de son
expos et la pertinence de ses citations. La deuxime, manifeste lambition des sciences
humaines et sociales qui cherchent remplacer la subjectivit de lauteur par la dmarche
critique du chercheur. Il sagit alors dexpliciter les mthodes et dexposer les modalits de
prise de connaissance. Cest la dmarche de lanalyse thmatique ou de contenu. Elle consiste
situer le texte par rapport une grille de lecture (Code Book) explicitement construite par le
SPHINX QUALI : UN NOUVEL OUTIL DANALYSES TEXTUELLES ET SMANTIQUES 93
JADT 2014 : 12
es
Journes internationales dAnalyse statistique des Donnes Textuelles
chercheur, et utilise pour coder la prsence des diffrentes catgories de contenus
(thmatiques) et les dnombrer. La troisime approche est apparue avec le traitement
informatique des textes. Lexicale (compter les mots), puis smantique (identifier
automatiquement les contenus : concepts), qui bnficie des progrs des outils de lingnierie
linguistique. Pour les tenants de lintelligence artificielle, elle pourrait mme compltement
remplacer le lecteur. Pour les chercheurs et les chargs dtudes, elle amplifie la capacit de
prise de connaissance du corpus en produisant des substituts du texte qui rvlent ses
structures lexicales et smantiques. Ces trois approches ne doivent plus tre considres
comme alternatives mais plutt complmentaires (Moscarola, 2013). Cela dit, pour analyser
un corpus textuel, il est possible de recourir plusieurs types danalyses. Nous pouvons citer
les analyses lexicales (lemmatisation, calcul des occurrences des mots, proximit des mots,
dictionnaires, classes, associations, etc.), les analyses linguistiques (progression thmatique,
analyse des marqueurs de forme et les connecteurs dans le discours), les analyses thmatiques
ou de contenu (frquences des thmes de la grille danalyse ou modle par laffection des
fragments catgories thmatiques), les analyses smantiques (frquences des concepts et
ontologies), ou encore les analyses cognitives (chanages cognitifs, niveau dabstraction des
concepts et types de liens). Selon (Fallery et Rodhain, 2007), plusieurs facteurs dterminent le
choix du type danalyses utiliser, notamment le cadre mthodologique (exploratoire ou test
de modle dhypothses), limplication du chercheur, laxe temporel (analyse instantane ou
longitudinale), lobjet de lanalyse (un groupe ou un individu), la taille et la lisibilit du
corpus (qualit), lhomognit du corpus (discours dune seule personne ou dun groupe), la
structuration du langage et le moment de lanalyse statistique (ex-ante ou ex-post).
En parallle, nous assistons, depuis plusieurs annes, de manire exponentielle, la
combinaison des approches qualitatives avec les approches quantitatives, ce quon appelle les
mthodes mixtes de recherche (Mixed Methods Research). Ces dernires sont dfinies comme
lensemble des procdures de collecte et danalyse de donnes quantitatives et qualitatives
menes dans le cadre dune mme tude (Tashakkori et Teddlie, 2003). Les mthodes de
recherche mixtes sont nombreuses (nous pouvons citer par exemple la mthode du mur
dimages), elles offrent une multitude dopportunits et avantages pour la collecte et lanalyse
des donnes (Boughzala et Moscarola, 2013). En fait, selon ses adeptes, recourir une
approche multi-facettes permet de contrebalancer les faiblesses dune approche ou
technique par les forces dune autre et produisent des rsultats plus pertinents (Molina-
Azorin, 2011). Selon (Onwuegbuzi et Teddlie, 2003), mixer les mthodes de recherche et
danalyse sexplique pour au moins deux raisons, savoir la reprsentation et la lgitimation.
Pour ce faire, il est ncessaire alors dutiliser un ou plusieurs logiciels pour mettre en places
des analyses qualitatives et des analyses quantitatives. De ce fait, les diteurs de logiciels
enrichissent de manire continuelle leurs outils en essayant de permettre de coupler, dans un
mme outil, les ADT avec les analyses quantitatives conventionnelles . Laffluence de
nouveaux logiciels et outils dADT est la rsultante de la forte demande du monde
professionnel et du monde acadmique. Sur le Web, les entreprises peuvent dsormais
collecter de manire trs facile et rapide une quantit gigantesque de textes (commentaires sur
les pages des rseaux sociaux, tweets, messages sur les forums, e-mails, dpches, articles,
rapports, enqutes en ligne, etc.). Ces donnes peuvent tre exploites pour la veille
stratgique, la mesure de la notorit ou encore de le-notorit, la capitalisation des
connaissances, la prospection commerciale, lassistance technique, le service aprs-vente, etc.
Les chercheurs quant eux, ont de plus en plus besoin dune autre alternative, soit lanalyse
thmatique juge trop subjective, soit des simples analyses par mots cls juges trop pauvres
(Bournois et al., 2002). Ces derniers ont tendu les mthodologies qualitatives assistes
94 YOUNES BOUGHZALA, JEAN MOSCAROLA, MATHILDE HERVE
JADT 2014 : 12
es
Journes internationales dAnalyse statistique des Donnes Textuelles
par des outils quantitatifs (SpadT, Sphinx-Lexica, Alceste, Tropes, Decision Explorer,
NVivo... parmi les plus cits en France (Fallery et Rodhain, 2007). En plus de ces logiciels,
nous assistons au dveloppement des moteurs et outils du Web smantique et du Traitement
Automatique des Langues (TAL). Lobjectif ultime est, travers lapplication de programmes
et techniques informatiques, dorganiser automatiquement les contenus, dextraire de
linformation partir dun magma htrogne de textes peu structurs (Fallery et Rodhain,
2007). Ceci est de plus en plus possible avec le progrs des ressources technologiques et cest
dans ce mouvement, quaprs Sphinx-Lexica, la socit Le Sphinx Dveloppement a
dvelopp un nouveau logiciel : Sphinx Quali.
3. Sphinx Quali
3.1. Prsentation du logiciel
Sphinx Quali se veut un outil qui rpond tous les usages. Il mlange les approches et les
ressources danalyse permettant danalyser des corpus trs volumineux de diverses origines et
de combiner des synthses automatiques, des analyses de contenu et des fouilles de texte. Il
intgre les avances rcentes de lingnierie de la connaissance (ontologies, rseaux
smantiques). En effet, en se rfrant trois courants diffrents, savoir les CAQDAS, les
outils de Traitement Automatique des Langues (TAL) et les moteurs de recherche Web, cet
outil exploite trois types dapproches de plus en plus complmentaires : lexicales,
smantiques et statistiques. Pour ce faire, ce logiciel a intgr comme composant le moteur
danalyse smantique Synapse , socit spcialise en ingnierie linguistique. Ce moteur se
base sur un dictionnaire morphosyntaxique de 158 000 lemmes, un thsaurus 4 niveaux de
3781 feuilles documentes par autant dontologies. Le thsaurus est construit partir du
thsaurus Larousse (Larousse, 1994).





Figure 1. Page daccueil de Sphinx Quali
Dvelopp sur la plateforme OS Windows, il est caractris par une ergonomie intuitive et
proche des outils MS Office. Pour analyser un corpus, Sphinx Quali est organis en trois
grands menus en fonction de lobjectif, du contexte et du corpus de lutilisateur (Figue 2). Ce
dernier peut aborder son corpus selon sa convenance, aucune obligation de commencer par tel
ou tel menu (Figure 3). Pour les utilisateurs qui souhaitent complter les ADT par des
analyses statistiques. Le menu Reporting permet daccder lenvironnement des
tableaux de bord et de mettre en place une multitude danalyses quantitatives : analyses plat,
analyses croiss avec tests de significativit analyses factorielles, etc.


SPHINX QUALI : UN NOUVEL OUTIL DANALYSES TEXTUELLES ET SMANTIQUES 95
JADT 2014 : 12
es
Journes internationales dAnalyse statistique des Donnes Textuelles






Figue 2. Les trois menus danalyse




Figure 3. Les diffrents scnarii selon la problmatique, le corpus et les capacits de lutilisateur
Les corpus qui peuvent tre automatiquement imports sont des fichiers textes, des fichiers
structurs (.xls, .csv, .mdb, etc.), des donnes Web et rseaux sociaux (recherche et collecte
de donnes depuis des moteurs de recherche (Google, Bing) ou rseaux sociaux (Twitter,
Google+)) ou encore des saisies manuelles. Le logiciel assiste lutilisateur dans cette phase
dimportation des donnes en lui demandant de spcifier le contexte de collecte de donnes
(entretien semi-directif, focus-group) et lui donnant les consignes de prparation du corpus
et de conversion du texte en base de donnes Sphinx (variables de contexte ou signatures,
observations, possibilits de dcoupage). En effet, travers le menu Corpus , il est
possible de prparer le corpus, de lorganiser, didentifier les variables selon le volume de
leurs contenus, de dterminer linfluence du contexte sur la taille du corpus (indicateur
dintrt, de motivation ou dengagement), etc. Le logiciel nimpose aucune limitation de
volumtrie et de taille de corpus, la seule limitation est le temps de traitement et danalyse
1
.
Le Menu Synthse permet dobtenir automatiquement des indicateurs lexicaux et
smantiques et produire des synthses (cartes de mots et concepts cls, tableaux synthtiques,
classes thmatiques, caractrisation des opinions, spcificits lexicales par contexte). Le
Menu Codification permet de dfinir une grille d'analyse, de coder le texte manuellement
et de marquer les extraits spcifiques. Il offre aussi, par apprentissage, une extension

1
Le logiciel nimpose aucune limite de volume, mais pour les trs gros corpus, les temps de calcul pour la
lemmatisation et les analyses smantiques peuvent tre longs. En revanche, les calculs lexicaux et statistiques
sont instantans. Par exemple, les synthses du corpus des prsidentielles exemples ici-bas (114000 mots, 1194
tours de parole) sont produites avec un dlai de 58 secondes. Il faut 2 minutes et 29 secondes pour obtenir les
synthses smantiques dun corpus de 730 articles de presse (1275 pages, 613 472 mots). Enfin, le corpus des
106 985 mots formant les 3136 rponses la question ouverte dune enqute est analys en 24 secondes. Ces
temps sont tablis avec un ordinateur portable de puissance moyenne (Windows 7, 2.5GHz, 4 Go de RAM).
96 YOUNES BOUGHZALA, JEAN MOSCAROLA, MATHILDE HERVE
JADT 2014 : 12
es
Journes internationales dAnalyse statistique des Donnes Textuelles
automatique de lanalyse de contenu. Le Menu Exploration quant lui, permet dexplorer
les textes et les lexiques du corpus (listes des mots lemmatiss, des concepts, des verbes... ).
3.2. Les moteurs du logiciel et les analyses possibles
Dans ce qui suit nous prsentons les principales analyses proposes par Sphinx Quali en
prsentant les moteurs et procdures intgrs dans le logiciel.
3.2.1. Lanalyse lexicale
Dans une perspective de fouille de texte , Sphinx Quali permet de prendre connaissance du
corpus partir des mots quil contient travers une analyse lexicale avec lemmatisation et
correction orthographique. Lutilisateur peut ainsi se faire trs rapidement une ide du texte et
la documenter partir de verbatim judicieusement choisis. Il est possible alors de :
- Identifier les principaux mots sous leur forme lemmatise (nombre doccurrences,
nombre dobservations) et les mots composs,
- Diffrencier les mots selon leur statut grammatical (noms, verbes, adjectifs... ),
- Naviguer dans le corpus par entre lexicale et de rechercher les verbatim,
- Marquer les mots par couleur ou classer les citations par contexte ou signature (genre,
CSP... ),
- Dcouper les observations en phrases ou paragraphes,
- Regrouper les mots et construire des dictionnaires ad hoc.
3.2.2. Lanalyse smantique
Lanalyse lexicale peut tre complte par une analyse smantique qui consiste dterminer
les concepts auxquels les mots explors renvoient. Elle permet de dpasser lcueil en
dfinissant les conditions ncessaires pour passer du lexique au sens (ide, concept... ). Elle
fait appel aux notions de thsaurus, dontologie ou dictionnaire et de rseau smantique
(Figure 4). Un thsaurus dfinit un ensemble de significations, ides concepts et les organise
suivant une nomenclature arborescente qui va du gnral au particulier. Une ontologie ou un
dictionnaire est un ensemble dlments qui dfinissent une notion. Il sagt dun ensemble de
mots (sous leur forme lemmatise) qui renvoie une signification et donc une feuille du
thsaurus. Un rseau smantique est un ensemble de relations entre lments signifiants (mot
dun corpus ou significations dun thsaurus) conduisant prciser le sens de ces lments en
fonctions des lments auxquels ils se trouvent relis.
Ainsi, avec Sphinx Quali, il est possible principalement de :
- Identifier les thmatiques prsentes dans le texte et les principaux concepts avec un
niveau de dtail choisi (seuil de svrit) par lutilisateur,
- Illustrer les concepts par les verbatim correspondants,
- Adapter les terminologies,
- Crer des variables fermes sur les concepts.



SPHINX QUALI : UN NOUVEL OUTIL DANALYSES TEXTUELLES ET SMANTIQUES 97
JADT 2014 : 12
es
Journes internationales dAnalyse statistique des Donnes Textuelles





Figure 4. Thsaurus, ontologie et rseau smantique
3.2.3. Lanalyse automatique des sentiments
Le traitement automatique pour lanalyse des sentiments permet dautomatiser la synthse des
multiples avis pour obtenir efficacement une vue densemble des opinions sur un sujet donn.
En effet, les sources de donnes textuelles porteuses dopinion disponibles sur le Web se
multiplient : avis dinternautes, forums, rseaux sociauxUne expression dopinion possde
une polarit, qui peut tre soit positive, soit ngative, soit neutre. La valeur neutre correspond
une opinion de polarit ambigu, qui sera ventuellement dsambiguse par le contexte.
Lanalyseur de sentiment dtermine dans lensemble du corpus les opinions exprimant un
sentiment, un jugement ou une valuation. Il prcise la tonalit du texte en situant la nature et
lintensit des opinions mises par rapport un rpertoire de sentiments.
Le moteur renvoie, pour chaque texte analys, les lments du thsaurus qui lui
correspondent. Il est alors possible de :
- Identifier lorientation du corpus et les opinions positives et ngatives et les sentiments
exprims,
- Marquer les opinions positives ou ngatives avec des couleurs,
- Reprer les passages des fragments de corpus exprimant une opinion grce aux
marqueurs dexpressions subjectives,
- Dterminer la valence ou lorientation de lopinion grce aux champs lexicaux des
opinions positives et ngatives,
- Dgager la synthse de lorientation globale du fragment analys (algorithme
dagrgation rhtorique ou majoritaire).
3.2.4. Lanalyse de contenu
Avec la confluence du TAL et de lADT, Sphinx Quali permet de :
- Crer un Code book mono ou multi grille,
- Contrler le dfilement du corpus par taille ou contenu,
- Recueillir et marquer des extraits significatifs,
- Choisir le niveau du thsaurus pour mener lanalyse,
- Vrifier la stabilit de la codification par vision des lments dj cods,
- Etendre la codification manuelle par une codification automatique et assiste grce un
apprentissage sur la base des premiers lments cods et la reconnaissance de contenue
(similarit, affectation sur la base dune recherche des plus proches voisins). Ce procd
est efficace lorsque les textes cods sont courts et mono-focaliss. Si ces conditions ne
sont pas remplies, il peut tre ncessaire de redcouper le corpus par phrases.
- Rviser la grille et de produire des rsultats.
98 YOUNES BOUGHZALA, JEAN MOSCAROLA, MATHILDE HERVE
JADT 2014 : 12
es
Journes internationales dAnalyse statistique des Donnes Textuelles
3.2.5. La classification hirarchique descendante
Inspire de la mthodologie ALCESTE (Analyse des Lexmes Cooccurrents dans les noncs
Simples dun Texte) (Reinert, 1990 ; Benzecri, 2007), cette procdure consiste scinder le
corpus en classes homognes selon les mots et/ou les concepts quelles contiennent. Elle
permet de rvler les structures thmatiques du texte. Celles-ci sont rvles par laffichage
des nuages de mots spcifiques (significativement sur-reprsents) de chaque classe. Elle
procde par itrations successives partir dune analyse factorielle des correspondances
multiples (Figue 5). La table des donnes comporte en colonne les lemmes et/ou concepts des
textes dcrits par les lignes du tableau. La premire itration conduit une partition selon le
premier plan factoriel. La classe la plus nombreuse fait lobjet dune nouvelle partition. Les
itrations se poursuivent par partition de la classe de plus grand effectif, tant que celle-ci est
suprieure un pourcentage de la population totale fix comme critre darrt.




Figure 5. Classification hirarchique descendante
Cette analyse est particulirement utile lorsque lanalyse porte sur un grand nombre de textes
de nature identique : rponses une question ouvertes, contributions des forums,
dinterviews non directives, articles de journaux
3.2.6. Les calculs de spcificits
Les calculs de spcificits (Lebart et Salem, 1994) consistent rpondre aux questions
suivantes : Quest-ce qui diffrencie les contenus provenant de tel contexte, de telle catgorie
de locuteurs, ou de contenus ? Il sagit de caractriser les observations correspondants un
sous ensemble dobservations : classes de la classification thmatique, contextes, orientations
des rponses. Pour cela, la procdure utilise un test qui met en vidence les lments lexicaux
et/ou smantiques sur-reprsents dans des sous-ensembles. Les algorithmes de spcificit
sont fonds sur des tests statistiques (rapport de frquence ou comparaison de frquence) et
permettent de trouver automatiquement les mots, concepts, ou phrases les plus rvlateurs.
Les rsultats de ces calculs dterminent alors les lments affichs dans les nuages de mots ou
dans les tableaux de caractristiques, et servent identifier les influences du contexte,
interprter les classes thmatiques, contrler la codification manuelle et slectionner les
verbatim spcifiques ou les plus pertinents.
3.2.7. Les analyses statistiques
Pour restituer les rsultats de lADT, notamment suite la cration de variables fermes sur
les lexiques, les concepts cls ou les classes, il est possible de mettre en place plusieurs types
danalyses statistiques : analyses plat, analyses croises, analyses factorielles, etc.
SPHINX QUALI : UN NOUVEL OUTIL DANALYSES TEXTUELLES ET SMANTIQUES 99
JADT 2014 : 12
es
Journes internationales dAnalyse statistique des Donnes Textuelles
4. Exemple
Pour illustrer certaines fonctionnalits de Sphinx Quali, nous prsentons un exemple dADT
effectu sur le corpus de cinq
2
dbats de 2
me
tour des lections prsidentielles en France de
1981 2012. Cest un corpus de 127 978 mots, 300 pages.
- Des dbats de plus en plus longs et vifs : Comme le montre la Figure 6, les dbats sont
de plus en plus longs et vifs. Les journalistes interviennent moins et les changes sont
plus nombreux et plus brefs. Le dbat entre Franois Hollande et Nicolas Sarkozy est
le plus long et le plus intense. Les journalistes interviennent peu, les changes sont
plus nombreux et plus rapides.








Figure 6. Caractristiques du corpus
- Les mots cls des cinq dbats : Les mots montrent bien quil sagt dabord de la
France et des Franais, de prsident de la rpublique et des problmes de
gouvernement, etc.

Figure 7. Nuage des mots cls

2
Cinq dbats pour six lections car en 2002 il ny pas eu de dbat pour le 2
me
tour entre Chirac et Le Pen.
100 YOUNES BOUGHZALA, JEAN MOSCAROLA, MATHILDE HERVE
JADT 2014 : 12
es
Journes internationales dAnalyse statistique des Donnes Textuelles
- Les mots cls de chaque dbat et de chaque candidat : Il sagit didentifier les
spcificits des dbats (Figue 8) et des candidats (contexte) et notamment les mots
communs (Figure 9) : premier , mais surtout responsabilit , europen et
dbat .














Figure 8. Les mots cls pour chaque dbat, pour chaque candidat et les mots communs
- La classification thmatique : La classification hirarchique descendante effectue sur
lensemble des dbats met en vidence cinq classes qui rpartissent les interventions
en cinq catgories (Figure 9). Lexamen des termes spcifiques chaque classe permet
de distinguer ainsi cinq types de discours ou thmatiques. Le thme de la Gestion, qui
renvoie aux actions dun gouvernement qui gre. Le thme de la Politique parle de :
majorit , vote , gouvernement , prsident de la rpublique . Celui de la
volont et du Promouvoir : vouloir , permettre , donner , projet ,
responsabilit . Celui de la Dcision : problme , falloir , risque ,
autorit Enfin, celui du Financier : milliard , millions , nombres ,
payer , euros ...
SPHINX QUALI : UN NOUVEL OUTIL DANALYSES TEXTUELLES ET SMANTIQUES 101
JADT 2014 : 12
es
Journes internationales dAnalyse statistique des Donnes Textuelles
Ces thmes reprsentent des poids ingaux. En les enregistrant comme une variable ferme
supplmentaire dans la base, il est possible ensuite de caractriser leur poids selon les
priodes ou les candidats.







Figure 9. Classification des thmes
- Les rfrences smantiques des discours : Les trois principaux champs smantiques
sont : Activits conomiques, Vie sociale et Ordre et mesure. En bas de la liste, nous
retrouvons : Droit, Volont et Etre humain (Figure 10).



Figure 10. Les rfrences smantiques des dbats
- Les rfrences smantiques selon la priode et les candidats : La Figure 11 met en
vidence la place croissante au cours du temps du discours gestionnaire par rapport au
discours politique. De mme, lopposition entre les dbatteurs qui accordent de
limportance au thme du Politique, les Mitterrand et Giscard du dbut de priode et
ceux qui se positionnent plus sur le Dcider, Grer, Sarkozy et Royale. De manire
trs remarquable, Chirac et Hollande se situent au centre de graphique ce qui indique
quils ne privilgient aucun de ces thmes, mais les dveloppent tous de manire
proportionne.
102 YOUNES BOUGHZALA, JEAN MOSCAROLA, MATHILDE HERVE
JADT 2014 : 12
es
Journes internationales dAnalyse statistique des Donnes Textuelles


Figure 11. Les rfrences smantiques selon la priode et les candidats
5. Conclusion et limites
Lobjectif de cette communication est de prsenter aux chercheurs et chargs dtudes le
nouveau logiciel dADT Sphinx Quali . Il est le fruit de plusieurs mois de R&D et de
plusieurs annes dexpertise de lquipe de Sphinx Institute et de ses partenaires. La
prsentation orale permettra de voir avec plus de dtails, travers plusieurs autres exemples,
les diffrentes analyses et fonctionnalits proposes dans cet outil. Sa premire version
prsente encore certaines limites, notamment sa dpendance la langue franaise, lunique
traitement des textes (et non pas des vidos) ou encore labsence de la procdure du double
codage. Certes, cest un outil intelligent mais lintelligence artificielle ne permet pas encore
de remplacer compltement le lecteur. En effet, la reconnaissance des significations nest pas
sans faille. Elle dpend bien sr de la rectitude orthographique et syntaxique du texte. Elle est
plus dlicate pour les niveaux bas du thsaurus (concepts dtaills ou trs dtaills). Enfin,
plus les textes sont courts, plus pauvre est lanalyse des rseaux smantiques, ce qui peut
conduire des mprises videntes pour le lecteur inform, par ailleurs, de la nature des textes
analyss.
Le logiciel Sphinx Quali est distribu en France par la socit Le Sphinx Dveloppement
(www.lesphinx.eu). Une documentation dtaille (mode opratoire) est disponible en ligne
sur : http://infos.lesphinx.eu/docquali/
Rfrences
Benzecri J P. 2007. Linguistique et lexicologie. Dunod (rdition).
Boughzala. Y. et Moscarola J. (2013). Le mur dimages dans les enqutes en ligne : comment stimuler
pour observer et mesurer ?, International Marketing Trends Conference, 17-19 janvier 2013,
Paris, France.
Bournois F., Point S. et Voynnet-Fourboul C. (2002). Lanalyse de donnes qualitatives assiste par
ordinateur : une valuation, Revue franaise de Gestion, 137, janvier-mars 2002.
Fallery B. et Rodhain F. (2007). Quatre approches pour lanalyse des donnes textuelles : lexicale,
linguistique, cognitive, thmatique, 16
me
Confrence Internationale de Management Stratgique,
6-9 juin, Montral.
SPHINX QUALI : UN NOUVEL OUTIL DANALYSES TEXTUELLES ET SMANTIQUES 103
JADT 2014 : 12
es
Journes internationales dAnalyse statistique des Donnes Textuelles
Ghiglione R., Landre A., Bromberg M. et Molette P. (1998). Lanalyse automatique des contenus,
Paris, Dunod, 1998.
Jenny J., (1997). Mthodes et pratiques formaliss danalyse de contenu et de discours dans la
recherche sociologique franaise contemporaine : tat des lieux et essai de classification, Bulletin
de mthodologie sociologique (BMS) N 54.
Lebart L. and Salem A. (1994). Statistiques textuelles. Dunod, Paris.
Molina-Azorin, J.F. (2011). The use and added Value of mixed Methods in Management research,
Journal of Mixed Methods Research, 5, 7-24.
Moscarola J. (2001). Contributions des mthodes de lanalyse qualitative la recherche en
psychologie interculturelle : Sphinx et MCA, 8me Congrs International de lARIC, Genve
2001.
Moscarola J. (2013). Du Lexical au Smantique : La nouvelle version de Sphinx pour les tudes
qualitatives , Working Paper, Le Sphinx.
Onwuegbuzi A.J. et Teddlie C. (2003). A framework for analyzing data in mixed methods research,
in Handbook of mixed methods in social and behavioral research.
Pchoin D. (Sous la direction de) (1994). Thsaurus Larousse : Des ides aux mots, des mots aux
ides, 2
me
dition.
Reinert A. (1983). Une mthode de classification descendante hirarchique : application lanalyse
lexicale par contexte, Les cahiers de lanalyse des donnes, Tome 8, N2, pp. 187-198.
Reinert M. (1990). ALCESTE : Une mthodologie d'analyse des donnes textuelles et une
application : Aurlia de Grard de Nerval, Bulletin de mthodologie sociologique, n26, pp. 24-
54.
Tashakkori A. et Teddlie C. (2003). Handbook of mixed methods in social and behavioral research,
Thousand Oaks, CA: Sage.

Vous aimerez peut-être aussi