Vous êtes sur la page 1sur 27

XVIme Confrence Internationale de Management Stratgique

Quatre approches pour lanalyse de donnes textuelles :


lexicale, linguistique, cognitive, thmatique

Bernard FALLERY, Professeur


Universit Montpellier 2
CREGOR Montpellier-Management
Place Eugne Bataillon, 34000 Montpellier
Tel : (33) (0)4 67 14 42 21 ; Fax (33) (0)4 67 14 41 20
bernard.fallery@univ-montp2.fr

Florence RODHAIN, Matre de Confrences


Universit Montpellier 2
CEROM Montpellier-Management
23000 Avenue des Moulins, 3185 Montpellier
Tel : (33) (0)4 67 10 28 20 ; Fax (33) (0)4 67 45 13 58
rodhain@polytech.univ-montp2.fr

Rsum
Cette contribution est dordre mthodologique.
L'Analyse de Donnes Textuelles (A.D.T.) regroupe aujourdhui de nombreuses mthodes, et de
nombreux outils, qui visent dcouvrir l'information essentielle contenue dans un texte. En
sintressant plus particulirement la demande des chercheurs en Management Stratgique,
quatre exemples sont prsents, tous issus du mme laboratoire de recherche, des diffrentes
approches de lA.D.T. De quoi parle-t-on? Cest le domaine de lanalyse lexicale. Comment en
parle-t-on ? Il sagit alors danalyse linguistique. Comment structurer une pense ? Cest
lambition de la cartographie cognitive. Et enfin comment interprter un contenu ? Il sagit de
lassistance lanalyse thmatique. Pour ces quatre approches (illustres par les quatre outils
Alceste, Tropes, Decision Explorer, NVivo) on discute des problmes mthodologiques et
thoriques poss : discours et reprsentation, langage et nonciation, structuration et
communication, interprtation et abstraction

Mots cls : mthodologie, lexicale, linguistique, cartographie, qualitative.

Montral, 6-9 Juin 2007 1


XVIme Confrence Internationale de Management Stratgique

INTRODUCTION
L'Analyse de Donnes Textuelles (A.D.T.) regroupe les mthodes qui visent dcouvrir
l'information essentielle contenue dans un texte, et le foisonnement de nouveaux outils auquel
on peut assister aujourdhui est la conjonction de deux demandes diffrentes :
- dune part une demande des entreprises, qui peuvent aujourdhui collecter trs facilement
une grande quantit de textes avec Internet (articles, brevets, dpches, rapports, tudes, mais
aussi e-mails, messages de forums, enqutes clients, fiches de centres d'appel, descriptifs de
produits...). Il s'agit alors d'organiser automatiquement les contenus, d'extraire de l'information
partir d'un magma htrogne de textes peu structurs. On constate alors une extension de la
fouille de donnes textuelles Textmining ou de la cartographie Web Positioning System, pour la
veille stratgique bien sr, mais aussi pour lindexation automatique de documents ou la
capitalisation des connaissances (Wordmapper de GrimmerSoft, Zoom de Acetic, LexiQuest de
SPSS, TextMiner de SAS ). Ces outils ont tendance aujourdhui complter un noyau dur
doutils statistiques en ajoutant des environnements spcifiques : des lexiques et des ontologies
de domaine, des serveurs dannotations, le tout associ des fonctions de robots aspirateurs et
des outils de cartographie,
- et dautre part une demande des chercheurs, qui ont besoin dune alternative soit de
traditionnelles analyses de contenu juges trop subjectives, soit de simples analyses par mots-
cls juges trop pauvres (Bournois et al., 2002). On constate ici une extension des mthodologies
qualitatives assistes par des outils quantitatifs (SpadT, Sphinx-Lexica, Alceste, Tropes,
Decision Explorer, NVivo... parmi les plus cits en France) et les recherches en cours promettent
encore de nombreux dveloppements pour la formulation des requtes intelligentes sur un
corpus de donnes textuelles, que ce soit avec le Web smantique (la spcification des ontologies
en Informatique) ou avec le T.A.L. (la spcification des grammaires en Traitement Automatique
des Langues).
En sintressant plus particulirement la demande des chercheurs en Management Stratgique
qui considrent que les discours (les investigations de terrain) constituent une entre privilgie
de leur objet dtude, seront dabord prsents certains facteurs de choix dun outil dA.D.T.
Quatre exemples, tous issus du mme laboratoire de recherche, permettront ensuite de discuter les
diffrentes approches de lA.D.T. De quoi parle-t-on? Cest le domaine de lanalyse lexicale.
Comment en parle-t-on ? Il sagit alors danalyse linguistique. Comment reprsenter une

Montral, 6-9 Juin 2007 2


XVIme Confrence Internationale de Management Stratgique

pense ? Cest lambition de la cartographie cognitive. Et enfin comment interprter un


contenu ? Il sagit de lassistance lanalyse thmatique. Pour chacune de ces quatre approches
nous discuterons des problmes mthodologiques et thoriques poss.

1. LES FACTEURS DE CHOIX DUN TYPE DANALYSE DE DONNEES


TEXTUELLES
Les chercheurs se situant dans le courant actuel de recherche en Stratgie qui valorise la
dimension langagire et communicationnelle ont bien compris limportance de se doter doutils
pour lanalyse des discours, outils par ailleurs devenus classiques en sciences humaines et
sociales (en linguistique et en sociologie bien sr, mais aussi en histoire, lettres, droit, mdecine ).
Analyser un discours relve toujours dune crativit et dun bricolage ; le profil de lanalyste
reste donc une variable importante (discipline dorigine, rfrentiel thorique, comptences,
entourage..). Au-del de ce premier point, et pour une recherche en Stratgie, le choix dun outil
danalyse devrait surtout dpendre de trois lments : les choix mthodologiques, la constitution
du corpus, et le moment de lanalyse statistique.
Tableau 1. Les facteurs de choix dun type danalyse de donnes textuelles
Analyses Analyses Analyses Analyses
Lexicales Linguistiques Cognitives Thmatiques
Cadre - exploratoire - exploratoire - exploratoire - exploratoire
Mthodologique - modle - modle
Implication - Forte - Forte - Forte
du chercheur - Faible - Faible
Axe temporel - instantan - instantan - instantan - instantan
- longitudinal - longitudinal
Objet danalyse - un groupe - un individu - une situation - un projet
Taille du corpus - importante - limite - limite - importante
Lisibilit Corpus - forte - forte - faible - faible
Homognit Corpus - faible - forte - forte - faible
Structuration langage - faible - faible - forte
Moment de lanalyse - dcouverte ex-ante - ex-ante
statistique - contrle ex-post - ex-post - ex-post

1.1. LE CHOIX DUN TYPE DANALYSE, EN FONCTION DES CHOIX METHODOLOGIQUES


Recherche exploratoire ou modle dhypothses ? Coupe instantane ou analyse longitudinale ?
Implication du chercheur dans les rcits (entretiens, observations) ou analyse distancie des
pratiques (textes lgitims, discours officiels, enqutes...) ? Les choix mthodologiques sont tous

Montral, 6-9 Juin 2007 3


XVIme Confrence Internationale de Management Stratgique

acceptables, et ils nont quune seule exigence : tre justifis. Le choix de loutil doit lui aussi
tre justifi par rapport ces choix mthodologiques.
En prenant le cas des analyses lexicales, on pourrait dire quelles semblent adaptes pour une
recherche exploratoire conduite sans a priori, puisquelles nexigent au dpart aucun prsuppos
concernant le contenu du texte. Mais le croisement possible de variables signaltiques (age,
catgorie sociale..) avec des spcificits lexicales rpond lide de la dtermination dun
contenu par son contexte, et lanalyse lexicale peut alors devenir aussi un outil pour une
recherche fonde sur un corps dhypothses (on verra dailleurs que certains outils ont ts
construits au dpart sur cette ide).

1.2. LE CHOIX DUN TYPE DANALYSE, EN FONCTION DU CORPUS


Pour ladquation entre un outil et un corpus, au moins deux questions mritent dtre dbattues :
la qualit et lhomognit de ce corpus.
La qualit du corpus est lie sa taille et sa lisibilit. Pour la taille les avis sont partags suivant
que lon envisage une analyse lexicale (plusieurs milliers de documents possibles) ou linguistique
(cent pages est souvent propos comme une limite). Il est clair que lorsque l'on a traiter un
grand nombre de donnes, un gain de temps significatif est obtenu soit par une premire lecture
lexicale, soit par une analyse thmatique assiste par CAQDAS (Computer Aided Qualitative Data
Analysis Systems). La lisibilit du corpus incite la vigilance. Quand des ambiguts peuvent tre
lies la non prise en compte du sens, il faudrait alors craindre une analyse lexicale : il est
classique qu'un terme trop frquent, ne prsentant donc pas de cooccurrences particulires, ne soit
pas distribu dans une classe particulire ; c'est alors la source d'une erreur d'interprtation qui
amne lanalyste considrer ce terme comme non signifiant pour les sujets, alors qu'il n'est que
non spcifique. Quand lanalyse est rendue complexe par les stratgies discursives et les schmes
idologiques des locuteurs, il faudrait alors craindre une analyse linguistique : on peut alors
choisir une analyse thmatique mais avec des allers-retours entre codage et dcodage, et enrichir
l'analyse avec des lments illustratifs (sociaux, biographiques, thmatiques, source du document,
reprsentations du lecteur...) ou supplmentaires (rires, silences, points de suspension, questions
du meneur de jeu...).

Montral, 6-9 Juin 2007 4


XVIme Confrence Internationale de Management Stratgique

Lhomognit du corpus devient de plus en plus problmatique mesure que lon cherche
raliser la fameuse triangulation des donnes, pourtant juge si ncessaire la validit logique
des tudes qualitatives : analyser le discours dune personne ou les discours de personnes
diffrentes est un choix qui mrite rflexion. Lnonciation peut-elle tre considre comme lie
une certaine position socio-historique pour laquelle les nonciateurs seraient interchangeables ?
Certains locuteurs parlent-ils au nom dune structure (discours syndicaux et directoriaux) ou
sexpriment-ils en leur nom propre (entretiens, courriels ) ? Peut-on regrouper des
communications orales retranscrites (rptitions ncessaires, dialogue orient par un meneur de
jeu, anonymat relatif, fonction motive ) avec des crits institutionnels (texte argumentatif,
procds rhtoriques, fonction conative..) ? Doit-on considrer les rponses une question
ouverte et les rponses donnes lissue de la relance, comme deux questions indpendantes ou
comme une seule rponse ? Dans la construction progressive dun chantillon pour des entretiens,
la mthode classique des choix raisonns assure-t-elle la fois la similitude et la varit
(reprsentation suffisante des statuts formels et informels, des rles, des intrts, des ressources,
des relations dalliances et doppositions) ? Les rponses ces questions devraient orienter le
choix vers un type danalyse, mais on verra que les outils proposs mritent une large discussion
la fois mthodologique et thorique.

1.3. LE CHOIX DUN TYPE DANALYSE, EN FONCTION DU MOMENT DE LANALYSE STATISTIQUE


Face des matriaux constitus en corpus, il est ensuite du ressort du chercheur de dterminer le
niveau danalyse auquel il prtend oprer et quel type de questions il entend soumettre les
textes : sagit-il de classer des textes ou des fragments de textes, dextraire des informations pour
un commanditaire, deffectuer une synthse, deffectuer linventaire des thmes traits, denrichir
un corpus de commentaires ? Les diffrents outils noprent pas tous sur les mmes types
dobjets et noffrent pas tous les mmes possibilits, et on peut finalement avoir une approche ex-
ante ou ex-post.
Dans une approche statistique plutt ex-ante, ce sont les traitements de donnes qui vont guider
linterprtation : on fait alors l'hypothse que la structure formelle du discours implique des
relations de sens tablies par le sujet, et l'utilisation du logiciel constitue un outil mthodologique
pour contrer les a priori du chercheur. On peut alors choisir une analyse lexicale : inventaire
lexical du corpus trait, calcul des frquences doccurrence des mots, laboration dun rseau

Montral, 6-9 Juin 2007 5


XVIme Confrence Internationale de Management Stratgique

graphique de diffrentes notions, laboration de classes le tout tant considr comme un


support pour une interprtation. Mais on peut aussi se situer dans une approche linguistique :
tude des connecteurs dans le discours, progression thmatique, analyse des marqueurs de forme
dans le discours (forme assertive, interrogative, imprative...). Dans ces deux approches, lexicale
ou linguistique, la question du sens est reporte en fin danalyse au moment de la prise de
connaissance des rsultats (mais charge ensuite lutilisateur de dpasser les indices fournis en
approfondissant la main dautres niveaux danalyse).
Dans une approche statistique plutt ex-post on se situera dabord un niveau extralinguistique,
et loutil ne sera utilis dans ce premier temps que pour assister le codage du contenu dans une
analyse thmatique (affection chaque fragment du discours de catgories thmatiques que la
lecture a permis de rvler, couplage avec des donnes sur le contexte de communication ou des
donnes sociodmographiques sur lmetteur) ou pour assister le codage dune carte cognitive
(niveau dabstraction des concepts, type de liens..). Ce nest que dans un deuxime temps quon
contrlera lanalyse ou la carte par des traitements statistiques : ce type danalyses statistiques
ex-post permet notamment de contrler les rgles de la codification, mais surtout de dcouvrir
des rsultats contre intuitifs qui peuvent amener modifier les catgories qui avaient t utilises
au dpart.

2. LANALYSE LEXICALE : POUR DECRIRE DE QUOI ON PARLE


Lanalyse lexicale est fonde sur les proximits entre les mots employs et la statistique
frquentielle : aprs une premire tape de fabrication dun lexique de mots puis de dcoupage du
texte en units, il est ensuite construit une matrice de prsence/absence Mots du lexique x
Units de texte . A cette matrice on applique alors les mthodes de lanalyse de donnes
multidimensionnelles fondes sur le Chi2 (analyse factorielle de correspondances, classification
hirarchique ) pour mettre en vidence les classes, les catgories ou les oppositions.
Lobjectivit propose est lie au fait que les donnes sont traites sans a priori sur les catgories
dcouvrir.

Montral, 6-9 Juin 2007 6


XVIme Confrence Internationale de Management Stratgique

Encadr 1. Une analyse lexicale avec Alceste :


Pour tablir une typologie des rcits de vie des femmes collaboratrices
Il sagit ici dun projet EQUAL sur le statut professionnel des femmes en Europe (Fallery et Marti 2007).
Lobjectif tait, pour des femmes collaboratrices dartisans ou dagriculteurs, de constituer un rpertoire
dhistoires que lon puisse ensuite partager et commenter sur Internet. Le Corpus de dpart tait un ensemble
de textes retranscrits aprs le recueil de dix premiers entretiens de type rcits de vie . 96 histoires
diffrentes racontes ont t dabord repres (units initiales), et loutil Alceste www.image.fr (Reinert,
1998) a t ensuite utilis.
Sur environ 45.000 mots de dpart, le logiciel en retient 3.600 pour construire le lexique. Sur les 96 histoires
de dpart, le logiciel fait un premier dcoupage en 1000 units de contextes lmentaires, quil regroupe
ensuite en 600 Units de Contexte appeles UC. La matrice Lexique/Units permet alors les diffrents
traitements :
- Cinq classes diffrentes sont proposes par Classification Descendante Hirarchique CDH, et en fonction de
leurs mots caractristiques le chercheur peut les reconnatre et les nommer. Classe 1 : la Maison-
Famille (essayer, chose, disponible, maison, organiser, important, sparer, fonction, projet, famille,
semaine, bureau, ensemble, week-end, quotidien ) Classe 2 : l'Emploi du temps (matin, manger, soir,
aprs-midi, devoir, scolaire, traite, partir, midi, cole, linge, enfant, sur, repas, quart) Classe 3 : le
Commercial (client, Internet, ordinateur, fournisseur, couter, compte, appeler, structure, planning, lieu,
message, rendu, expliquer, content, rcent..) Classe 4 : les Statuts (exploiter, statut, installer, retraite,
salarie, pre, ville, conjoint jeune, reprendre, socit, an, poux..) Classe 5 : la Formation (formation,
comptable, gestion, technique, administration, acqurir, examen, cooprative, domaine, sein, prise,
commission, entreprise, paie, tablissement)
- Des relations dopposition sont donnes par lAnalyse Factorielle de Correspondances AFC dans une
reprsentation graphique. Dans cet exemple, l'axe 1 explique 34% de la dispersion totale, et il oppose
Maison-Famille Statuts .
- Des tris croiss permettent de croiser une variable signaltique avec le texte, pour analyser qui parle de
quoi ? . Dans cet exemple, les femmes dartisans et travaillant mi-temps parlent beaucoup moins
d Emploi du temps .
- Une analyse par Classification Ascendante Hirachique (CAH) permet, pour chaque classe, de dfinir
diffrentes sous-classes. Ici par exemple, la Classe 2 Emploi du temps peut se dcomposer en : le soir, les
devoirs, les repas, les problmes, les aides, lcole, les week-end.

2.1 . PREMIER POINT DES ANALYSES LEXICALES : LE DECOUPAGE EN UNITES, PUIS LA

CLASSIFICATION
Aprs une opration de lemmatisation (c'est--dire la fabrication dune forme rduite du texte,
standardise par des dictionnaires) le premier dcoupage se fait dans Alceste en Units

Montral, 6-9 Juin 2007 7


XVIme Confrence Internationale de Management Stratgique

Elmentaires de Contexte (appeles UCE) qui sont automatiquement composes dune trois
lignes de texte conscutives. Ces premires UCE sont ensuite regroupes en Units de Contexte
(appeles UC) qui contiennent un certain nombre de mots analyss diffrents (le logiciel calcule
ce nombre suivant la taille et la nature du texte analyser, mais on peut faire diffrentes
simulations).
A partir du tableau binaire de prsence/absence UCi x Mots, la phase de Classification
Descendante Hirarchique CDH consiste extraire automatiquement des classes d'noncs en
cherchant les partitions qui maximisent le Chi2 (une double classification est faite, sur des UC de
grandeurs lgrement diffrentes, ce qui minimise le risque derreur d au dcoupage).
Les rsultats donnent alors, pour chacune des classes trouves, les mots et les phrases les plus
significatifs, les segments rpts, les concordances des mots les plus caractristiques. Un
dendrogramme restitue sous forme schmatique les mesures de proximits et dloignements des
classes.

2.2 . DEUXIEME POINT DES ANALYSES LEXICALES : LES ANALYSES COMPLEMENTAIRES


Les tableaux peuvent tre soumis lAnalyse Factorielle de Correspondances (AFC) pour donner
une reprsentation graphique des relations dopposition. Les tris croiss permettent de croiser une
variable signaltique avec le texte, pour analyser Qui parle de Quoi ? . Une analyse par
Classification Ascendante Hirarchique (CAH) permet aussi, dans chaque classe, de dfinir les
diffrentes sous-classes. Enfin en observant la frquence de certains mots-outils (les adverbes ou
les locutions adverbiales, exclus au dpart dans le calcul des classes) dans leurs Units de
Contexte respectives, on peut sintresser certaines formes de modalisation (Gavart-Perret et al,
1998).
Pour des corpus de grande taille lapproche lexicale prsente lavantage de rduire
considrablement le volume d'information lire et analyser, mais le calcul des proprits
statistiques du texte (richesse lexicale, indices de spcificit, segments rpts, associations...)
offre surtout la possibilit de diffrentes lectures assistes (dcouvertes de rsultats statistiques
surprenants donc nouvelles interrogations donc retour au texte partir de certaines entres
lexicales). La richesse des calculs proposs par tel ou tel logiciel peut donc devenir un critre de
choix. La possibilit de dfinir des dictionnaires spcifiques (on les appelle des scnarios dans
Alceste) permet de dnombrer dans le texte des formes correspondant un dictionnaire construit,

Montral, 6-9 Juin 2007 8


XVIme Confrence Internationale de Management Stratgique

et donc de relire le texte avec des quasi-variables dont loprationnalisation peut alors presque
sapparenter aux chelles dun questionnaire ferm.

2.3. LES DIFFERENTS LOGICIELS DANALYSE LEXICALE


En France le site des Journes de lAnalyse de Donnes Textuelles JADT constitue une
excellente source dinformation, en Allemagne le site de INTEXT recense de nombreux logiciels
libres. Larticle de Jenny (1997) reste une rfrence incontournable. Sphinx-Lexica (o des
variables de codification et leur prsentation lcran peuvent notamment tre dfinies par le
chercheur, Moscarola et al. 2001) et Spad-T (qui permet notamment la modification interactive
du vocabulaire et la sparation en formes lexicales actives ou illustratives, Lebart et Salem, 1994)
sont souvent cits en France comme extensions qualitatives textuelles partir d'un logiciel
classique de traitement d'enqute par questions codes. Pour Alceste on consultera ltude de
Aubert-Lotarski et al. (2002) et la contribution de Peyrat-Guillard (2000) dans le domaine de la
GRH. Des grilles dvaluation et de comparaison de ces outils danalyse lexicale ont t
proposes dans le contexte industriel dEDF (Bruguidou et al. 2000, Quatrain et al. 2004).

2.4. DISCUSSION SUR LES ANALYSES LEXICALES : LE TRAITEMENT DES AMBIGUTES ET LE


PRESUPPOSE DUNE REPRESENTATION DE LA REALITE.
Quelle que soit leur efficacit, les analyses lexicales ne manquent pas de soulever des questions,
aussi bien mthodologiques que thoriques.
Dun point de vue mthodologique le traitement des ambiguts ncessite une trs grande
attention afin dviter les contresens. Le cas de l'affirmation et de la ngation est un problme
important : par dfaut, les analyses ne se basent pas sur les marqueurs de modalisation (ne, pas...)
pour tablir la classification, plusieurs tests supplmentaires sont donc ncessaires pour cerner le
niveau d'expression de la ngation qui a pu tre pris en compte. Dune faon plus gnrale
lexclusion des mots-outils (, afin, alors) dans les analyses lexicales, relve bien du
paradigme des mots-cls cher aux documentalistes pour lesquels la slection des mots
descripteurs les plus pertinents suffirait rsumer un texte. Dautres ambiguts doivent tre
leves par lamlioration des dictionnaires : on devra par exemple lier ensemble des locutions
composes qui prsentent une unit de sens (cots_de_transactions), ou linverse sparer deux
sens qui utilisent le mme mot. De ce point de vue le travail ralis dans la communaut INTEX

Montral, 6-9 Juin 2007 9


XVIme Confrence Internationale de Management Stratgique

est un des plus aboutis : systme intgr de dictionnaires de type Delaf, Delacf, Delafm.. (formes
et polyformes, usages), dfinition de graphes pour crer des grammaires locales
personnalises, dfinition dautomates pour identifier et tiqueter des concordances complexes
(quasi-segments) (Bolasco 2000, Silberztein, 2001). Enfin on peut se demander si deux classes
lexicales pourtant bien diffrentes relatent toujours des prises de position dissemblables :
deux classes peuvent relever de modes d'expression htrognes au niveau de la forme et tre
pourtant trs proches sur le fond, si elles concernent en fait les mmes opinions mais exprimes
par des synonymes, des paraphrases, des priphrases, des formulations incompltes, des ellipses,
des commentaires sur les mots utiliss
Dun point de vue thorique, ce problme de fond et de forme rvle en fait une conception
particulire des rapports entre la ralit et le langage. Dans une analyse lexicale, on considre que
le langage sert reprsenter la ralit, ou que la parole reflte la pense : pense et
paroles ne font que rendre prsent un Rel, qui tait dj l mais partiellement absent. On
considre donc, dans une vision plutt positiviste, que les objets du monde ont des proprits
essentielles en dehors de la manire dont ils sont dcrits, et la vrit se dfinit ici comme une
adquation des noncs la ralit, le langage possdant alors un statut de dsignation et de
reprsentation (Qur, 1990).
Mais ce concept de reprsentation est pourtant loin dtre clair au niveau thorique : sagit-il
dun systme dinterprtation de la ralit ? dune image rapporte autre chose ? ou encore dun
processus de communication avec soi-mme ? Dans une acception plutt sociologique et
objective, les reprsentations sont proches des connaissances stabilises (ce sont alors des
concepts, paradigmes, noncs, visions du monde...), alors que dans une acception plutt
psychologique et cognitive les reprsentations sont plutt qualifies de modlisations
contingentes pour traiter une situation (ce sont alors des mythes, ides, penses...). Une analyse
lexicale considre finalement le langage comme une articulation de ces deux niveaux
(reprsentations/connaissances plutt collectives et reprsentations/ides plutt individuelles)
pour permettre de re-prsenter sans ambigut une ralit prexistante : on peut parler dune
approche positiviste du rapport entre langage et ralit.

3. LANALYSE LINGUISTIQUE : POUR DECRIRE COMMENT ON EN PARLE


Nous qualifions ici ces analyses de linguistiques , dans la mesure o elles ont lambition

Montral, 6-9 Juin 2007 10


XVIme Confrence Internationale de Management Stratgique

dapprhender deux niveaux du discours, tout en gardant distance la subjectivit du codeur :


non seulement la catgorisation morphologique et lagencement syntaxique (Qui dit quoi ?
qui ?), mais aussi la correspondance smantique et la modalit pragmatique (Comment ? Avec
quels effets ?).
Lanalyse linguistique repose sur lide quil existe des connections entre systme linguistique et
systme cognitif, et il sagit alors de prendre en charge la fois les aspects lis la cohrence
rfrentielle (ce quoi le texte se rfre : des substantifs, signes linguistiques qui renvoient une
ralit extra linguistique) et aussi ceux relatifs au contexte dnonciation (comment est-ce dit :
des verbes, des adverbes, des conjonctions, des connecteurs.. qui servent traduire la relation du
locuteur la situation, son point de vue et ses jugements).
Encadr 2. Une analyse linguistique avec Tropes :
Pour expliciter comment se construisent les convictions dun crateur dentreprise
Il sagit ici de la thse de Y. Andrieux (2005) sur llaboration des projets de cration dentreprise. Pour
l'valuation du projet, le crateur a en charge de faire partager par des tiers la vraisemblance de lordre
nouveau qu'il propose. Pour asseoir la coordination des points de vue des diffrentes parties sur la viabilit du
projet encore virtuel, lobjectif est ici de pouvoir expliciter la gense des convictions du porteur, et pour cela de
reprer les intentions en analysant la modalisation de son discours.
Le Corpus a t constitu de 21 discours de crateurs (de 12 pages en moyenne) sur leurs convictions quant la
viabilit de leur projet. On a utilis loutil Tropes (www.acetic.fr) fond sur lAnalyse Cognitivo-Discursive
(ACD, Ghiglione et al, 1998).
Dans un premier temps, grce des scnarios prexistants (dictionnaires dquivalents smantiques) et des
scnarios spcifiques (dictionnaires construits pour chaque entretien, par exemple Golfeur = Client), Tropes a
permis de reprer les Univers des discours en analysant les substantifs (noms communs et noms propres du
texte). On a pu ainsi distinguer Gens , Client , Besoin , Activit , Dmarche , Informations ,
Expriences antrieures , Relations , Documentation , en plus des deux Univers Connaissance et
Comptence qui taient dj dfinis dans le scnario prexistant Concept.
Dans un deuxime temps on voulait comprendre le poids des antcdents (expriences, relations,
documentation/observation) dans la gense des convictions du porteur de projet, en tudiant la modalisation
des discours (par analyse des verbes du texte). La faon dont un antcdent a t vcu a t dcrite grce aux
diffrents verbes employs : 48 verbes daction mentale (croire, penser, voir, sentir, ressentir ), 8 verbes
dialogiques (dire, demander, montrer), 11 verbes de volition (aimer, plaire, vouloir) et 23 verbes dautres
actions humaines (crer, dvelopper..). Chacune des milliers de propositions grammaticales numrote et
identifie (cest dire chaque conviction se rapportant lun des Univers : besoin de la clientle,
comptences ncessaires, viabilit de lactivit) a alors t couple un antcdent, le vcu de chaque
couplage tant dcrit en termes dactes, grce aux diffrentes catgories de verbes illustrant laction : acte

Montral, 6-9 Juin 2007 11


XVIme Confrence Internationale de Management Stratgique

dinteraction, acte dobservation, acte de perception.). Le rcit a ainsi permis danalyser la constitution des
actes ayant form le projet comme objet de pense : par familiarit avec un phnomne ( je peux le refaire ),
par schmatisation du client type ( je crois que ), etc.

3.1. PREMIER POINT DES ANALYSES LINGUISTIQUES : LE DECOUPAGE PAR PROPOSITIONS, PUIS

LA DEFINITION DES UNIVERS

Tropes prend non pas la phrase mais la proposition grammaticale (sujet, verbe, prdicat)
comme unit de dcoupage : unit pertinente dans les thories cognitives et en mme temps unit
de dcoupage approprie un texte. A chaque proposition peut tre attribu un score calcul en
fonction de son poids relatif, de son ordre darrive et de son rle argumentatif, ce qui permet de
reprer des propositions remarquables (thmes, personnages, vnements) hors de toute
interprtation pralable.
La relation entre lactivit cognitive et ses traces dans le discours se justifie ici par la notion de
micro univers : Un sujet traite une information en mettant en scne un ensemble structur
et plus ou moins cohrent de micro univers, chacun tant peupl a minima dun actant qui fait
laction et de lacte que le verbe accomplit (Ghiglione et al, 1998). Pour chaque mot dune
proposition, les Univers reprsentent le contexte, ils sont construits en regroupant les principaux
substantifs du texte (noms communs et noms propres) grce des scnarios existants
(dictionnaires dquivalents smantiques) et/ou construire par le chercheur. Les relations entre
univers peuvent alors indiquer quels sont les univers frquemment rencontrs cte cte
l'intrieur d'une mme proposition, et on peut distinguer les univers qui sont gnralement placs
en position d'actant avant le verbe (effectue laction) ou en position d'act aprs le verbe (subit
laction). Dans lensemble dun texte on peut reprer la rpartition chronologique dun univers (il
peut apparatre beaucoup plus au dbut ou la fin du texte).

3.2. DEUXIEME POINT DES ANALYSES LINGUISTIQUES : LE REPERAGE DES INTENTIONS PAR LA

MODALISATION ET LES ENCHAINEMENTS

Comprendre un texte devient ici identifier les intentions, et les traces de lintention se voient lors
de larticulation de deux propositions et le rseau de causalit sous-jacent. Dans la pratique
deux notions sont alors utilises : les connecteurs et les rafales.

Montral, 6-9 Juin 2007 12


XVIme Confrence Internationale de Management Stratgique

Les connecteurs et joncteurs (conjonctions de coordination et de subordination, verbes,


adverbes) relient des parties de discours par des notions de condition, cause, but, disjonction,
opposition, comparaison, temps, lieu ou de manire. Ils permettent de situer l'action, de construire
un raisonnement, d'numrer des faits ou des caractristiques, d'argumenter...
Une rafale regroupe des occurrences de mots (contenus dans un univers) ayant une probabilit
se rpter de manire importante dans une partie limite du texte (au dbut, au milieu ou la fin).
Un pisode correspond alors une partie du texte o un certain nombre de rafales se sont
formes et termines : ruptures thmatiques (fin dune srie de rafales), passages o un nouvel
pisode est dvelopp (nouvelle srie de rafales) Le style gnral du discours correspond la
rpartition des frquences d'apparition des catgories de mots observes dans le texte, en
comparaison avec des normes de production langagire : style Argumentatif, Narratif,
Enonciatif ou Descriptif. Quand aux mises en scne verbales possibles elles sont les suivantes :
mises en scne Dynamique, Ancre dans le rel, Prise en charge par le narrateur, Prise en charge
l'aide du Je .

3.3. LES DIFFERENTS LOGICIELS DANALYSE LINGUISTIQUE


Alors que Tropes ne propose aucun a priori sur les Univers de rfrence, dautres outils proposent
au contraire de coder les fragments du discours suivant des genres fonds sur une rfrence
thorique. Loutil MCA (Meaning Constitution Analysis www.mcadev.com), propos en Sude
par R. Sages, propose par exemple six dimensions fixes, inspires de lapproche
phnomnologique, o chaque Unit est coder selon diffrentes Views : le type de croyance
affiche (opinion gnrale, probabilit, hsitation), la fonction (perceptive, imaginative,
conative), le temps (pass, prsent), lvaluation porte (positive, ngative, neutre), la volont
(engagement, aspiration, absence) limplication du sujet (je, nous, aucune) (Moscarola, 2001). De
la mme manire dans The Ethnograph (www.qualisresearch.com) le mode de
fonctionnement relve aussi du codage de segments de texte par le chercheur puis d'un traitement
quantitatif des codes rsultants. Prospro (www.prosperologie.org ), propos en France par
Chateauraynaud (2003), est lui centr sur les configurations (dans lesquelles on dfinit des
acteurs, des vnements, des dispositifs, des arguments) et sur les transformations subies par ces
configurations (basculements, mis en rapport avec le pass), et le lecteur doit mettre jour ses

Montral, 6-9 Juin 2007 13


XVIme Confrence Internationale de Management Stratgique

propres catgories d'analyse en utilisant un double systme de reprsentation (faits et


interprtations).

3.4. DISCUSSION SUR LES ANALYSES LINGUISTIQUES : LE TRAITEMENT DES MODALISATIONS ET

LE PRESUPPOSE DE LENONCIATION

Dans une approche linguistique il ne sagit plus de considrer le texte en extension


(inspiration plutt positiviste), mais il sagit bien de vouloir le saisir en intention et de
reconstruire les mondes possibles du locuteur (inspiration plutt constructiviste) en explorant les
significations inscrites dans chaque fragment de texte. Laction prend place dans les rapports du
langage et de la ralit, car les paroles ne font pas que vhiculer des informations ou fournir une
reprsentation dun objet indpendant : elles sont aussi, dans leur nonciation mme, plus ou
moins performatives et doivent tre analyses en tant qu'actes, vnements, pratiques sociales
part entire. Description et justification sont considres comme relevant dune mme activit.
Dun point de vue mthodologique, cest ici le traitement des modalisations qui constitue la
racine du lien entre langage et ralit. Modaliser un discours, cest en modifier la valeur, de faon
linguistique ou non (signes non verbaux) : La modalit nest jamais que le supplment de
langue, ce par quoi, telle une supplique, jessaye de flchir son pouvoir implacable de
constatation. , R. Barthes (in Ghiglione & al 1998). La modalisation caractrise linsertion du
discours dans des contextes sociaux, elle traduit donc lactivit cognitive. Mais alors, ny a-t-il
pas une contradiction considrer le discours comme le reflet dun acte dnonciation et traiter
un corpus compos du discours de plusieurs personnes ? Et si le message est considr comme la
trace dune intentionnalit, les univers de rfrence ne sont-ils pas dfinir en rfrence un
contexte social ou historique, un ensemble des connaissances conditionnant une pratique ?
Ces questions nous ramnent au dbat thorique sur la langue (outil de communication) et la
parole (assimile un acte), ou au dbat sur lnonc (le contenu) et lnonciation (la mise en
discours) et il nest pas si simple didentifier la thorie qui sous-tend tel ou tel logiciel. Pour la
linguistique de lnonciation, un corpus doit tre envisag en tant quil a t produit par tel
sujet, en se rfrant Benveniste : la subjectivit nest que lmergence dans ltre dune
proprit fondamentale du langage. Est Ego qui dit Ego , (cit par Andrieux 2005). Cest la
subjectivit qui trouve son fondement dans le langage. La subjectivit ne prcde pas la
possibilit de son expression, cest au contraire le matriel linguistique qui permet lexpression

Montral, 6-9 Juin 2007 14


XVIme Confrence Internationale de Management Stratgique

de la subjectivit, qui permet au sujet de se situer dans et par le langage. Lacte dnonciation
rvle le sujet qui le pose, avant mme de dire quelque chose sur le monde. A linverse, ce quon
appelle lcole franaise de lanalyse du discours (Maingueneau, 1998) insiste sur les formations
discursives en se rfrant Michel Foucault : les discours religieux, judiciaires, thrapeutiques,
et pour une part aussi politiques, ne sont gure dissociables de cette mise en uvre dun rituel
qui dtermine pour les sujets parlant la fois des proprits singulires et des rles convenus
(cit par Jenny 1997). Le discours est ici envisag comme un ensemble de rgles socio-
historiques, dtermines dans le temps et lespace, et qui dfinissent les conditions dexercice de
la fonction nonciative : le discours mdical, le journal tlvis ou le cours magistral ne sont pas
dissociables du personnage statutairement dfini qui a le droit de les articuler. Laccent est mis ici
sur les stratgies discursives , que lon peut alors considrer soit comme des conventions
langagires plus ou moins consensuelles, soit comme des pratiques antagonistes de
domination/rsistance.
On voit quau-del des aspects techniques et mthodologiques des logiciels danalyse
smantique, la question de linterprtation de la modalisation dans un texte renvoie plusieurs
thories des rapports du langage et de la ralit.

4. LA CARTOGRAPHIE COGNITIVE : POUR STRUCTURER UNE PENSEE


Une carte cognitive (un graphe des ides et des liens entre ces ides), reprsentation matrielle
graphique des reprsentations mentales dun ou plusieurs sujets un moment donn, est
gnralement obtenue partir dune reprsentation discursive exprime dans un texte ou un
entretien.
Encadr 3. Une analyse cognitive avec Decision Explorer :
Pour structurer les diffrentes argumentations dans lemploi des seniors
Il sagit ici dun projet EQUAL portant sur la gestion des seniors (Pijoan 2005). Lobjectif de ltude tait
de comprendre pourquoi peu dorganisations mettent en place des pratiques favorisant le maintien en
emploi des seniors. Le Corpus tait lensemble des textes retranscrits aprs entretiens auprs de directeurs
de maisons de retraite sur le thme des employs seniors : recrutements, conditions de travail Loutil
Decision Explorer (www.banxia.com) a t utilis, et des cartes cognitives ont pu tre construites pour onze
directeurs interviews.
Dans un premier temps, un total de 172 ides diffrentes ont t repres sur les onze cartes individuelles
qui ont t construites, et 149 ides ont finalement pu tre classes dans six catgories : les caractristiques
des seniors et des jeunes, les modalits du travail, le problme de lge, et les trois politiques de

Montral, 6-9 Juin 2007 15


XVIme Confrence Internationale de Management Stratgique

GRH (politique en gnral, politiques centres sur les seniors, politiques centres sur les jeunes). Chaque
carte contient une cinquantaine de concepts inter-relis.
Dans un deuxime temps, comme lobjectif de ltude tait ainsi de comprendre pourquoi peu
dorganisations mettent en place des pratiques favorisant le maintien en emploi des seniors, on a tudi les
chanes dargumentation qui apparaissent sur les cartes. On a ainsi pu classer les chanes
dargumentation concernant les stratgies de rgulation et celles concernant les leviers dactions possibles
: les argumentations des directeurs apparaissent diffrentes suivant le type de situations rencontres
(situations harmonieuses ou situations conflictuelles) et suivant les visions du problme de lemployabilit
(visions centres sur les avantages/inconvnients des jeunes ou visions centres sur les
avantages/inconvnients des seniors).

4.1 . PREMIER POINT DES CARTOGRAPHIES COGNITIVES : LA COLLECTE ET LE CODAGE MANUEL


DES IDEES

Pour la collecte certaines approches sont trs structures pour assurer la fidlit ( Self-Q de
Bougon, 1986), dautres sont dlibrment ouvertes pour assurer la validit ( Soda de Eden et
al. (1992), Core de Rodhain et Reix (1998), enfin certaines pourraient tre qualifies de
mixtes (questions spontanes puis grilles dexploration systmatique, de Cossette (2003)). On
peut travailler partir de documents crits, mais ds quil sagit dentretiens retranscrits, la place
du chercheur est toujours considre comme cruciale : Une carte cognitive est une
reprsentation graphique de la reprsentation mentale que le chercheur se fait d'un ensemble de
reprsentations discursives nonces par un sujet partir de ses propres reprsentations
cognitives, propos d'un objet particulier. (Cossette et Audet 1994).
Pour le codage, ce sont les modalisations (connecteurs et joncteurs) qui permettent de reprer les
liens, et pour amliorer la fiabilit certains prconisent de soumettre aux rpondants les dlicates
oprations de fusion des concepts (Allard-Posi, 1997). Il est alors possible de construire des
cartes collectives, et l'laboration d'une carte peut faciliter la transmission d'ides entre plusieurs
individus : carte moyenne (un lien est retenu en fonction du score obtenu un vote), carte
assemble (runion de sous-cartes, aprs exclusion des concepts non communs) et souvent carte
composite (qui rsulte alors dune communication, d'une vritable ngociation de sens entre
participants). Ceci ne doit pas cacher les difficults du codage (diffrences entre donnes de faits
et variables daction, diffrences de niveau dabstraction, quivalents smantiques) et le retour
aux sujets apparat alors comme un gage de validit.

Montral, 6-9 Juin 2007 16


XVIme Confrence Internationale de Management Stratgique

4.2. DEUXIEME POINT DES CARTOGRAPHIES COGNITIVES : LA STRUCTURATION DES

REPRESENTATIONS

Une fois construites de manire subjective mais rigoureuse, les cartes cognitives peuvent tre
analyses, avec ici lambition dune lecture plus structurelle que ne lautoriserait une
approche lexicale ou linguistique. Lintrt est de donner un poids aux concepts en fonction dun
indicateur, et non pas en fonction de limportance perue attribue par les frquences. Ces
indicateurs de complexit et de complication permettent alors didentifier les lments autour
desquels sarticulent les reprsentations des individus, leurs similarits et leurs divergences.
On peut dabord caractriser les proprits structurelles dune carte, qui rvlent l'organisation
des connaissances dun sujet, sans considration quant leur contenu : nombre total dides,
nombre dides isoles, nombre de relations, rapport ides/relations, nombre de boucles, longueur
des chanes dides, nombre dides en entre et en conclusion sur une chane d'argumentation
Lanalyse automatique de cluster consiste identifier dans la carte des groupes de concepts
mutuellement exclusifs, groupes dides faiblement dpendant les uns des autres.
La mesure de l'importance d'un concept peut ensuite tre apprhende par le nombre de
facteurs auxquels il est reli directement ou indirectement : dans Decision Explorer on parle
de domaine si on ne prend en compte que les concepts qui lui sont directement relis, et on
parle de centralit si on prend en considration la longueur moyenne de tous les sentiers
reliant ce concept d'autres. Bien que les cartes cognitives, dans la plupart des cas, ne prennent
pas en compte la force des liens qui unissent les concepts, ces analyses permettent quand mme
d'identifier les noyaux du rseau constitu par la carte, sans que les interviews aient toujours
pleinement conscience de leur rle.

4.3. LES DIFFERENTS LOGICIELS DE CARTOGRAPHIE COGNITIVE


Seule une carte capable de reprsenter l'ensemble des liens, quelle que soit leur nature, pourrait
lgitimement se voir attribuer le qualificatif de cognitive : relations causales, conatives,
temporelles, composites, fortes/faibles Ceci semble peu ralisable et dans la pratique on peut
sparer les outils utiliss dans lanalyse de relations causales (bien que Decision Explorer
propose diffrentes catgories de relations) et ceux utiliss dans les associations smantiques.
Cest dans cette catgorie que loffre est aujourdhui abondante dans une perspective soit de

Montral, 6-9 Juin 2007 17


XVIme Confrence Internationale de Management Stratgique

veille sur Internet, soit de Gestion de Connaissances : WebRain, Internet Cartographer,


MindManager, OpenMind, Inspiration, Freemind sous licence GNU.
Ltude de S. Trbucq (2004) sur les discours de la finance dentreprise associe Tropes, Lexter et
la cartographie Decision Explorer.

4.4. DISCUSSION SUR LES CARTOGRAPHIES COGNITIVES : LA RELATION CIRCULAIRE ENTRE LA

CARTE ET LA PENSEE

La considration de diffrentes reprsentations intermdiaires (reprsentations mentales,


discursives, graphiques reprsentations du sujet, du chercheur..) est bien souligne dans la
littrature (Verstraete, 1996). Mais les relations entre ces reprsentations relvent souvent dune
causalit linaire et non pas dun processus circulaire. Or la production de discours et de
graphiques (la reprsentation) nest pas sans produire deffet sur la pense (le reprsent), ce
processus conduisant alors re-construire la reprsentation mentale. Deux questions thoriques
sont alors poses : celle des rapports entre la pense et laction, celle des rapports entre la pense
et le langage.
La pense est-elle premire et laction seconde ? Llaboration d'une carte cognitive peut
certes permettre de clarifier une ide confuse (structuration), d'envisager des voies d'actions
possibles (aide la dcision), de faire prendre conscience certains que ce qui est vident pour
eux ne lest pas pour les autres (communication), de passer du tacite lexplicite
(formalisation) Mais en gnral les approches de la cartographie cognitive considrent
implicitement lexistence dun reprsent statique et posent comme hypothse que la
reprsentation dcrit et prvoit le comportement dun individu sincre qui agit en fonction des
thories quil a adoptes (Pense Action). Laroche et Nioche (1994) critiquent alors les espoirs
que certains chercheurs en stratgie mettent dans les cartes cognitives, savoir quelles
permettent de dceler ce qui initie le changement stratgique et de saisir la stratgie en tant
quensemble dactions coordonnes. Cela revient tablir un lien de causalit du type Problme
Rflexion Action : laction stratgique suivrait la rflexion, que la carte permettrait de
mettre en lumire. Or le modle de la dissonance cognitive montre une attitude souvent
rationalisante des individus et montre des thories reconstruites aprs laction afin de retrouver la
consistance et lquilibre (Action Pense). On doit donc au moins considrer que le lien qui
unit Action et Pense est complexe et boucl, il ne peut se rduire un sens de la relation.

Montral, 6-9 Juin 2007 18


XVIme Confrence Internationale de Management Stratgique

Les penses dun sujet, refltes dans son discours, sont-elles antrieures la demande du
chercheur ? La pense est-elle premire et le langage second ? Merleau-Ponty (1945) rpond
clairement par la ngative, il ny a pas de pense hors des mots, la vie intrieure est un langage
intrieur : une pense qui se contenterait dexister pour soi, hors des gnes de la parole et de la
communication, aussitt apparue tomberait linconscience, ce qui revient dire quelle
nexisterait pas mme pour soi . Selon Pichot (1991) il sagit dune quasi-assimilation : la
conscience des abstractions et concepts est exclusivement linguistique, le langage est donc
lexpression consciente de la pense, laquelle est alors conue comme une activit psychique
(voire nerveuse) discursive calque sur lactivit linguistique qui est sa forme consciente. Le
discours met en forme les reprsentations mentales, il les influence : au fur et mesure que
lindividu sentend parler, il modifie sensiblement ou insensiblement ses reprsentations
mentales. Comment puis-je savoir ce que je pense avant davoir entendu ce que je dis ? (Weick
1979) : pour lindividu le discours quil tient peut devenir lui-mme sujet dcouverte.
Sil ny a pas indpendance entre la pense et le langage, les reprsentations discursives influent
alors sur la reprsentation mentale durant le processus de construction de la carte cognitive,
comme elles ont influenc le processus de reprsentation mentale des concepts. Que se passe-t-il
lorsque lindividu se trouve face la carte trace par le chercheur ? Il serait surprenant que la
carte ne soit pas source de questionnement sur la pense quelle est cense modliser et ainsi
de suite jusqu ce quintervenant et individu, fatigus par ce jeu, admettent que la reprsentation
graphique reprsente de manire satisfaisante une pense que lun et lautre vont supposer stable.
Le discours est de toute faon partial, puisquil a t amnag de manire ce quil soit reu par
le chercheur, et que la neutralit dans la rception du discours nexiste pas, on ne peut pas ne
pas communiquer disent Watzlawick et al. (1972). Il nexiste pas de non-comportement, tout
comportement a valeur de message.

5. LANALYSE THEMATIQUE : POUR INTERPRETER UN CONTENU


Quelle place faut-il laisser linterprtation ? Les outils lexicaux, linguistiques et
cartographiques proposent tous une certaine objectivation, en standardisant la dfinition des
catgories ou la structure des liens. A linverse le principe des CAQDAS (Computer Aided
Qualitative Data Analysis Systems) est ici celui dune analyse top-down qui laisse le codage des
catgories au soin de lanalyste, mais en proposant de lassister dans la gestion de ce codage

Montral, 6-9 Juin 2007 19


XVIme Confrence Internationale de Management Stratgique

(gestion des liens entre les verbatim et les catgories en construction, annotations volont en
ajoutant des proprits aux segments textuels...). On prend donc ici en compte les processus
interprtatifs dans la construction de la donne, mais avec la possibilit daugmenter la validit
des analyses de contenu classiques qui ne proposaient quune approche mthodique fonde
sur lexplicitation des rgles de lecture, dinterprtation et de codage. Ces outils ont lavantage de
permettre de manipuler des units non-linguistiques, ou du moins des units qui sont htrognes:
ce ne sont plus ni des lemmes ni des phrases, mais plutt des notions (des mots, des ides, des
paragraphes, des documents, des images, des propositions).
Une analyse de contenu consiste lire un corpus, fragment par fragment, pour en dfinir le
contenu en le codant selon des catgories qui peuvent tre construites et amliores au cours de la
lecture (cest une approche constructiviste, avec le risque de changer la question de recherche en
cours de travail). Dans un premier temps les significations des textes sont catgorises selon le
modle qui guide le chercheur, cest la fameuse grille danalyse : matrices par phases ou par
thmes, volution de ces matrices, cartes cognitives. Dans un deuxime temps intervient
lanalyse statistique sur les lments de la grille danalyse : frquence dapparition, variation
selon les locuteurs, selon les contextes, interdpendance entre les lments du modle
NVivo http://www.qsrinternational.com, HyperResearch www.researchware.com sont
des logiciels pour grer les liens entre des verbatim et des catgories en construction. Ils
permettent au chercheur de manipuler des masses importantes de documents htrognes de
faon itrative (allers-retours entre codage et dcodage) pour tudier dynamiquement la
complexit dun corpus. Ils nont pas t conus comme des outils danalyse statistique, mais ils
permettent lexportation travers la construction de rapports .
Encadr 4. Une analyse thmatique avec NVivo :
Pour analyser de multiples donnes sur les stratgies de Gestion de la Relation Client
Il sagit ici de la thse de B. Bousqui sur les stratgies de Gestion de la Relation Client (Bousqui 2006).
Le travail de terrain est une tude de cas en recherche participative sur plus dune anne, qui bnficie
donc dun volume trs important de donnes : plusieurs vagues dentretiens directifs approfondis, des
entretiens individuels semi directifs avec cinq nationalits, des entretiens semi directifs en groupe de
travail, des notes de runions, et trs nombreux documents secondaires (au dpart 60 Go de fichiers
divers disponibles) : gestion de projet, suivi de projet, communication autour du projet Dans un
premier temps, et cest la phase de dcontextualisation, chaque document a t numris (avec
rcupration en type texte des tableurs et diaporamas) et chaque document ou extrait de document a t
class suivant plusieurs Nuds dcrits par leurs attributs : thme prdfini pour un entretien, ide

Montral, 6-9 Juin 2007 20


XVIme Confrence Internationale de Management Stratgique

mergeant la lecture, concept thorique issu de la littrature, chapitre de thse La collecte et


lanalyse ne sont pas sparables : un des objectifs du travail tant danalyser les capacits mobilises dans
un projet CRM, on a par exemple qualifi en dtail tous les extraits de textes qui concernaient une
capacit organisationnelle donne (maturit, comptences, impact)
Dans un deuxime temps la manipulation du codage permet la gestion de larborescence des Nuds, ou
la fusion de Noeuds en une catgorie plus large avec hritage des attributs. La recontextualisation a par
exemple consist ici construire automatiquement une matrice, un rfrentiel de capacits (capacits
fonctionnelles, capacits techniques X maturit, Input ncessaires, Output possibles).

5.1. PREMIER POINT DES ANALYSES THEMATIQUES : LA DECONTEXTUALISATION PAR LE


CODAGE DES THEMES

NVivo utilise tout type de documents enregistrs au format .rtf (Rich Text Format), ce qui rend
quand mme exploitables certaines donnes issues de diaporama ou de tableurs. La
dcontextualisation consiste sortir de son contexte un extrait du texte, afin de le rendre
smantiquement indpendant : cette tape de codage, entirement libre et le plus souvent
manuelle, permet de stocker les informations, de les qualifier et de les organiser. Pour chaque
Document de base (documents numrises qui peuvent tre annots, lis entre eux, ou lis un
fichier extrieur) et pour chacun des Nodes qui sont crs (un Nud est comme un rpertoire qui
permet de coder chaque extrait de documents), on est amen dcrire ainsi des Attributs (avec
un type et une valeur, qui peuvent dailleurs tre imports dun tableur) et des Sets (ensembles de
Documents similaires ou de Nuds similaires).

5.2. DEUXIEME POINT DES ANALYSES THEMATIQUES : LA RECONTEXTUALISATION PAR LES

MATRICES ET MODELES

Recontextualiser consiste dans NVivo regrouper les Noeuds pour en faire un tout intelligible et
porteur de sens. La premire fonctionnalit offerte permet de faire une relecture assiste du
corpus : recherche textuelle sur un mot ou une expression (avec cration possible dun nouveau
Nud pour chaque recherche), recherche des co-occurrences en croisant un Attribut et un Noeud
(ex : hommes x en dsaccord ), ou recherche matricielle (ex : Attributs x Valeurs x
Nuds) avec intersection, union, ngation, diffrence, matrice dintersection, matrice de
diffrence.

Montral, 6-9 Juin 2007 21


XVIme Confrence Internationale de Management Stratgique

La deuxime fonctionnalit consiste crer des matrices (croisement de diffrents nuds) et


crer des modles (croisement de documents et/ou de nuds). Une matrice est constitue dun
nud-parent A (contenant plusieurs nuds-enfants A1, A2, A3) que lon peut croiser avec un
autre nud-parent B (contenant plusieurs nuds-enfants B1, B2, B3). Un modle est un schma
des relations, qui fait apparatre tous les lments lis ensemble et quon peut alors tendre
(diffrents types de flches sont possibles). Une organisation en hypertexte de ces modles
permet de dfinir diffrentes couches mesure que la comprhension progresse.

5.3. LES DIFFERENTS LOGICIELS DANALYSE THEMATIQUE


Bien que le point commun des outils danalyses thmatiques soit de proposer une assistance libre
et en partie manuelle du codage des thmes, on peut trouver dans cette catgorie des outils fort
diffrents depuis NVivo qui ne propose donc ni dictionnaire ni analyse statistique jusqu
Sato , dvelopp au Qubec www.ling.uqam.ca/sato/index.html, qui propose une vritable
boite outils collaborative dindexation semi-automatique, allant de la dsambigusation
manuelle jusqu la cration de lexiques spcifiques : les utilisateurs non satisfaits des analyseurs
lexicaux prts--porter peuvent alors mettre au point leur analyseur sur mesure , puisquil
semble en effet peu satisfaisant dutiliser des mthodes et des dictionnaires uniformes pour des
types de discours aussi diffrents que le management, la littrature, la chimie (Armony et al.
1995). Dans Sato la catgorisation dite socio-smantique vise classer, de manire
exhaustive et exclusive, les mots valence rfrentielle (noms et adjectifs) en fonction dun
systme de catgories thmatiques. Loriginalit rside ici dans le fait que loutil permet d'ajouter
tous types de proprits aux mots ou segments textuels (proprits syntaxiques, smantiques,
thmatiques, contextuelles, etc) et dobtenir des indices de thmatisation : ceci est le
rsultat soit d'une opration automatique (association des modalits dune variable thmatique
un ensemble de formes lexicales et de champs smantiques larges ou restreints qui sont reprs
automatiquement), soit d'une opration manuelle effectue au cas par cas dans le texte
(segmentation, puis nomination des diverses subdivisions) ou dans le lexique (catgorisation
smantique du vocabulaire).

Montral, 6-9 Juin 2007 22


XVIme Confrence Internationale de Management Stratgique

5.4 DISCUSSION SUR LES ANALYSES THEMATIQUES : LE TRAVAIL DU CODEUR ET LE PRESUPPOSE


CONSTRUCTIVISTE

Dun point de vue mthodologique, une catgorisation en contexte repose sur les qualits du
codeur. Chaque occurrence est soumise une dcision : tablir d'abord la pertinence de retenir le
terme (a-t-il une signification forte et prcise , par rapport la grille ?) et, le cas chant,
lui affecter un marqueur informatique. Les codeurs sont ainsi appels choisir parmi les
diffrentes appartenances socio-smantiques possibles d'un mot, celle qui est la plus proche de la
signification en contexte de ce mot. Cela prsuppose une connaissance des implications
thoriques du systme de catgories, mais une dynamique d'aller-retour fait en sorte qu'il soit
possible de dtecter des rgularits dans les dcisions qui n'taient pas prvues et de dtecter des
inconsistances dans l'application de la grille. On peut donc dire qu'il s'agit d'un double processus
d'apprentissage (sur la base de l'accumulation de dcisions correctes) et de correction d'erreurs
(sur la base de l'identification des dcisions incorrectes).
Dun point de vue thorique, les analyses thmatiques ont prcisment comme problme la
dfinition du concept de Thme . Le thme, construction intellectuelle labore par le
lecteur partir dlments textuels rcurrents, est une abstraction. Il est donc tout fait possible
que le thme construit ne corresponde aucune expression prcise du texte, autrement dit que le
thme ne soit pas inscrit dans le texte (le thme du conflit de rle peut tre prpondrant dans
un texte, sans que les mots conflit ou rle y apparaissent jamais). On ne peut ignorer la
distinction fondamentale entre la fonction rfrentielle (le thme : ce dont on parle) et la fonction
descriptive (le rhme : ce qu'on en dit) du langage. Plus le thme est abstrait, plus est grande cette
possibilit dcart entre les mots du texte et le thme labor. Un thme tant une construction,
on peut alors considrer deux attitudes : soit prfrer, comme avec NVivo , partir de lectures
humaines du texte (il sagit donc de superposer aux donnes textuelles brutes un premier
systme de repres) puis raliser ensuite des recherches lexicomtriques ou hyper-textuelles, soit
comme cest possible avec Sato , obtenir des dfrichements logiciels pralables (richesse,
originalit lexicale ou syntaxique) que les interprtations humaines du thme et du contexte
viendront ensuite complter.
Une bonne interprtation des thmes devrait pouvoir expliquer une pratique sans en rduire la
richesse (c'est--dire la diversit avec laquelle elle peut donner lieu des ralisations concrtes,
dont lchantillon dobservation peut rendre compte). La fiabilit de cette interprtation est lie

Montral, 6-9 Juin 2007 23


XVIme Confrence Internationale de Management Stratgique

la fois la stabilit des reprsentations des nonciateurs et celle du lecteur. Mais nous avons
vu que ce concept de reprsentation est loin dtre clair au niveau thorique : Ce nest pas
un hasard si ce concept de reprsentation apparat inoprant des neuro-biologistes, dlicat
utiliser des psychologues, utilisable pour des ergonomes et des gestionnaires, et imprcis aux
informaticiens de lintelligence artificielle (Teulier-Bourgine, 1997). On peut au moins dire
avec J.C. Abric (2001) que la reprsentation est un systme de pr-dcodage de la ralit, car
elle dtermine un ensemble danticipations et dentente Dans la pratique ce systme de pr-
codage de la ralit est videmment plus ou moins stable, et il se rvle donc dans un langage
plus ou moins partag. Indpendamment dune dmarche exploratoire ou confirmatoire (car le
choix dune de ces dmarches ne dpend pas de ltat du langage plus ou moins partag, mais de
l'tat des connaissances sur un sujet particulier), il y aurait donc des domaines o les nonciateurs
et le lecteur peuvent disposer d'un langage commun partag et structur (systme plutt clos,
qui autorise un pr-dcodage manuel de la ralit et permet une analyse thmatique avec a
priori ) et d'autres domaines o le langage est en construction (systme plutt ouvert, o les
analyses lexicales et linguistiques du texte permettent dans un premier temps de travailler sans
a priori ).

CONCLUSION
Au terme de cette prsentation, on peut faire deux constatations et une proposition.
- dune part les textes constituent bien des donnes. On peroit aujourdhui l'intrt de ces
donnes pour viter certains biais introduits par des techniques plus classiques comme le
questionnaire, qui impose des rubriques prtablies et influence les rponses des sujets. Mais ceci
impose alors des processus dobjectivation des units textuelles (processus de rduction et de
formalisation), et la statistique permet justement de tirer parti de la redondance de la langue pour
rduire considrablement leffort de lecture. Lanalyse de donnes textuelles ne prtend pas se
substituer linterprtation du sens des textes, il sagit dextraire des contenus ou une structure
pour rpondre des questions prcises, il sagit aussi de construire des procdures exposant le
regard du lecteur des niveaux opaques de laction stratgique dun sujet. L'intrt des classes
dnoncs qui rendent compte de l'organisation formelle du corpus rside finalement dans les
possibilits d'interprtation smantique qu'elles offrent : la linguistique nous propose des

Montral, 6-9 Juin 2007 24


XVIme Confrence Internationale de Management Stratgique

visions schmatiques de la langue permettant de disposer des repres et daller, un peu plus
scuris, explorer les plis et replis de nos textes (Chateauraynaud 2003)
- car dautre part les textes sont aussi le fruit dune intention de la part des acteurs et lobjet dune
interprtation de la part de lanalyste. Comment faire cette interprtation ? Quel sens est-il
possible de donner ces classes ? On pourrait comparer les classes obtenues aux rsultats dun
lectrocardiogramme, et linterprtation des courbes ou le choix dune intervention revient
toujours au chirurgien Il n'est pas possible d'interprter les classes en se souciant uniquement
des significations apparentes auxquelles renvoient les mots qui lui sont spcifiques. Il importe de
replacer chaque terme dans son contexte, et les donnes textuelles nont pas de sens a priori : la
recherche du sens doit tre mene paralllement celle des mesures et des structures. Il sagit
finalement de confronter la lecture du texte et les ides sur le texte (Desmarais et Moscarola,
2002).
Que lon souhaite confronter un texte un modle de rfrence ou quon sengage dans un
processus exploratoire, la rigueur scientifique exige lexplicitation des mthodes et une certaine
formalisation. Les outils qui existent aujourdhui offrent dj une libert mthodologique, sans
senfermer dans une technique impose par un logiciel. Alors plutt que dopposer une approche
algorithmique une approche heuristique (analyse de contenu considre comme subjective,
analyse linguistique considre comme objective, analyse de la constitution du sens considre
comme projective), on peut appeler leur usage complmentaire dans une dmarche
algorithmique ET heuristique, compose des ncessaires cycles itratifs grille/texte,
codage/dcodage, extraction/validation

REFERENCES
Abric J.C., 2001, Pratiques sociales et reprsentations, Paris, PUF, 2001
Allard-Poesi F., 1997, Nature et processus dmergence des reprsentations collectives dans les
groupes de travail restreints, Thse de doctorat, Universit Paris-Dauphine.
Andrieux Y., 2005, Contribution la rflexion sur lvaluation des projets de cration
dentreprise : une approche centre sur llaboration du projet. Thse, dcembre 2005,
Universit Montpellier 2
Aubert-Lotarski A., Capdevielle-Mougnibas V., 2002, Dialogue mthodologique autour
lutilisation du logiciel Alceste : lisibilit du corpus et interprtation des rsultats. 6mes
journes JADT
Armony V., Duchastel J., 1995, La catgorisation socio-smantique, 3mes Journes JADT.

Montral, 6-9 Juin 2007 25


XVIme Confrence Internationale de Management Stratgique

Bolasco, S. 2000, Taltac: un environnement pour lexploitation de ressources statistiques et


linguistiques dans lanalyse textuelle. Un exemple dapplication au discours politique. 5mes
Journes JADT.
Bougon G.M., 1986, Using the self-Q interview process, Manual, Pennsylvania State University,
Fithh Edition, June 1986.
Bournois F., Point S., Voynnet-Fourboul C., 2002, Lanalyse de donnes qualitatives assiste par
ordinateur : une valuation, Revue franaise de Gestion, 137, janv-mars 2002.
Bousqui B. 2006, Grer la relation client : les spcificits du contexte, 15 me Confrence
Internationale de Management Stratgique, AIMS, Annecy / Genve 13-16 Juin 2006
Brugidou M., Escoffier C., Folch H.,Lahlou S., Le Roux D., Morin-Andreani P., Piat G. , 2000,
Les facteurs de choix et dutilisation de logiciels dAnalyse de Donnes Textuelles, 5mes
Journes JADT
Chateauraynaud F., 2003, Prospro, une technologie littraire pour les sciences humaines, Paris,
CNRS Editions, 2003.
Cossette P. et Audet M., 1994, Qu'est-ce qu'une carte cognitive ? , Cartes cognitives et
organisations, sous la direction de P.Cossette, Editions Eska, 1994.
Cossette P., 2003, Mthode systmatique daide la formulation de la vision stratgique :
illustration auprs dun propritaire dirigeant, Revue de lentrepreneuriat, vol 2, n1, pp 1-18
Desmarais C., Moscarola J., 2002, Analyse de contenu et analyse lexicale, le cas dune tude en
management public. Communication IREGE.
Eden C., Ackermann F. et Cropper S., The analysis of cause maps, Journal of Management
Studies, vol.29, n3, pp.309-324, may 1992.
Fallery B., Marti C., 2007, Storytelling on the Internet to develop weak-link networks. 9th
International Conference on Enterprise Information Systems, EICIS 2007, Madre, Portugal.
Gavart-Perret M.L. Moscarola J., 1998, Enonc ou nonciation ? Deux objets diffrents de
lanalyse lexicale en marketing, Recherche et application en marketing, 1998, vol. 13, n2.
Ghiglione R., Landre A., Bromberg M., Molette P., 1998, Lanalyse automatique des contenus,
Paris, Dunod , 1998.
JADT, Journes de lAnalyse de Donnes Textuelles, toutes les communications :
http://www.cavi.univ-paris3.fr/lexicometrica/jadt/
Jenny J., 1997, Mthodes et pratiques formalises danalyse de contenu et de discours dans la
recherche sociologique franaise contemporaine : tat des lieux et essai de classification,
Bulletin de mthodologie sociologique (BMS) N 54
Laroche H. et Nioche J-P., Lapproche cognitive de la stratgie dentreprise , Revue Franaise
de Gestion, pp.64-78, juin-juillet-aot 1994.
Lebart L., Salem A., 1994, Statistique textuelle. Paris, Dunod, 1994
Maingueneau D., 1998. Les tendances franaises en analyse du discours, confrence
lUniversit d'Osaka, compte-rendu sur Internet
http://www2005.lang.osaka-u.ac.jp/~benoit/fle/conferences/maingueneau.html
Merleau-Ponty M., 1945, Phnomnologie de la perception, Gallimard, 1945.
Moscarola J., Papatsiba V., Baulac Y., 2001, Exploration sans a priori ou recherche oriente par
un modle : Contributions et limites de lanalyse lexicale pour ltude de corpus
documentaires. 5mes journes JADT.
Moscarola J., 2001, Contributions des mthodes de lanalyse qualitative la recherche en
psychologie interculturelle : Sphinx et MCA, 8me Congrs International de lARIC, Genve
2001.

Montral, 6-9 Juin 2007 26


XVIme Confrence Internationale de Management Stratgique

Peyrat-Guillard D., 2000, Une application de la statistique textuelle la gestion des ressources
humaines : apprhender le concept dimplication au travail de faon alternative, 5mes
journes JADT.
Pichot A., 1991, Petite phnomnologie de la connaissance, Aubier, 1991.
Pijoan N. Expliciter les reprsentations des seniors chez des directeurs : une analyse a partir de
cartes causales idiosyncrasiques, Journe de recherche AGRH, IAE Poitiers, Mai 2005.
Quatrain Y., Nugier S., Peradotto A., Garrouste D., 2004, Evaluation doutils de TextMining :
dmarche et rsultats, 7mes Journes JADT.
Qur L., 1990, Agir dans lespace public. Lintentionnalit des actions comme phnomne
social, in Les formes de laction, Paris, d. de lEHESS, p. 85-112
Reinert M., 1998, Quel objet pour une analyse statistique du discours ? Quelques rflexions
propos de la rponse Alceste. 4mes Journes JADT
Rodhain F., Reix R., 1998, CORE : proposition dune mthode pour llaboration des
portefeuilles de projets SI, Revue Systmes d'Information et Management, v.3, n3, pp.49-83.
Simon H., 1981, Sciences des Systmes, Sciences de l'Artificiel, traduction Dunod, Paris, 1996
Teulier-Bourgine R., 1997, Les reprsentations : mdiations de laction stratgique, in Avenier
M.J, La stratgie chemin faisant, Paris, Economica, 1997
Trebucq S. 2004, Finance organisationnelle : un essai de reprsentation, 7mes Journes JADT.
Silberztein M., 2001, Manuel INTEX, en franais, disponible sur le site www.intex.de
Verstraete T., La cartographie cognitive : outil pour une dmarche dessence heuristique
didentification des Facteurs Cls de Succs , Communication la 5e Confrence
Internationale de Management Stratgique. AIMS, Lille, mai 1996.
Watzlawick P., Helmick Beavin J. et Don D.Jackson, Une logique de la communication, Editions
du Seuil, 1972.
Weick K.E., The social psychology of organizing, Mc Graw Hill Inc., (premire dition :
1969), 1979.

Montral, 6-9 Juin 2007 27