Summary
Several programs are at present available on the French market for assisting the qualitative tasks of the analyst.
The purpose of this paper is not to compare their different theoretical characteristics and facilities nor to
identify their strengths and limitations. This has been already been recently well done [JEN97]. Here, we intend
to present the point of view of the user making his choice between all these programs according to his own
ability, the caracteristics of the study he is undertaking, the research hypothesis, the type of corpus, and so on.
First, we propose a schedule representing the users choice factors from our own experience of computerized
textual analysis. Secondly, we will illustrate this schedule by rapidly presenting studies carried out on different
types of textual material with the help of various programs such as ALCESTE, TROPES, DISCURSUS, ATLASTi... Finally, we will present the developments which are planned for a better management of methods and
programs.
Rsum
Plusieurs logiciels danalyse textuelle sont actuellement disponibles sur le march franais. Le but de cet article
n' est pas de comparer leurs diffrentes caractristiques et quipements thoriques ni d' identifier leurs forces et
leurs limites. Nous prsenterons plutt le point de vue de l' utilisateur essayant de choisir entre les diffrents
logiciels, en fonction de ses connaissances, des caractristiques de l' tude, de ses hypothses de recherches, etc.
Aprs avoir caractris les diffrents types dtudes menes au GRETS, nous essaierons de mettre en vidence
les diffrentes stratgies en matire de choix instrumental et nous prsenterons rapidement les perspectives.
Mots-cls : Analyse automatise des donnes textuelles, Analyse du discours, Atelier logiciel
1. Introduction
Quels sont les facteurs de choix de logiciels danalyse textuelle ? Lanalyste se contente-t-il de
prendre loutil quil a sous la main, celui dont il a une pratique peu prs correcte ? Nous
avons fait le pari de dpasser cette hypothse minimaliste, et pourtant parfois vrifie, pour
poser la question suivante : existe-t-il, au-del dun empirisme apparent, des stratgies
implicites mises en oeuvre par les utilisateurs pour faire concider, propos dune tude, les
quatre dimensions complmentaires constitutives dune tude que sont : la reprsentation de la
langue, la reprsentation du discours, la dimension statistique, la dimension instrumentale et
exprimentale ? Sans vouloir donner, bien entendu, des rponses dfinitives, on se propose
ici dexposer le tmoignage dune quipe pluridisciplinaire de recherche en sciences sociales
dans une entreprise. Le contexte de lanalyse textuelle en entreprise est tel que de nombreuses
contraintes psent sur sa pratique comme les dlais qui peuvent rendre difficiles le recul
1
Les auteurs tiennent associer ce travail Isabelle Blot, Jean Vidal et Gro Waeraas de St Martin qui ont activement
particip la diffusion de lanalyse textuelle au GRETS.
JADT 2000 : 5es Journes Internationales dAnalyse Statistique des Donnes Textuelles
thorique et le test de diffrents outils et, en ce qui nous concerne, la ncessit de sadapter
des problmatiques trs varies. Conscients des limites de notre pratique, nous ne prtendrons
donc pas ni rendre compte dune utilisation exhaustive des outils existants sur le march, ni
recenser les diffrents points de vue thoriques ayant prsid llaboration des logiciels
dassistance lanalyse de contenu et de discours disponibles pour le chercheur2. En revanche,
il nous a paru utile parce que peu frquent, deffectuer une prsentation du point de vue dun
collectif de praticiens travaillant dans un domaine de connaissance htrogne et dont les
expriences diversifies permettent dapprhender la complexit des paramtres qui
interviennent dans le choix dun logiciel.
Une excellente prsentation a dj t effectue, de manire rcente [JEN97], des points de vue thoriques ayant prsid
llaboration des logiciels dassistance lanalyse de contenu et de discours disponibles pour le chercheur.
3
Computer Aided Qualitative Data Analysis Systems.
JADT 2000 : 5es Journes Internationales dAnalyse Statistique des Donnes Textuelles
taille (nombre de textes), degr dhomognit du corpus ; Type de texte : entretiens, questions ouvertes, articles
de presse, publicits, courrier...
Type de traitement en fonction des rsultats attendus : Classer des textes ou de fragments de
textes ; Extraire des informations ; Effectuer une synthse ; Effectuer linventaire des thmes traits ; Enrichir
un corpus de commentaires et de codes.
Lexprience montre que ces diffrents facteurs ne se situent pas au mme niveau et sont en
perptuelle interaction. Nous avons remarqu, de manire empirique, limportance de la
formation initiale et de la famille thorique de lanalyste sur le choix dun outil. Nous
avons recens de nombreuses pratiques de dtournement par rapport aux objectifs initiaux de
loutil (dfinis en terme de spcifications la fois techniques et thoriques). Plus
classiquement, on notera des niveaux dusage la plupart du temps en de de lusage idal
prvu par le concepteur.
JADT 2000 : 5es Journes Internationales dAnalyse Statistique des Donnes Textuelles
nettoyage dun corpus. La solution la plus rigoureuse qui consiste ne rien modifier est trs
rarement satisfaisante.
la sphre de communication : communication prive (entretiens, lettres de rclamation),
interne lentreprise (discours syndicaux et directoriaux), sociale, culturelle et
politique (coupures de presse). Par exemple, dans le cas de prises de paroles retranscrites dans
le cadre de compte-rendu de runions internes plusieurs facteurs font que le corpus ne peut en
aucun cas tre confondu avec des paroles dagents pris individuellement. Il fait tat dans le
meilleur des cas dune parole collective, organise.
la longueur du texte : du niveau du syntagme parfois, (rponses des questions ouvertes)
jusquau texte de plusieurs pages.
le niveau de complexit de lencodage linguistique en ce qui concerne lorganisation
syntaxique, linventaire lexical, la prsence dventuels procds rhtoriques ;
le niveau de complexit des thmatiques abordes et de leur articulation. La plupart des
outils ont notamment pour objet didentifier les thmatiques Par exemple, lanalyse avec
Alceste dun corpus de presse ou dentretiens fait apparatre des thmes ; il est videmment
intressant didentifier les articulations, et les schmes (notamment idologiques) qui sont au
principe de ces articulations (par exemple, dans les discours syndicaux, lopposition entre les
riches et les pauvres etc.). Or ni lunit retenue (forme graphique, lemme etc.), ni la
qualification de la relation (base sur la distance : cooccurrence, opposition etc.) ne sont tout
fait adaptes ce type danalyse. Par ailleurs, certains logiciels de type CAQDAS (ou des
logiciels comme Prospero) permettent de manipuler des units non-linguistiques ou du moins
des units qui sont htrognes de ce point de vue : ce ne sont en effet ni des lemmes, ni
phrases mais des paragraphes, des propositions ou des mots dfinis sur des critres
smantiques (bref des notions). Ces mmes logiciels permettent de qualifier la relation
identifie autrement que dun point de vue statistique (corrlation) ou mme grammatical.
Toutefois, on entre ici dans un processus dinterprtation qui est assez peu formalis : les
indicateurs linguistiques notamment sont peu sollicits.
le mode de structuration du texte : dialogue orient par un meneur de jeu (le sociologue,
muni dune grille dentretien), dbat de groupe, texte argumentatif... Le statut des acteurs est
dterminant en ce qui regarde linterprtation et la constitution du corpus : par exemple, pour
ltude dun corpus de retranscriptions de runions internes, les remarques du rapporteur sur
lambiance de la runion nont videmment pas le mme sens que les propos des participants
quil est cens rapporter : mme si le clivage nest pas toujours si net.
la fonction de communication dominante : fonction motive dans les rcits de vie des
agents ou des utilisateurs interviews, fonction rfrentielle dans les textes de presse interne
ou externe, fonction conative dans les tracts et discours syndicaux...
le statut des acteurs de la communication dterminant quant au choix des actes de parole :
locuteur parlant au nom dune structure ou sexprimant en son nom propre, metteur et
rcepteur clairement identifis ou dissimuls derrire une structure anonymisante. On sait par
exemple que les rponses sont conditionnes par la nature des commanditaires dune enqute
(interne / externe) et la relation de subordination entre commanditaire et enquts : absence
suppose danonymat, questionnaire utilis des fins revendicatives ou modulations des
rponses en fonction des consquences directes envisageables sur la situation du rpondant
(salaires, charge de travail, etc.).
JADT 2000 : 5es Journes Internationales dAnalyse Statistique des Donnes Textuelles
dautres outils, comme Tropes, effectuent une analyse smantique (de classification, de
visualisation et de surlignage des composants smantiques de diverses natures.
3.2 A quels garde-fous faire appel pour parer aux drapages interprtatifs ?
Le risque de drapages se pose en analyse textuelle comme dans dautres types dtudes mais
les donnes textuelles se prtent sans doute davantage aux projections interprtatives.
Dans tous les cas de figure, lanalyse produite est insparable des conditions de production
des donnes, cest--dire lensemble des choix oprs par lanalyste chaque tape de ltude
(constitution du corpus, choix du logiciel et de ses paramtres). A ce titre, les points voqus
dans le paragraphe prcdent nous semblent constituer autant de garde-fous considrer tout
au long du travail. De faon plus prcise, les possibilits de contrle quoffrent les diffrents
logiciels que nous utilisons sont diverses. Alceste laisse la possibilit de procder des
JADT 2000 : 5es Journes Internationales dAnalyse Statistique des Donnes Textuelles
analyses multiples pour lesquelles ne varient que peu de paramtres : la robustesse des
rsultats est donc vrifiable. En revanche, si elles rendent ce logiciel particulirement
transparent, la multiplicit des rsultats quil produit et laccessibilit de ses dictionnaires ne
constituent pas pour autant des garde-fous automatiques. Tropes, bien que plus opaque, offre
par exemple la possibilit de contrler et de modifier partiellement les univers de rfrence
quil propose. Atlas-Ti, selon le principe des CAQDAS noffre pas le type de mise distance
et dobjectivation propos par exemple par Alceste : le codage, laiss aux soins de lanalyste
et faiblement assist par quelques outils simples de recherche de chanes de caractre, est
demble forcment interprtatif , ce qui confre au processus danalyse un caractre
hyperprojectif . On peut craindre quune telle analyse top-down ne permette aucune
rsistance des matriaux et ne conduise qu retrouver la confirmation naturelle des
hypothses poses par le chercheur. Or, lexprience montre que ces outils offrent bien, une
possibilit de dcouverte et de surgissement ( serendipity ) de notions nouvelles capables
dorienter la construction progressive de la thorie. La possibilit de tenir un journal de bord
de lanalyse ainsi que de partager le codage des donnes plusieurs sont galement autant de
garde-fous des interprtations trop projectives. Par ailleurs, sil nexiste pas de rgles
standardisant la dfinition des catgories dans un outil tel quAtlas-ti, ce qui fait la puissance
dAlceste, en revanche, la libert laisse lutilisateur et la souplesse de loutil, lui permet
daugmenter la finesse de lanalyse.
4. Les perspectives
Lexprience du GRETS montre que deux moments importants de lanalyse des donnes
textuelles ne peuvent tre dissocis : dune part, nous considrons que les textes constituent
bien des donnes et quils sont donc de ce fait justiciables de processus dobjectivation et
de formalisation, dautre part, que ces mmes textes sont le fruit dintention signifiante de la
part des acteurs et lobjet de parcours interprtatif de la part de lanalyste. La double
attention porte au texte comme donne (i.e des units textuelles fruit dun processus de
rduction et de formalisation qui peuvent tre comptes) et comme interprtation rpond
deux traditions de la sociologie mais aussi de la linguistique reprsente au GRETS. Cette
position rend compte des choix du GRETS en terme de logiciels et de capitalisation.
Lexprience du GRETS montre en effet la ncessit pratique de recourir diffrents logiciels
en fonction des problmatiques trs diversifies (types de donnes, objectifs etc.) traits par le
dpartement et du profil des utilisateurs (et de leurs horizons thoriques en particulier) et
surtout davoir recours des logiciels de la famille de lAnalyse de Donnes textuelles
(standardisation de la construction de la donnes, formalisation des traitements pour
assurer notamment le caractre cumulatif des rsultats) comme aux CAQDAS (prise en
compte des processus interprtatifs dans la construction de la donne).
La politique de capitalisation qui a t mise en uvre sappuie sur deux projets :
- Le projet Verbatim est spcifiquement consacr la capitalisation des entretiens qualitatifs
en vue de pratiquer des analyses secondaires. Ici, on sintresse particulirement la
standardisation de larchivage des entretiens [LER00]. Cette base de donnes nous permet de
runir le descriptif signaltique de ltude, les entretiens effectus au cours des tudes
qualitatives, les rsultats obtenus lissue de leur dpouillement.
- le projet Scriptorium , ddi des donnes textuelles htrognes, vise construire des
collections de corpus textuels en accroissement permanent. Ces documents sont dcrits par
une DTD4 permettant dassocier chaque fragment de texte une tiquette contenant le
4
JADT 2000 : 5es Journes Internationales dAnalyse Statistique des Donnes Textuelles
Rfrences
1.Rfrences externes
[BLO94] BLOT, I.; HAMMER, B.; LE ROUX, D. (1994) Traitement des questions d' opinion
Revue
"ouvertes" : utilisation d' Alceste, outil d' assistance l' analyse
- ICO Qubec ; 6. (1 & 2)
[BRU99] BRUGIDOU, M. ; LE QUEAU P. Les rafales , une mthode pour identifier les diffrents
pisodes dun rcit - BMS - Bulletin de Mthodologie Sociologique, n64, octobre 1999, p 49 81.
[FIE91] FIELDING, N.G. & LEE, R.M. (ds); (1991) Using Computers in Qualitative Research ;
Londres : Sage Publ.
[GUI98] GUIGLIONE, R. ; LANDRE, A. ; BROMBERG, M. ; MOLETTE, P. ; Lanalyse
automatique des contenus, 1998, Paris Dunod, 156 p.
[HAB98]; HABERT, B., FABRE, C. , ISSAC, F. (1998) De lcrit au numrique : constituer,
normaliser et exploiter les corpus lectroniques; Paris Masson ; 320 p..
[JEN97] JENNY, J. (1997) Mthodes et pratiques formalises danalyse de contenu et de discours
dans la recherche sociologique franaise contemporaine : tat des lieux et essai de classification ;
Bulletin de mthodologie sociologique (BMS) ; 54; pp.64-112.
[LEG95] LEGRIS-DESPORTES, C. (1995) Semiotic analysis concerning the communication about
the electric vehicle, in 12th international electric vehicle symposium ; Los Angeles
[LER00] LE ROUX, D. (2000) Verbatim : une exprience de capitalisation dentretiens qualitatifs BMS - Bulletin de Mthodologie Sociologique, n65, paratre.
[LAH95] LAHLOU, S. (1995) Vers une thorie de linterprtation en analyse statistique des donnes
textuelles, in JADT 1995 ; vol II pp. 221-227
[REI95] REINERT, M. (1995) Quelques aspects de choix des units danalyse et de leur contrle
dans la mthode Alceste, in JADT 1995 ; vol I p.27-34
2. Choix de notes internes EDF
AMAR, M. - Assistance automatise lexploration textuelle : prsentation du progiciel Termino,
systme de dpouillement terminologique assist par ordinateur - 1992 - -Note interne EDF-DER
HN-52/5/92/040
BRUGIDOU M. - LABBE D. .- Le discours syndical CGT - CFDT - FO en 1996 et 1998- 1999 Note
interne EDF-DER HN-51/99/013
BRUGIDOU, M.; ESCOFFIER, C. - L' avenir des mtiers clientle : runions prparatoires la
vidotransmission du 21 janvier 1999: analyse de discours - Note interne EDF-DER HN-51/99/015
HAMMER, B.; LE ROUX, D. - Enqute interne "Vous et votre Entreprise" 1992 : analyse des
rponses aux questions ouvertes - 1993 - Note interne EDF-DER HN-52/93/032
LAHLOU, S. - La construction du sens dans l' analyse statistique de donnes textuelles : thorie et
mthodologie illustres par deux analyses - 1995 - Note interne EDF-DER HN-51/95/012
LEMOINE, J-C. - VVE 1995 Analyse des rponses la question ouverte Q45 : "Pour vous, qu' est-ce
que la mission de service public ?" - 1997 - - Note interne EDF-DER HN-51/97/012
PIAT, G. - Spcifications et fonctionnement de l' application d' aide l' analyse de discours
DISCURSUS - 1996 - Note interne EDF-DER HN-52/96/025
thmes rcurrents
primaire
de 10 10000 lettres
lettres
socio linguiste /
smiologue
expression affective
et lments objectifs
oui
oui
oui
oui
Discursus
objectifs
type danalyse
type de corpus
type de texte
analyste
limites de lanalyse
classification de
textes
inventaire thmes
structures
thmatiques
croisement
extralinguistique
logiciel
discours dvelopps
interne
Comptes-rendus de runion
Alceste
oui
oui
oui
connaissance de lentreprise
statisticien
rponses de 3 50 mots
7000 rponses
primaire
Alceste Tropes
oui
oui
oui
conditions de constitution du
corpus inconnues
statisticien / politologue
oral et crit
86 comptes-rendus
secondaire
reprsentations
interne
Questions ouvertes de
lenqute Vous et Votre
Entreprise
Atlas Ti
oui
oui
qualit de la capitalisation
connaissance du domaine
analyse secondaire
linguiste
vari
45 rapports et entretiens
secondaire
pr tude
interne
Climatisation et sant
Tropes
oui
oui
non
Difficult de comparer
diffrents entretiens.
sociologue/politologue
entretiens
primaire
*Analyse synchronique : dans un texte homogne comme un entretien non-directif ou un discours lidentification dune srie de termes rpts en mme temps de manire importante dans une
courte squence de texte (i.e des rafales ) permet de mettre en vidence les paquets de sens qui constituent des pisodes. En suivant ces rafales de termes, on peut esprer reprer les
ruptures thmatiques (fin dune srie de rafales), les passages o les fils du rcit se dnouent cependant quun nouveau thme (ou pisode ici) est dvelopp (nouvelle srie de rafales).
Lalgorithme des rafales a t intgr dans le logiciel danalyse smantique TROPES. [BRU99].
Alceste, Tropes
oui
oui
oui
sociologue, politologue
ditoriaux
200 articles
primaire
identification de
thmatiques et de
rhtoriques syndicales
interne
interne
commanditaire
Lettres de rclamation
Etudes
Annexe : tableau illustratif des diffrents types dtudes traits par le GRETS.