Vous êtes sur la page 1sur 155

Analyse Lexicale avec

Le Sphinx
Manuel d'utilisation

Copyright Sphinx Dveloppement 1986 2006.


Tous droits rservs

Imprim le 12 Septembre 2006

Le Sphinx Dveloppement
Parc Altas
74650 Chavanod
Tlphone : 04 50 69 82 98
Fax : 04 50 69 82 78
e-mail : contact@lesphinx.eu
Web : www.lesphinx.eu

Avant propos
Ce manuel accompagne la nouvelle version du Sphinx que
vous venez d'acqurir : Le Sphinx V5. Nous vous en
flicitons.
Ce logiciel sappuie trs fortement sur les interfaces et les
protocoles de Windows. Vous retrouverez ainsi les
habitudes que vous avez dj acquises par lexprience de
ce systme (gestion des fichiers, menus, dialogues, listes
droulantes, raccourcis). Nous nous sommes efforcs de
toujours respecter ces conventions bien tablies. Cest
pour cela que vous parviendrez trs facilement lutiliser.
Vous serez galement guid par votre connaissance du
travail des enqutes, des tudes et de la statistique. Nous
utilisons le langage de ces mtiers et avons structur le
logiciel par rapport aux grandes tapes dune tude :
questionnaire, saisie, dpouillement, analyse Notre souci
constant est de faciliter votre comprhension devant
lcran. A cette fin, de nombreux commentaires sont
affichs pour vous aider vous situer et comprendre les
menus, boutons de commande, options Pour les
oprations les plus complexes, vous tes pris en charge
par un assistant. Enfin, lorsque le sens dun article ou dun
bouton vous chappe, il vous suffira dessayer pour
comprendre trs vite son utilit.
Pour toutes ces raisons, vous naurez aucune difficult
vous servir de votre logiciel et peut-tre pourrez-vous
mme vous passer du manuel. Mais vous risquez alors de
le sous-utiliser ou de vous compliquer inutilement la vie. En
effet, toutes les possibilits qu'il offre ne sont pas
galement visibles ni toujours trs comprhensibles au
premier abord et vous risquez de passer ct de
fonctions trs utiles.
Le premier objectif de ce manuel est de vous faire
dcouvrir tout ce que vous pourrez faire avec le logiciel. A
cette fin, il est organis en doubles pages dveloppant une
tche, une fonction, un rsultat que vous pourrez
entreprendre ou raliser.
La partie de droite vous montre le logiciel, ses crans, ses
menus, ses dialogues et les tats (tableaux, graphiques)
quil permet de produire.

La partie de gauche situe ce que fait le logiciel en terme de


finalit, dutilit et de mthodes mises en uvre. Vous y
trouverez galement une explication dtaille des modes
opratoires.
Si vous tes dj utilisateur du Sphinx, vous pourrez
rapidement identifier les nombreuses nouveauts et vous
retrouverez facilement vos habitudes.
Si vous dcouvrez ce logiciel, vous comprendrez
facilement son organisation et son systme de
fonctionnement. La visite guide que nous vous proposons
en tout dbut du manuel vous accompagnera dans vos
premiers pas. En vous reportant ensuite au manuel vous
apprendrez vous en servir compltement et deviendrez
des experts.
En vous souhaitant un bon travail.
Yves Baulac, Jean Moscarola

La construction des lexiques.............. 14

Sommaire
Analyse des donnes qualitatives
avec le Sphinx : les fondements ........... 5
1. Les tudes quali .................................. 6
2. Lacquisition des donnes textuelles ........ 2
3. Produire des extraits ou faire du
verbatim .................................................... 3
4. Faire de lanalyse de contenu ................... 3
5. Analyse de donnes textuelles et
approximation lexicale............................... 2
6. Privilgier une approche ou les
combiner ? ................................................ 3

Le traitement simple des


questions textes ..................................... 5
1.
2.
3.
4.

Etudier les textes ....................................... 6


Faire du verbatim ...................................... 8
Tableau de rponses ouvertes ............... 10
Analyse de contenu simple, en cours
de lecture ................................................ 12
5. Analyse de contenu avec code-book ...... 14

L'analyse lexicale en bref ...................... 2


1. Les interfaces ............................................ 3
2. Du texte aux formes graphiques lapproximation lexicale ............................. 1
3. Du texte aux structures linguistiques :
la statistique lexicale ................................. 3
4. Latelier lexical en bref .............................. 5
5. Le panneau lexical : produire des
lexiques ..................................................... 7
6. Le panneau lexical : segments
rpts et lexiques relatifs ........................ 9
7. Le panneau lexical : du bilan aux
rponses caractristiques ....................... 11

Sphinx V5

1. Caractres sparateurs et
environnement ......................................... 15
2. Rechercher et marquer des lments
dans le lexique ......................................... 17
3. Rduire les lexiques ................................ 19
4. Groupements automatiques .................... 21
5. La gestion des dictionnaires .................... 23
6. Les diffrents types de dictionnaires ....... 25
7. Analyse thmatique ................................. 27
8. Lexique des expressions** ........................ 2
9. Rechercher les segments rpts** .......... 4

Navigation lexicale et recherche


de contexte ............................................. 7
1. Du lexique au corpus : la navigation
lexicale ....................................................... 8
2. Situer un mot dans son contexte
textuel ...................................................... 10
3. Les lexiques relatifs** .............................. 12
4. Production d'extraits ................................ 14
5. Rsum des diffrentes manires de
produire des extraits ................................ 16

Analyse syntaxique et
lemmatisation ....................................... 19
1.
2.
3.
4.

La lemmatisation...................................... 20
Lancer la lemmatisation ........................... 22
Analyser un texte lemmatis ................... 24
Modifier le corpus .................................... 26

La statistique lexicale .......................... 29


1.
2.
3.
4.
5.

Les indicateurs lexicaux .......................... 30


Bilan lexical .............................................. 32
Construire un tableau lexical ................... 34
Listes des mots spcifiques ..................... 36
Slections dans un tableau lexical ou
dans des listes de mots spcifiques ........ 38
6. L'indice de spcificit ............................... 40
7. Comparer un lexique de rfrence ....... 42

Analyse des donnes qualitatives avec le Sphinx : les fondements

Codification automatique des


textes..................................................... 45
1. Crer de nouvelles variables
dorigine lexicale ...................................... 46
2. Codification lexicale ................................ 48
3. Mesures lexicales .................................... 50
4. Modification du contenu d'une
variable texte ........................................... 52
5. Fractionner une variable texte ................ 54

Ouvrir un fichier de donnes


textuelles .............................................. 57
1. Du corpus textuel la base de
donnes .................................................. 58
2. Ouvrir un texte analyser ....................... 60
3. Texte balis ............................................... 1
4. Prparer et ouvrir un fichier
d'entretiens semi-directifs ......................... 3
5. Texte annot ............................................. 5
6. Exemples de textes annots ..................... 7
7. Macro commandes pour la
prparation des textes............................... 9

Etudes de cas ....................................... 11


1. Analyse des rclamations clients
Marque Hextra ........................................ 12
2. Identification du territoire de
communication dune marque ................. 14
3. Cas Ovale ........................................... 1
4. Le rve des Franais................................. 2
5. Les mots qui touchent : analyse
textuelle des tubes de la chanson
franaise. ................................................... 2

Bibliographie .......................................... 5

Analyse des
donnes
qualitatives
avec le Sphinx :
les fondements

Sphinx V5

Analyse des donnes qualitatives avec le Sphinx : les fondements

1. Les tudes quali


Les situations de recherche
Les tudes quali se dfinissent bien souvent par
opposition aux tudes quanti . On indique ainsi que les
informations tudies proviennent de sources multiples
documents, crits ou discours et quelles sont analyses
sans recourir au calcul.
Comme nous le verrons cette simplification et abusive
mme si elle dfinit assez bien les situations de recherche
dans lesquelles on a recours aux approches qualitatives.
Les enqutes : recueillir des informations nouvelles.
Le qualitatif apparat avec la prsence de questions
ouvertes dans les questionnaires. Celles-ci chappent aux
analyses statistiques qui font lefficacit des dpouillements
classiques et sont trop souvent tout simplement oublies
au moment de lanalyse.
Avec les guides dentretien, les interviews non directives,
les entretiens de groupe, la conversation remplace le
questionnaire. Le recueil des informations et leur analyse
deviennent bien plus difficile (il faut enregistrer,
retranscrire.) et implique tout un savoir faire bien
spcifique. Il sagt l de privilgier lcoute plutt que le
questionnement, la comprhension et lanalyse en
profondeur plutt que le dnombrement.
Les documents : exploiter les informations existantes
Avant de lancer lenqute on a bien sr tudi la
bibliographie sur le sujet et les documents qui peuvent
nous renseigner. Comme le font les historiens la qute
porte alors sur les traces qui renvoient au domaine tudi
(documents juridiques, transactionnels, commerciaux,
comptes rendus, annonces et communications de toute
sorte).
Linformation recueillie peut tre trs abondante et
htrogne et pose les mmes difficults de
comprhension et danalyse.
Lvolution des technologies de linformation et Internet
notamment, bouleverse laccs aux donnes que nous
venons dvoquer.
Les enqutes via le web simplifient considrablement la
collecte des rponses aux questions ouvertes, les
interviews par mail ou par dialogue lectronique (chat)
offrent de nouvelles opportunits
6

Les bases de donnes bibliographiques, les moteurs de


recherches permettent au chercheur de rcuprer trs
facilement rfrences et publications. En gnralisant le
format numrique les outils de traitement de texte rendent
potentiellement accessibles toutes sortes de fichiers et
archives lectroniques.
Ces volutions mettent disposition du chercheur un
matriau considrable et posent de nouveau problmes :
comment traiter des informations dont labondance peut
trs vite dcourager et dont la complexit pose des
problmes spcifiques pour lesquelles la statistique noffre
pas de rponse immdiate.

Les mthodes
Ceci nous conduit une autre caractristique des tudes
quali .
Le terme renvoie lapproche traditionnelle des textes par
lecture et annotation sans autres instruments que le stylo le
papier dans la tradition des tudes littraire et de la
critique. Le travail du chercheur consiste rendre compte
des textes tudis en citant des extraits et en produisant un
nouveau texte comprhensif et dmonstratif dont, pour
faire bref, la qualit ne tient quau talent de lecteur et
dcrivain du chercheur.
Avec lanalyse de contenu ou analyse thmatique, le
classeur et le stylo de couleur sajoutent la panoplie des
instruments de recherche. Le travail de lecture devient plus
systmatique, le systme de comprhension sexplicite en
une grille qui guide le classement des citations et le
reprage par couleurs ou annotations des passages du
texte. Cet effort de mthode dbouche naturellement sur le
dnombrement des thmes, si on admet que la rptition
ou la frquence peuvent galement faire sens et que
largument du dcompte renforce la dmonstration.
Lappellation quali voque ainsi le travail artisanal
prudemment dmarqu des mthodes scientifiques et de la
statistique, mais lapproche des textes a aussi de tout
temps t marque par la fascination pour le chiffre ou le
recours au comptage.
Dans la tradition de la kabbale, de l exgse et dans le
travail des moines copistes les chiffres et les nombres
guident vers les significations caches ou permettent de
contrler lexactitude des manuscrits. Des tudes sur la
bible aux concordances de Saint Augustin le texte analys
est mis en fragments puis en cartes perfores Les
premires analyses par ordinateurs ont t effectues en

1945 par IBM qui pour reconstituer les concordances de


Saint Augustin.

tude de documents, ces corpus ont en commun dtre


essentiellement forms de donnes textuelles.

Devenu donne textuelle, le texte chappe la tradition


quali et se trouve aussi concern par les problmatiques
quanti comme lont montrs des travaux sur ltude de
lattribution des uvres littraires et lusage dj trs
ancien des techniques informatique par les services de
renseignements

Elles ont la complexit et lambigut de la langue. Leur


sens nest pas fix a priori comme cest le cas pour les
donnes quanti pour lesquelles les units de mesures
(variables numriques) et les tats observs (variables
nominales) sont fixs par un accord tacite de
comprhension entre le rpondant et lenquteur. La
signification des donnes textuelles est dcouvrir dans le
sens des mots des phrases et de lorganisation du
discours. Chacun de ces niveaux (lexique, syntaxe,
rhtorique) apporte une contribution au sens dgag par la
lecture.

En banalisant ces mthodes et en les rendant accessibles,


les volutions technologiques ajoutent lordinateur, le
moteur de recherche et le logiciel danalyse de donnes
textuelle la boite outil du chercheur.

La spcificit des donnes textuelles


et les voies danalyse assiste par
ordinateur.
Rponses aux questions ouvertes dans les enqutes,
interviews ou entretiens de groupe, revue bibliographique,

Sphinx V5

Cette proprit justifie la mfiance de ceux qui pensent


quon ne peut pas faire lconomie dune lecture humaine
et quune machine ne peut pas comprendre un texte.
Toutefois sans pour autant souscrire la prtention des
tenants de lintelligence artificielle nous pouvons accepter
que lordinateur et sa puissance de calcul apportent une
aide pour lapproche des corpus textuels et notamment
lorsque ceux-ci sont de trs grande taille.

Analyse des donnes qualitatives avec le Sphinx : les fondements

Nous montrerons dans ce qui suit que lordinateur peut tre


utilis comme un auxiliaire pour rendre plus systmatique
les approches classiques et augmenter la productivit du
chercheur et la qualit de ses rsultats.
- En effet, les fonctions de recherche peuvent
considrablement acclrer le travail traditionnel ncessit
par lusage de la citation ou la production de verbatim
- Pour lanalyse de contenu, la construction dune grille
thmatique et la codification du corpus peuvent se faire en
utilisant les ressources de linformatique. Le travail de
conception devient ainsi plus explicite et rigoureux et on
gagne en souplesse et productivit pour la lecture et la
codification
Mais il peut aussi tre mis en uvre dune manire
beaucoup plus automatique en fournissant, partir du
reprage des formes graphiques qui composent le texte,
des indications sur son contenu.
- Lanalyse de contenu peut ainsi tre automatise en
construisant les listes de mots ou dictionnaires
correspondant aux diffrentes catgories de la grille
thmatique. La frquence avec laquelle ces lments se
trouvent dans le texte sert dindicateurs pour mesurer la
prsence et lintensit de ces catgories. On peut parler ici
de smiomtrie puisque lusage des dictionnaires permet
de mesurer les significations ainsi repres dans le
texte
- Lanalyse lexicale offre une autre voie. Elle consiste, sans
aucun a priori sur le texte utiliser la redondance des
donnes de langue et la statistique pour substituer la
lecture du texte celle dlments lexicaux qui en sont
extraits : listes des mots les plus frquents (mots cls),
cartes visualisant la manires dont les mots se trouvent
associs (zones thmatiques) ou leffets des circonstances
ou des contextes (mots spcifiques)
Ces approches sont particulirement bien adaptes au
traitement de trs gros corpus. Plus le corpus est
volumineux, plus on gagne de temps et plus les rgularits
et effets statistiques sont significatifs.

Outils et stratgies danalyse


Tout ceci ne peut bien sr se faire quavec laide de
logiciels adapts. Loffre est dsormais assez abondante,
2

mais quel logiciel choisir ? Tout dpend du type danalyse


envisage et de degr de spcialisation des fonctions
proposes.
On peut distinguer 3 grandes classes de logiciels
- Les logiciels de recherche. Ils permettent de retrouver
dans le texte des passages en fonction du contenu ou du
contexte et mettent en uvre des procdures plus ou
moins sophistiques pour produire du verbatim (Lexico,
WordMapper, Diction, Sphinx Lexica)
- Les logiciels danalyse thmatique et de contenu : ils
aident au reprage, la codification et lorganisation des
ides du texte, ainsi qu leur analyse et leur synthse
(Nudist, Atlas ti, Modalisa, Sphinx Lexica)
- Les logiciels danalyse de donnes textuelles : ils
abordent le texte par le biais de la statistique (Spad T,
Alceste, Hyperbase, Sphinx Lexica, )
Ces logiciels sont plus ou moins spcialiss sur leur
fonction principale. Alceste par exemple est trs spcialis,
Modalisa lest beaucoup moins. Dans ce qui suit nous nous
rfrerons principalement Sphinx Lexica qui est un outil
trs gnraliste bien qu premier abord il semble
sadresser plus spcifiquement au traitement denqute.
Quelque soit loutil, le chercheur a un rle essentiel. Cest
lui qui pilote le logiciel et cest lui qui lance slectionne les
citations et le verbatim, labore la grille thmatique lit et
code le texte, cest enfin lui, qui seul est capable
dinterprter et de donner sens aux rsultats des
statistiques lexicales.
Pour cela il lui faudra matriser le passage oblig de
lacquisition des donnes et de lintgration du corpus dans
le logiciel et selon ces choix produire du verbatim, mener
une analyse thmatique de contenu, ou faire de lanalyse
de donnes textuelles.
Les techniques avec lesquelles il devra se familiariser
reposent galement sur une bonne connaissance des
proprits de la langue des textes et discours quelle
permet de construire.
Quelques connaissances utiles sur les proprits de la
langue, des textes et des ides.

2. Lacquisition
textuelles

des

donnes

La premire chose faire consiste mettre le texte sous


une forme utilisable par le logiciel. Cela implique non
seulement de lavoir sous une forme numrique en le
saisissant dans un traitement de texte ou en le recopiant
depuis Internet par, mais aussi le dcouper en
distinguant les diffrents lments qui le composent, bref le
mettre sous la forme dune table de donnes .
Tout dpend alors des circonstances.

Les questionnaires
Sil sagt dtudier les rponses aux questions ouvertes
dune enqute par questionnaire faite avec le logiciel, les
texte est acquis au moment de la saisie des questionnaires
pour le enqutes papier crayon ou directement entr par
le rpondant lorsquil rpond une enqute internet.

Les interviews non directives


Pour les interviews non directives le travail est plus
complexe car il faut dabord mettre le texte dans Sphinx.
La mthode la plus simple consiste le retranscrire dans
un questionnaire Sphinx compos des lments suivants :
1- Des questions didentit pour enregistrer le nom et les
caractristiques de linterview
2- Une question pour noter le texte de la question et une
autre pour le texte de la rponse
Pour une interview on saisira ainsi autant dobservations
que dchange question rponse auquel il a donn lieu. Il
faudra en outre pour chaque nouveau couple rpter les
questions didentit.
Si les interviews ont dj t saisies dans un traitement de
texte on importe directement dans Sphinx le fichier qui les
contient. Ce travail ncessite le respect des consignes
suivantes :
1/ le fichier importer doit tre enregistr au format texte.
Les fichiers de Word ne sont reconnus que sils ont t
enregistrs sous se format.
2/ afin de distinguer le texte des questions et des rponses
et indiquer quand on passe dune interview une autre, il
faut ajouter des repres dans le texte. Ces repres doivent

respecter des rgles qui permettront lordinateur de les


reconnatre et de les interprter.
Si seul le texte des rponses a t saisi il suffit dajouter en
dbut le nom de la premire interview puis celui de la
deuxime et ainsi de suite pour reprer le passage dune
interview lautre. On appelle ces indications des jalons.

Les bases de donnes et lutilisation


des balises
Le texte analyser peut galement provenir dune dune
application informatique : logiciels de messagerie, banque
documentaires dans ce cas les donnes sont structures
par des balises : indications places au dbut de chaque
lment qui dfinissent la nature du texte conscutif.
Par exemple pour une base de donnes bibliographique :
Titre : les Misrables
Auteur : Victor Hugo
Editeur : Hachette
Rsum : Histoire de Jean Valjean et Cosette.
Titre : les Sequestrs dAltona
Auteur : Jean Paul Sartre
Editeur : Seuil
Rsum :

Analyse dune collection de


documents quelconques
Cest le cas par exemple lorsque les donnes analyser
sont composes darticles de presse ou dautre sources
documentaires constituant le corpus de ltude. Cest
lanalyste dajouter dans le fichier texte o il a rassembl
tous ces lments les annotations qui permettront
dindiquer quon passe dun article un autre ou dune
source une autre. Lordinateur pourra alors construire une
table dans laquelle sera note le nom de larticle ou de la
source dune part et le contenu dautre part. Si les
diffrents textes sont longs on peut en outre dcider de les
fragments paragraphes ou phrases.

Analyse de sites web ou une page de


liens
Le logiciel permet daspirer directement le contenu de sites
ou de pages slectionnes par un moteur de recherche.
Cette possibilit ne permet malheureusement pas
daccder aux contenus des sites dynamiques. Dans ce
cas il faut procder manuellement en parcourant le site et
recopiant le texte dans un questionnaire conu cet effet.

3. Produire des extraits ou faire du


verbatim
Faire du verbatim (ou des citations) est la mthode la plus
utilise dans les tudes qualitatives. Ces citations peuvent
tre choisies en lisant le texte ou slectionnes de manire
systmatique selon le contexte ou selon le contenu.

Verbatim par contexte


Savoir qui dit quoi ou slectionner les citations selon les
circonstances ou tout autre information contenue dans les
rponses aux questions fermes. Ce type de slection peut
tre plus ou moins complexes : on peut nutiliser quun seul
critre, par exemple ce que disent les femmes ou en
combiner plusieurs en sintressant aux femmes de moins
de 30 ans et diplmes.. Dans les enqutes de satisfaction
le contexte pertinent sera plutt tous ceux ou celles qui
dclarent tre insatisfaits, lidentit apparaissant comme la
signature de chaque citation

Verbatim selon le contenu


Slectionner les citations en fonction de ce qui est dit.
Cette approche privilgie le contenu qui peut tre repr
automatiquement par la prsence dans le texte dun ou
plusieurs mots ou par un travail de codification pralable
(voir analyse de contenu)

Sphinx V5

Les 2 approches par le contexte et par le contenu peuvent


bien sr tre combines pour restituer le texte par
fragments relatifs aux diffrents angles de vue ou
problmatiques de ltude.

4. Faire de lanalyse de contenu


Cette mthode consiste lire lensemble du corpus en
reprant les thmes ou ides quil contient pour ensuite
produire du verbatim par thmes et / ou mener une analyse
statistique des thmes. Les tapes du travail sont les
suivantes. Illustrons-les sur le cas de lanalyse des
questions ouvertes dans les questionnaires.
Dfinir la grille des thmes
Elle organise la description des ides susceptibles dtre
prsentes dans le texte. Par exemple pour analyser les
rponses la question : Si vous gagniez au loto, que
feriez vous ? on distingue :
- les actions : consommer, investir, donner
- les personnes concernes : moi, mes proches, les gens
- la tonalit de la rponse : neutre, sceptique, humour.
Ajouter au questionnaire les variables thmatiques
Elles dcrivent les thmes et leurs catgories (modalits).
Pour les implmenter, on va modifier le questionnaire et
ajouter les questions correspondant la grille
Crer le code-book
Cest linterface dans laquelle les ides du texte seront
codes. Elle se prsente comme un formulaire qui prsente
la rponse texte analyser et les questions de la grille
thmatique. On peut rajouter une nouvelle variable texte
pour recopier les expressions savoureuses et les retrouver
plus facilement.

Analyse des donnes qualitatives avec le Sphinx : les fondements

Analyser la frquence des thmes et faire du verbatim


Une fois toutes les rponses lues et codes, lanalyse
sachve par ltude statistique des thmes et leur
illustration par le verbatim qui leur correspond. Toutes les
ressources statistiques sont alors disponibles pour
confronter les thmes entre eux ou les croiser avec les
autres variables de lenqute.
Si la grille thmatique est pertinente les rsultats seront
coup sr intressants.

5. Analyse de donnes textuelles


et approximation lexicale
Cette approche simpose lorsque le corpus est trs
volumineux. Elle permet de gagner beaucoup de temps
mais requiert un savoir faire spcifique autant pour bien
matriser les mthodes mises en uvre que pour en
interprter les rsultats.

Approcher le texte par le lexique


2

Lide est simple : prendre connaissance du texte partir


de des mots les plus frquemment utiliss. Linformatique
et la statistique permettent de faire cela trs vite quelque
soit la taille du corpus. Plus il est volumineux, meilleurs
sont les rsultats. Il faut ensuite pouvoir se faire une ide
du texte partir dune simple liste de mots classs par
frquences dcroissantes et bien choisir cette liste.
Lexemple ci-dessous donne les diffrents lexiques tirs de
ltude sur le rve des franais.

Les mots outils sont rvlateurs de lnonciation, ici la


frquence des je et j est vraiment remarquable. Il faut
descendre plus bas pour trouver les premiers mots
pleins, ou les supprimer (Lexique sans mots outils).
La lemmatisation ramne chaque mot sa forme racine
: linfinitif des verbes, le masculin singulier des noms et
adjectifs. Enfin, prsenter le lexique par catgories
grammaticales permet de focaliser lattention sur les
objets (substantifs), les actions (verbes) et valuations
(adjectifs).
On peut enfin chercher grouper les termes du lexique
en utilisant des dictionnaires de termes quivalents pour
encore rduire la varit lexicale et mieux approcher les
diffrentes ides du texte et leur importance.

Segments rpts et cartes


dassociation lexicales
Les lexiques donnent trs rapidement un aperu du texte
analys mais ils peuvent aussi conduire des
interprtations errones. Il faut donc vrifier et resituer
chaque mots dans son contexte en revenant au texte
(verbatim) ou dune manire plus synthtique en
cherchant les segments rpts et en produisant des
cartes dassociations lexicales.

Les segments rpts (squences de mots rpts


lidentique) renvoient les rigidits du texte, les formules
toutes faites ou la langue de bois. Il permettent aussi de
soulever bien des ambiguts (arrter de travailler) et
rvlent les leitmotivs du corpus.

Les cartes dassociation lexicales


D'une manire moins rigide que les segments rpts la
statistique des associations lexicales (via lanalyse
factorielle des correspondances multiples) donne une
ide de la propension associer les mots les uns aux
autres ou au contraire ne pas les faire coexister dans
une mme expression.
Ainsi, la carte ci dessous laisse apparatre dans les
constellations proches ou distinctes les rseaux
smantiques, modles cognitifs ou configurations
mentales qui dans leur rptition structurent le discours.
Ici on peut opposer les vocations gnreuses droite,
celles de l'utilitarisme gauche....
La lecture de ces cartes conduit identifier les
thmatiques du corpus. Elles ont l'avantage d'tre
produites sans biais cognitifs et de rduire trs
significativement la masse d'information qui devient ainsi
partageable.... et discutable.

Influence des contextes : bilans


lexicaux, tableaux croiss et
vocabulaires spcifiques

listes peuvent tre cartographies pour mettre en


vidence des zones de langages.
Les jeunes se distinguent par un vocabulaire utilitariste
(voiture, appartement, meuble) la diffrence des plus
gs qui privilgient laide et le don.

Intensits lexicales et lexicomtrie


On peut aussi orienter la recherche par rapport ce
quon pense trouver. Comme on le ferait en lisant tout le
texte pour reprer les ides qui sy trouvent on confie
cette tche lordinateur. Pour cela on dresse des listes
de termes exprimant les ides que lon cherche
reprer. Ces listes appeles dictionnaire permettent de
calculer le nombre de fois o lun des termes se trouve
dans la rponse analyse. Lintensit lexicale est
calcule comme le rapport entre ce nombre et le nombre
total de mots de la rponse. Le poids de lide
correspondante est mesur par se rapport ou
intensit lexicale.
Cet usage de donnes lexicales pour mesurer
limportance dune ide permet de parler de lexicomtrie.
Ainsi, partir dune expression libre on mesure
limportance des lments du modle pour ensuite
poursuivre les analyses comme si ces mesures taient
tablies en recueillant des opinions sur des chelles.

Comment ont rpondu les diffrentes catgories de


personnes interroges ? Cest ce que permet dtablir un
bilan lexical du type de celui-ci :

Le calcul des intensits lexicales permet de mettre en


vidence les diffrences de raction selon la catgorie
de franais.

Le corpus est 56% form de rponses de femmes soit


9 857 mots sur un total de 17 743. Leurs rponses sont
en moyennes plus longues que celle des hommes, mais
la catgorie la plus prolixe est les commerants artisan.

Comment procder dans la partie classique de


Sphinx ?

Les mots utiliss sont ils les mmes suivant lidentit de


celui qui parle, les circonstances ou toute autre
information qui situe le texte analys ?
On peut le savoir en croisant par exemple les rponses
une question ferme avec les mots les plus
couramment utiliss.
Les femmes sont proportionnellement plus nombreuses
utiliser donner , les hommes se distinguent par
lusage de travailler et investir
Plus directement on peut slectionner la liste des mots
sur reprsents dans telle ou telle catgorie et obtenir
ainsi les mots spcifiques qui les caractrisent. Ces
2

Lemmatiser : Panneau de commande : Crer les


variables lexicale ou dans lAtelier Bouton Lemmatiser.
Calculer les lexiques : Panneau de commande ou dans
latelier bouton Rduire Regrouper Supprimer pour agir
sur les mots marqus dans le lexique.
Segments rpts : Panneau de commande, ou dans
latelier article Expression du menu Lexique puis bouton
Segments
Cartes dassociations lexicales. Dans latelier :
1/ Slectionner les mots considrs dans la fentre du
lexique

2/ Crer une variable codant la prsence de ces mots :


Recoder, Ferm sur les mots marqus du lexique.
Nommer la nouvelle variable
3/ Lancer lanalyse factorielle des correspondances
multiples partir de la variable qui vient dtre cre :
Menu Approfondir (menus droulants du haut de
lcran), Analyse factorielle des correspondances
multiples.
4/ Pour construire une typologie des thmes : bouton
Typologie et dfinir interactivement les classes
Bilan lexicaux : Panneau de commande, Bilan par
catgories ou tableau de bord en croisant une variable
texte avec loption de calcul Nombre de mots avec une
autre variable ferme. Choisir les indicateurs (moyenne,
somme, part) dans longlet Tableau .
Tableaux croiss lexicaux : Panneau de commande ou
atelier lexical menu Vues, article Tableau lexical. Bouton
Croiser pour slectionner la variable croiser avec le
texte.
Mots spcifiques : Panneau de commande ou dans
latelier
1/ calculer la liste article Mots spcifiques du menu Vue
puis bouton Croiser pour choisir la variable et Select.
Pour fixer les seuils de spcificits et de frquence.
2/ produire la liste des rponses caractristiques de
chaque catgorie (verbatim des rponses contenant le
plus de mots spcifiques) : bouton Rponses
caractristiques.
Intensits lexicales. La dfinition des dictionnaires peut
se faire dans un traitement de texte ou en slectionnant
les mots dans latelier lexical. La procdure la plus
rapide consiste utiliser une thmatique (ensemble de
dictionnaires correspondant chacun un thme) : atelier
lexical, bouton Recoder et Analyse thmatique.
Slectionner les fichiers des dictionnaires ou ouvrir une
thmatique existante puis Recoder. Pour chaque
dictionnaire de la thmatique une variable numrique
contenant lintensit lexicale de la rponse ou du
fragment est cre.
Ces variables peuvent tre utilises pour crer une
typologie
:
Menu
Approfondir,
Classification
automatique.

Sphinx V5

Comment procder dans les tableau de bord


multimdia ?
La lemmatisation et la dfinition des variables dorigine
lexicales dont le calcul des intensits lexicale et le calcul
des doivent se faire dans la partie classique et latelier
lexical. Il en galement ainsi pour le calcul de mots
spcifiques.
Calcul des lexiques : Choisir loption Mise en classe des
mots dans longlet Calcul. Le bouton Dictionnaire permet
de supprimer les mots outils et, ou de restreindre le
lexique une liste ou au contenu dun dictionnaire. Dans
le mme onglet les articles du menu Simplifier
permettent de contrler la longueur de la liste en fixant le
nombre de lignes ou la frquence minimum.
Tableau croiss et cartes lexicales.
Une variable texte prsente comme un lexique (mise
en classes des mots) peut tre croise avec nimporte
quelle autre variable avec la possibilit dutiliser des
reprsentations cartographies des tableaux croiss
ainsi obtenus (Carte dans onglet Graphique ou
raccourcis montrer la carte ).
Ceci permet notamment de caractriser les rponses
selon les diffrentes catgories de rpondant.
Dans le tableau de groupe ci-dessus caractrisant les
rponses par sexe et CSP, la variable texte et calcule
selon loption Nombre de mots de longlet Calcul et dans
longlet Tableau, moyenne somme et effectif ont t
slectionns.

6. Privilgier une approche ou les


combiner ?
Les approches que nous venons dvoquer sont trs
diffrentes.
Le verbatim est de loin la pratique la plus courante et la
plus simple mettre en uvre.
Lanalyse de contenu par recodification prsente
lavantage de reposer sur une thmatique qui en ellemme est dj une contribution la comprhension du
texte. La codification permet de prciser avec la rigueur
de la statistique comment cette thmatique sapplique et
de mettre en vidence les interdpendances entre
thmes et de rechercher des explications contextuelles.

Analyse des donnes qualitatives avec le Sphinx : les fondements

Dautre par le vebatim associ chaque catgorie de


codification permet dillustrer de manire concrte les
ides gnrales et peut tre den affecter la
comprhension en leur donnant plus de vigueur ou de
pertinence.
Cependant ces 2 mthodes souffrent galement de la
subjectivit qui fatalement accompagne leur mise en
uvre dans le choix final de telle ou telle citation et dans
la dcision de coder de telle ou telle manire. Lusage
des outils informatiques et statistiques permet de mieux
contrler ces biais subjectifs grce la formalisation et
aux possibilits de recoupement.
Enfin malgr ses nombreux avantages lanalyse de
contenu est trs consommatrice de temps et de ce fait
trs coteuse pour lanalyse des gros corpus.
Lanalyse des donnes textuelle offre une voie bien
diffrente et beaucoup plus technique. Elle prsente
lavantage dune relle objectivit dans la production de
substituts lexicaux (listes, cartes). Bien que la
subjectivit intervienne nouveau au moment de la
lecture et de linterprtation elle bnficie ainsi dun
crdit de scientificit que les autres approches nont pas.
Dautre part, en dtournant le regard du sens de surface
vers linterprtation des actes de langage (tout ce que le
choix des mots rvle dans les rptitions ou les
absences) ce procd cre les conditions dune distance
critique et cratrice. Au risque bien sr dimportants
contre sens dont il faut se prmunir par des prcautions
lmentaires.
- ces mthodes ne sont applicables que sur de trs gros
corpus, l ou les grands nombre et la statistique peuvent
lgitiment faire sens
- un patient retour au texte reste absolument
indispensable pour contrler les interprtations
rapidement acquises par ces techniques. A nouveau le
verbatim simpose
- enfin certains aspects des contenus sont trs difficiles
apprhender notamment pour tout ce qui concerne les
valuations ou les jugements. Il est facile de voir quil est
question de travail ou de prix mais beaucoup plus
difficile dtablir si le travail ou les prix sont voqus
positivement ou ngativement. Les formes lexicales de
lvaluation et du jugement sont en effet trs varies et
complexes apprhender (pas trop, trop, trop peu
.).
Lanalyse lexicale doit tre dconseille pour traiter les
rponses ouvertes dans des enqutes sur un petit
nombre de rpondants (moins de 200). Lanalyse de
4

contenu prendra moins de temps et les rsultats en


seront coup sr probants.
Il est en revanche des situations o seule, compte tenu
du temps ou des budgets disponible, lanalyse des
donnes textuelles est envisageable. Ctait par le
exemple le cas pour lanalyse des 45000 pages du dbat
national sur lavenir de lcole.
Mais le plus souvent ces mthodes gagent tre mises
en uvre de manire complmentaire. Dans un premier
temps lanalyse lexicale utilise de manire exploratoire
permet de rapidement prendre connaissance du corpus
et dans les cas heureux de faire jaillir des pistes
dinterprtation quon naurait peut tre jamais
empruntes autrement. Cest ainsi que la thmatique
mergente du texte peut tre complte par les
problmatiques, modles et systmes dinterprtation
gnraux qui permettront de construire ensuite une grille
thmatique plus pertinente. Enfin le travail mthodique
danalyse de contenu et de codage permettra si le
corpus nest pas trop volumineux de rigoureusement
catgoriser les ides prsentent dans le texte. Sinon il
faudra lire le lexique pour le ventiler dans les
dictionnaires qui permettront, par le calcul des intensits
lexicales, dautomatiser le codage des ides prsentes
dans le texte.
Enfin, aprs lexpos des rsultats statistiques, le texte
reprendra ses droits grce aux citations et verabtim qui
ajouteront aux chiffres, le pouvoir du sens singulier des
phrases ou des paroles.

Le traitement
simple des
questions
textes

Sphinx V5

Le traitement simple des questions textes

1. Etudier les textes


Le Sphinx permet danalyser les textes des questions
ouvertes. Lexica ajoute cette possibilit celle douvrir
nimporte quel autre texte en offrant un stade
supplmentaire Etudier des Textes (menu Stade).
Intressons-nous ici au traitement des questions
ouvertes. Il peut faire lobjet de 4 approches diffrentes :
Le verbatim : extraire un sous-ensemble de rponses
en fonction de leur contenu ou de leur contexte.
La prsentation en tableau : dresser un tableau de
frquence des rponses identiques et/ou des mots
contenus dans les rponses en les croisant
ventuellement avec une autre variable ferme.
Lanalyse de contenu : lire et interprter les rponses
pour les codifier dans une nouvelle variable.
Lanalyse lexicale : mettre en uvre les techniques
danalyse lexicale dans lenvironnement spcifique de
latelier lexical (Plus et Lexica uniquement) ou en
lanant les procdures standards de Lexica.
Ces possibilits sont offertes partir de larticle Etudier
les textes du menu Recoder ou en cliquant sur le
bouton Etudier les textes apparaissant au bas de la
fentre de dpouillement des questions textes
(Dpouiller/ Dpouillement automatique).

Verbatim
Cette fonction permet de slectionner des extraits en
fonction de leur contexte (selon les rponses une autre
variable) ou de leur contenu (vocabulaire de la rponse).
Ces extraits peuvent tre prsents sous forme de liste
organise par catgories de rponses.
Linclusion de ces extraits dans un rapport permet de
rendre compte de lenqute par une illustration
raisonne.

Tableaux de rponses
On peut prsenter les rponses dans des tableaux.
Cette prsentation est bien adapte dans le cas de
rponses trs rptitives quon pourra croiser avec
dautres variables caractrisant les rpondants.
On peut galement dresser le tableau des mots prsents
dans les rponses et ainsi oprer une recodification
automatique en fonction du vocabulaire.
6

Analyse de contenu
Dans cet environnement, on lit les rponses et on code
leur contenu dans une nouvelle variable dcrivant les
principaux thmes voqus dans les rponses.
Cette thmatique peut tre enrichie en cours de lecture
par lajout de nouvelles modalits. Ce travail est facilit
par la possibilit de voir les rponses selon les mots
quelles contiennent.

Procdure et atelier lexical


Plus et Lexica donnent accs un environnement
spcifique aux fonctions avances danalyse lexicale.

Analyse de contenu :
lire et interprter

Tableau de
rponses et de
mots :
dnombrer,
recoder, croiser

Sphinx V5

Verbatim : citer,
extraire, illustrer

Le traitement simple des questions textes

Contrler les rsultats et les diter

2. Faire du verbatim
La manire la plus simple de traiter les questions
ouvertes consiste restituer les rponses dans leur
intgralit ou d'une manire raisonne en oprant des
slections par rapport au contexte ou au contenu.
On pourra produire des listes de rponses :
classes selon l'identit des rpondants ;
restreintes tel ou tel profil (les satisfaits, les
mcontents...) ;
contenant tel ou tel mot.
Les tapes consistent choisir la variable, dfinir les
conditions de l'extraction, et transfrer les citations
ainsi obtenues.

Slectionner une variable texte


Allez pour cela dans la fonction Etudier les textes du
menu Recoder. Choisissez votre variable. En
slectionnant ensuite Extraits (Verbatim), vous obtenez
un dialogue dans lequel vous pouvez fixer les conditions
de recherche et de prsentation des extraits.

Prsenter les extraits en les classant


La case cocher Trier selon permet de choisir la
variable par rapport laquelle on veut classer les
citations. Dans lexemple propos ci-contre, on a choisi
le Sexe. Les rponses des hommes seront dabord
prsentes, puis ce sont celles des femmes.

Dfinir un profil de recherche


En cochant la case Rduire un profil, on peut fixer les
conditions auxquelles doivent rpondre les extraits.
En dfinissant une slection selon une ou plusieurs
autres variables, on limite les extraits des conditions
de contexte (identit, comportement, opinion...).
On peut galement filtrer selon le contenu. On dfinit
dans le profil la condition que la variable analyse
contienne tel ou tel mot. On peut en numrer plusieurs.
Ci-contre, on cherche les rponses contenant le mot
amis (Plaisir de manger = amis).

Les rsultats de la recherche s'affichent dans une


fentre. Le bouton Options permet si ncessaire de
changer les conditions.
Avec le bouton Transfrer, on peut Imprimer ou Inclure
dans le rapport...

Produire des listes


L'article Produire des listes du menu Dpouiller offre
une autre manire de faire du verbatim, mais dans cet
environnement, on peut mettre dans les extraits le
contenu de plusieurs variables en les prsentant sous
des formats listes ou fiches (Voir Produire des listes).

Faire du Verbatim

Prsenter les rponses en les


classant
Slectionner les rponses en
les limitant un profil

Slectionner selon le contexte


Slectionner selon le contenu

Imprimer ou inclure
dans le rapport

Sphinx V5

Le traitement simple des questions textes

Recoder une variable texte

3. Tableau de rponses ouvertes


La manire la plus simple et la plus rapide dtudier une
question ouverte est den dresser la liste en regroupant
les rponses identiques ou en dnombrant les mots
quelle contient. On obtient des tableaux de ce type
partir de Recoder / Etudier les textes ou en
slectionnant une question ouverte dans le menu
Analyser / Tableau plat. Dans le panneau lexical
(Lexica uniquement), on accde aussi ce type de
tableau par le bouton Tableau de fragments.

Tableau des rponses et tableau des


mots
Le tableau dresse la liste des rponses en affichant les
effectifs et les pourcentages de chaque lment. Les
boutons Mots et Rponses permettent de passer de la
liste des mots celle des rponses. Dans la liste des
rponses, seules les rponses identiques sont
dnombres. Dans la liste des mots, on dcompte le
1
nombre de fois o chaque mot apparat. Les mots outils
sont systmatiquement ignors.
Ces tableaux peuvent tre imprims, copis ou inclus
dans un rapport (bouton Transfrer) de faon intgrale
ou seulement pour les lignes slectionnes (clic).
Le bouton Ordonner permet de changer la prsentation
des lignes du tableau. Caractriser donne le dtail des
effectifs composant chaque ligne. Il est particulirement
intressant dans le cas des listes de mots.

Analyser selon le contexte


Le bouton Croiser permet dtudier les rponses aux
questions ouvertes selon leur contexte : qui dit quoi ? Il
suffit de choisir la variable selon laquelle on veut ventiler
les rponses ou le vocabulaire. On revient la liste non
ventile en dcochant la case Croiser le tableau avec
la variable accessible dans le bouton Croiser.

Ces mots sont dfinis par le dictionnaire des mots outils prsent dans
le rpertoire dictionnaires motoutils.dic .

10

On peut crer une nouvelle variable dfinie partir des


lments slectionns dans la liste des mots. Le bouton
Recoder propose les choix suivants pour la nouvelle
variable :
Ferme : les modalits de la nouvelle variable
indiquent la prsence ou labsence des mots
slectionns dans la rponse.
Ouverte numrique : la nouvelle variable enregistre le
nombre de mots slectionns dans la rponse. Elle les
dnombre tous si aucun nest slectionn. On obtient
alors la longueur de la rponse (sans les mots outils).
Cest un indicateur trs utile.
Ouverte texte : la nouvelle variable est une variable
texte dont les lments sont rduits aux mots
slectionns dans la liste. On fabrique ainsi des textes
expurgs ou rduits des squences remarquables.

Analyser un tableau de textes


Le bouton Analyser renvoie lenvironnement danalyse
des tableaux plat ou croiss. On accde ainsi aux
fonctions graphiques et statistiques classiques. On
revient avec le bouton Liste.

Produire la liste
des rponses

Produire la liste
des mots

Croiser

Slectionner

Analyser

Recoder

Sphinx V5

Le traitement simple des questions textes

11

La codification

4. Analyse de contenu simple, en


cours de lecture
Lanalyse de contenu est un travail long qui peut tre
fastidieux. Lenvironnement de travail propos permet de
le rendre plus facile et plus rapide. Les thmes peuvent
tre enrichis en cours danalyse par lajout de modalits,
par la possibilit de passer dune rponse lautre en
fonction de son contenu (navigation lexicale), et par
laffichage du contenu dautres questions pour amliorer
la qualit de la lecture.

Reprendre un travail en cours ou


crer une nouvelle variable
Aprs avoir slectionn Analyse de contenu dans
larticle Etudier les textes du menu Recoder, on choisit
de reprendre un travail en cours en slectionnant la
variable dans laquelle on a commenc la codification.
Si vous commencez votre recodage, il faut dfinir la
variable dans laquelle vous souhaitez coder le contenu :
une variable dont vous choisissez le type. Il sagit le plus
souvent dune variable ferme dont les modalits se
rapportent aux thmes les plus frquents, mais elle peut
tre aussi code si on dispose dun thsaurus ou dun
dictionnaire de thmes, ou de type numrique pour
donner une note la rponse.

Elaborer la grille thmatique et coder


les rponses
Dans le cas de la codification dans une variable ferme,
le bouton Changer les modalits permet de modifier la
liste des thmes en nommant les modalits, en crant
de nouveaux thmes ou en rorganisant leur liste
(Ajouter, Supprimer, Monter, Descendre dans la liste
des modalits), et ceci tout moment.
Si on dispose dune thmatique dj dfinie et trs
longue, on a tout intrt la rentrer dans un dictionnaire
de codes ventuellement structur. En associant cette
liste une variable code, on gagnera beaucoup de
temps.

12

On code le contenu de la rponse en cours danalyse en


cochant la case correspondante ou en slectionnant une
ou plusieurs modalits dans la liste droulante. Si vous
avez plus de 10 modalits, les boutons Listes et
Boutons vous permettent de choisir le mode daffichage
qui vous convient le mieux.
Le passage la rponse suivante (flches de navigation
ou retour chariot) valide les rponses pralablement
recodes. Le bouton Revenir vous ramne ltat initial
de la variable (avant validation de la dernire rponse).

Lexique et navigation lexicale


Vous pouvez faire apparatre la liste de tous les mots
(lexique) contenus dans la variable analyse en
dplaant la sparation des deux parties de votre cran
sur la droite. En slectionnant un ou plusieurs mots dans
cette liste, vous pourrez, avec les flches de navigation,
passer en revue les rponses contenant ces mots. Si
vous cherchez un mot particulier, tapez-le rapidement au
clavier, le curseur du lexique se positionnera dessus.
Vous pouvez galement limiter la navigation certains
types de rponses en dfinissant leur profil (vous
accdez ce dialogue avec le bouton N situ en bas
gauche de la fentre danalyse de contenu).

Reprendre un travail en
cours
Crer une nouvelle
variable

Tirer pour agrandir ou rduire


la fentre

Illustrer par une autre variable


Tirer pour
cacher ou
montrer le
lexique

Rponses en liste

Sphinx V5

Naviguer entre des rponses

Le traitement simple des questions textes

13

5. Analyse de contenu avec codebook


Celle-ci doit seffectuer dans lenvironnement multimdia
du Sphinx. Il sagit de crer plusieurs questions pour
recoder les rponses sur plusieurs dimensions : le
thme, le sous-thme, la tonalit, les acteurs voqus
par exemple On peut galement prvoir une nouvelle
question texte pour y recopier les "perles" ou les
rponses particulirement intressantes.
On commence par la cration de nouvelles questions
dans llaboration du questionnaire. On prpare ensuite
un environnement personnalis danalyse de contenu
dans les formulaires multimdia. Lanalyse de contenu
seffectue depuis le menu Consulter/Modifier de
l'environnement multimdia.

14

Sphinx V5

Le traitement simple des questions textes

15

L'analyse
lexicale en bref

Le panneau de commandes lexicales

1. Les interfaces
Pour aller plus loin dans lanalyse lexicale, Plus et
Lexica donnent accs un environnement spcifique :
latelier lexical (Etudier les textes / Atelier lexical /
Panneau de commandes). Celui-ci permet de :
Calculer diffrentes formes de lexiques (rduits,
regroups par racine, relatifs un dictionnaire.) ;
Slectionner des mots pour retrouver toutes les
rponses qui les contiennent, produire des extraits ou
des associations de termes ;
Reprer les expressions du texte et les segments
rpts ;
Produire des tableaux lexicaux, des listes de mots
spcifiques (relatifs aux modalits dune autre
variable), et des rponses caractristiques ;
Transformer une variable texte en produisant un
nouveau texte expurg, fragment ou lemmatis ;
Coder automatiquement le texte en fonction de son
contenu lexical.

Ltude des textes fait lobjet de procdures mettant en


uvre des commandes complexes qui ont t en partie
automatises et que lon peut ainsi directement excuter
sans passer par latelier lexical :
la production de diffrentes formes de lexiques
2
3
(rduits, lemmatiss , stemmatiss selon la forme
grammaticale), la recherche dassociations lexicales
(segments
rpts,
lexiques
relatifs,
cooccurrences).
la mise en vidence des effets de contexte (indicateurs
dnonciation, tableaux lexicaux, listes de mots
spcifiques, rponses caractristiques).
Enfin, ce panneau permet douvrir nimporte quel texte
prsent sous forme de fichier texte.

Toutes ces fonctions dotent le Sphinx Lexica dun trs


puissant outil danalyse. Pour en simplifier lusage,
quelques procdures standards ont t isoles. On peut
les lancer partir du panneau lexical disponible partir
du stade Etudier des Textes ou partir de la fonction
Etudier les textes.
On obtient ainsi directement les rsultats attendus sans
avoir en spcifier la procdure dans latelier lexical.
Nanmoins, celui-ci sera trs utile pour affiner les
rsultats et raliser les oprations plus complexes quil
autorise.

Latelier lexical
Cet cran est compos de 4 grandes parties :
A droite : une fentre prsente diffrentes vues du
corpus ;
A gauche : on peut voir le lexique des mots ou des
expressions. En cliquant dans le lexique, on fait dfiler
les contenus correspondants dans la fentre de droite
(navigation lexicale).
Le bandeau du haut contient un ensemble de boutons
de commande contrlant le calcul et la prsentation du
lexique, la mise en forme du corpus, sa prsentation,
et sa codification dans de nouvelles variables.
Les indications du bas de lcran donnent des
statistiques gnrales sur le texte tudi.
Sphinx V5

2
chaque forme est ramene sa racine grammaticale (infinitif,
singulier)
3
chaque forme est ramene ses x premiers caractres

L'analyse lexicale en bref

2. Du texte aux formes graphiques


- lapproximation lexicale
Lanalyse lexicale ignore la syntaxe de la phrase et donne
la priorit aux mots. Linformatique permet en effet trs
facilement de dresser la liste des formes graphiques
contenues dans un texte et den faire la statistique. Cest ce
quon appelle extraire le lexique du texte.
Une forme graphique est une suite de caractres ne
comportant pas de sparateurs (blanc, apostrophe,
caractres de ponctuation). Dans ce qui suit, on utilisera
lappellation mot, en lappliquant en fait la ralit dune
forme graphique.
En assimilant ainsi les mots aux formes graphiques, on
peut donner une approximation utile du contenu du texte
par le seul examen des formes les plus frquentes. Comme
on le fait en survolant le lexique dun livre pour avoir une
ide de son contenu.
Cette assimilation peut tre trompeuse du fait des
polysmies (la forme avions dans la phrase Nous
avions de beaux avions) et des significations composes
(pas mal = bien).
Lanalyse lexicale repose ainsi sur une approximation,
source derreurs, quon cherche compenser par :
Un retour ais au texte grce la navigation lexicale qui
permet de situer le mot dans son contexte. La phrase est
le contexte le plus naturel et nous verrons plus loin
comment jouer sur ltendue de ce contexte.
La recherche des segments rpts pour restituer les
locutions et les expressions rptes dont chaque
lment pris isolment peut induire un contre sens
comme par exemple le trop de trop cher, le beau de pas
beau...
Une intelligence artificielle du texte consistant, par le
procd de lanalyse syntaxique automatique, soulever
lambigut des formes graphiques. Dans lexemple cidessus, en reprant la fonction de verbe de la premire
forme avions, on distingue les significations avoir et
aroplane. Cest ce quon appelle la lemmatisation. A
linverse, les synonymes (mots diffrents ayant la mme
signification) ou les mots composs, peuvent tre grs
par des dictionnaires de mots quivalents ou
dexpressions.

En combinant ces diffrentes fonctions, le Sphinx autorise


une approche rapide des textes :
Calcul du lexique pour comprimer le texte ;
Navigation lexicale pour revenir au texte ;
Dictionnaires, segments rpts, et lemmatisation pour
une intelligence du texte.
On peut ainsi rduire leffort de lecture en produisant un
matriau moins volumineux que le texte initial. Mais ce
nest l quune manire dapprocher son contenu. On y
trouvera un gain de temps qui peut tre considrable et
une prise de distance que la lecture naturelle interdit.

Corpus texte

Lapproximation lexicale
sommaire :
Rduire le texte au dbut du
lexique : lexamen des mots
les plus frquents donne une
ide du contenu.

Lexique

Calculer le lexique

Corpus texte
Interpreter

Lapproximation lexicale
contrle :
Rduire le texte son
lexique et contrler par la
navigation lexicale le bien
fond
des
interprtations
faites partir du lexique.

Navigation
lexicale

Verbatim

Lexique

Lapproximation lexicale
slective :
Travailler sur un lexique rduit
aprs avoir limin les mots
outils et solidaris
les
segments.
Concentrer
lattention sur lexamen des
noms,
verbes,
adjectifs
(utilisation de dictionnaires et
de la lemmatisation).

Corpus texte

Lemmatisation

Segments rpts

Corpus texte
lemmatis et solidaris

Dictionnaire

Lexique rduit et
structur

Slectionner

Navigation lexicale

Verbatim

Nouvelle vision
du texte

Intgration de l'analyse de donnes

3. Du texte aux structures


linguistiques : la statistique
lexicale
La statistique lexicale et lanalyse des donnes textuelles
permettent daller plus loin que la simple approximation
dduite de lexamen du lexique ou de ses drivs.

Appliquer les mthodes de lanalyse multivarie sur des


variables dorigine lexicale considres entre elles ou en
relation avec dautres variables de contexte. En intgrant
ainsi lanalyse de donnes classiques avec lanalyse des
donnes textuelles, on peut mettre jour les structures
internes des textes tudis (analyse des co-occurrences)
ou leur dpendance par rapport des donnes de contexte
(analyse des spcificits).

En dnombrant les associations de termes entre eux ou


avec dautres variables, on est conduit un autre type de
lecture totalement objective et susceptible de rvler les
structures que la quantification du texte peut mettre
jour. On peut ainsi transformer le texte en le dcrivant par
des variables statistiques classiques (codification
automatique, mesures lexicales...) ou en le recomposant
sous forme de nouveaux textes (textes expurgs, rduits
leurs formes lemmatises...).
Latelier lexical offre cet gard de nombreuses
possibilits pour mettre jour les particularits lexicales
des textes tudis et prolonger leur analyse en utilisant
toutes les techniques danalyse de donnes du Sphinx.

Recherche des spcificits lexicales


Etablir la statistique des mots du texte selon une variable
externe non textuelle. Rechercher les spcificits lexicales
selon ces contextes, et les visualiser sous forme de cartes
cognitives. Produire les phrases les plus caractristiques
de chaque contexte.

Codification et mesures lexicales


Dcrire le texte par une ou plusieurs variables nominales
codant la prsence, dans les rponses, dun ensemble de
mots slectionns dans le lexique. Cette codification peut
tre enrichie de toutes les possibilits offertes par lusage
de dictionnaires thmatiques, la lemmatisation, la
recherche des segments rpts
Caractriser lnonciation (longueurs de rponses, de
phrases, frquence dusage des embrayeurs...) ou les
noncs (intensits lexicales de termes ou champs
smantiques...) en crant de nouvelles variables
numriques pondrant, pour chaque fragment, limportance
de tel ou tel trait linguistique ou smantique...

Sphinx V5

L'analyse lexicale en bref

Corpus texte

Segments rpts

Lemmatisation
Variable
de contexte

Corpus texte
lemmatis et solidaris
Navigation lexicale

Dictionnaire

Lexique rduit et
structur

Mettre jour
les structures
linguistiques

Listes demots
spcifiques

Tableau
lexical

Structures
Stat.
Phrases
caractristiques

Corpus texte

Lemmatisation

Variable
de contexte

Corpus texte
lemmatis et solidaris
Dictionnaire

Intgrer les
mthodes

Segments rpts

Navigation lexicale

Verbatim

Lexique rduit et
structur
Variables
fermes sur
les mots du
lexique

Mesures
lexicales :
intensits
banalits
Structures
Stat.

Statistiques lexicales

4. Latelier lexical en bref


On accde latelier lexical partir du panneau lexical ou
par larticle Etudier des textes du menu Recoder. Cet
cran concentre lensemble des outils proposs par le
Sphinx. Il permet deffectuer 4 grands types de tches
appliques au corpus de la variable slectionne : produire
des lexiques, naviguer entre le lexique et le corpus, tablir
des statistiques, transformer le texte et crer de nouvelles
variables.

Production de lexiques
Le lexique des mots ou liste des formes graphiques
saffiche dans la fentre de gauche.
Il dpend des caractres sparateurs retenus (bouton
Apparier). Son contenu et sa prsentation sont affects
par les boutons Supprimer, Rduire, Regrouper,
Compter et Classer. On peut ainsi liminer ou regrouper
des lments et choisir lordre de leur prsentation ainsi
que les indicateurs statistiques les caractrisant (nombre
doccurrences ou nombre de rponses / fragments
concerns).
Le lexique des expressions (Lexica uniquement) prend la
place du lexique des mots. On slectionne pour cela
Expressions dans le menu droulant Lexique. Dans la
fentre qui apparat, on peut chercher les locutions et les
segments rpts.

Navigation lexicale
La navigation lexicale permet de faire apparatre, dans la
fentre du corpus, les fragments de texte contenant les
mots marqus dans le lexique. On passe dun fragment
lautre avec les flches situes sous la fentre droite. Les
rgles de navigation peuvent tre modifies par le menu
droulant Aller .
Un double clic dans la fentre du lexique fait apparatre le
contexte du mot slectionn (concordances ou lexiques
relatifs). Ltendue du contexte est paramtrable avec le
bouton Apparier. On revient par la touche Esc.
Le bouton Marquer permet de slectionner des lments
du lexique selon leurs proprits, et les boutons 0 <> @
servent annuler la slection, linverser ou tout
slectionner. Grce au bouton Illustrer, on fait apparatre
une autre variable illustrative dans la fentre du corpus.
Sphinx V5

Les caractristiques statistiques du corpus du lexique et de


chaque observation / fragment sont affiches sous les
fentres correspondantes (taille, richesse, longueur
moyenne, banalit, % de lecture).
Avec le bouton Compter, on choisit les indicateurs
statistiques du lexique. Comparer permet de le confronter
un lexique de rfrence.
Dans le menu droulant Vues (Lexica uniquement), les
articles Bilan lexical, Tableau lexical et Mots spcifiques
donnent accs aux statistiques rsultant du croisement
avec une autre variable.

Transformation du texte et cration de


nouvelles variables
Les boutons Modifier et Remplacer permettent deffectuer
directement des transformations dans le texte du corpus.
Avec Lemmatiser, on peut crer une nouvelle variable
dans laquelle chaque mot est remplac par sa forme
racine.
Recoder donne accs aux nombreuses possibilits de
cration de nouvelles variables : nominales, numriques,
textes.

La barre d'outils
Toutes les fonctions qui viennent rapidement d'tre
voques se lancent partir de la barre d'outils. Les
fonctions suivantes ne sont disponibles que dans Lexica :
rechercher des expressions et des segments rpts,
analyser l'environnement d'un mot, construire des bilans,
des tableaux lexicaux ou des listes de mots spcifiques,
lemmatiser.

Revenir l'atelier lexical ou le quitter


La touche Esc permet de revenir l'cran principal de
l'atelier ou d'en sortir.

Le panneau de commandes lexicales**


Les procdures de recherche les plus courantes ont t
automatises et sont accessibles depuis le panneau de
commandes lexicales. On peut ainsi rapidement tablir des
rsultats qui seront ensuite affins dans l'atelier.

L'analyse lexicale en bref

Latelier lexical

Corpus

Lexique

Statistiques lexicales

Barre doutils de Plus

Verbes, Noms, Adjectifs

5. Le panneau lexical : produire


des lexiques
Une manire rapide de prendre connaissance dun corpus
consiste dresser la liste des mots quil contient. La
procdure Lexiques du panneau lexical permet daller plus
loin que les tableaux de rponses ouvertes.

Formes graphiques et mots


La machine peut identifier les formes graphiques
composant votre texte : suite de caractres sans blanc ou
signes de ponctuation. Malheureusement, un mot se
prsente en gnral sous diffrentes formes graphiques
(singulier, pluriel, flexion des verbes), ce qui rduit la
qualit des listes construites sur le seul reprage de ces
formes.

En dressant la liste des verbes, noms, adjectifs, vous


dsignez les actions, les objets et les valuations du
discours. Vous pouvez y ajouter la liste des noms propres
et des mots grammaticaux Cette liste est construite
partir dune forme du texte o les statuts grammaticaux
sont reprs (Nom_LC).

Poursuivre dans latelier lexical


Vous pouvez sortir les rsultats avec le bouton Transfrer,
mais vous pouvez aussi enrichir vos rsultats dans latelier
lexical en oprant des regroupements manuels ou des
regroupements par dictionnaires (Regrouper) sur le texte
original ou sur ses formes lemmatises (Nom_L et
Nom_LC).

Pour surmonter cet inconvnient, le Sphinx peut faire une


analyse syntaxique et remplacer chaque forme par son
lemme (masculin singulier pour les noms et adjectifs,
infinitif pour les verbes).
Vous avez galement la possibilit de regrouper les mots
construits sur la mme racine (suite des x premires
lettres).
Bien quapproximatif, ce procd permet de regrouper dans
un mme item diffrentes formes exprimant la mme
ide (#famil pour famille, familier, familial).

Slectionner un type de lexique


Cliquez sur Lexiques, un dialogue vous propose de
construire la liste des formes graphiques qui composent
votre texte en appliquant les options suivantes :
Ignorer les mots outils : ces mots sont pauvres pour
qualifier lnonc mais ils peuvent tre rvlateurs de
lnonciation.
Ignorer les nombres.
Regrouper par racine : on indique le nombre de lettres
dfinissant la racine. Les mots commenant ainsi seront
regroups.
Utiliser le lexique lemmatis : le lexique est dress
partir dune forme lemmatise du texte. Lanalyse
syntaxique est lance automatiquement et une nouvelle
variable (Nom_L) est cre. Vous pourrez alors lutiliser
tout moment pour la suite de vos analyses.
Nombre maximum et Frquence minimale permettent
de limiter la longueur de la liste.
Sphinx V5

L'analyse lexicale en bref

Calculer les
lexiques

Lexique rduit

Lexique des racines

Lexique lemmatis

Trouver les formes


grammaticales

6. Le panneau lexical : segments


rpts et lexiques relatifs
Trouver les segments rpts
On appelle Segment rpt toute squence de formes
graphiques rptes lidentique dans le texte. Ils rvlent
les expressions, les formules toutes faites, la langue de
bois.

Avec Lexiques relatifs, vous entrez le mot que vous


voulez tudier puis slectionnez :
Lexiques relatifs pour voir la frquence des termes
gauche et droite du mot recherch (mot pivot) ;
Concordance pour obtenir tous les passages contenant
le mot.
Les rsultats de la recherche apparaissent dans une
fentre qui vous donne accs des options permettant
daffiner les rsultats : enlever les mots outils (Rduire),
modifier la dfinition de lenvironnement du mot (rponse,
phrase, groupe) avec le bouton Apparier.

En les recherchant dans le texte lemmatis, on fait ressortir


encore plus fortement les rptitions et les leitmotivs.
En cliquant sur le bouton Segments rpts, vous avez le
choix de lancer la recherche sur le texte original ou sur le
texte lemmatis (Utiliser le texte lemmatis), sur le texte
qui contient ou non les mots outils (Ignorer les mots
outils).
Vous pouvez enfin limiter la recherche aux segments dune
frquence minimale.
La liste des segments apparat dans une fentre que vous
pouvez imprimer ou inclure dans votre rapport (Bouton
Transfrer).
Vous pouvez affiner vos recherches dans latelier lexical
(Vue Expressions, bouton Segments).
Vous pourrez ainsi limiter la recherche aux segments
contenant des mots choisis par vous ou appliquer la
recherche sur des formes modifies du texte.

Les mots dans leur contexte


Le lexique sort le vocabulaire de son contexte. Afin de
prciser le sens des mots, vous pouvez produire la liste
des phrases ou rponses dans lesquelles ils sont
employs.
Ces listes peuvent tre longues, les lexiques relatifs
donnant la frquence des mots avec lesquels le mot tudi
est utilis.
Elles font ressortir bien plus rapidement le contexte en
donnant des indications trs prcises (frquence
dutilisation gauche et droite).

Sphinx V5

L'analyse lexicale en bref

Segments rpts

Lexiques relatifs et
concordances

10

7. Le panneau lexical : du bilan aux


rponses caractristiques
Vous pouvez apprcier linfluence des locuteurs en mettant
en vidence les diffrences qui caractrisent leur texte.
Cest lobjet des bilans lexicaux, des tableaux de
caractristiques, des listes de mots spcifiques et des
rponses caractristiques.

Bilan lexical
Le bilan lexical rassemble les principaux indicateurs
caractristiques de lnonciation : nombre de mots,
longueur des fragments, richesse lexicale, spcialisation
lexicale Ces indicateurs sont calculs pour les modalits
dune variable et permettent ainsi de comparer diffrents
locuteurs. La production du bilan est automatique : vous
navez qu indiquer la variable selon laquelle vous voulez
ltablir.

Tableaux lexicaux
Un tableau lexical ventile lutilisation des mots selon les
modalits dune variable de contexte. Vous avez galement
la possibilit de limiter la liste aux mots exclusifs, aux mots
communs ou aux mots sur-reprsents ou sousreprsents dans chaque catgorie. A cet effet, choisissez
dans le dialogue les mots que vous souhaitez inclure dans
la liste : Inclure les mots exclusifs dune catgorie,
Inclure les mots communs plusieurs catgories

Choisissez dabord une variable de contexte puis le bouton


Restrictions vous permettra de fixer les conditions de
recherche : se limiter aux mots exclusifs ou aux mots
communs (Inclure les mots exclusifs, Inclure les mots
communs toutes les catgories, Inclure les mots
communs certaines catgories).
Pour filtrer les mots selon leur spcificit, on coche la case
Seuil de spcificit en donnant une valeur au seuil. Ne
cocher Positive que pour limiter la liste aux mots surreprsents. Vous pouvez enfin vous limiter aux n mots les
plus spcifiques par catgorie en cochant Limiter .
Le rsultat dresse, par catgorie, la liste des mots
rpondant aux conditions. Ils sont classs par ordre de
spcificit ou de frquence. En regard apparat la
frquence et/ou lindice de spcificit. Ces options sont
modifiables dans latelier : Compter (faire afficher ou non la
frquence et lindice) et Classer (dfinir lordre des listes).

Rponses caractristiques
Cette fonction repose sur la slection de mots spcifiques
mais donne comme rsultat une liste de rponses
slectionnes en fonction du nombre de mots spcifiques
quelles contiennent et de leur indice de spcificit moyen.

Vous pouvez enfin limiter le tableau aux mots ayant des


effectifs minimums (Seuil de frquence).

Mots spcifiques
Un mot est spcifique dune catgorie sil est surreprsent dans cette catgorie. On utilise le rapport des
frquences (observes / thoriques) comme indicateur de
spcificit. Le mot est dautant plus sur-reprsent (resp.
sous-reprsent) que ce rapport est suprieur (resp.
infrieur) 1. Il est infini pour les mots exclusifs quon
repre avec une toile.

Sphinx V5

L'analyse lexicale en bref

11

Variable de contexte

Bilan lexical

Conditions spcifiques

Tableau lexical

Mots spcifiques

Rponses
caractristiques

12

Sphinx V5

L'analyse lexicale en bref

13

La construction
des lexiques

14

1. Caractres sparateurs et
environnement
Pour identifier les diffrents lments composant un champ
textuel, on dfinit des caractres sparateurs.
Les sparateurs de fragments ou dobservations sont
dfinis au moment de lintgration dun fichier de donnes
(Voir Ouvrir un fichier de donnes textuelles).
Les sparateurs de formes graphiques permettent
disoler les mots. Le blanc est le sparateur naturel mais on
peut en retenir dautres ( ()..).
Les sparateurs de phrases ou de tout autre groupe
permettant de dfinir un sous-ensemble signifiant
(proposition, unit de signification...).

Choisir les rgles de construction du


lexique
En cochant les cases Diffrencier les majuscules ou
Diffrencier les lettres accentues, on considre Maison
ou maison et lve ou lev comme des formes
graphiques diffrentes ou non.
En jouant sur les sparateurs de mots, on fait apparatre
grand-pre comme un seul mot ou comme 2 mots
diffrents. Pour supprimer ou rajouter des sparateurs, il
suffit daller crire dans la bote correspondante.
Si la saisie, on a utilis le caractre _ comme liaison pour
les mots composs sans tiret. On crira ainsi
pomme_de_terre. Mais pour que ce procd fonctionne
bien, il faudra vrifier que le caractre '_' nest pas
considr comme un sparateur (ce qui est le cas par
dfaut).

Options pour la recherche des


expressions

Apparier
La dfinition de ces sparateurs conditionne la construction
du lexique et la recherche de lenvironnement dun mot
(concordances, lexiques relatifs). On peut modifier ces
paramtres dans un dialogue ouvert par le bouton
Apparier.
Celui-ci permet de modifier les sparateurs de mots
(formes graphiques), groupes ou phrases, de fixer les
rgles suivre pour traiter les accents et majuscules et
grer les expressions formes de mots composs.

Si la case cocher Composes de mots entiers n'est pas


coche, les squences recherches peuvent inclure des
fragments de mots conscutifs.
Si la case cocher Diffrencier les sparateurs est
coche, on ne tient pas compte des sparateurs.

Enfin, il permet de fixer lenvironnement prendre en


considration pour examiner le contexte dun mot.
On change les sparateurs en les frappant au clavier dans
la zone qui leur est rserve.
Les modifications introduites avec Apparier sont
conserves la prochaine ouverture du logiciel, nanmoins
le bouton Restaurer permet de rtablir les solutions par
dfaut les plus courantes.

Sphinx V5

La construction des lexiques

15

Dfinir les sparateurs

Lexique

Concordances
Lexiques relatifs
Verbatim

16

2. Rechercher et marquer des


lments dans le lexique
Que lon cherche restituer les mots dans leur contexte ou
simplifier le lexique par regroupement dlments, le
travail danalyse lexicale consiste reprer des mots et
les marquer.
On peut procder manuellement en faisant dfiler la liste
du lexique avec les ascenseurs et en cliquant sur les mots
qui nous intressent. Selon le besoin, on classera le
lexique par ordre de frquence, par ordre alphabtique ou
par ordre dapparition (bouton Classer).
On peut aussi procder dune manire automatique grce
au bouton Marquer. Il permet de trouver et marquer les
lments rpondant aux conditions fixes.

Rechercher par le contenu


Activer le bouton Le mot et entrer le mot recherch ou une
partie de mot. Pour trouver plusieurs mots, tapez les la
suite.
La (ou les) chane(s) de caractres que vous venez
dentrer sera(ont) recherche(s) :
Dans son (leur) intgralit : bouton Mot entier.
Comme dbut de mot : bouton Dbut de mot, tous les
mots commenant par cette chane seront marqus. Par
exemple, en tapant voit , on marquera voiture, voitures,
voiturette.
Comme partie de mot : bouton Partie de mot, tous les
mots contenant la chane seront marqus. Cette option
est trs utile pour marquer tous les verbes dun texte
lemmatis. Ils sont marqus par la terminaison -V
(chanter-V).
Selon la conformit un modle : bouton Modle, tapez
par exemple *isme pour trouver tous les mots se
terminant par isme.

En limitant aux plus frquents : cochez la case Les mots


les plus frquents, taper le nombre de mots que vous
souhaitez dans la bote en regard. Vous pourrez ainsi par
exemple vous concentrer sur les 20 mots les plus
frquents.

Rechercher par dictionnaires


En slectionnant le bouton Les mots du dictionnaire, on
peut utiliser un dictionnaire pour marquer dans le lexique
tous les mots qui sy trouvent. Le bouton Dictionnaire
permet de changer le dictionnaire courant pour le
remplacer par le dictionnaire de son choix.

Combiner les effets du marquage


Le menu droulant Slection permet de combiner
plusieurs recherches conscutives :
Complter : les mots dj marqus le restent, les
nouveaux sajoutent lensemble.
Remplacer : les mots dj marqus seffacent, les
nouveaux les remplacent.
Affiner : seuls sont marqus les mots qui taient dj
marqus, les autres sont effacs (intersection de 2
slections).
Enfin, les boutons 0, <>, @ permettent deffacer toutes les
marques, de les inverser ou de marquer tous les mots du
lexique. Pour conserver dans le lexique un ensemble de
mots slectionns, on les marque puis on inverse les
marques pour supprimer ce qui ne nous intresse pas.

Rechercher selon la frquence


En fixant une plage de frquence : activez loption Les
mots de frquence entre et indiquez lintervalle
correspondant au nombre dapparitions des mots
marquer. Par exemple de 1 10 pour marquer les mots
apparaissant moins de 10 fois, de 1 2 pour marquer les
hapax (la borne suprieure de lintervalle nest pas
comprise). Vous pouvez indiquer une seule des deux
bornes.
Sphinx V5

La construction des lexiques

17

En cliquant dans le lexique

En cliquant dans le
corpus

Rgles de recherche

Au clavier
Selon la frquence

Par dictionnaire

18

3. Rduire les lexiques


Cest une phase essentielle de lanalyse lexicale. Pour
analyser les mots les plus intressants ou regrouper sous
une mme appellation ceux qui ont une signification
commune, on peut procder manuellement ou dune
manire automatique. Lexamen manuel consiste reprer
les lments supprimer ou regrouper. Les procds
automatiques reposent sur lutilisation de dictionnaires de
rfrence
et/ou
d'algorithmes
morphologiques
(stemmatisation) ou syntaxiques (lemmatisation).

Supprimer
On peut passer en revue tout le lexique et marquer les
mots liminer. Le bouton Supprimer permettra de les
faire disparatre.

Ignorer les mots outils


Le bouton Rduire comporte un premier automatisme en
permettant dliminer les mots outils (selon le dictionnaire
motoutil.doc fourni avec le Sphinx ), les nombres ou les
mots courts (moins de x lettres). Attention, le dictionnaire
des mots outils contient des mots trs intressants
analyser comme les pronoms personnels, les ngations...
Pour revenir au lexique complet et les analyser, utiliser le
bouton Reconstruire.

Ce mme dialogue donne la possibilit de revoir les


groupes (Voir Groupement automatique). Les groupes
sont conservs et retrouvs la prochaine consultation de
la variable. Dfaire les groupes permet cependant
dannuler dfinitivement tous les regroupements.

Lemmatiser
La lemmatisation (Lemmatiser) permet doprer des
regroupements intelligents en utilisant les rgles de la
syntaxe (singulier, pluriel, formes verbales ramenes
linfinitif). Elle prsente lavantage de rduire certaines
ambiguts en distinguant par exemple le nom du verbe
(voyage peut correspondre au nom voyage ou au verbe
voyager). Il est donc conseill doprer le travail de
rduction sur la base du texte lemmatis.

Exploiter le lexique rduit


Les regroupements sont conservs, mais vous pouvez
crer une nouvelle variable rduite aux mots du lexique
(Recoder). Le bouton Verbatim permet de sortir les
lments slectionns.

Regrouper
Le bouton Regrouper offre plusieurs choix pour remplacer
plusieurs lments par un seul :
Grouper les mots marqus dans le lexique :
slectionnez et donnez un nom au regroupement.
Rechercher tous les mots rpondant un modle et
les grouper. Entrez le modle : les lments qui y
rpondent seront automatiquement regroups, par
exemple, *isme pour les mots se terminant par isme.
Grouper les mots commenant par les mmes lettres
: groupement par racine ou stemmatisation. Indiquez le
nombre de caractres retenir pour la racine. Vous
pourrez contrler la validit de chaque groupe (Voir
Stemmatisation).
Grouper avec un dictionnaire. Choisissez un
dictionnaire. En utilisant un dictionnaire de groupement
ou thsaurus, vous pourrez oprer en une seule fois
plusieurs groupements (Voir Gestion de dictionnaires).

Sphinx V5

La construction des lexiques

19

Enlever les mots outils


Lemmatiser

20

Regrouper

4. Groupements automatiques
On gagne beaucoup de temps en procdant ainsi :

Regroupement selon un modle


Slectionner loption Grouper les mots sur le modle puis
rentrez le ou les modles recherchs. Par exemple, alim*
donne tous les mots commenant par alim, *ie ceux qui se
terminent par ie. La syntaxe disponible offre de trs
grandes possibilits.

un dictionnaire de groupements regroupe plusieurs


dictionnaires de mots. Chaque lment numre une liste
de mots quivalents. Les mots sont spars par le signe
=, et en tte de liste se trouve le nom de lquivalent.
Appliquer un dictionnaire de regroupements revient
appliquer successivement plusieurs dictionnaires de
mots. Les mots dune mme ligne sont automatiquement
remplacs par leur quivalent. Ces dictionnaires sont trs
utiles et peuvent tre assimils des thsaurus de
niveau 1.
Ci-dessous, titre d'exemple, voici le dictionnaire
correspondant l'tat du lexique de droite ci-contre :

Stemmatisation
Ce terme indique le regroupement des mots ayant la mme
racine. Slectionner la case Grouper automatiquement,
puis de mme racine et indiquer le nombre de lettres
minimum que doit contenir la racine commune.

Modifier les groupes


Il est important de pouvoir contrler la qualit des
groupements automatiques. A cet effet, le bouton Modifier
interactivement les groupes permet de les revoir tous
(utiliser les flches) pour ventuellement supprimer des
mots dont la signification nest pas conforme (Enlever). On
peut galement ajouter des mots en les entrant au clavier
(Ajouter). Dfaire supprime le groupe. Pour renommer,
entrez au clavier la nouvelle appellation. Par dfaut, les
groupes sont marqus dun #. Leur nom reprend le modle
auquel il rpond.

Dictionnaires

#faire*=faire=faire_la_cuisine=faire_plaisir=
faire_envie=faire_attention
#gote*=goter=goteux
#gastronomi*=gastronomie=gastronomique
#avoir_*=avoir_envie=avoir_faim
#quelque*=quelque_chose=quelquechose
#enfant*=enfant=enfants
#nature*=naturel=nature
#prendre*=prendre_son_temps=prendre
#vouloir*=vouloir=vouloir_dire
#nourri*=nourrir=nourriture
#cuisine*=cuisiner=cuisine
#lger*=lger=LEGERE
#restau*=restaurant=restau

Conservation des groupements

On peut galement utiliser des dictionnaires. Slectionner


pour cela Grouper automatiquement et avec un
dictionnaire.
Utiliser le bouton Dictionnaire pour ouvrir le dictionnaire
dsir, puis faire Regrouper. Le logiciel cherche les mots
du dictionnaire prsents dans le lexique et les regroupe
sous un mme item. On peut galement procder en
marquant partir du dictionnaire (Marquer les mots du
dictionnaire).
Dictionnaire de mots et de groupements :
un dictionnaire de mot est une liste de termes ayant
une mme signification ou proprit. Cette liste se
prsente comme une numration.

Sphinx V5

' Dictionnaire de regroupements


$ C:\Donnees\barchoc310\barchoc310.que
Plaisir_de_manger_L 1

Les groupements sont automatiquement conservs.


Lorsquon revient sur une question pour laquelle des
regroupements ont t effectus, un dialogue demande si
on souhaite reprendre le lexique enregistr. En
rpondant oui, les regroupements antrieurs seront
rcuprs. Si vous rpondez non, ils seront perdus.
Pour conserver les regroupements, le logiciel cre
automatiquement dans le rpertoire de lenqute un
dictionnaire de regroupement dont le nom est celui de la
variable : nom_variable.lex.

La construction des lexiques

21

Grouper par racine


Grouper par dictionnaire
Grouper par modle

Contrler les groupements

22

5. La gestion des dictionnaires


Le bouton Dictionnaires (qui se trouve dans la barre
doutils et dans le dialogue Marquer) permet de manipuler
les dictionnaires. Le dictionnaire courant est le dernier
dictionnaire ouvert, c'est lui qui servira au marquage.
Dans la fentre Gestion des dictionnaires, on peut
visualiser le contenu du dictionnaire, ouvrir un autre
dictionnaire, crer un nouveau dictionnaire, enrichir le
dictionnaire courant, ajouter les mots du lexique dans le
dictionnaire courant.

Ouvrir un dictionnaire
Les dictionnaires sont enregistrs comme des fichiers
textes. Le bouton Ouvrir donne accs au dialogue
Windows de gestion des fichiers. Lextension propose par
dfaut est .dic. Elle nest pas obligatoire mais permet de
retrouver facilement les dictionnaires.

Travailler sur un texte lemmatis et un dictionnaire de


forme racine.
Utiliser un dictionnaire thmatique pour marquer le
lexique. Par exemple en cherchant les mots exprimant la
satisfaction.
Effacer les mots ainsi marqus (bouton Supprimer) et
parcourir le lexique la recherche dautres mots se
rapportant au thme du dictionnaire.
Ajouter ces mots au dictionnaire avec la squence
Dictionnaire / Ajouter. Ces mots viennent sajouter
ceux qui sy trouvaient dj.
Reconstruire le lexique (boutons Rduire, Reconstruire)
pour retrouver tous les mots qui vous intressent partir
du dictionnaire enrichi.
En rptant cette procdure dune tude lautre, vous
accumulerez une expertise conserve dans vos
dictionnaires.
La capacit maximum dun dictionnaire est de 6 000 mots.

Crer un dictionnaire
Utiliser le bouton Nouveau, donner le nom au fichier (en
remplacement du nom donn par dfaut "DICO.DIC").
Cette procdure ouvre un dictionnaire vide. Vous pouvez :
Y ajouter les mots marqus dans le lexique : bouton
Ajouter.
Entrer au clavier les mots que vous dsirez. Placez le
curseur l'endroit o vous voulez insrer un nouveau mot
et entrez-le au clavier.

Marquer partir du dictionnaire


Un dictionnaire sert marquer des mots dans le lexique.
Utiliser le bouton Marquer puis slectionner Les mots du
dictionnaire (Voir le chapitre Construction de lexiques).
Lutilisation
de
dictionnaires
permet
dacclrer
considrablement lanalyse lexicale. Il est conseill de
travailler pour cela sur un texte lemmatis et dutiliser des
dictionnaires de formes racines pour faire des
regroupements automatiques (stemmatisation).

Ajouter des mots dans le dictionnaire


Vous pouvez ajouter au dictionnaire ouvert les mots
marqus dans le lexique (squence Dictionnaire /
Ajouter). Ceci permet denrichir progressivement les
dictionnaires dune tude lautre. La procdure suivante
est conseille :
Sphinx V5

La construction des lexiques

23

Ouvrir ou crer un
dictionnaire
Mettre dans le
dictionnaire les mots
marqus du lexique
Entrer des lments
nouveaux au clavier
Marquer les mots
correspondants dans le
lexique

Ouvrir ou crer un
dictionnaire

24

Elaborer des dictionnaires

6. Les diffrents types de


dictionnaires
Les dictionnaires permettent de stocker du vocabulaire de
rfrence et peuvent ainsi considrablement acclrer
l'analyse. A chaque utilisateur de crer les dictionnaires
spcifiques son domaine.
On peut les utiliser pour rduire automatiquement le
lexique (dictionnaire des mots outils) ou pour rechercher
dans un corpus des marqueurs lexicaux de l'nonciation ou
des champs smantiques particuliers.

Diffrents types de dictionnaires


Dictionnaire de mots : il comporte la liste des mots
appartenant un champ lexical particulier : les termes de
l'alimentation, les pronoms personnels... Ces mots sont
reprs par une seule forme graphique.

Un dictionnaire est un fichier texte qui comporte des mots


se rapportant des thmes et/ou ayant une signification
commune (champ lexical). La cration de dictionnaires peut
se faire dans un traitement de textes. Il suffit de dresser les
listes correspondantes en respectant la syntaxe du type de
dictionnaire laborer.
Quelques dictionnaires simples sont fournis avec le logiciel
comme l'ensemble des formes du verbe avoir, les pronoms
personnels, les locutions temporelles. Le lemmatiseur met
galement en uvre des dictionnaires pour la
reconnaissance des formes verbales et le reprage des
locutions usuelles.
Il n'y a pas de limitation la varit des dictionnaires
envisageables.

Dictionnaire d'expressions : il comporte une liste


d'expressions. Une expression par ligne comportant une ou
plusieurs formes graphiques.
Dictionnaire de groupements : il comporte une liste de
formes graphiques quivalentes. Sur chaque ligne, on
trouve le nom gnrique (toujours prcd de # ) suivi de la
liste des formes quivalentes spares par le signe =. Un
dictionnaire de groupements peut rsulter du regroupement
de plusieurs dictionnaires de mots. Le contenu d'un
dictionnaire de mots se trouve sur une ligne du dictionnaire
de groupements.
Dictionnaire de mots outils : c'est un dictionnaire de
mots. Il est utilis pour l'opration de rduction du lexique.
Il peut tre modifi comme tout autre dictionnaire.
Dictionnaire de codes : ce type de dictionnaire sert
l'interprtation des codes (Voir Interprter des codes). Sur
chaque ligne, on a la valeur du code et les diffrentes
manires de l'interprter.
Lexique de rfrence : c'est un dictionnaire de mots
indiquant la frquence de chaque mot dans un corpus de
rfrence. Cette frquence peut s'exprimer en valeur
absolue ou en pourcentage. On utilise ce type de
dictionnaire pour comparer le corpus en cours d'analyse
la rfrence (Voir Comparer un lexique de rfrence).

Sphinx V5

La construction des lexiques

25

Diffrents
dictionnaires
de mots

des mots outils

Lexique de rfrence

26

dexpressions

de groupements

Dictionnaire de codes

7. Analyse thmatique
Dans lenvironnement de latelier lexical, une analyse
thmatique peut tre actionne en cliquant sur licne
Dictionnaire Une thmatique est une liste de
dictionnaires, chacun tant compos de mots ou de
regroupements relevant dun mme thme. Les
dictionnaires ont t prpars par ailleurs en format texte.
Cette opration autorise la prsence dun mme mot dans
plusieurs thmes. La gestion des dictionnaires est
prsente dans le chapitre 5 p. 312 (Plus) ou 316 (Lexica)
du manuel de rfrence.
Une nouvelle thmatique est cre en ajoutant autant de
dictionnaires que souhait dans la liste, grce au bouton
Ajouter Au moment du recodage, le logiciel propose la
sauvegarde de la thmatique, qui sera dnomme avec
une terminaison .the et qui pourra tre rappele tout
moment depuis le bouton Ouvrir une thmatique .
En cliquant sur Recoder , on va pouvoir crer de
nouvelles variables afin didentifier les thmes pour chaque
observation
:
lintensit
lexicale
de
chaque
thme,
- le nombre doccurrences de chaque thme,
- des variables fermes sur les thmes, avec deux options
de limitation : les n thmes les plus frquents dans la
rponse et les thmes dont lintensit dans la rponse est
au moins gale x.

Sphinx V5

La construction des lexiques

27

lister les segments rpts trouvs dans le texte


(bouton Segments).

8. Lexique des expressions**


Mots composs et expressions
usuelles
La construction du lexique partir des formes
graphiques ignore les mots composs, locutions, ou
expressions ( moins quelles naient t
explicitement saisies comme telles en utilisant le
sparateur _ ).
La possibilit de dfinir des listes ou dictionnaires
dexpressions permet de les reprer dans le texte et
de les identifier comme tels en introduisant un
sparateur spcifique. On pourra alors gnrer une
nouvelle variable dans laquelle les expressions
apparatront comme une seule forme graphique.
Cette approche convient pour les mots composs
ou expressions usuelles rpertoris a priori dans
des dictionnaires. Les expressions ou formes
dlocution spcifiques certains contextes ne
peuvent tre identifies qua posteriori partir du
constat de leur rptition lidentique. Cest ce que
permet la recherche des segments rpts.

Lexique des expressions


Le lexique des expressions est rentr au clavier,
constitu partir dun dictionnaire dexpressions ou
tabli par la recherche des segments rpts. Il fait
lobjet dune fentre particulire ouverte dans
latelier lexical par le menu Lexique / Liste des
expressions. Celui-ci ouvre une fentre vierge
dans laquelle on peut :
entrer au clavier les expressions recherches ;
reporter
les
lments
dun
dictionnaire
dexpressions ;

En regard de la liste dexpressions ainsi constitue,


saffiche le nombre doccurrences trouves dans le
corpus. On peut alors, comme pour le lexique des
mots, slectionner des lments et les retrouver
dans le texte (navigation lexicale).

Documenter le lexique des


expressions partir dun
dictionnaire
Le bouton Dictionnaire permet douvrir un
dictionnaire dexpressions que lon pourra dverser
dans la fentre (bouton -->Liste). Inversement, le
bouton Ajouter permet denvoyer dans le
dictionnaire les expressions entres dans la liste
partir du clavier ou du calcul des segments rpts.

Actions partir de la liste des


expressions
Comme pour le lexique des mots, on peut
supprimer des expressions, les classer, regrouper
des expressions quivalentes (bouton Variantes),
et les sortir dans le rapport ou l'imprimante
(Transfrer).

Solidariser dans le corpus les


expressions de la liste
Le bouton Recoder permet de crer une nouvelle
variable texte dans laquelle les expressions de la
liste seront solidarises par le signe _. En ouvrant
cette nouvelle variable, les expressions apparatront
comme une forme graphique. (Vrifier que le
caractre _ n'est pas dfini comme sparateur).
Ce bouton permet galement de dresser dans une
variable nominale la liste des expressions du texte.

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

9. Rechercher les segments


rpts**
Tout texte comporte ses leitmotivs, sa langue de
bois, ses petites phrases... On peut les reprer en
cherchant les squences de mots rptes
exactement l'identique. On obtient ainsi :
les locutions : trs bien, peu prs... ;
les phrases ou lments de phrases rpts
l'identique : je ne pense pas, selon moi, il faut,
les expressions toutes faites, caractristiques du
domaine tudi : bon repas en famille, bien
manger...
Cette recherche permet galement de soulever de
nombreuses ambiguts.

Rechercher les segments rpts


Pour viter l'examen de listes trop longues, on peut
cibler la recherche :
en fonction de la frquence de rptition (bouton
Frquence minimale) ;
en fonction de la prsence dans les segments de
mots dtermins, de mots marqus dans le
lexique courant ou de mots numrs par
lutilisateur (bouton Contenant).
en ignorant les segments commenant par un mot
outil ou par lun des mots numrs par
lutilisateur (bouton Ne commenant pas par).
Pour lancer la recherche, procdez ainsi :
slectionnez dans le menu Lexique, la rubrique
Expressions, et activez Segments ;
fixez vos paramtres de recherche ;
par dfaut, la frquence minimum propose est
gale la rptition moyenne des mots du
lexique ;
ciblez votre recherche en fixant les longueurs
minimales et maximales et en restreignant
certains mots ou en ignorant les segments
commenant par un mot outil.

Slectionner les segments


significatifs
Les segments trouvs saffichent dans une fentre
dont le contenu peut tre class par ordre
alphabtique ou par longueur (Trier), imprim ou
copi (Transfrer) selon les procdures habituelles
ou vers dans une liste dexpressions (--> Liste
dexpressions). Cette dernire opration permet de
faire toutes les oprations autorises dans la liste
dexpressions : supprimer des segments sans
intrt, naviguer dans le corpus, retrouver le
contexte dun segment (Voir Concordances et
lexiques relatifs). On peut galement crer une
nouvelle variable texte solidarisant les segments,
directement partir de la fentre des segments
(Relier) ou depuis la liste d'expressions (Recoder,
Texte modifi, Relier les mots de chaque
expression). En ouvrant cette nouvelle variable, les
segments rpts seront traits comme des mots.

Segments contraints et segments


de frquence 1
Pas trop et pas trop cher sont des segments
contraints. Pas trop apparat 6 fois et pas trop cher
3 fois. Le premier est contenu dans le second. Mais
leur frquence les distingue. Ce phnomne est trs
frquent et ncessite un examen attentif des
segments que lon souhaite retenir pour lanalyse.

Solidariser les segments rpts


On peut crer une nouvelle variable texte dans
laquelle les segments rpts seront relis par le
caractre _ . Ils apparatront ainsi dans le lexique de
la nouvelle variable comme une seule forme
graphique. Pour effectuer cette opration, faites
Recoder et choisissez Texte modifi / Relier les
mots de chaque expression.
L'analyse de cette nouvelle variable permettra de
produire un lexique tenant compte des segments
rpts significatifs.

Rechercher les segments rpts

Dfinir les conditions


Editer
Crer une nouvelle variable
Ajouter au lexique des expressions

Exemple : Si vous gagniez au loto

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Navigation
lexicale et
recherche de
contexte

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

1. Du lexique au corpus : la
navigation lexicale
La navigation lexicale sapparente la fonction dun
hyper-texte dont chaque mot serait lobjet dun
renvoi possible. On peut en effet, partir dun ou
plusieurs mots marqus dans le lexique ou dans le
texte lui-mme :
retrouver toutes les rponses ou fragments de
texte contenant ce mot ou ces mots ;
afficher la valeur quelconque de lune des autres
variables pour situer le contexte de la rponse ;
dtailler toutes les donnes relatives la
rponse ;
caractriser lemploi dun mot par la rpartition de
telle ou telle variable dans la strate des
observations qui le contiennent.
On a ainsi la possibilit d'oprer des slections pour
restituer des fragments de texte ou contrler
l'interprtation des termes mis en vidence dans le
lexique. On peut le faire en ne voyant qu'une
rponse la fois ou en se plaant dans une fentre
dans laquelle tout le corpus s'affiche la suite.

Les flches permettent de passer d'une observation


l'autre. Si des mots sont marqus dans le lexique,
la navigation se fait selon la rgle choisie (Aller :
d'un mot marqu l'autre, d'une observations
contenant tous les mots marqus la prochaine...).
On peut galement limiter la navigation aux seules
observations rpondant au profil dfini par le bouton
N (Voir aussi Modification / Consultation).

Vue du corpus entier


L'article Observations du menu Vue ouvre une
fentre dans laquelle s'affichent la suite toutes les
observations qu'on peut faire dfiler avec
l'ascenseur. Pour passer d'un mot marqu l'autre,
cliquez dans la fentre. Un menu apparat dont
l'article Marque suivante permet de passer au
prochain mot marqu.

Caractriser et dtailler les


observations

L'article Observations du menu Vue ouvre une


fentre montrant le texte d'une seule observation
la fois. On peut complter par les donnes d'autres
variables illustratives (Illustrer). La hauteur de la
fentre est modifiable en dplaant le trait de
sparation.

En cliquant sur un mot du texte, on fait apparatre


un menu qui permet d'obtenir des informations
complmentaires sur l'usage de ce mot :
voir l'environnement du mot dans l'ensemble des
observations qui le contiennent : concordances ou
lexiques relatifs (Environnement) ;
identifier toutes les observations contenant ce mot
en les caractrisant par rapport une autre
variable (Caractriser) ou en consultant toutes
les informations qui les concernent (Dtailler) ;
dcrire
les
proprits
des
observations
concernes en les codant dans une nouvelle
variable (Dcrire).

Sous la fentre, on lit les indicateurs statistiques


caractrisant l'observation.

Copier ou imprimer les lments


slectionns

Vue par observation

L'article Copier du menu Edition copie le texte de


l'observation courante.
Pour diter toutes les rponses contenant un mot
marqu, utiliser loption Verbatim, dont les
possibilits sont dcrites dans le chapitre Produire
des extraits.

Vue par observation

Donnes de contexte
Variable illustrative
Indicateurs statistiques

Navigation

Vue du corpus entier

Rgles de navigation

Editer les textes slectionns

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

2. Situer un mot dans son


contexte textuel
On peut examiner dune manire plus prcise
lenvironnement dun mot en concentrant lanalyse
sur son contexte immdiat : il peut sagir dun
groupe de mots, de la phrase ou de la rponse
toute entire.
Dans le cas de rponses longues ou lorsque le
texte a t dcoup en paragraphes, il est
prfrable de se limiter la phrase ou la
proposition.
On se place dans ce mode avec loption
Environnement de la liste droulante Vue.
On obtient le mme effet en faisant un double clic
sur un mot du lexique, ou en cliquant sur un mot
dans le corpus. Un menu contextuel s'affiche.
Choisir l'article Environnement
contexte du mot choisi.

pour

voir

Voir le contexte immdiat


Lorsqu'on choisit Concordance, le contexte du mot
pivot s'affiche. Deux options de prsentation sont
disponibles :
centrer les citations sur le mot pivot (case Mise en
forme coche) ou les aligner droite (case Mise
en forme non coche) ;
faire disparatre les mots ignors dans la
construction du lexique en cochant la case Texte
rduit. Par exemple pour ne pas montrer les mots
outils.

le

On tudie ainsi :
la concordance du mot tudi, cest--dire
lensemble des lments du texte contenant le
mot. Ce procd sapparente la production de
verbatim ou de liste de citations centres sur un
mot particulier (Voir Consulter/Modifier et Listes
structures) ;
les lexiques relatifs droite et gauche du mot
tudi.
Deux boutons permettent de passer dune analyse
lautre. Il convient de fixer ltendue du contexte
quon souhaite analyser en agissant sur le bouton
Apparier.

Fixer ltendue du contexte


Cette tendue est dtermine par des sparateurs
de groupes de mots, de phrases et de rponses.

10

Le dialogue propos par le bouton Apparier permet


de :
spcifier des ensembles de sparateurs. Par
dfaut, le Sphinx considre 3 sparateurs de
phrase : . ! ? . On peut modifier ces ensembles
au clavier ;
choisir le niveau de contexte dsir : groupe,
phrase, rponse pour fixer ltendue du contexte
analyser autour du mot choisi. Ds quun des
sparateurs est rencontr, on arrte lextraction.

On peut enfin signer la citation en affichant la valeur


dune autre variable choisie par Le bouton Illustrer.

Extraire des citations


Avec le bouton Transfrer, on peut indiffremment
imprimer le contenu de la fentre ou l'inclure dans le
rapport.

Fixer ltendue du contexte

Concordance

Double clic dans le lexique

Mot pivot

Lexiques relatifs

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Prsenter les lexiques relatifs

3. Les lexiques relatifs**


La liste des citations illustrant lemploi dun mot peut
tre trs longue. Les lexiques relatifs permettent un
examen synthtique en faisant ressortir les mots
avec lesquels le mot pivot est le plus frquemment
associ. Le principe consiste construire un ou
plusieurs lexiques prsentant la liste des mots se
trouvant telle position par rapport au mot pivot
choisi.
Le bouton-radio Lexiques relatifs ouvre la fentre
des lexiques relatifs. Par dfaut, elle prsente 2
lexiques : gauche et droite, pour les positions 2
mots avant (-2), 1 mot avant (-1), 1 mot aprs (1), 2
mots aprs (2).

Dfinir le nombre et la position


des lexiques relatifs
Le bouton Compter permet de modifier les lexiques
relatifs en :
fixant le nombre de lexiques (boutons-radios 1, 2,
4) ;
indiquant pour chaque lexique la position par
rapport au mot pivot des mots recenser.
Dans l'exemple ci-contre, 4 lexiques sont dfinis
correspondant aux positions -1, +1, +1, +2 par
rapport au mot pivot.
Par dfaut, les lexiques sont prsents par ordre
doccurrences dcroissantes. On peut complter la
statistique des occurrences relatives une position
par :
le nombre total doccurrences du mot dans le
corpus (quelle que soit sa position) : Nombre
total doccurrences ;
le pourcentage dapparition du mot la position
considre par rapport au nombre total
d'apparitions dans le corpus (quelle que soit la
position) : Pourcentage dans le lexique relatif.
Cest un indicateur de dpendance linguistique
par rapport au mot pivot.

12

Le bouton Classer permet dafficher les lexiques


relatifs par ordre alphabtique ou par ordre
dapparition des mots dans le corpus. Le bouton
Rduire permet, dans ce contexte galement,
dignorer ou de rtablir les mots outils. Le bouton
Transfrer donne les possibilits habituelles
dinclusion dans le rapport, de copie dans le pressepapiers et dimpression.

Interprter les lexiques relatifs


Lexemple ci-dessous donne des lexiques relatifs
lenvironnement du mot France utilis dans les deux
livres de la campagne 1995 de Jacques Chirac.
France y apparat 12 fois sur un corpus total de 35
247 mots.
Environnement -1 3
pivot -1 +3 - 242 mots - 283 occ
pays 6 ( 6.82% ; 88)
Europe 4 ( 7.14% ; 56)
avenir 3 ( 11.54% ; 26)
chang 3 ( 17.65% ; 17)
doit 3 ( 4.05% ; 74)
Franais 3 ( 2.91% ; 103)
monde 3 ( 6.38% ; 47)
nouvelle 3 ( 15.00% ; 20)
puissance 3 ( 15.79% ; 19)

Le lexique de -1 +3 affiche les 3 indicateurs. Ils


montrent notamment que les mots nouvelle,
puissance, chang sont plus souvent associs
France que Europe : Europe est 4 fois dans
lenvironnement de France pour un total de 56
apparitions, ce qui indique une faible dpendance
linguistique (7,14 %).

Lexiques relatifs et segments


rpts
Le lexique relatif peut donner une ide des
segments rpts, quil ne reprsente pas
exactement. Il peut cependant tre utile de mener
une exploration pralable partir des lexiques
relatifs.

Dfinir les lexiques relatifs

Nombre

Positions par rapport au pivot

Indicateurs statistiques

4 lexiques avant et aprs

Lexique de l'environnement -2 +2

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

mettre les mots marqus en majuscules.

4. Production d'extraits
Dans Plus et Lexica, la production d'extraits offre de plus
grandes possibilits que dans Primo. En la lanant depuis
l'atelier lexical, on peut slectionner beaucoup plus
finement les extraits selon leur contenu.

Le dialogue abrg
Celui-ci est directement disponible sans accder
forcment latelier lexical, on peut gnrer du verbatim
depuis une fonction spcifique. Choisir pour cela Etudier
les textes dans le panneau de commandes ou dans la
fonction Recoder puis Verbatim Dans ce menu, il
est possible de dfinir des mots cls sur lesquels portera
uniquement le verbatim. On peut aussi rduire cette
opration un profil dobservations donn et trier les
extraits selon les modalits dune variable choisie.Aprs
avoir slectionn les lments du lexique, dont la
pertinence peut tre vrifie grce la navigation lexicale,
une action sur le bouton Verbatim ouvre un dialogue
abrg dans lequel on fixe les lments diter (Mots ou
Textes). Mots pour les lments du lexique, Textes pour
les rponses ou extraits correspondants. On peut
complter ventuellement les critres de slection en
prcisant les options de prsentation. Les extraits ainsi
slectionns apparaissent dans une fentre dont le
contenu peut tre imprim grce au bouton Transfrer.
Une version plus complexe du dialogue est accessible
avec depuis lAtelier lexical. Elle offre les possibilits
suivantes :

Le dialogue complet
Le dialogue tendu offre de nombreuses possibilits :
restreindre aux observations contenant des mots
marqus dans le lexique : cochez lun des boutons Les
lments concerns ou Tous les lments. La
slection des extraits se fait en fonction de la rgle de
navigation lexicale retenue ;
fixer le contenu des extraits (cadre Contenu) : afficher le
texte de la variable tudie et ou celui d'une autre
variable ;
afficher la valeur des mesures lexicales relatives
lobservation : nombre de mots de lobservation (M),
nombre de mots marqus (MM), banalit de
lobservation (frquence moyenne des mots de la
rponse), intensit des mots marqus (MM/M) ;

14

Ci-contre un exemple daffichage. Le mot manger est le


mot slectionn. Les premires indications documentent la
rponse : mesures lexicales, variable illustrative.

Fixer l'tendue de l'extrait


Selon l'option slectionne dans Apparier, l'tendue de
l'extrait est fixe la rponse entire, la phrase ou au
groupe de mots. Quand le texte des observations est long,
il est intressant de limiter l'extrait de la phrase contenant
le mot.

Structurer la prsentation des


extraits
Regrouper selon les modalits de la variable illustrative :
ceci permet de prsenter les extraits par catgorie de
locuteurs.
Classer : par dfaut, l'affichage se fait dans lordre
d'apparition. On peut galement choisir de les prsenter
selon les indicateurs suivants : Nombre de mots, Nombre
de mots marqus, Banalit de la rponse (pour afficher
les rponses des plus communes au plus originales),
Intensit des mots marqus (pour faire ressortir
lintensit du thme correspondant aux mots slectionns
dans le lexique).

Rduire le nombre dextraits


Limiter aux phrases contenant un mot marqu : quand
les observations contiennent plusieurs phrases, on gagne
en lisibilit et pouvoir de dmonstration (Voir Apparier
pour jouer sur les sparateurs).
Limiter un nombre dtermin dextraits : enlever les
rponses similaires. Deux rponses sont considres
comme similaires si elles contiennent les mmes mots.
Les rgles dassimilation de 2 rponses sont
paramtrables par le bouton Rgles. On peut ainsi :
limiter la comparaison aux mots marqus ;
tenir ou ne pas tenir compte de lordre et du nombre
doccurrences des mots.
Les groupes sont lists avec l'indication du nombre de
rponses similaires prcd du signe #. A titre d'exemple,
le texte de l'une des rponses est cit.

Dialogue abrg

Dialogue complet

Nb de rponses similaires

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Slection en fonction du contexte

5. Rsum des diffrentes


manires de produire des
extraits
En rsum, voici les diffrentes manires dans le
Sphinx de slectionner des extraits.

Slection selon la variable


Avec Dpouiller / Produire des listes, on choisit la
ou les variables dont on veut extraire le contenu en
le restreignant ventuellement un profil donn. On
peut jouer sur la prsentation : format liste ou table,
fiches personnalises.

Slection en fonction du contenu


Dans latelier lexical, on peut faire de la Navigation
lexicale partir des mots marqus, puis Copier le
contenu de la fentre courante. Trs utile pour noter
la vole le contenu d'une observation la fois.
Extrait de lenvironnement dun mot pivot
(Environnement, Co-occurrences ou lexiques
relatifs). Permet de situer un mot dans son
contexte pour en apprcier les variations
smantiques.
Verbatim permet de prsenter l'ensemble des
extraits relatifs aux mots marqus dans le lexique.
Idal pour faire du verbatim, pour restituer des
rponses.
Cette fonction offre de nombreuses possibilits :
restreindre l'extrait la phrase. Trs utile dans le
cas de rponses longues ;
complter par des variables illustratives ;
classer selon des indicateurs statistiques
(banalit, longueur...) ;
rsumer en regroupant les rponses similaires.

16

En se plaant dans une strate (Changer de strate)


et en oprant comme ci-dessus, on limite les
productions d'extraits la strate slectionne.
On peut galement procder de manire plus
directe :
en restreignant le contenu des Listes structures
la dfinition dun profil (Uniquement les
observations telles que) ;
en restreignant le Verbatim la dfinition dun
profil (Rduire un profil) ;
en listant les rponses caractristiques (Mots
spcifiques, Rponses caractristiques).
Il faut enfin noter la possibilit, dans la fentre
Caractriser les observations, de lister les
rponses de chaque cellule d'un tableau ou dans
l'atelier lexical celles caractrisant les effectifs
utilisant tel ou tel mot (Caractriser).

Dpouiller en produisant des listes

Atelier lexical : Verbatim

Atelier lexical : Environnement

Tableaux : Caractriser

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

18

Analyse
syntaxique et
lemmatisation

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement 2005

1. La lemmatisation
Principes de la lemmatisation
Lapproximation du contenu d'un texte par ses
seules formes graphiques lmentaires peut
conduire des contresens ou laisser planer une
grande ambigut.
Lanalyse
syntaxique
permet
de
rsoudre
correctement les ambiguts lies la syntaxe. En
appliquant les rgles de la grammaire, on peut,
dans la plupart des cas, distinguer verbes,
substantifs, adjectifs, et leur substituer leur forme
racine (singulier dun substantif, infinitif dun verbe
par exemple), mais aussi identifier les mots
composs et les locutions.
Voici un exemple illustrant ce procd :
Corpus et lexique originaux
Jai aperu les grands avions que
nous avions vus hier avec grand
pre
avions (2), aperu, avec, grand,
grands, hier, j, pre que, les, nous,
vus

Corpus et lexique lemmatiss


Je apercevoir_v le grand_a
avion_n que nous avoir_v,
voir_v hier_n avec grand_pre_n
apercevoir_v, avoir_v, avec,
avion_n grand_a, grand_pre_n,
hier_n, je, que, le, nous, voir_v.

Lambigut entre avions (avoir) et avions


(aroplanes) disparat dans le corpus lemmatis. Le
statut grammatical des mots est en outre signal
par les suffixes _N, _V...

Rduire la forme graphique au


mot racine
La lemmatisation permet ainsi de substituer au
lexique initial un lexique beaucoup plus efficace
dans la phase dapproximation lexicale. Ci-contre on
peut comparer, pour un corpus de 2 378 slogans
publicitaires comportant 15 610 mots, le haut du
lexique original au lexique lemmatis.

20

Chaque forme graphique a t remplace par sa


forme canonique ou racine : le singulier pour un
substantif ou un adjectif, linfinitif pour un verbe.
Ainsi, par exemple, toutes les formes le, la l, les,
une partie des du sont regroupes sous la forme
racine le. Les diffrentes flexions du verbe tre (est,
sont, ...) apparaissent linfinitif dans le lexique
lemmatis. Les singuliers et pluriels ont t
regroups : ainsi par exemple, homme et meilleur
napparaissent quune fois dans le lexique
lemmatis regroupant les effectifs des formes
originales singulires et plurielles.

Rsoudre les ambiguts


smantiques
Dans le lexique lemmatis et rduit, on voit le mot
avance cit 54 fois. Il sagit du substantif avance
(lavance technologique) et non du verbe avancer (il
avance plus vite). Lanalyse syntaxique permet ainsi
de rsoudre les ambiguts smantiques. Elle
permet aussi de distinguer les mots composs et
les locutions.

Identifier les formes


grammaticales et les locutions
Dans lexemple prcdent, la marque du statut
grammatical napparat pas, car, pour des raisons
de lisibilit, le tiret du suffixe grammatical a t
dclar comme sparateur de mots.
En procdant diffremment, on peut faire apparatre
la suite de chaque mot son suffixe grammatical.
Cela permet trs rapidement de produire un lexique
restreint aux Verbes (_V), aux Adjectifs (_A), aux
substaNtifs (_N), aux adverBes (_B), aux mots
Grammaticaux (_G).

Corpus lemmatis
Corpus lemmatis avec
indication des catgories
syntaxiques

Lexique brut et lemmatis : exemple des slogans publicitaires.

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

2. Lancer la lemmatisation
Lanalyseur syntaxique
Le lemmatiseur intgr au Sphinx est l'analyseur
syntaxique SYLEX, dvelopp par la socit
Ingnia Langage Naturel. Il est constitu dun
analyseur syntaxique et dun dictionnaire. Le
dictionnaire franais contient 61 400 entres,
521 400 formes lexicales et 25 600 locutions. Une
version anglaise de lanalyseur syntaxique et un
dictionnaire danglais sont galement disponibles
sur demande.
La lemmatisation consiste faire lanalyse
syntaxique de la variable. Une nouvelle variable
contenant la version lemmatise du corpus sera
ajoute la base de donnes. Cette variable pourra
tre ouverte et analyse comme nimporte quelle
autre variable texte.
On accde au
Lemmatiser.

lemmatiseur

par

le

bouton

Options de lemmatisation
Lanalyseur syntaxique procde par tape. Il
dtermine le statut du mot, recherche sa forme
racine et tablit une nouvelle phrase compose des
formes racines. Ces nouvelles phrases forment le
corpus lemmatis. Les options disponibles sont les
suivantes :
Filtrer des mots grammaticaux : les mots
grammaticaux napparatront pas dans le texte
lemmatis. A la diffrence de la rduction du
lexique par les mots outils, cette option a pour
effet de faire disparatre du nouveau corpus les
mots grammaticaux ;
Reprer les locutions usuelles : elles figureront
dans le nouveau corpus relis par un tiret :
pomme_de_terre ;

22

Indiquer la catgorie des mots : chaque mot


sera attach lun des suffixes qui le caractrise :
_V pour le Verbe, _N pour un Nom commun, _P
pour un nom Propre, _A pour un Adjectif, _B pour
un adverBe, _G pour un mot Grammatical.
Des conditions syntaxiques supplmentaires
peuvent tre ajoutes en cliquant sur le bouton
Grammaire complmentaire.

Faire un essai
Lanalyse syntaxique met en uvre des techniques
de lintelligence artificielle, elle peut prendre
quelques minutes pour un texte trs long, surtout si
votre machine nest pas trs rapide. Vous pouvez
vous faire une ide en ne lemmatisant quune partie
du texte. Placez-vous sur lobservation de votre
choix et cliquer sur le bouton Aperu pour
lemmatiser le fragment correspondant.

Cration dune nouvelle variable


contenant le texte lemmatis
Le bouton Lemmatiser lance la lemmatisation du
corpus entier.
Le rsultat saffiche dans une fentre o vous
pouvez contrler et ventuellement modifier le
rsultat. En effet, lanalyse syntaxique nest pas un
procd fiable 100 %, certaines ambiguts ne
peuvent tre rsolues : les fautes de frappe ou
dorthographe sont un obstacle, le texte peut
contenir des mots inconnus... Si c'est ncessaire,
vous pourrez directement entrer vos corrections au
clavier.
Pour analyser le texte que vous avez sous les yeux,
cliquer sur le bouton Etudier le texte lemmatis.
Cette action cre une nouvelle variable et vous met
en position pour l'analyser.

Corpus dorigine

Choisir les options de lemmatisation

Contrler, corriger

Crer une nouvelle variable

Corpus lemmatis

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

3. Analyser un texte lemmatis


Il est trs souvent prfrable deffectuer lanalyse
dune variable texte sous sa forme lemmatise.
Lapproximation lexicale partir des mots les plus
frquents du corpus sera de bien meilleure qualit.
Cest notamment le cas lorsquil sagit dun texte
comportant une syntaxe : rponses des questions
ouvertes formules sous forme de phrases,
interviews non directives, textes rdigs ou
littraires.
Nanmoins, cela peut faire perdre certaines
nuances trs importantes vhicules par des
diffrences que la lemmatisation fait disparatre
(parler de la femme ou des femmes, de finance ou
de finances...).

Afficher le texte dorigine en


mme temps que le texte
lemmatis
Pour faciliter la navigation lexicale sur un texte
lemmatis, il est utile de faire apparatre le texte de
la variable dorigine (utiliser la squence N /
Illustrer par la variable) dans la fentre
dinformation sur lobservation courante (si
ncessaire, cliquer dans cette zone pour voir la
suite du texte).

Utiliser le type grammatical des


mots
Les substantifs dnomment les choses, les objets,
la scne, le monde. Les noms propres voquent les
personnages, acteurs, lieux et objets personnifis.
Les verbes indiquent laction, le mouvement, les
transformations, et les adjectifs les apprciations,
les valuations, les jugements...
En travaillant sur un corpus lemmatis dot des
marques grammaticales, il est trs facile par
exemple de dnombrer la prsence de chaque type
grammatical ou de dresser des listes selon le type.

24

Limportance relative dans un texte de chacune de


ces
catgories
peut
apporter
beaucoup
dinformations,
notamment
pour
qualifier
dventuelles variations selon lorigine (qui
rpond ?) ou selon la partie ( quel moment de
largumentation ?)...
A partir du panneau lexical, vous pouvez
automatiquement obtenir la liste des mots les plus
frquents classs selon leur statut grammatical.
Cette fonction automatise des oprations que vous
pouvez affiner dans l'atelier lexical.

Rechercher les caractristiques


de lnonciation
Le travail sur un texte lemmatis facilite grandement
ltude de lnonciation :
usage des pronoms personnels (je et j se trouvent
regroups) ;
utilisation des adjectifs, adverbes... ;
travail sur les substantifs et les verbes pour
dceler la prsence de telle ou telle
caractristique des actes de langage. Comme en
PNL
(Programmation
Neuro
Linguistique),
rechercher les champs lexicaux visuels,
kinesthsiques, auditifs..., les traits positifs,
ngatifs...

Corpus
lemmatis

Corpus
dorigine

Raccourcis du
panneau lexical

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Remplacer

4. Modifier le corpus
On peut directement apporter des modifications
dans le corpus. Le plus souvent, on le fera pour
corriger des fautes de frappe ou des fautes
d'orthographe. A cet gard, lorsqu'on travaille sur
des textes imports, on a tout intrt les
soumettre
au
pralable
au
correcteur
orthographique.

Corriger ou annoter le texte


Le bouton Modifier permet dcrire dans la fentre
du corpus et de le corriger. Outre la correction des
fautes de frappe, cette possibilit est trs utile pour :
grer les polysmies : par exemple dans un
corpus de slogans publicitaires, le mot aimer peut
exprimer le got ou le sentiment amoureux. On
peut distinguer ces 2 formes en ajoutant par
exemple une marque spcifique lune des
significations. On ajoutera par exemple un $
lorsquil sagit du sentiment ;
faire des annotations dans le texte. On peut ainsi
faire de lanalyse de contenu la manire
classique en lisant les rponses et en notant dans
un langage cod (mots prcds par un caractre
particulier & par exemple) les thmes rencontrs.
On retrouvera trs facilement lensemble des
thmes marqus partir du caractre qui les
distingue, pour enfin crer une nouvelle variable
ferme sur ces thmes (Voir le bouton Recoder).
Aprs chaque modification ou annotation, le texte
est reconstruit et de nouveau enregistr. Pour
gagner du temps, dcocher la case Reconstruire
immdiatement le lexique. Dans ce cas, la fin de
vos modifications, activer le bouton Rtablir pour
que le lexique prenne en compte les modifications
apportes.

26

Cette fonction est analogue celle des logiciels de


traitement de textes. Elle est trs utile pour faire des
substitutions systmatiques. On y accde par le
bouton Remplacer de la barre doutils.

Reconstruire le lexique
Tant que vous n'avez pas revenir sur le lexique
des fins d'interprtation, vous n'avez pas intrt
cocher le bouton Reconstruire immdiatement le
lexique car cela peut ralentir inutilement le travail.

Modifier le corpus

Entrer les modifications au clavier

Reconstruire le lexique ou non

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

28

La statistique
lexicale

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Statistiques relatives au corpus

1. Les indicateurs lexicaux


Avec l'extraction du lexique, le logiciel calcule les
indicateurs statistiques qui guident l'utilisateur dans
son travail d'interprtation.

Statistiques des formes


graphiques (mots)
Avec le bouton Compter, on choisit les indicateurs
affichs dans le lexique en regard de chaque mot :
Nombre doccurrences : cest le nombre de fois
o un mot apparat dans le corpus. On le note mi,.
i est l'indice du mot.
Nombre dobservations : cest le nombre
dobservations ou fragments contenant au moins
une fois le mot. Il est not oi. Comme un mot peut
apparatre plusieurs reprises dans une
observation, on a mi >=oi.

Statistiques relatives au lexique

Taille du lexique. : c'est le nombre de mots


diffrents prsents dans le corpus, elle donne une
indication sur la richesse du vocabulaire. Elle est
note l. Cette valeur, affiche en bas droite de la
fentre du corpus, est calcule sans les mots
outils si ceux-ci ont t ignors et sans les mots
supprims. Les nombres de mots ignors et
supprims figurent entre parenthses.
Nombre de mots marqus : ces mots sont
utiliss pour le calcul du pourcentage de lecture
du corpus et des intensits lexicales.
Pourcentage de lecture du corpus : c'est le
rapport entre le nombre doccurrences cumules
des mots marqus et la taille du corpus total. PL =
100 * m / c avec c : taille du corpus, m indice
des mots marqus. Il donne une indication de la
fraction du corpus, vue par les termes
slectionns dans le lexique.

30

Taille du corpus : c'est la longueur du texte, elle


donne le nombre total de formes graphiques qui le
composent. c = i . Le calcul ne tient pas compte
des mots ignors (mots outils) ou supprims. S'il y
en a, ils figurent entre parenthses.
Rptition moyenne : c'est le nombre de fois
qu'un mot se trouve en moyenne rpt dans le
texte. Rep = c / l. Selon le cas, le calcul est
effectu en ignorant les mots outils ou les mots
supprims. La valeur de la rptitivit calcule sur
la totalit du lexique et du corpus est donne entre
parenthses.

Statistiques relatives
l'observation
Pour chaque observation, on lit dans le cadran situ
en bas de la fentre :
La taille de l'observation, en nombre de
caractres et de mots (r) et le nombre de mots
marqus (m) qu'elle contient.
La banalit : c'est le nombre moyen
d'occurrences dans le corpus, des mots prsents
dans la rponse : b = (
r) / r avec (r) indice des
mots de la rponse et r taille de l'observation. Elle
mesure aussi la rptition moyenne des mots
utiliss. Plus elle est leve, plus la rponse est
banale. La banalit est comprise entre 1 pour une
observation ne contenant que des hapax et le
nombre d'occurrences du mot le plus frquent
(pour le cas d'une observation qui ne contiendrait
que ce mot).
L'intensit des mots marqus : c'est le rapport
entre le nombre de mots marqus et le nombre de
mots de la rponse ou du fragment (100* m/r).
Cet indicateur permet d'apprcier l'intensit avec
laquelle il fait rfrence au thme correspondant
aux mots marqus dans le lexique.

Nb. occurrences

Nb. observations

Stat. des mots


marqus

Stat. globales

Stat. de l observation

pourcentage de
lecture des mots
marqus

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

2. Bilan lexical
Au stade du traitement, le tableau rcapitulatif des
variables textes donne, pour chaque variable, la
taille du corpus (nombre de mots), celle du lexique
(nombre de mots diffrents), et la longueur
moyenne d'une observation (nombre de mots
moyens...). Ce tableau est trs utile pour comparer
la manire dont ces variables sont documentes.
Dans l'atelier lexical, on peut aller plus loin en
comparant les caractristiques lexicales de la
variable tudie selon les catgories dfinies par
une autre variable (variable de contexte).

Lancer le bilan lexical


Aprs avoir ventuellement rduit et agrg le
lexique, on choisit Bilan par contexte dans le menu
Vue, puis on slectionne la variable de contexte. On
peut, dans la liste des modalits de la variable
choisie, dslectionner celles qui ne nous
intressent pas ou slectionner nouveau celles
qui nous intressent (Ctrl + clic).

Indicateurs propres chaque


contexte
Les 2 premires sries d'indicateurs donnent des
informations propres chaque contexte :
Indications globales et de tendances : effectifs,
nombre de mots, mot le plus frquent (cette
dernire information est significative quand on a
ignor les mots outils).
Moyenne et dispersion : longueur moyenne,
nombre de mots diffrents, rptition, nombre de
mots uniques (hapax).
Les indicateurs suivants mettent l'accent sur les
points communs et diffrences entre contextes :

32

Nombre de mots communs toutes les


catgories et nombre de mots exclusifs de
chaque catgorie : par diffrence avec le nombre
total de mots, on obtient le nombre de mots
partags (mais d'une manire partielle).

Poids relatif du corpus des diffrentes


catgories : ces indicateurs donnent une ide de
la manire dont les zones de langage se
recoupent : l'intersection d'une ligne et d'une
colonne, on lit le pourcentage de lecture du corpus
de la catgorie en colonne, par le lexique qu'il a
en commun avec la catgorie en ligne. Dans
l'exemple ci-contre, on constate que le lexique que
les employs partagent avec les cadres moyens
couvre 67% du corpus des cadres moyens, alors
qu'il ne couvre que 53% de celui des employs.

1 / Eventuellement rduire le lexique

Bilan lexical

2/ Choisir les contextes

Analyser les
zones de langage

employs
employs

Cas OVALE -cadres


Analysemoyens
textuelle de sites Internet Copyright Le Sphinx
Dveloppement - 2005
ouvriers

3. Construire un tableau
lexical
Pour mettre en vidence les diffrences d'usage du
vocabulaire selon l'identit des locuteurs, selon les
parties d'un document, ou selon toute autre variable
de contexte, on construit un tableau lexical. Ce
tableau dispose en ligne les lments lexicaux et en
colonne les catgories dfinies par les modalits
dune variable nominale. On peut ainsi dnombrer la
frquence de chaque terme pour chaque catgorie.

Dfinition du tableau
Pour dfinir les lignes du tableau, il faut marquer
dans le lexique les mots qui figureront en ligne dans
le tableau puis slectionner Tableau lexical dans le
menu Vue.
Le dialogue qui apparat permet de choisir la
variable selon laquelle ventiler le lexique en cours
d'analyse. On peut se limiter certaines catgories
en slectionnant celles qui nous intressent dans la
liste des modalits. Le bouton Croiser permet de
slectionner une autre variable.

Choix des indicateurs calculer


Le bouton Compter permet de choisir les
indicateurs afficher :
Les effectifs : cest laffichage par dfaut. Il donne
l'effectif de chaque catgorie. La dernire colonne
fait la somme des effectifs en ligne. Si toutes les
modalits n'ont pas t slectionnes, elle est
diffrente de l'effectif sur l'ensemble du corpus.
Les % en ligne : ils donnent une indication sur la
rpartition entre modalits. Cette rpartition
dpend videmment de leffectif des modalits.
L'indice de spcificit permet de prendre la
mesure de cet effet.

34

Les indices de spcificit : lindicateur de


spcificit est le rapport entre le nombre
dutilisations observes et le nombre thorique
dutilisations tel quil rsulterait dun emploi
proportionnel au nombre total de mots prononcs
par la catgorie considre. Les termes
spcifiques d'une catgorie (sur utiliss par cette
catgorie) ont un indice suprieur 1. Les termes
exclusifs sont suivis de *. Les mots sous
reprsents ont un indice infrieur 1.

Modification des lignes ou


colonnes du tableau lexical
A moins davoir des ides a priori bien arrtes pour
ne sintresser qu un petit sous-ensemble du
lexique, lanalyse dun tableau lexical conduit
examiner de grands tableaux. Il est intressant de
rduire la dimension de ces tableaux en
slectionnant les mots intressants ou en se limitant
au termes les plus significatifs par leur effectif
(frquence absolue, spcificit...).
On modifie les lignes du tableau en jouant sur les
termes slectionns dans le lexique (utiliser la
touche Esc pour revenir au lexique) ou en utilisant
le bouton Slect (Voir Slections dans un tableau
lexical). On peut changer les colonnes en revenant
sur la slection des modalits avec le bouton
Croiser. On dite avec Transfrer.

Poursuivre l'analyse du tableau


lexical
Le bouton Analyser transfre le tableau dans
l'environnement d'analyse des tableaux croiss. On
pourra approfondir l'analyse (Chi, AFC) et
illustrer les rsultats par des graphiques ou des
cartes situant les locuteurs par rapport au
vocabulaire employ.
Retour l'atelier lexical par le bouton Lexique.

1/ Marquer les mots dans le lexique


2/ Choisir la variable de contexte

Tableau lexical

3/ Slectionner les mots significatifs

4/ Analyser

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Slectionner les termes

4. Listes des mots spcifiques


Un tableau lexical peut tre prsent de manire
plus directe en dressant, pour chaque colonne du
tableau, la liste des mots utiliss par la catgorie
correspondante. On peut ainsi chercher quels sont
les mots qui distinguent chaque catgorie et
analyser la variation des noncs selon les parties
du texte, selon les locuteurs, ou selon les catgories
de rpondants, cest--dire selon le contexte.

Produire des listes de mots


spcifiques
Pour obtenir la liste des mots spcifiques un
contexte, allez dans la liste Vue et choisir Mots
spcifiques.
Comme pour un tableau lexical, choisissez la
variable de contexte et / ou les modalits retenir.
Si cette variable est numrique, l'ge par exemple,
commencez par dfinir des classes (Recoder,
Mettre les numriques en classes). Le bouton
Croiser permet de changer la variable slectionne
pour le croisement.

Prsenter les listes


Le Sphinx calcule le tableau lexical et affiche
directement la liste des mots propres chaque
contexte en appliquant les paramtres courants de
slection (Voir Slections dans un tableau
lexical). On peut faire afficher les frquences ou
l'indice de spcificit en utilisant le bouton Compter
qui permet galement de paramtrer le calcul de
lindice de spcificit (Voir Indices de spcificit).
Le bouton Classer permet dafficher la liste des
mots selon l'ordre du lexique courant ou par ordre
dcroissant des valeurs de l'indice de spcificit.

36

Outre la slection pralable effectue dans le


lexique, le bouton Select permet d'affiner les
conditions de slection :
les mots exclusifs de chaque catgorie ;
les mots communs toutes les catgories ;
les mots communs certaines catgories
seulement.
Ces choix peuvent tre complts par des
conditions sur les effectifs et/ou sur la spcificit
(Voir Slection dans un tableau lexical).
En bas de la fentre des mots spcifiques, on peut
lire le nombre total de mots retenus. On peut ainsi
contrler la svrit des slections.
Les boutons Analyser, Marquer, Rduire
fonctionnent exactement comme dans la fentre du
tableau lexical : Analyser pour poursuivre l'analyse
en
produisant
des
cartes
d'AFC
dans
l'environnement d'analyse des tableaux croiss,
Rduire pour liminer les mots outils du lexique.
Marquer permet daller marquer dans le lexique les
mots slectionns. Ceci est ncessaire si on veut
examiner leur environnement textuel, les ajouter
dans un dictionnaire ou faire toute autre opration
sur ce lexique particulier.

Les rponses caractristiques


Les rponses caractristiques d'une catgorie sont
celles qui contiennent le plus de mots spcifiques
cette catgorie. Grce un calcul effectu sur les
indices de spcificit, on peut ainsi sortir, pour
chaque catgorie, la liste des rponses qui la
caractrisent le mieux.
Pour lancer la recherche des
rponses
caractristiques, activez le bouton Rponses
caractristiques qui se trouve en bas gauche de
lcran.

1/ Marquer les mots dans le lexique


2/ Choisir la variable de contexte

Liste de mots spcifiques


Nb. Occurrences

Indice de spcificit

3/ Affiner les conditions de slection


4/ Sortir les rponses caractristiques

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Choisir les zones de langage

5. Slections dans un tableau


lexical ou dans des listes de
mots spcifiques
La recherche des caractristiques lexicales d'un
tableau lexical ou de listes de mots spcifiques
permet de mettre en vidence les zones de
langage, le jargon, ou le langage commun. C'est un
temps fort de l'analyse lexicale. On peut procder
de manire systmatique et aveugle avec
l'inconvnient de produire des tableaux et listes trs
longs examiner et dont les lments ne sont pas
forcment significatifs.

Procder d'une manire slective


Le logiciel permet, par les actions sur le lexique et
par un dialogue de slection (Slect), de cibler la
recherche :
Slectionner les lments lexicaux en fonction
de leur contenu smantique : on travaillera de
prfrence sur le texte lemmatis, ou mieux
encore sur une seule catgorie syntaxique (nom,
verbe...). On a tout intrt liminer les mots
outils
ou
termes
vides,
effectuer
des
regroupements, ou slectionner les termes les
plus significatifs. Ce travail s'effectue dans le
lexique par les boutons Supprimer, Regrouper,
Marquer.
Filtrer par la statistique en tenant compte de 3
critres : la prsence dans une seule catgorie,
toutes les catgories ou certaines seulement, la
frquence et la spcificit.

Slectionner selon le sens


La case cocher Uniquement les mots marqus
permet de faire la slection dans le lexique. Seuls
les mots marqus figureront dans le tableau ou les
listes. Si aucun mot n'est marqu, le lexique entier
est analys. Le bouton Marquer ralise l'opration
inverse en marquant dans le lexique les mots
slectionns grce la statistique.

38

Les 3 cases cocher Inclure les mots exclusifs


d'une catgorie, Inclure les mots communs
toutes les catgories, Inclure les mots communs
certaines catgories permettent de concentrer
l'analyse sur des zones de langage particulires ; ce
qui est essentiel du point de vue de la
communication.

Limiter par la frquence


La case cocher Seuil de frquence permet de
n'examiner que les termes suffisamment frquents
dans le corpus (on peut par exemple ne retenir que
les termes de frquence suprieure la moyenne).
Cette condition peut tre nuance en l'imposant
chaque catgorie ou une au moins.

Tenir compte de la spcificit


La spcificit indique dans quelle mesure un terme
est sur-reprsent ou sous-reprsent dans une
catgorie. L'indicateur est gal 1 si la proportion
dans laquelle il est utilis est la mme que sur
l'ensemble du corpus. Si le terme est sur-employ,
lindicateur est suprieur 1. Il est infrieur 1 dans
le cas inverse.
On peut fixer un seuil et choisir de ne tenir compte
que des termes de spcificit positive (case
Positive coche). En cochant galement Ngative,
on retient tous les termes sur-reprsents (marqus
+) ou sous-reprsents (marqus -). Les exclusifs
sont marqus dun *.

Combiner les critres de


slection
On joue sur l'ensemble de ces critres en les
combinant. On rduit indiffremment la slection en
jouant sur le seuil de spcificit ou sur la frquence.
Le nombre de mots slectionns peut orienter la
recherche. Cette indication figure au bas de la
fentre.

Slection dans le tableau lexical


et la liste de mots spcifiques
Identifier les zones de langage

Limiter par la spcificit

Limiter par la frquence

Limiter selon le sens des mots


Limiter par longueur de la liste
Effectifs

Indice de spcificit

Mot sur-reprsent

Mot sous-reprsent

Mots exclusifs

Nb. de mots retenus


Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

6. L'indice de spcificit
Dans le Sphinx, les calculs de spcificit sont
utiliss en diffrentes circonstances : rechercher
des caractristiques (Caractriser, Tableau de
caractristiques), tablir des listes de modalits
spcifiques (Tableau de modalits spcifiques).
Ils obissent toujours au mme principe.

Comparer la distribution
observe une distribution de
rfrence
Ces calculs s'apparentent aux calculs effectus
2
pour le test du Chi . Il s'agit de mettre en vidence
des carts une rpartition de rfrence. On
procde en calculant un effectif thorique rpondant
une hypothse de rpartition proportionnelle des
lments tudis. L'cart la rfrence est mis en
vidence par le rapport entre l'effectif thorique et
celui qu'on observe :
si les 2 effectifs sont identiques, le rapport est gal
1, la rpartition est proportionnelle ;
si l'effectif rel est suprieur l'effectif thorique,
l'lment considr est sur-reprsent et le
rapport est suprieur 1 ;
si l'effectif rel est infrieur l'effectif thorique,
l'lment considr est sous-reprsent et le
rapport est infrieur 1.

La mthode de calcul
Si on note N le nombre total de mots dans le
corpus, m le mot utilis, c la catgorie considre,
Nm le nombre de fois o le mot m est utilis par
toutes les catgories confondues, Nc le nombre
total de mots dans la catgorie c et Ncm le nombre
de fois o le mot m est utilis dans la catgorie c,
lindicateur de spcificit est gal :
Ncm / (Nc * Nm / N)

40

Par dfaut, cet indicateur est calcul par rapport


l'effectif total des seuls mots figurant dans le
tableau. Pour que N et Nc soient calculs pour tous
les mots prsents dans le lexique courant il faut
cocher loption Calcul sur lensemble du lexique
(bouton Compter).
En gnral, le calcul par rapport l'ensemble des
mots du lexique a plus de pertinence. Il renvoie la
globalit du discours. En se limitant l'ensemble
des mots slectionns, on risque de se rfrer un
ensemble dnu de fondement en terme
d'nonciation.

Choisir un seuil de slection


2

A la diffrence du test du Chi , on n'utilise pas ici de


modle probabiliste pour formuler un jugement sur
la significativit de l'indicateur. Il s'agit plutt de
l'utiliser d'une manire relative pour slectionner les
carts les plus forts. Le problme est en effet ici de
trouver des moyens efficaces et pertinents pour
rduire la varit lexicale et ne retenir que les
lments sur lesquels les diffrences sont les plus
fortes.
S'il s'agit maintenant d'apprcier la significativit de
2
ces carts, on pourra se reporter au test du Chi
aprs avoir recod les lments lexicaux tudis
dans une variable nominale (Voir Recoder les
textes).

Indicateur de spcificit

Tableau lexical

Effectif thorique
(hypothse de rpartition
proportionnelle)

Indicateur de
spcificit

Nb. total de tous les mots


dans la catgorie (Nc)

Effectif rel (Ncm)

Nb d occurrence du mot
toutes catgories (Nm)

Nb. total d occurrence de tous


les mots dans toutes les
catgories (N)

1,09 = 9 / (33 * 27 / 108) )

Effectif
thorique

Liste de mots spcifiques

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

7. Comparer un lexique de
rfrence
La fonction Comparer, accessible par un des boutons de
commande de latelier lexical, permet deffectuer une
comparaison du lexique avec un dictionnaire de rfrence.
Le dictionnaire de rfrence est un ensemble de mots
assortis dune frquence.
Comparer le lexique du corpus tudi avec un dictionnaire
de rfrence, cest retrouver les mots qui sont surreprsents ou sous-reprsents dans le texte par rapport
cette rfrence.

Quelle rfrence ?
Un dictionnaire de rfrence peut tre gnral, par
exemple le lexique de tous les mots utiliss dans tous les
articles du journal Les Echos . On comparera une
coupure de presse cette rfrence pour mesurer si elle
est dans le ton.
Un dictionnaire de rfrence peut tre thmatique, par
exemple les verbes modaux dans lensemble des discours
dune personnalit politique. On comparera lutilisation de
ces verbes entre sa dernire prestation et lensemble de
ses discours.

Crer / enrichir un dictionnaire de


rfrence
La syntaxe dun dictionnaire de rfrence est :
jaune 24
rouge 31
vert
23
bleu
94
noir
45
Chaque mot est suivi sur la mme ligne de sa frquence.
Un tel dictionnaire peut tre construit dans un traitement
de textes partir de valeurs obtenues par ailleurs.
Le dictionnaire peut aussi tre enrichi en lui ajoutant le
lexique du corpus en cours dtude.

42

Ainsi, si on tudie chaque semaine le corpus dune


mission tlvise, on pourra, semaine aprs semaine,
construire le dictionnaire de rfrence de cette mission et
comparer le vocabulaire de lmission en cours
lensemble des missions prcdentes, et ceci, sans traiter
le trop volumineux corpus de lensemble des missions.

Rsultats de la comparaison
Chacun des mots pourra tre :
dans le corpus mais pas dans la rfrence ;
dans la rfrence mais pas dans le corpus ;
sous-reprsent dans le corpus ;
sur-reprsent dans le corpus.
On cochera les lments souhaits dans le dialogue des
options.

Options de calcul
Le calcul qui permet de fonder la sur-reprsentation ou la
sous-reprsentation est le Rapport des frquences ou la
Comparaison de frquences.
Les frquences servant de base au calcul peuvent aussi
tre calcules de deux manires :
le pourcentage dapparition du mot par rapport
lensemble des mots concerns (corpus ou rfrence) ;
le pourcentage dapparition du mot par rapport
lensemble des mots communs au corpus et la
rfrence.
Ces diffrents modes de calcul ont dj t dcrits dans le
cadre des listes de mots spcifiques.

Limiter la comparaison
Comme dans les listes de mots spcifiques, le rsultat de
cette comparaison est trop volumineux et il faut limiter
cette comparaison pour nen restituer que lessentiel.
On limitera ainsi la comparaison aux seuls mots ayant une
frquence minimale n dans le corpus tudi.
On appliquera un seuil la comparaison pour ne restituer
que les lments vraiment sur-reprsents ou sousreprsents. On ne restituera que les n mots les plus
caractristiques.

5 des couleurs rfrences napparaissent pas


dans le texte

Les couleurs dans le texte


ne sont quau nombre de
trois et ne reprsentent que
1,32% du corpus

Le mot rouge est


nettement surreprsent dans le
texte. En effet, il
reprsente 77,8 %
des occurrences des
couleurs dans le
corpus et 20,8 % des
occurrences des
couleurs dans le
dictionnaire de
rfrence.

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

44

Codification
automatique
des textes

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Slectionner une variable texte

1. Crer de nouvelles variables


dorigine lexicale
Une variable texte peut tre transforme par la
lemmatisation et enregistre sous la forme dune
nouvelle variable contenant le texte lemmatis.
Le Sphinx offre dautres opportunits pour crer de
nouvelles variables partir du texte analys :
Variables nominales pour reprer dans le texte
la prsence dun ou plusieurs mots dfinis a priori
comme les modalits de la nouvelle variable : le
texte est codifi automatiquement en fonction des
mots marqus dans le lexique.
Variables numriques pour enregistrer une
mesure de nature lexicale effectue sur chaque
observation : le texte est quantifi.
Variable texte pour enregistrer un texte modifi
par rapport loriginal : le texte est transform.
Toutes ces oprations donnent lieu la cration
dune nouvelle variable qui vient sajouter la suite
de la liste des variables et des questions.
Ces nouvelles variables seront disponibles pour
toutes les analyses statistiques que le Sphinx
propose par ailleurs. La possibilit de crer ainsi de
nouvelles variables nominales ou numriques
permet de ramener lanalyse dun corpus textuel
des procdures statistiques classiques.
D'autre part, en transformant le texte, on peut
conserver dfinitivement les rductions opres
partir du lexique (liminations, regroupements
thmatiques, solidarisation des expressions et
segments...).
La squence des oprations est la suivante :

46

L'article Etudier les textes du menu Stade et du


menu Recoder permet de choisir la variable texte et
vous place dans l'atelier lexical. Dans l'atelier, vous
pouvez aussi directement choisir une autre variable
en utilisant le bouton Autre.

Slectionner les lments


lexicaux prendre en
considration
Dans le lexique des mots ou
opre
les
rductions,
regroupements utiles. Puis
lments partir desquels
nouvelles variables.

des expressions, on
suppressions
ou
on slectionne les
seront cres les

Slection d'une procdure de


recodification
Le bouton Recoder ouvre le dialogue dans lequel
on dfinit le type de la nouvelle variable et les
oprations mettre en uvre pour la crer.

Dnomination et enregistrement
de la nouvelle variable
Le dialogue habituel de cration d'une nouvelle
variable s'affiche. La premire tape consiste
donner un nom cette variable. Pour la suite des
analyses, il est utile de noter toutes les indications
ncessaires afin de retrouver lorigine des nouvelles
variables ainsi cres. A cet effet, utiliser le cadre
prvu pour la description de la variable en notant les
principales tapes qui la dfinissent.

1/ Slectionner une variable texte


2/ Prparer le lexique et / ou marquer les lments prendre en considration

3/ Slectionner le type de la nouvelle variable

Recoder selon la prsence des


mots marqus

Mesurer les proprits lexicales

Transformer le texte

4/ Nommer la nouvelle variable


et la crer

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

2. Codification lexicale
Il s'agit de codifier le texte en reprant
automatiquement la prsence, dans les rponses,
des mots marqus dans le lexique. Cette mthode
est trs efficace si le lexique a t au pralable
correctement mis en forme : lemmatisation ou
regroupement des diffrentes formes dun mme
mot, regroupement des synonymes ou quivalents,
usage de dictionnaires thmatiques pour regrouper
entre eux tous les termes porteurs dune mme
signification.
Sous ces conditions, on peut faire lconomie de la
mthode classique danalyse de contenu (Voir
Coder des textes) dont les inconvnients sont
largement compenss par le caractre automatique
et objectif de la procdure qui suit.
La dmarche gnrale est la suivante :
prparer le lexique : analyser de prfrence un
corpus lemmatis et effectuer les groupements
ncessaires ;
marquer dans le lexique les lments que lon
souhaite reprer dans la rponse. Sil sagit de
termes regroups (lments commenant par un
#), la prsence dun au moins des lments du
groupe suffit pour identifier la prsence du thme
correspondant ;
agir sur le bouton Recoder et choisir Variable
ferme pour dfinir le type de variable crer.

Cration de variables oui/non


Si vous slectionnez loption Variable oui/non : la
nouvelle variable aura deux modalits de rponses :
Oui et Non . La modalit Oui correspond
au cas o lun des mots slectionns dans le
lexique est prsent au moins une fois dans la
rponse.

48

Attention : le balayage des rponses se fait en


suivant les rgles de la navigation lexicale. Si la liste
droulante Navigation est sur loption Obs. avec le
mot actif, seules les observations contenant ce mot
activeront la modalit Oui . Pour reprer la
prsence de l'un des mots, il convient donc de
slectionner loption Obs. ayant un des mots
marqus.
Par dfaut, la liste des mots marqus est reprise
dans le libell de la nouvelle variable sauf si vous
entrez votre propre description. Lnumration est
tronque si la liste est trop longue.

Cration dune variable ferme


sur les mots du lexique
Si vous optez pour Ferme sur les mots marqus
du lexique, la nouvelle variable a autant de
modalits que de mots marqus dans le lexique. Au
maximum 50 ; ce qui correspond la limite des
rponses aux questions fermes.
Une mme rponse peut contenir plusieurs mots
marqus. Ainsi la nouvelle variable est rponses
fermes multiples. Le nombre maximum de
rponses possibles est a priori gal au nombre de
mots slectionns. Il est finalement ajust par le
logiciel en fonction du nombre maximum de mots
effectivement prsents dans une rponse.
Le rsultat du dpouillement plat de la nouvelle
variable ne correspond pas ncessairement au
nombre doccurrences affiches dans le lexique. En
effet, les variables fermes sur les mots du lexique
dnombrent des rponses et non des mots. Si un
mot est prsent plusieurs fois dans une mme
rponse, leffectif des rponses nest incrment
que de 1.
L'effectif obtenu indique le nombre d'observations
contenant au moins une fois le mot considr.

Coder les mots


marqus dans le
lexique

Elments lexicaux
pris en compte

Plaisir de manger 12

Variable Oui / Non

Oui
Non
TOTAL OBS.

Plaisir de manger_R2
Non- rponse
manger
bon
repas
ami
got
plaisir
plat
faim
aliment
#famille
restaurant
table
Dveloppement
2005
TOTAL-OBS.

Variable ferme sur les


mots du lexique

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx

Nb. cit.

Frq.

236
74
310

76,1%
23,9%
100%

Nb. cit.
74
107
95
50
38
24
23
19
15
14
26
13
10
310

Frq.
23,9%
34,5%
30,6%
16,1%
12,3%
7,7%
7,4%
6,1%
4,8%
4,5%
8,4%
4,2%
3,2%

3. Mesures lexicales

Loption Pour chaque mot permet de crer autant de


variables que de mots slectionns. Leur nom contient
celui du mot suivi de l'extension _O. Elles enregistrent le
nombre de fois o le mot est prsent dans l'observation.

On cherche caractriser les noncs par le poids de


certains mots ou l'nonciation par les caractristiques de
chaque observation. Ceci peut donner lieu aux mesures
suivantes :

En slectionnant Pour l'ensemble des mots, une seule


variable est cre : elle donne le nombre fois o l'un des
mots marqus est prsent.

Indications relatives la prsence


de certains mots
On cherche mesurer l'importance dans le corpus des
mots slectionns dans le lexique :
Nombre doccurrences des mots marqus : calculer
le nombre de fois o ces mots apparaissent ;
Intensit lexicale des mots marqus : calculer leur
poids relatif par rapport au nombre total de mots de la
rponse (100*Nb. mots marqus / Nb. total de mots).
Ces calculs peuvent sappliquer lensemble des mots
marqus ou chacun deux. Dans ce dernier cas, on cre
autant de variables que de mots marqus.

Caractristiques des
observations
On prend en compte le lexique courant sans tenir compte
des mots marqus :
Longueur de l'observation : compter le nombre de
mots utiliss ;
Banalit de l'observation : calculer le nombre moyen
de fois o les mots de la rponse sont rpts dans tout
le corpus ;
Richesse de l'observation : calculer le nombre de mots
diffrents.
Pour construire ces indicateurs, on slectionne l'une des
mesure lexicales proposes.

Nombre doccurrences des mots


marqus
S'il n'y a pas de mots marqus, le calcul tient compte de la
totalit des mots du lexique courant (sans les mots ignors
ou supprims).

50

Intensit lexicale des mots


marqus
Cet indicateur permet de mesurer limportance relative
dun mot ou dun groupe de mots. Il exprime, en
pourcentages, la place accorde aux thmes ou
significations que ces mots reprsentent. On a les mmes
options que pour le nombre d'occurrences : calculer une
variable pour chaque mot (note mot_I) ou une seule
variable pour l'ensemble des mots.

Banalit de l'observation
Cet indicateur est gal au nombre de fois o les mots de
l'observation apparaissent en moyenne dans tout le
corpus. Cette variable permet ensuite de slectionner les
rponses les plus banales, les moins banales et de les
lister... Il est prfrable de calculer la banalit en ignorant
les mots outils.

Nombre total de mots (longueur


de l'observation)
En calculant le nombre de mots de l'observation - la
longueur - (sur la base du lexique courant et sans tenir
compte des mots marqus), on obtient un indicateur trs
utile dans l'analyse des questions ouvertes. Il est identique
celui obtenu en choisissant Nombre doccurrences des
mots marqus avec l'option Pour l'ensemble des mots
et sans mots marqus dans le lexique.

Richesse de l'observation
Elle est gale au nombre de mots diffrents. Ce calcul ne
tient pas compte des mots marqus et se fait sur la base
des lments du lexique courant.

Mesures lexicales

Groupe
des variables de
chaque mot

Valeur
moyenne

Somme

0,37
0,34
0,17
0,09
0,08
0,08
0,08
0,06
0,05
0,05
0,04
0,03
0,12

115
105
53
29
26
24
24
20
15
14
13
10
448

manger_O
bon_O
repas_O
chose_O
#en_famille_O
got_O
plaisir_O
plat_O
faim_O
aliment_O
restaurant_O
table_O
Ensemble

Une variable pour lensemble


des mots

Plaisir de manger__R

Frq.

Non- rponse
1
0,3%
Moins de 1,00
73 23,5%
De 1,00 2,00
104 33,5%
De 2,00 3,00
71 22,9%
De 3,00 4,00
38 12,3%
De 4,00 5,00
18
5,8%
Plus de 5,00
5
1,6%
TOTAL OBS.
310 100%
Minimum = 0, Maximum = 6
Somme = 458
Moyenne = 1,48 Ecart-type = 1,24

Nombre doccurrences des mots marqus

Intensit

Nb. cit.

=100*Nb. Occurrence marques/ Nb. total de mots


Longueur

Banalit
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Richesse

4. Modification du contenu
d'une variable texte
Comme on le fait quand on lemmatise un texte, il
sagit l de crer une nouvelle variable texte
contenant un texte modifi. Cette possibilit permet
:
denregistrer un nouveau texte en tenant compte
des rductions, suppressions et regroupements
oprs dans le lexique des mots ou des
expressions. Ceci est utile pour travailler ensuite
sur des textes rectifis ou expurgs ;
de changer le niveau danalyse dun texte en
fractionnant chaque observation en fragment de
texte plus fin.

Texte rduit aux mots du lexique


Aprs avoir fait dans le lexique les modifications
dsires : ignorer des mots (Rduire), en supprimer
(Supprimer), en regrouper (Regrouper), on
excute la squence Recoder / Texte modifi /
Texte rduit aux mots du lexique.
Dans le contenu de la nouvelle variable texte, les
mots ignors ou supprims n'apparatront plus, et
les lments d'un groupement dfini dans le lexique
seront remplacs par le nom de ce groupement.
Si des mots sont marqus dans le lexique, eux
seuls seront utiliss pour construire la nouvelle
variable.

Relier les mots conscutifs


Il faut distinguer 2 cas :

52

Lexique des mots : si c'est le lexique des mots


qui est ouvert (menu Lexique / Mots), marquez
dans le lexique les lments appartenant aux
mots composs que vous souhaitez reconstituer,
puis excutez : la squence Recoder / Texte
modifi / Relier les mots marqus conscutifs.
On cre ainsi un nouveau texte o les suites
conscutives seront solidarises par un tiret ( _ )
pour ne former qu'une seule forme graphique.
C'est une manire de solidariser les mots
composs. Mais il est beaucoup plus intressant
de procder partir du lexique des expressions.
Lexique des expressions : lorsque le lexique des
expressions est ouvert, le dialogue du bouton
Recoder offre 2 possibilits : Texte rduit aux
expressions (la nouvelle variable texte ne
contiendra que ces expressions) ou Relier les
mots de chaque expression. Dans ce dernier
cas, la nouvelle variable conserve l'intgralit du
texte original mais les expressions apparatront
comme une seule forme graphique (les lments
formant l'expression sont relis par _ :
mot_compos).

Modifier le texte
Transformer en fonction des
mots

Transformer les expressions


Rduire aux mots du lexique

Relier les expressions

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

5. Fractionner une variable


texte
Cette option est utile quand on analyse des textes
dont le dcoupage initial se rvle inadquat ou
quand les rponses sont longues et comportent
plusieurs phrases.
Il est en effet gnant, pour certaines oprations
(lecture de la fentre corpus, navigation lexicale,
cration de variables fermes sur les mots du
lexique), davoir, au niveau de lobservation, un
texte trop long ou comportant de trop nombreuses
units de significations ou de trop nombreuses
phrases.
Le principe consiste alors fractionner chaque
observation en fonction des sparateurs spcifis :
retour chariot pour dcouper en paragraphes, point
pour les phrases, autres signes de ponctuation pour
les propositions, ou tout autre caractre introduit
dans le texte cette fin.
On opre ainsi un changement d'unit statistique
(d'une population de paragraphes une population
de phrases...). Une nouvelle enqute est alors
cre : elle comporte un nombre dobservations
suprieur la premire et rpond aux
caractristiques suivantes :
la nouvelle variable texte contient les fragments
rsultant du dcoupage ;
la valeur de toutes les autres variables est reprise
lidentique pour chaque nouvelle observation
cre par clatement de loriginale ;
le texte des autres variables textes nest repris
quune
seule
fois
dans
lobservation
correspondant au premier fragment du texte
clat. Pour les autres fragments, elle est vide ;
une variable CLEF, de type numrique, est cre
automatiquement la fin de la liste des variables.
Elle contient, pour chaque nouvelle observation, la
provenance de la partie fractionne.
Pour fractionner une variable texte, procdez ainsi :

54

dans le dialogue ouvert par le bouton Recoder,


slectionnez Texte modifi / Fractionner les
rponses ;
choisissez le ou les sparateurs dsirs en les
tapant dans la bote Fractionner les rponses
pour les sparateurs ;
un dialogue vous avertit quune nouvelle enqute
va tre gnre ;
dans le dialogue standard de gestion de fichiers,
donner un nom de rpertoire pour la nouvelle
enqute ;
le logiciel procde au dcoupage et la cration
de la nouvelle enqute dans laquelle vous vous
retrouvez. Cest la nouvelle variable qui se trouve
maintenant active. Vous pouvez vrifier que le
nombre dobservations a chang.
Pour revenir lenqute dorigine, il faut louvrir
nouveau.

Changement d'unit statistique


En procdant ainsi, on passe par exemple d'une
population de paragraphes une population de
phrases. On change d'unit statistique.
Un cas particulier de cette opration consiste
fractionner la rponse en autant de mots qu'elle
contient. Ceci est particulirement intressant si la
rponse contient par exemple des noms de marque.
Ce fractionnement s'effectue au stade de la Saisie
des rponses, dans le menu Grer et dans la
fonction Changer d'unit statistique : option
Autant d'units que de fragments d'une question
texte (Voir le paragraphe Changer d'unit
statistique).

Texte initial

E
c
lTexte fractionn
a
t
e
r

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

56

Ouvrir un
fichier de
donnes
textuelles

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

1. Du corpus textuel la base


de donnes
On peut, avec le Sphinx, analyser nimporte quel corpus
disponible sous la forme dun fichier texte (ASCII) :
interviews non structures, tables rondes, comptes
rendus de runions, ... saisis dans un traitement de
textes ;
documents de toute nature : articles de presse, textes
littraires, pages Html, rcuprs dans un fichier
texte ;
bases de donnes : fichiers dadresses, bases
bibliographiques, exports sous forme de fichier texte.
Pour analyser ce type de donnes, il faut tout dabord les
intgrer dans Sphinx en crant, partir du ou des fichiers
d'origine, une base de donnes adquate. Cest ce quon
peut faire partir du menu Fichier et de la rubrique Ouvrir
un fichier de donnes. Mais au pralable, il faut rflchir
la structuration du corpus.
Est-il form naturellement d'units lmentaires qui se
rptent comme les enregistrements d'une base
bibliographique ou les couples questions/rponses d'une
interview ?
Peut on identifier diffrents sous-ensembles de textes
comme les titres et les rsums d'une base
bibliographique, ou les questions et les rponses dans une
interview ?
Est-il structur en catgories homognes comme
l'entretien auquel attribuer un couple de question / rponse
dans un corpus regroupant plusieurs interviews o une
anne situant le titre et le rsum d'un ouvrage ?
La rponse ces questions dpend de la structuration
"naturelle" du corpus, mais galement de la stratgie
d'analyse envisage.
Elle conduit :
Dfinir les observations : selon quelles units
lmentaires dcouper le corpus ?

58

Phrases, paragraphes, pages, parties, documents,


rpliques, ensembles de rpliques, interviews, fiches...
constitueront la population analyser. En analyse de
donnes textuelles, on utilise souvent le mot fragment pour
qualifier ces units lmentaires, qui correspondent aux
individus ou observations formant la population tudie.
Dfinir les variables : selon quels points de vue
structurer le corpus ?
On peut considrer le texte relatif une unit
lmentaire comme un tout ou distinguer plusieurs sousensembles (la question et la rponse, le titre et le
rsum...) et dfinir ainsi une ou plusieurs variables
textes.
On peut aussi identifier des catgories auxquelles
appartiennent les units lmentaires : le document ou
la partie qui situe la phrase, le nom de la personne
interviewe qui situe la question et la rponse, l'anne
pour le titre et le rsum. On cre pour cela des
variables nominales dites variables de contexte qui
situent les variables textes.
La base de donnes cre partir du corpus sera
organise en fonction des indications de dcoupage et de
structuration. Elle sera compose dautant de fragments
(lignes / observations...) que le texte contient dunits
lmentaires. Chaque fragment sera compos dune ou
plusieurs variables : textes et contextes dfinissant le
statut des textes.
A titre d'exemple, le schma ci-contre illustre les
diffrentes manires de structurer le texte de 3 interviews
non directives :
dcouper selon l'entretien : la base comporte 3
observations (les interviews), une variable texte (texte
des questions ou des rponses), une variable de
contexte (l'entretien). On ne peut pas faire la diffrence
entre question et rponse ;
dcouper selon la prise de parole : la base comporte 24
observations (tour de parole ou rplique), une variable
texte (texte des questions ou des rponses), 2 variables
de contexte : l'interview, et le statut de la variable texte
(Question ou Rponse). On ne peut pas croiser question
et rponse ;
dcouper selon l'change : la base comporte 12
observations (changes question / rponse), deux
variables textes (le texte de la question et le texte de la
rponse), une variable de contexte (l'interview). Cette
solution permet de distinguer question et rponse et de
croiser leur vocabulaire.

... aux bases de


donnes

Du texte

Variables de
contexte

Variables
textes

Questions

Rponses

Questions

Rponses

Identit de linterview
Statut du texte (question/rponse)

Texte des questions ou des rponses

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

3 entretiens

24 rpliques

12 changes question/rponse

2. Ouvrir un texte analyser


C'est un cas particulier de l'ouverture de donnes
externes. Vous devrez d'abord confirmer qu'il s'agit
d'un texte analyser, ouvrir ensuite le fichier, et
choisir enfin quel type de structuration il
correspond.

Lancer la squence d'ouverture


Si vous venez de dmarrer le Sphinx, utilisez le
bouton Fichier de donnes. Si vous tes dj en
train de travailler, utilisez dans le menu Fichier,
l'article Ouvrir un fichier de donnes. Vous
pouvez galement utiliser le bouton Ouvrir un texte
du panneau lexical.

Dans le premier cas, choisir loption Les textes


sont annots : les indications naturelles de
structurations sont inexistantes ou peu nombreuses,
hormis les annotations et marques introduites dans
une phase prparatoire pour guider le logiciel.

Dans le dialogue Ouvrir un fichier de donnes,


choisissez l'option Un texte analyser. Ne
choisissez Des donnes formates que si vos
donnes sont prsentes sous forme de tables (en
provenance d'Excel ou Access par exemple).

Dans le deuxime cas, choisir loption Les textes


sont baliss : on trouve les traces de l'organisation
des donnes (les balises), elles rsultent de leur
origine informatique (bases de donnes, fichiers) ou
de leur mode d'laboration (fiches de lectures,
compte rendu d'entretiens...).

Ouvrir le fichier
Avec le dialogue habituel de Windows, cherchez
votre fichier et ouvrez-le. Une nouvelle fentre
apparat et vous montre le contenu du fichier. Si
vous ne reconnaissez pas vos donnes, vous vous
tes tromp de fichier ou ce n'est pas un fichier au
format texte.
L'ouverture ne se passera correctement que si le
fichier n'est pas utilis en mme temps dans un
autre logiciel.

Choisir le format correspondant


la structuration des donnes
Avant de passer l'tape suivante, vous devez
indiquer au logiciel comment il devra interprter les
indications de structuration prsentes dans vos
donnes. Deux possibilits vous sont offertes :

60

la premire correspond au cas o vous analysez


un ou quelques textes, peu ou irrgulirement
structurs : discours, livre, rapport, pice de
thtre, compte rendu de runion, de table ronde,
focus groups... ;
la deuxime, au contraire, concerne des
ensembles de textes rgulirement structurs :
bases de donnes bibliographiques, sites Internet,
collection de documents (coupures de presses,
changes dans une messagerie...), entretiens non
directifs...

Le choix renvoie aussi au caractre rptitif ou non


du matriau analyser. L'option Les textes sont
baliss correspond bien aux cas o la nature des
donnes impose un dcoupage en units
lmentaires (la note documentaire, la fiche, la
coupure de presse, le couple question / rponse).
Au contraire, loption Les textes sont annots
correspond au cas o aucun choix ne s'impose a
priori.

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

3. Texte balis
On obtient par exemple un texte balis en extrayant des
lments d'une base de donnes ou en compilant un
ensemble de messages lectroniques. Ces donnes sont
en effet structures par les balises qui indiquent les
diffrentes rubriques. Toutes ne sont pas forcment
prsentes, mais chaque information est rattache l'une
d'elles.
A partir des balises, le logiciel peut organiser la nouvelle
base de donnes : il repre les balises dans le texte et les
soumet pour validation l'utilisateur. Puis il cre une
variable par balise, et parcourt le texte en affectant ce qui
suit chaque balise la variable correspondante. Lorsqu'il
rencontre nouveau une balise, il cre une nouvelle
observation.

Dfinir les caractres dlimitant les


balises
Aprs avoir slectionn loption Les textes sont baliss,
un cran vous propose de valider les caractres permettant
de reprer les balises : remplir pour cela les cases Les
balises commencent par, et Les balises finissent par.
Le retour chariot (^p, saut la ligne) et les deux points ( : )
sont proposs par dfaut. Les blancs sont ignors.
Le logiciel explore les donnes et dresse la liste de tout ce
qui se trouve entre 2 caractres dlimiteurs. Les ":" qui
peuvent par ailleurs tre prsents dans le texte sont des
sources d'erreur qu'il conviendra d'ignorer.

Contrler la validit des balises


trouves
Le logiciel parcourt le texte et dresse la liste de tout ce qu'il
trouve entre les caractres dlimiteurs en indiquant les
frquences d'apparition.
L'cran suivant affiche cette liste ; ce qui permet de
prciser les lments considrer comme balises et ceux
qui doivent tre ignors. Utilisez la case cocher Ne pas
considrer la chane comme une balise pour marquer
d'un x les lments ignorer. Dans l'exemple ci-contre,
c'est le cas de mdecine, conomie politique ...

Une autre case cocher permet d'indiquer si, lorsqu'une


balise est absente, le contenu de la variable doit tre admis
non rponse ou si on doit plutt Conserver la valeur
prcdente.

Identification des variables et des


observations
La validation des balises dfinit la structure de la table de
donnes.
A chaque balise correspond une variable de la table
(colonnes). Il y a autant de variables que de balises et
autant d'observations que le nombre de fois o la balise la
plus frquente apparat dans le texte (lignes). Une
observation est dfinie par l'ensemble des balises
(variables).
Le logiciel parcourt le texte en affectant ce qui suit une
balise la variable correspondante. La rptition d'une
balise marque le passage l'observation suivante. Pour les
balises manquantes, la variable est mise non rponse ou
reprend la valeur prcdente.
En fin de lecture, le logiciel affiche la liste des variables et
leur donne un type par dfaut. On peut le modifier en
indiquant le plus appropri dans la liste.

Cration de la base Sphinx


Aprs avoir contrl les variables, validez et donnez un
nom votre base. Une nouvelle enqute est cre, vous
pourrez la reprendre et lanalyser comme toutes les autres.

Les questions / rponses

4. Prparer et ouvrir un fichier


d'entretiens semi-directifs
Les entretiens semi directifs sont insuffisamment structurs
pour tre saisis dans le cadre fix a priori pour les
questionnaires Sphinx, mais ils prsentent un niveau de
structuration qui conduit les analyser comme des textes
baliss. C'est dans cette optique qu'il convient d'organiser
leur saisie.
Dans l'exemple ci-contre, on utilise des balises en dbut de
ligne (dlimiteurs ^p et : ) pour :
dfinir la signaltique de l'entretien (Entretien, Sexe, Age,
CSP) ;
indiquer les grandes parties de l'entretien (Partie) ;
distinguer les questions et les rponses (Q, R).

Traitement des variables signaltiques

Ces balises ne sont pas marques, elles dfinissent


l'observation lmentaire, c'est--dire que leur rptition fait
passer l'observation suivante.
Si 2 "Q" se suivent, ils appartiennent ncessairement des
observations diffrentes, et dans ce cas, on aura un "R"
non rponse.

Prcautions prendre au moment de


la saisie
Le logiciel applique aveuglment les "rgles de
reconnaissance" du texte. Il faut par consquent s'assurer
qu'elles ont bien t respectes la saisie :
les dlimiteurs de balises ne doivent pas tre prsents
ailleurs dans le texte. Attention au " : " ou utilisez d'autres
caractres( <, >, ]...) ;
toutes les balises de contexte doivent tre documentes
(mme si elles sont ventuellement vides).

A la lecture du fichier, le logiciel repre que les balises


Entretien, Sexe, Age, Csp sont en nombre infrieur aux
autres. Il propose de les liminer en les marquant comme
lments ne pas considrer comme balise (case cocher
Ne pas considrer la chane comme une balise).
Il faut changer cela en indiquant que lorsque la balise est
absente, la valeur prcdente doit tre conserve. En effet,
on souhaite ici que le couple question/observation dfinisse
l'observation lmentaire, les autres balises renvoyant
des variables de contexte. Pour que ces variables soient
bien documentes, il faut cocher la case Si la balise est
absente, conserver la valeur prcdente.

Traitement des parties


On procde de la mme manire pour la balise Partie. Ceci
implique que tout couple de question/rponse est rattach
une partie.
On peut ainsi indiquer la structuration gnrale de
l'entretien sans devoir ncessairement trouver toutes les
parties dans tous les entretiens ni tous les couples de
questions/rponses d'une mme partie les uns la suite
des autres. Seuls les changements de partie doivent tre
signals ; c'est ce que permet l'option Si la balise est
absente, conserver la valeur prcdente.

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Signaltique
Variables de
contexte
Parties de
linterview

Questions
Rponses

Variables
textes

5. Texte annot
On utilise cette approche lorsque le ou les textes
analyser sont faiblement structurs ou pas du tout. Se pose
alors la question du dcoupage en fragments lmentaires.
La dmarche la plus simple consiste s'appuyer sur la
structuration naturelle du texte. Enfin, la possibilit
d'interprter des annotations apportes dans le texte
permet d'en reprer les lments et/ou de les commenter.

Dcouper le texte en fragments


lmentaires
Indiquez si vous souhaitez dcouper le texte en phrases ou
en paragraphes en cochant les boutons appropris. Le
Sphinx cre un nouveau fragment chaque caractre de
ponctuation
forte
(Phrases)
ou
retour
chariot
(Paragraphes). Vous pouvez galement spcifier le
caractre sparateur de votre choix pour dcouper selon
vos propres indications (Caractres sparateurs).
Une opration un peu plus complexe vous permet de
dfinir plusieurs caractres sparateurs dont certains
serviront structurer votre texte.

les annotations globales de type JALON : tous les


fragments, jusqu' la prochaine annotation globale, sont
dsormais affects par cette annotation ;
la syntaxe respecter est la suivante : le contenu est
dfini entre crochets et prcd d'une mention prcisant
son type : [MT= contenu ]
M= pour MARQUE (variable ferme)
MT= pour MARQUE TEXTE (variable ouverte)
J= pour JALON (variable ferme)
JT= pour JALON TEXTE (variable ouverte)

Le bouton Dtail disponible dans loption Annotations


permet :
dindiquer les annotations qu'on souhaite utiliser (cocher
la case correspondante) ;
de donner un nom la variable ;
de prciser si on souhaite conserver les annotations dans
le texte ;
dorganiser la propagation de la dernire annotation
(Marque absente = Marque prcdente).

Numroter les fragments et les parties


Le bouton Numrotation permet de numroter les
fragments et / ou de les rpartir en un nombre de parties
dterminer (Indicateur de parties).

Par exemple, pour distinguer des chapitres et des sections,


portez, dans votre texte, chaque dbut de chapitre le
caractre $, chaque dbut de section, le caractre .
Pour indiquer que vous souhaitez dcouper votre texte en
phrases et que les chapitres sont contenus dans des
sections, cochez Niveaux et entrez vos caractres
sparateurs sur le modle ci contre. Les sparateurs de
fragments figurent gauche, ceux qui indiquent les
chapitres et sections figurent en deuxime et troisime
position (selon l'ordre d'inclusion).

Interprter les annotations


Les annotations sont des repres ou commentaires
rajouts dans le texte. Elles sont reconnues par le logiciel
et permettent de crer des variables de contexte
caractrisant les fragments auxquels elles s'appliquent.
Le contenu de l'annotation peut donner lieu une variable
ferme ou ouverte texte. On peut, d'autre part, les
distinguer selon leur porte :
les annotations locales de type MARQUE : un seul
fragment sera affect par l'annotation (le fragment qui la
contient) ;

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

1/ Dcouper
2/ Structurer

Structurer par niveaux

Structurer par dcompte des


fragments
Structurer par annotations
Jalon
Marque

Sparateur

Slectionner les annotations et dfinir


les variables

6. Exemples de textes annots


Selon la nature du corpus analys et des annotations qui
ont t mises, on utilisera diffremment les possibilits
offertes par le dialogue d'ouverture d'un Texte annot.

Analyse de discours
On peut ramener ce cas celui de tout texte mono bloc
dans lequel aucune structuration particulire n'est mise en
vidence hors mis celle de la syntaxe.
La solution la mieux approprie consiste :
fragmenter le texte en phrases et dnombrer les
paragraphes. Chaque phrase se trouve ainsi affecte
un paragraphe repr par son numro. Pour cela,
slectionner Niveaux et entrer les caractres de
ponctuation forte dans la case de gauche et le retour
chariot dans la case de droite ;
dcouper le texte en 5 parties conscutives et de
longueur gale (en nombre de fragments). On peut ainsi
identifier des parties de dbut, de milieu et de fin du texte.
Pour cela, dans le dialogue Numrotation cocher
Numrotation des parties et Indicateur de partie : 5.
La base de donnes obtenue comporte la variable texte et
3 variables de contexte contenant le numro de fragment le
numro de paragraphe et de partie.

La nouvelle base contiendra la variable texte et 3 variables


de contexte : le statut du texte (Question, Rponse), la
Partie et le document d'origine (Fichier).
En procdant ainsi, on peut dfinir la strate des questions,
celle des rponses et se concentrer sur l'un ou l'autre des
corpus. Mais on ne pourra pas rapprocher le texte d'une
question de celui de la rponse qu'elle provoque. Cette
stratgie convient aux entretiens non directifs. Mais si
l'entretien est dirig avec des questions qui reviennent
l'identique, il vaut mieux procder comme pour un texte
balis. En assimilant le couple question / rponse une
observation, on pourra croiser les vocabulaires
correspondants.

Pice de thtre
Ce cas peut se ramener au cas prcdent : on fait prcder
chaque
rplique
d'une
marque
Personnage
:
[M=Harpagon], [M=Elise]. En dbut de chaque Scne, on
pose un Jalon [J=Acte I Scne 1]..... Pour identifier les
Actes indpendamment les uns des autres, on peut utiliser
un sparateur de niveau en posant par exemple des $ au
dbut de chaque Acte.
La fragmentation peut se faire par phrases ou par
rpliques. Dans ce dernier cas, faire concider la rplique et
le paragraphe ou introduisez un niveau rplique.

Entretien non directif


Dans ce cas, on souhaite distinguer les questions des
rponses pour pouvoir analyser le texte des rponses
d'une manire isole. Dans le texte, on porte les
annotations [M=Question] et [M=Rponse] au dbut de
chaque Question / Rponse et aprs un retour la ligne.
Pour identifier d'ventuelles parties, on ajoute des
annotations de type jalon : [J=Introduction], [J=Partie 1]...
au dbut de chaque partie.
Pour dcouper le texte, choisissez Phrases et dans le
dialogue Annotations, nommez Statut la variable Marque
et Partie la variable Jalon. Cochez la case Marque
absente = Marque prcdente (ceci permet de ne pas
rpter la marque chaque phrase).
Si vous avez plusieurs entretiens, vous pouvez faire un
fichier pour chacun. Cochez alors la case Plusieurs
fichiers.
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

AVARE.DOC : tel quil nous est parvenu


ACTE_V - SCENE_V
ANSELME, HARPAGON, ELISE, MARIANE, FROSINE, VALERE,
MAITRE_JACQUES, LE_COMMISSAIRE, SON_CLERC.
HARPAGON : Oui, ils se sont donn l'un l'autre une promesse de
mariage. Cet affront vous regarde, seigneur Anselme, et c'est vous qui
devez vous rendre partie contre lui et faire toutes les poursuites de la
justice pour vous venger de son insolence.
ANSELME : Ce n'est pas mon dessein de me faire pouser par force et
de rien prtendre un cur qui se serait donn ; mais, pour vos intrts,
je suis prt les embrasser ainsi que les miens propres.
HARPAGON : Voil, monsieur, qui est un honnte commissaire, qui
n'oubliera rien, ce qu'il m'a dit, de la fonction de son office. (Au
commissaire) Chargez-le comme il faut, monsieur, et rendez les choses
bien criminelles.

Annotations
Jalons
acte et scne
liste des
personnages
prsents
Marques
nom du personnage
didascalies

AVARE.TXT : aprs le traitement dans Word


$[J=ACTE_V - SCENE_V][JT=ANSELME, HARPAGON, ELISE, MARIANE, FROSINE, VALERE,
MAITRE_JACQUES, LE_COMMISSAIRE, SON_CLERC]
&[M = HARPAGON] Oui, ils se sont donn l'un l'autre une promesse de mariage. Cet affront vous
regarde, seigneur Anselme, et c'est vous qui devez vous rendre partie contre lui et faire toutes les
poursuites de la justice pour vous venger de son insolence.
&[M = ANSELME] Ce n'est pas mon dessein de me faire pouser par force et de rien prtendre un
cur qui se serait donn ; mais, pour vos intrts, je suis prt les embrasser ainsi que les miens
propres.
&[M = HARPAGON] Voil, monsieur, qui est un honnte commissaire, qui n'oubliera rien, ce qu'il
m'a dit, de la fonction de son office. [MT=Au commissaire] Chargez-le comme il faut, monsieur, et
rendez les choses bien criminelles.

AVARE.QUE : le dictionnaire des variables cres


1. REPLIQUES
2. DIDASCALIES
3. QUI PARLE
4. ACTE_SCENE
5. NUMERO_DANS_SCENE
6. NUMERO_DANS_PIECE
7. QUI EST SUR SCENE

O(texte)
O(texte)
F(unique)
F(unique)
O(numrique)
O(numrique)
F(multiples;11)

H quoi ! Charmante Elise,....


( part)
HARPAGON ; CLEANTE; ...
ACTE1_SCENE1 ; ....
1 2 ..........
1 2 ......
HARPAGON ; CLEANTE; ...

7. Macro commandes pour la


prparation des textes
Prparer un texte, nous l'avons vu, c'est indiquer par des
caractres la structure du texte.
Certains caractres sont des sparateurs de fragments,
d'autres entourent les annotations qui illustrent le texte.
Le texte original ne prsente pas en gnral cette
structuration sous forme de caractres rservs.
Par contre la typographie, les styles, la pagination
contiennent des lments de structure.
Les traitements de textes proposent des fonctions de
Rechercher / Remplacer sophistiques qui sont trs utiles
pour automatiser le processus. Elles sont assez difficiles
mettre en uvre et, pour le traitement de textes Microsoft
Word (version 6 et suivantes), un ensemble de macrocommandes est disponible pour effectuer simplement les
oprations les plus courantes.

Installer les macro-commandes


Pour installer les macro-commandes, lancer Word, ouvrir le
fichier Sphinx.dot qui se trouve dans le rpertoire
Sphinx2000 puis rpondre affirmativement la demande
de confirmation.
Les macro-commandes sont dsormais disponibles et une
barre d'outils spcifique a t cre.
Dans cette barre d'outils, le bouton-outil lance un
dialogue permettant d'oprer des transformations sur
l'ensemble du texte.
Ces transformations consistent insrer des sparateurs
ou transformer des portions du texte en annotations.

tous les n mots : on obtiendra des fragments de


longueur identique ;
avant le style "unstyle" : en rptant cette opration
pour les styles Titre1, Titre2, Titre3, on aura un fragment
pour chaque sous-partie du texte.

Reprer les annotations


Les annotations sont les portions de textes qui illustrent les
fragments. Elles donneront lieu des variables fermes et
n'apparatront pas dans le corpus proprement dit.
Or dans le texte brut, ces annotations sont identifiables par
le style (au sens de Word), par la typographie (gras,
italique).
Dans le dialogue, on trouve des options pour transformer
en annotation :
texte ayant le style "unstyle"
texte en "gras"
texte entre ( et ) : tous les textes entre parenthses
seront transforms en annotations.

Recherche / remplacement avec


attributs
Word permet d'effectuer des remplacements sophistiqus :
en se fondant sur les attributs (police, taille, style, ) ;
en utilisant des caractres gnriques ( * @ ?).
L'utilisation de ces fonctions, bien documentes dans l'aide
de Word, permet de rsoudre automatiquement la plupart
des cas de figures non traits directement par les macrocommandes installes par le Sphinx.

Ouvrir le fichier modifi


Avant de quitter Word et de lancer l'analyse du fichier, il
faut encore l'enregistrer au format texte, qui est le seul
format reconnu par le Sphinx.

Placer des sparateurs


Pour tre certain de ddier un caractre (DOLLAR '$' par
exemple) la sparation de fragments, il est prudent de
supprimer pralablement les occurrences ventuelles dans
le texte (Enlever les sparateurs $ & ).
L'insertion des sparateurs peut se faire :
avant chaque page : on pourra construire un index des
mots dans le texte ;
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Puis dsigner le fichier


Lexica.dot
Choisir le bon type de
fichier

Mthodologie

La barre doutils pour


transformer le texte slectionn
en annotation ou bien pour
lancer le dialogue ci-dessous

Microsoft Word
propose des options de
recherche gnriques
ou par attributs

10

Etudes de cas

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

1. Analyse des rclamations


clients Marque Hextra
Contexte gnral et objectifs du projet :
Une multinationale du secteur de lagro-alimentaire
souhaite exploiter le texte des rclamations clients qui lui
sont adresses, des fins de suivi qualit et de recherchedveloppement.
Plus prcisment, les objectifs sont :
- exploiter les rclamations consommateurs enregistres
par le centre de contacts clientle : des donnes gratuites
et disponibles trop souvent sous-utilises
- construire un baromtre de suivi quantitatif des principaux
thmes de rclamations
- isoler dans le corpus des ides damlioration des
produits existants ou des sources dinnovation
Ressources humaines et technologiques mises en
oeuvre dans ce projet :
La saisie des rclamations se fait systmatiquement dans
une base spcifique par deux oprateurs ddis dans le
centre de relations clientle. Lintgration dans le Sphinx
Lexica est effectue par le charg dtude.
Description de l'tude ou de l'application :
La dmarche dtude est la suivante :
Recherche automatise:
1. Identifier les thmes principaux
2. Quantifier les thmes
Recherche manuelle
3. Explorer des sujets cibls
4. Dcouvrir des ides

B. Quantifier les thmes


- Regroupement des formes textuelles par thmes
- Manuellement ou avec un dictionnaire
- Cration dune nouvelle variable ferme
2/3 des dclarations voquent au moins un de ces thmes
3 sujets majeurs pratiquement ex-quo
Croisement avec dautres variables de ltude
Regroupement automatique des dates de saisie par mois
Croisement en fonction du mois de saisie + reprsentation
graphique

Extraits des rsultats :


A. Identifier les thmes principaux
- Analyse des co-occurrences sur les 100 mots et
expressions les plus cits
- Pour une premire vision synthtique faisant apparatre
les thmatiques principales
- Technique utilise : analyse factorielle des
correspondances

12

Identifier les produits Hextra voqus par le consommateur


Reprage des produits recherchs dans le texte
Regroupements de plusieurs intituls diffrents par produits

produits
Non rponse

281 46,9%

ptes
Knackis

157 26,2%
76 12,7%

jambon

32 5,3%

lardon

26 4,3%

5,3%
4,3%

pte_feuillete
pte_pizza

23 3,8%
21 3,5%

3,5%

pte_brise

18 3,0%

cervelas
Total

8 1,3%

46,9%
26,2%
12,7%

3,8%
3,0%
1,3%

599

conservation
DLC
jambon

pte_pizza

Knackis
allergies
ptes
pte_brise

pte_feuillete

lardon
recettes

cervelas

C. Explorer des sujets cibls


- Exploration autour de lallergie
- Lire toutes les rponses relatives ce thme =
concordances
- Mise en vidence du lexique relatif autour du mot cl
pour identifier les thmes dallergie les plus frquemment
cits
D. Dcouvrir des ides
- Plusieurs stratgies de recherche envisages
- Parmi celles-ci, recherche autour du verbe suggrer
5 propositions mises par les consommateurs

Exemples :
n 110 Ce consommateur trouve notre Poitrine Fume par 3 ou 4
trop paisse pour barder une volaille ou mme pour manger avec
des oeufs. Nous suggre de faire des tranches de 4mm et en
mettre 5 par paquet et est certain que l'on ratisserait de la
clientle
n 379 Bravo pour votre kit pizza. Cette exprienc e me permet de
faire une suggestion. Pourquoi ne pas faire de pte feuillete
comme les kit pizza , cela serait plus conforme la plaque du four,
faciliterait la dcoupe soit avec des ciseaux soit la roulette
n 431 "sur l'emballage, il y a marqu ""pensez sortir votre pte
du rfrigrateur 20 min avant utilisation"" mais c'est l'intrieur de
l'emballage et on ne peut pas le lire avant d'avoir ouvert
l'emballage elle suggre de le marquer l'extrieur"
n 439 Il est marqu 4 recettes l'intrieur, pou rquoi ne pas les
faire figurer l'extrieur, c'est bien plus simple lorsque l'on fait ses
courses pour connatre les ingrdients acheter. Moi, je viens de
rentrer de mes courses, j'ouvre la pte, et je m'aperois que je n'ai
pas tous les ingrdients, et qu'il faut que je ressorte acheter ce qu'il
me manque ! Cela m'agace et c'est pourquoi, je vous fais cette
suggestion.
n 489 je suggre que soit not sur les emballages de pte quel
moule cela correspond

Mthodologies
rsultats :

utilises

pour

le

traitement

des

Un ensemble de techniques de lanalyse de donnes


textuelles dont :
- analyse de contenu,
- regroupement de lexique par dictionnaire thmatique,
- analyse factorielle des correspondances sur les
occurrences principales,
- extractions slectives de verbatims,

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

2. Identification du territoire de
communication dune marque
Contexte gnral et objectifs du projet :
- trouver un territoire de communication pour un
transporteur (nouvelle gamme de produits) face aux
concurrents
- peu dinformation interne chez notre client et budget limit
- donner une allure spectaculaire aux rsultats, pour
dynamiser une prsentation aux forces de vente
=> do mthodologie par analyse textuelle des
concurrents : leurs plaquettes papiers et leurs sites Internet
Description de l'tude ou de l'application :
Objectif : trouver un territoire de communication pour un
transporteur (nouvelle gamme de produits) face aux
concurrents
Mthodologie :
Premire tape : saisie complte du contenu des
plaquettes (scan + OCR) + Capture des textes des pages
web (automatique ou copier-coller)
Deuxime tape : analyse lexicale
Univers analys :
Plaquettes : ABX Logistics - Darfeuille - Exapaq - Gefco Geodis Calberson - Jet Services - Joyau - Mory - Norbert
Dentressangle
Web : ABX Logistics - Darfeuille - Exapaq - Gefco - Geodis
Calberson - Jet Services - Joyau - Mory - Norbert
Dentressangle - Extand - Graveleau
Un grand thme absent = le positionnement que le
consultant va recommander son client

14

Planning de mise en oeuvre : 10 jours


Bnfices et limites de l'tude ou de l'application :
Le client (transporteur) rassur sur la pertinence des
intuitions, conduisant au choix de son nouveau
positionnement.
La force de vente comprend le nouveau positionnement
Conclusion : confirmation dune intuition
Rsultats :
Sur la page, ci aprs, reprsentation des co-occurrences
par
analyse
factorielle
des
correspondances.

3. Cas Ovale
Analyse comparative des sites concurrents
En janvier 2004, nous avons rcupr le contenu complet
des 5 sites institutionnels de Meyer, Fidel, Odense, Ovale
et Onvista. Nous constatons des structures trs similaires,
comme nous le voyons dans le tableau ci-dessous ; avec
pour toutes les entreprises tudies, des espaces
consacrs la philosophie/culture de lentreprise, aux
produits, aux actionnaires/investisseurs, aux fournisseurs
et parfois au sponsoring sportif. Une revue de presse est
systmatiquement disponible. Pour les cinq entreprises, il
sagit trs nettement de sites dits institutionnels .
Site
www.meyer.com
www.fidel.com

www.odense.com

www.ovale.com

www.onvista.com

Structure de premier niveau


Home (company/news/maps) /
Products / Locations / Contact / Jobs
About us / Products / News / Investor
information / Suppliers / Careers /
Motorsports
About Odense / Products / Technology
/ Environment / News Releases /
Events / Investors
About Ovale / Activities &
Technologies / Finance / Press / Join
us / Suppliers / Ovale Service
About Onvista / Investor relations /
Newsroom / Technology / Careers

Sur le plan technique, tous les sites sont construits et


dvelopps en PHP, ce qui signifie qu partir dune
structure statique pr-dfinie, le contenu des pages est
dynamique : il est aliment et mis jour rgulirement
depuis un menu dadministration et une base de donnes.
Cela signifie par ailleurs que les versions des sites en
diffrentes langues suivent exactement la mme structure
et sont constitues de simples traductions. Autrement dit, il
ny a pas dadaptation particulire au vocabulaire dun pays
donn.
Mthodologie gnrale

Nous avons procd une analyse des donnes sur le


logiciel Sphinx Lexica. Aprs rduction lexicale (retrait des
mots outils du langage), nous constatons tout dabord que
pour quatre dentre eux, ils sont de taille comparable (entre
30 000 et 40 000 mots), ce qui rend notre analyse
statistique dautant plus fiable et pertinente. Seul le site de
Meyer est plus petit avec 10 000 mots. Ceci nest pas trs
tonnant car lentreprise ne couvre quune partie plus
restreinte des technologies de lquipement automobile.
Pour les revues de presse, par souci dhomognit, nous
avons slectionn 20 articles par site, les plus rcents ou
ceux qui taient prsents en premier sur la liste des
articles.
Bilan lexical (sur lexique rduit hors mots-outils)
Hormis Meyer, le site de Fidel est le plus riche et le
moins rptitif. Sur ce critre, Ovale est troisime sur
quatre.
Si lon compare les corpus des 5 sites et leurs
intersections, le site de Ovale est plus original par
rapport ses concurrents avec prs de 15% des mots qui
lui sont exclusifs contre 9,5% Onvista.
Dans les caractristiques de son corpus, le site de Ovale
ressemble plutt celui de Onvista (77 et 79% de
recouvrement)
Rptition moyenne : rptition moyenne de lensemble des mots
du site, plus cet indicateur est haut plus le texte est rptitif.
Mot exclusif : mot prsent exclusivement dans le site dune
marque donne
Recouvrement des corpus : % du corpus dune marque donne
partage avec une autre marque

Nombre total
de mots
Mot le plus
frquent
Frquence de
ce mot
Nombre de
mots
diffrents
Rptition
moyenne

Ovale
37 874

Fidel
31 064

Odense
31 313

Meyer
10 053

Onvista
39 306

ovale

fidel

odense

meyer

onvista

1 390

968

849

349

1 415

5 820
5 236
4 969
(2 652)
5 809
(15,4%) (16,9%) (15,9%) (26,3%) (14,8%)
6,51

5,93

6,30

Poids des
51.1%
48.4%
55.3%
1083 mots
communs
Nombre de
2 170
1 490
1 464
mots exclusifs (14.6%) (11.5%) (13.0%)
Fidel Odense
Recouvrement Ovale
des corpus
Ovale
*
72.5%
76.9%
Fidel
70.5%
*
75.7%
Odense
71.2%
70.3%
*
Meyer
58.3%
54.4%
62.8%
Onvista
77.3%
81.1%
77.7%

(3,79)

6,77

63.4%

51.8%

514
(9.7%)
Meyer

1 842
(9.5%)
Onvista

77.5%
74.7%
76.2%
*
80.7%

79.7%
79.1%
73.0%
58.1%
*

Citations des marques


Nous avons calcul la frquence de citation de la marque
sur lensemble du site (en excluant bien videmment les
menus). Ovale est en tte avec un peu plus de 3%, suivi de
prs par Onvista. Odense est la marque la moins mise en
valeur avec moins de 2% de frquence.

1. Ovale
2. Onvista
3. Meyer
4. Fidel
5. Odense
Total

Nb citations
marque
1 202
1 168
270
724
625

Corpus
37 874
39 306
10 053
31 064
31 313
149 610

Frquence
marque
3,17%
2,97%
2,68%
2,33%
1,99%

Nous constatons dans le tableau ci-dessous que les


concurrents ne se citent quasiment pas, peine 4 citations
croises, dont 3 figurent sur le site de Onvista.

Ovale.com
Fidel.com
Odense.com
Meyer.com
Onvista.com

Onvista Ovale Fidel Odense Meyer


1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
1

Analyse thmatique des sites


Nous avons dfini une liste de thmes-cl et avons
mesur comparativement leur prsence sur chacun des
cinq sites. On exclut pour linstant le thme de linnovation
ou de la recherche, qui sera spcifiquement trait plus loin.

D'aprs le tableau et la carte factorielle ci-dessous :


On constate que le site de Ovale, comparativement ses
concurrents, insiste principalement sur la qualit, la
technique, les services et laprs-vente. On y voque plus
souvent les fournisseurs et les actionnaires.
Les sites de Fidel et Onvista sont assez proches. Onvista
se caractrise par une mise en avant du consommateur et
du client. Par ailleurs, on y parle beaucoup de
performance, de design. Sur www.fidel.com, on cite
souvent la puissance.
Le site de Odense fait la part belle lenvironnement, mais
aussi linvestissement et au dveloppement.
RAPPEL : Carte factorielle: reprsentation graphique sur deux
dimensions des correspondances identifies statistiquement entre
les marques et les thmes. Proximit signifie corrlation,
loignement signifie rpulsion. Les mots placs au centre sont
communs, ceux qui sont en priphrie sont trs spcifiques.

Key words x Firm


Ovale

Fidel

Odense

Meyer

Onvista

product

23.9%

25.0%

27.2%

4.7%

19.1%

development

26.6%

9.4%

29.4%

9.1%

25.4%

environment

19.5%

13.3%

50.0%

3.2%

14.0%

technology

20.4%

21.3%

22.4%

4.5%

31.4%

new

21.3%

15.0%

23.2%

11.7%

28.8%

customer

15.3%

20.3%

10.4%

8.1%

46.0%

services

44.8%

9.5%

8.9%

4.9%

31.9%

performance

19.1%

29.9%

9.6%

4.2%

37.3%

suppliers

33.6%

8.8%

13.4%

8.5%

35.7%

quality

34.8%

12.0%

10.1%

8.0%

35.1%

power

20.8%

38.9%

14.0%

3.0%

23.4%

design

18.7%

22.3%

11.7%

3.9%

43.5%

technical

67.3%

9.9%

4.9%

5.3%

12.7%

employees

21.3%

14.5%

25.5%

4.3%

34.5%

safety

29.3%

29.8%

19.2%

5.8%

15.9%

efficiency

22.2%

16.3%

24.6%

6.9%

30.0%

consumer

7.9%

18.0%

4.5%

0.0%

69.7%
35.2%

shareholders

42.8%

2.5%

19.5%

0.0%

international

31.2%

14.2%

22.7%

13.5%

18.4%

aftermarket

50.8%

5.1%

1.7%

0.8%

41.5%

investment

11.5%

4.9%

37.7%

6.6%

39.3%

cockpit

19.3%

40.1%

4.4%

9.4%

26.8%

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Key words x Firm


Axe 2 (32.7%)
consumer
Fidel

cockpit

power
performance
customer
design

technology

Onvista

investment

product
employees

new

Axe 1 (41.1%)

Meyer
development
international

quality

services

Ovale

shareholders
aftermarket

technical

environment

efficiency

safety

suppliers

Odense

Utilisation des mots de linnovation


Ovale est lentreprise qui accorde proportionnellement le plus de place aux mots de linnovation (innovation, innovations,
innovative, research, new ou advanced technologies) dans son discours (0,47% du corpus du site), Onvista est n2 avec
0,32%, les trois autres entreprises sont au mme niveau avec une frquence de 0,22%.
Innovation x Firm (frequency)
1. Ovale
2. Onvista
3. Fidel
3. Odense
3. Meyer
Total

Innovative Innovations Research


0,12%
0,10%
0,10%
0,06%
0,16%
0,04%
0,09%
0,02%
0,03%
0,03%
0,00%
0,07%
0,10%
0,01%
0,08%
0,08%

0,07%

0,06%

Innovation
0,15%
0,05%
0,05%
0,01%
0,01%

New tech.
0,00%
0,00%
0,03%
0,05%
0,02%

Advanced tech.
0,01%
0,00%
0,01%
0,05%
0,00%

Total
0,47%
0,32%
0,22%
0,22%
0,22%

0,06%

0,02%

0,01%

0,31%

Parmi ces 6 termes identifis, comme on peut le voir sur la carte factorielle ci-aprs, chaque firme a ses particularits ou
ses prfrences :
Odense se distingue trs nettement par lemploi de new technologies ou advanced technologies ,
Onvista se concentre trs nettement sur innovations au pluriel,
Ovale et Fidel privilgient innovation et innovative ,
Meyer utilise plus volontiers research .
Innovation x Firm (nb. Citations)
Ovale
Onvista
Fidel
Odense
Meyer
Total

Innovative Innovations Research


46
36
39
25
63
17
28
7
9
10
0
23
10
1
8
119

107

Innovation
55
20
14
3
1

96

93

New tech.
1
1
9
15
2

Advanced tech.
2
1
2
17
0

28

22

465

Advanced tech.

Research

Odense

Onvista

Innovation
Innovations
Ovale
Meyer
Fidel
New tech.

Total
179
127
69
68
22

Concordances autour des mots de linnovation pour


chaque marque

tools

ONVISTA : Lexique relatif dInnovation

Nous avons isol grce aux lexiques relatifs (voir


dfinition) les mots qui concordent avec le vocabulaire de
linnovation sur les sites des cinq entreprises.
On observe que Ovale fait rfrence ses rcompenses
en matire dinnovation, la qualit, son engagement et
son approche. Linnovation est prsente ici comme une
culture dentreprise.
Chez Onvista, la marque est systmatiquement associe
linnovation. On parle de produits, dapplications et de
solutions : un discours l encore trs orient vers le
client.
Fidel galement cite souvent sa marque, mais aussi son
design et associe linnovation des adjectifs dynamiques
comme responsive , proving et successful .
Odense ne compte que peu de mots associs au thme de
linnovation, quil met peu en exergue sur son site,
comparativement aux autres firmes. Il prfre faire
rfrence aux new ou advanced technologies.
Lexique relatif = principaux mots situs autour dun thme
donn dans le texte, classs en fonction de leurs frquences
de concordance.
OVALE : Lexique relatif dInnovation
pivot -2 -1
pivot +1 +2
114 mots-180 occ
117 mots-197 occ
equipment
9
award
original
9
technologies
ovale
8
commitment
latest
7
quality
technical
6
styling
constant
5
approach
prix
5
design
technological
5
equip
automotive
4
protect
combines
3
silencio
auto
products
technology

10
9
7
7
6
5
4
4
4
4
3
3
3

pivot -2 -1
64 mots-117 occ
onvista
corporate
office
audio
feature
story
concepts
deliver
develop
digital
electronics

19
5
5
4
4
4
3
3
3
3
3

pivot +1 +2
115 mots-198 occ
home
solutions
vehicle
center
driving
fuel
high
products
wireless
application
continues
deliver
electronics
enjoyment
find
help
kerpen
quickly
systems
technologies

6
6
6
5
4
4
4
4
4
3
3
3
3
3
3
3
3
3
3
3

Sur les fragments de texte que nous avons isols et qui


incluent les mots de linnovation seulement (401
fragments), nous avons identifi les mots et expressions
les plus spcifiques chacune des marques.
On retrouve ici les spcificits prsentes dans les
paragraphes prcdents. Ovale insiste sur ses quipes,
ses services, laprs-vente, sa technique mais aussi son
approche gnrale de linnovation. Odense voque ses
efforts, ses cots et encore le contexte environnemental.
Onvista lie trs fortement sa marque ses innovations, qui
sont prsentes trs souvent au pluriel. Onvista voque
toujours le consommateur mais aussi son ingnierie. Meyer
situ ici au centre de la carte factorielle - tient un discours
beaucoup moins spcifique sur linnovation.

Axe 2 (28.2%)
fields

efforts

automakers

communications
energy
costs
new_technologies
growth
sales
research
car
markets important new_ways
year
capabilities
environmental
components
cabin engine
Behrintegrated
meet
further create
continues
moresafety
products
four
future
air_conditioning
Delphi
module
consumer
company
high
production
manufacturing
air
help
automotive
comfort only
applications
developed
working
ford audio
visteon_innovations
market
performance
experience
today
fuel
offer
deliver
manufacturers
cost right
employees
group
concept
voice
excellence
best
engineering
consumers
engineers
while
bass
features Visteon
said
tm
satellite_radio
service
teams
innovations
vehicle
design
range
Valeo

Axe 1 (36.7%)

international
technical latest
electrical

project
light approach

engine_cooling
category equip_auto
prize
discover

billion

Denso

area

wiper

aftermarket

4. Le rve des Franais


Si vous gagniez au Loto que feriez-vous ? Lanalyse de cet extrait dune tude mene par le Credoc en 1992 permet
dillustrer les mthodes danalyse quantitatives et qualitatives disponibles dans Sphinx :
Analyse quantitative : tri plats, tris croiss, analyses multivaries et typologie
Analyse qualitative : approximation lexicale, smiomtrie et analyse de contenu par code book.

Le rve des franais. Echantillon total : 993 observations

Les lexiques

Si vous gagniez au Loto, que


feriez vous ?
On peut se faire une ide du contenu
des rponses par l'examen des termes
les plus frquemments utiliss.
Le lexique brut exprime la stimulation
de l'go (je, j) sur un mode plutt
indfini (une, un) que dfini (le la l)...
Le lexique lemmatis (chaque terme
est ramen sa forme racine) renvoie
l'essentiel du contenu
Les substantifs donnent les objets
voqus et les verbes les actions...
On accde ainsi trs rapidement au
contenu des rponses comme les
mots cl donnent celui d'un livre.

Lexique brut

Sans mots outils

Lemmatis

Les substantifs

Les verbes

je

1182

maison

355

maison

354

maison

354

acheter

350

653

enfants

286

acheter

350

voyage

310

faire

296

de

613

voiture

198

voyage

310

enfant

259

placer

195

une

566

voyage

192

faire

297

voiture

194

donner

187

en

464

ferais

182

enfant

264

argent

118

voyager

148

412

voyages

158

placer

230

famille

117

aider

122

le

385

achterais

150

voiture

194

monde

81

partir

91

des

362

famille

122

donner

187

don

75

travailler

91

un

362

argent

118

voyager

148

placement

71

profiter

81

maison

355

acheter

115

aider

122

appartement

65

investir

76

enfants

286

donnerais

113

argent

118

reste

65

mettre

71

la

286

placerais

111

famille

117

association

57

changer

63

pour

280

faire

107

partir

91

immobilier

55

aller

59

257

reste

97

travailler

91

partie

54

arrter

58

mes

244

monde

95

monde

81

oeuvre

51

amliorer

48

les

240

placer

84

profiter

81

vie

49

prendre

38

et

208

travailler

79

investir

76

tour

45

vivre

37

voiture

198

vacances

79

don

75

vacance

43

partager

36

dans

194

achte

69

immobilier

74

achat

41

payer

33

voyage

192

voyagerais

68

beau

72

loisir

39

rester

33

ferais

182

immobilier

67

mettre

71

besoin

36

pargner

32

voyages

158

partie

64

placement

71

placer

35

avoir_besoin 30

ma

156

vie

64

appartement

65

gens

34

pouvoir

28

achterais

150

dons

62

reste

65

ami

33

dpenser

27

aux

137

aider

61

changer

63

cadeau

33

distribuer

26

famille

122

ct

61

aller

59

plaisir

33

faire_plaisir

26

pas

120

appartement

58

arrter

58

cancer

27

garder

26

argent

118

profiter

58

association

57

enfants

24

faire_le_tour

25

Le rve des franais. Echantillon total : 993 observations

5
Substantifs selon le sexe

Les usages selon les contextes

Homme

Les analyses intrinsques qui prcdent


sont menes sans rfrence au contexte
et au statut des locuteurs.

Verbes selon le sexe

Femme

Homme

Femme

maison

126

211

37.4%

62.6%

acheter

135

191

41.4%

58.6%

voyage

104

205

33.7%

66.3%

faire

116

141

45.1%

54.9%

enfant

84

162

34.1%

65.9%

placer

91

101

47.4%

voiture

82

111

42.5%

57.5%

donner

57

114

argent

43

73

37.1%

62.9%

voyager

70

77

famille

48

68

41.4%

58.6%

aider

40

71

36.0%

64.0%

partir

34

56

37.8%

62.2%

travailler

53

37

58.9%

41.1%

profiter

43

36

54.4%

45.6%

monde

41

39

don

30

40

placement

38

31

51.3%
42.9%
55.1%

48.8%
57.1%
44.9%

33.3%
47.6%

52.6%
66.7%
52.4%

appartement

23

40

36.5%

63.5%

investir

46

30

Elles peuvent tre compltes par


l'analyse des spcificits lexicales.

association

21

35

37.5%

62.5%

mettre

26

45

immobilier

31

24

changer

29

32

Par exemple les tableaux ci contre


montrent que les hommes et les
femmes ont tendance sur utiliser
certains termes.....

oeuvre

18

33

aller

30

24

55.6%

vie

25

23

52.1%

47.9%

arrter

33

25

56.9%

tour

27

18

60%

40%

amliorer

19

29

vacance

22

21

prendre

20

17

achat

14

23

vivre

17

19

loisir

19

20

partager

10

26

besoin

13

23

36.1%

63.9%

payer

11

21

gens

14

20

41.2%

58.8%

rester

19

13

ami

11

22

pargner

13

18

cadeau

13

20

avoir_besoin

10

20

33.3%

66.7%

plaisir

10

23

30.3%

69.7%

pouvoir

17

34.6%

65.4%

cancer

20

25.9%

74.1%

dpenser

15

12

enfants

15

37.5%

62.5%

distribuer

17

34.6%

65.4%

33.3%

66.7%

faire_plaisir

18

30.8%

69.2%

garder

16

36%

64%

16

pauvre

15

banque

11

11

pays

13

logement

56.4%
35.3%

51.2%
37.8%
48.7%

33.3%
39.4%

p = <0.1% ; chi2 = 57.71 ; ddl = 28 (TS)

65.2%

43.6%
64.7%

48.8%
62.2%
51.3%

66.7%
60.6%

34.8%

50%

50%

faire_le_tour

13

12

59.1%

40.9%

essayer

14

60.5%
36.6%
47.5%

39.6%
54.1%
47.2%
27.8%

p = <0.1% ; chi2 = 63.91 ; ddl = 28 (TS)

34.4%
59.4%
41.9%

55.6%

39.5%
63.4%
52.5%
44.4%
43.1%
60.4%
45.9%
52.8%
72.2%
65.6%
40.6%
58.1%

44.4%

52%

48%

60.9%

39.1%

Le rve des franais. Echantillon total : 993 observations

Les usages selon les contextes :


zones de langage selon l'ge

6
p = <0.1% ; chi2 = 741.32 ; ddl = 196 (TS)
Axe 2 (13.7%)
prendre

vacance
vie

travailler
changer

L'analyse factorielle des


correspondances permet de gnraliser
la recherche des effets de contexte.
Ici le choix des mots et des
proccupations apparaissent comme
clairement dtermins par l'ge

vivre

amliorer
gens

payer

humanitaire
famille

arrter

placement

achat

35-49
aller

autour_de
don

immobilier
profiter
50-64

aider

voyager

enfant

maison
oeuvre

reste
ami

donner
association

partager

investir

25-34

faire

partie

voyage
monde

65+

loisir

acheter
tour

argent

Axe 1 (72.2%)

placer
voiture

en_vacances
de_ct

beau
cadeau

besoin

partir

mettre
petit
18-24
un_peu

appartement

Le rve des franais. Echantillon total : 993 observations

Mesures lexicales : caractriser l'nonciation

La longueur des rponses, leur richesse (nombre de


mots diffrents) et leur banalit (frquence moyenne
dans le corpus des mots utiliss par chacun) permet
de caractriser les rponses.
Les rponse longues sont les plus riches, mais la
banalit est indpendante de la longueur ou de la
richesse.

Longuer X Richesse

Longueur x Banalit

Moyenne

Moyenne

LONGUEUR

8.47

LONGUEUR

RICHESSE

8.22

BANALITE

Total

8.34

Total

Banalit x Richesse
Moyenne

8.47

BANALITE

109.53

RICHESSE
Total

58.92

r = + 0.99 (TS)

r = - 0.25 (NS)

r = - 0.26 (NS)

RICHESSE

BANALITE

RICHESSE

109.53
8.22
58.80

Les inactifs, ouvriers et agriculteurs font les rponses


les plus courtes et les plus convenues (banalit).
LONGUEUR

LONGUEUR

Moyenne = 8.47
Mdiane = 8.00
Min = 0.00 Max = 19.00
- NS

Les nuages de point ci dessus illustrent bien la mesure du coefficient de corrlation.


Ci dessous l'ACP donne une image de ces corrlations. Longueur et richesse sont fortement liees. La banalit
varie d'une manire totalement indpendante.
Longueur x Richesse x Banalit

Longueur x Richesse x Banalit selon la CSP

Axe 2 (29.4%)

BANALITE
Moyenne = 109.53
Mdiane = 103.30
Min = 2.50 Max = 354.00

LONGUEUR RICHESSE

+ TS
BANALITE

- NS
LONGUEUR

RICHESSE
Moyenne = 8.22
Mdiane = 8.00
Min = 0.00 Max = 19.00

BANALITE

LONGUEUR

RICHESSE
Axe 1 (70.3%)

BANALITE

Commerant, artisan

9.32

9.15

98.85

Employs

8.91

8.64

113.40

Cadre.Prof.Intell. Sup.

8.55

8.33

103.05

Prof.Intermdiares

8.38

8.18

104.76

Retraits

8.34

8.07

101.51

Inactifs, Autre

8.27

8.07

110.42

Ouvriers

7.86

7.60

125.10

Agriculteurs

7.34

7.13

110.70

Total

8.47

8.22

109.53

CSP / LONGUEUR p = 8.0% ; F = 1.82 (PS)


CSP / RICHESSE p = 5.3% ; F = 1.99 (PS)
CSP / BANALITE p = 0.7% ; F = 2.80 (TS)

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Analyse de contenu
Le code-book prpar dans Sphinx permet dindustrialiser le travail de lecture . Cette une approche alternative
lanalyse lexicale. Elle a le mrite de reposer sur une lecture intelligente (mais peut tre biaise) et de reposer sur une
rflexion modlisatrice pralable.

5. Les mots qui touchent : analyse


textuelle des tubes de la
chanson franaise.
L'objectif de ce travail consiste donc isoler les
caractristiques lexicales des fleurons de la chanson
franaise. Pour traiter la question pose, nous avons
constitu deux groupes de textes crits par 20 artistes
francophones. Le premier groupe est compos de 100
succs et le second inclut une centaine d'uvres restes
dans l'anonymat. Grce au logiciel Sphinx Lexica, le travail
consiste ensuite reprer les caractristiques de chaque
auteur et surtout tablir les particularits des chansons
succs. Nous analysons les diffrents lexiques afin de
dterminer "les mots qui touchent", nous identifions les
thmatiques centrales et les segments rpts les plus
marquants. Les rsultats conduisent des conclusions trs
intressantes.
En prolongement de cette tude lexicale, nous nous
sommes intresss la dimension phontique des textes,
faisant l'hypothse qu'au del des mots proprement dits,
l'importance des phonmes choisis tait prpondrante.
Nous avons donc ensuite chang d'unit statistique pour
nous concentrer sur les phonmes spcifiques des textes
succs. Les issues de ce travail laissent entrevoir des
perspectives de recherche tout fait prometteuses.
Un chantillon de 200 uvres
Nous avons constitu une base de donnes textuelles de
200 chansons crites en franais. Vingt artistes ont t
choisis parmi les plus clbres de la profession. Pour
chaque artiste, nous avons slectionn cinq succs et cinq
chansons peu connues, ce qui constitue finalement deux
chantillons, lun comprenant 100 tubes et lautre 100 nontubes. Cette classification effectue par lauteur a donn
lieu une validation par un groupe de cinq experts :
journalistes, disquaires, artistes, tous spcialistes de la
chanson franaise. Ceux-ci - partir de la liste
alphabtique des 200 titres - ont construit leur propre
classification. Pour chacun des cinq juges, le taux
daffectations diffrentes ne dpasse jamais 5%, ce qui est
tout fait satisfaisant.

Les textes ont t rcuprs via lInternet au sein de sites


ddis la chanson franaise (les sites web de Alain Pierre
et de David Baltaro, de Mikhail Foursov, de Leni
"Botanaige", la French Music Database de Anthony Patrick
Lee). Le corpus final compte 48669 formes pour un lexique
de 5968 mots. Prcisons que les refrains nont t saisis
quune seule fois pour ne pas introduire de "fausses
rptitions" au sein du texte.
Des auteurs aux styles trs diffrents
Avant de tester nos hypothses, nous nous sommes
intresss aux diffrences entre les artistes. Afin de
comparer les styles des auteurs, nous avons utilis quatre
indicateurs usuels. La longueur de la chanson est
considre tout dabord (N) puis nous mesurons sa
richesse (V) qui indique la longueur du lexique. Ainsi, N
dcompte le nombre total de formes graphiques prsentes
dans le texte, V le nombre de formes diffrentes. La
rptition (R) indique le nombre de fois o chaque forme du
texte se trouve rpte. R=N/V. La banalit (B) calcule la
frquence moyenne de chaque forme au niveau du lexique
total. De par leur construction, la longueur et la richesse
sont corrles, tout comme la rptition et la banalit.

Les artistes de la chanson franaise se distinguent par


leurs options mlodiques mais aussi - comme on le voit sur
la figure ci-dessus - par les caractristiques de leurs textes.
On retrouve sur cette carte diffrents types dcriture. A
droite, les auteurs de "chansons texte", qui se
caractrisent par une certaine prolixit : Brassens, Renaud,
Duteil, Goldman. A loppos, se retrouvent des artistes
prfrant la chanson ludique de type "gag" dont le texte
nest quun prtexte pour faire sonner la musique.
Correspondant ce profil, Gainsbourg ou Polnareff sont
dailleurs des musiciens prodiges. Sur le deuxime axe,
nous reprons dune part, des chanteurs dont les paroles
sont marques par la simplicit et luniversalit, traitant de
thmes courants voire banals : Berger, Dassin, Fugain.
Dautre part, Farmer ou Clerc traitent de sujets originaux et
utilisent volontiers des formes lexicales remarquables.

donc moins riches. Par ailleurs, les tubes emploient des


formes lexicales moins originales et donc plus banales. En
ce qui concerne la longueur, la diffrence nest pas
statistiquement significative (F=0,3 et 1-p=41%).
Le segment rpt : une composante du tube
En isolant les segments rpts dont la frquence est
suprieure 10 sur la totalit du corpus, on saperoit que
ces fragments appartiennent 2 fois sur 3 une chanson
succs. Sur des bases de statistique textuelle (chi2 =
258,88, 1-p = 99,99%), nous pouvons donc dire que le
segment rpt est un lment qui semble faire partie
intgrante de la chanson "performante". Favorisant la
mmorisation, le principe de rptition est lun des premiers
prceptes des techniques de persuasion, couramment
utilis en publicit notamment.

Les tubes : plus de rptition, moins doriginalit


Le propos de notre recherche est de tenter de mettre en
vidence les composantes lexicales qui pourraient
caractriser les chansons succs, tant sur la forme que
sur le fond. Les tubes sont ils plus courts, plus rptitifs ?

TUBES
Effectif de la catgorie

100

AUTRES
100

Nombre total de mots

24704

23965

Longueur moyenne

247.04

239.65

Nb de mots diffrents

3557

3980

Nombre d'hapax

1484

1788

Rptition corpus

6.95

6.02

Frquence maximum

655

696

Mot le plus frquent


Nombre de mots exclusifs
Pourcentage du corpus

TUBES

de
2411

50.8%

49.2%

Rptition de la chanson
2.33
2.15

AUTRES
Total

de
1988

2.24

On constate que les caractristiques textuelles des tubes


sont statistiquement diffrentes en ce qui concerne la
rptition. Les chansons succs sont plus rptitives et

5 premiers segments
rpts

TUBES AUTRES TOTAL

des_petits_trous
Ne_me_quitte_pas

30
23

0
0

30
23

Y_a_pas_de_honte

23

23

tout_le_monde

2
18

0
16

Unis_vers_l_uni
TOTAL des segments
cits au moins 10 fois

220

18

18

100

320

Lintrt dune implication plus personnelle de lartiste


Lintensit lexicale permet de mesurer le poids dune forme
au sein dune unit statistique. Ici, nous nous intressons
au pourcentage de diffrents pronoms au sein des
chansons. Nous lisons dans le tableau ci-dessous que
lintensit lexicale de "je" est nettement plus forte dans les
tubes, alors que le poids de "tu" nest pas statistiquement
diffrent. Ce rsultat traduit limportance de limplication
personnelle de lartiste dans sa communication avec son
public.

TUBES
AUTRES

Intensit de JE Intensit de TU
2.70
0.86
1.83
0.69

Total

2.26

Des verbes pour le dire

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

0.78

Ltude des verbes montre un phnomne intressant. Les


verbes les plus frquemment utiliss et donc les plus
courants sont employs indiffremment dans les deux
types de chansons. En revanche, certains verbes sont
spcifiquement usits dans les chansons succs. Il est
difficile de les caractriser mme si lon pourrait dire quil
sagit
de
verbes
artistiques
(chanter,
danser),
communicants (parler, regarder) ou affectifs (aimer,
pleurer). Dans les tableaux suivants, nous prsentons les
occurrences sur lunit statistique de la chanson (94% des
tubes utilisent le verbe tre par exemple.

aimer
parler
chanter
pleurer
regarder
connatre
danser
tomber

TUBES AUTRES
43
32
25
22
19
17
8
15
5

12
12
12
11
15
7
15

Des rimes qui sonnent


Le dernier volet de nos rsultats traite des composantes
phontiques. Comme nous lavons dit en introduction, en
matire de chansons, il ne semble pas convenable de
limiter notre rflexion aux seuls aspects textuels, la
chanson est un exercice artistique o les mots, la musique
et les sonorits entrent en synergie. Pour tester lhypothse
selon laquelle il existerait des rimes privilgies au sein des
"tubes", nous avons tout dabord isol la rime finale de
chaque vers, grce une procdure particulire du Sphinx
Lexica. Nous avons ensuite travaill sur les 50 rimes les
plus frquentes en les regroupant par phonmes. Les
rsultats observs sont trs significatifs.
Il apparat tout dabord que les tubes utilisent des rimes
beaucoup plus banales, ce qui confirme leur caractre
rptitif. Par ailleurs, certains phonmes sont effectivement
sur-reprsents dans lchantillon des chansons succs
(chi2 = 175,75, 1-p = 99,99%). Il sagit de phonmes
domins par les "a", "an" et "in" notamment, ce qui
reprsente les voyelles dites "nasales" (Warnant, 1973) qui
produisent des sonorits relativement chaudes. Ces
rsultats valident les premires hypothses qui pouvaient
tre formules.
4

(extrait)
Rimes en a
Rimes en i

TUBES
284

AUTRES TOTAL
198
122

201

482

Rimes en in

79
114

70

184

Rimes en an

104

43

147

Rimes en our

86

39

125

Rimes en o

40

35

75

Rime en ar

38

70

Rimes en ou

32
45

23

68

Rimes en re
Rime en me

32
52

33
10

65
62

Bibliographie

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

BENZECRI J.P : Pratique de lanalyse des donnes


(DUNOD 1980)
BLANCHET A. & Al : Lentretien dans les sciences
sociales (DUNOD 1985)
BROSSIER G. & DUSSAIX A.M. : Enqutes et
sondages : Mthodes, modles, applications, nouvelles
approches (DUNOD 1999)
COURTES J. : Analyse
( HACHETTE SUP. 1991)

smiotique

du

discours

DUGAST D. : La statistique lexicale (SLATKINE 1980)


FLOCH J.M. : Smiotique marketing et communication
(PUF 1980)
GANASSALI S. : Les mots qui touchent : le marketing
textuel appliqu la chanson franaise (Journes
dAnalyse de donnes textuelles, 1998).
GAVARD-PERRET M.L. MOSCAROLA J. : Enonc ou
nonciation ? deux objets diffrents de lanalyse
lexicale en marketing. Recherche et Applications en
Marketing, (1998).
GHIGLIONE R. & Al : Manuel danalyse de contenu
(ARMAND COLIN 1985)
GRANGE D. & LEBART L. : Traitement statistique des
enqutes (DUNOD 1993)
JAMBU M. : Exploration informatique statistique des
donnes (DUNOD 1989)
LAFON P. : Dpouillement et statistique en lexicomtrie
(SLATKINE 1984)
LAGARDE (DE) J. : Initiation lanalyse de donnes
(DUNOD 1993)
LEBART L. & SALEM A. : Analyse statistique des
donnes textuelles (DUNOD 1988)
MAINGUENEAU D. : Lanalyse de discours (HACHETTE
1991)
MALARET G. : Statistiques appliques aux sciences
humaines (PUF 1991)
MOSCAROLA J. : Enqutes et analyse de donnes
(VUIBERT 1990)
6

VIARD V. : Statistiques
(ECONOMICA 1985)

appliques

WEBER R.P. : Basic content


UNIVERSITY PRESS 1990)

la

gestion

analysis

(SAGE