Vous êtes sur la page 1sur 31

Avril 2015

Utilisation dun outil de statistiques textuelles1

IRaMuteQ 0.7 alpha 2


Interface de R pour les Analyses Multidimensionnelles
de Textes et de Questionnaires
Elodie Baril et Bndicte Garnier
Institut National dEtudes Dmographiques
Paris (France)
Logiciel libre dvelopp par Pierre Ratinaud.

http://www.iramuteq.org/

Les donnes utilises dans ce support sont extraites du projet EuroBroadMap


(http://www.eurobroadmap.eu/).

Ce document ne remplace pas un guide dutilisation du logiciel mais donne des indications sur les menus qui
nous ont sembl utiles pour analyser des donnes textuelles.
Nous remercions France Gurin-Pace de nous avoir fait partager ses premiers retours dexprience sur
lutilisation dIRaMuteQ.

Avril 2015
Nous traitons les rponses des tudiants interrogs en Chine une question ouverte pose
comme suit : Quels sont les mots que vous associez le plus l Europe ? Choisissez 5
mots au maximum . Les rponses sont de lordre de quelques mots.

Table des matires

1 / Importer le fichier analyser ................................................................................................ 4


2 / Statistiques............................................................................................................................ 8
3 / Spcificits et AFC ............................................................................................................... 12
4 / Classification ....................................................................................................................... 19
5 / Analyse de similitudes ........................................................................................................ 24
6 / Nuage de mots .................................................................................................................... 27
7 / Cration de sous corpus...................................................................................................... 29
Rfrences ................................................................................................................................ 30
Table des figures....................................................................................................................... 31

Installer IRaMuTeQ
Le logiciel est gratuit, il faut le tlcharger partir du site
http://www.iramuteq.org/telechargement.
Il ncessite galement linstallation dune version rcente du logiciel R (et de prfrence la
version 3.1).

Tutoriel
Une documentation sur le formatage des corpus texte est disponible sur le site du logiciel
(http://www.iramuteq.org/documentation/formatage-des-corpus-texte).

Les rsultats
Les rsultats des calculs des diffrentes tapes de l'analyse textuelle sont sauvegards au fur
et mesure de lexcution dans des sous-rpertoires par type danalyse. On y retrouve des
fichiers (au format .csv) et des graphiques.
Les analyses sont sauvegardes dans un fichier (.ira).
Avant toute mise en uvre, au vu du nombre de rpertoires et de fichiers gnrs, il est
recommand de dposer le fichier correspondant au document analyser dans un rpertoire
ddi.

Avril 2015

Description des menus dIRaMuTeQ

Edition Prfrence : Options du logiciel

Avril 2015

1 / Importer le fichier analyser


Dans ce document, nous ne traitons pas les menus ouvrir une matrice (importation dun
tableau de donnes comportant des valeurs numriques) ni importer de TXM (plateforme
logicielle open-source pour la textomtrie, voir http://textometrie.ens-lyon.fr/) ou importer
depuis Europress (donnes dinformation de presse http://www.bpe.europresse.com/) et
Factiva (donnes issues de mdia comme des journaux, magazines retranscriptions radio et
tlvision, photos, etc..).
Ouvrir une analyse permet de rcuprer des traitements (.ira) et daccder aux rsultats
calculs par le logiciel dans chaque sous dossier (onglet vue).
Le menu Outils permet de crer des sous corpus. Nous aborderons cette fonctionnalit la
fin du document.
Figure 1 - Menu Fichier

Ouvrir un corpus texte

permet de charger un fichier texte qui respecte la mise en


forme Alceste comportant des lignes toiles entre chaque rponse. Les textes
analyser sont trs courts et on dispose de caractristiques sur ces textes (comme le pays de
naissance des enquts, la ville denqute, le sexe, etc.)(Figure 2)
2

Figure 2 - Extrait du fichier trait (EBM_iram_CHN_n.txt)

La premire ligne introduit chaque texte analyser (exemple : une rponse une question ouverte) par les
caractristiques du locuteur. En premier lieu, figure lidentifiant du texte, suivi dune srie de modalits de
variables qualitatives prcdes dune toile et du nom de la variable. Il est prfrable de mettre un blanc
soulign entre le nom de la variable et la modalit pour quil soit possible par la suite dextraire des souscorpus selon les modalits dune de ces variables (Garnier, Gurin-Pace, 2010). La ligne toile peut dbuter
par 4 chiffres (identifiant de questionnaire ou de texte par exemple) ou 4 toiles.

Avril 2015

Le texte analyser ne doit pas comporter dtoiles car le caractre * est rserv aux
caractristiques sur les textes dans la ligne toile ddie.
Une fois de nom du fichier renseign, IRaMuteQ propose de paramtrer la transformation
du corpus pour effectuer lanalyse de texte.

La cration du lexique
Ouverture de la fentre de paramtrage avant le lancement de lanalyse (Figure 3).
Par dfaut, IRaMuteQ fait appel des dictionnaires de la langue franaise mais si le corpus
analyser est dans une autre langue, changer alors le paramtre Langue (ici le texte est en
anglais). Cela sera important pour la reconnaissance des catgories de mots (dans la phase
de lemmatisation). Il est possible aussi de changer le rpertoire destination des
rsultats Rpertoire en sortie.
Le marqueur de texte correspond au sparateur entre units danalyses (ici les 1140
rponses des tudiants interrogs en Chine). Nous utilisons ici les identifiants des
questionnaires (cods sur 4 caractres).
Le dictionnaire dexpression repre des expressions courantes comme aujourdhui ou
grand-pre (en franais).
Faire des segments de texte permet IRaMuteQ de dcouper les textes longs (cas
dentretiens par exemple) en units plus petites (les segments de texte). Ce dcoupage peut
se faire en fonction dun nombre doccurrences (cas par dfaut), dun nombre de caractres
ou de paragraphes.
Figure 3 - Indexation du corpus

Avril 2015
Par dfaut, IRaMuteQ transforme tout le texte en minuscules pour ne pas diffrencier les
mots crits tout en minuscules des mmes mots crits avec une majuscule en dbut de
phrase (Figure 4).
Figure 4 - Options du Nettoyage automatique du fichier

Une fois le corpus index, IRaMuteQ affiche une premire description quantitative du texte
(Figure 5).
Ici on dnombre 1140 segments de texte, correspondant au nombre de textes initial car le
corpus na pas t dcoup et 1138 formes graphiques (ici des formes/mots) diffrents.
R a cr un premier tableau lexical croisant les textes et les formes (Document Term Matrix
du package tm de R3).

http://cran.r-project.org/web/packages/tm/vignettes/tm.pdf

Avril 2015
Figure 5 - Bilan lexical

Analyse de Texte
IRaMuTeQ propose diffrents types danalyses (Figure 6) bases sur : la lexicomtrie
(Statistiques), les mthodes statistiques (calcul de Spcificits, analyse factorielle ou
Classification), la visualisation de donnes textuelles (Nuage de mots) ou lanalyse de
rseaux de mots (Analyses de similitudes).
Figure 6 - Menu Analyse de texte

Avril 2015

2 / Statistiques
Dans cette partie, IRaMuTeQ affiche tout le lexique du corpus.
Il faut dabord choisir de lemmatiser ou non les formes/mots et paramtrer les catgories de
mots prendre en compte dans les calculs (Figure 7).
Figure 7 - Paramtrage de la lemmatisation

quivalent des cls catgorielles dAlceste

Le logiciel fait une lemmatisation (Figure 7) laide de ses dictionnaires4 et peut ainsi
regrouper les formes au singulier et au pluriel sous une mme forme, les verbes conjugues
sous la forme infinitive.
Lindexation laide de dictionnaire permet aussi IRaMuTeQ didentifier les expressions et
les catgories grammaticales des mots pour leur attribuer une cl danalyse. Selon cette cl,
il les traitera en lment actif ou supplmentaire (Garnier, Gurin-Pace, 2010) dans les
analyses ou le dcoupage du corpus en segments de texte.
Paramtres des cls proprits : permet de modifier les cls danalyse par catgories et
de diffrencier le traitement de certaines formes (Figure 8).

Dictionnaires anglais, allemands, italiens, espagnols, portugais (certains sont encore exprimentaux),
dictionnaires minimalistes pour le sudois et le grec.

Avril 2015
Figure 8 - Paramtrage de lanalyse des formes par catgories grammaticales

- Ce qui est mis en actif par dfaut (cod 1): adjectifs, adverbes, formes non reconnues,
noms communs et verbes.
- Ce qui est mis en supplmentaire par dfaut (cod 2): mots outils.
Attention loption voir liste affiche des exemples qui ne correspondent pas aux mots du
corpus analys.
Un mot qui nest pas dans le dictionnaire est mis dans la catgorie Formes non reconnues. Il
est possible de lajouter dans le dictionnaire et y indiquer sa catgorie grammaticale.

Modifier le(s) dictionnaire(s)


Aller dans le rpertoire de lenvironnement utilisateur
Ex : C:\Users\garnier\.iramuteq\dictionnaires
Copier le dictionnaire correspondant la langue (ex : lexique_fr.txt) et donner un nom
diffrent lInitial (ex : lexique_fr_ini.txt)
Extrait du dictionnaire franais

Ajouter une ligne pour chaque nouvelle forme et renseigner au moins les trois premires
colonnes (1re colonne : forme initiale, 2me colonne : forme racine et 3me colonne
catgorie/cl danalyse)
Par dfaut, les termes non reconnus sont mis dans la catgorie Forme non reconnue (nr) et
traits en actif si on laisse le paramtrage par dfaut de la lemmatisation.
Si on veut quun mot nouveau soit trait en lment supplmentaire, il faut le mettre dans
une catgorie traite en supplmentaire (ex : Conjonction)
9

Avril 2015

Une fois le paramtrage valid (OK), IRaMuTeQ affiche les rsultats (Figure 9, Figure 10) et
gnre un rpertoire (ou dossier) dans lequel il place des fichiers rsultats : nomdufichier
texte_stat_1.
Pour toutes les analyses, un clic droit sur une analyse permet d'afficher les options utilises
pour le traitement.
Il est galement possible d'exporter le dictionnaire d'un corpus ou le dictionnaire des
termes/mots partir d'une analyse statistique (Figure 9).
Figure 9 - Bilan lexical de la premire analyse du corpus (onglet rsum)

(EuroBroadMap 2009)
Figure 10 - Affichage du lexique des formes actives

10

Avril 2015
1er onglet
Rsum = description gnrale du corpus (nombre de textes, doccurrences,
de formes)
2me onglet Formes actives = liste des formes/mots actifs (avec leur catgorie
grammaticale) par frquences dcroissantes.
3me onglet Formes supplmentaires = liste des formes/mots supplmentaires par
frquences dcroissantes
4me onglet Total = ensemble des mots par frquences dcroissantes
5me onglet Hapax = mots du corpus prsents une seule fois
Sur chaque forme/mot
Clic droit Formes associes permet de visualiser les regroupements (lemmatisation)
Clic droit Concordancier affiche le contexte dutilisation du mot dans le corpus
Fichiers gnrs de le dossier nomducorpus_Stat_1 :
- analyse.ira : Fichier permettant douvrir lanalyse dj faite dans le logiciel.
- formes_actives (csv) : 3 colonnes avec une ligne par mots que le logiciel prend en compte ; leur frquence, la
catgorie du mot.
- formes_supplmentaires (csv) : mots non pris en compte ; frquence ; type :prposition (pre), adj_pos,
art_def, adj_pos art_ind, conjonction (con), pro_per, art_ind, art_def, aux (auxiliaire), num (chiffre), pro_dem,
pro_ind, pro_rel, ver_sup (vouloir, devoir, faire, pouvoir), ono (derrire, dehors, pouce).
- glob (txt) : fichier Global : nombre d'uci : ici 1140 ; nombre d'occurrences : 5095 ; nombre de formes : 1729 ;
moyenne d'occurrences par forme : 4.65 ; nombre d'hapax : 634 (12.44% des occurrences - 33.69% des
formes) ; moyenne d'occurrences par uci : 4.47
- hapax (csv) : mots ayant une frquence de 1.
- total (csv) : Tous les mots, frquences dcroissante partir de 2 occurrences.
Permet de visualiser les mots non lemmatiss et leur catgorie.
- Zipf : graphique prsentant en ordonne les frquences et en abscisse les rangs des formes du corpus.

11

Avril 2015

3 / Spcificits et AFC
Cette analyse permet didentifier les mots spcifiques par sous-catgories et ralise une
Analyse Factorielle sur un tableau lexical agrg (TLA) construit avec les variables
slectionnes.
Figure 11 - Slection par type de variables ou slection par modalits

Choix des variables/modalits pour calculer les spcificits et construire le tableau lexical
En slectionnant par variables (Figure 11) on ne peut choisir quune variable la fois (celle
qui est slectionne en premier) et IRaMuTeQ ne fait pas dAFC avec une variable qui a trop
peu de modalits ; on peut ne slectionner que les formes actives ou supplmentaires. En
faisant une slection par modalits, on peut choisir plusieurs variables dintrt et retirer les
modalits rares (peu dindividus).

12

Avril 2015
Figure 12 - Mots spcifiques dtudiants interrogs dans diffrentes villes chinoises

(EuroBroadMap 2009)
Plus la valeur est leve (en valeur absolue), plus la forme/mot est spcifique de la
modalit. Le signe + signifie que le mot est plus cit par ce groupe (ici tudiants interrogs
Pkin) que par les autres, le signe signifie que le mot est moins cit par ce groupe que par
les autres.
1er onglet Formes (mots) : Affichage des formes spcifiques par modalit
et par
spcificit dcroissante (ici formes spcifiques des tudiants interrogs Pkin v_BJS)
2me onglet Formes banales : Affichage des formes par effectif dcroissant
3me onglet Types (adjectif, pronom) : catgories grammaticales
4me onglet Effectifs par formes/mots
5me onglet Effectifs par types de catgories grammaticales
6me onglet Effectifs relatifs des formes/mots
7me onglet Effectifs relatifs par type grammatical de mot
8me onglet AFC (analyse factorielle des correspondances) sur un tableau lexical
agrg (TLA)

13

Avril 2015
Sur chaque mot :
Clic droit formes associes permet de visualiser les regroupements (lemmatisation)
Clic droit concordancier affiche le contexte dutilisation du mot dans le corpus
Clic droit graphique affiche un graphique reprsentant le sur/sous emploi du mot
Clic droit segment de texte caractristique affiche des parties de textes spcifiques

- AFC forme : gnre un graphique avec tous les mots analyss (Figure 13) et un graphique
avec les variables toiles.
- AFC type : gnre un graphique avec le type des mots et un graphique avec les variables
toiles.
Figure 13 - Plan factoriel issu de lAFC sur le Tableau Lexical Agrg (mots et variable
spcifique slectionne pour le calcul des spcificits)

(EuroBroadMap 2009)
En cliquant sur ce symbole

on peut paramtrer le graphique des plans factoriels

14

Avril 2015
Figure 14 - Paramtrage des options de graphiques issus d'AFC

Type de graphe : 2D ou 3D
Format de lImage : Png (format image) ou Svg (format vectoriel)
Reprsentation : choix entre coordonnes et corrlation
Variables : choix des variables reprsenter entre actives, supplmentaires, toiles, classes
Taille : variation de la taille des formes en fonction de sa frquence ou du Chi2
Facteur : possibilit de choisir les axes factoriels afficher (Facteurs 1-2 par dfaut)
Remarque : il nest pas possible de dplacer les mots du graphique pour une meilleure
visibilit. Pour cela, il faut enregistrer le graphique au format vectoriel (svg) et le travailler
avec un logiciel de dessin vectoriel (comme Inkscape5 ou Illustrator).
Pour garder les mots qui ont les plus fortes contributions, relancer lanalyse laide du
symbole ci-dessus pour slectionner contributions dans la reprsentation.

https://inkscape.org/fr/

15

Avril 2015

On retrouve tous les calculs de formes spcifiques et de lAnalyse Factorielle des


Correspondances (contributions, coordonnes, etc.) dans le rpertoire gnr par
IRaMuTeQ.
Fichiers disponibles dans le rpertoire (nomcorpus_spec_n) :
-

afcf_col.csv : Ligne : classes ; Colonnes : Coord. facteur ; Corr. facteur 1 6 ; COR -facteur 1 6 ; CTR facteur 1 6 (contribution) ; mass ; chi.distance ; inertie
afcf_col.png : image / graphique des modalits actives (var toiles)
afcf_facteur.csv : Ligne : facteurs ; Colonnes : valeurs propres ; pourcentages ; pourcentage cumuls
afcf_row.csv : Ligne : les mots (ne garde que les mots de frquence suprieure au seuil indiqu dans le
paramtrage, 11 par dfaut) ; Colonnes : Coord. facteur de chaque classe ; Corr. facteur jusqu 6 ;
COR -facteur 1 jusqu 6 ; CTR -facteur 1 6 ; mass ; chi.distance ; inertie .
afcf_row.png : Graphique des mots
afct_col.csv : Ligne : classes ; Colonnes : Coord. facteur de chaque classe ; Corr. facteur 1 6 ; COR
facteur 6 ; CTR -facteur 1 6; mass ; chi.distance ; inertie
afct_col.png : Graphique des modalits actives
afct_facteur.csv : Ligne : facteur ; Colonnes : valeurs propres ; pourcentages ; pourcentage cumuls
afct_row.csv : Ligne : type de mots ; Colonnes : Coord. facteur de 1 6 ; Corrlation facteur 1 6 ;
contribution facteur 1 6 ; mass ; distance du chi2 ; inertie
afct_row.png : Graphique avec les types de mots
Analyse.ira : analyse qui peut tre ouvert avec le logiciel dans ouvrir une analyse ouvre les
onglets rsultats de spcificit et AFC .
banalites.csv : lexique des formes/mots par effectif dcroissant
eff_relatif_forme.csv : Ligne : les mots ; Colonnes : les modalits des variables toiles slectionnes
eff_relatif_type.csv : Ligne : les types de mots (24) ; Colonnes : les modalits des variables toiles
slectionnes dans le paramtrage
tableafcm.csv : Ligne : les mots retenus ; Colonnes : les modalits des variables toiles slectionnes
(en effectif]
Equivalent de longlet Effectifs formes dans le logiciel
tablespecf.csv : Ligne : les mots ; Colonnes : les modalits des variables toiles slectionnes
Equivalent de longlet formes dans le logiciel : indique les termes les plus spcifiques de
chaque modalit
tablespect.csv : Ligne : les types de mots
Colonnes : les modalits des variables toiles slectionnes
tabletypem.csv : Ligne : les types de mots
Colonnes : les modalits des variables toiles slectionnes (en effectif)

16

Avril 2015
Il est possible de procder des regroupements de formes/mots appels TGen partir de la
liste des formes/lemmes du corpus ou de longlet spcificits.
Figure 15 - Accs lditeur de TGen dans la fentre historique dIRaMuTeQ

Figure 16 - Accs au menu Faire un TGen partir du menu Spcificits et AFC

17

Avril 2015
Figure 17 - Cration de types gnraliss (TGen)

Ici on a choisi de regrouper abundance, abundant et abustle sous le TGen Abund


Il sera ensuite possible de visualiser les spcificits des types gnraliss par sous-corpus et
dafficher le concordancier correspondant (Figure 18) (aprs avoir lanc le calcul).
Figure 18 - TGen spcifiques

(EuroBroadMap 2009)

18

Avril 2015

4 / Classification
Mthode Reinert
Implmentation de la mthode de classification Alceste de Max Reinert6 (Figure 19).
Figure 19 - Paramtrage de la mthode Reinert dans IRaMuTeQ

Nombre de formes pleines


(mots regroups) dans le
tableau 1
Nombre de formes pleines
dans le tableau 2 (si
classification double)
Augmenter cette valeur
modifie le nombre de
classes

Remarque : on ne peut pas changer la frquence minimum dune forme analyse qui est
en gris. Seule la valeur du nombre maximum de formes analyses est prise en compte. Si
le nombre total de formes actives est infrieur cette valeur, seules les formes ayant un
effectif d'au moins trois sont retenues.

Dans notre exemple, on a choisi doprer une classification simple sur textes car les textes
(mots associs Europe ) sont trs courts. Par dfaut, la mthode propose de dcouper
les textes en segments de textes en fonction du nombre de formes actives.

Pour afficher (et imprimer) le rapport danalyse (quivalent du contenu de longlet Profil )
faire un clic droit sur le nom de lanalyse correspondante (nomcorpus_alceste_n) de la
fentre Navigateur .

Classification Descendante Hirarchique de segments de textes partir du Tableau Lexical Entier (Reinert,
1983).

19

Avril 2015

Sortie rsultats de la classification :


On trouve un rsum des rsultats (nombre de textes, de formes, de classes, le pourcentage
de textes classs et le dendrogramme) (Figure 20).
Figure 20 - 1er onglet : CHD

Cliquer sur les boutons


aider leur interprtation.

permet dafficher les mots spcifiques des classes pour

Ce dendrogramme peut tre prsent pour montrer la rpartition des classes les unes en
fonction des autres.
IRaMuTeQ fournit pour chaque classe des aides linterprtation qui permettent
lutilisateur dapprhender lunivers lexical de la classe et de lui donner un intitul/thme
(Figure 21 - 2e onglet : Profils).
Pour chaque classe, on trouve les formes/mots les plus associs (effectifs, pourcentage, Chi2
dassociation)

20

Avril 2015
Figure 21 - 2e onglet : Profils

Par clic droit sur les lignes (forme) on accde dautres menus offrant des aides
linterprtation des classes (Figure 21):
- Formes associes au mot (si lemmatisation),
- Concordancier (dans les segments de texte de la classe, dans les segments de texte
classs, dans tous les segments de texte),
- Outils du CNRTL : renvoie sur le site du Centre National de Ressources Textuelles et
Lexicales et pour cette forme affiche (dfinition, tymologie, synonyme) si la langue du
corpus est le franais),
- segments rpts,
- segments de texte caractristiques des classes. Choix entre 2 modes de calcul :
Absolu (Somme des Chi2 des formes marques du segment) (Figure 22) ou Relatif
(moyenne des chi2 des formes marques par segment).

21

Avril 2015
Figure 22 - 3 rponses caractristiques de la classe 2 (indice de rang absolu)

(EuroBroadMap 2009)
- Graphe du mot, graphe de la classe7 (voir la partie Analyse de similitudes)
- Nuage de mot de la classe (voir la partie Nuage de mots)
- Exporter : gnre le corpus correspondant la classe (classe_n_export.txt) ou pour
dautres outils (comme Tropes ou Owledge)

IRaMuTeQ gnre une analyse factorielle des correspondances (Onglet AFC) sur un tableau
croisant la variable de classe et les mots/formes du lexique associ au corpus.
Figure 23 - 3e onglet : plan factoriel (1-2) issu dAFC reprsentant les formes actives

EuroBroadMap, 2009

Attention : il est conseill de faire les graphes dans lordre des classes: classe 1 puis classe 2 car dans les
sorties, le fichier se nomme _1, _2 qui correspond lordre de la cration des graphes et non le numro de la
classe.

22

Avril 2015
Onglet AFC : Le premier graphique correspond au plan factoriel (1-2) reprsentant les
formes/mots actifs associs Europe qui sont affichs de diffrentes couleurs selon la
classe laquelle elles appartiennent (5 classes dans notre exemple) (Figure 23). On retrouve
aussi le pourcentage dinformation rsume par chaque facteur (ici 31,65% pour le premier
axe).
Le deuxime graphique reprsente les mots outils projets en lments supplmentaires sur
ce mme plan factoriel.
Le troisime reprsente les variables toiles i.e les caractristiques sur les textes
introduites lors de la mise en forme du corpus. Dans notre exemple les diffrentes villes
dans lesquelles taient interrogs les tudiants (*v_BJS, *v_CAN, ), leur domaine dtude
(*d_SHS, *d_HEA, ). Ici aussi ces modalits sont projetes sur le plan factoriel de lAFC
croisant les formes actives et les modalits de la variable de classe.
Le quatrime graphique prsente ici encore la projection des modalits de la variable classe
(5 dans notre exemple).
Onglet Facteurs : On trouve les valeurs propres, pourcentage et pourcentage cumules issus
du calcul de lAFC ;
Ici les fichiers gnrs sont sauvegards dans un rpertoire : nomcorpus_alceste_1 :
Autres fichiers quon peut exporter (par clic droit sur le nom du rpertoire dans la fentre
historique):
- profils des segments rpts (identique longlet Profil de la CDH mais affiche les valeurs
pour les segments rpts et non pour les mots)
- profils des types grammaticaux (pour reprer la sur-reprsentation de catgories
grammaticales de formes par classes);
- exporter le corpus permet de gnrer un fichier html o chaque uce est associ une
couleur qui donne sa classe dappartenance (corpus en couleur, Figure 24) et ainsi de
reprer quel numro de classe correspond le segment de texte class.
Figure 24 - Extrait du corpus en couleur issu dune classification

EuroBroadMap, 2009

23

Avril 2015

5 / Analyse de similitudes
Il sagit dune analyse des cooccurrences prsente sous formes de graphiques de mots
associs (Figure 25). Les indices de similitudes proposs dans IRaMuTeQ sont ceux
disponibles dans la librairie proxy de R (Meyer, Buchta). Cette analyse met en uvre les
concepts de la thorie des graphes utiliss en Analyse des Donnes Relationnelles (Analyse
de rseaux).
Figure 25 - Extrait du graphe des mots associs Europe par les tudiants interrogs en
Chine
EuroBroadMap, 2009

Par dfaut, les formes/mots sont les sommets du graphe et les artes reprsentent les
cooccurrences entre eux. Plus la taille des mots est grande, plus ils sont frquents dans le
corpus, plus les liens/artes sont pais, plus les mots sont cooccurrents.
Les options de taille et des couleurs des formes et les liens sont paramtrables dans longlet
Paramtres graphiques.

24

Avril 2015
Figure 26 - Paramtrage de l'analyse de similitude dans IRaMuTeQ
Onglet Paramtres du graphe

Pour une meilleure visibilit, il est possible de slectionner les mots selon leur frquence
(Figure 26, partie gauche de la fentre). Dans lexemple ci-dessous, les mots ayant une
frquence suprieure 6 ont t reprsents.
Lalgorithme de fruchterman reingold est utilis pour optimiser laffichage du graphe et
visualiser les mots le plus centraux (mots types du corpus).
Les formes/mot mots les plus centraux sont dtects partir du calcul de leur centralit
dintermdiarit. Ces mots servent dintermdiaires pour relier (au sens de la cooccurrence)
un grand nombre dautres mots entre eux.
Il est possible d'exporter les graphes au format vectoriel (svg) ou pour gephi (format
graphml) avec les coordonnes des points, la taille des sommets et leur couleur.
(http://gephi.org)
Cocher slectionner une variable permet de reprer les mots spcifiques de chaque
modalit dune variable. Par exemple pour la variable domaine dtudes, les mots dune
mme couleur (bleu clair, Figure 27) sont spcifiques de la modalit (d_SHS).

25

Avril 2015
Figure 27 - Extrait du graphe des mots associs Europe par les tudiants interrogs en
Chine selon le domaine d'tudes

EuroBroadMap, 2009
La dtection de communauts (Figure 26, onglet paramtres du graphe) est aussi une
mthode issue de la thorie des graphes permettant de reprer des groupes (ici de mots).
Les termes fortement coocuurents se trouveront au sein dune mme communaut et
seront faiblement relis avec les autres communauts (Figure 28).
Figure 28 - Dtection de communauts dans le graphe des mots associs "Europe"

EuroBroadMap, 2009
26

Avril 2015

6 / Nuage de mots
Figure 29 - Paramtrage du nuage de mots dans IRaMuTeQ

On peut choisir de lemmatiser (ou non) le corpus, dafficher les formes actives,
supplmentaires ou les deux (Figure 29).
Cette analyse permet dafficher le lexique des mots associs au corpus sur la forme dun
graphique appel Nuage de mots o la taille des formes/mots est proportionnelle leur
frquence. Les mots les plus cits sont placs au centre
Figure 30 - Nuage de mots associs Europe par les tudiants interrogs en Chine

EuroBroadMap, 2009

27

Avril 2015
Pour plus de lisibilit, il est possible de slectionner les mots reprsenter (Figure 31).
Figure 31 - Slection de mots afficher (critre de frquence dans le corpus)

Figure 32 - Nuage des mots cits au moins dix fois

EuroBroadMap, 2009

28

Avril 2015

7 / Cration de sous corpus


Les rsultats issus de lanalyse de lensemble du corpus peuvent mettre en vidence la
ncessit daffiner lexploration des donnes et de procder dautres analyses sur des
corpus plus restreints.
IraMuTeQ propose deux faons dextraire des sous-corpus. Dans notre exemple, nous
utilisons le menu Sous-corpus par mta-donnes car il permet dutiliser les caractristiques
sur les textes introduits lors de leur mise en forme (variables toiles) (Figure 33).
Figure 33 - Paramtrage de la slection d'un sous-corpus par mta-donnes

Ici on ne garde que les rponses des tudiants en Sciences Humaines et Sociales (*d_SHS)
Figure 34 - Bilan lexical du sous-corpus cr

29

Avril 2015
Dans la partie Classification , nous avons vu quil est galement possible de crer un souscorpus contenant les segments de texte dune classe.
Nous pouvons alors refaire les mmes analyses disponibles dans le menu Analyse de textes
sur ces sous-corpus.

Rfrences

http://repere.no-ip.org/Members/pratinaud/mes-documents/articles-etpresentations/presentation_mashs2009.pdf
Reinert M. 1983, Une mthode de classification descendante hirarchique : Application
l'analyse lexicale par contexte. Cahiers de l'Analyse des Donnes, 3, pp. 187-198
http://www.eurobroadmap.eu/
Brennetot A., Emsellem K., Gurin-Pace F et Garnier B, Dire lEurope travers le
monde , Cybergeo : European Journal of Geography [http://cybergeo.revues.org/25684]
Garnier B., Gurin-Pace F. 2010. Appliquer les mthodes de la statistique textuelle. Paris,
CEPED, 86 p. (Les Clefs pour) [http://www.ceped.org/?Appliquer-les-methodes-de-la]

30

Avril 2015

Table des figures


Figure 1 - Menu Fichier .............................................................................................................. 4
Figure 2 - Extrait du fichier trait (EBM_iram_CHN_n.txt) ........................................................ 4
Figure 3 - Indexation du corpus.................................................................................................. 5
Figure 4 - Options du Nettoyage automatique du fichier .................................................... 6
Figure 5 - Bilan lexical ................................................................................................................. 7
Figure 6 - Menu Analyse de texte .............................................................................................. 7
Figure 7 - Paramtrage de la lemmatisation .............................................................................. 8
Figure 8 - Paramtrage de lanalyse des formes par catgories grammaticales ....................... 9
Figure 9 - Bilan lexical de la premire analyse du corpus (onglet rsum) ............................. 10
Figure 10 - Affichage du lexique des formes actives ................................................................ 10
Figure 11 - Slection par type de variables ou slection par modalits .................................. 12
Figure 12 - Mots spcifiques dtudiants interrogs dans diffrentes villes chinoises .......... 13
Figure 13 - Plan factoriel issu de lAFC sur le Tableau Lexical Agrg (mots et variable
spcifique slectionne pour le calcul des spcificits) ........................................................... 14
Figure 14 - Paramtrage des options de graphiques issus d'AFC ............................................ 15
Figure 15 - Accs lditeur de TGen dans la fentre historique dIRaMuTeQ ....................... 17
Figure 16 - Accs au menu Faire un TGen partir du menu Spcificits et AFC ..................... 17
Figure 17 - Cration de types gnraliss (TGen) .................................................................... 18
Figure 18 - TGen spcifiques .................................................................................................... 18
Figure 19 - Paramtrage de la mthode Reinert dans IRaMuTeQ ........................................... 19
Figure 20 - 1er onglet : CHD ..................................................................................................... 20
Figure 21 - 2e onglet : Profils ................................................................................................... 21
Figure 22 - 3 rponses caractristiques de la classe 2 (indice de rang absolu) ....................... 22
Figure 23 - 3e onglet : plan factoriel (1-2) issu dAFC reprsentant les formes actives .......... 22
Figure 24 - Extrait du corpus en couleur issu dune classification ..................................... 23
Figure 25 - Extrait du graphe des mots associs Europe par les tudiants interrogs en
Chine ......................................................................................................................................... 24
Figure 26 - Paramtrage de l'analyse de similitude dans IRaMuTeQ ...................................... 25
Figure 27 - Extrait du graphe des mots associs Europe par les tudiants interrogs en
Chine selon le domaine d'tudes ............................................................................................. 26
Figure 28 - Dtection de communauts dans le graphe des mots associs "Europe" ......... 26
Figure 29 - Paramtrage du nuage de mots dans IRaMuTeQ .................................................. 27
Figure 30 - Nuage de mots associs Europe par les tudiants interrogs en Chine ............. 27
Figure 31 - Slection de mots afficher (critre de frquence dans le corpus) ...................... 28
Figure 32 - Nuage des mots cits au moins dix fois ................................................................. 28
Figure 33 - Paramtrage de la slection d'un sous-corpus par mta-donnes ....................... 29
Figure 34 - Bilan lexical du sous-corpus cr ........................................................................... 29

31