Vous êtes sur la page 1sur 46

UNIVERSITE DE BRETAGNE SUD

INSTITUT UNIVERSITAIRE DE TECHNOLOGIE DE VANNES


STATISTIQUE ET INFORMATIQUE DECISIONNELLE
RAPPORT DE STAGE | FIN DU DUT STID | ANNEE UNIVERSITAIRE 2021-2022

Exploration des résumés


du congrès Pangborn

ODILON SAINT-CYR DAKPAKETE


MAITRES DE STAGE : SEBASTIEN LE ET RONAN SYMONEAUX
TUTRICE DE STAGE : ANNE CUZOL
2
Exploration des résumés
du congrès Pangborn

ODILON SAINT-CYR DAKPAKETE

Institut Agro | Institut Agro Rennes-Angers


Département Statistique Informatique

Année universitaire 2021-2022

IUT Vannes

8 Rue Michel de Montaigne. BP. 56017 Vannes Cedex

0297626464. www.iutvannes.fr

3
1 Remerciements
Je voudrais tout d'abord remercier toute l'équipe du département de statistique et
d’informatique pour leur contribution à la réussite de ce stage.

Je remercie particulièrement mon maître de stage M. Sébastien Lê pour l’opportunité qu’il m’a
donnée pour effectuer mon stage au sein de ce laboratoire. Je le remercie aussi de sa patience et de
ses orientations qui m'ont permis de réaliser ce projet. Je tiens par la même occasion à remercier M.
Ronan Symoneaux pour son expertise en matière de sciences sensorielles qui nous a permis d’adapter
notre vision exploratoire de ces données.

J'aimerais également remercier Mme Anne Cuzol, qui a accepté de m'accompagner dans ce
stage de 10 semaines. Ses suivis pédagogiques tout au long du DUT sont un apport conséquent pour
la poursuite de mes études.

Je profite de cette occasion pour remercier Mme Sandrine Sorin, secrétaire du département
STID Vanne, Mme Hélèna Rouillé secrétaire du département statistique et informatique de l’Institut
Agro Rennes-Angers.

Enfin, je tiens à remercier toutes les personnes qui ont participé de près ou de loin au bon
déroulement de ce stage.

4
2 Les sigles

LDA : Latent Dirichlet Allocation

AC : Analyse des Correspondances


INH : Institut National d'Horticulture

NLP : Natural Language Processing (Traitement du Langage Naturel en français)

5
3 Sommaire
4 Introduction 7
5 L’organisme d’accueil 9
5.1 L’Institut Agro Rennes-Angers, une école d’ingénieurs 9
5.2 Le département statistique et informatique 9
6 Des résumés à leur analyse bibliométrique 10
6.1 De la donnée brute à une donnée exploitable 10
6.2 L’analyse des données textuelles (le traitement du langage naturel) 11
7 La gestion et l’exploration des données 13
7.1 L’importation des données : une étape primordiale 13
7.2 La constitution d’une base de données : une question primaire 14
7.3 La cartographie scientifique (science mapping) : une vision bibliométrique 14
7.4 L’exploration par les mots clés, un autre aspect de la bibliométrie 22
8 Autres visions exploratoires du stage 29
8.1 La gestion des noms des auteurs 29
8.2 Le test sur des algorithmes de classification 29
9 Conclusion 31

6
4 Introduction
Créé en 1992 pour rendre hommage à Rose Marie Pangborn, le congrès Pangborn est une
conférence universitaire axée sur les sciences sensorielles. L'analyse sensorielle est
une discipline scientifique qui applique les principes de la conception expérimentale et de l'analyse
statistique à l'utilisation des sens humains (la vue , l' odorat , le goût , le toucher et l'ouïe). Depuis sa
première édition en 1993 en Finlande, ce congrès a lieu tous les deux ou trois ans dans des pays
différents et rassemble de plus en plus des chercheurs.

Compte tenu de l’évolution rapide de la société, des habitudes de consommation et des


questions sur l’environnement, les thèmes abordés lors de ces congrès ont évolué au cours de ces deux
dernières décennies. Pour la prochaine édition qui aura lieu en 2023 en France, les principaux thèmes
abordés seront : les fondamentaux de la perception sensorielle, les méthodologies émergentes des
sciences sensorielles et de la consommation, la sensométrie, les utilisations efficaces des sciences
sensorielles dans le développement de produits, les expériences utilisateur des produits alimentaires
et non alimentaires, les défis mondiaux en matière de ressources pour la durabilité et le gaspillage
alimentaire, la collecte et la communication des propriétés sensorielles dans le village planétaire…

Il s’avère que la France est un pays très actif dans le domaine de l’analyse sensorielle. Pour
cette raison, beaucoup de chercheurs français participent au congrès Pangborn et parmi ces
chercheurs, nous comptons Ronan Symoneaux et Sébastien. Ces deux enseignants-chercheurs ont
décidé de contribuer à l'édition 2023 en cherchant à analyser l'évolution de la recherche dans ce
domaine.

Pour comprendre l’évolution dans un domaine scientifique, nous sommes parfois amenés à
dresser un inventaire des diverses réalisations qui ont été faites dans ce domaine. Les méthodes mises
en œuvre pour comprendre cette évolution peuvent varier en fonction des données qui sont à notre
disposition. Parmi ces méthodes, nous comptons l’approche par l’analyse bibliométrique qui est
définie comme l’application des méthodes statistique aux documents d’un domaine scientifique dans
l’objectif de comprendre son histoire, son impact, ses liens etc. Ces documents peuvent être des
ouvrages, des revus ou encore des résumés de textes scientifiques.

La mission de mon stage consiste alors à explorer les résumés du congrès Pangborn depuis sa
première édition. Concrètement, mon travail se divise en plusieurs parties. La première est de rendre
ces données exploitables pour une analyse statistique et la visualisation. Une fois que ces données
soient mises dans un format exploitable, la deuxième partie sera de tester les différentes façons
d’exploiter ces données. Pour résumer nous pouvons dire que la mission de mon stage est de traiter
et explorer ces données.

Désireux de poursuivre mes études dans le domaine de la modélisation statistique et étant


conscient de mes lacunes en informatique, j’ai choisi d’effectuer mon stage de fin de DUT dans le
département statique et informatique de l’Institut Agro Rennes-Angers, dans l’objectif d’approfondir
mes connaissances en informatique en plus des enseignements que j’ai eus lors de mes deux années

7
du DUT STID. Bien que difficile au début, ces 10 semaines de stage m’ont alors permis d’avoir une
vision plus large de la programmation et de mieux organiser mes codes.

Afin de bien restituer mon stage, je vais commencer par parler de l’organisme d’accueil, puis
des données sur lesquelles j’ai effectué mon stage, des méthodes standard au traitement des données
textuelles et en fin, je vous présenterai l’ensemble de mes réalisations sur la durée de mon stage.

8
5 L’organisme d’accueil
5.1 L’Institut Agro Rennes-Angers, une école d’ingénieurs
Créée le 1er juillet 2008 sous l’appellation « d’Agrocampus Ouest », cette école est d’abord le
fruit de l’union de 2 grandes écoles publiques d'ingénieurs : Agrocampus Rennes (Institut national
d'enseignement supérieur et de recherche agronomique et agroalimentaire de Rennes) et l'Institut
National d'Horticulture et de paysage (INH) d'Angers. Agrocampus Ouest fait partie du groupe Institut
Agro de France depuis le 1er janvier 2020 et change de nom le 1er janvier 2022 pour devenir Institut
Agro Rennes-Angers.

5.2 Le département statistique et informatique


L’Institut Agro Rennes-Angers dispose d’un département statistique et informatique. Dirigé
par David CAUSEUR, cette unité pédagogique est composée de 8 personnes : 5 enseignants
chercheurs, un enseignant, un ingénieur de recherche et une gestionnaire. Le département est
responsable des enseignements en statistique et informatique dans l'ensemble des filières rennaises
de l’Institut. En outre, ces enseignants ont aussi écrit de nombreux ouvrages et développer des
packages libres pour le langage de programmation R. En plus de leurs missions d’enseignement, les
enseignants-chercheurs du département encadrent des étudiants.es en thèse et en stage pour les
aider dans l’accomplissement de leurs.es projet d’études sur des thématique innovantes. Par exemple
en 2021 les thématiques des stages des étudiants en STID Vannes étaient « l’Analyse de données de la
cohorte Pélagie » et « Conception et finalisation d’outils pour la diffusion avec R et Jamovi ».

9
6 Des résumés à leur analyse bibliométrique
6.1 De la donnée brute à une donnée exploitable
Depuis la première édition du congrès Pangborn, les différents résumés des recherches qui ont
été présentées lors de chaque édition, sont mis dans un seul document formant un livre. Avant la
démocratisation de l’informatique, les premiers de ces documents sont tapés avec des machines à
écrire. Ces documents n’existent donc pas sous un format numérique à l’origine. Ils sont alors scannés
puis passés sous reconnaissance optique des caractères permettant d’avoir un format numérique
exploitable.

Ces résumés exploitables sont caractérisés par plusieurs informations supplémentaires.


Certaines de ces informations sont communes à tous les résumés et d’autres sont spécifiques. Par
exemple, un résumé doit avoir obligatoirement un titre, des auteurs, les affiliations des auteurs et le
corps du résumé. En fonction des éditions, certains résumés peuvent avoir des informations comme
des mots clés, ou encore la catégorie à laquelle appartient le résumé.

En outre, compte tenu du passage aux scans et aux reconnaissances optiques des caractères,
certains mots des résumés ne sont pas reconnus comme il se doit. Par exemple un I peut être remplacé
par un 1, un o par un 0 et inversement. Ce qui nous oblige souvent à revenir aux données d’origine
pour nous assurer de leur authenticité.

Durant tout le stage, nous n’avons pas eu l’occasion de travailler sur tous les résumés de toutes
les précédentes éditions. Au début du stage, nous avons eu à notre disposition les données des
résumés des éditions 1995, 1998, 2001, 2003, 2005, 2007, 2015 2017 et 2019. À la suite, nous avons
eu les résumés de l’édition 2021 que nous avons intégrés à la base.

Nous avons alors importé ces résumés sur Python, puis sur R en utilisant des fonctions que
nous allons détailler dans les parties suivantes.

10
Pour avoir une idée du nombre des résumés qui sont à notre disposition, nous avons choisi de
représenter ces nombres par édition sur un graphique.

Graphique 1 : Évolution du nombre des résumés selon les éditions

Bien que nous ne disposions pas de l’ensemble des données de toutes les éditions, le
Graphique 1 nous permet néanmoins d’avoir une idée sur la tendance de l’évolution du nombre des
résumés.

6.2 L’analyse des données textuelles (le traitement du langage naturel)


6.2.1 Qu’est-ce qu’une donnée ?

Selon le dictionnaire Le Robert, une donnée peut être définie comme ce qui est connu et qui
sert de point de départ à un raisonnement ayant pour objet la détermination d'une solution à un
problème en relation avec cette donnée. Ces données peuvent prendre plusieurs formes et encore
plus de nos jours, avec la multiplication des outils informatiques. Elles peuvent être des réponses à
une enquête, des comportements des clients, des observations dans un cadre de recherche, elles
peuvent être des commentaires ou encore des discours. Les données peuvent donc avoir une forme
textuelle.

6.2.2 Comment traiter et analyser une donnée textuelle (traitement du langage naturel)

Nous pouvons diviser l’analyse des données textuelles en deux grandes parties. La partie
gestion des données (data management) consiste à valoriser les textes comme des données
numériques organisées, afin de favoriser le travail de l’analyste des données (data analyst). Une fois
les textes organisés en données numériques, le data analyst pourrait en effet appliquer les différentes
méthodes mathématiques sur ces données, selon le besoin.

11
Wikipédia définit l’analyse des données textuelles avant tout comme une approche des
sciences humaines qui envisage les textes comme des données organisées qui, constituées des corpus,
peuvent être analysées indépendamment de leur énonciation. Inspirée par la linguistique structurelle,
elle est à la fois quantitative et qualitative. Appliqué aux ouvrages scientifiques, le traitement et
l’analyse des données textuelles est appelé « bibliométrie ».

Ils existent plusieurs outils pour faire le traitement du langage naturel. Lors de mon cours de
text mining, j’ai eu la possibilité d’apprendre à faire du traitement de données textuelle avec le langage
de programmation Python, tandis que mon maitre de stage à l’Institut Agro Rennes-Angers a plus des
connaissances dans la pratique du langage de programmation R et ce même pour le traitement des
données textuelles. De plus, le programme du DUT STID inclut des cours de programmation statique
en R. Et j’ai eu à utiliser ce langage dans la majeure partie de mes cours. Pour toutes ces raisons, nous
avons choisi de faire une grande partie de mon stage avec l’outil R.

6.2.3 Le traitement du langage naturel (NLP) avec R

Les questions les plus fréquentes en traitement du langage naturel, sont souvent de connaitre
la fréquence des mots, de trouver une seule écriture aux mots qui sont proches (la lemmatisation) ou
encore de vérifier l’orthographe des textes... En bibliométrie, il est souvent question de trouver des
liens entre les différents ouvrages, de classer les documents selon les thèmes traités...

Le langage de programmation R nous propose plusieurs outils de traitement des données


textuelles. D’abord, le package de base offre une large gamme d’outils de manipulation des chaines de
caractère. Le CRAN task view nous permet de découvrir plusieurs packages qui sont spécifiques au
traitement du langage naturel. Ces outils sont aussi classés selon qu’il s’agit de la gestion ou de
l’analyse des données textuelles. Nous pouvons citer des packages comme tm qui propose des
fonctions favorisant l’exploration des textes ou encore quanteda qui prend en charge les analyses
quantitatives des textes…

En plus de ces outils présentés par le CRAN task view, le livre Text Mining with R de Julia Silge
et David Robinson présente la notion d’organisation des textes comme des données ordonnées avec
le package tidytext qui comprend également certain package de visualisation comme ggplot. De même,
le site officiel de Bibliometrix nous donne la possibilité d’avoir une idée globale de comment sont
traitées les données bibliométriques.

Par ailleurs, il existe des packages qui offrent la possibilité de faire de la classification des textes
sous R. Certains de ces algorithmes utilisent l’analyse des correspondances (AC) sur une matrice
documents croisés avec les termes des documents. Nous pouvons citer l’algorithme de la méthode
Reinert du package Rainette, l’algorithme de la fonction textual du package FactoMineR, la méthode
Latent Dirichlet Allocation (LDA)…

Enfin, nous pouvons constater que l’univers du traitement du langage naturel nous présente
un ensemble d’outils très large que nous pouvons adapter selon nos besoins et la particularité de nos
données.

12
7 La gestion et l’exploration des données
7.1 L’importation des données : une étape primordiale
Pour pouvoir manipuler ces fichiers « textes », il était question de les importer sous un langage
de programmation. Bien que nous ayons choisi le langage R pour l’exploration de ces données, je ne
disposais pas des connaissances nécessaires pour réaliser cette tâche directement sur R au début de
mon stage. Étant donné que mon cours de text mining s’est effectué avec le langage de programmation
Python, je dispose alors d’une base initiale pour le traitement de données textuelles dans ce langage.
J’ai donc choisi d’utiliser Python pour la première étape d’importation avant de m’approprier le
langage R.

Afin de normaliser l'exécution de cette tâche, j'ai décidé de créer une fonction sous Python.
Celle-ci prend en entrée un fichier texte et sort un tableau de données. Comme les fichiers « textes »
contiennent des balises représentant les informations supplémentaires des résumés, la fonction va les
utiliser pour organiser le tableau de sortie.

En outre, pour garantir « l’authenticité » des données, cette fonction va d’abord vérifier si la
longueur du vecteur texte est un multiple de cinq et vérifier s’il y a bien la présence du mot
« Keywords » tous les débuts des cinquième cases de celui-ci. Si la longueur du vecteur n’est pas un
multiple de cinq, la fonction va quand même remplir le tableau de données jusqu’à trouver la ligne ou
le résumé n’est pas structuré comme il se doit. Dans ce cas, la fonction va indiquer le numéro de la
ligne à l’utilisateur. Ce qui lui permet de corriger sur le fichier texte et recommencer le processus
d’importation. Si tous les arguments sont renseignés, la fonction va enregistrer un tableau Excel dans
le fichier renseigné en deuxième argument en plus de la sortie d’un tableau de données sous Python.

Une fois les tableaux de données sous format Excel à disposition, nous pouvons les importer
sur R pour la partie traitement et analyse.

13
Tableau 1 : Le tableau des résumés et des métas données

Le Tableau 1 représente le tableau de donnée après la sortie Python. Il contient alors 7


colonnes qui représentent les résumés et leurs métadonnées.

7.2 La constitution d’une base de données : une question primaire


Bien que les données qui sont à notre disposition nous suggère une analyse bibliométrique,
les données importées sur R ne permettent pas d’appliquer directement les méthodes de cette
analyse. Plusieurs éléments en sont à l'origine. Premièrement, les informations comme les noms des
auteurs, les mots clés, les citations, ou encore les noms des pays ne sont pas directement accessibles.
Et on ajoute à cela le problème de reconnaissance des caractères.

Ainsi, un travail de traitement est nécessaire pour organiser les données selon les besoins.
Pour commencer, nous nous sommes demandé si la construction d’une base de données relationnelle
pouvait faciliter l’exploration des corpus. Mais du fait de la complexité de ces données et des individus
statistiques qui peuvent changer d’un point de vue à l’autre, nous avons donc choisi de constituer des
tables de données en fonction de nos besoins tout en tenant compte des difficultés d’homogénéisation
sur les différentes éditions.

7.3 La cartographie scientifique (science mapping) : une vision bibliométrique


L’une des approches bibliométriques serait de cartographier le domaine scientifique analysé.
Pour cela, nous avons besoin des informations géographiques comme les noms des pays, les noms des
villes etc. En ce qui concerne nos données, ces informations se trouvent dans la colonne affiliation.

14
Tableau 2 : extrait de la colonne affiliation et des années

Le Tableau 2 nous informe sur plusieurs aspects des éléments de la colonne affiliation.
D’abord, une affiliation est composée du nom d’un organisme, du nom de pays dans lequel se trouve
cet organisme. Mais en lisant ce tableau, nous nous rendons compte que d’une édition à l’autre,
l’écriture du nom d’un pays n’est pas toujours le même. L’exemple concret de disparité est donné par
UK et United Kingdom qui désignent tous les deux le Royaume-Uni dans deux éditions différentes.
Nous observons aussi qu’à la place du nom de certains pays, on trouve un nom de ville ou d’état où
réside l’organisme. Nous pouvons citer le cas des États-Unis et de la France qui sont respectivement
remplacés par Los Angeles et Dijon, par exemple. En plus, nous observons qu’il peut y avoir des pays
ayant un nom composé comme South Korea ou encore New Zealand. Du fait du caractère temporel de
l’exploration de ces données, pour pouvoir exploiter les noms des pays, il est judicieux de trouver une
écriture unique pour le nom de chaque pays.

En raison de la complexité des éléments de la colonne d'appartenance, nous avons adopté


plusieurs stratégies qui nous permettent d'extraire un nom utilisable sur toutes les éditions. Du fait de
l’importance de cette étape, je vais vous expliquer dans les détails la fonction que j’ai écrite pour sa
réalisation dans la partie qui suit.

7.3.1 La fonction de l’extraction de nom des pays


Bien que la colonne affiliation présente plusieurs différences dans ces éléments, grâce aux
outils disponibles sous R, nous pouvons traiter les données de cette colonne. J’ai donc fait de ces outils
une fonction.

La fonction prend en charge le tableau de données initial et le numéro de la colonne


d'affiliations. Sa sortie est une liste de 5 éléments. Et l’élément principal de la sortie de cette fonction
est lui aussi une liste qui contient le nom des pays.

15
Figure 1 : Extrait de la liste du nom des pays

La Figure 1 nous montre que la liste du nom des pays contient des vecteurs de longueur
différente. Le numéro d’identification de ce vecteur est le même que le numéro de la ligne de la table
qui contient les résumés.

Mais comme nous l’avons vu plus haut, doivent être faites pour permettre d’avoir tous les
noms des pays. C’est pour ça que les autres éléments de liste vont nous favoriser la correction de la
colonne affiliation.

Les éléments qui ont été plus utilisé pour cet effet sont le quatrième et le cinquième. Le
quatrième élément nous donne le numéro de la ligne des affiliations où la fonction n’a pas pu extrait
aucun nom de pays. Ce qui nous permet de regarder directement cette ou ces lignes et comprendre
pourquoi. Grâce au Tableau 3, nous pouvons regarder les noms des pays qui sont mal orthographier
et les corriger dans la base si nécessaire.

16
Tableau 3 : Similarité entre les mots de l’affiliation et le nom des pays

7.3.2 Les explorations possibles avec le nom des pays

Une fois que nous avons extrait le nom des pays pour chaque résumé, nous pouvons alors les
interroger pour voir quelles informations nous pourrons tirer de ce type de données et comment nous
pourrons les visualiser. On présente ci-dessous quelques exemples.

7.3.2.1 Comment évolue le nombre des pays qui sont représentés au congrès Pangborn ?

L’une des questions possibles que nous pouvons nous poser serait de connaitre le nombre des
pays participant. En effet, comme nous disposons de la liste des vecteurs des pays (cf. Figure 1), nous
avons donc utilisé cette information pour compter le nombre des pays qui sont représentés selon les
éditions.

17
Graphique 2 : Le nombre des pays selon les éditions

Le Graphique 2 nous permet de visualiser l’évolution du nombre des pays. Sur les 78 pays qui
ont été extraits de la base, nous pouvons voir qu’ils n’ont pas été tous présents au même moment.
L’évolution du nombre des pays participant n’est pas constante, mais celle-ci suit plus ou moins la
même tendance que l’évolution du nombre des résumés. C’est-à-dire plus le nombre de résumés est
élevé, plus le nombre de pays participant augmente. Nous avons alors un minimum à 26 en 1995 où le
nombre des résumés était de 135 et un maximum à 60 en 2019 où le nombre des résumés était de
719.

7.3.2.2 Quelle est la distribution des résumés selon les pays participants ?

Connaitre la distribution des résumés par pays peut être une approche intéressante pour une
étude bibliométrique. Pour ce fait, nous avons encore une fois utilisé la liste du nom des pays pour
compter leurs occurrences. Cependant, plusieurs types de visualisation sur R est possible. J’ai alors
utilisé la fonction wordcloud et la fonction ggplot pour construire le Graphique 3 et le Graphique 4.

18
Graphique 3 : Représentation des pays par rapport au nombre de résumés

Graphique 4 : nombre des résumés des pays qui sont représentés sur toutes les éditions

19
D’un point de vue pratique, le Graphique 3 à lui seul ne nous permet pas d’avoir accès à toutes
les informations sur les données, il a plutôt un apport visuel. Mais combiné avec le Graphique 4, ces
deux nous permettent de comprendre la distribution des résumés selon les pays. Ainsi, les pays comme
les États-Unis d’Amérique, la France, le Royaume-Uni, le Pays-Bas, le Brésil, le Danemark, l’Espagne,
l’Allemagne… en plus d’avoir un nombre des résumés élevé, ils ont été présents à toutes les éditions.

7.3.2.3 Comment représenter la collaboration entre les pays ?

Il est aussi courant en analyse bibliométrique de comprendre le réseau de collaborations entre


les pays, les auteurs etc. La liste des pays encore nous aide dans la tâche.

Graphique 5 : Le nombre de relations selon les éditions

Pour avoir le Graphique 5, nous nous sommes servis de la liste des pays pour compter les
vecteurs qui ont une longueur supérieure à 1 dans chaque édition.

La première information que nous donne ce Graphique 5 c’est que les pays collaborent moins
sur les résultats des études qui ont été présentées dans les premières éditions du congrès, et plus on
avance dans le temps, plus les pays ont tendance à collaborer.

On peut également représenter ces collaborations par un réseau. Les liens des
collaborations entre les pays s’obtiennent par une matrice de liaisons. Pour ce faire, nous avons créé
une matrice avec les noms des pays en ligne et en colonne, et le nombre des occurrences à leur
intersection. Grâce à cette matrice, nous avons donc construit le Graphique 6 et le Graphique 7.

20
Graphique 6 : Le réseau de collaboration entre les pays

Graphique 7 : Le nombre de collaboration par pays

La découverte de la fonction networkPlot du package bibliometrix m’a permis de représenter


les réseaux des collaborations du Graphique 6 en utilisant la matrice de collaboration des pays (cf
Annexe 5). Etant donné que je trouve incomplètes les informations apportées par ce graphique, j’ai
fait le choix de le compléter avec le Graphique 7. Nous observons alors que les États-Unis d’Amérique

21
est le pays qui a le plus collaboré dans le domaine de l’analyse sensorielle, suivi de la France et du
Royaume-Uni.

7.4 L’exploration par les mots clés, un autre aspect de la bibliométrie


Avant de commencer toutes manipulations sur mots clés, nous allons d’abord examiner
comment se comporte cette variable.

Graphique 8 : Le nombre des résumés n’ayant pas des mots clés selon les années

Pour obtenir le Graphique 8, nous avons tout simplement compté le nombre des lignes vides
dans la colonne des mots clés du tableau initial selon les éditions. Il nous montre que certains résumés
dans les éditons ne possèdent pas de mots clés. De plus, le nombre des résumés n’ayant pas de mots
clés dans les éditions de 1995 et 1998 est égal au nombre total des résumés dans ces éditions. Aucuns
résumés de ces éditions ne possèdent pas de mots clés. Avec un minimum à 10 en 2015 et un maximum
à 46 en 2007, les autres éditions possèdent elles aussi des résumés n’ayant pas des mots clés, mais ce
nombre reste faible par rapport au nombre total de résumés dans ces éditions. De ce fait, les analyses
sur les mots clés ne se sont pas portées sur tous les résumés de l’ensemble des éditions que nous avons
eues.

7.4.1 Comment se présente une ligne de mots clés ?

Comme pour la colonne des affiliations, il est aussi important de comprendre la structure des
éléments de la colonne des mots clés afin d’adopter une bonne stratégie pour leurs traitements. Ainsi,
si nous regardons le Tableau 4, nous pouvons nous apercevoir que les mots clés sont en premier lieu
séparés par une virgule. De plus, ils sont parfois constitués de groupes des mots (n-gramme) ou de
mots seuls. Nous pouvons alors parler de termes clés.

22
Tableau 4 : La colonne des mots clés

Bien que la structure des mots clés nous permet d’utiliser la virgule comme séparateur, il se
pose cependant le problème de l’espace avant ou après la virgule comme nous le montre la Figure 2.
Nous avons donc supprimé ces espaces comme nous pouvons le voir sur la Figure 3 à l’aide de la
fonction str_replace_all du package stringr.

Figure 2 : Les mots clés avec espaces avant ou après la virgule

Figure 3 : les mots clés sans espace avant et après la virgule

7.4.2 La fonction qui permet l’extraction de mots clés

Une fois tous les espaces, avant et après la virgule, supprimés dans la colonne des termes clés,
nous pouvons alors les « tokeniser » en utilisant comme séparateur la virgule. J’ai donc écrit une
fonction que je vais détailler dans la partie qui suit.

Pour pouvoir extraire les mots clés, nous avons utilisé la sous fonction cont.textuel de la
fonction textual du package FactoMineR. Cette fonction permet de compter les occurrences d’un mot

23
dans un ou plusieurs corpus textuels. Selon si l’argument sep.word est renseigné, la fonction va
prendre en compte ce caractère pour diviser le corpus en token sinon, si cet argument n’est pas
renseigné, la fonction va prendre en compte l’ensemble des caractères spéciaux comme séparateurs
de mots. Donc pour avoir les mots clés comme ils sont structurés, nous avons alors à mettre la virgule
comme le séparateur des mots.

Cette nouvelle fonction ainsi créée, prend en entrée la table de données initiale, le numéro de
la colonne des mots clés traitée, le numéro de la colonne des années et le caractère séparateur (une
virgule pour notre cas). Sa sortie est un tableau qui contient les mots clés et leurs occurrences sur les
éditions comme nous le montre le Tableau 5.

Tableau 5 : Extrait du tableau des mots clés avec leurs occurrences selon les éditions

Bien que l’extraction des mots clés semble plus simple que celle du nom des pays, il reste des
erreurs dues à la reconnaissance de caractères. Afin de résoudre ce problème, nous avons donc écrit
une fonction qui prend en entrée la table de données initiale, un mots clé donné et le numéro de la
colonne des mots clés. Sa sortie est un vecteur qui comprend toutes les lignes où ce mots clé est
présent. Nous pouvons alors les vérifier et les modifier si nécessaire.

7.4.3 Les exploitations possibles des mots clés

Après avoir terminé le travail sur les mots clés, nous pouvons alors utiliser le Tableau 5 pour
créer des indicateurs permettant une bonne exploration des mots clés.

Le premier indicateur que nous pouvons avoir est le nombre d’occurrence total des mots clés
dans toutes les éditions. Pour cela, il faut donc faire la somme sur les lignes du Tableau 5. Nous pouvons
aussi avoir le nombre d’apparitions des mots clés dans les éditions en comptant le nombre des
colonnes qui sont différentes de 0. D’autres indicateurs comme l’année de la première ou la dernière
apparition sont possibles à avoir.

24
Nous avons alors utilisé le nombre total des mots clés pour visualiser les mots clés les plus
fréquents comme nous pouvons le voir sur le Graphique 9.

Graphique 9 : Représentation de la proportion des mots clés

Comme pour le nom des pays, le Graphique 9 nous permet seulement de visualiser les mots
clés qui sont le plus utilisés pour les résumés qui ont été présentés au congrès Pangborn. Ainsi la
lecture du graphique nous montre que les mots clés les plus courants sont consumer, sensory,
descriptive analysis, children, ainsi de suite.

7.4.4 Les mots clés topics

L’une des approches bibliométriques est aussi de comprendre les topics qui sont souvent
abordés dans un domaine scientifique donné. Ainsi nous avons fait le choix de considérer en premier
lieu les mots clés qui apparaissent sur toutes les éditions comme des topics. Nous en comptons alors
27 sur les 5571 dans l’ensemble de la base.

Là aussi, plusieurs explorations sont possibles. Pour commencer, je me suis posé la question
de savoir comment visualiser directement ces mots clés topics. J’ai alors découvert la fonction
ggballoonplot du package ggpubr qui nous a permis de représenter les 15 premiers de ces mots clés
sur le Graphique 10.

25
Graphique 10 : La représentation des occurrences des mots clés

Le Graphique 10 peut être considéré comme un « tableau de données ». Mais son avantage
est que sa lecture est beaucoup plus simple. Les chiffres sont aussi représentés par une figure
graphique qui est proportionnelle à leur ordre de grandeur. Grâce à cette double information, nous
pouvons facilement identifier les éléments de tableau.

7.4.5 La dérive sémantique

En plus des analyses bibliométriques standards, nos données nous offrent d’autres possibilités
de les explorer. Comme nous avons décidé de choisir pour topics les mots clés qui apparaissent sur
l’ensemble des éditions, nous pouvons également analyser la dérive sémitique de ces topics à travers
une analyse des correspondances.

La dérive sémantique est définie comme la distorsion de sens que peut avoir un mot au cours
du temps. Cette approche sort un peu du contexte de la bibliométrie mais reste tout de même
intéressante à explorer.

Pour pouvoir explorer l’évolution des mots autours des mots clés selon les éditions, plusieurs
étapes sont donc nécessaires. En premier lieu, nous avons considéré ces mots clés comme des
individus statistique en leurs affectant comme variables les résumés dans lesquels ils apparaissent.
Comme nous le montre le Tableau 6.

26
Tableau 6 : L’individu mots clés topics

Ce tableau nous a permis de d’explorer les mots clés de diverse façon dont l’exploration une
analyse des correspondances que je vais vous détailler dans la partie qui suit.

Une fois le tableau des mots clés et les résumés à disposition, allons devoir construire un
tableau de contingence des mots clés qui sont identifiés avec les années des éditions est les mots des
résumés en nous servant de la fonction textual du package FactoMineR.

Ainsi, nous pouvons appliquer une analyse des correspondances à ce tableau de contingence
permettant d’avoir le Graphique 11 et le Graphique 12.

27
Graphique 11 : Dérive sémantique de sweetness

Graphique 12 : Dérive sémantique de consumer

28
8 Autres visions exploratoires du stage
8.1 La gestion des noms des auteurs
Comme nous l’avons vu plus haut, l’exploration des liaisons entre les auteurs fait aussi partie
de l’analyse bibliométrique. Étant donné que nos données nécessitent à chaque fois des étapes
supplémentaires de traitement avant d’être exploitées, compte tenu du peu de connaissance que
j’avais dans l’utilisation du langage de programmation R au début de mon stage je n’ai pas pu aller
jusqu’au bout de l’exploration des auteurs.

8.2 Le test sur des algorithmes de classification


Dans cette partie, nous asseyons également de voir comment classer les résumés avec
principalement trois algorithmes de classification (la méthode FactoMineR, la méthode Reinert, et la
méthode LDA). Pour donner un exemple, je vais vous expliquer en bref comment l’algorithme Reinert
classe les corpus textuels.

Les algorithmes de classification que nous avons testés se basent sur un tableau de contingence
des documents et avec les termes de ces documents, appelé couramment matrice documents termes.
Pour avoir cette matrice, nous avons d’abord appliqué la fonction tokens du package quanteda sur les
résumés de l’édition 2003 et nous avons utilisé ensuite la fonction dfm du même package. Après cela,
nous supprimons les termes de haute et de la faible fréquence avant d’utiliser la fonction rainette qui
va alors classer les résumés.

Le package Rainette offre aussi la possibilité de visualiser ces classification grâce à le fonction
rainette_explor que nous pouvons observer sur la Figure 4 et la Figure 5.

29
Figure 4 : Le dendrogramme de l’algorithme Rainette

Sur ce dendrogramme, nous pouvons voir l’ensemble des mots permettant à l’algorithme de
classer les résumés. Nous pouvons choisir le nombre des mots que nous voulons afficher sur le
dendrogramme.

Exploration des classes des résumés

Figure 5 : Les corpus et leurs classes

30
9 Conclusion
Pour comprendre les auteurs de notre nature, l'humanité a souvent eu besoin de l'observer,
de l'expérimenter par diverses méthodes scientifiques. Ces réalisations scientifiques peuvent être
documentées dans le but de garder une trace ou d’aider d'autres personnes qui travaillent sur le même
sujet à avoir un repère. En conséquence, une science appelée bibliométrie est chargée d'explorer ces
documents scientifiques dans le but de comprendre les évolutions du domaine qui est le sujet de cette
étude scientifique. Nous pouvons alors considérer la bibliométrie comme une science sur la science.

Nous avons vu plus haut que le congrès Pangborn est une conférence qui regroupe les
scientifiques qui travaillent dans le domaine des sciences sensorielles depuis sa première édition en
1993 et fournissent des résumés des différentes études qui ont été présentées à chaque édition. Ainsi,
pour apporter leurs aides à la prochaine édition qui aura lieu en France en 2023, Ronan Symoneaux,
et Sébastien Lê se sont proposés pour explorer les résumés des précédentes éditions. Ce qui a permis
d’initier le projet de mon stage.

Ma mission sur ces 10 semaines de stage est d’explorer les résumés qui ont été fournis lors
des éditions du congrès Pangborn et voir si nous pourrons tirer des informations pertinentes. Pour ce
faire, cette mission se divise en deux grandes parties. La partie data management qui consiste à traiter
ces données textuelles pour les rendre exploitable, et la deuxième partie de ma mission est plutôt
orientée sur le test des différentes possibilités d’exploration ou d’exploitation de ces données.

Du fait du peu d’expérience que j’avais en matière d’analyse de donnée textuelles, et en


particulier dans l’utilisation du langage de programmation R, les premières semaines de mon stage
étaient plus orientées sur la découverte des différentes fonctions de manipulation des chaines des
caractères et des packages qui sont orientés dans les traitements du langage naturel. L’expertise de
mon maitre de stage m’a alors permis de découvrir les outils comme le CRAN task view ou encore les
packages de tidytext.

Enfin, le travail réalisé nous a permis d’explorer plusieurs pistes d’exploration de ces données
au-delà d’une analyse bibliométrique classique.

31
10 Annexe

Annexe 1 : Extrait des résumés de l’édition 1995

32
Annexe 2 : la fonction de l’importation des textes sous Python

33
Annexe 3 : La fonction permettant d’avoir les mots clés et leurs occurrences selon les éditions

34
Annexe 4 : La fonction de l’extraction des pays

35
Annexe 5 : Extrait de la matrice des réseaux entre les pays

Annexe 6 : La fonction permettant de créer une nouvelle table avec un individu donnée

36
Annexe 7 : Organigramme de l’Institut Agro Rennes-Angers

37
11 Bibliographie

Références internet
https://cran.r-project.org/web/views/NaturalLanguageProcessing.html

https://www.tidytextmining.com/

https://juliasilge.shinyapps.io/learntidytext/#section-newspaper-headlines

https://fr.wikipedia.org/wiki/Bibliom%C3%A9trie

https://www.bibliometrix.org/home/

https://www.tidytextmining.com/topicmodeling.html

https://thinkr.fr/text-mining-n-gramme-avec-r/

https://juba.github.io/rainette/articles/introduction_usage.html

https://fr.acervolima.com/dessinez-plusieurs-series-chronologiques-dans-le-meme-trace-en-
r/

https://stt4230.rbind.io/tutoriels_etudiants/hiver_2015/graphique_temporel_ggplot2/

https://ggplot2.tidyverse.org/reference/scale_continuous.html

38
12 Lexique

Analyse sensorielle : discipline scientifique qui applique les principes de la conception


expérimentale et de l'analyse statistique à l'utilisation des sens humains ( la vue , l' odorat ,
le goût , le toucher et l'ouïe )

Bibliométrie : discipline qui étudie les sciences par le biais des documents sciatiques

Fonction : Processus informatique permettant d’accomplir une tâche donnée

Programmation : Ensemble des activités liées à la définition, l'écriture, la mise au point et


l'exécution de programmes informatiques

Langage de programmation : notation conventionnelle destinée à formuler des algorithmes et


produire des programmes informatiques

CRAN : Répertoire officiel des packages R

39
Table des annexes
Annexe 1 : Extrait des résumés de l’édition 1995 ................................................................................ 32
Annexe 2 : la fonction de l’importation des textes sous Python .......................................................... 33
Annexe 3 : La fonction permettant d’avoir les mots clés et leurs occurrences selon les éditions ........ 34
Annexe 4 : La fonction de l’extraction des pays ................................................................................... 35
Annexe 5 : Extrait de la matrice des réseaux entre les pays ................................................................. 36
Annexe 6 : La fonction permettant de créer une nouvelle table avec un individu donnée .................. 36
Annexe 7 : Organigramme de l’Institut Agro Rennes-Angers ............................................................... 37

40
Tables des figures
Figure 1 : Extrait de la liste du nom des pays ....................................................................................... 16
Figure 2 : Les mots clés avec espaces avant ou après la virgule ........................................................... 23
Figure 3 : les mots clés sans espace avant et après la virgule .............................................................. 23
Figure 4 : Le dendrogramme de l’algorithme Rainette ......................................................................... 30
Figure 5 : Les corpus et leurs classes .................................................................................................... 30

41
Table des tableaux
Tableau 1 : Le tableau des résumés et des métas données ................................................................. 14
Tableau 2 : extrait de la colonne affiliation et des années ................................................................... 15
Tableau 3 : Similarité entre les mots de l’affiliation et le nom des pays............................................... 17
Tableau 4 : La colonne des mots clés ................................................................................................... 23
Tableau 5 : Extrait du tableau des mots clés avec leurs occurrences selon les éditions ....................... 24
Tableau 6 : L’individu mots clés topics ................................................................................................. 27

42
Tables des graphiques
Graphique 1 : Évolution du nombre des résumés selon les éditions .................................................... 11
Graphique 2 : Le nombre des pays selon les éditions........................................................................... 18
Graphique 3 : Représentation des pays par rapport au nombre des résumés ..................................... 19
Graphique 4 : Le nombre des résumés des pays qui sont représentés sur toutes les éditions ............ 19
Graphique 5 : Le nombre relations selon les éditions .......................................................................... 20
Graphique 6 : Le réseau de collaboration entre les pays...................................................................... 21
Graphique 7 : Le nombre de collaboration par pays ............................................................................ 21
Graphique 8 : Le nombre des résumés n’ayant pas des mots clés selon les années ............................ 22
Graphique 9 : Représentation de la proportion des mots clés ............................................................. 25
Graphique 10 : La représentation des occurrences des mots clés ....................................................... 26
Graphique 11 : dérive sémantique de sweetness ................................................................................ 28
Graphique 12 : dérive sémantique de consumer ................................................................................. 28

43
13 Table des matières
1 Remerciements .............................................................................................................................. 4
2 Les sigles ......................................................................................................................................... 5
3 Sommaire ....................................................................................................................................... 6
4 Introduction ................................................................................................................................... 7
5 L’organisme d’accueil ..................................................................................................................... 9
5.1 L’Institut Agro Rennes-Angers, une école d’ingénieurs .......................................................... 9
5.2 Le département statistique et informatique .......................................................................... 9
6 Des résumés à leur analyse bibliométrique .................................................................................. 10
6.1 De la donnée brute à une donnée exploitable ..................................................................... 10
6.2 L’analyse des données textuelles (le traitement du langage naturel) .................................. 11
6.2.1 Qu’est-ce qu’une donnée ?........................................................................................... 11
6.2.2 Comment traiter et analyser une donnée textuelle (traitement du langage naturel) .. 11
6.2.3 Le traitement du langage naturel (NLP) avec R ............................................................. 12
7 La gestion et l’exploration des données ....................................................................................... 13
7.1 L’importation des données : une étape primordiale ............................................................ 13
7.2 La constitution d’une base de données : une question primaire .......................................... 14
7.3 La cartographie scientifique (science mapping) : une vision bibliométrique ........................ 14
7.3.1 La fonction de l’extraction de nom des pays ................................................................ 15
7.3.2 Les explorations possibles avec le nom des pays .......................................................... 17
7.3.2.1 Comment évolue le nombre des pays qui sont représentés au congrès Pangborn ? 17
7.3.2.2 Quelle est la distribution des résumés selon les pays participants ? ........................ 18
7.3.2.3 Comment représenter la collaboration entre les pays ? ........................................... 20
7.4 L’exploration par les mots clés, un autre aspect de la bibliométrie ..................................... 22
7.4.1 Comment se présente une ligne de mots clés ? ........................................................... 22
7.4.2 La fonction qui permet l’extraction de mots clés ......................................................... 23
7.4.3 Les exploitations possibles des mots clés ..................................................................... 24
7.4.4 Les mots clés topics ...................................................................................................... 25
7.4.5 La dérive sémantique ................................................................................................... 26
8 Autres visions exploratoires du stage ........................................................................................... 29
8.1 La gestion des noms des auteurs .......................................................................................... 29
8.2 Le test sur des algorithmes de classification......................................................................... 29
9 Conclusion .................................................................................................................................... 31
10 Annexe ..................................................................................................................................... 32
11 Bibliographie ............................................................................................................................ 38

44
12 Lexique ..................................................................................................................................... 39
13 Table des matières ................................................................................................................... 44
14 Résumé ..................................................................................................................................... 46
15 Summary .................................................................................................................................. 46

45
14 Résumé
Dans le cadre de l’accomplissement de mes deux années du DUT STID, j’ai eu l’opportunité
de faire mes 10 semaines de stage au sein du département statistique et Informatique de l’Institut
Agro Rennes-Angers.
Ayant pour mission d’explorer les résumés des éditions précédentes du congrès Pangborn,
ce stage peut être divisé en deux parties. Une partie axée sur le data management consiste à
traiter et à organiser les données afin de les rendre exploitables. Et une partie dite exploratoire
permettant de tester les différentes possibilités d’exploitation de visualisation de ces données.
Pour réaliser ces missions, j’ai utilisé en grande partie le langage de programmation R. Avant
d’appréhender le langage R, j’ai commencé par utiliser Python pour la partie importation. Et grâce
à l’expertise de mes maitres de stages, j’ai réussi à réaliser mes tâches du mieux possible.

Enfin, ce stage m’a permis de développer mes connaissances en programmation, surtout


avec le langage R. Il m’a également permis de mettre en pratique les connaissances que j’ai
acquises sur les deux ans de DUT dans un cadre professionnel.

Mots clés : Bibliométrie, traitement du langage naturel, données, texte, programmation,


graphique, analyse sensorielle, analyse, exploration, gestion de données, méthodes, tokeniser

15 Summary

As part of the completion of my two years of the DUT STID, I had the opportunity to do my
10 weeks of internship in the statistical and computer science department of the Institut Agro
Rennes-Angers.
With the mission of exploring the abstracts of previous editions of the Pangborn Congress,
this course can be divided into two parts. A part focused on data management is to process and
organize data to make it usable. And a so-called exploratory part to test the different possibilities
of exploitation of visualization of this data. To carry out these missions, I largely used the R
programming language. Before I understood the R language, I started by using Python for the
import part. And thanks to the expertise of my internship supervisors, I managed to carry out my
tasks as well as possible.
Finally, this internship allowed me to develop my knowledge of programming, especially
with the R language. It also allowed me to put into practice the knowledge I acquired over the two
years of DUT in a professional setting

Key words : Bibliometrics, natural language processing, data, text, programming, graphic,
sensory analysis, analysis, exploration, data management, methods, tokeniser

46

Vous aimerez peut-être aussi