Académique Documents
Professionnel Documents
Culture Documents
1 Presentation
Mon projet de recherche de première année de master consistait à étudier la
possibilité d’extraire des informations significatives sur la structure et le contenu
d’un ouvrage philosophique en ne considérant que les phrases d’attitude propo-
sitionnelle épistémique qui y figurent. Ces phrases sont sémantiquement intéres-
santes dans la mesure où elles encodent les différents niveaux de croyance et de
certitude d’un interlocuteur par rapport à une proposition donnée. Ainsi, dans
cette première étape, je me suis concentré sur les degrés de certitude des verbes
d’attitude propositionnelle et leur évolution dans un ouvrage particulièrement
riche en phrases d’attitude propositionnelle : les Méditations métaphysiques de
Descartes. Les résultats étaient prometteurs, montrant une courbe ascendante
des niveaux de certitude au fil de l’œuvre, comme prévu.
En suivant cette piste, je pense qu’il est possible d’aller plus loin et d’envi-
sager la possibilité de classer une œuvre dans l’une ou l’autre tradition philo-
sophique (par exemple, le rationalisme et l’empirisme dans la philosophie euro-
péenne des XVIIe et XVIIIe siècles) en analysant uniquement les phrases d’atti-
tude propositionnelle qu’elle contient. Pour ce faire, il faut tout d’abord procéder
à une analyse plus fine du phénomène. C’est-à-dire de ne pas se contenter de
retracer les degrés de certitude des verbes d’attitude propositionnelle, mais de
considérer également les propositions auxquelles ils sont liés.
À cette fin, je discute ci-dessous de l’utilisation d’un outil de traitement
automatique des langues pour la détection automatique des phrases d’attitude
propositionnelle et l’extraction de leurs éléments constitutifs, en évaluant sa
performance et en discutant ses limites.
1
2 Dependency Matcher de Spacy
L’objectif est alors de trouver les phrases d’attitude propositionnelle et d’en
extraire ses trois éléments principaux, à savoir : la source de l’attitude pro-
positionnelle (qui exprime l’attitude ?), le verbe de l’attitude propositionnelle
(déclencheur ) et la proposition qui est son complément (cible). Il est donc né-
cessaire de disposer d’un outil capable de reconnaître les structures syntaxiques
et d’effectuer l’analyse syntaxique. Les modèles de langue de Spacy, du moins
dans le cas du français, sont entraînés sur des corpus annotés selon le schéma des
dépendances universelles (appelés Treebanks) et sont donc en principe adaptés
à cette tâche.
Les phrases ciblées présentent les caractéristiques suivantes :
— Le verbe doit être conjugué à la première personne du singulier (bien
qu’il soit possible d’inclure la première personne du pluriel, à condition
qu’elle représente une attitude de l’auteur du texte).
— Le verbe doit être conjugué à l’indicatif.
— Il ne doit pas être nié.
— Il ne doit pas être régi par la marque du conditionnel « si ».
Ceci est lié au fait que je recherche des phrases dont les attitudes épisté-
miques sont effectivement celles de l’auteur du texte.
3 Performance et limitations
3.1 Détection de phrases d’attitude propositionnelle
Afin d’évaluer la performance du système, nous considérons une première
mesure qui concerne l’identification correcte de la phrase d’attitude proposi-
tionnelle, en comparant les prédictions du système avec les annotations qui
constituent la vérité de terrain.
2
D’une part, quel est le pourcentage des phrases retrouvées par le système
qui sont effectivement les phrases recherchées (précision). D’autre part, quel
est le pourcentage des phrases que le système était censé retrouver et qu’il a
effectivement retrouvées (rappel). L’« accuracy », quant à elle, mesure le rapport
entre la somme des phrases correctement identifiées et des phrases correctement
non identifiées et le nombre total de phrases dans le texte. Le score F1, quant à
lui, est la moyenne harmonique entre la précision et le rappel.
Metric Value
Accuracy 0.96
Precision 0.78
Recall 0.92
F1 Score 0.85
3
fiques du texte étudié 1 . En effet, le texte présente de nombreuses phrases d’une
longueur considérable, avec de nombreux compléments, subordinations et tour-
nures temporelles. Cela a inévitablement des répercussions sur la capacité du
modèle linguistique à effectuer une analyse syntaxique correcte.
4 Solutions possibles
En parcourant les cas où le système n’a pas extrait correctement les cibles,
il est possible de remarquer deux situations.
Premièrement, les cas où la proposition extraite ne commence pas par le
pronom relatif "que" (4 cas). Cette situation peut être résolue systématiquement
en filtrant ce type de constructions.
Deuxièmement, sur les 22 erreurs dans l’extraction des cibles, 8 d’entre elles
se produisent dans des phrases d’attitude propositionnelle détectées 2 fois. Bien
que le fait qu’une phrase ait été détectée deux fois ne soit pas nécessairement une
erreur, puisqu’il existe des phrases dans lesquelles nous trouvons deux verbes
d’attitude propositionnelle avec leurs compléments respectifs, il en résulte une
erreur lorsqu’un même verbe est associé à deux compléments différents. La so-
lution dans ce type de cas est plus artisanale que systématique, et consiste à
vérifier une à une les phrases détectées plusieurs fois, et à vérifier si l’extraction
du complément a été faite correctement ou non. Bien que cela ne résolve pas
définitivement les problèmes, cela permet de réduire considérablement la marge
d’erreur.
5 Demarche a suivre
Selon l’hypothèse de la sémantique distributionnelle, le sens d’un mot est
déterminé par son contexte. Ainsi, deux mots qui apparaissent habituellement
dans le même contexte ont un sens plus proche que deux mots qui apparaissent
habituellement dans des contextes différents. Les modèles linguistiques utilisés
ont une représentation vectorielle multidimensionnelle des mots, de sorte que la
similarité sémantique de deux mots peut être calculée comme la distance entre
leurs vecteurs respectifs. À son tour, il est possible de calculer la représenta-
tion vectorielle d’une phrase comme la moyenne des vecteurs des mots qu’elle
contient.
Comme je l’ai indiqué dans la présentation, l’un des objectifs est de vérifier
s’il est possible de classer un texte dans une tradition philosophique en tenant
compte uniquement des phrases d’attitude propositionnelle qu’il contient. Un
premier pas dans cette direction consiste à calculer la similarité sémantique des
propositions qui servent d’objets aux différents verbes d’attitude proposition-
nelle.
1. On peut même dire que la décision de prendre la phrase comme unité minimale du dis-
cours peut être problématique pour ce type de texte, comme on le discutera dans la rédaction
du mémoire.
4
Figure 1 – Visualisation de la similarité sémantique de toutes les propositions.
Dans le cadre d’un essai purement exploratoire, j’ai pris deux textes : les
Méditations métaphysiques de Descartes et Enquête sur l’entendement humain
de Hume.
Comme le montre la figure 1, bien qu’il existe une zone de propositions appar-
tenant exclusivement au texte de Descartes, il n’est pas possible de distinguer
les propositions comme appartenant à l’un ou l’autre philosophe uniquement
en tenant compte de leur représentation vectorielle. Mais cela est normal dans
la mesure où nous ne distinguons pas entre différents types d’attitude propo-
sitionnelle. En effet, une hypothèse sous-jacente du présent travail est que les
philosophes appartenant à des traditions différentes auront des attitudes pro-
positionnelles différentes par rapport à des sujets similaires, et des attitudes
propositionnelles similaires par rapport à des sujets différents.
Il est donc nécessaire de visualiser les représentations vectorielles des pro-
positions, mais de procéder à une catégorisation préalable des attitudes propo-
sitionnelles. Là encore, dans le cadre d’un essai exploratoire, nous distinguons
deux types de verbes d’attitude propositionnelle : les factifs (ceux qui impliquent
la vérité de la proposition qu’ils régissent, comme par exemple : "savoir") et les
non-factifs (ceux qui n’impliquent pas la vérité de la proposition qu’ils régissent,
comme par exemple : "penser" ou "supposer").
Comme le montre la figure 2, dans le cas des propositions régies par des
verbes factifs, les mêmes résultats semblent se reproduire que dans la figure 1,
mais avec une zone "cartésienne" ou "rationaliste" légèrement mieux délimitée.
En revanche, dans le cas des verbes non factifs, il est possible de distinguer
deux groupes clairement délimités. En tout état de cause, l’interprétation de ces
résultats est subordonnée à la vérification ou non de ces tendances une fois que
toutes les œuvres choisies auront été incorporées.
5
Figure 2 – À gauche : Visualisation de la similarité sémantique des propositions
régies par des verbes factifs. À droite : Visualisation de la similarité sémantique
des propositions régies par des verbes non-factifs.