Vous êtes sur la page 1sur 6

Détection automatique de phrases d’attitude

propositionnelle avec DependencyMatcher de


Spacy.
Devoir final pour le cours de traitement automatique des langues
de Monsieur Thierry Poibeau

Gonzalo Freijedo Aduna


April 2024

1 Presentation
Mon projet de recherche de première année de master consistait à étudier la
possibilité d’extraire des informations significatives sur la structure et le contenu
d’un ouvrage philosophique en ne considérant que les phrases d’attitude propo-
sitionnelle épistémique qui y figurent. Ces phrases sont sémantiquement intéres-
santes dans la mesure où elles encodent les différents niveaux de croyance et de
certitude d’un interlocuteur par rapport à une proposition donnée. Ainsi, dans
cette première étape, je me suis concentré sur les degrés de certitude des verbes
d’attitude propositionnelle et leur évolution dans un ouvrage particulièrement
riche en phrases d’attitude propositionnelle : les Méditations métaphysiques de
Descartes. Les résultats étaient prometteurs, montrant une courbe ascendante
des niveaux de certitude au fil de l’œuvre, comme prévu.
En suivant cette piste, je pense qu’il est possible d’aller plus loin et d’envi-
sager la possibilité de classer une œuvre dans l’une ou l’autre tradition philo-
sophique (par exemple, le rationalisme et l’empirisme dans la philosophie euro-
péenne des XVIIe et XVIIIe siècles) en analysant uniquement les phrases d’atti-
tude propositionnelle qu’elle contient. Pour ce faire, il faut tout d’abord procéder
à une analyse plus fine du phénomène. C’est-à-dire de ne pas se contenter de
retracer les degrés de certitude des verbes d’attitude propositionnelle, mais de
considérer également les propositions auxquelles ils sont liés.
À cette fin, je discute ci-dessous de l’utilisation d’un outil de traitement
automatique des langues pour la détection automatique des phrases d’attitude
propositionnelle et l’extraction de leurs éléments constitutifs, en évaluant sa
performance et en discutant ses limites.

1
2 Dependency Matcher de Spacy
L’objectif est alors de trouver les phrases d’attitude propositionnelle et d’en
extraire ses trois éléments principaux, à savoir : la source de l’attitude pro-
positionnelle (qui exprime l’attitude ?), le verbe de l’attitude propositionnelle
(déclencheur ) et la proposition qui est son complément (cible). Il est donc né-
cessaire de disposer d’un outil capable de reconnaître les structures syntaxiques
et d’effectuer l’analyse syntaxique. Les modèles de langue de Spacy, du moins
dans le cas du français, sont entraînés sur des corpus annotés selon le schéma des
dépendances universelles (appelés Treebanks) et sont donc en principe adaptés
à cette tâche.
Les phrases ciblées présentent les caractéristiques suivantes :
— Le verbe doit être conjugué à la première personne du singulier (bien
qu’il soit possible d’inclure la première personne du pluriel, à condition
qu’elle représente une attitude de l’auteur du texte).
— Le verbe doit être conjugué à l’indicatif.
— Il ne doit pas être nié.
— Il ne doit pas être régi par la marque du conditionnel « si ».
Ceci est lié au fait que je recherche des phrases dont les attitudes épisté-
miques sont effectivement celles de l’auteur du texte.

2.1 Règles de correspondance (pattern rules).


Une fois que le texte a été traité avec le modèle linguistique, Spacy crée
un objet contenant des annotations linguistiques pour chaque token du texte,
y compris le lemme, la partie du discours, la morphologie et la dépendance
syntaxique. Les règles de correspondance de la fonction DependencyMatcher de
Spacy sont définies sur la base de ces annotations linguistiques. Puisque dans
notre cas nous cherchons à extraire trois éléments, notre règle de correspondance
est constituée de 3 moments :
1. La recherche de tokens qui agissent comme des verbes, et qui font partie
d’une liste préalablement définie de verbes d’attitude propositionnels.
2. La recherche des pronoms dont le lemme est ’je’ (ou aussi, ’nous’) et qui
agissent comme sujet du verbe précédemment sélectionné.
3. La séquence de mots constituant la proposition qui est le complément
clausal du verbe précédemment sélectionné.

3 Performance et limitations
3.1 Détection de phrases d’attitude propositionnelle
Afin d’évaluer la performance du système, nous considérons une première
mesure qui concerne l’identification correcte de la phrase d’attitude proposi-
tionnelle, en comparant les prédictions du système avec les annotations qui
constituent la vérité de terrain.

2
D’une part, quel est le pourcentage des phrases retrouvées par le système
qui sont effectivement les phrases recherchées (précision). D’autre part, quel
est le pourcentage des phrases que le système était censé retrouver et qu’il a
effectivement retrouvées (rappel). L’« accuracy », quant à elle, mesure le rapport
entre la somme des phrases correctement identifiées et des phrases correctement
non identifiées et le nombre total de phrases dans le texte. Le score F1, quant à
lui, est la moyenne harmonique entre la précision et le rappel.

Metric Value
Accuracy 0.96
Precision 0.78
Recall 0.92
F1 Score 0.85

Table 1 – Mesures de Performance

Comme le montre le tableau 1, c’est la mesure de la précision qui donne


la valeur la plus faible. Cela signifie que le système génère du « bruit », c’est-
à-dire que son principal problème est de détecter des phrases qui ne sont pas
celles recherchées. Toutefois, il faut garder à l’esprit que dans ce type de tâche,
les mesures de précision et de rappel sont contrebalancées : c’est-à-dire qu’une
valeur élevée de précision entraîne généralement un faible niveau de rappel, et
vice versa. Dans notre cas et pour l’objectif que je poursuis, je considère qu’il
s’agit d’une valeur acceptable, surtout si l’on tient compte de la valeur élevée
du rappel. En fait, il est préférable de prendre en compte des phrases qui ne
sont pas celles que nous recherchons plutôt que de ne pas prendre en compte
des phrases qui sont celles que nous recherchons.

3.2 Extraction des éléments


Une autre mesure importante à prendre en compte est le pourcentage de
cibles (les propositions qui sont l’objet ou complément de l’attitude) qui sont
correctement extraites par le système.
Le système a extrait 85 cibles, dont 63 ont été correctement extraites, soit
74%. Les erreurs du système peuvent être divisées en 3 classes :
1. Le système a extrait plus que ce qu’il devait extraire (c’est-à-dire que la
proposition a été extraite mais avec des éléments qui la dépassent) : 10
cas.
2. Le système a extrait ce qu’il ne devait pas extraire (c’est-à-dire que ce
qui a été extrait n’est pas la proposition qui est la cible de l’attitude) : 8
cas.
3. Le système a extrait moins que ce qu’il devait extraire (c’est-à-dire que
la proposition a été extraite de manière incomplète) : 4 cas.
Ces difficultés s’expliquent en grande partie par les caractéristiques spéci-

3
fiques du texte étudié 1 . En effet, le texte présente de nombreuses phrases d’une
longueur considérable, avec de nombreux compléments, subordinations et tour-
nures temporelles. Cela a inévitablement des répercussions sur la capacité du
modèle linguistique à effectuer une analyse syntaxique correcte.

4 Solutions possibles
En parcourant les cas où le système n’a pas extrait correctement les cibles,
il est possible de remarquer deux situations.
Premièrement, les cas où la proposition extraite ne commence pas par le
pronom relatif "que" (4 cas). Cette situation peut être résolue systématiquement
en filtrant ce type de constructions.
Deuxièmement, sur les 22 erreurs dans l’extraction des cibles, 8 d’entre elles
se produisent dans des phrases d’attitude propositionnelle détectées 2 fois. Bien
que le fait qu’une phrase ait été détectée deux fois ne soit pas nécessairement une
erreur, puisqu’il existe des phrases dans lesquelles nous trouvons deux verbes
d’attitude propositionnelle avec leurs compléments respectifs, il en résulte une
erreur lorsqu’un même verbe est associé à deux compléments différents. La so-
lution dans ce type de cas est plus artisanale que systématique, et consiste à
vérifier une à une les phrases détectées plusieurs fois, et à vérifier si l’extraction
du complément a été faite correctement ou non. Bien que cela ne résolve pas
définitivement les problèmes, cela permet de réduire considérablement la marge
d’erreur.

5 Demarche a suivre
Selon l’hypothèse de la sémantique distributionnelle, le sens d’un mot est
déterminé par son contexte. Ainsi, deux mots qui apparaissent habituellement
dans le même contexte ont un sens plus proche que deux mots qui apparaissent
habituellement dans des contextes différents. Les modèles linguistiques utilisés
ont une représentation vectorielle multidimensionnelle des mots, de sorte que la
similarité sémantique de deux mots peut être calculée comme la distance entre
leurs vecteurs respectifs. À son tour, il est possible de calculer la représenta-
tion vectorielle d’une phrase comme la moyenne des vecteurs des mots qu’elle
contient.
Comme je l’ai indiqué dans la présentation, l’un des objectifs est de vérifier
s’il est possible de classer un texte dans une tradition philosophique en tenant
compte uniquement des phrases d’attitude propositionnelle qu’il contient. Un
premier pas dans cette direction consiste à calculer la similarité sémantique des
propositions qui servent d’objets aux différents verbes d’attitude proposition-
nelle.
1. On peut même dire que la décision de prendre la phrase comme unité minimale du dis-
cours peut être problématique pour ce type de texte, comme on le discutera dans la rédaction
du mémoire.

4
Figure 1 – Visualisation de la similarité sémantique de toutes les propositions.

Dans le cadre d’un essai purement exploratoire, j’ai pris deux textes : les
Méditations métaphysiques de Descartes et Enquête sur l’entendement humain
de Hume.
Comme le montre la figure 1, bien qu’il existe une zone de propositions appar-
tenant exclusivement au texte de Descartes, il n’est pas possible de distinguer
les propositions comme appartenant à l’un ou l’autre philosophe uniquement
en tenant compte de leur représentation vectorielle. Mais cela est normal dans
la mesure où nous ne distinguons pas entre différents types d’attitude propo-
sitionnelle. En effet, une hypothèse sous-jacente du présent travail est que les
philosophes appartenant à des traditions différentes auront des attitudes pro-
positionnelles différentes par rapport à des sujets similaires, et des attitudes
propositionnelles similaires par rapport à des sujets différents.
Il est donc nécessaire de visualiser les représentations vectorielles des pro-
positions, mais de procéder à une catégorisation préalable des attitudes propo-
sitionnelles. Là encore, dans le cadre d’un essai exploratoire, nous distinguons
deux types de verbes d’attitude propositionnelle : les factifs (ceux qui impliquent
la vérité de la proposition qu’ils régissent, comme par exemple : "savoir") et les
non-factifs (ceux qui n’impliquent pas la vérité de la proposition qu’ils régissent,
comme par exemple : "penser" ou "supposer").
Comme le montre la figure 2, dans le cas des propositions régies par des
verbes factifs, les mêmes résultats semblent se reproduire que dans la figure 1,
mais avec une zone "cartésienne" ou "rationaliste" légèrement mieux délimitée.
En revanche, dans le cas des verbes non factifs, il est possible de distinguer
deux groupes clairement délimités. En tout état de cause, l’interprétation de ces
résultats est subordonnée à la vérification ou non de ces tendances une fois que
toutes les œuvres choisies auront été incorporées.

5
Figure 2 – À gauche : Visualisation de la similarité sémantique des propositions
régies par des verbes factifs. À droite : Visualisation de la similarité sémantique
des propositions régies par des verbes non-factifs.

Vous aimerez peut-être aussi