Académique Documents
Professionnel Documents
Culture Documents
Chapitre2 - Word Embedding
Chapitre2 - Word Embedding
(Plongements de mots)
2
Ingénierie linguistique Master M2I 2023-2024 A. MAZROUI
Word embedding dense
❑ L'idée générale est de projeter les mots du vocabulaire V de taille n dans un espace
vectoriel continu où les vecteurs associés à ces mots ont une dimension p relativement
petite (vecteurs denses) (en général 100 ≤ 𝑑 ≤ 300).
❑ La vectorisation des mots doit être réalisée de sorte que les mots apparaissant dans des
contextes similaires aient des représentations vectorielles proches. Par exemple, les
mots ‘’heureux’’ et ‘’content’’ doivent être représentés par des vecteurs proches.
❑ Les opérations arithmétiques élémentaires doivent conserver leurs sens lorsqu’elles sont
appliquées sur ces vecteurs :
➢ Par exemple, si 𝑉𝑟𝑜𝑖𝑠 , 𝑉𝑟𝑒𝑖𝑛𝑒 , 𝑉ℎ𝑜𝑚𝑚𝑒 et 𝑉𝑓𝑒𝑚𝑚𝑒 sont les vecteurs qui représentent
respectivement les mots rois, reine, homme et femme, alors on devrait avoir :
𝑉𝑟𝑜𝑖𝑠 − 𝑉ℎ𝑜𝑚𝑚𝑒 + 𝑉𝑓𝑒𝑚𝑚𝑒 ≈ 𝑉𝑟𝑒𝑖𝑛𝑒 .
3
Ingénierie linguistique Master M2I 2023-2024 A. MAZROUI
Encodage Word2vec
3
Encodage Word2vec
Modèle CBOW
❑ Ce modèle est entraîné sur un corpus non étiqueté très volumineux.
❑ On commence par choisir la taille k (en général 2 ≤ 𝑘 ≤ 10) de la fenêtre définissant le
contexte.
❑ Si k=3, alors le contexte d’un mot dans une phrase est les trois mots le précédant et les trois
mots les succédant dans la phrase.
❑ Dans la phrase ‘’J’ai suivi des cours d’informatique à l’université Mohammed Premier’’, le
contexte du mot ‘’cours’’ avec une fenêtre de taille 3 est ‘’ai – suivi – des – de –
informatique – à’’.
❑ Ensuite, on construit un réseau de neurones artificiel avec une seule couche cachée où le
contexte d’un mot représente l’entrée et le mot représente la sortie.
4
Ingénierie linguistique Master M2I 2023-2024 A. MAZROUI
Encodage Word2vec
Modèle CBOW : Apprentissage
❑ Soit 𝐶 un corpus constitué de m phrases 𝑃ℎ𝑖 1≤𝑖≤𝑚 .
𝑥𝑡+1
où n est la taille de 𝑥𝑖 (taille du vocabulaire) et d est 𝑊
la taille des embeddings (à choisir entre 100 et 300). 𝑚𝑡+2 ⋮
⋮ 𝑥𝑡+2
4
Encodage Word2vec
Modèle CBOW
𝑥𝑡−2
𝑚𝑡−2 ⋮
❑ la couche cachée ℎ𝑡 est la somme pondérée des 𝑣𝑖 : ⋮
𝑓𝑡−2 + 𝑓𝑡−1 + 𝑓𝑡+1 + 𝑓𝑡+2 𝑊 𝑥𝑡−1
ℎ𝑡 = 𝑚𝑡
4
𝑦𝑡 𝑦𝑡
𝑚𝑡−1 ⋮ ℎ𝑡
❑ Ensuite, une opération linéaire par la matrice 𝑉 de ⋮ 𝑊
Softmax
taille (𝑑 × 𝑛) est appliquée à l’état cachée ℎ𝑡 pour ⋮ 𝑉 ⋮ ⋮
𝑊 ⋮ ⋮
obtenir le vecteur 𝑦𝑡 = 𝑉ℎ𝑡 . ⋮
𝑚𝑡+1
⋮ N-Dim V-Dim V-Dim
❑ Enfin, la fonction d’activation softmax est 𝑥𝑡+1
appliquée au vecteur 𝑦𝑡 pour obtenir le vecteur 𝑊
𝑚𝑡+2 ⋮
𝑦𝑡 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝑦𝑡 . ⋮ 𝑥𝑡+2
4
Encodage Word2vec
Modèle CBOW : fonction softmax
❑ La fonction softmax prend en entrée un vecteur de nombres réels 𝑥 = 𝑥𝑖 1≤𝑖≤𝑘
13
Ingénierie linguistique Master M2I 2023-2024 A. MAZROUI
Encodage Word2vec
Modèle CBOW : Apprentissage
❑ Soit 𝐶 un corpus constitué de m phrases 𝑃ℎ𝑗 1≤𝑖≤𝑚
.
𝑣1 𝑣2 𝑣𝑗 𝑣𝑛−1 𝑣𝑛
4
Ingénierie linguistique Master M2I 2023-2024 A. MAZROUI
Encodage Word2vec
Avantages
❑ Réduction de la dimensionnalité : Les vecteurs de Word2Vec ont généralement une
dimension ((en général 100 ≤ 𝑑 ≤ 300)) beaucoup plus faible que la représentation one-
hot traditionnelle des mots, ce qui réduit considérablement la complexité des données et
permet d'économiser des ressources computationnelles.
❑ Apprentissage non supervisé : Word2Vec utilise un modèle d'apprentissage non supervisé
pour apprendre les vecteurs de mots, ce qui rend son utilisation plus flexible et
économique.
❑ Capture des relations sémantiques : Word2Vec est capable de capturer des relations
sémantiques intéressantes entre les mots, telles que les relations de synonymie. En effet,
les mots synonymes sont en général présentés par des vecteurs proches.
4
Ingénierie linguistique Master M2I 2023-2024 A. MAZROUI
Encodage Word2vec
Inconvénients
❑ Incapacité à gérer la polysémie (un mot ayant plusieurs sens selon le contexte) :
Word2Vec ne peut pas différencier les différentes significations d'un mot qui a plusieurs
sens. Il attribue un seul vecteur au mot, ce qui peut entraîner des confusions dans les
contextes où le sens du mot varie.
❑ Manque de compréhension de la syntaxe : Bien que Word2Vec puisse capturer des
relations sémantiques simples entre les mots (synonymie), il a du mal à saisir des
relations plus complexes, telles que les relations syntaxiques.
❑ Nécessité d’une grandes quantités de données : Pour obtenir des vecteurs de mots de
haute qualité, Word2Vec nécessite des corpus de texte volumineux.
4
Ingénierie linguistique Master M2I 2023-2024 A. MAZROUI
Encodage Word2vec
Inconvénients
4
Ingénierie linguistique Master M2I 2023-2024 A. MAZROUI
Word Embedding
Autres modèles
❑ FastText (2016) : il a été développé par Facebook AI Research. Il a introduit la notion de sous-mots
(subword embeddings) pour faire face au problème du OOV.
❑ ELMo (Embeddings from Language Models) (2018) : est basé sur des modèles de langage
bidirectionnels profonds, et peut gérer la polysémie (embedding contextuel).
❑ BERT (Bidirectional Encoder Representations from Transformers) (2018) : c’est un word embedding
contextuel développé par Google AI, et utilisé dans la grande majorité des tâches du TALN.
❑ GPT (Generative Pre-trained Transformer) (2018 et suivants) : GPT-2 et GPT-3 sont des word
embedding contextuels puissants. Ils ont été intégrés dans les différentes versions du ChatGPT.
❑ Transformers multilingues : des modèles transformer multilingues comme mBERT et XLM-R ont
été développés récemment pour traiter plusieurs langues simultanément. Ils permettent de transférer
4
des connaissances entre différentes langues. Ingénierie linguistique Master M2I 2023-2024 A. MAZROUI
Merci pour votre attention