Académique Documents
Professionnel Documents
Culture Documents
Stanislas Morbieu
1
Sommaire
1. Notions principales
2. Entraînements et prédiction
3. Modèles GPT
3
1. Notions principales
a. IA générative
b. Modèles de langage
Sommaire
c. Modèles discriminatifs
d. Modèles génératifs
f. Mécanisme d’attention
g. Transformers
h. Modèle de fondation
2. Entraînements et prédiction
3. Modèles GPT
■ Cependant, générer de nouvelles données est l’essence même de tout algorithme d’apprentissage automatique.
○ Dans un problème de classification supervisée, on cherche à générer des numéros de classes à associer aux données qui n’en
ont pas. Par exemple, lors de la détection de fraudes ou d’anomalies, on cherche à générer les étiquettes « fraude », « non
fraude » et éventuellement « suspicion de fraude » pour chaque événement.
○ Dans un problème de régression, on cherche à générer une valeur d’une variable cible : Cette valeur générée peut
correspondre à une valeur physique comme la température de chauffe qui permettrait de garder un bâtiment à une température
idéale. Elle peut aussi correspondre à un score de confiance, de risque ou de priorité.
○ Pour de la recommandation par filtrage collaboratif, on cherche à générer la note qu’aurait mis l’utilisateur aux produits qu’il n’a
pas encore notés.
○ Dans le cas de ChatGPT, on cherche à générer une séquence de mots (la réponse de ChatGPT) à partir d’une autre séquence
de mots (la question qu’on lui pose)…
■ Références :
○ Popularisation de l’IA générative auprès du grand public :
■ Goodfellow, Ian, et al. "Generative adversarial nets." Advances in neural information processing systems 27 (2014).
○ Just for fun :
■ Albanie, Samuel, Sébastien Ehrhardt, and Joao F. Henriques. "Stopping gan violence: Generative unadversarial networks."
arXiv preprint arXiv:1703.02528 (2017).
5
Modèles de langage
Notions principales
6
Modèles discriminatifs
Notions principales
■ Dans le cas de ChatGPT, on cherche à générer une séquence de mots (la réponse de ChatGPT) à partir d’une autre
séquence de mots (la question qu’on lui pose)…
Cet exemple est une tâche que l’on appelle souvent « sequence to sequence ». Si on note x la question et y la
réponse, on peut dire qu’on observe la valeur x et qu’on cherche à prédire la valeur y. D’un point de vue probabiliste,
on peut dire que x est la valeur prise par une variable aléatoire X. De la même manière, y est la valeur (inconnue) que
prend la variable aléatoire Y. Le problème de « sequence to sequence » consiste à estimer la probabilité d’avoir la
variable aléatoire Y égale à y sachant que la variable aléatoire X vaut x. En notation mathématique, on cherche à
estimer P(Y | X = x) que l’on appelle probabilité conditionnelle.
■ Évaluer la probabilité conditionnelle est l’objectif (probabiliste) des modèles dits discriminatifs.
7
Modèles génératifs
Notions principales
8
Large Language Models
Notions principales
9
Mécanisme d’attention
Notions principales
10
Transformers
Notions principales
■ x
■ Référence :
○ Vaswani, Ashish, et al. "Attention is all you need."
Advances in neural information processing systems 30
(2017).
○ Phuong, Mary, and Marcus Hutter. "Formal algorithms for
transformers." arXiv preprint arXiv:2207.09238 (2022).
11
Modèle de fondation
Notions principales
12
Entraînement et
prédiction
13
1. Notions principales
2. Entraînements et prédiction
a. Entraînement
Sommaire
b. Pré-entraînement
c. Fine Tuning
f. In Context Learning
3. Modèles GPT
15
Pré-entraînement
Entraînements et prédiction
■ Le pré-entraînement consiste à entraîner le modèle sur une autre tâche en amont de celle désirée.
■ Par exemple, on cherche à modéliser le langage naturel.
■ Si on note « s » une séquence de mots et qu’on la représente par une variable aléatoire S, on peut chercher à trouver
les paramètres θ d’un modèle de sorte à maximiser la vraisemblance, c’est-à-dire à maximiser la probabilité d’obtenir la
séquence de mots en considérant qu’on connaît les valeurs des paramètres : P(S ; θ).
■ Alternativement, on peut dire qu’on maximise la probabilité d’avoir en même temps le premier mot w1, le deuxième w2,
le troisième w3 etc. C’est ce qu’on appelle une probabilité jointe : P(w1, w2, w3…). On retrouve donc ici la définition
d’un modèle génératif : estimer la probabilité jointe.
■ La première formule représente cette probabilité jointe mais est exprimée comme un produit de probabilités
conditionnelles pour la présenter sous la forme d’un modèle autorégressif unidirectionnel. Il ne s’agit donc pas ici d’un
modèle discriminatif comme peut le laisser penser à première vue la formule.
16
Fine Tuning
Entraînements et prédiction
17
Apprentissage par transfert
Entraînements et prédiction
18
Apprentissage par renforcement
Entraînements et prédiction
19
In Context Learning
Entraînements et prédiction
20
Modèles GPT
21
1. Notions principales
2. Entraînements et prédiction
3. Modèles GPT
Sommaire
a. GPT
b. GPT 2
c. GPT 3
d. InstructGPT
e. ChatGPT
f. GPT 4
23