Vous êtes sur la page 1sur 89

UNIVERSITE IBN TOFAIL

FACULTE DES SCIENCES


KENITRA

MASTER:SCIENCES DES MATERIAUX

Projet Sous le Thème :


LA REGRESSION DES MOINDRE CARRES PARTIELS(PLS)

Encadré par :Pr. LATIFI MOHAMED


Réalisée par :Benhaimed amina
Lahbichi loubna

Année universitaire:2021-2022
Introduction
La méthode NIPALS
La régression PLS
La régression PLS1
La régression PLS2
Analyse discriminante PLS
Régression logistique PLS
INTRODUCTION
• La régression des moindres carrés partiels a été inventée en 1983 par Svante Wold et
son père Herman Wold ; on utilise fréquemment l'abréviation anglaise régression
PLS (« Partial Least Squares régression » et/ou « Projection to Latent Structure »)
• . La régression PLS est une technique pour modéliser une relation linéaire entre un
ensemble de variables réponses Y et un ensemble de variables explicatives X. Dans
un premier temps PLS crée des composantes non corrélées qui sont des
combinaisons linéaires des X avec des poids proportionnels à la covariance entre les
variables explicatives et les variables de réponse. Un modèle de régression linéaire est
ensuite construit sur ces composantes. Cela conduit à des coefficients biaisés mais
cohérents et plus stables qu’avec les moindres carrés ordinaires. C’est une technique
particulièrement utile en cas de forte multi colinéarité des descripteurs ou lorsque
le nombre de descripteurs excède le nombre d’individus comme c’est le cas par
exemple dans les applications en Chimiométrie (spectroscopie NIR) ou
Bioinformatique où on est confronté à des matrices très larges avec souvent des
milliers de variables pour seulement quelques dizaines d’individus, et où les
méthodes classiques deviennent inopérantes
• Pour réaliser la méthode PLS, Mini tab utilise l'algorithme
NIPALS (nonlinear itérative partial least squares) développé par
Herman Wold. Cet algorithme réduit le nombre de prédicteurs
en utilisant une technique semblable à l'analyse en
composantes principales pour extraire l'ensemble des
composantes qui décrit la corrélation maximum entre les
variables de prédiction et de réponse. La fonctionnalité PLS peut
calculer autant de composantes qu'il existe de prédicteurs ;
souvent, la validation croisée permet d'identifier le plus petit
ensemble de composantes qui offre la meilleure capacité de
prévision. Si vous calculez toutes les composantes possibles, le
modèle obtenu est équivalent au modèle que vous obtiendriez
à l'aide de la régression sur les moindres carrés.
. Dans la fonctionnalité PLS, les composantes sont sélectionnées
en fonction du degré de variance qu'elles expliquent d'une part
dans les prédicteurs, d'autre part entre les prédicteurs et la ou
les réponses. Si les prédicteurs sont fortement corrélés ou qu'un
plus petit nombre de composantes modélise parfaitement la
réponse, le nombre de composantes dans le modèle PLS peut
être largement inférieur au nombre de prédicteurs.

Contrairement à la régression sur les moindres carrés, la


fonctionnalité PLS peut ajuster plusieurs variables de réponse
dans un même modèle. Dans la mesure où la régression PLS
ajuste plusieurs variables de réponse de façon multi variée, les
résultats peuvent différer significativement de ceux calculés
individuellement pour les variables de réponse. Vous devez
modéliser plusieurs réponses séparément uniquement si les
réponses ne sont pas corrélées.
L’objectif de la régression PLS étant de combiner les
caractéristiques de l’analyse en composantes principales (ACP)
et celles de la régression afin de réaliser un compromis entre
maximisation de la variance expliquée par les variables   et
maximisation de leur corrélation avec  .

La régression PLS

Régression PLS1: un seul Y

Régression PLS2: plusieurs Y


La méthode NIPALS:

Analyse en composantes principales


• Possibilité de données manquantes.
• Validation croisée pour choisir le nombre de
composantes.
• Identification des outlier avec:
 une carte de contrôle des observations.
 des tests sur les écarts au modèle de l’ACP.
 L ’algorithme NIPALS Recherche
des composantes principales
Choix du nombre de composantes
Utilisation de NIPALS : Exemple voitures
Calcul de la limite de contrôle:
La régression PLS:
La régression PLS1:
Régression PLS1: Étape 1
Régression PLS1: Étape 2
Régression PLS1: Étapes suivantes
Calcul de RESSh et PRESSh à l’étape h
Choix du nombre de composantes
Variable Importance in the Prediction (VIP)
Régression PLS1 : Exemple Voitures Problèmes :
multi colinéarité, données manquantes
Régression multiple sur les données complètes
Corrélations entre les variables
Régression PLS sur les données incomplètes
Choix du nombre de composantes
Régression PLS sur les données incomplètes
Résultats de la validation croisée sur les
coefficients de régression PLS:
Résultats de la validation croisée sur les
coefficients de régression PLS :
Carte des variables:
Validation globale
intervalle de confiance à 95% du prix moyen
(fourni par SIMCA)
Intervalle de prévision à 95% du prix (à calculer)
Prédiction du prix de la HONDA CIVIC
(Problème : certains X sont manquants)
Prédiction du Prix de la HONDA CIVIC
Prédiction du Prix de la HONDA CIVIC :
calcul de tPS 1 (Honda Civic)
Régression PLS1 : Cas UOP Guided Wave
Problème : 226 variables X et 26 observations
Régression PLS1 : les résultats
UOP Guided Wave : Les composantes PLS
UOP Guided Wave : les composantes PLS
Cas UOP Guided Wave : Prévision Données de
calibration
Cas UOP Guided Wave : Prévision Données de
validation
La régression PLS2:
La régression PLS2 : une idée de l’algorithme
Variable Importance in the Prediction (VIP)
Régression PLS2 Exemple 1: Dégustation de thé
Cas Dégustation de thé
Cas Dégustation de thé: Résultats de la
régression PLS
Cas Dégustation de thé:
Carte des variables
Cas dégustation de thé: Visualisation de la
régression PLS de Y 1 sur X
Variable Importance in the Projection (VIP)
Analyse discriminante PLS
Analyse discriminante PLS : exemple
Les données:

• 16 biopsies de tumeurs de cerveau humain.


• Chaque tumeur est classée par un médecin
anatomopathologiste comme bénigne ou maligne.
• Chaque biopsie est analysée par chromatographie en phase
gazeuse : on obtient un profil métabolique de la biopsie formé
de 156 pics.
• Quelques données manquantes
Analyse discriminante PLS Profils métaboliques
des biopsies
Analyse discriminante PLS
Composantes PLS 1 et 2
Régression logistique PLS
• Bonne solution au problème de la multi colinéarité.

• Il peut y avoir beaucoup plus de variables que


d’observations.

• Il peut y avoir des données manquantes.

• Présentation de trois algorithmes


Qualité des vins de Bordeaux

Variables observées sur 34 années (1924 - 1957)

•TEMPERATURE : Somme des températures moyennes


journalières

• SOLEIL : Durée d’insolation

• CHALEUR : Nombre de jours de grande chaleur

• PLUIE : Hauteur des pluies

• QUALITE DU VIN : Bon, Moyen, Médiocre


Régression logistique ordinale
Régression logistique ordinale: Résultats SAS
Régression logistique ordinale: Qualité de
prévision du modèle
Régression logistique ordinale: Commentaires

• Le modèle à pentes égales est acceptable (p = 0.572).

• La chaleur a une influence positive sur la qualité du vin de


Bordeaux, alors qu’elle apparaît comme non significative et
avec un coefficient négatif dans le modèle.

• C ’est un problème de multi colinéarité.

• Il y a 7 années mal classées.


 Algorithme 1 : La régression logistique PLS
Régression logistique PLS
Étape 1
Régression logistique PLS
Étape 2
Régression logistique PLS
Choix du nombre de composantes
Régression logistique PLS
Résultats de l’algorithme
Régression logistique ordinale sur T 1, T 2
Résultats SAS
Régression logistique PLS Le
modèle
 Algorithme 2: Régression logistique sur
composantes PLS

(1) Régression PLS des indicatrices de Y


sur les X.

(2) Régression logistique de Y sur les


composantes PLS des X.
Régression logistique sur les composantes PLS
Résultats
Utilisation de la régression PLS pour la prévision
de la qualité du vin de Bordeaux
Résultats de la régression logistique de Y sur la
composante PLS t 1
Régression logistique sur composantes PLS
Le modèle
 Algorithme 3: (données groupées) Régression
PLS du logit de la variable de réponse sur les
prédicteurs
Une approche exploratoire
Résultat de la Régression PLS sur les logits
• Les deux algorithmes présentés devraient avoir des qualités
comparables.
• L ’algorithme 2 est beaucoup plus simple :
Deux étapes :

(1) Régression PLS des indicatrices de Y sur X

(2) Régression logistique de Y sur les composantes PL

• Le modèle linéaire généralisé PLS peut être construit selon les mêmes
procédures.
• Approche beaucoup plus simple que la méthode de Brian Marx

Vous aimerez peut-être aussi