Vous êtes sur la page 1sur 31

Analyse des données Faculté des sciences Semlalia

Licence professionnelle électrotechnique et électronique industrielle

Présenté par : YOUSSEF ELLABIB


2023/2024
Introduction

L'analyse en composantes principales (ACP) est


une technique statistique utilisée pour réduire la
dimensionnalité des données tout en préservant
autant d'informations que possible. L'objectif
principal de l'ACP est de transformer un grand
nombre de variables corrélées en un plus petit
nombre de variables non corrélées appelées
composantes principales.
Données :
• n individus observés sur p variables
quantitatives.
• L’A.C.P. permet d’explorer les liaisons entre
variables et les ressemblances entre individus.
Résultats :
• Visualisation des individus (Notion de distances
entre individus)
• Visualisation des variables (en fonction de leurs
corrélations)
L’ANALYSE EN COMPOSANTES PRINCIPALES LE
PROBLÈME

LES DONNÉES
p variables quantitatives observées sur n individus.
On cherche à représenter le nuage des individus.

A chaque individu présenté par un point


𝑅 𝑝 = espace des individus.
A chaque variable du tableau X est associé un axe de 𝑅 𝑝 .
PRINCIPE DE L’A.C.P.

• On cherche une représentation des n individus , dans un sous-


espace F k de Rp de dimension k ( k petit 2, 3 …; par exemple un
plan) Autrement dit, on cherche à définir k nouvelles variables
combinaisons linéaires des p variables initiales qui feront perdre
le moins d’information possible.
• les variables seront appelées «composantes principales »

• les axes qu’elles déterminent : « axes principaux »

• les formes linéaires associées : « facteurs principaux »


Données centrées

Si la moyen est
nul on dit que les
données sont
centrées
Si on calcule la moyen par colonne on la trouve
égale a zéro
 donc les variables devinent centrées
Ecart-type

On dit que les données


sont réduites si l’Ecart-
type =1

Formule :
Données centrées-réduites

 si l'on ne réduit pas le nuage : une variable à forte variance va


« tirer » tout l'effet de l'ACP à elle
Objectifs
Nous considérons X centrée-réduite (ACP normée)
• Le tableau X peut être analysé à travers ses lignes (les
individus) ou à travers ses colonnes (les variables)
⇒ résumer l’information en gardant à l’esprit cette dualité
⇒ former des groupes d’individus semblables
Termes clé : ressemblance
⇒ former des groupes de variables liées
Termes clé : liaison - corrélation

Dualité : Quelles (groupes de) variables expliquent le plus la


variabilité inter-individus ?
Nuage Np des individus : n points de 𝑹𝒑

• Un individu ( ligne) est un point de 𝑅𝑝 (espace à p dimensions)


• Nuage Np des individus : nuage de n points dans 𝑅 𝑝
• La “ligne” moyenne est le centre de gravité G du nuage
• Analogie avec la géométrie de 𝑅 2 , 𝑅 3
Information
 Identification des groupes de points proches
 Identification de points isolés
⇒ dans quelles directions (individu sur quelles variables) ?
 Identification de la forme du nuage
 Des directions d’allongements en particulier
⇒ concept clé : distances entre points
Distance dans 𝑹 𝒑

• Analogie pour calculer la distance entre points


de 𝑅 𝑝 :
• Une quantification de l’information sur l’ensemble des
distances : la somme (des carrés) des distances au centre de
gravité :

Nuage Nn des variables : p vecteurs de Rn

Une variable (mois - colonne) est ici


considérée comme un vecteur de Rn
• Nuage Nn des variables : p vecteurs
dans Rn
• Chaque axe est associé à un individu
(ville) :
Coefficient de corrélation
Rappel (coefficient de) corrélation de 2 variables :

C’est le produit scalaire des deux colonnes centrées-


réduites associées (à 1/n près) :
Interprétation
X centrée-réduite ⇒ les colonnes ont même norme (≡ norme 1)
• Les p colonnes sont alors dans une (hyper)sphère (de rayon 1)
• L’angle formé par les vecteurs colonnes renseignent la
corrélation sur les variables
Inertie
L’inertie I des données est (à 1/n près) la somme des carrés des cellules de X
centrée-réduite

 C’est la somme (à 1/n près) des carrés des distances au centre de gravité pour
tous les individus
 Quantification de l’information portée par les données
⇒ renseigne sur la “forme” du nuage des individus
Décomposition de l’inertie
• Idée : construction d’une suite de p axes permettant de restituer la forme
du nuage
• Construction itérative
• On en déduit des représentations planes simples à interpréter
• Principe de réduction de la dimension
• Basé sur la décomposition de l’inertie
1 er axe : Axe principal de variabilité du nuage
Direction de Rp qui maximise l’inertie projetée :
On cherche ensuite un axe u2, orthogonal à u1, qui
maximise l’inertie projetée
• C’est le second axe de variabilité du nuage
• Ce 2ém axe présente moins de variabilité que le
précédent
On itère le procédé en cherchant u3 orthogonal au plan u1, u2 qui
maximise l’inertie projetée
• Jusqu’à obtenir p axes orthogonaux
• La part d’inertie projetée sur chaque axe donne la part de
variabilité restituée :
% inertie

axes
Plan factoriel
 On privilégie les représentations planes en projetant les
individus sur les plans formés par les axes
 La projection orthogonale sur le plan formé par u1 et u2 est
la meilleure représentation plane du nuage des individus
 Il concentre 98% de l’inertie
Cercle des corrélations
• Les axes factoriels sont
• des combinaisons linéaires des colonnes de X
• sont des vecteurs de Rn
• orthogonaux 2 à 2
• Les cercles de corrélations représentent les projections des
colonnes de X sur les plans formés par ces axes
Aide à l’interprétation
Exemple : effet taille
• Toutes les variables sont corrélées positivement : effet taille
⇒ la plupart des villes sont ou chaudes ou froides toute l’année
Simulation sur SPSS
Présentation de l'étude de positionnement
sur le marché

introduction
L'entreprise LP-EEI cherche à établir sa position sur le marché
actuel, caractérisé par une concurrence intense et des attentes
changeantes des consommateurs. Pour cela, une analyse
approfondie des facteurs de succès et des tendances du marché
est essentielle.
Objectif de l'étude

L'objectif de cette étude est d'identifier les composantes


principales du marché qui influencent la réussite des entreprises,
afin d'aider Lp-EEI à élaborer une stratégie de positionnement
efficace et durable.

Méthodologie
Nous avons utilisé la méthode des composantes
principales (PCA) pour analyser un ensemble de données
comprenant des informations sur les acteurs du marché, les
produits, les prix, les canaux de distribution et les préférences
des consommateurs.
Simulation

Vous aimerez peut-être aussi