Académique Documents
Professionnel Documents
Culture Documents
Université Hassan II
Faculté des sciences Ain Chock
Casablanca
Samira EL MOUMEN
selmoumen@yahoo.fr
Analyse des données 2
Introduction
La statistique est une méthode scientifique qui consiste à réunir des données chiffrées
sur des ensembles nombreux, les organiser, les résumer puis les analyser, les
commenter et les critiquer.
Analyse des données 3
Introduction
Statistique
Introduction
Exemple1:
Calculer la durée de vie moyenne des ampoules de certain production
Problème
Population infini
Analyse des données 5
Introduction
Solution
Considérer un échantillon
Introduction
Exemple 2:
Solution:
AD
Evolue
Complexité des données L’évolution de l’outil informatique
Analyse des données 7
Méthodes factorielles
Ce sont des méthodes qui s’applique à des tableaux de type (Individu/Variable)
X1 ……………………………..Xp
1
.
. X(i)
i
.
.
n
Analyse des données 8
Méthodes factorielles
Ces méthodes qui s’applique à des tableaux, cherchent à réduire ces tableaux
synthétiquement en associant des représentations graphiques qui facilite la lecture et
l’interprétation selon:
La définition de l’information (objectif)
Type de données
Et on distinguant:
• Analyse en composantes principales ACP
• Analyse Factorielles des Correspondances AFC
• Analyse des Correspondances Multiple ACM
Analyse des données 9
Méthodes décisionnelles
Variable Explicatives
Prédire la variable
Régression
aléatoire dépendante
Variable à expliquée
(dépendante)
Analyse des données 10
Méthode de classification
Objectif:
Définir des classes homogène au niveau d’individus décrits par des variables
Analyse des données 11
L’outil informatique
Le logiciel SPSS
Analyse des données 12
Méthodes factorielles
Réduction de dimensions
F1
P_Ahmed P_Marwa P_ Farid P_Kawtar P_Anis P_Nadia
1D
2D
Analyse des données 13
Méthodes factorielles
Réduction de dimensions
3D 2D
Analyse des données 14
Méthodes factorielles
X IR15714
Analyse des données 15
Méthodes factorielles
Visualisation des données
xi
X IR1572
Analyse des données 16
Méthodes factorielles
Principe
Analyse factorielle
Factor analysis
Visualisation des
données dans le
meilleur espace réduit
Analyse des données 17
ACP
Nature des Données
x : Tableau de données
Variables quantitatives
1 j p xij : Valeur de la ième observation
pour la jème variable
1
xi :ième observation du tableau
p : nombre de variables
n
Analyse des données 18
ACP
ACP
1 x j p
1
Notations
• Observation (individu) : xi IR
p
ACP
Nuage des individus NI
x j NI
1 j p p
IR •
1 d 2 ( i, l ) • xl
•
• • xi
•g
• •
xi i xi1 xij xip • • •
O
xj xij xlj j
n
g d 2 ( i, l ) ( xij xlj ) 2
x1 xj xp j
N I xi IR p i 1,.....,n Nuage de points associé aux données.
n
1
g est le centre de gravité du nuage NI , avec g j
n
x
i 1
ij
Analyse des données 21
ACP
Centrage et réduction
NI
1 j p p
IR
•
1 •
• • • xi
•g
xi xi1 xij xip • •
i
•
O
xj xij j
n
g x1 xj xp
Analyse des données 22
ACP
Centrage et réduction
Poids (kg)
Afin de donner aux variables la même importance
on centre et on réduit les variables initiales.
X ij X j
X ij
Sj
Analyse des données 23
ACP
Centrage et réduction
NI
p
IR
X ij X j •
X ij
Sj •
• • • xi
•g
• •
La dispersion du nuage autour de son •
centre de gravité est mesurée par
l’inertie du nuage qui correspond à la O
somme des variances des variables xj xij j
initiales.
Analyse des données 24
ACP
Principe
ACP
Exemple de réflexion IR p
F2 NI
• u1, u2 : vecteurs orthonormés (axes F1 et
F2). Projeter les données sur l’espace u2 • xi • F1
•
engendré par u1 et u2 •
u1 hi
O=g
• • •
• Quel est le meilleur sous-espace de •
dimension 1 ? •
ACP
Procédure
• xi • F1
• Contrainte : •
• u1
hi
O=g
1- U T U I • • •
•
•
uiT u j 0 i j
Analyse des données 27
• Le kième axe factoriel est le vecteur unitaire uk tel que la variance de
ck X uk soit maximale et que uk soit orthogonal aux k-1 premiers
axes factoriels.
Analyse des données 28
Formulation du problème
Formulation du problème
IR p
Trouver u 1 le vecteur directeur de F1 qui NI
• xi • F1
• u
1 n •
max Ohi hi 1
2
u n i 1 O=g
(*) • • •
•
•
uT1 u1 1
Analyse des données 30
Formulation du problème
1 n T
max u1 xi xiTu1
u1 n
i 1
(*)
sous la contrainte u1u1 1
T
Solution:
Le premier axe factoriel u1 est le vecteur propre associé à la plus grande valeur
propre de la matrice de covariance .
Analyse des données 31
Formulation du problème
kième axe factoriel
Lemme
Le sous-espace de dimension k minimisant l’erreur quadratique d’estimation des
données contient nécessairement le sous-espace de dimension k -1.
Calcul du deuxième axe factoriel u2 sachant que u1 est connu
On cherche un vecteur unitaire u2 qui maximise la variance uT2 u2 et qui soit
orthogonal au vecteur u1 .
On démontre que u2 est le vecteur propre associé à 2 , la seconde plus grande
valeur propre de .
Analyse des données 32
Formulation du problème
IR p
u1 P
Algorithme
X ij X j
1. Centrer les données et les réduire : X ij
S
2. Calculer la matrice de covariance j
• Les valeurs propres de sont positives car est une matrice semi-definie positive;
• L’axe factoriel F1passe par le centre de gravité O du nuage de points NI;
• L'axe F1est engendré par le vecteur normé u,1 vecteur propre de la matrice associé
à la plus grande valeur propre ;
• La variance expliquée par l’axe factoriel F1(homogène à une inertie) est égal à ;
• La variance totale des axes factoriels est
• Pourcentage de variance expliquée par les k premiers axes
j 1
j
p
. 100
j 1
j
Analyse des données 35
Exercice
10 femmes donnent des notes pour trois produits P1, P2, P3.
Elles donnent 1 pour un produit apprécié, 0 si elles sont indifférentes, et -1 pour un
produit non apprécié
P1 P2 P3
1 1 0 0
2 1 0 0
3 1 0 0
4 1 0 0
5 1 0 0
6 1 0 0
7 1 0 0
8 1 0 0
9 0 1 -1
10 0 -1 1
Analyse des données 37
Exemple
On veut faire une ACP sur ces données
1. Déterminer la matrice X centré et réduit
2. Déterminer la matrice
3. Déterminer ces valeurs propre et vecteurs propre
4. Déterminer les composantes principale associé
Analyse des données 38
1 / 2 0 0
1 / 2 0 0
1 / 2 0 0
1 / 2 0 0
1 / 2 0 0
X
1 / 2 0 0
1 / 2 0 0
1 / 2 0 0
2 5 5
2 5 5
Analyse des données 39
• On a
• Donc les valeurs propre sont
•
• On va prendre 1
Analyse des données 41
• => =
Analyse des données 42
• => =
Analyse des données 43
L’ind 1=2=…=8
1ère axe
L’ind 10 L’ind 9
La contribution de l’individu
Il est très utile de calculer pour chaque axe la contribution apportée par
les divers individus à cet axe.
Considérons la kième composante principale Ck , soit la valeur de
la composante pour le ième individu.
avec
Remarque importante
Une valeur de signifie que
Cercle de corrélation
Il s’agit de représenter sur le plan ( ) les variables repérées
par leur corrélations avec les composantes principale associées:
2ème axe
1
𝑿.𝒋
.
-1 1 1ère axe
-1
Analyse des données 53
Les variables bien représentées sont les variables se
projetant proche du circonférence du cercle de
corrélation
1
Les variables . et . sont
bien représentées
𝑿.𝒌
𝑿.𝒋
-1 1
. . . ×
1
n
Analyse des données 58
.
Analyse des données 59
Exercice
1. Organiser les résultats numériques de l’ACP de tableau de
données précédant, pour l’espace des individus et pour
l’espace des variables
2. Faites les représentations géométriques
3. Interpréter les
Analyse des données 60
Introduction
Le logiciel SPSS (Statistical Package for the Social Sciences)
a été créé, au tout début, pour les besoins des psychologues. Avec
le temps (cette entreprise existe depuis 1965), on a intégré un
grand nombre de procédures statistiques tout en facilitant le
travail de manipulation des données.
Analyse des données 62
Le fonctionnement
du logiciel SPSS
Le fonctionnement
du logiciel SPSS
La figure ci dessous nous montre la fenêtre servant à la définition des
variables. Chaque variable sera donc définie par dix colonnes contenant les
caractéristiques particulières de chacune des variables.
Analyse des données 64
Le fonctionnement
du logiciel SPSS
Quand une commande est
exécutée, apparaît
automatiquement une fenêtre
qui montre les résultats
obtenus. Nous voyons cette
fenêtre et ces résultats dans la
figure à droite.
Dans le rectangle de
gauche, nous avons la table
des matières des résultats qui
apparaissent dans la surface
de droite.
Analyse des données 66
Si les variables originales sont fortement corrélées entre elles, un nombre réduit de
facteurs permet d’expliquer 80 % à 90 % de variance.
Explique les coordonnées des variables sur les facteurs retenus. Nous voyons par
quelles variables sont faits les axes. Ces valeurs s’interprètent également comme des
corrélations facteurs\variables.
Analyse des données 77
Interprétation
Interprétation
L’extrait de la matrice des corrélations croisant les facteurs
principaux de l’ACP avec les variables est le principal support
de l’interprétation.
Commentaire
Le premier axe principal de l’ACP semble bien fournir le
facteur commun : il est corrélé positivement, fortement et très
significativement avec toutes les variables.
Interprétation
Premier axe principale :
On voit que le premier facteur est corrélé positivement, et assez fortement, avec
chacune des 4 variables initiales : plus un élève obtient de bonnes notes dans
chacune des 4 disciplines, plus il a un score – ou coordonnée – sur l’axe 1 élevé;
réciproquement, plus ses notes sont mauvaises, plus son score est négatif. On peut
ainsi penser que l’axe 1 représente la moyenne générale.
Interprétation
Analyse des données 80
Interprétation
L’élève “le plus haut” sur le graphique, celui qui a la coordonnée la plus élevée sur l’axe 2, est Omar dont
les résultats sont les plus contrastés en faveur des disciplines littéraires (14 et 11.5 contre 7 et 5.5). C’est
exactement le contraire pour Kawtar qui obtient les notes (11 et 10) dans les disciplines scientifiques
mais des résultats très faibles dans les disciplines littéraires (7 et 5.5). On notera que Mohammed et
Ahmed ont un score voisin de 0 sur l’axe 2 car ils ont des résultats très homogènes dans les 4 disciplines
(mais à des niveaux très distincts, ce qu’a déjà révélé l’axe 1).
Analyse des données 82
On étudie la température moyenne mensuelle de plusieurs ville française pendant une année.
Le fichier, temperature_france.sav, contient 15 lignes et 13 colonnes.
Analyse des données 84
Étape 1:
Exploration univariée du jeu de données
Étape 2:
Examen de la matrice des corrélations
Mettre en évidence les relations entre les variables
Étape 3:
Extraction des facteurs
Déterminer le nombre de facteurs à retenir
Étape 4:
Projeter les données dans ce nouvel espace propre
Calculer les coefficients associés à chaque facteur pour
servir à d’autres analyses
Analyse des données 85
Le critère KMO nous permet de juger de la pertinence de l'ACP, en général un KMO > 0.6 conduit à de
bon résultats.
Test de sphéricité de Bartlett
Permet de tester l'hypothèse nulle selon laquelle la matrice des corrélations est égale à la matrice
identité. Sig < 0.05 permet de rejeter H0, les variables étant suffisamment corrélées entre-elles,
condition nécessaire afin de pouvoir mener une ACP, il paraît pertinent de chercher à synthétiser
l'information en réduisant le nombre de variables en un petit nombre de facteurs deux à deux non
corrélés.
Analyse des données 90
2 facteurs
Analyse des données 92