Vous êtes sur la page 1sur 24

Chapitre I Analyse de Données

Ministère de l’Enseignement Supérieur , de la Recherche Scientifique et

de la Technologie

Université virtuelle de Tunis

ANALYSE DE DONNEES

Chapitre I

Généralités

Elaboré par : Mme . ESSADIK Emna

1ére année Master professionnel en Optimisation

et Modernisation de l'Entreprise

1 MOME 2021-2022
Chapitre I Analyse de Données

Objectif :

Rappeler et présenter les éléments de base qui seront utilisés au cours du reste
de ce cours avec quelques exemples d’illustration .

Obj AD: regrouper, organiser, segmenter : typologie et arbres de décision.


Les différents niveaux de l’AD :

- Analyse univariée ou « analyse à plat » : tableaux à plat pour décrire les


résultats d’une variable à la fois ( moyenne arithmétique, effectif, ….).
- Analyse bivariée ou « analyse croisée » : tableaux croisés ou tableau de
contingence pour mettre en relation deux variables afin d’expliquer , de
préciser une analyse ( dépendance, comparaison, corrélation).
- Analyse multivariée des données : cartes factorielles : pour analyser
simultanément plus de deux variables pour dresser des typologies et
synthétiser.

Section I : Algèbre linéaire :


Section II : Notions élémentaires de Statistique Descriptive
Section III : Inertie et nuage de points

2 MOME 2021-2022
Chapitre I Analyse de Données

I/ Algèbre linéaire :
1- Matrice et calcul matriciel
a/ Notions de matrice :
-Une matrice est un tableau à n lignes et p colonnes , on note M(n,p).
0 5 2
Exemple : Soit E = ( ), cette matrice contient 2 lignes et 3 colonnes,
−1 6 4
d’où E(2,3).
-A chaque matrice M , on peut associer une matrice transposée M’. Cette dernière
est obtenue en inversant le tableau, une ligne devient une colonne et vis versa.
0 −1
Exemple : Si on reprend l’exemple précédent , E’= (5 6 ) , E’ est de
2 4
dimension (3,2).
-Les matrices qui ne comportent qu’une seule ligne (ou une seule colonne) sont
appelées : vecteur-ligne ( vecteur- colonne). Le transposé d’un vecteur ligne est
un vecteur colonne et réciproquement.
Une matrice réduite à une seule ligne et une seule colonne est appelée : scalaire.
b/ Produit matriciel :
Considérons 2 matrices A et B ( A(n,p) et B(p,q)) , pour pouvoir calculer leur produit
matriciel il faut que le nombre de colonnes de la matrice 1 soit égal au nombre de
lignes de la matrice 2 .
Exemple :
Considérons les matrices A(3,4) et B(2,4) , C(4,1) , D(3,4)
Le produit matriciel AB n’est pas possible (car 4 2).
Le produit matriciel AC est possible et on a : A(3,4) C(4,1) = G(3,1) .
Le produit matriciel DC est possible et on a : D(3,4) C(4,1) = H(3,1) .
1 2 5
0 5 2
Soit A(2,3) = ( ) et B(3,3) = (0 1 3)
−1 6 4
4 −2 7
1 2 5
0 5 2 8 1 29
A(2,3) B(3,3) = C(2,3) = ( ) (0 1 3) = ( )
−1 6 4 15 −2 34
4 −2 7
3 MOME 2021-2022
Chapitre I Analyse de Données

B(3,3) A(2,3) = impossible


Remarque : La commutativité en produit matriciel n’est pas possible :AB  BA.
C/ Matrice carrée inversible
Considérons une matrice carrée inversible M , on désigne par M-1 son inverse .
(Une matrice carrée est une matrice qui a autant de lignes que de colonnes n= p
d’où on note M(n)).
M-1/ M M-1 = In
Avec I désigne la matrice identité d’ordre n.
d/ Matrice carrée symétrique
Une matrice carrée est dite symétrique par rapport à sa diagonale principale ssi :
les éléments situés en dessus de la diagonale sont identiques à ceux situés en
dessous.
Un moyen simple pour obtenir une matrice carrée symétrique consiste à multiplier
une matrice X par sa transposée X’ .
Exemple :
1 2 3
1 2 3 4
2 3 4
X=( ) , X’ = (2 3 4 5)
3 4 5
3 4 5 6
4 5 6
1 2 3
1 2 3 4 30 40 50
2 3 4
X’X = V = (2 3 4 5) ( ) = (40 54 68) :
3 4 5
3 4 5 6 50 68 86
4 5 6
La matrice V est symétrique.
Matrice variance-covariance
Les éléments de la diagonale de X’X sont des éléments carrés et correspondant
aux éléments de variance. Les autres éléments sont appelés éléments de la
covariance (ce sont des sommes de produits croisés).
X’X et XX’ sont appelés matrices d’inertie ou matrices de variance-covariance.
Ces deux matrices couvrent un ellipsoïde d’inertie. La diagonalisation de cette
matrice consiste à trouver les axes de symétrie de l’ellipsoïde.

4 MOME 2021-2022
Chapitre I Analyse de Données

La diagonalisation d’une matrice carrée symétrique d’ordre n est la recherche des


axes de symétrie de l’ellipsoïde d’inertie et de n valeurs propres correspondantes :
𝜆1 , 𝜆2 ,….., 𝜆𝑛 .
𝜆1 : dilatation selon les abscisses
𝜆2 :dilatation selon les ordonnées
1
0
-1 𝜆1
M = ( 1)
0
𝜆2

2- Diagonalisation d’une matrice :


Cette opération transforme une matrice carrée en diagonale , donc la somme des
valeurs de la diagonale (trace) reste inchangée.
La diagonalisation d’une matrice de variance-covariance permet d’annuler les
covariances tout en conservant une somme de variances identique la valeur de la
trace reste inchangée .
𝑎 𝑖 𝑢
Exemple : Soit la matrice M(3) = ( 𝑖 𝑏 𝑗 ), après diagonalisation devient
𝑢 𝑗 𝑐
𝜆1 0 0
(0 𝜆2 0 ).
0 0 𝜆3
Dans la matrice initiale , les valeurs de a, b et c correspondent aux valeurs des
variances des 3 variables. Les valeurs des covariances ne sont autres que i, u et
j. la trace de M = a + b + c = D.
Définitions : valeurs propres, vecteurs propres, sous espaces propres :
- Soit E un espace vectoriel réel , on appelle vecteur propre X d’une matrice
carrée A, tout vecteur non nul de E pour lequel il  un réel / AX =  X .
 s’appelle la valeur propre relative au vecteur X .
-  valeur propre de A , on appelle sous-espace propre associé à  :
𝐸ℷ (A) = {𝑋𝐸/ 𝑋 = 𝐴𝑋}
Exemple :
Soit B une matrice carrée d’ordre 3

5 MOME 2021-2022
Chapitre I Analyse de Données

7 −24 −6
B = (2 −7 −2) ; Déterminer les valeurs propres de cette matrice .
0 0 1
7− −24 −6
|B −  I| = | 2 −7 −  −2 |= (1 − ) [(−7 +  )(7 +  ) + 48]=
0 0 1−
(1 − )(-49+2 +48) =(1 − )(2-1)= 0, les valeurs propres de B sont : =1,
 =1,  = -1.
Calculer les vecteurs propres associés :
Détermination des sous espaces :
- Si =1
7 − 1 −24 −6 𝑥 0
|B − 1 I|𝑋= 0ℝ3  ( 2 −8 −2) (𝑦)= (0)
0 0 0 𝑧 0
6x − 24y − 6z = 0
{ 2x − 8y − 2z = 0 , 𝐿2 ∗ 3 = 𝐿1 𝐿2 , le système est alors réduit à une
0+0+0=0
équation :
4 1
x - 4y – z =0 , x = 4y +z , X = y(1) + z (0)
0 1
E1 = Vect {(4,1,0); (1,0,1)} ;dim (E1) = 2, base engendrée par 2 vecteurs
- Si = - 1 :
8 −24 −6 𝑥 0
|B − 2 I|𝑋= 0ℝ3  (2 −6 −2) (𝑦)= (0)
0 0 1 𝑧 0
8x − 24y − 6z = 0 8 x − 24y = 0
{ 2x − 6y − 2z = 0  { 2x − 6 y = 0 , 𝐿1 =4 𝐿2  z = 0 et 2x − 6 y =
0+0+z=0 z=0
0
 z = 0 et x − 3 y = 0 z = 0 et x = 3y
3𝑦
X= ( 𝑦 )  y ℝ ; E-1 = Vect {(3,1,0)} ;dim (E-1) = 1.
0
II/ Notions élémentaires de Statistique Descriptive :

6 MOME 2021-2022
Chapitre I Analyse de Données

A travers cette section , on va présenter les outils élémentaires en stat descriptive


permettant de résumer et de synthétiser les données.
1- Bases de données en analyse multidimensionnelle :
Tableau individu * variables
Les données sont des mesures sur la consommation des protéines dans 25 pays
européens par rapport 9 groupes d’aliments

Les données se présentent généralement sous la forme d’un tableau rectangulaire,


dont les lignes correspondent à des individus ou unités statistiques et les colonnes
à des variables appelées caractères ou caractéristiques.
Après la collecte des données , le dépouillement et le codage on passe à la
construction des tableaux statistiques sous la forme brute . Toutefois, le choix des
méthodes dépend des variables étudiées et des relations existantes entre les
variables . Une étude de ces tableaux est nécessaire pour utiliser les différentes
méthodes d’analyse de données.
Un tableau soumis à l’analyse doit posséder certaines qualités : pertinence,
homogénéité. Il ne faut retenir dans la masse hétérogène des faits que ce qui se
rapporte à un seul point de vue (pertinence), et ne pas mélanger les quantités
exprimées en kilogrammes et en mètres (homogénéité).

7 MOME 2021-2022
Chapitre I Analyse de Données

 Les tableaux de contingence : A partir de deux variables qualitatives, on


peut définir un tableau de contingence croisant les modalités de deux
variables, l’ensemble des lignes correspond aux modalités de la première
variable et l’ensemble des colonnes aux modalités de la deuxième variable
Il s’agit d’un tableau statistique qui donne la ventilation d’une population
(ou d’une quantité) selon deux caractères que l’on croise. ( exemples : la
répartition de la population tunisienne recensée en 2015 selon deux
caractères : la région et la CSP. La répartition du chiffre d’affaires d’un
secteur d’entreprises selon les caractères : ‘entreprise ‘ et produit.
Un tableau de contingence possède les caractéristiques suivantes : en
calculant les sommes en lignes ou en colonnes , on obtient des valeurs qui
peuvent être interprétées . La somme des colonnes est égale à la somme de
lignes. Sur un tel tableau, on peut aussi calculer les fréquences. L’étude des
tableaux de contingence se fait par l’analyse factorielle des
correspondances conçue pour cela.

Exemple :
Tableau de contingence
Campagnes Agglomérations Villes Total
Revenu plutôt élevé 80 120 200 400
Revenu plutôt faible 300 220 180 700
Total 380 340 380 1100

Les fréquences
Campagnes Agglomérations Villes Total
Revenu plutôt élevé 0.073 0.109 0.181 0.363
Revenu plutôt faible 0.272 0.2 0.164 0.637
Total 0.345 0.309 0.345 1

Si l’on croise plus de deux variables qualitatives entre elles définies sur une même
population, on peut construire un tableau contenant l’ensemble des tableaux de
contingence entre les variables prises deux à deux. Le tableau ainsi obtenu est
appelé tableau de Burt. C’est un tableau symétrique qui comporte sur sa

8 MOME 2021-2022
Chapitre I Analyse de Données

diagonale ‘’des résultats qu’en terme de dépouillement d’enquête on appelle des


‘’tris à plats’’, alors qu’ailleurs on a tous les tableaux des ‘’tris croisés’’ des
variables deux à deux.

 Les Tableaux de mesures : Lorsque dans un tableau, toutes les variables


sont quantitatives, on peut établir un tableau de données quantitatives . On
recense les individus et on associe à chacun d’eux des valeurs
correspondant à certaines caractéristiques. Exemple on observe sur un
ensemble de sujets I , un certain nombre de mesures J : poids, taille, âge.
 Les tableaux de préférence : Un ensemble I d’individus donne des
jugements de préférence globale sur un ensemble d’objets ; on demande par
exemple à chaque personne interrogée de noter de 1 à 4 l’ordre de
préférence pour quatre marques de lait. A l’intersection de la ième ligne et
de la jème colonne, on trouve le rang attribué par la personne i au lait j .
 Souvent, on observe des variables qui ne prennent que deux valeurs codées
généralement 0 et 1 ; elles conduisent à des tableaux binaires : par exemple
un individu doit répondre par ‘’oui’’ ou par ‘’non’’ à une question . il s’agit
de la présence ou de l’absence d’un caractère. D’une manière générale, un
tableau rempli uniquement de 0 et de 1 est appelé tableau logique.

D’une maniére générale, l’écriture matricielle d’un tableau de données : Pour n


individus et p variables , on a le tableau X est une matrice rectangulaire à n lignes
et p colonnes.

 x11 x12 ... x1p 


 1 
 x2 x22 
 
X  ( x1 ,..., x p )   
 xij 
 
 1 
 xn xn 
p
...
Une variable correspond à une colonne du tableau :

9 MOME 2021-2022
Chapitre I Analyse de Données

𝑗
𝑥1
𝑗
Xj = 𝑥2

𝑗
(𝑥𝑛 )
On appelle variable un vecteur x de taille n. Chaque coordonnée x i correspond à
un individu.
Un individu correspond à une ligne du tableau.
𝑝
ei = (𝑥𝑖1 𝑥𝑖2 … 𝑥𝑖 )
2- Définitions :

La population : correspond à un groupe ou ensemble d'individus que l'on analyse.


Le recensement est l’étude de tous les individus d'une population donnée.
Le sondage est l’étude d'une partie seulement d'une population appelée
échantillon.
Variables : La population peut être décrite par des données de types caractères:
L’ensemble de caractéristiques d'une population. Une variable est caractérisée par
son titre ets es modalités (les différentes réponses possibles).
On distingue 2 types de variables
*quantitatives:Elles sont mesurables (les valeurs sont entières ou réelles . Ce sont
des nombres sur lesquels les opérations usuelles (somme, moyenne,...) ont un
sens. Elles peuvent être discrètes (ex : nombre d'éléments dans un ensemble) ou
continues (ex: prix, revenu , taille) .
*qualitatives:Ce sont des variables non quantifiables et appartiennent à une
catégorie donnée .
Elles peuvent être nominales : les modalités ne possèdent pas des structures
d'ordre (pas de classement) , exemple : sexe, situation matrimoniale, ou
ordinales : classement, hiérarchie , échelle quand les catégories sont ordonnées
(ex : très résistant, assez résistant, peu résistant ; le rang) .
Les observations d’une variable qualitative ne sont pas des valeurs numériques
mais des caractéristiques appelées modalités .

10 MOME 2021-2022
Chapitre I Analyse de Données

Mesures
On dispose divers indicateurs pouvant décrire partiellement les données
/informations dont on dispose : effectif, moyenne, médiane, variance, écart type,
minimum, maximum, étendue… Ces indicateurs mesurent principalement la
tendance centrale et la dispersion.
Dans ce cours on va utilisera principalement la moyenne, la variance , l'écart type
et la covariance.
Définition de la moyenne arithmétique : C’est une mesure de la tendance
centrale. Elle dépend de toutes les observations et est sensible aux valeurs
1 n 1 n
extrêmes. X   xi
n i 1
ou X   pi xi
n i 1
n
Variance et écart-type : la variance de x est définie par : sx2  1  ( xi  x) 2 ou
n i 1
n
sx2   pi ( xi  x ) 2 ; L'écart type sx est la racine carrée de la variance.
i 1

L'ecart-type, qui a la même unité que x, est une mesure de dispersion.

1- Mesure de liaison entre deux variables


La covariance observée entre deux variables x et y est calculée ainsi
n n
cov (x,y) = sxy   ( xi  x)( yi  y )   xi yi  xy
i 1 i 1

Le cœfficient de r ou le coefficient de corrélation est donnée par :


𝑆𝑥𝑦 ∑𝑛 ̅̅̅̅)
̅ )(𝑦𝑖 −𝑦
𝑖:1(𝑥𝑖 −𝑥
𝑟𝑥,𝑦 = = , avec : 1  rxy  1
𝑆𝑥 𝑆𝑦
√∑𝑛 ̅ )2 √∑𝑛
𝑖:1(𝑥𝑖 −𝑥 ̅ )2
𝑖:1(𝑦𝑖 −𝑦

Variables liées , ssi : rxy  1  axi  byi  c  0 1  i  n


|rxy| = 1 si et seulement si x et y sont linéairement liées, il existe une relation
linéaire exacte .En particulier, rxx = 1.

Variables non corrélées : si rxy = 0, on dit que les variables sont non corrélées
Cela ne veut pas dire qu'elles sont indépendantes .

Considérons dans l’espace ℝ𝑛 les vecteurs centrés suivants :

11 MOME 2021-2022
Chapitre I Analyse de Données

𝑥1 − 𝑥̅ 𝑦1 − 𝑦̅
𝑥 − 𝑥̅ 𝑦 − 𝑦̅
( 2 ) et ( 2 )
…… ……
𝑥𝑛 − 𝑥̅ 𝑦𝑛 − 𝑦̅
r désigne le cosinus formé par ces deux vecteurs comme un calcul élémentaire
le montre .
Matrice de corrélation entre p variables

𝑠12 𝑠12 .. 𝑠1𝑝


𝑠22 … 𝑠2𝑝 1
Y = AX , A(n) , V = , V = Y’Y
𝑛
..
( 𝑠𝑛2 )

1 r12 r1p 
 1 
r 1
R 2 
skl
rkl 
sk sl  
 1 
 s p 1 
1 
s 0
 1 
 1 
 
R  D 1 VD 1 D1   s2

s s s
 
 
0 1
 s p 

La matrice regroupant les coefficients de corrélation des p variables prises deux à


deux est notée R.
R est identique à la matrice de variance -covariance des données centrées et
réduites. Elle résume la structure de dépendances linéaires entre les p variables.
Liaison entre variables :
On s’intéresse à l’étude simultanée de deux variables X et Y. l’objectif est de
mettre en évidence une éventuelle variation simultanée des deux variables,
appelée liaison. Dans certains cas, elle est considérée comme causale ( X explique
Y) , dans d’autres cas, les deux variables jouent des rôles symétriques .

12 MOME 2021-2022
Chapitre I Analyse de Données

Une variable quantitative et une variable qualitative


Soit le couple (X,Y) constitué de la variable quantitative X et de la variable
qualitative Y. Chaque modalité de la variable X définit un sous-échantillon de
l’échantillon initial , on note : n1,n2,…..nr : les effectifs de chaque sous -
échantillon de la variable X. c’est l’ensemble des individus sur les quels on a
observé la variable X.
Ω1 , Ω2 ,……, Ω𝑟 : les sous échantillons Ω𝑗 : j :1…r
𝑦2 …….,𝑦̅𝑟 : les moyennes empiriques de la variable Y sur chaque sous
𝑦1 ̅̅̅,
̅̅̅,
1
échantillon : 𝑦̅𝑗 = ∑𝑖 𝑦𝑖
𝑛𝑗

𝜎12 (y) ,…., 𝜎𝑟2 (y) : les variances empiriques de la variable y sur chaque sous-
1
échantillon : 𝜎𝑗2 (y) = = ∑𝑖(𝑦𝑖 − 𝑦̅𝑗 )2
𝑛𝑗

Formules de décomposition de la variance :


1 1 1
On a : 𝑦̅ = ∑𝑟𝑙:1 𝑛𝑙 𝑦̅𝑙 𝜎𝑦2 = ∑𝑟𝑙:1 𝑛𝑙 (𝑦̅𝑙 − 𝑦̅ )2 + ∑𝑟𝑙:1 𝑛𝑙 𝜎𝑙2 = 𝜎𝐸2 + 𝜎𝑅2
𝑛 𝑛 𝑛

𝜎𝑦2 Variance totale


𝜎𝑅2 variance résiduelle ou intra ‘within’
𝜎𝐸2 variance expliquée ou inter ‘between’.

Liaison entre X et Y :
Etudier l’impact de la variable X sur la variable Y , leur indépendance ( cad les
moyennes empiriques )
1 2
∑𝑟𝑗:1 𝑛𝑗 (𝑌̅𝑗 −𝑌̅)
2 𝑛
Coefficient de corrélation : 𝜌 =
𝜎𝑛2 (𝑦)

̅𝑗 ≃ 𝑌̅ et 𝜌2 ≃ 0.
Si les variables X et Y sont indépendantes ∀ jϵ {1, … . , 𝑟}, on a : 𝑌

𝜎𝐸2
On a : 𝑆𝑌/𝑋 = √ ,
𝜎𝑦2

On a : 0 ≤ 𝜌2 ≤ 1 :
Si 𝜌2 = 1 : La valeur de la variable X fixe la valeur de Y : il s’agit d’une
corrélation positive égale à l’unité.
Si 𝜌2 = 0: Absence de liaison, les variables sont indépendantes.

13 MOME 2021-2022
Chapitre I Analyse de Données

Deux variables qualitatives :


X et Y sont 2 variables qualitatives observées simultanément sur n individus .

X possède l modalités , X = (X1,….. Xl) et Y , r modalités, Y = (Y1,….. Yr).

Les données étant représentées dans un tableau de contingence qui donne les
effectifs conjoints de chaque couple de modalités : ∀ (i,j) ϵ {1, … , 𝑙} * {1, … , 𝑟}.

On désigne par : ni. = ∑𝑙𝑗:1 𝑛𝑖𝑗 et : n.j = ∑𝑟𝑖:1 𝑛𝑖𝑗 les effectifs marginaux

𝑛𝑖1 𝑛𝑖𝑙
Le vecteur ( ,… ) est appelé iéme profil ligne et correspond à une estimation
n𝑖. n𝑖.

de la loi conditionnelle de Y sachant X = ci.


𝑛1𝑗 𝑛𝑟𝑗
De même le vecteur ( ,… ) est appelé jéme profil colonne et correspond à
n.𝑗 n.𝑗
une estimation de la loi conditionnelle de X sachant Y = dj.
Liaison entre X et Y :
Test de 𝜒 2 d’indépendance :
𝑛𝑖. 𝑛.𝑗 2
(𝑛𝑖𝑗 − )
T = ∑𝑙𝑖:1 ∑𝑟𝑗:1 𝑛
𝑛𝑖. 𝑛.𝑗
𝑛

𝑛𝑖𝑗 𝑛𝑖. 𝑛.𝑗


X et Y sont indépendants ⇒ ≃
𝑛 𝑛 𝑛

Alors Tn →0
Test d’hypothèse
Tester sous H0 : X et Y sont indépendants
H1: X et Y sont liés
n est assez grande ( n ≥ 30)
La règle de décision : si Tn > t : on rejette H0, alors X et Y sont liés
Si Tn ≤ t : on accepte H0, alors X et Y sont indépendants .
Exemple :
Soient les variables suivantes X et Y .
Y : désigne la pluie , les modalités correspondantes ( pluie, sec).
X : la direction du vent, les modalités correspondantes (Est, Ouest, Nord, Sud) .
14 MOME 2021-2022
Chapitre I Analyse de Données

Tableau de contingence
Pluie Pluie Sec Total
Vent
Est 2 8 10
Ouest 10 21 31
Nord 26 24 50
Sud 5 16 21
Total 43 69 112

 Liaison entre deux variables quantitatives :

Indice de liaison :

Soient les variables X et Y observées sur un échantillon de n individus , on a n


couples : (𝑥𝑖 , 𝑦𝑖 ) , les vecteurs X et Y sont des éléments de ℝ𝑛 .
𝑥1 𝑦1
𝑥2 𝑦2
On a : X = ( … ) , Y = (…)
𝑥𝑛 𝑦𝑛
Examen graphique de la corrélation : afin d’étudier une liaison entre X et Y , on
présente chaque observation (𝑥𝑖 , 𝑦𝑖 ) dans un repère cartésien. La forme du
nuage de points obtenu est fondamentale, on distingue les cas suivants :
- Absence de liaison : 𝜌𝑥,𝑦 =0
- Corrélation linéaire positive 𝜌𝑥,𝑦 > 0
- Corrélation linéaire positive 𝜌𝑥,𝑦 < 0
- Corrélation non linéaire .

𝜌𝑥,𝑦 =1 𝜌𝑥,𝑦 = -1

𝜌𝑥,𝑦 =0 𝜌𝑥,𝑦 =0.7


Indice de liaison L’indice est calculé à partir de la covariance

15 MOME 2021-2022
Chapitre I Analyse de Données

Cov (X,Y) = ∑𝑛𝑖:1 𝜔𝑖 (𝑥𝑖 − ̅̅̅ ̅̅̅


𝑥)(𝑦𝑖 − 𝑦)
𝐶𝑜𝑣 (𝑋,𝑌)
Corr (X,Y) = .
𝜎𝑋 𝜎𝑌

Exemple

Soit X = {6, 4, 5 , −1, 3} , Soit Y = {10, 9, 14, 6, 0}.

1 6+4+5−1+3 17
On a n = 5 ; La moyenne arithmétique : 𝑥̅ = ∑5𝑖:1 𝑥𝑗 = = =3.4
5 5 5

1 10+9+14+6+0 39
𝑦̅ = ∑5𝑖:1 𝑦𝑗 = =
5 5 5

La variance :

1 17 2 17 2 17 2 17 2 17 2
𝜎𝑥2 = [(6 − ) + (4 − ) + (5 − ) + (−1 − ) + (3 − ) ] = 5.84
5 5 5 5 5 5

1 39 2 39 2 39 2 39 2 39 2
𝜎𝑦2 = [(10 − ) + (9 − ) + (14 − ) + (6 − ) + (3 − ) ] = 21.76
5 5 5 5 5 5

1 17 39 17 39
La covariance :cov (x,y) = [(6 − )(10 − ) + (4 − )(9 − ) + (5 −
5 5 5 5 5
17 39 17 39 17 39
)(14 − ) + (−1 − )(6 − ) + (3 − )(3 − )] = 6.85
5 5 5 5 5 5

6.85
Coefficient de corrélation :𝜌𝑥,𝑦 =
√21.76√5.84

Exemple :
On se propose d’étudier la relation entre le prix et les variables suivantes :
cylindrée, puissance, longueur, largeur , poids et vitesse de 18 voitures. Les
données sont résumé.es dans le tableau suivant :
La matrice relative V
CYL PUI LON LAR POI VIT
CYL 139823.5294 6069.7451 5798.7059 1251.2941 40404.2941 3018.5686
PUI 415.1928 288.9118 56.3922 2135.6961 208.8791
LON 488.7353 99.7647 2628.3824 127.7353
LAR 521.7059 30.5098
POI 18757.4412 794.1078
VIT 147.3889

16 MOME 2021-2022
Chapitre I Analyse de Données

La matrice relative R
CYL PUI LON LAR POI VIT
CYL 1.0000 0.79663 0.70146 0.62976 0.78895 0.66493
PUI 1.0000 0.64136 0.520832 0. 76529 0.84438
LON 1.0000 0.84927 0.86809 0.47593
LAR 1.0000 0.71687 0.47295
POI 1.0000 0.47760
VIT 1.0000

On remarque que toutes les variables sont corrélées positivement, certains


coefficients sont élevés. Il y a alors une redondance des variables ( problème de
multi colinéarité) .
Il est à noter que R et v sont symétriques .
Section III : nuage de points et inertie
Nuage de points

Il s’agit d’un graphique très commode pour représenter les observations


simultanées de deux variables quantitatives. Il consiste à considérer deux axes
perpendiculaires : l’axe horizontal présente la variable X et l’axe vertical la
variable Y. On procède ensuite à représenter chaque individu observé par les
coordonnées des valeurs observées. L’ensemble de ces points donne une idée sur
la variation conjointe des deux variables et est appelé Nuage.

Matrice des poids :Elle est utile quand les individus n'ont pas la même
importance. On affecte à chaque individu un poids pi reflétant son importance par
rapport aux autres individus avec pi ≻0 et ∑𝑛𝑖:1 𝑝𝑖 = 1.

p1 diagonalisée
La matrice de poids est la matrice p2  ...  pn  1(n,n) dont les éléments diagonaux
sont des poids pi. /
 p1 ... 0
 p2 
D 
 
 
0 ... pn 

Cas uniforme : Tous les individus ont le même poids pi = 1 / n ∀ 𝑖: 1 … 𝑛; et

D = I / n.

17 MOME 2021-2022
Chapitre I Analyse de Données

Nuage des individus : c’est l’ensemble des points xi munis de leurs poids .
M = {(𝒙𝒊 , 𝒑𝒊 ), 𝒊: 𝟏 … 𝒏}
Centrage de données :
Point moyen: C’est le vecteur g des moyennes arithmétiques de chaque variable .
Le point g de ℝ𝑝 dont le coordonnées sont des moyennes empiriques des
̅̅̅,
variables ( g = (𝑥 1 ̅̅̅,….,
𝑥2 𝑥𝑝 est le centre de gravité ( barycentre )) du nuage
̅̅̅)
de points .
Tableau centré : Il est obtenu en centrant les variables autour de leur moyenne.
Il s’agit de ramener l’origine du repère au centre du barycentre des individus : à
chaque variable observée Xj on associe une variable centrée Yj.
Notation matricielle :
g’ = X’DI
I : vecteur de ℝ𝑛 dont toutes les coordonnées = 1 , ∀ j :1…p
𝑗
gj= ∑𝑛𝑘:1(𝑥)𝑘𝑗 (𝐷𝐼)𝑘 = ∑𝑛𝑘:1 ∑𝑛𝑖:1 𝑥𝑖𝑗 𝐷𝑘𝑖 𝐼𝑖 = ∑𝑛𝑘:1 𝑥𝑘 𝑝𝑘 = 𝑥
̅̅̅𝑗

̅̅̅𝑗
𝑥
̅̅̅𝑗
Centrer les variables : Yj = Xj - (𝑥 ) = Xj - 𝑥
̅̅̅𝑗 I

̅̅̅𝑗
𝑥
On passe de la variable X à la variable Y
𝑗 𝑝
𝑦11 .. 𝑦1 𝑦1
𝑗 𝑝
Y = (𝑦 1 𝑦2 … 𝑦𝑝) = 𝑦21 .. 𝑦2 𝑦2
… .. .. ..
1 𝑗 𝑝
(𝑦𝑛 .. 𝑦𝑛 𝑦𝑛 )
𝑗 𝑗
̅̅̅𝑗
Avec : 𝑦𝑖 = 𝑥𝑖 - 𝑥
Y = X – I g’ = X – I I’ D X = (I – I I ‘ d) X

18 MOME 2021-2022
Chapitre I Analyse de Données

Illustrations graphiques

Nuage de points et centre de gravité

Transformation de données : tableau centré –réduit relatif à X

19 MOME 2021-2022
Chapitre I Analyse de Données

Distance entre individus


Afin de pouvoir considérer la structure du nuage des individus, il faut définir une
distance, qui induira une géométrie.
Distance euclidienne classique
la distance la plus simple entre deux points de ℝ𝑝 est définie par
𝑝
𝑑 2 (u,v) = ∑𝑗:0(𝑢𝑗 − 𝑣𝑗 )2 = ‖𝑢 − 𝑣‖
p
Généralisation : on multiplie la variable j par : a j , on a : d (u, v)   a j (u j  v j )2
2

j 0

Produit scalaire
Soit E un espace vectoriel de dimension p . E est euclidien s’il est muni d’un
produit scalaire défini par :

< 𝑥, 𝑦 > = f(x,y) ∀ (x,y) 𝜖 E*E , avec f est symétrique et définie positive.

< 𝑥, 𝑥 > est noté ‖𝑥‖2 : carré de la norme de x .

Le produit scalaire de deux vecteurs V1, V2 est un nombre obtenu en multipliant


la longueur de l’un des 2 vecteurs par la projection de l’autre sur lui.
Soient :
L1 : La longueur du vecteur V1
L2 : La longueur du vecteur V2
V1 V2 = L1 L2 cos 
Le produit est commutatif : V1 V2 = V2 V1
Si les vecteurs sont perpendiculaires, alors Le produit scalaire est nul ( est un
angle droit d’où cos  = 0 ).
Si les deux vecteurs appartiennent à une même droite (cos  = 1 ou cos  = -1) ,
Le produit scalaire d’un vecteur par lui même est égal au carré de sa longueur.
Un vecteur unitaire : c’est un vecteur dont la longueur est égale à 1.
La valeur de la projection d’un vecteur V sur un axe s’obtient en faisant le produit
du scalaire UV du vecteur V par un vecteur unitaire porté par cet axe.

20 MOME 2021-2022
Chapitre I Analyse de Données

p
u, v  u ' v   u j vk  u ' Iv
j 0
p p
u, v M
 u ' Mv   m jk u j vk
j  0 k 1

2- Inertie par rapport à un sous espace :


L’analyse factorielle est une opération géométrique qui consiste à partir d’un
nuage de n points de ℝ𝑝 munis de poids d’élaborer une représentation la moins
déformée possible de ce nuage dans un espace de dimensions réduites .

Inertie : Il s’agit d’un indicateur de dispersion du nuage par rapport à Y .

L’inertie mesure la quantité d’informations contenue dans X. I caractérise la


dispersion ou la forme du nuage / à son centre. Plus il est élevé plus le nuage est
dispersé autour de son gravité.

Une inertie nulle signifie que tous les individus sont identiques.Si les variables
sont centrées et réduites alors I = p.

A chaque point xi est affectée la masse mi. On a ∑𝑛𝑖:1 𝑚𝑖 𝑥𝑖 = 0

Inertie par rapport à un point Y de ℝ𝑝 : I (Y) = ∑𝑛𝑖:1 𝑚𝑖 𝑑 2 (𝑥𝑖 , 𝑌), avec :

𝑑 2 (𝑥𝑖 , 𝑌) = ∑𝑛𝑖:1(𝑥𝑖𝛼 − 𝑌)2

I(O) est l’inertie du nuage par rapport à son centre de gravité .

Théorème de Huygens :

I (Y) = I(O) + 𝑚 𝑑 2 (𝑌, 𝑂)

O est le meilleur représentant du nuage (on a I (Y) ≻ I(O) ∀ y ≠ 0).

Inertie par rapport à un axe passant par l’origine

Soit ∆ un axe passant par O.

I(∆) = ∑𝑛𝑖:1 𝑚𝑖 𝑑 2 (𝑥𝑖 − ∆)2

21 MOME 2021-2022
Chapitre I Analyse de Données

̂Δ ).
la projection de xi sur ∆ est représentée (𝑋𝑖

Inertie expliquée par un axe ∆ passant par l’origine

̂Δ ) = ∑𝑛 𝑚 ‖𝑋
IE(∆) = ∑𝑛𝑖:1 𝑚𝑖 𝑑 2 (𝑂, 𝑋 ̂Δ ‖2
𝑖 𝑖:1 𝑖 𝑖

Plus l’inertie expliquée est grande plus les points sont éloignés.

Théorème de Pythagore :

I (O) = I(∆) + IE(∆)

Inertie par rapport à un sous espace :

Soit P un sous-espace de dimension k  p

̂𝑖P )
I(𝑃) = ∑𝑛𝑖:1 𝑚𝑖 𝑑 2 (𝑋𝑖 , 𝑃) = ∑𝑛𝑖:1 𝑚𝑖 𝑑 2 (𝑋𝑖 , 𝑋

̂p ‖2
̂𝑖P ) = ∑𝑛 𝑚𝑖 ‖𝑋
IE(𝑃) = ∑𝑛𝑖:1 𝑚𝑖 𝑑 2 (𝑂, 𝑋 𝑖:1 𝑖

l'inertie en un point a du nuage de points est :

n n
I a   pi ei  a  pi (ei  a ) ' M (ei  a )
2
M
i 1 i 1

L'inertie totale Ig est la moitié de la moyenne des carrés des distances entre les
n n
individus : 2 I g   pi p j ei  e j
2

M
i 1 j 1

L'inertie totale est aussi donnée par la trace de la matrice MV


(la trace d'une matrice étant la somme de ses éléments diagonaux).

I g  Tr (MV )

22 MOME 2021-2022
Chapitre I Analyse de Données

Inertie du nuage de points par rapport à son centre de gravité

I = ∑𝑛𝑖:1 𝑝𝑖 𝑑 2 (𝑒𝑖 , 𝐺) = ∑ 𝑣𝑎𝑟 (𝑥𝑗 ) = 𝑡𝑟(𝑉)

I = 218.47 = somme des variances = trace de la matrice.


3- Réflexions sur les notions de moyenne, centres de gravité, masses,
profils , variances, inerties et distances

Imaginons un ensemble de points dans un espace à trois dimensions. L’ensemble


de points est plus concentré au centre mais on peut également observer des points
de concentration à différents endroits du volume . En statistique, cette
augmentation de la densité par endroit correspond à des agglomérations de points,
de concentration d’individus , d’observations ayant une signification qu’il faut
pouvoir interpréter.

En restant dans l’espace à trois dimensions, le nuage prend la forme de dragée.


On peut le traverser de trois axes :

-Le premier axe passe par la plus grande longueur. Les points du nuage sont les
plus proches de ce grand axe. Il en résulte que l’inertie des points par rapport à
cet axe est la plus faible . Cet axe est donc plus significatif .

-Le second axe traverse la largeur de la dragée , son inertie est plus importante
que celle du premier axe . Cet axe est moins significatif que le précédent .

23 MOME 2021-2022
Chapitre I Analyse de Données

-L’inertie du troisième axe est plus importante que les deux inerties précédentes.
Ce dernier axe traverse l’épaisseur de la dragée , sa signification dans l’analyse
est moindre . Il est à noter que le centre de gravité correspond à l’intersection des
trois axes d’inertie .

Le centroïde de la dragée correspond au profil moyen des variables étudiées (


profil moyen de produits).

L’inertie du nuage est la somme des inerties calculées sur chaque produit : P1,
P2,…. Pn : INR P1 + INR P2 + …. INR Pn = INR totale

L’inertie de P1 est le produit de la distance de P1 au centroïde par la masse de P1.

L’inertie de P2 est le produit de la distance de P2 au centroïde par la masse de P2.

Exemple :
Ces notions peuvent être expliquées à parti d’un tableau de contingence dans
lequel on croise 2 produits ( P1 et P2) et deux catégories d’acheteurs (CA 1 et CA 2).

Produits P1 P2 Total
Catégorie d’acheteurs
CA 1 15 9 24
CA 2 7 20 27
Total 22 29 51

Les masses peuvent être représentées ainsi :


Masse de P1 = 22/51 et celle de P2 = 29/51
Masse de CA1 = 24/51 et celle de P2 = 24/51
Les profils sont calculés de la façon suivante :
Le profil de P1 = 15/22, 7/22 et celle de P2 = 9/29 , 20/29
Le profil de CA1= 15/24 , 9/24 et celle de CA2 = 7/27 , 20/27
Le centroïde de l’ensemble des produits correspond au profil moyen et = 22/51 ,
29/51. De même, le centroïde de l’ensemble des catégories d’acheteurs
correspond au profil moyen 24/51 et 27/51.

24 MOME 2021-2022

Vous aimerez peut-être aussi