Académique Documents
Professionnel Documents
Culture Documents
de la Technologie
ANALYSE DE DONNEES
Chapitre I
Généralités
et Modernisation de l'Entreprise
1 MOME 2021-2022
Chapitre I Analyse de Données
Objectif :
Rappeler et présenter les éléments de base qui seront utilisés au cours du reste
de ce cours avec quelques exemples d’illustration .
2 MOME 2021-2022
Chapitre I Analyse de Données
I/ Algèbre linéaire :
1- Matrice et calcul matriciel
a/ Notions de matrice :
-Une matrice est un tableau à n lignes et p colonnes , on note M(n,p).
0 5 2
Exemple : Soit E = ( ), cette matrice contient 2 lignes et 3 colonnes,
−1 6 4
d’où E(2,3).
-A chaque matrice M , on peut associer une matrice transposée M’. Cette dernière
est obtenue en inversant le tableau, une ligne devient une colonne et vis versa.
0 −1
Exemple : Si on reprend l’exemple précédent , E’= (5 6 ) , E’ est de
2 4
dimension (3,2).
-Les matrices qui ne comportent qu’une seule ligne (ou une seule colonne) sont
appelées : vecteur-ligne ( vecteur- colonne). Le transposé d’un vecteur ligne est
un vecteur colonne et réciproquement.
Une matrice réduite à une seule ligne et une seule colonne est appelée : scalaire.
b/ Produit matriciel :
Considérons 2 matrices A et B ( A(n,p) et B(p,q)) , pour pouvoir calculer leur produit
matriciel il faut que le nombre de colonnes de la matrice 1 soit égal au nombre de
lignes de la matrice 2 .
Exemple :
Considérons les matrices A(3,4) et B(2,4) , C(4,1) , D(3,4)
Le produit matriciel AB n’est pas possible (car 4 2).
Le produit matriciel AC est possible et on a : A(3,4) C(4,1) = G(3,1) .
Le produit matriciel DC est possible et on a : D(3,4) C(4,1) = H(3,1) .
1 2 5
0 5 2
Soit A(2,3) = ( ) et B(3,3) = (0 1 3)
−1 6 4
4 −2 7
1 2 5
0 5 2 8 1 29
A(2,3) B(3,3) = C(2,3) = ( ) (0 1 3) = ( )
−1 6 4 15 −2 34
4 −2 7
3 MOME 2021-2022
Chapitre I Analyse de Données
4 MOME 2021-2022
Chapitre I Analyse de Données
5 MOME 2021-2022
Chapitre I Analyse de Données
7 −24 −6
B = (2 −7 −2) ; Déterminer les valeurs propres de cette matrice .
0 0 1
7− −24 −6
|B − I| = | 2 −7 − −2 |= (1 − ) [(−7 + )(7 + ) + 48]=
0 0 1−
(1 − )(-49+2 +48) =(1 − )(2-1)= 0, les valeurs propres de B sont : =1,
=1, = -1.
Calculer les vecteurs propres associés :
Détermination des sous espaces :
- Si =1
7 − 1 −24 −6 𝑥 0
|B − 1 I|𝑋= 0ℝ3 ( 2 −8 −2) (𝑦)= (0)
0 0 0 𝑧 0
6x − 24y − 6z = 0
{ 2x − 8y − 2z = 0 , 𝐿2 ∗ 3 = 𝐿1 𝐿2 , le système est alors réduit à une
0+0+0=0
équation :
4 1
x - 4y – z =0 , x = 4y +z , X = y(1) + z (0)
0 1
E1 = Vect {(4,1,0); (1,0,1)} ;dim (E1) = 2, base engendrée par 2 vecteurs
- Si = - 1 :
8 −24 −6 𝑥 0
|B − 2 I|𝑋= 0ℝ3 (2 −6 −2) (𝑦)= (0)
0 0 1 𝑧 0
8x − 24y − 6z = 0 8 x − 24y = 0
{ 2x − 6y − 2z = 0 { 2x − 6 y = 0 , 𝐿1 =4 𝐿2 z = 0 et 2x − 6 y =
0+0+z=0 z=0
0
z = 0 et x − 3 y = 0 z = 0 et x = 3y
3𝑦
X= ( 𝑦 ) y ℝ ; E-1 = Vect {(3,1,0)} ;dim (E-1) = 1.
0
II/ Notions élémentaires de Statistique Descriptive :
6 MOME 2021-2022
Chapitre I Analyse de Données
7 MOME 2021-2022
Chapitre I Analyse de Données
Exemple :
Tableau de contingence
Campagnes Agglomérations Villes Total
Revenu plutôt élevé 80 120 200 400
Revenu plutôt faible 300 220 180 700
Total 380 340 380 1100
Les fréquences
Campagnes Agglomérations Villes Total
Revenu plutôt élevé 0.073 0.109 0.181 0.363
Revenu plutôt faible 0.272 0.2 0.164 0.637
Total 0.345 0.309 0.345 1
Si l’on croise plus de deux variables qualitatives entre elles définies sur une même
population, on peut construire un tableau contenant l’ensemble des tableaux de
contingence entre les variables prises deux à deux. Le tableau ainsi obtenu est
appelé tableau de Burt. C’est un tableau symétrique qui comporte sur sa
8 MOME 2021-2022
Chapitre I Analyse de Données
9 MOME 2021-2022
Chapitre I Analyse de Données
𝑗
𝑥1
𝑗
Xj = 𝑥2
…
𝑗
(𝑥𝑛 )
On appelle variable un vecteur x de taille n. Chaque coordonnée x i correspond à
un individu.
Un individu correspond à une ligne du tableau.
𝑝
ei = (𝑥𝑖1 𝑥𝑖2 … 𝑥𝑖 )
2- Définitions :
10 MOME 2021-2022
Chapitre I Analyse de Données
Mesures
On dispose divers indicateurs pouvant décrire partiellement les données
/informations dont on dispose : effectif, moyenne, médiane, variance, écart type,
minimum, maximum, étendue… Ces indicateurs mesurent principalement la
tendance centrale et la dispersion.
Dans ce cours on va utilisera principalement la moyenne, la variance , l'écart type
et la covariance.
Définition de la moyenne arithmétique : C’est une mesure de la tendance
centrale. Elle dépend de toutes les observations et est sensible aux valeurs
1 n 1 n
extrêmes. X xi
n i 1
ou X pi xi
n i 1
n
Variance et écart-type : la variance de x est définie par : sx2 1 ( xi x) 2 ou
n i 1
n
sx2 pi ( xi x ) 2 ; L'écart type sx est la racine carrée de la variance.
i 1
Variables non corrélées : si rxy = 0, on dit que les variables sont non corrélées
Cela ne veut pas dire qu'elles sont indépendantes .
11 MOME 2021-2022
Chapitre I Analyse de Données
𝑥1 − 𝑥̅ 𝑦1 − 𝑦̅
𝑥 − 𝑥̅ 𝑦 − 𝑦̅
( 2 ) et ( 2 )
…… ……
𝑥𝑛 − 𝑥̅ 𝑦𝑛 − 𝑦̅
r désigne le cosinus formé par ces deux vecteurs comme un calcul élémentaire
le montre .
Matrice de corrélation entre p variables
1 r12 r1p
1
r 1
R 2
skl
rkl
sk sl
1
s p 1
1
s 0
1
1
R D 1 VD 1 D1 s2
s s s
0 1
s p
12 MOME 2021-2022
Chapitre I Analyse de Données
𝜎12 (y) ,…., 𝜎𝑟2 (y) : les variances empiriques de la variable y sur chaque sous-
1
échantillon : 𝜎𝑗2 (y) = = ∑𝑖(𝑦𝑖 − 𝑦̅𝑗 )2
𝑛𝑗
Liaison entre X et Y :
Etudier l’impact de la variable X sur la variable Y , leur indépendance ( cad les
moyennes empiriques )
1 2
∑𝑟𝑗:1 𝑛𝑗 (𝑌̅𝑗 −𝑌̅)
2 𝑛
Coefficient de corrélation : 𝜌 =
𝜎𝑛2 (𝑦)
̅𝑗 ≃ 𝑌̅ et 𝜌2 ≃ 0.
Si les variables X et Y sont indépendantes ∀ jϵ {1, … . , 𝑟}, on a : 𝑌
𝜎𝐸2
On a : 𝑆𝑌/𝑋 = √ ,
𝜎𝑦2
On a : 0 ≤ 𝜌2 ≤ 1 :
Si 𝜌2 = 1 : La valeur de la variable X fixe la valeur de Y : il s’agit d’une
corrélation positive égale à l’unité.
Si 𝜌2 = 0: Absence de liaison, les variables sont indépendantes.
13 MOME 2021-2022
Chapitre I Analyse de Données
Les données étant représentées dans un tableau de contingence qui donne les
effectifs conjoints de chaque couple de modalités : ∀ (i,j) ϵ {1, … , 𝑙} * {1, … , 𝑟}.
On désigne par : ni. = ∑𝑙𝑗:1 𝑛𝑖𝑗 et : n.j = ∑𝑟𝑖:1 𝑛𝑖𝑗 les effectifs marginaux
𝑛𝑖1 𝑛𝑖𝑙
Le vecteur ( ,… ) est appelé iéme profil ligne et correspond à une estimation
n𝑖. n𝑖.
Alors Tn →0
Test d’hypothèse
Tester sous H0 : X et Y sont indépendants
H1: X et Y sont liés
n est assez grande ( n ≥ 30)
La règle de décision : si Tn > t : on rejette H0, alors X et Y sont liés
Si Tn ≤ t : on accepte H0, alors X et Y sont indépendants .
Exemple :
Soient les variables suivantes X et Y .
Y : désigne la pluie , les modalités correspondantes ( pluie, sec).
X : la direction du vent, les modalités correspondantes (Est, Ouest, Nord, Sud) .
14 MOME 2021-2022
Chapitre I Analyse de Données
Tableau de contingence
Pluie Pluie Sec Total
Vent
Est 2 8 10
Ouest 10 21 31
Nord 26 24 50
Sud 5 16 21
Total 43 69 112
Indice de liaison :
𝜌𝑥,𝑦 =1 𝜌𝑥,𝑦 = -1
15 MOME 2021-2022
Chapitre I Analyse de Données
Exemple
1 6+4+5−1+3 17
On a n = 5 ; La moyenne arithmétique : 𝑥̅ = ∑5𝑖:1 𝑥𝑗 = = =3.4
5 5 5
1 10+9+14+6+0 39
𝑦̅ = ∑5𝑖:1 𝑦𝑗 = =
5 5 5
La variance :
1 17 2 17 2 17 2 17 2 17 2
𝜎𝑥2 = [(6 − ) + (4 − ) + (5 − ) + (−1 − ) + (3 − ) ] = 5.84
5 5 5 5 5 5
1 39 2 39 2 39 2 39 2 39 2
𝜎𝑦2 = [(10 − ) + (9 − ) + (14 − ) + (6 − ) + (3 − ) ] = 21.76
5 5 5 5 5 5
1 17 39 17 39
La covariance :cov (x,y) = [(6 − )(10 − ) + (4 − )(9 − ) + (5 −
5 5 5 5 5
17 39 17 39 17 39
)(14 − ) + (−1 − )(6 − ) + (3 − )(3 − )] = 6.85
5 5 5 5 5 5
6.85
Coefficient de corrélation :𝜌𝑥,𝑦 =
√21.76√5.84
Exemple :
On se propose d’étudier la relation entre le prix et les variables suivantes :
cylindrée, puissance, longueur, largeur , poids et vitesse de 18 voitures. Les
données sont résumé.es dans le tableau suivant :
La matrice relative V
CYL PUI LON LAR POI VIT
CYL 139823.5294 6069.7451 5798.7059 1251.2941 40404.2941 3018.5686
PUI 415.1928 288.9118 56.3922 2135.6961 208.8791
LON 488.7353 99.7647 2628.3824 127.7353
LAR 521.7059 30.5098
POI 18757.4412 794.1078
VIT 147.3889
16 MOME 2021-2022
Chapitre I Analyse de Données
La matrice relative R
CYL PUI LON LAR POI VIT
CYL 1.0000 0.79663 0.70146 0.62976 0.78895 0.66493
PUI 1.0000 0.64136 0.520832 0. 76529 0.84438
LON 1.0000 0.84927 0.86809 0.47593
LAR 1.0000 0.71687 0.47295
POI 1.0000 0.47760
VIT 1.0000
Matrice des poids :Elle est utile quand les individus n'ont pas la même
importance. On affecte à chaque individu un poids pi reflétant son importance par
rapport aux autres individus avec pi ≻0 et ∑𝑛𝑖:1 𝑝𝑖 = 1.
p1 diagonalisée
La matrice de poids est la matrice p2 ... pn 1(n,n) dont les éléments diagonaux
sont des poids pi. /
p1 ... 0
p2
D
0 ... pn
D = I / n.
17 MOME 2021-2022
Chapitre I Analyse de Données
Nuage des individus : c’est l’ensemble des points xi munis de leurs poids .
M = {(𝒙𝒊 , 𝒑𝒊 ), 𝒊: 𝟏 … 𝒏}
Centrage de données :
Point moyen: C’est le vecteur g des moyennes arithmétiques de chaque variable .
Le point g de ℝ𝑝 dont le coordonnées sont des moyennes empiriques des
̅̅̅,
variables ( g = (𝑥 1 ̅̅̅,….,
𝑥2 𝑥𝑝 est le centre de gravité ( barycentre )) du nuage
̅̅̅)
de points .
Tableau centré : Il est obtenu en centrant les variables autour de leur moyenne.
Il s’agit de ramener l’origine du repère au centre du barycentre des individus : à
chaque variable observée Xj on associe une variable centrée Yj.
Notation matricielle :
g’ = X’DI
I : vecteur de ℝ𝑛 dont toutes les coordonnées = 1 , ∀ j :1…p
𝑗
gj= ∑𝑛𝑘:1(𝑥)𝑘𝑗 (𝐷𝐼)𝑘 = ∑𝑛𝑘:1 ∑𝑛𝑖:1 𝑥𝑖𝑗 𝐷𝑘𝑖 𝐼𝑖 = ∑𝑛𝑘:1 𝑥𝑘 𝑝𝑘 = 𝑥
̅̅̅𝑗
̅̅̅𝑗
𝑥
̅̅̅𝑗
Centrer les variables : Yj = Xj - (𝑥 ) = Xj - 𝑥
̅̅̅𝑗 I
…
̅̅̅𝑗
𝑥
On passe de la variable X à la variable Y
𝑗 𝑝
𝑦11 .. 𝑦1 𝑦1
𝑗 𝑝
Y = (𝑦 1 𝑦2 … 𝑦𝑝) = 𝑦21 .. 𝑦2 𝑦2
… .. .. ..
1 𝑗 𝑝
(𝑦𝑛 .. 𝑦𝑛 𝑦𝑛 )
𝑗 𝑗
̅̅̅𝑗
Avec : 𝑦𝑖 = 𝑥𝑖 - 𝑥
Y = X – I g’ = X – I I’ D X = (I – I I ‘ d) X
18 MOME 2021-2022
Chapitre I Analyse de Données
Illustrations graphiques
19 MOME 2021-2022
Chapitre I Analyse de Données
j 0
Produit scalaire
Soit E un espace vectoriel de dimension p . E est euclidien s’il est muni d’un
produit scalaire défini par :
< 𝑥, 𝑦 > = f(x,y) ∀ (x,y) 𝜖 E*E , avec f est symétrique et définie positive.
20 MOME 2021-2022
Chapitre I Analyse de Données
p
u, v u ' v u j vk u ' Iv
j 0
p p
u, v M
u ' Mv m jk u j vk
j 0 k 1
Une inertie nulle signifie que tous les individus sont identiques.Si les variables
sont centrées et réduites alors I = p.
Théorème de Huygens :
21 MOME 2021-2022
Chapitre I Analyse de Données
̂Δ ).
la projection de xi sur ∆ est représentée (𝑋𝑖
̂Δ ) = ∑𝑛 𝑚 ‖𝑋
IE(∆) = ∑𝑛𝑖:1 𝑚𝑖 𝑑 2 (𝑂, 𝑋 ̂Δ ‖2
𝑖 𝑖:1 𝑖 𝑖
Plus l’inertie expliquée est grande plus les points sont éloignés.
Théorème de Pythagore :
̂𝑖P )
I(𝑃) = ∑𝑛𝑖:1 𝑚𝑖 𝑑 2 (𝑋𝑖 , 𝑃) = ∑𝑛𝑖:1 𝑚𝑖 𝑑 2 (𝑋𝑖 , 𝑋
̂p ‖2
̂𝑖P ) = ∑𝑛 𝑚𝑖 ‖𝑋
IE(𝑃) = ∑𝑛𝑖:1 𝑚𝑖 𝑑 2 (𝑂, 𝑋 𝑖:1 𝑖
n n
I a pi ei a pi (ei a ) ' M (ei a )
2
M
i 1 i 1
L'inertie totale Ig est la moitié de la moyenne des carrés des distances entre les
n n
individus : 2 I g pi p j ei e j
2
M
i 1 j 1
I g Tr (MV )
22 MOME 2021-2022
Chapitre I Analyse de Données
-Le premier axe passe par la plus grande longueur. Les points du nuage sont les
plus proches de ce grand axe. Il en résulte que l’inertie des points par rapport à
cet axe est la plus faible . Cet axe est donc plus significatif .
-Le second axe traverse la largeur de la dragée , son inertie est plus importante
que celle du premier axe . Cet axe est moins significatif que le précédent .
23 MOME 2021-2022
Chapitre I Analyse de Données
-L’inertie du troisième axe est plus importante que les deux inerties précédentes.
Ce dernier axe traverse l’épaisseur de la dragée , sa signification dans l’analyse
est moindre . Il est à noter que le centre de gravité correspond à l’intersection des
trois axes d’inertie .
L’inertie du nuage est la somme des inerties calculées sur chaque produit : P1,
P2,…. Pn : INR P1 + INR P2 + …. INR Pn = INR totale
Exemple :
Ces notions peuvent être expliquées à parti d’un tableau de contingence dans
lequel on croise 2 produits ( P1 et P2) et deux catégories d’acheteurs (CA 1 et CA 2).
Produits P1 P2 Total
Catégorie d’acheteurs
CA 1 15 9 24
CA 2 7 20 27
Total 22 29 51
24 MOME 2021-2022