Académique Documents
Professionnel Documents
Culture Documents
Semestre 1
MSRH
Pr El Marzouki Abdenbi
2021-2022
Analyse des données
1- Analyse bi-variée
2- Analyse de la variance ANOVA
3- ACP
4-AFC
I - Analyse des séries statistiques
à deux dimensions
F 2 1 0 1 4
G 0 1 2 3 6
H 1
1 0 2 4
I 2 0 1 1 4
K 0 1 0 1 2
n.j 5 4 3 8 20
(nij n *
) 2
( f ij f *
) 2
N
2 ij ij
* *
i, j n ij i, j * ij
f
ni.n. j nij
n *
ij et f *
ij f i . f. j
Statistique Descriptive 2 N Mr. A. El Marzouki N
Soit une population de 20 micro entreprises étudiées en fonction des nombres d’articles X et Y
vendus en une journée
9
Y 2 4 6 8
X
3 2 1 0 1
4 0 1 2 3
6 1
1 0 2
8 2 0 1 1
10 0 1 0 1
Y en 103 2 4 6 8 ni.
X en 103
3 2 1 0 1 4
4 0 1 2 3 6
6 1 1 0 2 4
8 2 0 1 1 4
10 0 1 0 1 2
n.j 5 4 3 8 20
10
X 5,6 10 3 & Y 5,410 3 dh
V ( X ) 5,24 10 6 & V (Y ) 6,04 10 6
X 3 8 12 17
Filière A 13 3 2 1 19
Filière B 5 5 1 2 13
Filière C 1 2 3 0 6
Filière D 5 4 2 1 12
Total 24 14 8 4 50
X 3 8 12 17
Filière A 13 3 2 1 19
Filière B 5 5 1 2 13
Filière C 1 2 3 0 6
Filière D 5 4 2 1 12
Total 24 14 8 4 50
Varinter f i . ( yi y ) 2
Y / X i 1
p
Vartot
j 1
f. j ( y j y ) 2
Statistique Descriptive 2 Mr. A. El Marzouki
Exemple
Tableau : Distribution marginale Y
13
3 8 12 17
Total 24 14 8 4 50
14
Tableau : Distribution conditionnelle Y/ X=FA
3 8 12 17
Filière A 13 3 2 1 19
Y1 barre= 5,47
18 Y/X=filière C 3 8 12 17 Total.
Total 1 2 3 0 n3.=6
3 3,31
Statistique Descriptive 2 Mr. A. El Marzouki
Tableau 5: Distribution conditionnelle de X pour y prenant la modalité 17:
19 X/Y=17 F. A F. B F. C F. D Total.
Total 1 2 0 1 n.4=4
X f. j x j & Y f.i yi
Statistique Descriptive 2 Mr. A. El Marzouki
2. Les caractéristiques d’un couple de variables
20
a- Moyenne d’une somme de deux variables statistiques
X Y X Y
a, b, c ax by c ax by c
b- Covariance entre deux variables statistiques
n
i 1 j 1
ij ( xi X )( y j Y )
Cov( X , Y )
N
k p k p
f
i 1 j 1
ij ( xi X )( y j Y ) f
i 1 j 1
ij xi y j XY
21
1 n
Cov( X , Y ) ( xi X )( yi Y )
n i 1
n
i 1
f i xi yi XY
* Propriétés de la covariance
1. cov(X,Y)=cov(Y,X)
2. cov(X,X)=var(X)
3. var(X+Y)=var(X)+var(Y)+2cov(X,Y)
4. Pour les réels a, b, c: var(aX+bY+c)=a2var(X)+
b2var(Y)+2abcov(X,Y)
Quand il s’agit de mettre en évidence le lien qui peut exister entre deux
variables quantitatives X et Y on utilise le coefficient de corrélation linéaire
ρxy. Mais lorsqu’il s’agit de déterminer le degré de liaison entre une
variable qualitative X et une autre quantitative Y, on choisit dans ce cas le
rapport de corrélation Y/X. Cette corrélation est détectée à l’aide d’un autre
moyen le khi deux si les variables sont toutes les deux qualitatives.
cov( X , Y )
( X ,Y )
( X ) (Y )
* Cas de Données groupées
k p
n ij ( xi x )( y j y )
k
i 1 j 1
P
n i 1
i. ( xi x ) 2
n
i 1
.j ( yi y ) 2
(x i x )( yi y )
ˆ rXY n
i 1
n
; nk
i
( x
i 1
x ) 2
i
( y y ) 2
i 1
n n n
n xi yi xi yi
̂ rXY n
i 1
n
i 1
n
i 1
n
n xi ( xi ) 2 n yi ( yi ) 2
2 2
i 1 i 1 i 1 i 1
i 1
i
( y
i
axi b ) 2
f f
0 ; 0
a b
Les équations normales:
xi ( yi axi b) 0
i
( yi axi b) 0
i
a et b sont les inconnues et la résolution a donné:
Statistique Descriptive 2 Mr. A. El Marzouki
k
29
(x
i 1
i x )( yi y )
Cov( X , Y ) n
a k
V (X ) (x
i 1
i x) 2
n
b Y aX
ˆ
y i
axi b
Statistique Descriptive 2 Mr. A. El Marzouki
ii- Régression de X en Y
30
x a '
y b '
k
(x
i i
i x )( yi y )
i 1
Cov( X , Y )
a '
k
n
V (Y )
( y
i 1
i y) 2
b X aY
' '
n
ˆi
x ˆi
a y ' b '
xi Centre de 8 12 16 20 24 28 32 36 ni
classe
[22 ;28[ 25 5 4 1 0 0 0 0 5 15
[28 ;34[ 31 4 5 8 6 3 2 1 0 29
[34 ;40[ 37 0 2 8 10 9 6 4 2 41
[40 ;46[ 43 1 2 6 8 10 8 6 2 43
[ 46;52[ 49 0 0 2 4 8 6 8 4 32
[ 52;58[ 55 0 0 1 7 10 10 8 4 40
nj 10 13 26 35 40 32 27 17 200
1-Que représente la colonne ni ?Quel est l’âge moyen et le salaire moyen des cadresde l’Ese?
2- Donnez les valeurs n5 ; n4 ;n45 ; n .
3- Calculez et donnez les significations de f5; f7 ; f24; f(i=3/j=4) ; f(j=3/i=4)
4- Dégagez la distribution conditionnelle de X selon le salaire mensuel variant entre 14000 et 18000 Dh.
Calculez et explicitez la moyenne correspondante.
5- En dégageant la distribution conditionnelle de Y selon X=x4 ; calculez et explicitez la moyenne
correspondante.
Les deux variables sont indépendantes si et seulement si
ni.n. j
f ij f i. f. j nij
n
Deux variables quantitatives
Cov( X , Y )
( X ,Y )
( X ) (Y )
Le rapport de corrélation
Varinter f i. ( yi y ) 2
Y / X i 1
p
Vartot
j 1
f. j ( y j y ) 2
k
Varintraclasse f i.Vari ( y )
i 1
Variables Qualitatives
H0= pas de lien entre les deux variables
H1: il existe une liaison entre les variables
(nij n i j )* 2
( f ij f i j )* 2
2
*
N *
i, j n ij i, j f ij
ni.n. j nij*
nij* et f *ij f i. f. j
N N
En analyse de la variance, nous cherchons à expliquer les variations d’une variable métrique Y par un
ou plusieurs facteurs explicatifs nominaux. Le principe de l'analyse de variance consiste à tester l'égalité
des moyennes de J populations normales dans lesquelles nous supposons que les variances sont
égales.
L’analyse de la variance permet de tester les hypothèses suivantes :
Ho: m1 = m2 = ... = mJ
H1: au moins une des moyennes est différente des autres.
Quand l'hypothèse de l'égalité des moyennes est rejetée, les méthodes de comparaisons multiples
permettent de déterminer où se situent en réalité les différences importantes.
A titre d’exemple, nous étudierons la satisfaction d’un cadre à l’égard d’une mesure de motivation
selon les différentes caractéristiques de cette motivation (l’environnement du travail, la promotion,
etc.).
Analyse de la variance à un facteur
ANOVA), appelée ANOVA est une technique permettant de savoir si une variable dépendante Y (variable à
expliquer) est en relation avec une seule variable indépendante X (variable explicative). En d’autres termes,
inférer une relation ente X et Y.
48
Hypothèses:
L’hypothèse nulle:
• H0 : µ1 = µ2 = µ3 =µ...
L’hypothèse alternative:
• H1 : µ1 ≠ µ2 ≠ µ3 ≠ µ…
→ Au moins une moyenne est différente. C’est-à-dire qu’au moins une moyenne n’est pas
égale aux autres .
49
Qu’est ce que l’ANOVA?
Le rejet de H0 : signifie qu’il y a une grande probabilité qu’au moins il y a une différence entre les groupes.
L’analyse Post Hoc est nécessaire pour nous indiquer où se situe la différence entre la ou les moyennes.
Exemple 1:
50
Exemple 2:
51
La variable dépendante est une variable numérique ou quantitative.
La variable indépendante est appelée aussi facteur. C’est une variable catégorielle (
discrète, qualitative ou nominale). Exemple le sexe, statut professionnel.
On utilise l’ANOVA quand notre test d’analyse comporte plus de 2 groupes (variable
indépendante ) et que la variable dépendante est quantitative. En termes plus simples,
ANOVA vise à comparer des moyennes sur plusieurs échantillons afin de déterminer s'il existe
des preuves que les moyennes des échantillons associées sont significativement différentes.
52
Conditions d’utilisation:
Les groupes sont indépendants et aléatoirement tirés de leur population respective, il n’y a ni relation entre les
observations à l’intérieur d’un groupe, ni relation entre les observations entre les groupes.
Il n'y a pas de relation entre les sujets ou mesures de chaque échantillon. Cela signifie que les sujets ou les
mesures du 1er échantillon ne peuvent pas être aussi dans le 2ème échantillon ou le 3ème et ainsi de
suite.
Les échantillons doivent suivent une loi normale, une normalité parfaite n’est pas exigée.
Si les échantillons de grande taille, une violation de la normalité peut donner des valeurs de signification
assez précises.
Les données de la variable dépendante présentent des variances identiques (recours au test de Levene
surtout si la taille des groupes n’est pas identique). Si le test est significatif sig. < 0,05 , on doit faire,
donc, appel au test Brown-Forsythe ou le Welch Robust F..
Lorsque la normalité, l’homogénéité des variances ne sont pas respectées, on peut utiliser le test non
paramétrique de Kruskal-Wallis.
53
Démarche:
Identification du facteur (la variable indépendante) et on sélectionne les données.
Test de normalité.
54
Logiciel SPSS
55
56 Question de recherche :
Les moyennes des revenus des différents Au moins une moyenne des revenus des
diplômés sont égales. différents diplômés n’est pas égales aux
autres.
• Niveau Bac 1
1 ≠ 2 ≠ 3 ≠ 4
• Bac+2 2
Ou 1 ≠ 2
• Bac+3 3 Ou 2 ≠ 3 ( i ≠ j )
• Bac+5 4 Ou 3 ≠ 4 Avec i , j = 1,2,3,4
1 = 2 = 3 = 4 Ou 1 ≠ 3
Ou 1 ≠ 4
Ou 2 ≠ 4
57
Affichagedes variables :
Niveau d’éducation est une variable indépendante (Qualitative).
Revenu est une variable dépendante (Quantitative).
58
Vérification de la condition de
normalité :
59
On place :
La variable dépendante « Revenu », dans « Liste variables dépendantes »
La variable indépendante « Niveau d’éducation », dans « Liste des facteurs ».
60
Appuyer sur
« Diagramme »
61
Significations qui sont globalement supérieurs à 0,05
63
On place :
La variable dépendante « Revenu », dans « Liste variables dépendantes »
La variable indépendante « Niveau d’éducation », dans « Critère ».
64
Appuyer sur « Option »
• Cocher:
Caractéristiques : Statistiques descriptives
Test d’homogénéité de variance
Diagrammes des moyennes
65
Cliquer sur
« Post Hoc »
• Cocher:
Bonferroni, Tukey et Duncan
Niveau de signification:0,05
66
Traitement des données et interprétations des résultats
obtenus sous SPSS
67
1. Analyse descriptive :
69
La condition de normalité est vérifiée selon le test de Kolmogorov-Smirnov.
La condition d’homogénéité des variances est vérifiée selon le test de Levene.
Analyse ANOVA
70
3. Tableau ANOVA :
Les moyennes des revenus des différents ddl (degré de liberté ) 3 et 44 Mesure de F
71
4. Test Post Hoc :
Le revenu du diplômé Bac+5 est le plus élevé , alors que celui du Niveau Bac est le
73 plus faible.
Sous groupe homogènes :
Test Tukey : 3 groupes homogènes «Niveau Bac ; Bac+3», « Bac+3 ; Bac+2 » et « Bac+2 ;
Bac+5 ».
74
Résultats finaux:
L’hypothèse nulle « les moyennes des revenus des différents diplômés sont égales » est
rejetée.
L’hypothèse alternative est acceptée « la différence entre les moyennes des revenus est
significative ».
F(3,44)=10,628
La différence entre les moyennes des revenus des différents diplômés est forte selon ce
test de signification de Fisher:
75
Conclusion
L'ANOVA à un facteur permet de comparer les moyennes de trois groupes ou plus, afin de
déterminer si elles diffèrent de manière significative les unes des autres. Une autre fonction
importante de l'ANOVA à un facteur est d'estimer les différences entre des groupes
spécifiques.
76
II- Analyse des données
77
A- Analyse en Composantes Principales ACP
L’intérêt de l’ACP
L’ACP la méthode
Étude de cas
Analyse des données 19/01/2022
78
B- Analyse Factorielle des Correspondances AFC
L’intérêt de l’AFC
L’AFC la méthode
Étude de cas
Analyse ascendante
Analyse descendante
Analyse hiérarchique
Individus
1 x11 x12 x1p
2 Xn1 .
3 . . ..
. . .
. . .
. . .
n xn1 xn2 xnp
Matrice de corrélation
population nombre
active par de brevets nombre de
rapport à la déposés lignes
popoulation population superf icie nombre au cours taux de téléphoniques
en milliers totale en km carré d'entreprises de l'année chômage en milliers
Corrélation popoulation en milliers 1,000 ,514 ,024 ,981 ,921 -,073 ,978
population active par
rapport à la population ,514 1,000 -,059 ,516 ,708 -,699 ,521
totale
superf icie en km carré ,024 -,059 1,000 ,149 -,164 ,062 -,044
nombre d'entreprises ,981 ,516 ,149 1,000 ,892 -,078 ,971
nombre de brevets
déposés au cours de ,921 ,708 -,164 ,892 1,000 -,257 ,934
l'année
taux de chômage -,073 -,699 ,062 -,078 -,257 1,000 -,068
nombre de lignes
,978 ,521 -,044 ,971 ,934 -,068 1,000
téléphoniques en milliers
0
1 2 3 4 5 6 7
Numéro de composant
Analyse des données 19/01/2022
Tableau 3: Corrélations entre variables et composantes
principales
94
a
Matrice des composantes
Composante
1 2
popoulation en milliers ,958 ,251
population active par
rapport à la population ,721 -,602
totale
superf icie en km carré -2,97E-02 ,300
nombre d'entreprises ,949 ,273
nombre de brevets
déposés au cours de ,975 -2,23E-02
l'année
taux de chômage -,293 ,890
nombre de lignes
,960 ,235
téléphoniques en milliers
Méthode d'extraction : Analyse en composantes principales.
a. 2 composantes extraites.
Analyse des données 19/01/2022
Tableau 4: Extraction de l’information
95
Qualité de r epr ésentation
Extraction
popoulation en milliers ,981
population active par
rapport à la population ,882
totale
superf icie en km carré 9,068E-02
nombre d'entreprises ,976
nombre de brevets
déposés au cours de ,952
l'année
taux de chômage ,878
nombre de lignes
,977
téléphoniques en milliers
Méthode d'extraction : Analyse des principaux composants.
,5
superfi ci e en km car nom bre d'en
popoul
nom breati
de on
l
nom bre de b
0,0
-1,0
-1,0 -,5 0,0 ,5 1
Analyse des données 19/01/2022
Composante
1 2
popoulation en milliers ,223 ,175
population active par
rapport à la population ,168 -,419
totale
superf icie en km carré -,007 ,208
nombre d'entreprises ,221 ,190
nombre de brevets
déposés au cours de ,227 -,016
l'année
taux de chômage -,068 ,619
nombre de lignes
,223 ,163
téléphoniques en milliers
Méthode d'extraction : Analyse en composantes principales.
Scores composante.
Analyse des données 19/01/2022
Tableau 7: Covariance des composantes
99
Composante 1 2
1 1,000 ,000
2 ,000 1,000
Méthode d'extraction : Analyse en composantes principales.
Scores composante.
1 Aquitaine
Midi_Pyrénnées
Picardie
Bretagne
Pays de Loire
Poitou Charentes Rhône Alpes
Lorraine
Haute Normandie
0 Auvergne Ile de France
Champagne Ardenne
Centre
Bourgogne
Basse-Normandie
Limousin
-1 Franche Comté
-2 Alsace
-3
-1 0 1 2 3 4 5
Analyse des données 19/01/2022
Population active
Taux de chômage
L’intérêt de l’AFC
Étude de cas
Analyse des données 19/01/2022
104
L’intérêt de l’AFC
Élaborée par Benzécri en 1965, l’AFC est une méthode
d’analyse multidimensionnelle dont le champs
d’application est très vaste.
L’AFC est un outil très performant dans l’analyse des
données d’un tableau de contingence.
X x1 x2 …xj… Xq
FILIÈRE
Sciences Médecine Pluridicipl D
Droit économiques Lettres Sciences et dentaire Pharmacie inaire tec
80 36 134 99 65 28 11
6 2 15 6 4 1 1
168 74 312 137 208 53 21
470 191 806 400 876 164 45
236 99 493 264 281 56 36
145 52 281 133 135 30 20
166 64 401 193 127 23 28
e 16 6 27 11 8 2 2
305 115 624 247 301 47 42
1592 639 3093 1490 2005 404 206
Valeur singulière de
Proportion d'inertie confiance
Corrélatio
Valeur Pris en n
Dimension singulière Inertie Khi-deux Sig. compte Cumulé Ecart-type 2
1 ,199 ,040 ,837 ,837 ,010 ,093
2 ,074 ,005 ,115 ,952 ,011
3 ,034 ,001 ,024 ,976
4 ,031 ,001 ,020 ,996
5 ,012 ,000 ,003 ,999
6 ,007 ,000 ,001 1,000
7 ,001 ,000 ,000 1,000
Total ,047 474,668 ,000a 1,000 1,000
a. 56 degrés de liberté
Profils lignes
FILIÈRE
Sciences Médecine Pluridicipl Diplôme
ORIGINE Droit économiques Lettres Sciences et dentaire Pharmacie inaire technique Marge active
Exploitant agricole ,157 ,070 ,262 ,194 ,127 ,055 ,022 ,114 1,000
Salarié agricole ,154 ,051 ,385 ,154 ,103 ,026 ,026 ,103 1,000
Patron ,162 ,071 ,301 ,132 ,201 ,051 ,020 ,060 1,000
Prof. libérale et ca ,155 ,063 ,266 ,132 ,289 ,054 ,015 ,026 1,000
Cadre moyen ,152 ,064 ,318 ,170 ,181 ,036 ,023 ,056 1,000
Employé ,171 ,061 ,331 ,156 ,159 ,035 ,024 ,064 1,000
Ouvriers ,147 ,057 ,355 ,171 ,112 ,020 ,025 ,114 1,000
Personnel de service ,200 ,075 ,338 ,138 ,100 ,025 ,025 ,100 1,000
Autres ,172 ,065 ,352 ,139 ,170 ,027 ,024 ,051 1,000
Masse ,159 ,064 ,309 ,149 ,201 ,040 ,021 ,057
Profils colonnes
FILIÈRE
Sciences Médecine Pluridicipl Diplôme
ORIGINE Droit économiques Lettres Sciences et dentaire Pharmacie inaire technique Masse
Exploitant agricole ,050 ,056 ,043 ,066 ,032 ,069 ,053 ,102 ,051
Salarié agricole ,004 ,003 ,005 ,004 ,002 ,002 ,005 ,007 ,004
Patron ,106 ,116 ,101 ,092 ,104 ,131 ,102 ,109 ,104
Prof. libérale et ca ,295 ,299 ,261 ,268 ,437 ,406 ,218 ,138 ,303
Cadre moyen ,148 ,155 ,159 ,177 ,140 ,139 ,175 ,152 ,155
Employé ,091 ,081 ,091 ,089 ,067 ,074 ,097 ,095 ,085
Ouvriers ,104 ,100 ,130 ,130 ,063 ,057 ,136 ,226 ,113
Personnel de service ,010 ,009 ,009 ,007 ,004 ,005 ,010 ,014 ,008
Autres ,192 ,180 ,202 ,166 ,150 ,116 ,204 ,158 ,177
Marge active 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
Score dans la
dimension Contribution
De point à inertie de
dimension De dimension à inertie de point
ORIGINE Masse 1 2 Inertie 1 2 1 2 Total
Exploitant agricole ,051 ,521 ,833 ,006 ,070 ,480 ,497 ,470 ,967
Salarié agricole ,004 ,723 -,121 ,000 ,010 ,001 ,932 ,010 ,941
Patron ,104 -,044 ,110 ,001 ,001 ,017 ,064 ,147 ,211
Prof . libérale et ca ,303 -,590 ,088 ,021 ,530 ,032 ,987 ,008 ,995
Cadre moyen ,155 ,111 -,042 ,001 ,010 ,004 ,394 ,021 ,415
Employé ,085 ,232 -,122 ,001 ,023 ,017 ,810 ,083 ,893
Ouvriers ,113 ,750 ,110 ,013 ,319 ,019 ,950 ,008 ,958
Personnel de service ,008 ,652 -,078 ,001 ,017 ,001 ,806 ,004 ,810
Autres ,177 ,153 -,423 ,003 ,021 ,430 ,255 ,726 ,980
Total actif 1,000 ,047 1,000 1,000
a. Normalisation principale symétrique
Score dans la
dimension Contribution
De point à inertie de
dimension De dimension à inertie de point
FILIÈRE Masse 1 2 Inertie 1 2 1 2 Total
Droit ,159 ,008 -,120 ,001 ,000 ,031 ,004 ,313 ,317
Sciences économiques ,064 -,026 ,043 ,000 ,000 ,002 ,032 ,032 ,064
Lettres ,309 ,202 -,273 ,004 ,063 ,313 ,587 ,397 ,985
Sciences ,149 ,214 ,185 ,002 ,034 ,069 ,559 ,155 ,713
Médecine et dentaire ,201 -,702 ,074 ,020 ,496 ,015 ,982 ,004 ,986
Pharmacie ,040 -,558 ,666 ,004 ,063 ,243 ,606 ,320 ,926
Pluridiciplinaire ,021 ,397 -,231 ,001 ,016 ,015 ,846 ,106 ,952
Diplôme technique ,057 1,069 ,636 ,015 ,327 ,312 ,867 ,114 ,981
Total actif 1,000 ,047 1,000 1,000
a. Normalisation principale symétrique
,8
Pharm acie Diplôm e technique
,6
,4
Sciences
,2
Médecine et dentaire
Sciences économ iques
0,0
Droit
-,2 Pluridiciplinaire
Lettres
-,4
-1,0 -,5 0,0 ,5 1,0 1,5
Dimension 1
Analyse des données 19/01/2022
Points de ligne et de colonne
117
Symétrique Normalisation
1,0
,8
Pharmacie Diplôme technique
,6
,4
Sciences
,2 Prof. libérale
Médecine et ca
et dentaire Patron Ouvriers
Sciences économiques
-,0 Personnel
Salariéde service
agricole
Pluridiciplinaire
-,2
Autres FILIÈRE
-,4
-,6 ORIGINE
-1,0 -,5 0,0 ,5 1,0 1,5