Analyse Des Données Ab, Anova, Acp Et Afc MSRH 2021 2022

ANALYSE DES DONNEES
Semestre 1
MSRH
Pr El Marzouki Abdenbi
2021-2022
Analyse des données
1- Analyse bi-variée
2- Analyse de la variance ANOVA
3- ACP
4-AFC
I - Analyse des séries statistiques
à deux dimensions
Contrairement à l’analyse unidimensionnelle de la

population où celle-ci est étudiée selon un seul caractère, le
traitement statistique se fera maintenant sur la base de deux
caractères X et Y. Ces séries statistiques doubles seront
pondérées ou non et sur lesquels nous pouvons mener
différentes analyses suivant le besoin.
Deux points sont à traiter dans ce chapitre, le tableau de
3 contingence et la corrélation.
Statistique Descriptive 2 Mr. A. El Marzouki

1- Le tableau à double entrée
Lorsqu’il s’agit de l’étude d’une population en fonction de

deux variables (X,Y), les observations peuvent se présenter sous
forme de tableau de contingence. Ce tableau croise les modalités
de la variable X (en ligne) avec les modalités de la variable Y (en
colonne).

a. Présentation d’un tableau à double entrée
5
Soit une population de N individus classés selon deux

caractères X (le revenu par exemple) et Y (la
consommation).
Ainsi, le couple (X, Y) forme une variable statistique à
deux dimensions qu’on peut mettre dans un tableau à
double entrée.

Tableau de contingence :
Distribution de la population selon X et Y,
6
Tableau 1: Données théoriques
Y y1 y2 ... yj … yp Colonne
marginale
X ni.
x1 n11 n12 … n1j … n1p n1.
x2 n21 n22 … n2j … n2p n2.
… … … … ... … … …
xi ni1 ni2 … … nip ni.
… … …
nij … … …
…
xk nk1 nk2 … … … nkp nk.
nkj
Ligne n.1 n.2 … n.j … n.p
marginale N=n..
n.j

X représente les salaires et Y la consommation toutes les deux en milliers de DH
Y [1-3[ [3-5[ [5-7[ Colonne

marginale
X 2000 4000 6000 ni.
[4-8[ 6000 0 2 1 3
[8-10[ 9000 1 3 2 6
[10-12[ 11000 1 2 0 3
Ligne marginale n.1 n.2 n.3 N=n..=12

n.j 2 7 3
Soit une population de 20 micro entreprises étudiées en fonction de X secteur d’activité et Y le
statut juridique
Y A B C D ni.
8 X
F 2 1 0 1 4
G 0 1 2 3 6
H 1
1 0 2 4
I 2 0 1 1 4
K 0 1 0 1 2
n.j 5 4 3 8 20
(nij  n *
) 2
( f ij  f *
) 2
   N
2 ij ij
* *
i, j n ij i, j * ij
f
ni.n. j nij
n  *
ij et f *
ij  f i . f. j 
Statistique Descriptive 2 N Mr. A. El Marzouki N
Soit une population de 20 micro entreprises étudiées en fonction des nombres d’articles X et Y
vendus en une journée
9
Y 2 4 6 8
X
3 2 1 0 1
4 0 1 2 3
6 1
1 0 2
8 2 0 1 1
10 0 1 0 1

Soit une population de 20 micro entreprises étudiées en fonction des nombres d’articles X et Y
vendus en une journée
Y en 103 2 4 6 8 ni.
X en 103
3 2 1 0 1 4
4 0 1 2 3 6
6 1 1 0 2 4
8 2 0 1 1 4
10 0 1 0 1 2
n.j 5 4 3 8 20
10
X  5,6 10 3 & Y  5,410 3 dh
V ( X )  5,24 10 6 & V (Y )  6,04 10 6

Exemple
Tableau 2 : Distribution de 50 étudiants selon la filière X et les notes Y
11
Y [0;6[ [6;10[ [10;14[ [14;20[ Total.
X 3 8 12 17
Filière A 13 3 2 1 19
Filière B 5 5 1 2 13
Filière C 1 2 3 0 6
Filière D 5 4 2 1 12
Total 24 14 8 4 50
1. Calculer la moyenne marginale de Y et son écart type

2. Donner la distribution conditionnelle de Y/ X=x3, et calculer sa moyenne
et son écart type.

Exemple
Tableau 2 : Distribution de 50 étudiants selon la filière X et les notes Y
12
Y [0;6[ [6;10[ [10;14[ [14;20[ Total.
X 3 8 12 17
Filière A 13 3 2 1 19
Filière B 5 5 1 2 13
Filière C 1 2 3 0 6
Filière D 5 4 2 1 12
Total 24 14 8 4 50
Varinter  f i . ( yi  y ) 2
Y / X   i 1
p
Vartot

j 1
f. j ( y j  y ) 2
Exemple
Tableau : Distribution marginale Y
13
Y [0;6[ [6;10[ [10;14[ [14;20[ Total.
3 8 12 17
Total 24 14 8 4 50
Tableau : Distribution marginale X

ni.
X
Filière A 19
Filière B 13
Filière C 6
Filière D 12
Total 50
Exemple
14
Tableau : Distribution conditionnelle Y/ X=FA
Y/X=x1 [0;6[ [6;10[ [10;14[ [14;20[ Total.
3 8 12 17
Filière A 13 3 2 1 19
Y1 barre= 5,47

15 Y barre=6,96 ; V(Y)=19,96
Y1 barre Y2 barre Y3 barre Y4 barre

5,47 7, 77 9,17 7,33
0,38*(y1-ybar)2= 0,84 0,26*..=0,1 0,12*..=0,58 0,24*..=0,03
7

b. Distributions marginales
16
Le tableau de contingence, présenté
précédemment, contient deux distributions
marginales, la variable X prise indépendamment
du caractère Y et celui-ci pris indépendamment
de X.
c. Distributions conditionnelles
La distribution conditionnelle X sachant que Y=yj

(notée X/ Y=yj) est constituée par les individus
possédant la modalité yj et toutes les modalités de X.
17
Ainsi, à partir du tableau précédent, on compte 2 distributions marginales et
autant de distributions conditionnelles qu’il y a de modalités de X et de Y (au
total 8 distributions conditionnelles).
Les 4 couples (xi; ni.) définissent la distribution marginale X.

Les 4 couples (yj; n.j) définissent la distribution marginale Y.
Y [0;6[ [6;10[ [10;14[ [14;20[ Total.

3 8 12 17
Total 24 14 8 4 50
Filière A Filière B Filière C Filière D Total.

X
Total 19 13 6 12 50

Tableau 3: Distribution conditionnelle de Y pour X prenant la modalité filière C:
18 Y/X=filière C 3 8 12 17 Total.
Total 1 2 3 0 n3.=6
Cette distribution peut être réécrite sous la forme de fréquences conditionnelles:

nij n3 j n3 j
f j/i  Où i=3 et j=1,2,3 et 4 f j/3  
ni . n3. 6
Tableau 4: Distribution conditionnelle de Y pour X prenant la modalité filière C:
Y/X=filière C 3 8 12 17 Total.
Total 0,17 0,33 0,5 0 f./i=3=1
La moyenne et la variance conditionnelle de Y/X=x3:

4 4
y3   f j / 3 y j  09,15 et V3   f j / 3 ( y j  y3 ) 2  10,9275
j 1 j 1
 3  3,31
Tableau 5: Distribution conditionnelle de X pour y prenant la modalité 17:
19 X/Y=17 F. A F. B F. C F. D Total.
Total 1 2 0 1 n.4=4
Cette distribution peut être réécrite sous la forme de fréquences conditionnelles:

nij ni 4 ni 4
fi / j  Où j=4 et i=1,2,3 et 4 fi / 4  
n. j n.4 4
Tableau 6 : Distribution conditionnelle de X pour y= 17 :
X/Y=17 F. A F. B F. C F. D Total.
Total 0,25 0,50 0 0,25 f./j=4=1
Si X a été une variable quantitative, alors la moyenne et la variance

conditionnelle X/Y=y4 seraient: 4 4
X 4   f i / 4 xi et V4 ( X )   f i / 4 ( xi  x4 ) 2
i 1 j 1
X   f. j x j & Y   f.i yi
2. Les caractéristiques d’un couple de variables
20
a- Moyenne d’une somme de deux variables statistiques
X Y  X Y
a, b, c   ax  by  c  ax  by  c
b- Covariance entre deux variables statistiques
* Cas de Données groupées dans un tableau de contingence (covariance

pondérée)
k p
 n
i 1 j 1
ij ( xi  X )( y j  Y )
Cov( X , Y ) 
N
k p k p
  f
i 1 j 1
ij ( xi  X )( y j  Y )   f
i 1 j 1
ij xi y j  XY

* Cas de Données individuelles
21
1 n
Cov( X , Y )   ( xi  X )( yi  Y )
n i 1
n
 
i 1
f i xi yi  XY
* Propriétés de la covariance
1. cov(X,Y)=cov(Y,X)
2. cov(X,X)=var(X)
3. var(X+Y)=var(X)+var(Y)+2cov(X,Y)
4. Pour les réels a, b, c: var(aX+bY+c)=a2var(X)+
b2var(Y)+2abcov(X,Y)

3. Corrélation
22
Quand il s’agit de mettre en évidence le lien qui peut exister entre deux
variables quantitatives X et Y on utilise le coefficient de corrélation linéaire
ρxy. Mais lorsqu’il s’agit de déterminer le degré de liaison entre une
variable qualitative X et une autre quantitative Y, on choisit dans ce cas le
rapport de corrélation Y/X. Cette corrélation est détectée à l’aide d’un autre
moyen le khi deux  si les variables sont toutes les deux qualitatives.

a. Le coefficient de corrélation linéaire
23 La mesure de la liaison linéaire entre deux variables

quantitatives est assurée par le calcul d’un coefficient de
corrélation linéaire, noté ρ:
cov( X , Y )
 ( X ,Y ) 
 ( X ) (Y )
* Cas de Données groupées
k p
 n ij ( xi  x )( y j  y )
  k
i 1 j 1
P
n i 1
i. ( xi  x ) 2
n
i 1
.j ( yi  y ) 2

* Cas de Données individuelles
24
n
(x i  x )( yi  y )
ˆ  rXY  n
i 1
n
; nk
 i
( x
i 1
 x ) 2
 i
( y  y ) 2
i 1
Ce coefficient peut s’écrire sous la forme:
n n n
n xi yi   xi  yi
̂  rXY  n
i 1
n
i 1
n
i 1
n
n xi  ( xi ) 2 n yi  ( yi ) 2
2 2
i 1 i 1 i 1 i 1

25
Ce coefficient est compris entre -1 et 1:
• Proche de 1, les variables sont corrélées positivement;
•Proche de -1, les variables sont corrélées négativement;
• Proche de 0, les variables ne sont pas corrélées.

b. L’ajustement linéaire
26
Dans ce chapitre nous allons essayer de déterminer la forme de
la fonction f qui ajuste au mieux les observations (xi,yj). Il s’agit
d’établir une relation entre Y et X de forme linéaire ou non
linéaire. Quand cette forme s’avère analytique, la méthode
utilisée pour réaliser l’ajustement (détermination des coefficients
de régression) est la méthode des moindres carrés. Cette
dernière consiste à minimiser la somme des carrés des écarts des
points observés à la droite de régression.

i- Droite de régression de Y en X
Supposons
27 n individus décrits en fonction de la consommation (Y) et du revenu (X). Le
nuage des points des couples (xi,yi) montre un aspect linéaire qu’on peut mettre sous la
forme de y=ax+b. Les valeurs des paramètres a et b de cette relation doivent être recherchées
de telle sorte que la droite soit le plus proche possible du nuage des points. Pour cela on
définit le résidus:
ei= yi – axi - b ; i=1,…,n
y
yi -------------------------------------------- .•
axi +b --------------------------------------------
e i{
.•
Y=ax+b
.• |
.• |
.•
.• |
.• |
.• |
| x
Figure 1:Nuage des points et MCO xi
La méthode des moindres carrés ordinaires MCO permet de rechercher les valeurs de a et de b.
Cette méthode se base sur la minimisation des carrés des résidus:
28
n
f ( a, b)   i 
e 2
i 1
 i
( y 
i
axi  b ) 2
Les conditions du premier ordre:
f f
0 ; 0
a b
Les équations normales:
 xi ( yi  axi  b)  0
 i

 ( yi  axi  b)  0
 i
a et b sont les inconnues et la résolution a donné:
k
29
(x
i 1
i  x )( yi  y )
Cov( X , Y )  n
a  k
V (X ) (x
i 1
i  x) 2
n
b  Y  aX
ˆ
y i
 axi  b
ii- Régression de X en Y
30
x a '
y b '
k
(x
i i
i  x )( yi  y )
i 1
Cov( X , Y )
a  '
 k
n
V (Y )
( y
i 1
i  y) 2
b  X  aY
' '
n
ˆi 
x ˆi 
a y ' b '

Exercice 1:
31
Le directeur commercial du Groupe BETA vous a chargé de lui établir

une liaison entre le bénéfice (Y) et le chiffre d'affaires (X). Pour vous
faciliter la tache, il vous a donné les informations suivantes :
Le groupe est composé de 30 entreprises ; le coefficient de corrélation
r(X,Y)=0,98 ; les écart-types (X)=2,64  (Y) ;
Le bénéfice total réalisé par le groupe est égal à 33 millions de DH et le
chiffre d'affaires a atteint une somme totale de 132 millions de DH.
1- Déterminez l'équation de la droite de régression de Yen X par la
méthode des moindres carrés ordinaires.
2- Quel serait le bénéfice réalisé par une entreprise si elle a pu faire 2
millions de DH de chiffre d'affaires?

Exercice 2:
Une
33 fabrique produit deux types de pièce différents. Sur une dizaine
de jour, les ventes journalières x et y, respectivement, de la 1ère pièce
et de la 2ème, ont été comme suite :
 x = 540 dh ;  y = 785 dh
On sait en outre, que :  x2 = 29426 ;
 y2 = 71459 ;
 x y =42836
1. Calculer l’intensité de liaison entre les ventes journalières de la
1ère pièce et les ventes journalières de la 2ème pièce. Commenter.
2. Quelle serait la valeur des ventes journalières de la 2ème pièce si
celle de la 1ère est de 55 dh ?

Exercice 3:
Années x: Indice du pouvoir d'achat Y: Salaire moyen
2001
34 293 329
2002 296 336
2003 296 334
2004 302 337
2005 311 340
2006 314 346
2007 315 347
2008 322 349
2009 326 352
2010 331 351
SOMME 3106 3421
1. Donner l’équation de la droite de régression de Y en X et de X en Y
2. si X= 305, quel serait le montant du salaire moyen correspondant?
3. Si Y= 338 quel serait l’indice du pouvoir d’achat correspondant?

35
V(x)= 162,44 ; V(Y)= 56,89 ; ∑xy=1063491
Y= 0,5715X+ 164,59 et X=1,6319Y-

247,7

Exercice: Dans son rapport de stage de fin d’étude, une étudiante a été chargée d’établir le lien
éventuel entre salaires et âges de 200 cadres d’une entreprise. En quatre jours, elle a pu collecter
les données qu’elle les a mise sous forme d’un tableau à double entrée avec les xi représentant
l’âge36
et yj le salaire mensuel en mille dirhams (103Dh)
yj [6 ;10[ [10;14[ [14;18[ [18;22[ [22;26[ [26;30[ [30;34[ [34;38[
xi Centre de 8 12 16 20 24 28 32 36 ni
classe
[22 ;28[ 25 5 4 1 0 0 0 0 5 15
[28 ;34[ 31 4 5 8 6 3 2 1 0 29
[34 ;40[ 37 0 2 8 10 9 6 4 2 41
[40 ;46[ 43 1 2 6 8 10 8 6 2 43
[ 46;52[ 49 0 0 2 4 8 6 8 4 32
[ 52;58[ 55 0 0 1 7 10 10 8 4 40
nj 10 13 26 35 40 32 27 17 200
1-Que représente la colonne ni ?Quel est l’âge moyen et le salaire moyen des cadresde l’Ese?
2- Donnez les valeurs n5 ; n4 ;n45 ; n .
3- Calculez et donnez les significations de f5; f7 ; f24; f(i=3/j=4) ; f(j=3/i=4)
4- Dégagez la distribution conditionnelle de X selon le salaire mensuel variant entre 14000 et 18000 Dh.
Calculez et explicitez la moyenne correspondante.
5- En dégageant la distribution conditionnelle de Y selon X=x4 ; calculez et explicitez la moyenne
correspondante.
Les deux variables sont indépendantes si et seulement si
ni.n. j
f ij  f i. f. j  nij 
n
Deux variables quantitatives
Cov( X , Y )
 ( X ,Y ) 
 ( X ) (Y )
Le rapport de corrélation
Varinter f i. ( yi  y ) 2
Y / X   i 1
p
Vartot

j 1
f. j ( y j  y ) 2
Variance totale=Variance interclasse + Variance intra-classe
k
Varintraclasse   f i.Vari ( y )
i 1
Variables Qualitatives
H0= pas de lien entre les deux variables
H1: il existe une liaison entre les variables
(nij  n i j )* 2
( f ij  f i j )* 2
 
2
*
 N *
i, j n ij i, j f ij
ni.n. j nij*
nij*  et f *ij  f i. f. j 
N N
Khi deux tabulé au niveau alpha et (p-1)(k-1) ddl

2-ANALYSE DE LA VARIANCE
En analyse de la variance, nous cherchons à expliquer les variations d’une variable métrique Y par un
ou plusieurs facteurs explicatifs nominaux. Le principe de l'analyse de variance consiste à tester l'égalité
des moyennes de J populations normales dans lesquelles nous supposons que les variances sont
égales.
L’analyse de la variance permet de tester les hypothèses suivantes :
 Ho: m1 = m2 = ... = mJ
 H1: au moins une des moyennes est différente des autres.
Quand l'hypothèse de l'égalité des moyennes est rejetée, les méthodes de comparaisons multiples
permettent de déterminer où se situent en réalité les différences importantes.
A titre d’exemple, nous étudierons la satisfaction d’un cadre à l’égard d’une mesure de motivation
selon les différentes caractéristiques de cette motivation (l’environnement du travail, la promotion,
etc.).
Analyse de la variance à un facteur
Elle permet de traiter les différences de moyennes d’une variable

dépendante quantitative Y lorsque la variable indépendante à plus
de deux modalités. Ainsi, le rendement d’un cadre d’une entreprises
peut il être expliqué par le diplôme. Le test est vérifié par le test F sous
SPSS.
Soit une population de 26 salariés d’une entreprise étudiée en fonction
du rendement (Y) et du diplôme (X). Cette dernière a quatre
modalités Techniciens sans qualification, Techniciens qualifiés,
Techniciens spécialisés et Techniciens spécialisés supérieurs.
Problème: Est-ce que ces salariés arrivent-ils à donner le même
rendement malgré qu’ils possèdent des diplômes différents?
La réponse à cette question consiste donc à construire un test

d’hypothèses.
H0: le rendement moyen des différents groupes de salariés est le
même,
H1: le contraire de H0, autrement dit, le type du diplôme influence
significativement le rendement des salariés de cette entreprise
Il s’agit donc du test de l’analyse de la variance ANOVA (analysis of

variance) à un facteur
Pour mener convenablement ce test deux conditions doivent être

respectées:
1- Normalité de la variable dépendante Rendement
2- Homogénéité de la variance du rendement dans les différents groupes
(test de Levene) (en cas d’hétérogénéité nous devrions utiliser la statistique
corrigée de Welch, Brown-Forsythe)
La démarche ANOVA à un facteur sur SPSS

-Saisir les données
- Tester la normalité des données: Analyse, Stat Descr, Explorer, diagrammes
de répartition gaussienne ou Analyse, tests non paramétriques à un
échantillon
- Tester l’homogénéité de la variance : Analyse, comparer les moyennes,
ANOVA à un facteur, Post Hoc, Duncan, Tukey, Bonferroni au cas où la
variance est homogène sinon le test de Brown-Forsythe, Welch qui seront
activés.
- Commentaires
Introduction:
47
 Dans cet exposé, nous allons voir comment peut-on procéder à
l’analyse ANOVA à 1 facteur entre des échantillons indépendants

par le biais du logiciel SPSS et quels sont les résultats à mettre
sur le rapport final ?
Définition:
 ANOVA est l’abréviation de ANalysis Of VAriance. L’ANOVA est une méthode d’analyse bivariée.
C’est-à-dire le croisement de 2 variables de nature différente. L’analyse de variance, à un facteur (One way
ANOVA), appelée ANOVA est une technique permettant de savoir si une variable dépendante Y (variable à
expliquer) est en relation avec une seule variable indépendante X (variable explicative). En d’autres termes,
inférer une relation ente X et Y.
48
Hypothèses:
L’hypothèse nulle:
• H0 : µ1 = µ2 = µ3 =µ...
→ Les moyennes de la population sont égales.
L’hypothèse alternative:
• H1 : µ1 ≠ µ2 ≠ µ3 ≠ µ…
→ Au moins une moyenne est différente. C’est-à-dire qu’au moins une moyenne n’est pas
égale aux autres .
49
Qu’est ce que l’ANOVA?
 Le rejet de H0 : signifie qu’il y a une grande probabilité qu’au moins il y a une différence entre les groupes.
L’analyse Post Hoc est nécessaire pour nous indiquer où se situe la différence entre la ou les moyennes.
 Exemple 1:
• Variable indépendante (qualitative):

 Niveau social (à 3 niveaux)
- Classe supérieure
- Classe moyenne
- Classe inférieure
•Variable dépendante (quantitative):
 Satisfaction des services hôteliers
50
Exemple 2:
 Variable indépendante (qualitative):

 Le niveau de formation
- DEUG
- Licence
- Master
•Variable dépendante (quantitative):
 Le salaire
51
 La variable dépendante est une variable numérique ou quantitative.
 La variable indépendante est appelée aussi facteur. C’est une variable catégorielle (
discrète, qualitative ou nominale). Exemple le sexe, statut professionnel.
 On utilise l’ANOVA quand notre test d’analyse comporte plus de 2 groupes (variable
indépendante ) et que la variable dépendante est quantitative. En termes plus simples,
ANOVA vise à comparer des moyennes sur plusieurs échantillons afin de déterminer s'il existe
des preuves que les moyennes des échantillons associées sont significativement différentes.
 ANOVA est un test paramétrique ( la moyenne, l’écart-type).
52
Conditions d’utilisation:
 Les groupes sont indépendants et aléatoirement tirés de leur population respective, il n’y a ni relation entre les
observations à l’intérieur d’un groupe, ni relation entre les observations entre les groupes.
 Il n'y a pas de relation entre les sujets ou mesures de chaque échantillon. Cela signifie que les sujets ou les
mesures du 1er échantillon ne peuvent pas être aussi dans le 2ème échantillon ou le 3ème et ainsi de
suite.
 Les échantillons doivent suivent une loi normale, une normalité parfaite n’est pas exigée.
Si les échantillons de grande taille, une violation de la normalité peut donner des valeurs de signification
assez précises.
 Les données de la variable dépendante présentent des variances identiques (recours au test de Levene
surtout si la taille des groupes n’est pas identique). Si le test est significatif sig. < 0,05 , on doit faire,
donc, appel au test Brown-Forsythe ou le Welch Robust F..
 Lorsque la normalité, l’homogénéité des variances ne sont pas respectées, on peut utiliser le test non
paramétrique de Kruskal-Wallis.
53
Démarche:
 Identification du facteur (la variable indépendante) et on sélectionne les données.
 Test de normalité.
 Test d’homogénéité des variances.
 On pose les hypothèses:

 Ho= Les moyennes égales.
 H1= Au moins une moyenne est différente des autres.
54
Logiciel SPSS
55
56 Question de recherche :
Est-ce que les revenus des individus varient en fonction

du niveau d’éducation ?
Test d’hypothèse :
L’hypothèse nulle H0 L’hypothèse alternative H1
 Les moyennes des revenus des différents  Au moins une moyenne des revenus des
diplômés sont égales. différents diplômés n’est pas égales aux
autres.
• Niveau Bac 1
 1 ≠ 2 ≠ 3 ≠ 4
• Bac+2 2
 Ou 1 ≠ 2
• Bac+3 3  Ou 2 ≠ 3 ( i ≠ j )
• Bac+5 4  Ou 3 ≠ 4 Avec i , j = 1,2,3,4
 1 = 2 = 3 = 4  Ou 1 ≠ 3
 Ou 1 ≠ 4
 Ou 2 ≠ 4
57
Affichagedes variables :
 Niveau d’éducation est une variable indépendante (Qualitative).
 Revenu est une variable dépendante (Quantitative).
58
Vérification de la condition de
normalité :
59
On place :
 La variable dépendante « Revenu », dans « Liste variables dépendantes »
 La variable indépendante « Niveau d’éducation », dans « Liste des facteurs ».
60
Appuyer sur
« Diagramme »
• Cocher: Graphe de répartition gaussien

avec tests.
61
Significations qui sont globalement supérieurs à 0,05
L’hypothèse de normalité est confirmée.

62
Analyse d’ANOVA :
Analyse Comparer les moyennes ANOVA 1 facteur
63
On place :
 La variable dépendante « Revenu », dans « Liste variables dépendantes »
 La variable indépendante « Niveau d’éducation », dans « Critère ».
64
Appuyer sur « Option »
• Cocher:
 Caractéristiques : Statistiques descriptives
 Test d’homogénéité de variance
 Diagrammes des moyennes
65
Cliquer sur
« Post Hoc »
• Cocher:
 Bonferroni, Tukey et Duncan
 Niveau de signification:0,05
66
Traitement des données et interprétations des résultats
obtenus sous SPSS
67
1. Analyse descriptive :
 Niveau bac ( 1 =100250; N = 12)
 Bac+2 ( 2= 119500 ; N = 12)
 Bac+3 ( 3 = 108750 ; N = 12)
 Bac+5 ( 4 = 126750; N = 12)

68
2. Test d’homogénéité des
variances:
 Signification = 0,931 > 0,05
69
 La condition de normalité est vérifiée selon le test de Kolmogorov-Smirnov.
 La condition d’homogénéité des variances est vérifiée selon le test de Levene.
Analyse ANOVA
70
3. Tableau ANOVA :
 Signification = 0,000 < 0,05  F(3,44) = 10,628
 Les moyennes des revenus des différents  ddl (degré de liberté ) 3 et 44 Mesure de F
diplômés sont différentes. =10,628
71
4. Test Post Hoc :
 La différence des moyennes de chaque binôme est statiquement significative entre:
« Niveau Bac et Bac+2 » , « Niveau Bac et Bac+5 » , « Bac+3 et Bac+5 ». ( Sig

<0,05)
72
Diagramme des moyennes :
 Le revenu du diplômé Bac+5 est le plus élevé , alors que celui du Niveau Bac est le
73 plus faible.
Sous groupe homogènes :
 Test Tukey : 3 groupes homogènes «Niveau Bac ; Bac+3», « Bac+3 ; Bac+2 » et « Bac+2 ;
Bac+5 ».
 Test Duncan : 2 groupes homogènes « Niveau Bac ; Bac+3 » et « Bac+2 ; Bac+5 » .
74
Résultats finaux:
 L’hypothèse nulle « les moyennes des revenus des différents diplômés sont égales » est
rejetée.
 L’hypothèse alternative est acceptée « la différence entre les moyennes des revenus est
significative ».
 F(3,44)=10,628
 La différence entre les moyennes des revenus des différents diplômés est forte selon ce
test de signification de Fisher:
Revenu faible : Revenu élevé:

Bac+2 ( 2= 100250 ; N = 12) Niveau bac (1 = 119500 ; N = 12)
et Bac+3 ( 3 = 108750 ; N = 12 et Bac+5 ( 4 = 126750; N = 12)
75
Conclusion
 L'ANOVA à un facteur permet de comparer les moyennes de trois groupes ou plus, afin de
déterminer si elles diffèrent de manière significative les unes des autres. Une autre fonction
importante de l'ANOVA à un facteur est d'estimer les différences entre des groupes
spécifiques.
76
II- Analyse des données
77
A- Analyse en Composantes Principales ACP
L’intérêt de l’ACP
L’ACP la méthode
Étude de cas
Analyse des données 19/01/2022
78
B- Analyse Factorielle des Correspondances AFC
L’intérêt de l’AFC
L’AFC la méthode
Étude de cas

79
C- Autres méthodes d’analyse des données
Analyse ascendante
Analyse descendante
Analyse hiérarchique

L’intérêt de l’ACP
80
Pearson, Hotteling et J.P. Benzécri sont les

créateurs de cette méthode.
L’ACP a pour objectif la synthèse et la

description des informations quantitatives
relatives à l’observation de p variables mesurées
sur un échantillon de n individus
Tableau des données
81 Variables X1 X2 ….
Xp
Individus
1 x11 x12 x1p
2 Xn1 .
3 . . ..
. . .
. . .
. . .
n xn1 xn2 xnp
A partir de ce tableau à (nxp) dimensions, comment

procéder pour en extraire l’essentiel de l’information
qu’il contient et la présenter sous une forme
perceptible et facile à interpréter?
L’ACP permet de résoudre ce problème en réduisant le nombre de
variables
82 à un, deux ou trois au maximum, appelées composantes
principales et elles seront non corrélées et à variance maximale.
Ces composantes permettront souvent d’expliquer

parcimonieusement la plus grande partie de la variance
observée.

83
ACP permet de faire :
-Un bilan des ressemblances entre individus. Répondre à des
questions telle: quels sont les individus qui se ressemblent ? Quels
sont ceux qui ne se ressemblent pas?
-Un bilan des liaisons entre variables. SPSS permet le calcul des
corrélations entre les variables.

84
ACP :une méthode

d’analyse des données
Détermination précise des objectifs de l’analyse
Préparation des données

L’utilisation du logiciel adéquat (SPSS)
Le calcule des statistiques élémentaires (moyennes &
85
variances)
Le calcule des corrélations mutuelles
La diagonalisation de la matrice (X’X),
Les éléments diagonaux de cette matrice donnent les
valeurs propres i permettant d’extraire les axes factoriels.
La détermination des corrélations entre les variables

initiales et les axes factoriels. Cela permet
d’apprécier le rôle joué par chaque variable dans
la formation de chaque axe.
86Déterminela contribution de chaque axe dans la
variance totale mesurée par i/ [trace (X’X)], la trace
est la somme des i
Représente un cercle de corrélation pour les deux

premiers axes
Calcule les coordonnées des individus dans le

nouvel espace ainsi que leur corrélation avec les
axes
L’interprétation des résultats

87 Étude de cas
Pour connaître les disparités économiques et sociales
entre les régions françaises, une étude a été réalisée au
profit du département des affaires sociales au ministère
de l’économie et de la finance français.
L’étude a porté sur les 22 régions, représentant le

territoire français, en fonction de 7 variables
Les régions sont: Alsace, Aquitaine,…,Rhône Alpes
88
Les variables sont:
Population, Population active, Superficie, nombre
d’entreprises, nombre de brevets , taux de
chômage, nombre de lignes téléphoniques.
Les données suivantes concernent les 22 régions

françaises décrites en fonction de 7 variables.

Région Pop pop active superficie(km)Nb entreprise Nb de brevet tx de chômagnb ligne téléph
Alsace 1624 39,14 8280 35976 241 5,2 700
Aquitaine 2795 36,62 41308 85351 256 10,2 1300
Auvergne 89 1320 37,48 26013 40494 129 9,3 600
Basse-Normandie 1390 38,63 17589 35888 91 9 600
Bourgogne 1600 38,26 31582 40714 223 8,1 750
Bretagne 2795 36,62 27208 73763 296 9,5 1300
Centre 2370 38,78 39151 56753 229 7,9 110
Champagne Ardenne 1340 37,85 25606 24060 155 9,3 550
Corse 240 , 8680 8273 , , ,
Franche Comté 1090 37,27 16202 27481 159 7,1 450
Haute Normandie 1730 37,8 12317 37461 181 10,8 750
Ile de France 10660 46,04 12012 273604 6722 7,3 5800
Languedoc Rousillon 2110 32,12 27376 62202 179 13,2 1000
Limousin 720 38,06 16942 21721 73 7,9 350
Lorraine 2300 34,34 23547 48353 185 8,6 950
Midi_Pyrénnées 2430 37,14 45348 78771 237 9 1100
Nord Pas de Calais 3960 32,05 12414 78504 278 12,6 1600
Pays de Loire 3060 37,93 32082 72027 339 9,6 1300
Picardie 1810 34,39 19399 36285 139 9,8 750
Poitou Charentes 1590 36,82 25809 44592 133 10,1 750
Provence - Côte d'azur4260 34,96 31400 132552 610 11 2300
Rhône Alpes 5350 39,44 48698 159634 1474 7,4 2500
Comment faire devant ces informations
90 pour mieux décrire les régions françaises
selon les 7 variables.
L ’ACP va nous permettre de réduire le nombre de
variables:
Déterminer les Composantes Principales (qui sont
des combinaisons des variables de départ) qui
détiennent le maximum d’information (variance,
valeurs propres)
L’analyse porte sur 2 ou 3 CP
Le SPSS nous a fourni les résultats suivants:
91
Tableau 1: Moyennes & Écarts-types
Statistiques descr iptives
Moyenne Ecart-type n analyse

popoulation en milliers 2681,14 2151,17 21
population active par
rapport à la population 37,2257 2,9065 21
totale
superf icie en km carré 25727,76 11348,95 21
nombre d'entreprises 69818,38 58158,73 21
nombre de brevets
déposés au cours de 587,10 1436,47 21
l'année
taux de chômage 9,1857 1,8451 21
nombre de lignes
1214,76 1204,86 21
téléphoniques en milliers
Tableau 2: Corrélations Mutuelles
92
Matrice de corrélation
population nombre
active par de brevets nombre de
rapport à la déposés lignes
popoulation population superf icie nombre au cours taux de téléphoniques
en milliers totale en km carré d'entreprises de l'année chômage en milliers
Corrélation popoulation en milliers 1,000 ,514 ,024 ,981 ,921 -,073 ,978
rapport à la population ,514 1,000 -,059 ,516 ,708 -,699 ,521
totale
superf icie en km carré ,024 -,059 1,000 ,149 -,164 ,062 -,044
nombre d'entreprises ,981 ,516 ,149 1,000 ,892 -,078 ,971
nombre de brevets
déposés au cours de ,921 ,708 -,164 ,892 1,000 -,257 ,934
l'année
taux de chômage -,073 -,699 ,062 -,078 -,257 1,000 -,068
nombre de lignes
,978 ,521 -,044 ,971 ,934 -,068 1,000

Graphe1: les valeurs propres en fonction des
composantes
93
Graphique des valeurs propres
5
0
1 2 3 4 5 6 7
Numéro de composant
Tableau 3: Corrélations entre variables et composantes
principales
94
a
Matrice des composantes
Composante
1 2
popoulation en milliers ,958 ,251
rapport à la population ,721 -,602
totale
superf icie en km carré -2,97E-02 ,300
nombre d'entreprises ,949 ,273
nombre de brevets
déposés au cours de ,975 -2,23E-02
l'année
taux de chômage -,293 ,890
nombre de lignes
,960 ,235
Méthode d'extraction : Analyse en composantes principales.
a. 2 composantes extraites.
Tableau 4: Extraction de l’information
95
Qualité de r epr ésentation
Extraction
popoulation en milliers ,981
rapport à la population ,882
totale
superf icie en km carré 9,068E-02
nombre d'entreprises ,976
nombre de brevets
déposés au cours de ,952
l'année
taux de chômage ,878
nombre de lignes
,977
Méthode d'extraction : Analyse des principaux composants.

Tableau 5: Variance expliquée par les 2
96
composantes
D’après le graphe des Valeurs Propres il y a 7

i dont deux sont significatifs
Variance expliquée totale
Sommes des carrés chargées

% de la
Composante Total variance == % cumulés
1 4,299 61,409 61,409
2 1,437 20,532 81,941
Méthode d'extraction : Analyse des principaux composants.

Graphe 2: Les composantes et les variables
97 Diagramme de composantes
1,0 taux de chôm age
,5
superfi ci e en km car nom bre d'en
popoul
nom breati
de on
l
nom bre de b
0,0
-,5 popul ati on acti ve pa
-1,0
-1,0 -,5 0,0 ,5 1
Com pos ante 1

Tableau 6: Coefficients des composantes
Les
98 coefficients des variables permettant
d’avoir les composantes
Matr ice des coefficie nts des com pos ante s
Composante
1 2
popoulation en milliers ,223 ,175
rapport à la population ,168 -,419
totale
superf icie en km carré -,007 ,208
nombre d'entreprises ,221 ,190
nombre de brevets
déposés au cours de ,227 -,016
l'année
taux de chômage -,068 ,619
nombre de lignes
,223 ,163
Scores composante.
Tableau 7: Covariance des composantes
99
Matrice de covariance des com posantes
Composante 1 2
1 1,000 ,000
2 ,000 1,000
Scores composante.

Graphe 3: Les individus en fonction des composantes
3
100
Languedoc Rousillon
2 Nord Pas de Calais
Provence - Côte d'az
1 Aquitaine
Midi_Pyrénnées
Picardie
Bretagne
Pays de Loire
Poitou Charentes Rhône Alpes
Lorraine
Haute Normandie
0 Auvergne Ile de France
Champagne Ardenne
Centre
Bourgogne
Basse-Normandie
Limousin
-1 Franche Comté
-2 Alsace
-3
-1 0 1 2 3 4 5
REGR factor score 1 for analysis 1

101
C1 est corrélée avec les 3 variables:
Nombre d’entreprises
Population
Nombre de lignes téléphoniques et
Nombre de brevets
Alors C1 représente un potentiel de
développement économique

102
C2 est corrélée avec:
Population active
Taux de chômage
C2 est une composante en relation

avec l’activité économique de la
région

II- L’Analyse Factorielle des Correspondances
103
AFC une méthode

Étude de cas
104
Élaborée par Benzécri en 1965, l’AFC est une méthode
d’analyse multidimensionnelle dont le champs
d’application est très vaste.
L’AFC est un outil très performant dans l’analyse des
données d’un tableau de contingence.
Elle permet d’analyser les correspondances des

modalités de deux variables.
105
Tableau de contingence
X x1 x2 …xj… Xq
y1 n11 n12 …n1j… n1q

y2 n21 n22 …n2j… n2q
y3 n31 n32 …n3j… n3q
. . . . ..
. . . .
yi Nj1 nj2 …nij…
. .
…..
yp np1 np2 …npj… npq

106
AFC une méthode
Définir les objectifs de l’analyse
Préparer les données, les corriger si nécessaire et les

mettre sur un tableau de contingence
L’utilisation du logiciel adéquat (SPSS) pour

faire les opérations suivantes:

Calculer la contribution de chaque axe factoriel
107 exprimé en % de la variance totale via les VP i.
Plus celle-là est élevée, plus l’axe correspondant
est significatif.
Le nombre d’axes à retenir dépend de la
somme des contributions. En général, 1, 2 ou 3
au maximum.
Déterminer les coordonnées des variables
colonnes sur les axes.
Calculer les corrélations des variables colonnes avec
les axes.
Calculer les contributions relatives des axes dans la
108
variabilité des variables colonnes
Déterminer les coordonnées des variables

lignes sur les axes
Calculer les corrélations des variables lignes

avec les axes
Représenter la carte graphique

109 Étude de cas
L’analyse porte sur un échantillon de 10 000 étudiants

en fonction de la catégorie socioprofessionnelle des
parents et des filières d’études choisies.

Tableau 1: tableau croisé des données
110 Tableau des corres pondances
FILIÈRE
Sciences Médecine Pluridicipl D
Droit économiques Lettres Sciences et dentaire Pharmacie inaire tec
80 36 134 99 65 28 11
6 2 15 6 4 1 1
168 74 312 137 208 53 21
470 191 806 400 876 164 45
236 99 493 264 281 56 36
145 52 281 133 135 30 20
166 64 401 193 127 23 28
e 16 6 27 11 8 2 2
305 115 624 247 301 47 42
1592 639 3093 1490 2005 404 206

111Tableau 2: Khi-deux et signification
Résum é
Valeur singulière de
Proportion d'inertie confiance
Corrélatio
Valeur Pris en n
Dimension singulière Inertie Khi-deux Sig. compte Cumulé Ecart-type 2
1 ,199 ,040 ,837 ,837 ,010 ,093
2 ,074 ,005 ,115 ,952 ,011
3 ,034 ,001 ,024 ,976
4 ,031 ,001 ,020 ,996
5 ,012 ,000 ,003 ,999
6 ,007 ,000 ,001 1,000
7 ,001 ,000 ,000 1,000
Total ,047 474,668 ,000a 1,000 1,000
a. 56 degrés de liberté

112Tableau 3: Les fréquences lignes
Profils lignes
FILIÈRE
Sciences Médecine Pluridicipl Diplôme
ORIGINE Droit économiques Lettres Sciences et dentaire Pharmacie inaire technique Marge active
Exploitant agricole ,157 ,070 ,262 ,194 ,127 ,055 ,022 ,114 1,000
Salarié agricole ,154 ,051 ,385 ,154 ,103 ,026 ,026 ,103 1,000
Patron ,162 ,071 ,301 ,132 ,201 ,051 ,020 ,060 1,000
Prof. libérale et ca ,155 ,063 ,266 ,132 ,289 ,054 ,015 ,026 1,000
Cadre moyen ,152 ,064 ,318 ,170 ,181 ,036 ,023 ,056 1,000
Employé ,171 ,061 ,331 ,156 ,159 ,035 ,024 ,064 1,000
Ouvriers ,147 ,057 ,355 ,171 ,112 ,020 ,025 ,114 1,000
Personnel de service ,200 ,075 ,338 ,138 ,100 ,025 ,025 ,100 1,000
Autres ,172 ,065 ,352 ,139 ,170 ,027 ,024 ,051 1,000
Masse ,159 ,064 ,309 ,149 ,201 ,040 ,021 ,057

113Tableau 3 bis: Les fréquences Colonnes
Profils colonnes
FILIÈRE
Sciences Médecine Pluridicipl Diplôme
ORIGINE Droit économiques Lettres Sciences et dentaire Pharmacie inaire technique Masse
Exploitant agricole ,050 ,056 ,043 ,066 ,032 ,069 ,053 ,102 ,051
Salarié agricole ,004 ,003 ,005 ,004 ,002 ,002 ,005 ,007 ,004
Patron ,106 ,116 ,101 ,092 ,104 ,131 ,102 ,109 ,104
Prof. libérale et ca ,295 ,299 ,261 ,268 ,437 ,406 ,218 ,138 ,303
Cadre moyen ,148 ,155 ,159 ,177 ,140 ,139 ,175 ,152 ,155
Employé ,091 ,081 ,091 ,089 ,067 ,074 ,097 ,095 ,085
Ouvriers ,104 ,100 ,130 ,130 ,063 ,057 ,136 ,226 ,113
Personnel de service ,010 ,009 ,009 ,007 ,004 ,005 ,010 ,014 ,008
Autres ,192 ,180 ,202 ,166 ,150 ,116 ,204 ,158 ,177
Marge active 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000

Tableau 4: Les contributions des points lignes
dans la variation de la dimension ou de la
114
composante
a
Caractéristiques des points lignes
Score dans la
dimension Contribution
De point à inertie de
dimension De dimension à inertie de point
ORIGINE Masse 1 2 Inertie 1 2 1 2 Total
Exploitant agricole ,051 ,521 ,833 ,006 ,070 ,480 ,497 ,470 ,967
Salarié agricole ,004 ,723 -,121 ,000 ,010 ,001 ,932 ,010 ,941
Patron ,104 -,044 ,110 ,001 ,001 ,017 ,064 ,147 ,211
Prof . libérale et ca ,303 -,590 ,088 ,021 ,530 ,032 ,987 ,008 ,995
Cadre moyen ,155 ,111 -,042 ,001 ,010 ,004 ,394 ,021 ,415
Employé ,085 ,232 -,122 ,001 ,023 ,017 ,810 ,083 ,893
Ouvriers ,113 ,750 ,110 ,013 ,319 ,019 ,950 ,008 ,958
Personnel de service ,008 ,652 -,078 ,001 ,017 ,001 ,806 ,004 ,810
Autres ,177 ,153 -,423 ,003 ,021 ,430 ,255 ,726 ,980
Total actif 1,000 ,047 1,000 1,000
a. Normalisation principale symétrique

Tableau 5: Les contributions des points
colonnes dans la variation de la composante.
115
a
Caractéristiques des points colonnes
Score dans la
dimension Contribution
De point à inertie de
dimension De dimension à inertie de point
FILIÈRE Masse 1 2 Inertie 1 2 1 2 Total
Droit ,159 ,008 -,120 ,001 ,000 ,031 ,004 ,313 ,317
Sciences économiques ,064 -,026 ,043 ,000 ,000 ,002 ,032 ,032 ,064
Lettres ,309 ,202 -,273 ,004 ,063 ,313 ,587 ,397 ,985
Sciences ,149 ,214 ,185 ,002 ,034 ,069 ,559 ,155 ,713
Médecine et dentaire ,201 -,702 ,074 ,020 ,496 ,015 ,982 ,004 ,986
Pharmacie ,040 -,558 ,666 ,004 ,063 ,243 ,606 ,320 ,926
Pluridiciplinaire ,021 ,397 -,231 ,001 ,016 ,015 ,846 ,106 ,952
Diplôme technique ,057 1,069 ,636 ,015 ,327 ,312 ,867 ,114 ,981
Total actif 1,000 ,047 1,000 1,000
a. Normalisation principale symétrique

Points de colonnes pour FILIÈRE
116
Symétrique Normalisation
,8
Pharm acie Diplôm e technique
,6
,4
Sciences
,2
Médecine et dentaire
Sciences économ iques
0,0
Droit
-,2 Pluridiciplinaire
Lettres
-,4
-1,0 -,5 0,0 ,5 1,0 1,5
Dimension 1
Points de ligne et de colonne
117
Symétrique Normalisation
1,0
,8
Pharmacie Diplôme technique
,6
,4
Sciences
,2 Prof. libérale
Médecine et ca
et dentaire Patron Ouvriers
Sciences économiques
-,0 Personnel
Salariéde service
agricole
Pluridiciplinaire
-,2
Autres FILIÈRE
-,4
-,6 ORIGINE
-1,0 -,5 0,0 ,5 1,0 1,5

Dimension 1
118
D’après le tableau 4 nous avons constaté que la
modalité Profession Libérale participe de plus de
50% dans la variance de la première dimension,
alors que Exploitant Agricole participe de 50%
dans la variation de l’axe 2.
Le tableau 5 a révélé que la modalité Médecine

et Dentaire explique environ 50% de variation de
l’axe, et la modalité Lettre participe dans la
variance de l’axe 2 d’environ 31,3%.

Les cartes factorielles ont permis aussi
119
de confirmer ces conclusions.
Nous pouvons ainsi, dire que les étudiants
qui font la médecine générale et la
médecine dentaires sont en général, ceux
dont les parents font des professions
libérales.
Alors que les étudiants qui font lettre sont
originaires de la compagne et dont les
parents sont des exploitants agricoles

Bibliographie
120
J.P. Benzekri « Pratique de l’analyse des données »
Dunod, 1984
J.P.Fenlelon « Qu’est ce que l’analyse des
données » Lefonen 1981
T. Foucart « Analyse factorielle de tableau
multiple » Masson 1984
B. Escorier et J. Pagès « Analyse factorielle simples et
multiples, objectifs, méthodes et interprétation »
Dunod 1993
121 J. Delagarde « Initiation à l’analyse des
données » Dunod 1995.
R. Giraud & N. Chaix « Économétrie » PUF

1992
R. Bourbonnais « Économétrie »Dunod 1993
M. Tenenbaux «Méthodes statistiques en

gestion » Dunod 1984

Analyse Des Données Ab, Anova, Acp Et Afc MSRH 2021 2022

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Analyse Des Données Ab, Anova, Acp Et Afc MSRH 2021 2022

Transféré par

Droits d'auteur :

Formats disponibles

ANALYSE DES DONNEES

Contrairement à l’analyse unidimensionnelle de la

Statistique Descriptive 2 Mr. A. El Marzouki

Lorsqu’il s’agit de l’étude d’une population en fonction de

Statistique Descriptive 2 Mr. A. El Marzouki

Soit une population de N individus classés selon deux

Statistique Descriptive 2 Mr. A. El Marzouki

Statistique Descriptive 2 Mr. A. El Marzouki

Y [1-3[ [3-5[ [5-7[ Colonne

Ligne marginale n.1 n.2 n.3 N=n..=12

Statistique Descriptive 2 Mr. A. El Marzouki

Statistique Descriptive 2 Mr. A. El Marzouki

Y [0;6[ [6;10[ [10;14[ [14;20[ Total.

1. Calculer la moyenne marginale de Y et son écart type

Statistique Descriptive 2 Mr. A. El Marzouki

Y [0;6[ [6;10[ [10;14[ [14;20[ Total.

Y [0;6[ [6;10[ [10;14[ [14;20[ Total.

Tableau : Distribution marginale X

Y/X=x1 [0;6[ [6;10[ [10;14[ [14;20[ Total.

Statistique Descriptive 2 Mr. A. El Marzouki

Y1 barre Y2 barre Y3 barre Y4 barre

Statistique Descriptive 2 Mr. A. El Marzouki

La distribution conditionnelle X sachant que Y=yj

Les 4 couples (xi; ni.) définissent la distribution marginale X.

Y [0;6[ [6;10[ [10;14[ [14;20[ Total.

Filière A Filière B Filière C Filière D Total.

Statistique Descriptive 2 Mr. A. El Marzouki

Cette distribution peut être réécrite sous la forme de fréquences conditionnelles:

La moyenne et la variance conditionnelle de Y/X=x3:

Cette distribution peut être réécrite sous la forme de fréquences conditionnelles:

Si X a été une variable quantitative, alors la moyenne et la variance

* Cas de Données groupées dans un tableau de contingence (covariance

Statistique Descriptive 2 Mr. A. El Marzouki

Statistique Descriptive 2 Mr. A. El Marzouki

Statistique Descriptive 2 Mr. A. El Marzouki

23 La mesure de la liaison linéaire entre deux variables

Statistique Descriptive 2 Mr. A. El Marzouki

Ce coefficient peut s’écrire sous la forme:

Statistique Descriptive 2 Mr. A. El Marzouki

Statistique Descriptive 2 Mr. A. El Marzouki

Statistique Descriptive 2 Mr. A. El Marzouki

Les conditions du premier ordre:

Statistique Descriptive 2 Mr. A. El Marzouki

Le directeur commercial du Groupe BETA vous a chargé de lui établir

Statistique Descriptive 2 Mr. A. El Marzouki

Statistique Descriptive 2 Mr. A. El Marzouki

Statistique Descriptive 2 Mr. A. El Marzouki

V(x)= 162,44 ; V(Y)= 56,89 ; ∑xy=1063491

Y= 0,5715X+ 164,59 et X=1,6319Y-

Statistique Descriptive 2 Mr. A. El Marzouki

yj [6 ;10[ [10;14[ [14;18[ [18;22[ [22;26[ [26;30[ [30;34[ [34;38[

Variance totale=Variance interclasse + Variance intra-classe

Khi deux tabulé au niveau alpha et (p-1)(k-1) ddl

Elle permet de traiter les différences de moyennes d’une variable

La réponse à cette question consiste donc à construire un test

Il s’agit donc du test de l’analyse de la variance ANOVA (analysis of

Pour mener convenablement ce test deux conditions doivent être

La démarche ANOVA à un facteur sur SPSS

 Dans cet exposé, nous allons voir comment peut-on procéder à

l’analyse ANOVA à 1 facteur entre des échantillons indépendants

→ Les moyennes de la population sont égales.

• Variable indépendante (qualitative):

 Variable indépendante (qualitative):