Académique Documents
Professionnel Documents
Culture Documents
LICENCE PROFESSIONNELLE
IGE
R. EL HILA
2022/2023
1
CHAPITRE I : ANALYSES STATISTIQUES
BIDIMENSIONNELLES
Les analyses statistiques bidimensionnelles (ou analyses bivariées). sont des méthodes qui
mettent en relation deux variables Trois situations se présentent :
- Il n'existe aucun lien entre les variations des deux variables étudiées : les variables sont
indépendantes.
- les deux variables varient soit dans le même sens, soit en sens contraire : la relation est soit
positive (les deux variables augmentent ou diminuent parallèlement) soit négative (quand
une variable augmente, l’autre diminue et inversement).
L’étude de la corrélation vise à établir le poids, le sens et la forme de la liaison entre deux
variables. Une première étape de cette analyse, pour connaitre la configuration ou le profil de
la relation, est de construire un graphique de la distribution appelé digramme de corrélation
ou corrélogramme :
2
1 ) Coefficient de corrélation simple de Pearson (ou Bravais-Person)
Ce coefficient permet de détecter la présence ou l'absence d'une relation linéaire entre deux
caractères quantitatifs continus. Noté r, ce coefficient est défini par le rapport suivant :
r = Cov (x ; y)
σx . σy
Le signe de r indique donc le sens de la relation tandis que la valeur absolue de r indique
son poids c’est-à-dire la capacité de prévoir les valeurs de y connaissant celles de x :
3
1.2- Test d’hypothèse sur l’existence d’une relation
Hypothèses :
Règle de décision :
Si rc < rT On accepte Ho
Si rc > rT On rejette Ho
Par exemple, si r = 0,97 alors r2 = 0,94 soit 94%. Cela veut dire que les variations de x
expliquent 94% des variations de y.
En principe, le coefficient de Pearson n'est applicable que pour mesurer la relation entre
deux variables x et y ayant une distribution de type gaussien et ne comportant pas de valeurs
exceptionnelles. Si ces conditions ne sont pas vérifiées (cas fréquent ...) l'emploi de ce
coefficient peut aboutir à des conclusions erronées sur la présence ou l'absence d'une
relation. A souligner également que l'absence d'une relation linéaire ne signifie pas l'absence
de toute relation entre les deux caractères étudiés.
4
Noté ρ, ce coefficient est défini par la relation :
3.1- Le Coefficient τ
C’est un indice qui s’applique à des variables ordinales simples distinctes. Il est défini par la
formule :
τ = C- D
½ n (n – 1)
Avec :
C : nombre d’inégalités concordantes
D : nombre d’inégalités discordantes
n : nombre d’observations ou de paires x, y.
Ce coefficient est une extension de l’indice τ pouvant s’appliquer à des données ordinales
non distinctes. il est calculé à partir de la formule suivante :
5
τ = C- D
M
Avec :
M = ½ √ [ n (n – 1) - Ux ] [n (n – 1) - Uy ]
Où : Ux = ∑ ux ( ux – 1)
Et : Uy = ∑ uy ( uy – 1)
La régression est l’une des méthodes les plus connues et les plus appliquées en statistique
pour l’analyse de données quantitatives. Elle est utilisée pour établir une liaison entre une
variable quantitative et une ou plusieurs autres variables quantitatives, sous la forme d’un
modèle. Si on s’intéresse à la relation entre deux variables, on parlera de régression simple
en cherchant à analyser l’effet d’une variable explicative X sur variable expliquée Y.
1 ) PRESENTATION DU MODELE
On écrit :
yi = a xi + b + εi ∀ i = {1,...,n}
6
Graphiquement, on a :
f(x) = a xi + b
L’objectif est de déterminer les coefficients a et b qui minimisent le carré de la distance entre
chaque point du nuage et la droite de régression :
Soit L(a, b) = ∑ (yi – a xi - b)2, la fonction à minimiser. Ses points critiques sont obtenus
par la résolution du système :
∂L = 0
∂b
∂L = 0
∂a
Cette procédure utilise l’ajustement économétrique des moindres carrés ordinaires (MCO ou
OLS) construit autour des hypothèses connues des méthodes de régression :
En développant, on trouve :
7
Pratiquement, on considère que les coefficients après calcul sont déterministes et sont notés â
et b.
Au plan statistique, la relation entre les variables étudiées doit être prouvée à travers une
évaluation opérée à deux niveaux : une évaluation globale de l’équation et une évaluation
isolée pour chaque coefficient de régression.
r = Cov (x ; y)
σx . σy
r2 = SCE
SCT
Pour sa part, l’analyse de la variance met en relief un effet combiné des variables
explicatives sur la variable expliquée.
Les ŷi étant tels que ∑ έi2 soit minimale, puisque ∑ ŷi = ∑ yi , on a le théorème suivant :
Théorème : La somme des carrés totale (SCT) est égale à la somme des carrés expliquée
(SCE) plus la somme des carrés résiduelle (SCR) :
8
– SCT = ∑ (yi − ȳ)2 est la somme totale des carrés centrés de y
– SCE = ∑ (ŷi − ȳ)2 est la somme des carrés expliquée par le modèle
Total n-1 VT
Régression p-1 VE VE / VR
Résiduel n–p VR
Règle de décision :
On calcule Fc = VE
VR
Avec :
VT = SCT / n - 1
VE = SCE / p – 1
VR = SCR / n – p
9
Une telle situation se rencontre notamment lors d’une absence de corrélation avec la variable
endogène
Les hypothèses :
 N (A ; σ2(X’X)-1)
âi N (ai ; σ√vii)
âi – ai N ( 0 ; 1)
σ√vii
et donc âi – 0 N ( 0 ; 1)
σ√vii
Sous Ho :
tc = âi Tn-p
σâi
avec :
σâi = √ έ’ έ vii
n-p
SCR
σâi = n-2
(xi – )2
10
III ) ANALYSE DE LA VARIANCE SELON UN SEUL FACTEUR
L’ANOVA à un facteur permet d’examiner l’effet d’un facteur qualitatif X de modalités x1,
x2 … xp, sur une variable Y :
Y = f (X)
x1 x2 xj xp
y11 y12 y1j y1p
y21 y22 y2j y2p
Y .. ..
.. ..
yT1 yT2 yTj yTp
La distribution comporte p modalités ; chaque modalité est observée T fois, soit un nombre
total d’observations :
n = T . p
Exemple : Distribution de la dépense en Dhs selon que l’on soit homme ou femme
Homme femme
1000 900
1100 1200
1200 1300
1150 1400
Il faut remarquer que l’AV à un facteur s’apparente largement aux études de dépendance
rencontrées dans l’ACRM.
11
ddl Variance Fcalculé
SCT n-1 VT
SCE p–1 VE VE/VR
SCR n–p VR
Règle de décision :
On calcule Fc = VE
VR
Avec :
VT = SCT / n - 1
VE = SCE / p – 1
VR = SCR / n – p
Rappelons que :
12
La SCE est en fait la moyenne interclasses et la SCR la moyenne intra-classes.
Notons que lorsqu’on a établi que des différences existent parmi les moyennes c’est-à-dire
que X est explicatif de Y, des tests post hoc de comparaisons déterminent les moyennes qui
différent. L’un des tests couramment utilisé est celui de Duncan qui compare les moyennes
deux à deux pour un seuil fixé.
13