Vous êtes sur la page 1sur 13

ANALYSE STATISTIQUE DES DONNEES

LICENCE PROFESSIONNELLE
IGE

R. EL HILA

2022/2023

1
CHAPITRE I : ANALYSES STATISTIQUES
BIDIMENSIONNELLES

Les analyses statistiques bidimensionnelles (ou analyses bivariées). sont des méthodes qui
mettent en relation deux variables Trois situations se présentent :

- Il n'existe aucun lien entre les variations des deux variables étudiées : les variables sont
indépendantes.

- les deux variables varient soit dans le même sens, soit en sens contraire : la relation est soit
positive (les deux variables augmentent ou diminuent parallèlement) soit négative (quand
une variable augmente, l’autre diminue et inversement).

- la connaissance de l’une entraine forcément la connaissance de l’autre : la liaison est


fonctionnelle (par exemple, le revenu et l’impôt payé).

I ) ANALYSE DE CORRELATION SIMPLE

L’étude de la corrélation vise à établir le poids, le sens et la forme de la liaison entre deux
variables. Une première étape de cette analyse, pour connaitre la configuration ou le profil de
la relation, est de construire un graphique de la distribution appelé digramme de corrélation
ou corrélogramme :

absence de relation relation faible relation forte

2
1 ) Coefficient de corrélation simple de Pearson (ou Bravais-Person)

Ce coefficient permet de détecter la présence ou l'absence d'une relation linéaire entre deux
caractères quantitatifs continus. Noté r, ce coefficient est défini par le rapport suivant :

r = Cov (x ; y)
σx . σy

La covariance est la moyenne du produit des écarts à la moyenne :

1.1- Sens et Poids de la relation :

On peut démontrer que ce coefficient varie entre [ -1 et +1 ] :

- si r est proche de 0, il n'y a pas de relation linéaire entre X et Y


- si r est proche de -1, il existe une forte relation linéaire négative entre X et Y
- si r est proche de 1, il existe une forte relation linéaire positive entre X et Y

Le signe de r indique donc le sens de la relation tandis que la valeur absolue de r indique
son poids c’est-à-dire la capacité de prévoir les valeurs de y connaissant celles de x :

3
1.2- Test d’hypothèse sur l’existence d’une relation

Hypothèses :

Ho : Pas de relation entre les deux variables

H1 : La relation est significative

Le coefficient de corrélation calculé étant rc, on détermine à partir de la table le coefficient


tabulé rT correspondant à une taille n de l’échantillon et un niveau de risque fixé.

Règle de décision :

Si rc < rT On accepte Ho

Si rc > rT On rejette Ho

1.3- Niveau d’explication

Le coefficient r ne donne que le poids et le sens de la relation et pas le niveau d’explication.


Pour le faire, on calcule le coefficient r2 appelé coefficient de détermination.

Par exemple, si r = 0,97 alors r2 = 0,94 soit 94%. Cela veut dire que les variations de x
expliquent 94% des variations de y.

1.4- Limites du coefficient de Pearson

En principe, le coefficient de Pearson n'est applicable que pour mesurer la relation entre
deux variables x et y ayant une distribution de type gaussien et ne comportant pas de valeurs
exceptionnelles. Si ces conditions ne sont pas vérifiées (cas fréquent ...) l'emploi de ce
coefficient peut aboutir à des conclusions erronées sur la présence ou l'absence d'une
relation. A souligner également que l'absence d'une relation linéaire ne signifie pas l'absence
de toute relation entre les deux caractères étudiés.

2 ) Coefficient de corrélation de rang de Spearman

Le coefficient de corrélation de rang ou coefficient de Spearman, examine s'il existe une


relation entre des observations classées pour deux variables x et y de nature ordinale, ce qui
permet de détecter l'existence de relations monotones (croissante ou décroissante) quelle que
soit leur forme (linéaire, puissance, exponentielle, ...). Ce coefficient est donc utile lorsque
l'analyse du nuage de points révèle une forme qui semble mal s'ajuster à une droite.

4
Noté ρ, ce coefficient est défini par la relation :

ρ = 1 - 6 ∑ (rang X – rang Y)2


N3 - N

Soulignons que le coefficient de Spearman varie également entre [ -1 et +1 ]. Son


interprétation est la même que celui de Pearson, sauf qu’il permet de mettre en évidence des
relations non-linéaires lorsqu'elles sont positives ou négatives.

3 ) Coefficient de corrélation de Kendall

Le coefficient de Kendall appelé tau de Kendall (noté τ) quantifie le degré de concordance


monotone entre deux variables ordinales quantitatives ou catégorielles (càd qualitatives).
C’est un indice authentiquement non paramétrique approprié aux variables ordinales.

3.1- Le Coefficient τ

C’est un indice qui s’applique à des variables ordinales simples distinctes. Il est défini par la
formule :

τ = C- D
½ n (n – 1)

Avec :
C : nombre d’inégalités concordantes
D : nombre d’inégalités discordantes
n : nombre d’observations ou de paires x, y.

3.2- Le Coefficient τ-b

Ce coefficient est une extension de l’indice τ pouvant s’appliquer à des données ordinales
non distinctes. il est calculé à partir de la formule suivante :

5
τ = C- D
M

Avec :
M = ½ √ [ n (n – 1) - Ux ] [n (n – 1) - Uy ]

Où : Ux = ∑ ux ( ux – 1)

Et : Uy = ∑ uy ( uy – 1)

Ux et Uy sont déterminés à partir des nombre de valeurs X ou Y apparaissant plus d’une


fois.

II ) LA REGRESSION LINEAIRE SIMPLE

La régression est l’une des méthodes les plus connues et les plus appliquées en statistique
pour l’analyse de données quantitatives. Elle est utilisée pour établir une liaison entre une
variable quantitative et une ou plusieurs autres variables quantitatives, sous la forme d’un
modèle. Si on s’intéresse à la relation entre deux variables, on parlera de régression simple
en cherchant à analyser l’effet d’une variable explicative X sur variable expliquée Y.

1 ) PRESENTATION DU MODELE

Il s’agit d’une fonction : Y = f (X)

On écrit :
yi = a xi + b + εi ∀ i = {1,...,n}

(ou bien y = a0 + a1 . x + εi)

xi est une variable aléatoire observée appelée régresseur ou variable explicative

yi est une variable aléatoire observée, appelée variable à expliquer

a et b sont des paramètres réels inconnus appelés paramètres ou coefficients de régression

εi sont des variables aléatoires, non observées appelées erreurs ou bruits.

6
Graphiquement, on a :

f(x) = a xi + b

L’objectif est de déterminer les coefficients a et b qui minimisent le carré de la distance entre
chaque point du nuage et la droite de régression :

Min ∑ εi2 = Min ∑ (yi – a xi - b)2


a, b

Soit L(a, b) = ∑ (yi – a xi - b)2, la fonction à minimiser. Ses points critiques sont obtenus
par la résolution du système :

∂L = 0
∂b

∂L = 0
∂a

Cette procédure utilise l’ajustement économétrique des moindres carrés ordinaires (MCO ou
OLS) construit autour des hypothèses connues des méthodes de régression :

En développant, on trouve :

a = ∑xi yi – N  ȳ ; N étant le nbre d’observations


∑xi2 – N 2
Et
b = ȳ – a

7
Pratiquement, on considère que les coefficients après calcul sont déterministes et sont notés â
et b.

Notons que le modèle peut être spécifié :

- En coupe instantanée : les variables représentent des phénomènes observés au même


instant mais concernant plusieurs individus.

- En série temporelles : les variables sont observées à intervalles réguliers de temps.

2 ) ANALYSE DE LA VALIDITE DU MODELE

Au plan statistique, la relation entre les variables étudiées doit être prouvée à travers une
évaluation opérée à deux niveaux : une évaluation globale de l’équation et une évaluation
isolée pour chaque coefficient de régression.

2.1- ANALYSE DE LA CORRELATION

L’analyse de la corrélation et de la variance permet d’apprécier la validité globale de


l’ajustement :

Il s’agit de calculer le coefficient de corrélation simple :

r = Cov (x ; y)
σx . σy

Ce coefficient peut être calculé à partir du coefficient de détermination :

r2 = SCE
SCT

2.2- ANALYSE DE LA VARIANCE

Pour sa part, l’analyse de la variance met en relief un effet combiné des variables
explicatives sur la variable expliquée.

Les ŷi étant tels que ∑ έi2 soit minimale, puisque ∑ ŷi = ∑ yi , on a le théorème suivant :

Théorème : La somme des carrés totale (SCT) est égale à la somme des carrés expliquée
(SCE) plus la somme des carrés résiduelle (SCR) :

∑ (yi − ȳ)2 = ∑ (ŷi − ȳ)2 + ∑ (yi − ŷi)2

8
– SCT = ∑ (yi − ȳ)2 est la somme totale des carrés centrés de y

– SCE = ∑ (ŷi − ȳ)2 est la somme des carrés expliquée par le modèle

– SCR = ∑ (έi)2 = ∑ (yi − ŷi)2 est la somme des carrés résiduelle.

Tableau d’analyse de la variance :

Somme ddl Variance Fc


quadratique

Total n-1 VT
Régression p-1 VE VE / VR
Résiduel n–p VR

Les hypothèses sont :

Ho : X n’est pas explicative de Y


H1 : X explique Y

Règle de décision :

On calcule Fc = VE
VR

Puis on détermine Ft / P (Fp-1 ; n-p < Ft) = α

Si Fc < Ft On accepte Ho, c’est-à-dire l’effet du facteur X est


Négligeable.

Avec :
VT = SCT / n - 1
VE = SCE / p – 1
VR = SCR / n – p

2.3- TEST DE STUDENT

Le test de STUDENT permet d’évaluer les coefficients de régression considérés isolément. Il


sert à juger si un coefficient est significativement non nul (différent de zéro au seuil
maximum généralement retenu de 5% soit au niveau de confiance minimal de 95%), faute de
quoi la variable exogène associée n’est pas explicative et doit être écartée de la spécification.

9
Une telle situation se rencontre notamment lors d’une absence de corrélation avec la variable
endogène

Les hypothèses :

Ho : âi = 0 càd X n’est pas explicative de Y


H1 : âi ≠ 0 X explique significativement Y

 N (A ; σ2(X’X)-1)

âi N (ai ; σ√vii)

âi – ai N ( 0 ; 1)
σ√vii

et donc âi – 0 N ( 0 ; 1)
σ√vii

Sous Ho :
tc = âi Tn-p
σâi

avec :

σâi = √ έ’ έ vii
n-p

Dans le cas d’une régression simple :

SCR
σâi = n-2
(xi – )2

Pour un niveau de confiance de 95% (soit un risque de 5%), on détermine ttab /

P (-tn < Tn-p < tn) = 95%

Si : tc < ttab On accepte Ho

10
III ) ANALYSE DE LA VARIANCE SELON UN SEUL FACTEUR

L’ANOVA à un facteur permet d’examiner l’effet d’un facteur qualitatif X de modalités x1,
x2 … xp, sur une variable Y :

Y = f (X)

Les données sont présentées dans le tableau de contingence suivant :

x1 x2 xj xp
y11 y12 y1j y1p
y21 y22 y2j y2p
Y .. ..
.. ..
yT1 yT2 yTj yTp

Tableau de contingence mettant en relation les variables Y et X

La distribution comporte p modalités ; chaque modalité est observée T fois, soit un nombre
total d’observations :
n = T . p

Exemple : Distribution de la dépense en Dhs selon que l’on soit homme ou femme

Homme femme
1000 900
1100 1200
1200 1300
1150 1400

Il faut remarquer que l’AV à un facteur s’apparente largement aux études de dépendance
rencontrées dans l’ACRM.

Pratiquement, les résultats sont regroupés dans un tableau d’analyse de la variance à un


facteur :

11
ddl Variance Fcalculé
SCT n-1 VT
SCE p–1 VE VE/VR
SCR n–p VR

Les hypothèses sont :

Ho : X n’est pas explicative de Y


H1 : X explique Y

Règle de décision :

On calcule Fc = VE
VR

Puis on détermine Ft / P (Fp-1 ; n-p < Ft) = α

Si Fc < Ft On accepte Ho, c’est-à-dire l’effet du facteur X est


Négligeable.

Avec :
VT = SCT / n - 1
VE = SCE / p – 1
VR = SCR / n – p

Rappelons que :

SCT = SCE + SCR

Où : SCT = ∑ (yij – )2 et  = ∑ yij


n

SCE = T ∑ (yj – )2 et j = ∑ yij


T

SCR = ∑ (yij – j)2

12
La SCE est en fait la moyenne interclasses et la SCR la moyenne intra-classes.

Notons que lorsqu’on a établi que des différences existent parmi les moyennes c’est-à-dire
que X est explicatif de Y, des tests post hoc de comparaisons déterminent les moyennes qui
différent. L’un des tests couramment utilisé est celui de Duncan qui compare les moyennes
deux à deux pour un seuil fixé.

13

Vous aimerez peut-être aussi