Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
MONDJELI
Cette description va se faire en quatre temps : dans un premier temps, nous présentons les
caractéristiques de tendance centrale (ou paramètres de position) ; dans un second temps, nous
présentons les paramètres de dispersion ; en troisième lieu, nous présentons les paramètres
concentration et enfin, nous développons les paramètres de forme.
Ces paramètres doivent obéir à certaines propriétés élaborées par le statisticien Yule (1945) :
P1 : une bonne valeur centrale doit être définie de façon objective. Autrement dit, 2
personnes différentes doivent aboutir au même résultat numérique ;
P2 : une bonne valeur centrale doit dépendre de toutes les observations ;
P3 : elle doit avoir une signification concrète facile à concevoir. C’est dire qu’elle doit être
d’une interprétation simple et immédiate pour être comprise par n’importe quel
utilisateur ;
P4 : elle doit être simple à calculer ;
P5 : elle doit être peu sensible aux fluctuations d’échantillonnage ;
P6 : elle doit se prêter aisément au calcul algébrique.
1.1. Le mode
Encore appelée la dominante, le mode représente la valeur du caractère qui correspond à la plus
grande fréquence ou au plus grand effectif. Par conséquent, c’est la valeur la plus probable. On
le note Mo et il s’exprime dans la même unité de mesure que la variable elle-même.
1.1.1. Les séries à caractère quantitatif discret et les séries à caractère qualitatif
La détermination du Mo dans ce cas est faite sans ambiguïté. Il suffit d’examiner attentivement
les effectifs ou les fréquences et le choix est opéré.
La classe modale est celle qui correspond à la plus grande fréquence. Le Mo est susceptible de
prendre n’importe quelle valeur à l’intérieur de la classe. Cependant, on retiendra toujours le
centre de la classe pour plus de précision.
La classe modale est celle qui correspond à la plus grande densité. Comme dans le cas
précédent, c’est le centre de la classe qui représente le mieux le Mo.
1.2. La médiane
Soit X qui prend des valeurs X1, X2, …, Xp, Xp+1, …, X2p (ou Xk). Calculer la médiane consiste à
déterminer l’intervalle médian qui est dans ce cas [Xp ; Xp+1]. Me est désignée comme la
moyenne des 2 valeurs de l’intervalle, si cette valeur a une signification. Ex : nombre d’enfants :
3, 4. Me= [3+4]/2 = 3,5. Impossible, car il n’existe pas de demi enfant.
Soit X qui prend des valeurs X1, X2, …, Xp, Xp+1, …, X2p+1 (ou Xk). Dans ce cas, la médiane est
égale à Xp+1.
Exemple 1 : 1, 2, 3, 4, 7, 8, 9. Me=4, car la premier groupe a des valeurs <4 et le second groupe
a des valeur > 4.
Exemple 2 : 1, 2, 3, 5, 5, 5, 9, 10, 15. Me n’existe pas dans ce cas, car la supposée valeur Me
appartient aux 2 groupes.
F(xi+1)
0,5
AB/AC=BD/CE
F(xi)
xi Me xi+1
On utilise généralementt lla méthode de l’interpolation
rpolation linéaire et lla propriété de Thalès.
Me − xi 0.5 − F ( xi )
De l’identité ci-dessus et par transposition on obtient : = .
xi −1 − xi F ( xi +1 ) − F ( xi )
0.5 − F ( xi )
De cette expression, on tire Me tel que : Me = xi + ( xi +1 − xi ) .
F ( xi +1 ) − F ( xi )
Ce sont des quantiles d’ordre ¼. Ils divisent la distribution en 4 sous-groupes d’effectif égal. Il
existe 3 quartiles dont les images sont F(Q1)=0.25 ; F(Q2)=0.5 et F(Q3)=0.75. Ils ont donc la
même définition que la médiane et se calculent aussi de la même façon.
Ce sont des quantiles d’ordre 1/5. Il existe 4 quintiles dont les images sont F(q1)=0.20 ;
F(q2)=0.40 et F(q3)=0.60 et F(q4)=0.80. Ils divisent la distribution en 5 sous-groupes d’effectif
égal. Les deux autres déciles les plus expressifs sont q1 et q4.
Ce sont des quantiles d’ordre 1/10. Il existe 9 déciles dont les images sont F(D1)=0.10 ;
F(D2)=0.20, …, F(D9)=0.90 ; avec D5=Me. Les deux autres déciles les plus expressifs sont D1
et D9. Leur rapport donne une information importante sur l’inégalité.
Ce sont des quantiles d’ordre 1/100. Il existe 99 centiles dont les images sont F(C1)=0.01 ;
F(C2)=0.02, …, F(C99)=0.99 ; avec C50=Me. Les deux autres centiles les plus expressifs sont
C1 et C9. Leur rapport donne une information importante sur l’inégalité.
Exemple : Soit la répartition des TPE par chiffre d’affaires dans la ville de Soa.
Université de Yaoundé II-Soa 14 Année académique 2019-2020
Cours de Statistiques appliquées aux sciences sociales Prof. MONDJELI
CA ni fi Fi
[200 ; 300[ 60
[300 ; 500[ 60
[500 ; 800[ 80
Total 200
TAF : calculer la médiane, les quartiles, les quintiles, les deux déciles extrêmes et les deux
centiles extrêmes.
Me=300+200.[(0.5-0.3)/(0.6-0.3)]
Q1=200+100.[(0.25-0)/(0.3-0)] ; Q2=Me ; Q3=500+300.[(0.75-0.6)/1-0.6)]
D1=200+100[(0.1-0)/0.3-0)] D5=Me D9=500+300.[(0.9-0.6)/(1-0.6)]
NB : de la même manière, on définit les quintiles (quantiles d’ordre 1/5) et les centiles (quartiles
d’ordre 1/100è).
1.3. La moyenne
La moyenne arithmétique d’une distribution est le barycentre ou le centre de gravité des valeurs
Xi pondérées respectivement par leurs fréquences fi. Il s’agit d’un indice moyen qui donne
l’ordre de grandeur des unités statistiques. Ce n’est pas une modalité observée, mais elle est
construite à partir des modalités observées.
Pour le calcul :
• Lorsque la variable est discrète, on peut calculer une moyenne simple pour k
observations à travers la formule :
k
1
X = ( x1 + x 2 + ... + x k ) / k =
k
∑x .
i =1
i
Si par contre les données sont groupées par les effectifs, on peut calculer une moyenne
p
xi 60 64 58 63 65 62 60 Total
ni 10 15 10 20 12 8 14
TAF : Calculer la moyenne lorsqu’il s’agit d’une série de 7 personnes et lorsqu’on considère
les pondérations par les effectifs.
• Lorsque la variable est continue, on doit d’abord générer les centre ces classes et les
considérer comme les différentes valeurs de la variable. Dans ce cas, X = f i ci ∑
Les principales propriétés de la moyenne sont :
a = ∑ f i a = a∑ f i = a
P1 :
Université de Yaoundé II-Soa 15 Année académique 2019-2020
Cours de Statistiques appliquées aux sciences sociales Prof. MONDJELI
aX = a ∑ fi xi = aX
P2 :
P4 : X + Y = X + Y
n1 X 1 + n2 X 2 + + nk X k k
P5 : X = = f1 X 1 + f 2 X 2 + + f k X k = ∑ fi X i dans le cas d’un mélange
N i =1
de populations.
Le procédé consiste à faire le choix d’une valeur de la variable (observée ou non) désignée par
x0 et qui va nous aider à calculer la « moyenne arithmétique provisoire ». Dans ce cas toute
valeur de la variable va s’écrire comme suit : xi = x0 + ( xi − x0 ) . Ainsi :
X=
∑ x n = ∑ [ x + ( x − x )] n
i i 0 i 0
=
x0 ∑ ni
+
∑ ( x − x )n
i 0 i
= x0 + ∑ ( xi − x0 ) fi
i
∑n i ∑n i ∑n i ∑n i
La moyenne arithmétique telle que vue ci-dessus peut avoir plusieurs variantes selon la nature
et l’importance que l’on veut donner à l’étude. Les plus rencontrées sont la moyenne
quadratique, la moyenne harmonique et la moyenne géométrique.
C’est la racine carrée de la moyenne arithmétique des carrés des observations de la série. Elle
peut être :
u
simple : A Yv ;
}
u
pondérée : A R Yv L Yv .
}
Elle sert à calculer les rapports moyens, les pourcentages moyens, les durées et les vitesses
moyennes. La moyenne harmonique est aussi utilisée pour le calcul d'indices économiques. Elle
peut être :
}
simple : = ;
} u
pondérée : =
1
∑n i −1
∑x n 1
i
H= ⇒H = =∑i
fi .
n ∑n x
∑x i i i
i
Conclusion : « l’inverse de la moyenne harmonique est égal à la moyenne arithmétique
pondérée des inverses des valeurs prises par la variable ».
C’est la racine Nième du produit des k valeurs du caractère. La moyenne géométrique est bien
adaptée à l'étude des phénomènes de croissance. Elle peut être :
u
simple : < Y 7 >SM< >SM Y ;
}
u
pondérée : < Y 7 >SM< R >SM Y L >SM Y .
}
Elle représente la différence entre la plus grande valeur de la série et la plus petite. En d’autres
termes, c’est la différence entre la modalité maximale et la modalité minimale, c’est-à-dire le
réel : E 6 E 6 . L’intervalle E 6 E 6 contient 100% des
effectifs. On peut aussi l’appeler l’intervalle de variation ou intervalle maximal ou encore
l’amplitude de la série. Son principal inconvénient est de ne prendre en compte que 2 valeurs
du caractère.
Il est égal à la différence entre Q3 et Q1. IQ=Q3-Q1. Cet écart contient 50% des observations, et
il a l’avantage d’exclure les valeurs extrêmes. Il est plus satisfaisant que l’étendue, mais sa
principale limite est l’abandon des 25% des valeurs <Q1 et 25% des valeurs >Q3. Du calcul de
Université de Yaoundé II-Soa 17 Année académique 2019-2020
Cours de Statistiques appliquées aux sciences sociales Prof. MONDJELI
Notes ni fi FCC
[0 ; 5[ 10 0,10 0,10
[5 ; 7[ 20 0,20 0,30
[7 ; 8[ 25 0,25 0,55
[8 ; 9[ 30 0,30 0,85
[9 ; 10[ 15 0,15 1
Total 100 1
La représentation graphique des différents quartiles prend le nom de la boîte de Tukey, de box-
plot ou boîte à moustache. Elle donne sous forme graphique l’information contenue dans les
chiffres obtenus du calcul de l’étendue et de l’IQ.
Q1 Q2 Q3
C’est la différence entre D9 et D1. Il est plus significatif que les mesures précédentes en ceci
qu’il prend en compte 80% des observations. Mais il fait abstraction de 10% des valeurs <D1 et
10% de valeurs >D9, ce qui en fait sa principale limite. On peut également déterminer l’IDR tel
que :
ID
I DR =
Me
En présence de deux séries A et B telles que IDRA>IDRB, on conclut que la série A est plus
dispersée que la série B.
RQ1 : lorsque :B est proche de zéro, la dispersion est faible et la série est qualifiée
d’homogène.
RQ2 : on a toujours : :| : .
Exemple : Les notes obtenues par un étudiant à la fin des CC sont les suivantes.
2.4.1. Définition
C’est la racine carrée de la moyenne arithmétique des carrés des écarts de toutes les observations
à la moyenne. C’est en outre la racine carrée de la variance.
1 1
Dans le cas des séries simples, la variance se note : V ( x) = ∑ ( x i − x ) 2 ⇒ σ ( x) = ∑ ( xi − x ) 2
k k
1
Lorsque la série est pondérée, elle se note : V ( x) = ∑ ni ( xi − x )2 = ∑ fi ( xi − x )2 .
N
u
Selon Koenig ou Huygens, on a : D E E v E v dans le cas des séries simples (non
zu
pondérées) et D E zu L Ev E v si la série est pondérée. Ainsi, la variance de définit
comme la différence entre la moyenne des carrés et le carré de la moyenne.
Exemple : soit la série suivante : 3, 5, 8, 11, 12, 15. Calculer l’écart type. Ensuite se servant de
l’exemple des notes ci-dessus, calculer à nouveau l’écart type.
On peut calculer à partir de l’écart-type, une autre mesure de dispersion appelée le cœfficient
de variation. C’est le rapport entre l’écart-type et la moyenne : 9D . C’est un nombre sans
dimension qui apprécie l’homogénéité de la distribution. Une distribution est plus ou moins
Université de Yaoundé II-Soa 19 Année académique 2019-2020
Cours de Statistiques appliquées aux sciences sociales Prof. MONDJELI
homogène selon que son CV est plus ou moins élevé. Il permet de comparer plusieurs
distributions.
D E D F 49SX E F VNEKWFVSRWPNV
DE F
D E D F VNEKWFVSRWNRJTKRJGRWV
D E D F 49SX E F VNEKWFVSRWPNV
DE F
D E D F VNEKWFVSRWNRJTKRJGRWV
Soit une population P d’effectif N et de moyenne X . Cette population est composée de k sous-
populations P1, P2, …, Pk, d’effectif N1, N2, …, Nk, de moyennes X 1 , X 2 , …, X k et de
variances luv , lvv , …, lv . Dans ce cas, la variance totale de la population est égale à :
1 1
VT = ⎡ N1σ 12 + N 2σ 22 + ... + N kσ k2 ⎦⎤ + ⎣⎡ N1 ( X 1 − X ) 2 + N 2 ( X 2 − X ) 2 + N k ( X k − X ) 2 ⎦⎤ .
⎣
N N
2
On obtient ainsi : VT = ∑ f iσ i2 + ∑ f i ( X i − X )
2
Le premier membre ∑ fσ i i s’appelle la variance intra-sous-population, c'est-à-dire la
moyenne des variances. C’est celle que l’on obtiendrait si toutes les sous-populations avaient
la même moyenne ( X 1 = X 2 = ... = X k = X ).
2
Le second membre ∑ f (X i i −X) s’appelle la variance inter-sous-population. C’est la
variance des moyennes, c'est-à-dire celle que l’on obtiendrait si les sous-populations étaient
homogènes ( σ 12 = σ 22 = ...σ k2 = 0 ).
L’intérêt d’une telle décomposition de la variance est de déceler les sources de variabilité dans
la population totale. En conclusion, l’hétérogénéité d’un mélange peut être expliquée par
l’hétérogénéité interne à chacune des sous-populations et/ou par l’hétérogénéité des moyennes
des différentes sous-populations.
Exemple : le tableau ci-dessous donne la répartition des salaires au sein du groupe AB,
comportant deux établissements (A et B).
A B GROUPE AB
Catégories niA xiA niB xiB ni Xi
Ouvriers 30 10 100 8 130 8.46
Employés 20 18 10 16 30 17.33
Cadres 10 80 5 70 15 76.67
NA=60 X A =24.3 NB=115 X B = 11.4 N=175 X = 15.8
De façon simple,
1
VT = ∑ ni xi2 − X 2 =1/175[(30*102)+(20*182)+(10*802)+(100*82)+(10*162)+(5*702)]-(15.8)2
N
= 611.08-249.64 = 361.4
Calcul des variances des différentes sous pop :
1
V1 =
N1
∑ ni1 xi21 − X 12 =1/60[(30*102) + (20*182) + (10*802)] - (24.3)2=634.18
1
V2 = ∑ ni 2 xi22 − X 22 = 1/115[(100*82) + (10*162) + (5*702)] - (11.4)2=161
N2
V1=634.18 et V2=161, ceci implique que :
1
Vint ra = [N1V1 + N 2V2 ]=1/175[(60*634.18) + (115*161)]=323.23
N
VT=361.4 et Vintra=323.23, cela implique que Vinter=VT-Vintra, c à d Vinter=361.4 -
323.23=38.17.
On appelle moment général d’ordre U par rapport à une valeur quelconque G l’expression
k
suivante : M r = ∑ fi ( xi − a ) r ; U représente l’ordre du moment et G l’origine. On distingue les
i =1
moments simples des moments centrés.
Ils sont dits simples lorsque G 2. Il s’agit d’une généralisation de la notion de moyenne
arithmétique. Dans ce cas, M r = fi xir .
∑
•Si U 3, M 1 = ∑x f
i i =X ;
•Si U 4, M 2 = ∑ f i xi2 .
Les moments sont dits centrés lorsque a = X . Il s’agit d’une généralisation de la notion de
k
variance. La notation générale est μ r = ∑ f i ( xi − X ) r :
i =1
•Si U 3, μ1 = ∑ f (x − X ) = 0 ;
i i
2 2
•Si U 4, μ 2 = ∑ f ( x − X ) = V ( x) = ∑ f x
i i i i − X 2 = M 2 − M 12 .
Le concept de concentration a été introduit par le statisticien italien Corrado GINI, à propos de
la distribution des salaires. Les questions relatives à cette section appellent à la détermination
d’une mesure de concentration. Cette notion s’applique généralement à la description d’une
unité économique selon la taille. Ex : la description d’une entreprise selon le CA ou selon le
nombre de salariés.
3.1. La médiale
Son calcul passe par des étapes intermédiaires, notamment celle du calcul de la masse globale
du caractère.
La masse globale (?) quant à elle se définie comme la somme des masses individuelles de
chaque modalité et se note comme suit :
? R Y Q
zu zu
C’est la valeur du caractère qui partage en 2 quantités égales la masse globale. Elle est toujours
supérieure à la médiane (Ml>Me).
Lorsque l’écart entre Ml et Me rapporté à l’étendue est élevé, la concentration sera jugée forte,
et la distribution sera jugée inégalitaire. Lorsque ce rapport est faible, l’écart entre Ml et Me
tend vers 0 ; dans ce cas, la concentration sera faible et la distribution sera jugée égalitaire ou
homogène.
Le calcul de la Ml est comparable à celui de la Me, c'est-à-dire qu’il se fait par interpolation
linéaire. Ce calcul porte sur les nixi ou sur les fixi cumulées.
Q
Salaires ci ni fi Fi mi=nixi QU QUI QUIyu L QUI QUIyu
?
[0 ; 100[ 50 10 0,1 0,1 500 0,014 0,014 0 0,0014
[100 ; 200[ 150 20 0,2 0,3 3000 0,08 0,096 0,014 0,022
[200 ; 400[ 300 40 0,4 0,7 12000 0,328 0,424 0,096 0,208
[400 ; 1000[ 700 30 0,3 1 21000 0,576 1 0,424 0,4272
Total 100 1 36500 1 0.6712
Comment la richesse, que ce soit celle qui s'accumule au fil du temps (le patrimoine) ou son
supplément réalisé chaque année (le revenu), est-elle partagée au sein d'une population donnée ?
C'est à ce genre de question que voulait répondre l'économiste statisticien américain Max Otto
Lorenz au début du XXe siècle, quand il représenta de manière très intuitive la distribution des
richesses dans son pays à l'aide d'une courbe à laquelle il a laissé son nom.
La courbe de Lorenz met en relation des fractions de population (de 0% à 100%) et les parts de
richesse (revenus ou patrimoine) qu'elles détiennent : chaque point représente un pourcentage
de revenu détenu par un pourcentage de la population. Cette courbe est tracée en fonction des
fréquences cumulées croissantes (en abscisses) et des masses relatives cumulées croissantes (en
ordonnées). Elle permet de mesurer l’ampleur de l’inégalité.
L'indice de Gini (du nom du statisticien italien Corrado Gini qui a proposé en 1912 cet indice
pour les distributions de salaires et de revenus) donne une mesure des inégalités. C’est un
nombre sans dimension compris entre 0 et 1. Lorsqu’il est voisin de 0, la concentration est faible
et la distribution est homogène, et inversement lorsqu’il est voisin de 1. Il est obtenu en
déterminant la surface S comprise entre la courbe de Lorenz et la première bissectrice, et en
rapportant cette surface à la surface du demi-carré dans lequel s'inscrit cette courbe.
Comme la surface du carré est 1, l'indice de Gini est donc le double de l'aire S comprise entre
la courbe de Lorenz et la première bissectrice du carré. Très souvent, la surface S peut être
déterminée avec suffisamment de précisions de manière graphique. Algébriquement, on peut
calculer l'indice de Gini par la formule suivante :
g = 1 − ∑ fi (βi + βi −1 ).
Les \ sont les masses relatives cumulées croissantes.
Application au cas précédent :
g = 1-0,6712=0.3228 soit 32,28%.
u
En outre, il est démontré que M 4 8 C (avec S l’aire de concentration) C M.
v
De façon générale, l'indice de Gini peut être interprété comme ayant une valeur d'autant plus
grande que l'inégalité est grande : il constitue donc une bonne mesure de l'inégalité.
Encore appelé skewness, il mesure la densité de probabilité d’une variable aléatoire définie sur
les nombres réels. Il fait intervenir les notions de mode, de médiane, de quartiles et de moments
centrés pour déterminer l’oblicité de la distribution. Il existe plusieurs coefficients d’asymétrie.
Les principaux sont les coefficients de Pearson, de Yules et de Fisher.
~ x~ yv|
Il fait intervenir la médiane et les quartiles. Il est défini par : Fu .
v~ x~
4.1.3. Le coefficient d’asymétrie de Fisher
μ3 μ u
Il fait intervenir les moments centrés et est défini par : F = 3/ 2
= 33 , avec f
Y E
μ2 σ
4.1.4. Interprétations et représentations graphiques
Oblicité
à gauche
Oblicité
à droite
fficient dd’asymétrie
Lorsque le coefficient asyymétrie est négatif, la distribution est pl us éta
plus lée à ggauche, c'est-à-
étalée
dire oblique à droite. Il est nul po
pour une distribution à densité té de fréquen
ffréquence
nce sy symétrique, telle
que la loi de Gauss (dans ce cas, la moyenne, la médiane et le mode sont égaux).
On utilise souvent un coefficient d'asymétrie de Pearson basé sur les moments centrés : \u
. Ce coefficient d'asymétrie est toujours positif. Il est nul pour une distribution à densité de
fréquence symétrique, telle la loi de Gauss.
Exemples :
Il fait intervenir la notion de moment centré. Une statistique qui donne une information sur
l’aplatissement d’une distribution est la kurtose ou kurtosis. Plusieurs définitions algébriques
sont possibles.
Il se note :
fw
@v
lw
4.2.2. Le coefficient d’aplatissement de Yules
Il se note :
fw
Fv 5
lw
4.2.3. Interprétations et représentations graphiques
En effet, pourquoi – 3 ? C'est parce qu’en probabilités, on peut démontrer que le coefficient
d'aplatissement de Pearson pour une variable aléatoire réelle qui suit une loi de Gauss, est égal
à 3. Ainsi, puisque la valeur 3 est une indication de kurtose neutre, certains auteurs tels que
Yules recommandent de soustraire 3 à la formule. Il est alors évident, pour comparer
l’aplatissement d’une distribution statistique à l’aplatissement d’une variable de Gauss,
d’introduire le coefficient : v v 5.
Ainsi, si :
{( x ; y ; n ); i = 1,...., r; j = 1,....., p}
i j ij
1. TABLEAU DE CONTINGENCE
On appelle tableau de contingence le tableau à double entrée représentant une distribution
statistique à deux variables. Il permet de voir comment se distribuent les effectifs de chaque
modalité d’un caractère suivant les modalités de l’autre.
X
Yu Ruu Ruv --- Ru --- Ru Ru
Yv Rvu Rvv --- Rv --- Rv Rv
- - - --- - --- - -
- - - --- - --- - -
- - - --- - --- - -
Y Ru Rv --- R --- R R
- - - --- - --- - -
- - - --- - --- - -
- - - --- - --- - -
Y Ru Rv --- R --- R R
R Ru Rv --- R --- R R
nij
À partir de ce tableau, nous pouvons définir la fréquence du couple xi ; y j ( ) par : fij =
n
, où
r ⎛ p ⎞
n = ∑ ⎜ ∑ nij ⎟ est l’effectif total. Cette fréquence représente la proportion d’individus
i =1 ⎝ j =1 ⎠
vérifiant à la fois la modalité xi et la modalité y j .
Les paramètres utilisés pour caractériser les séries statistiques à deux variables sont de deux
types :
ceux qui ne concernent qu’une variable à la fois à partir des distributions des variables
sont appelés « marginales et conditionnelles » ;
ceux qui s’intéressent à la distribution globale et qui servent à décrire les relations qui
existent entre les deux variables.
Pour X : Pour Y :
ni
X ni fi =
n
x1 n1 f1
x2 n2 f 2 n j
Y n j f j =
- - - n
- - -
y1 n1 f1
xi ni •
fi •
y2 n 2 f2
- - -
- - - - - -
- - -
xr nr fr
yi ni f i
∑ n 1 - - -
- - -
yp n p f p
∑ n 1
r r
2 ni 2
(
σ x2 = ∑ fi xi − x = ∑
i =1
) i =1 n
(
× xi − x )
p
2
σ y2 = ∑ f j ( y j − y )
j =1
Tableau de contingence :
Y 25 35 45 55 ni
X
3 3 1 1 0 5
5 1 5 0 0 6
7 0 1 3 0 4
9 0 0 1 2 3
11 0 0 2 0 2
n j 4 7 7 2 20
Pour X : Pour Y :
ni
X ni fi =
n n j
Y n j f j =
5 n
3 5
20 4
6 25 4
5 6 20
20 7
4 35 7
7 4 20
20 7
3 45 7
9 3 20
20 2
2 55 2
11 2 20
20
∑ 20 1
∑ 20 1
Moyennes marginales :
5
5 × 3 + 6 × 5 + 4 × 7 + 3 × 9 + 2 ×11
x = ∑ fi × xi = = 6.10
i =1 20
4
4 × 25 + 7 × 35 + 7 × 45 + 2 × 55
y = ∑ f j × y j = = 38.5
j =1 20
Variances marginales :
5 2 ⎛ 5
⎞ 2 5 × 32 + 6 × 52 + 4 × 7 2 + 3 × 92 + 2 ×112
( )
σ x2 = ∑ fi xi − x = ⎜ ∑ fi ( xi ) ⎟ − x =
i =1 ⎝ i =1
2
⎠
() 20
2
− ( 6.10 ) = 6.59
4
2 4 × 252 + 7 × 352 + 7 × 452 + 2 × 552 2
σ y2 = ∑ f j ( y j − y ) = − (38.5) = 82.75
i =1 20
2.2. Distributions conditionnelles
⎛ ⎞
Définition : on appelle distribution conditionnelle de X sachant Y = y j , ⎜ X ⎟ , la donnée
⎝ Y = y j ⎠
n
du couple xi , fi j , i = 1,....., r , avec f i j = ij (lire fi si j ).
{( ) }
n j
Moyennes conditionnelles :
r
Pour X , x j = ∑ fi j xi , il y a donc p moyennes conditionnelles x j .
Y = yj i =1
p
Pour Y f ji y j , il y a donc r moyennes conditionnelles yi .
X = xi yi = ∑
,
j =1
Variances conditionnelles :
i =1
j
(
V j ( x ) = ∑ fi xi − x j ) avec ( j = 1,...., p ) .
p
2
Pour Y
X = xi
, la variance conditionnelle est : Vi (Y ) = ∑ f ji y j − y j ( ) , avec (i = 1,......, r ) .
j =1
Application numérique :
Supposons que l’on veut étudier la distribution du salaire horaire des individus âgés de 35 ans.
La variable étudiée est la variable conditionnelle X .
Y = 35 ans
ni 2
X ni 2 fi 2 =
n 2 Moyenne conditionnelle :
3 1 1/7
5
5 5 5/7 1× +5 × 5 + 1× 7
7 1 1/7 x 2 = ∑ fi 2 xi = = 5€
i =1 7
9 0 0
11 0 0 Variance conditionnelle :
∑ 7 1
5 2 5 2
(
V2 (x) = ∑ f i 2 xi2 − x 2
i =1
) = ∑ f i 2 xi2 − x 2
i =1
( )
.
2 2 2
1× 3 + 5 × 5 + 1× 7
= − 52 = 1.143 € 2
7
Étudions maintenant la distribution de l’âge gagnant un salaire horaire égal à 3. La variable
étudiée est la variable conditionnelle Y .
X = 3€
Tableau de cette distribution :
n1 j Moyenne conditionnelle :
1
Y ni j f =
j 4
n1 3 × 25 + 1× 35 + 1× 45
y1 = ∑ f j1 y j = = 31 ans
25 3 3/5 j =1 5
35 1 1/5
45 1 1/5 Variance conditionnelle :
55 0 0 4
2
V1 ( y ) = ∑ f j1 y 2j − ( y1 )
∑ 5 1 j =1
.
3 × 252 + 1× 352 + 1× 452
= − 312 = 64 ans 2
5
2.3. Relations entre les distributions conditionnelles et marginales
La moyenne marginale est la moyenne des moyennes conditionnelles, pondérée par les fi ou
les f j selon la variable considérée.
p r
D’où : x = ∑ f j x j et y = ∑ fi × yi
j =1 i =1
Variance globale = moyenne des variances conditionnelles + variance des moyennes conditionnelles
p p
2
D’où les résultats suivants : V ( x) = σ x2 = ∑ f j ×V j ( x ) + ∑ f j x j − x ( )
j =1 j =1
r r
2
V ( y ) = σ y2 = ∑ fi × Vi ( y ) + ∑ fi ( yi − y ) .
i =1 i =1
V ( y) x
2
Si η y ≠ 0 , alors on dit que Y est corrélée avec X .
x
2
Si η x ≠ 0 , alors on dit que X est corrélée avec Y .
y
Application numérique :
Y yi
X
25 35 45 55 ni
3 3 1 1 0 5 31
5 1 5 0 0 6 33.33
7 0 1 3 0 4 42.5
9 0 0 1 2 3 51.66
1 0 0 2 0 2 45
n j 4 7 7 2 20
xj 3.5 5 7.86 9
4 4 n
j 4 × 3.5 + 7 × 5 + 7 × 7.86 + 2 × 9
x = ∑ fij x j = ∑ × xj = = 6.10 .
j =1 j =1 n 20
5
5 × 312 + 6 × 33.332 + 4 × 42.52 + 3 × 51.662 + 2 × 452 − 38.52
y = ∑ fi × yi = = 0.67 .
i =1 82.750
4 × 3.52 + 7 × 52 + 7 × 7.862 + 2 × 92
4 f j ( x j − x )
2
− 6.102
η 2x = ∑ = 20 = 0.561.
y j =1 V ( x) 6.59
2 2
Le salaire horaire est corrélé avec l’âge comme η y > η x , la corrélation de Y avec X est plus
x y
forte que celle de X avec Y .
3. INDÉPENDANCE STATISTIQUE
3.1. Définition
nij ni
X est statistiquement indépendant de Y si et seulement si : = ⇔ f i j = f i ∀ ( i, j ) .
n j n
3.2. Propriétés
nij × n n j ni
En effet, nij × n = n j × ni ⇔ = × .
n × n n n
Y y j −1 yj
-----------
X
-------------- ----------- ----------- ---------
(
D’où : cov ( X , Y ) = ∑∑ fij ( xi − x ) y j − y = ∑∑ fij xi y j − xy . )
i =1 j =1 i =1 j =1
1.2. Coefficient de corrélation
Y 25 35 45 55
X
3 3 1 1 0
75 105 135 ×
5 1 5 0 0
125 175 × ×
7 0 1 3 0
× 245 315 ×
9 0 0 1 2
× × 405 495
11 0 0 2 0
× × 495 ×
On a alors :
5 4
∑∑ nij x y
i =1 j =1
i j
cov ( X , Y ) = − xy
n
3 × 75 + 1×105 + 1×125 + 5 ×175 + 1× 245 + 3 × 315 + 1× 405 + 2 × 495
⇔ cov ( X , Y ) = = 17.15 (> 0)
20
cov ( X , Y ) 17.15
Calcul du coefficient de corrélation linéaire : r ( x, y ) = = = 0.73 .
σ xσ y 6.59 − 82.75
2. LIAISON FONCTIONNELLE
Université de Yaoundé II-Soa 36 Année académique 2019-2020
Cours de Statistiques appliquées aux sciences sociales Prof. MONDJELI
2.1. Définition
Y y1 y2 y3 y4 ni
X
x1 0 0 5 3 8 X est liée fonctionnellement à Y , cette liaison n’est pas
0 6 0 0 6
réciproque car Y n’est pas liée fonctionnellement à X .
x2
x3 9 0 0 0 9
n j 9 6 5 3 23
Y y1 y2 y3 y4 ni
X
x1 4 0 0 0 4
x2 0 0 0 5 5
La liaison fonctionnelle est réciproque.
x3 0 0 6 0 6
x4 0 5 0 0 5
n j 4 5 6 5 20
3. COURBES DE RÉGRESSION
On veut donner une interprétation graphique, à la notion de corrélation entre 2 variables X et
Y.
3.1. Définition
( )
orthogonal, un point M ij xi , y j dont la surface est proportionnelle à l’effectif nij du couple
(x , y ).
i j
Application numérique :
Y ni yi
25 35 45 55
X
3 3 1 1 0 5 31
5 1 5 0 0 6 33.33
7 0 1 3 0 4 42.5
9 0 0 1 2 3 51.66
1 0 0 2 0 2 45
n j 4 7 7 2 20
xj 3.5 5 7.86 9
η y2 = 0.67 et η 2x = 0.561 , donc CY est meilleur que C X pour résumer le nuage de points.
x y X Y
Si η 2
x = 0 , alors x j = x et C X est parallèle à ( Oy ) .
y Y
Si η 2
y = 0 , alors yi = y et CY est parallèle à ( Ox ) .
x X
L’absence de corrélation entre X et Y se traduit par le parallélisme des 2 courbes de régression
avec les axes.
C X
Y
yi = y CY
X
x j =x
- Si η 2x = 1 , X est liée fonctionnellement à Y et à la courbe de liaison fonctionnelle.
y
4. DROITES DE RÉGRESSION
On cherche à résumer au mieux le nuage de points M ij par une droite. Le critère utilisé est celui
« des moindres carrés ». Le problème de sa détermination relève de la méthode dite de
l’ajustement linéaire.
Préliminaires graphiques :
M i ( xi , axi + b )
yj ε ij
M ij ( xi , yi )
xi
Δ a pour équation : y = ax + b ; et on a : ε ij = y j − axi − b ( )
Problème à résoudre : peut-on trouver une droite Δ telle que :
r p nij 2
r p nij 2
∑∑ n × (ε ij ) =∑∑ × ( y j − axi − b )
i =1 j =1 i =1 j =1 n
soit minimale. La solution des problèmes pour l’écart ε ij compté parallèlement à l’axe des Y
est la droite de régression de y en x que l’on note par D y .
x
cov ( X , Y )
aˆ = , c’est la pente ou le coefficient directeur de D y .
V (x) x
bˆ = y − ax
ˆ , c’est l’ordonnée à l’origine de D y .
x
L’équation bˆ = y − ax
ˆ traduit que D y passe par G ( x , y ) , qui est le centre de gravité du nuage
x
de points.
r p nij 2 r p nij 2
La droite D x est la droite qui rend minimale :
y
∑∑
i =1 j =1 n
× eij ( ) = ∑∑
i =1 j =1 n
× ( xi − a′y j − b′ )
eij Dx
y
yj M ij Mj
xi
L’équation de D x est mise sous la forme x = a′y + b′ , et eij = ( xi − a′y j − b′ ) .
y
L’erreur eij est un écart compté parallèlement à l’axe ( Ox ) . De la même manière que pour
cov ( X , Y )
D y , on obtient : aˆ ′ = et bˆ′ = x − aˆ ′ × y .
x V (Y )
1 bˆ′
On lit que la pente de D x est égale à et l’ordonnée à l’origine de D x est égale à − .
y â ′ y aˆ ′
Cas particulier : Pour les séries non classées {( x , y ,1) , i = 1,...., n}, les résultats sont les
i i
suivants :
⎛ n ⎞
⎜ ∑ xi yi ⎟ − ( n × xy )
cov ( X , Y ) ⎝ i =1 ⎠
pour D y : aˆ = = n ;
x V (x) ⎛ 2⎞ 2
⎜ ∑ ( xi ) ⎟ − n ( x )
⎝ i =1 ⎠
n
⎛ ⎞
⎜ ∑ xi yi ⎟ − ( n × xy )
cov ( X , Y ) ⎝ i =1 ⎠
pour D x : aˆ ′ = = n .
y V (Y ) ⎛ 2⎞ 2
⎜ ∑ ( yi ) ⎟ − n ( y )
⎝ i =1 ⎠
Application numérique :
cov ( X , Y ) 17.15
aˆ = = = 2.6 L’équation de D y est donc :
σ x2 6.59 x
bˆ = y − ax
ˆ = 2.5 − 2.6 × 6.1 = 22.6 y = 2.6 x + 22.6 .
cov ( X , Y ) 17.15
aˆ ′ = 2
= = 0.207 L’équation de D x est donc :
σ y 82.75 y
1 1.88
bˆ′ = x − aˆ ′ × y = 6.1 − 0.207 × 38.5 = −1.88 y= x+ .
0.207 0.207
R2 est le coefficient de détermination de l’ajustement linéaire. Plus il est élevé, meilleur est
l’ajustement.
Propriétés : a) R = r
2 2
( x, y ) , (carré du coefficient de corrélation linéaire)
b) 0 ≤ R 2 ≤ 1, car r ( x, y ) ≤ 1
e) R 2 = aˆ × aˆ ′
Preuve du e) :
cov ( X , Y ) cov ( X , Y )
aˆ = et aˆ ′ = ,
σ 2
x σ y2
2
cov ( X , Y ) cov ( X , Y ) ⎡⎣cov ( X , Y )⎤⎦
Donc on a : aˆ × aˆ ′ = 2
× 2
= 2 2
= R2 .
σx σy σ x ×σ y
Application numérique :
2
2
R =
(17.15) 2
= 0.53 et r 2 ( x, y ) = (0.73) = 0.53 et aˆ × aˆ ′ = 2.6 × 0.207 = 0.53 .
6.59 × 82.75
RÉFÉRENCES BIBLIOGRAPHIQUES
Université de Yaoundé II-Soa 43 Année académique 2019-2020
Cours de Statistiques appliquées aux sciences sociales Prof. MONDJELI