Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
y1
n11 n21 ni1 np1 n.1
y2 ... ....yj..yq
n12 n22 ni2 np2 n.2 n1j n2j nij npj n.j n1q n2q niq npq n.p
ni.
n1. n2. ni. np. n..
.
Xp
n.j
[5 ; 6[ [6 ; 7[ [7 ; 8[
ni.
1200 500 100 1800 2500 3500 600 6600 1800 5000 2300 9100 5500 9000 3000 17500
Il y a 1200 salaris gs de 20 22 ans et touchant un salaire entre 5000 et 6000 DH. Il y a 5000 salaris gs de 24 26 ans et touchant un salaire entre 6000 et 7000 DH.
f32 = 5000 / 17500 = 0,28 28% des indivis ont entre 24 et 26 ans et gagnant entre 6000 et 7000 Dh.
ni.
n1. n2.
ni. np.
Etudier une distribution marginale revient tudier une variable un seul caractre. On obtient ainsi :
..
=1 1 ..
Var(X)=
=1 .
( )2
=1
Avec .. =
= =1 . =1
Leffectif total
Age
ni.
[20 ; 22[ 1800 [22 ; 24[ 6600 [24 ; 26[ 9100 n.. 17500
3 =1
Var(X)=
1 ..
3 =1 .
( )2
[5 ; 6[ [6 ; 7[ [7 ; 8[
n..
n.j
1 ..
3 =1 1 ..
. ( )2
=
=1 =1
Var(Y)=
3 =1 .
Avec .. =
= =1 . =1 .
Leffectif total
fi/j = nij / n.j :Reprsente la proportion dindividus prsentant la modalit xi parmi les individus prsentant uniquement la modalit yi.
Salaire Age
[5 ; 6[ [6 ; 7[ [7 ; 8[
ni.
1200 500 100 1800 2500 3500 600 6600 1800 5000 2300 9100 5500 9000 3000 17500
[6 ; 7[ [7 ; 8[
ni.
1200 500 100 1800 2500 3500 600 6600 1800 5000 2300 9100 5500 9000 3000 17500
Moyenne conditionnelle
1 = 1/5500 [(1200*21) + (2500*23) + (1800 * 25)] = 23,22
Lge moyen des individus qui gagnent entre 5 et 6 MDH est de 23,22 ans.
Salaire Age
[5 ; 6[ [6 ; 7[ [7 ; 8[
ni.
1200 500 100 1800 2500 3500 600 6600 1800 5000 2300 9100 5500 9000 3000 17500
fj=1 / i=2= 2500 / 6600 = 0,378 37,8 des individus qui ont entre 22 et 24 ans touchent un salaire entre 5 et 6 MDH.
1200 500 100 1800 2500 3500 600 6600 1800 5000 2300 9100 5500 9000 3000 17500
Moyenne conditionnelle yi
= 1/6600 [(2500*5,5)+(3500*6,5)+ (600 * 7,5)] = 6,212
Le salaire moyen des individus qui ont entre 22 et 24 ans est de 6212 Dh.
Commentaires 14% des tudiants viennent de la rgion R1 et sont a l'universit U1 65% des tudiants viennent de la rgion R1 30% des tudiants sont a l'universit U3
Njk R1 R2 R3 N.k
Commentaire : Dans les tudiants venant de la rgion R2, 10% ont choisi l'universit U2.
Njk R1 R2 R3 N.k
Commentaire : Dans les tudiants ayant choisi l'universit U3, 30% viennent de la rgion R2.
les effectifs thoriques dans le cas de l'indpendance Njk U1 U2 U3 Nj. R1 26 65 39 130 R2 4 10 6 20 R3 10 25 15 50 N.k 40 100 60 200
N.k
40
100
60
200
Njk
R1 R2
U1
26 4
U2
65 10
U3
39 6
Nj.
130 20
R3
N.k
10
40
25
100
15
60
50
200
La matrice des carts est calcule en soustrayant de la matrice des effectifs observs N, la matrice des effectifs thoriques esprs sous l'hypothse d'indpendance N*.
On rejette lhypothse de lindpendance si la valeur de D est suprieure la valeur du quantile dordre 1- dune khi-deux (K-1)*(J-1) degrs de libert. K: le nombre de modalits de la variable Y J: le nombre de modalits de X : le risque de premier degr ( en gnrale 1% ou 5%) Dans notre exemple: D = 38.78 et la valeur critique= 9.49 donc les deux variables sont dpendantes
Cest bien de dire quune relation est significative, mais encore faut-il vrifier lintensit de la relation. On peut mesurer la force de la relation entre les deux variables par le biais de lindice quon appelle le V de Cramer :
V D2 n ( L 1)
n = nombre dobservations (total des frquences) L = minimum des lignes et des colonnes du tableau (on prend le + petit des 2) 0 < V < 1 : plus V se rapproche de 1, plus la relation est forte
V V V V V V
relation trs forte relation forte relation modre relation faible relation trs faible relation nulle
Application
Supposons la situation suivante: Au cours d'une enqute, on interroge 1 369 mres d'enfants ns avec une malformation et 2 968 mres d'enfants ns sans malformation. On constate que 35,06% des mres d'enfants ns avec malformations et 33,02% des mres d'enfants ns sans malformations fumaient.
le fait d'tre mal form la naissance dpend t-il du fait que la mre soit fumeuse ou non.
enfant malform 1369 *1460 / 4337 = 460,85 1369 * 2876 / 4437 = 908,14 1369 les carts
enfant "normal" 2968 *1460 / 4437 = 999,15 2968 * 2876 / 4437 = 1968,86 2968
Remarque:
Conditions dapplication du test de khi-deux: La taille de lchantillon n doit tre assez grande (n>=30) Les effectifs thoriques doivent tre tous suprieurs 5
covx, y r x . y
Le coefficient de corrlation linaire est une mesure de dpendance linaire sans unit et prend ses valeurs dans [ 1;1]
-1 rxy 1 rxy = 1 relation fonctionnelle linaire rxy = 0 indpendance linaire -1 < rxy < 1 dpendance linaire d'autant plus forte que rxy est grand
a) Reprsentation graphique
La premire tape consiste observer les donnes pour dterminer sil est raisonnable dtablir un lien linaire entre les variables.
Le poids moyen varie en fonction du terme il y a une liaison entre le terme et le poids de naissance
En pratique, on ne recherche pas la forme exacte de la courbe. On se contente le plus souvent dune droite dquation :
= aX + b
est lestimation de y partir de lquation de rgression
La droite de rgression permettant de mieux reprsenter les points est : = 162,30 x - 3115,6
Sans tre strictement linaire, la liaison entre le terme et le poids peut tre reprsente par une droite.
b) Lestimation du modle
Estimation par la mthode des Moindres Carres
La Somme des Carrs des Ecarts (SCE) est donne par : 2 S= ( ) = =1 =1(
)2
La mthode des Moindres Carres consiste chercher les valeurs de a et b (=aX + b) qui minimise la fonction S, ce qui revient rsoudre le systme:
= 0
et
= 0
a=
( , ) ( )
et
b = - a
c) La vrification du modle
Le R2 ou coefficient de dtermination mesure la qualit de l'ajustement des estimations de l'quation de rgression. Il permet d'avoir une ide globale de l'ajustement du modle. Le R2 s'interprte comme la part de la variance de la variable Y explique par le modle de rgression, varie entre 0 et 1 et s'exprime souvent en pourcentage.
2 =1 ( ) ( )2 =1
=corr(x,y)
Applications
Lindice moyen dun salaire a volu de la faon suivante : Anne Indice 1 2 3 4 5 6 7 165 176 193 202 222 245 253
a) Reprsenter cette srie statistique par un nuage de points. b) En utilisant la mthode des moindres carres, calculer lquation de la droite reprsentant lindice en fonction de lanne. c) Comment pourrait-on prvoir lindice lanne 9 ?