Vous êtes sur la page 1sur 75

SERIEs STATISTIQUEs A

DEUX VARIABLES
Outils Mathématiques et Statistiques
DUT Gestion Logistique et Transport
Institut Universitaire de Technologie (IUT)

Mamadou Babacar Ndiaye Professeur Titulaire Année académique :2022/2023


PLAN
I/CAS DE DEUX VARIABLES QUANTITATIVES
A)Tableau de données
1. Nuage de point
2. Point moyen
B) Ajustement affine
1. Méthode graphique
2. Ajustement affine : méthodes des moindres carrées
C)Coefficient de corrélation linéaire
1. Propriétés
2. Interprétation graphique
2
II/CAS DE DEUX VARIABLES QUALITATIVES
1. Les données et leur représentation
2. Les représentations graphiques
3. Les indices de liaisons
III/ CAS D’UNE VARIABLE QUANTITATIVE ET D’UNE VARIABLE
QUALITATIVE
1. Les données
2. Représentation graphique: les boites parallèles
3. les formules de décomposition
4. Rapport de corrélation

3
I/CAS DE DEUX VARIABLES QUANTITATIVES
A)tableau de données . nuage de point
• Une série statistique à deux variables est une
série pour laquelle deux caractères mesurables
sont relevés pour chaque individu. Pour étudier
d’éventuelles liaisons , on est amené a
s’intéresser simultanément à deux variables x et
y d’une même population . on définit une série
statistique à deux variables x et y prenant des
valeurs X1…,X2…., Xn et Y1.…,Y2…., Yn .
4
Pour étudier la liaison entre deux variables
quantitatives (discrètes), on commence par faire un
graphique du type nuage de points . La forme
générale de ce graphique indique s’il existe ou non
une liaison entre deux variables .

5
1) Nuage de points
On considère deux variables statistiques 𝑥 et 𝑦
observées sur une même population de 𝑛 individus.
Définition : Dans un repère orthogonal, l’ensemble des
points 𝑀𝑖 de coordonnées
(𝑥i ; 𝑦i), avec 1 ≤ 𝑖 ≤ 𝑛, est appelé le nuage de points
associé à la série
statistiques (X1,𝑦1), (X2, Y2),…, (Xn ; Yn) à deux variables.
L’ensemble des point M obtenus constitue le nuage de point
représentant la série statistique .
Dans l’exemple 1,on obtient le nuage de la figure 1
6
EXEMPLE 1
Le mur d’une habitation est constitué par une paroi en béton et une
couche de polystyrène d’épaisseur variable x (en cm) .
On a mesuré, pour une même épaisseur de béton, la résistance
thermique y de ce mur en m² °c par watt pour différentes valeurs de x .
On a obtenu les résultats suivant:

épaisseur xi 2 4 6 8 10 12 15 20

résistance yi 0,83 1,34 1,63 2,29 2,44 2,93 4,06 4,48


7
L’ensemble des points Mi obtenus constitue le nuage
de point représentant la série statistique. 8
Exemple 2
Pour des véhicules légers de la gamme 9 et 11 des puissances
administratives , roulant en palier (ou en descente), on a relevé
les consommations moyennes et les vitesses correspondantes
suivantes :

Vitesse xi(en
km/h) 10 20 30 40 50 60 80 90

Consommation
yi (en l/100) 16,5 11,5 9 7,5 6,8 6,6 7,5 9
9
10
2) Point moyen
On appelle point moyen d’un nuage de n point Mi de coordonnées (xi,
yi) le point G de coordonnées :

Dans l’exemple 1, vérifier que le point moyen est G (9,625 : 2,5)


11
EXEMPLE 3:
Le tableau suivant présente l’évolution du budget publicitaire et du
chiffre d’affaire d’une société au cours des 6 dernières années :

Budget publicitaire en milliers d’euro xi 8 10 12 14 16 18

Chiffre d’affaires en milliers d’euro yi 40 55 55 70 75 95

1) Dans un repère, représenter le nuage de points (xi ; yi).


2) Déterminer les coordonnées du point moyen G du nuage de points.

12
Chiffres d’affaires

budget

𝑥̅ = (8 + 10 + 12 + 14 + 16 + 18) : 6 = 13
ȳ = (40 + 55 + 55 + 70 + 75 + 95) : 6 = 65.
Le point moyen G du nuage de points a pour coordonnées (13 ;65). On
peut placer ce point dans le repère.
13
Chiffres d’affaires

budgets
14
B) Ajustement affine
1)Méthode graphique ( les ajustements affines)
Effectuer un ajustement de y en x d’un nuage de points
consiste à trouver une fonction f telle que la courbe
d’équation y = f (x) passe « au plus près » des points du
nuage .
Remarque : Dans la suite de ce chapitre, on s’intéressera
aux ajustements affines, c’est-à-dire le cas où la série
statistique peut être ajustée par une fonction affine (ce qui
n’est pas toujours le cas)

15
❖Ajustement à la règle
On repend le nuage de point de l’exemple 1 .
On se propose, a partir des mesures effectuées de faire des
prévisions de résistances pour d’autres épaisseurs.
Un moyen d’y parvenir est de tracer au jugé une droite D
passant le plus près possible des points du nuage d’équation
d’équation de la forme Y = aX + b et d’admettre que les
valeurs yi de la résistance et de l’épaisseur xi sont liées par
cette équation (alors pour tout i, Yi = aXi + b).

16
Pour réaliser le tracé de D , on peut utiliser une règle
transparente et la disposer suivant la direction
constatée en s’efforçant d’équilibrer les nombres de
points situés de part et d’autres et d’harmoniser leur
répartition de part et d autre suivant les abscisses
croissantes.

17
On prend comme droite d’ajustement ,la droite passant par les
points A(6; 1,63) et B (12 ; 2,93). Vérifier qu’une équation de
la droite (AB) est : y = 0,22x + 0,33.

❖ Ajustement par la méthode de Mayer

Cet ajustement consiste à déterminer la droite passant


par deux points moyens du nuage de point.

18
Pour tracer la droite de Mayer, on commence par
trier les couples de valeur dans l’ordre croissant
des x.
Ensuite , il faut diviser l’ensemble des valeurs en
deux sous-ensembles contenant a peu près le
même nombres d’éléments. Après cela pour
chaque sous ensemble on retrouve le point
moyen:
. 19
G1 pour 1er sous ensemble
G2 pour 2ème sous ensemble
La droite reliant G1 et G2 est la droite d’ajustement se
fait en utilisant les droites de régression.
Dans l’exemple 1 on a la droite (G1,G2), ou droite de
Mayer, qui constitue une <<bonne>> droite
d’ajustement dans le cas ou le nuage est allongé .

20
Remarque : La droite de Mayer passe toujours par le
point moyen du nuage.
❖Méthode des moindre carrées
Cette méthode consiste à rechercher la position
de la droite d’ajustement tel que la somme des
carrés des longueurs donnant les distances
respectives (en vert) entre la droite et les points
soit minimale.

21
Le principe consiste donc à déterminer les coefficients 𝑎
et 𝑏 d’une droite d’équation 𝑦 = 𝑎𝑥 + 𝑏 de sorte qu’elle
passe le « plus près possible » des points du nuage. A
noter : Il existe également une droite d’ajustement de 𝑥
en 𝑦 en calculant les distances obtenues par projection
horizontale

22
23
24
❖ Les droites de régressions
On considère une série statistique a deux variables
représentée par un nuage justifiant un ajustement affine.

25
26
Soit D une droite d’ajustement .
Soit Mi (xi, yi) un point du nuage .Pi est le point de
même abscisse xi que Mi situé sur la droite D
d’équation y=ax+b.
On appelle droite de régression de y en x la droite D
telle que

Somme soit minimale.


a = Cov(X ; Y) / V(X) (ajustement de Y en X ) 27
Dans le cas de la fig.4, on note Qi le point de même
ordonnée yi que Mi , situé sur la droite d’ajustement D’
d’équation x=a’y+b’.
On appelle droite de régression de x en y la droite D’ telle
que la somme soit minimale.

28
b) Covariance d’une série statistique double
La covariance de la série statistique double de caractères x et y est le
nombre réel :

On note aussi :

Une autre formule plus commode pour les calculs :

29
c) Equations des droites de régression
On montre que la droite de régression D de y en x a pour équation
y = ax + b
Ou le coefficient directeur est :

Et ou b vérifie:

La droite D passe donc par le point moyen du nuage .

30
La droite de régression D’ de x en y a pour équation

La droite D’ passe donc par elle aussi par le point moyen


Du nuage .

31
C) Coefficient de corrélation linéaire
1)Propriétés
Le coefficient de corrélation linéaire ( souvent appelé coefficient
de Pearson) d’une série statistique de variable x et y est le
nombre r défini par le rapport entre la variance et le produit des
écart-types . Ce coefficient se caractérise , de façon intrinsèques
, la liaison entre les deux variables considérées. .en particulier il
ne dépend pas des unités de mesure des deux variable:
𝑐𝑜𝑣(𝑥;𝑦)
r=
Ϭ𝑥.Ϭ𝑦
32
Ce coefficient sert a mesurer la qualité d’un
ajustement affine. Il vérifie −1 ⪯ 𝑟 ⪯ 1.
2)Interprétation graphique
Plus le coefficient de corrélation linéaire est
proche de 1 en valeur absolue, meilleur est
l’ajustement linéaire . Lorsque r= +1 ou – 1 , la
droite de régression passe par tous les points du
nuage, qui sont donc alignés .

33
II)CAS DE DEUX VARIALES QUALITATIVES
Lorsqu’on étudie simultanément deux variables
qualitatives, il est commode de présenter les données
sous forme d’une table de contingence, synthèse des
observations selon les modalités des variables qu’elles
ont présentées .
A partir de cette table , on définit la notion de profil,
dont on se sert pour réaliser un diagramme de profil
faisant bien apparaitre la liaison entre les deux
variables , lorsqu’il en existe une .
34
Pour quantifier cette liaison, l’indicateur
fondamental est le khi-deux. Toutefois, comme il
n’est pas d’usage commode dans la pratique, on
introduit encore les indicateurs phi-deux, T de
Tschuprow et C de Cramer , liés au khi-deux . Les
deux derniers sont compris entre 0 et 1, et sont
d’autant plus grands que la liaison et forte, ce qui
facilite leur interprétation.

35
1 .Les données et leur présentation
On considère dans cette section deux variables
qualitatives observées simultanément sur n individus.
La première variable, notée X , possède r modalités
notées x1,…..,xl,……xr; la seconde notée Y , possède c
modalités notées y1,…..,yh,…..yc.
Le plus souvent , ces données sont présentées dans un
tableau a double entrée , appelé table de contingence ,
dans lequel on dispose les modalités de X en lignes et
celles de Y en colonnes.
36
Ce tableau est donc de dimension r x c et a
pour élément général le nombre n lh
d’observations conjointes des modalités xl de
X et y h de Y . Les quantités n lh sont appelées
les effectifs conjoints.
Une table de contingence se présente donc
sous la forme suivante :

37
yi …. yh …. yc somme
x1 n11 …. n1h n1c n1+
…. …. ….. ….. …. …..
xl nl1 …. nlh nlc nl+
…. …. …. ….. ……
xr nr1 …. nrh …… nrc nr+
somme n+1 ….. n+h ….. n+c n

38
Les quantités n l+ (l = 1,…..,c) et n +h ( h= 1,…..,c),
appelées effectifs marginaux , sont définis de la façon
suivante : n L+ = σ𝑐ℎ=1 𝑛𝑙ℎ; N+H= σ𝑟𝑙=1 𝑛𝑙𝐻 σ 𝑛𝑙ℎ. Elles

vérifient σ𝑟𝑙=1 𝑛𝑙 + = σ𝐶𝐻=1 𝑛 + ℎ =N .


De façon analogue , on définit les notions de fréquences

conjointes (fth =
𝑛𝐿 ) et de fréquences marginales (f L+
+ =
𝑁𝐿
+
=
σ𝐶
𝐹𝑙ℎ
;
𝐻 1
𝑁 𝑁 =

𝑛+ℎ 𝑟 𝑓𝐿ℎ );
f+h = = σ𝑙=1 : Ces dernières vérifient
𝑁

𝑟 𝑐
෍ 𝑓𝑙+ = ෍ 𝑓+ℎ =1
𝑙+1 ℎ=1

39
2) Représentation graphique
On peut envisager dans le cas de l étude simultanée de
deux variables qualitatives d adapter les graphiques
présentes dans le cas unidimensionnel: on découpe
chaque partie (colonne, partie de barre ou secteur)
représentant une modalité de l une des variables selon
les effectifs des modalités de l autre.

Mais, de façon générale, il est plus approprie de


réaliser des graphiques représentant des quantités très
utiles dans ce cas, que l’on appelle les profils
40
Définition des profils
On appelle lieme profil ligne l ensemble des fréquences de la variable Y
conditionnelles à la modalité xl de x ( c est à dire définies au sein de la sous
population cl de c associée à cette modalité) .Il s agit donc des quantités:

𝑛𝑙1. 𝑛𝑙ℎ 𝑛𝑙𝑐


…… ……
𝑛𝑙 + 𝑛𝑙 + 𝑛𝑙 +
.
On définit de façon analogue le hieme profil colonne
𝑛1ℎ 𝑛𝑙ℎ 𝑛𝑟ℎ
…… ……
𝑛+ℎ 𝑛+ℎ 𝑛+ℎ

41
42
La représentation graphique des profils lignes ou des
profils colonnes au moyen par exemple d’un
diagramme en barres parallèles, donne une idée assez
précise de la variation conjointe des deux variables.
˂ 18ans 18ans 19ans ˃19ans profil moyen

2ans 63,2 53,3 40,1 30,6 50,2

3ans 26,3 32,6 41,2 43,6 34,4

4ans 10,5 14,1 18,7 25,8 15,4

somme 100 100 100 100 100


43
La fig.3.5 donne le diagramme en barres pour les profils-
colonnes ci-dessus, et une liaison entre les deux variables
étudiées apparait très clairement.
3 . Les indices de liaison
Propriété préliminaire
On peut établir l’équivalence des trois propriétés suivantes :
(i) Tous les profils-lignes sont égaux;
(ii) tous les profils-colonnes sont égaux;
𝑛𝑙+𝑛+ℎ
(iii) pour tout couple d’indices (l, h), on a : n lh = 𝑛

44
Cette propriété, de nature mathématique , est
très important au niveau pratique. En effet , si
une table de contingence vérifie ces trois
propriétés , on peut alors dire qu’il n’existe
aucune forme de liaison entre les deux variables
considérés X et Y.

45
Pour s’en rendre compte, considérons , par
exemple, l’égalité des profils-lignes ; elle
signifie que la répartition des individus
selon les modalités de Y est la même ,
quelle que soit la modalité de X considéré .

46
Autrement dit ,X n’a pas d’influence sur les
répartitions selon Y, donc X n a pas d influence sur Y:
les deux variables ne sont pas liées. De même en cas
d égalité des profils colonnes . Pour la construction d
un indicateur de liaison sur une table de
contingence, c est toutefois la troisième propriété qui
va être utilisée. D une part, elle est symétrique selon
les lignes et les colonnes de la table, ce qui est très
commode , d autre part, elle se prête bien à la
construction d un tel indice:
47
on va évaluer l écart entre la situation observée(la
table de contingence dont on dispose ) et l état de
non liaison défini par(iii).

DEFINITION DU KHI-DEUX
Il est courant , en statistique, de comparer une table
de contingence observée, dont les objectifs conjoints
sont notés nlh, une table de contingence
48
donnée à priori(et appelée standard), dont
les effectifs conjoints sont notés slh, en
calculant la quantité
𝑟 𝑐 (𝑛𝑙ℎ−𝑠𝑙ℎ)²
σ𝑙=1 σℎ=1
𝑆𝐿ℎ
(Il s’agit de la somme de tous les carrés des
écarts rapportés aux effectifs standards).

49
La sommes de tous les écarts élevés au carré
rappelle la définition de la variance; la division de
chaque carré par l effectif standard correspondant
permet de relativiser les entrées considérées.
De façon naturelle, pour mesurer la liaison sur une
table de contingence, on utilise l expression ci-
dessus en choisissant pour effectif standard (slh)
l’effectif correspondant à l’absence de liaison
𝑛𝑙+𝑛+𝑛
(
𝑛
).
50
On mesure de la sorte l écart à la non liaison
autrement dit l importance de la liaison . On
appelle donc khi-deux (en anglais :chi-
square), l indicateur défini comme suit:

𝑛𝑙+𝑟𝑙+ℎ
(𝑛𝑙ℎ− )² 𝑛2 𝑙ℎ
X² =σ𝑟𝑙=1 σ𝑐ℎ=1 ¨𝑛
𝑛𝑙+𝑛+ℎ =n σ𝑟𝑙=1 σ𝑐ℎ=1 −1 .
𝑛𝑙+𝑛+ℎ
𝑛

51
La première égalité correspond a la définition de
l’indicateur Khi-deux , tandis que la seconde est
obtenue en développant le carrée, puis en
sommant sur les deux indices . En général, la
seconde formule est plus commode dans le calculs
pratique de cet indicateur de liaison .

52
En ce qui concerne ses propriétés, le coefficient X²
est toujours positif ou nul (par construction)
C’est pour cette raison qu' on a défini d autres
indices, liés au khi-deux , et dont l objectif est de
corriger ces défauts et il est d’autant plus grand
que la liaison entre les deux variables considérées
est forte ( il est construit pour cela ).

53
Malheureusement
. , il dépend aussi des
dimensions r et c de la table étudiée , ainsi que de
la taille n de l’échantillon observé ( ce n’est pas un
coefficient ‘’intrinsèque’’ ). En particulier, il n est
pas majoré ; autrement dit, on peut trouver des
coefficients x² aussi grand qu' on le souhaite, ce
qui est gênant pour l interprétation concrète de
ce coefficient .
54
Autres indicateurs liées au khi-deux
On en trouve un certain nombre dans la littérature statistique . Nous
citerons les trois plus importants .
𝑥²
-Le phi-deux : φ² =
𝑛

Il ne dépend plus de n, mais encore de r et de c.

ɸ²
-Le coefficient T de Tschuprow : T=
(𝑟−1)(𝑐−1)

On peut vérifié : 0⪯T⪯1


55
-Le coefficient C de Cramèr :
ɸ²
C=
𝑑−1
Avec d=inf(r,c). On vérifie maintenant : 0⪯T⪯C⪯1.
Le coefficient ɸ² est peu utilisé dans la pratique , mais il joue un
rôle important en Analyse Factorielle des Correspondances. On
utilise beaucoup plus les coefficients de Tschuprow et de Cramèr
(T et C) car comme la valeur absolue du coefficient de corrélation
linéaire et comme le rapport de corrélation ils sont compris entre
0 et 1 et sont d’autant plus grande que la liaison entre les deux
variables considérées sont forte.
56
Toutefois, on notera que T et C sont rarement
supérieurs a 0,5 dans la pratique ; sur des
exemples réels, ils sont le plus souvent compris
entre 0,1 et 0,3 et sont donc difficiles a
interpréter dans l’absolu. Ils sont plus utiles
lorsqu’on recherche, dans une liste de variables
qualitatives, celle qui est le plus liée a une autre
variable qualitative.

57
III/ CAS D’UNE VARIABLE QUANTITATIVE ET D’UNE VARIABLE
QUALITATIVE
Si X est la variable qualitative a r modalités, elle
définit une partition de l’ensemble des
observations en r ‘’classes ‘’. La classe courante ,
notée Cl (l=1,……1), contient les individus ayant
présenté la modalité x l de X. On peut alors définir
moyenne et variance partielles de la variable
qualitative Y au sein de chaque classe Cl . La façon
dont les moyennes partielles varient donne une
première idée de la liaison entre X et Y .
58
On peut ensuite représenter , sur le même
graphique, la boite-a-moustaches de Y dans
chaque classe C l ; on obtient le diagramme en
boites parallèles qui précise les choses
concernant la liaison entre X et Y .
Enfin, une idée encore plus précise sur cette
liaison est donnée par le rapport de corrélation,
indicateur comprise entre 0 et 1 et d’autant plus
grand que la liaison est forte .

59
1 . Les données
Nous disposons toujours ici de deux variables mais , maintenant,
l’une est quantitative et l’autre qualitative . La variable est X ,
supposée a r modalités notées
Xi ,…..,xl ,……xr .
La variable quantitative est Y, de moyenne ȳ et de variance s²y . On
peut ainsi répartir l’ensemble des individus observés en r parties .
Ou sous-ensembles, Cl l’ensemble des individus de l’échantillon
ayant présenté la modalité x l de X ; on obtient ainsi ce que l’on
appelle partition en r classes (on parle de partition lorsque chaque
individu présente une modalité et une seule de la variable X).
60
Nous noterons n1,… nr les effectifs des différents classes ( avec
toujours σ𝑟𝑙=1 𝑛𝑙 = 𝑛 , ou n est le nombre total d’individus
observés). Par exemple , avec la variable sexe , on définit deux
classes : C1 pour les hommes et C2 pour les femmes.
On peut alors définir la moyenne et la variance partielles de Y sur
chaque classe Cl de la partition : nous les noterons respectivement
ȳ l et S²l:
1
ȳl = σ𝑐𝑙 𝑦𝑖;
𝑛𝑙

1
S²l = σ𝑐𝑙 (𝑦𝑖- ȳl )²
𝑛𝑙

61
62
2 . Représentation graphique: les boites
parallèles
Une façon commode de présenter les données dans le cas de
l’étude simultanée d’une variable quantitative et d’une variable
qualitative consiste a réaliser des boites parallèles . Il s’agit, sur un
même graphique dotée d’une échelle verticale unique, de
représenter pour Y un diagramme en boite ( c’est-a-dire une boite-
a-moustaches) pour chacune des sous-populations( chacune des
classes ) définies par X . La comparaison de ces boites donne une
idée assez claire de l’influence de X sur les valeurs de Y : plus les
boites sont positionnées différemment, plus les valeurs de Y sont
fonction de X, donc plus les deux variables sont liées .
63
3 . Formules de décomposition

Ces formules sont nécessaires pour définir un indice de


liaison entre les deux variables. Elles indiquent
comment se décomposent la moyenne et la variance
de Y sur la partition définie par X ( c’est-a-dire
comment s’écrivent les caractéristiques globales en
fonction de leurs valeurs partielles). Ces formules sont
les suivantes:

64
1 𝑟
ȳl = σ𝑙=1 𝑛𝑙 𝑦𝑖;
𝑛

1 𝑟 1 𝑟
S²y = σ𝑙=1 𝑛𝑙 (ȳ𝑙- ȳ )²+ σ𝑙=1 𝑛𝑙 𝑠𝑙²= S²E +S²R
𝑛 𝑛
La décomposition de ȳ est très naturelle. Le premier terme
de la décomposition de s ²y , noté s²E , est appelé variance
expliquée par la partition, c’est-a-dire par X (d’où la
notation); on l’appelle aussi variance interclasses, ou entre
les classes. Le second terme, noté s²R, est appelé variance
résiduelle (d’ou la notation); on parle encore de variance
intra-classes, ou a l’intérieur des classes. 65
On notera qu’une formule de décomposition analogue existe
pour la covariance entre deux variables quantitatives.
Interprétation
La variance expliquée, S²E, représente ce que serait la variance
de Y si, dans chaque classe Cl de la partition définie par X,Y
était constante et valait ȳl . De son coté , la variance résiduelle
S²R représente ce qu’il reste comme variation de Y, en
moyenne, dans chaque classe. Ainsi, plus S²E est grande a S²R,
plus les deux variables X et Y sont liées .

66
4 . Rapport de corrélation
Il s’agit d’un indice de liaison entre les deux variables X
et Y . Il est défini de façon suivante:
S²𝐸 S𝐸
Cy/x = = .
S²𝑌 S𝑌
C’est donc la racine carrée positive de la part de variance expliquée par X.

67
Propriétés
𝐶𝑦Τ
- n’est pas symétrique. Cette propriété est évidente,
𝑥
compte- tenu que X et Y ne sont pas de même nature .
𝐶𝑦Τ 𝐶𝑦Τ
- 0⪯ 𝑥⪯1. Cet encadrement de 𝑥 découle directement
de la formule de décomposition de la variance. Les valeurs de
0 et 1 ont encore une significative intéressante.

68
𝐶𝑦Τ
- 𝑥 =1 ⇔ s²R=0; dans ce cas, s²l=0 pour tout l,
d’après la définition de s²r (la somme des carrées de
ces quantités est nulle, donc chacune de ces
quantités est nulle); par conséquent, Y est constante
sur chaque Cl (puisque sa variance est nulles sur
chacune de ces classes ); dans un tel cas, la
connaissance de X (donc de la classe Cl a laquelle
appartient chaque individu) est suffisante pour
connaitre Y (qui vaut ȳl ) : il y a liaison totale entre X
et Y.
69
𝐶𝑦Τ
- 𝑥 =0 ⇔ s²E=0 ⇔ȳl = ȳ,⍱ l=1….r ; en
moyenne, X n’a aucune influence sur Y (puisque
la valeur de Y est la même, quelle que soit la
modalité de X): il n’y a pas de liaison entre les
deux variables .
𝐶𝑦Τ
-On retiendra que plus 𝑥 est grand, plus la
liaison entre X et Y est forte.

70
MERCI DE VOTRE
AIMABLE
ATTENTION
71
Région TAG % POP SURF km² TBSG % TEEC %

Dakar 68,6 3732284 547 64,3 91,8

Diourbel 35,1 1801991 4824 28,9 69,4

Tambacounda 35 841518 42364 44,6 55,2

Saint-Louis 53,2 1063542 19241 57,4 71,5

Thiès 53,8 2105707 6670 53,4 86,8

Fatick 45,8 870361 6849 61,1 79,5

Kaffrine 42 703555 11262 26,7 64,1

Kaolack 50,2 1155433 5357 46,4 72,5

Kédougou 35 184275 16800 63,2 75,8

Kolda 43,7 796582 13771 51,9 56,6

Louga 36,4 1032645 24847 30,3 65,8

Matam 28,4 706037 29445 42,1 67,8

Sédhiou 47,3 553005 7341 62,7 56,5

Ziguinchor 65 662179 7352 87,3 82,2


72
1. Compléter le tableau par l'effectif de la population scolarisée et l'effectif de la population alphabétisée par
région. (2pts) et (2pts)
2. Donner par la méthode des moindres carrés la relation entre TEEC et TAG (2pts)
3. Quantifier et analyser la liaison entre TEEC et TAG (2pts)
4. Parmi les régions certaines disposent d'une façade maritime (Saint-Louis, Louga, Thiès, Dakar, Fatick et
Ziguinchor). Nous pouvons donc les répartir en deux groupes, le Groupe1: régions avec façade maritime et
Groupe2 : régions sans façade maritime.
a. Quantifier et analyser la liaison entre les groupes de régions et TBSG (2pts)
b. Quantifier et analyser la liaison entre les groupes de régions et le TAG(2pts)

c. Quantifier et analyser la relation entre le TAG et le TSBG (2pts)

5. Avant 1976 le Sénégal comptait 07 régions (cap vert actuel Dakar, le fleuve actuel Saint Louis, Diourbel,
casamance actuel Ziguinchor, sénégal oriental actuel tambacounda, Sine saloum actuel Kaolack et Thiès).
Répartissons les régions en deux groupes, Groupe A : les régions avant 1976 et GroupeB : les régions après 1976.
a. Quantifier et analyser la liaison entre les groupes de régions et TBSG (2pts)
b. Quantifier et analyser la liaison entre les groupes de régions et le TAG (2pts)
c. Quelle conclusion pouvez-vous tirer des réponses aux questions a et b ? (2pts)

73
Région TAG % POP SURF km² TBSG % TEEC % Pop TAG Pop TBSG

Dakar 68,6 3732284 547 64,3 91,8


2560347 2399859
Diourbel 35,1 1801991 4824 28,9 69,4
632499 520775

Tambacounda 35 841518 42364 44,6 55,2


294531 375317
Saint-Louis 53,2 1063542 19241 57,4 71,5
565804 610473
Thiès 53,8 2105707 6670 53,4 86,8
1132870 1124448
Fatick 45,8 870361 6849 61,1 79,5
398625 531791
Kaffrine 42 703555 11262 26,7 64,1
295493 187849
Kaolack 50,2 1155433 5357 46,4 72,5
580027 536121
Kédougou 35 184275 16800 63,2 75,8
64496 116462
Kolda 43,7 796582 13771 51,9 56,6
348106 413426
Louga 36,4 1032645 24847 30,3 65,8
375883 312891
Matam 28,4 706037 29445 42,1 67,8
200515 297242
Sédhiou 47,3 553005 7341 62,7 56,5
261571 346734
Ziguinchor 65 662179 7352 87,3 82,2
430416 578082
Moyenne
45,6785714 1157793,86 14047,8571 51,45 71,10714286
74
• Variance X 128
• Variance Y 137,4141209
• Covariance(X,Y) 84,7193956
• a 0,663445448
• b -1,497138854
•r 0,639555668
• Vérif r (cov(x,y)/racine (varX*varY) 0,639555668

75

Vous aimerez peut-être aussi