Cours Statistiques Descriptives 7 Pr. Chtita

Chapitre 2 :
Statistiques descriptives
Master spécialisé
Ingénierie de formation et digital Learning
II. Statistique descriptive bi-variée
1. Variable statistique à deux dimensions

Module M233 :
2. Quelques exemples
Statistiques descriptives
3. Représentation graphique
Pr. Samir CHTITA
4. Covariances entre deux variables
samirchtita@gmail.com
https://sites.google.com/view/chtita/home 5. Ajustement affine
6. Conclusion
1
Année universitaire 2023/2024
II Statistique descriptive bivariée
Les statistiques mono variées s’intéressaient,
pour une population donnée, à une variable
donné : les notes à un devoir surveillé d’une
classe, les concentrations du calcium dans l’eau,
etc.
Lorsque l’on s’intéresse à l’étude simultanée de
deux variables d’une même population, on fait
ce que l’on appelle des statistiques bi variées, en
étudiant des séries statistiques doubles.

II Statistique descriptive bivariée
Deux variables sont liées si connaître l'une donne
des informations sur l'autre.
Par exemple, connaître le sexe d'un individu
permet d'en savoir un peu plus sur la longueur de
ses cheveux.
Attention, cela ne permet pas de connaître mais
juste d'avoir une information plus précise.

1. Variable statistique à deux dimensions
On considère une population d'effectif n, si on étudie

deux caractères X et Y de cette population, on dit que
l'on étudie une série statistique double. Chaque
individu de cette population est désigné par un nombre
compris entre 1 et n.
A chaque individu i ( 1≤ i ≤ n) correspond un couple

(xi ; yi), où xi est la modalité du caractère X et yi est la
modalité du caractère Y associé à l'individu i.
Les couples (xi ; yi) forment une série statistique à
deux variables.
Lorsque l’un des deux caractères est une année, une

date, on dit que la série statistique double est une série
chronologique.
2. Quelques exemples
1) Température moyenne mensuelle en fonction de la pluviométrie de la ville de Berrechid
2) On considère la série statistique à deux variables, donnant le poids en kg et la taille en

cm d'enfants de 60 mois de sexe masculin
3) Le tableau suivant donne, dans une population féminine, la moyenne de la tension

artérielle maximale en fonction de l'âge.
Dans le plan rapporté à un repère orthogonal, on
appelle nuage de points associé à une série statistique
à deux variables, l'ensemble des points M1(x1 ; y1) ;
M2(x2 ; y2) … Mn(xn ; yn).

Comme son nom l'indique, la Covariance est une
mesure de la force du lien entre deux variables
(numériques). Elle mesure la dispersion des points
du nuage autour du point G.
4.1. Notion de lien entre deux variables

Soient X et Y deux telles variables. Deux situations
extrêmes peuvent se rencontrer :
1) Il n'existe aucun lien entre X et Y. La
connaissance de la valeur prise par X n'apporte
aucune information permettant de réduire
l'incertitude sur la valeur que va prendre Y. Les
deux variables sont alors dites indépendantes.
2) Il existe entre X et Y un lien si fort qu'il est en

fait fonctionnel. Il existe une fonction
complètement déterministe f telle que : Y = f(X)
Alors, connaître la valeur prise par X permet de
connaître sans aucune incertitude la valeur prise
par Y. Il n'existe pas de grandeur universelle
permettant la mesure de la force de ce lien dans les
situations intermédiaires. La Covariance est une
grandeur qui, malgré ses limitations, est très utile
en pratique.
• Théorème de Huyghens-König :
4.2.2. Cas de données groupées dans un tableau de contingence
4.3. Interprétation de la covariance

4.3.1. Valeur absolue de la covariance
Poursuivant avec des arguments purement qualitatifs, notons que pour deux
variables aléatoires X et Y :
• Alors qu'une de la Covariance proche de 0 montre qu'une des variables sera

vraisemblablement proche de sa moyenne quand l'autre prendra des valeurs
élevées (positives ou négatives).
Donc une valeur positive importante de la

Covariance est un bon détecteur d'un lien fort entre
deux variables. On montre alors que ce lien est alors
nécessairement linéaire.
A l'inverse, quelle conclusion peut-on tirer d'une
valeur de la Covariance proche de 0 ? Dans le cas
général, aucune.
• La Covariance peut être faible parce que le lien

entre les variables est effectivement faible.
• Mais elle peut être faible parce que le lien entre les
variables est non-linéaire. Il peut alors être très fort,
et pourtant conduire à une faible valeur de la
Covariance.
4.3.3. Propriétés de la covariance
Cette formule est l'analogue de (x + y)2 = x2 + y2 + 2xy . En fait, la plupart des

propriétés de la covariance sont analogues à celles du produit de deux réels ou du
produit scalaire de deux vecteurs.
Si deux variables X et Y sont indépendants,
Mais la réciproque est fausse : deux variables
aléatoires peuvent avoir une covariance nulle et
pourtant ne pas être indépendantes.
Par exemple, soient : X uniformément distribuée dans
[-1, +1].
Y = X ².
5. Ajustement affine
Nous cherchons une fonction f dont la courbe représentative passe « au plus

près » des points du nuage. C’est le problème de l’ajustement.
Pour l’exemple 1, la forme « allongée » du nuage de points permet de penser
qu’une droite convient pour ajuster le nuage. Nous parlons alors d’ajustement
affine ou linéaire.
Il existe, cependant, d’autres ajustements : exponentiel, logarithme,

polynomial, …
Un tel ajustement permet alors de réaliser des estimations :
• Par interpolation, dans l’intervalle connu,
• Par extrapolation, au delà de cet intervalle.
Nous allons étudier, à présent, une méthode dans le cas de l’ajustement affine :
la méthode des moindres carrés.
5.1. Principe
Soit (xi , yi ) une série statistique double, avec un nuage de points Mi (xi , yi )
associé.
Lorsque les points du nuage paraissent presque alignés, on peut chercher une
relation de la forme y = ax + b qui exprime de façon approchée les valeurs de
la série ( yi ) en fonction des valeurs de la série (xi ) , autrement dit, une
fonction affine f telle que l’égalité y = f(x) s’ajuste au mieux avec les données.
Graphiquement, cela signifie qu’on cherche une droite qui passe au plus près
de tous les points du nuage. Une telle relation permettrait notamment de faire
des prévisions. Il existe de nombreuses manières d’obtenir un ajustement
affine satisfaisant.
5.2. Méthodes
5.2.1. Méthode « au jugé »
A vous de tracer une droite qui passe le plus près possible de tous les points du
nuage, si possible en la faisant passer par le point moyen du nuage. C’est peu
précis, mais peut suffire dans certains cas.

5.2.2. Méthode de Mayer

Cette méthode peut se faire en trois étapes :
• Etape 1: On commence par « découper » la série statistique double en deux
sous-séries bien distinctes, c’est-à-dire que l’on découpe le nuage de points Mi
(xi , yi ) en deux sous-nuages distincts et de même effectif (ou presque : si le
nombre de points est pair, pas de souci. S’il est impair, on peut mettre le point
surnuméraire dans n’importe lequel des deux sous-nuages)
• Etape 2 : On calcule les coordonnées des deux points moyens G1 et G2

associés à ces deux sous nuages, et on place ces deux points sur le graphique.
• Etape 3 : On trace la droite (G1 G2), appelée droite de Mayer du nuage de

points Mi (xi , yi ), qui doit passer par le point moyen G du nuage de points Mi
(xi , yi ). C’est cette droite qui constitue un ajustement affine tout à fait
acceptable pour la série double (xi , yi ).
5.2.3. Méthodes des points extrêmes
Puisqu’il faut deux points pour tracer une droite, une idée simple consiste à faire
passer une droite par les deux points extrêmes de la série, soit {1,3; 24,6} et {79,4;
9,3} d’autre part. On obtient alors une droite qui nous indique une tendance
négative.
Cette méthode n’est cependant pas très satisfaisante car elle ne tient compte que
des deux points extrêmes. Une meilleure méthode est celle dite des « moindres
carrés ordinaires » ou MCO en abrégé.
5.2.4. Méthodes des moindres carrés ordinaires
Ce nom bizarre vient du fait que la méthode consiste à déterminer la droite
d'ajustement en minimisant la somme du carré des écarts entre cette droite et
les observations. Les détails mathématiques de cette méthode importent peu
dans un cours de statistique descriptive, car l'essentiel est de savoir calculer les
coordonnées de la droite.
De plus, les machines à calculer ainsi que les logiciels informatiques
permettent un calcul et un tracé facile de cette droite.
On considère un nuage de points Mi (xi , yi ) et soit (D) une droite d’équation
y = ax + b que l’on cherche à déterminer.

Définition 1 :
On appelle somme des résidus associée à la droite (D), le nombre réel S défini
par :
La méthode des moindres carrés ordinaires consiste, dans sa version la plus

simple, à trouver la droite qui minimise les carrés des écarts des points
représentatifs à cette droite.
Trouver la droite telle que la somme des

carrés des écarts d1, d2,… soit minimale
Définition 2 :
On appelle méthode des moindres carrés la méthode qui consiste à rechercher
les coefficients a et b tels que la somme S soit minimale. Remarquons que S est
une fonction des deux variables a et b.
5.2.5. Détermination des coefficients
Le nombre S est minimum pour :
La droite (D) d’équation y = ax + b où a et b sont déterminés par les formules ci-
dessus, est appelé droite de régression de Y en X et on dit qu’on a obtenu cette
équation par la méthode des moindres carrés.
La droite (D’) est appelée droite de régression de X en Y d’équation : x= a’y + b’
avec :
Remarques :
• Les deux droites de régression de Y en X et de X en
Y passent toutes deux par le point moyen G de
coordonnées ( x ; y ).
• Le signe de la pente a donne le sens de corrélation,
mais pas sa qualité.
• a > 0 corrélation positive
• a < 0 corrélation négative
• a = 0 pas de corrélation
5.2.6. Coefficient de corrélation linéaire
Une faiblesse de la Covariance est qu'elle n'est pas invariante dans un

changement d'unités utilisées pour exprimer les valeurs des deux variables X et
Y.
Par exemple, la valeur de la Covariance de "pluie" et "température" de la ville de

Berrechid change si les températures sont exprimées en Kelvin au lieu de °C, ou
les pluies sont exprimés en "cm" au lieu de mm, alors que la force du lien entre
ces deux grandeurs ne dépend évidemment pas des unités utilisées pour les
exprimer.
Supposons que l'unité utilisée pour mesurer X soit divisée par 2 (et donc que les
valeurs de X soient multipliées par 2).
Alors la covariance Cov(X, Y) est également multipliée par 2.
Mais l'écart-type (racine carrée de la variance) de X est également multiplié par
2, et donc le rapport :
reste inchangé.
Le même argument s'applique à Y, et plus généralement, à tout changement
d'unités pour la mesure de X et de Y. Donc, en toute généralité, le nombre :
ne dépend pas des unités dans lesquelles X et Y sont exprimées. Ce nombre r XY
s'appelle le Coefficient de Corrélation Linéaire des variables (X, Y).
Il peut être perçu comme la version standardisée de la Covariance.

5.2.7. Propriétés du Coefficient de Corrélation
• La valeur du Coefficient de Corrélation est toujours comprise entre -1 et +1 :
-1 ≤ r ≤ +1
• Plus il s'éloigne de zéro, plus la corrélation est meilleure.
• r = +1 corrélation positive parfaite
• r = -1 corrélation négative parfaite
• r = 0 absence totale de corrélation
• Si X = Y, alors Cov(X, X) = Var(X) et donc rXY = +1.
• Le Coefficient de Corrélation est symétrique : rXY = rYX.
• Si les variables sont toutes deux de variance unité, leur Covariance et leur
5.2.8. Interprétation du Coefficient de Corrélation
rXY = +1 ou rXY = -1 implique un lien

fonctionnel linéaire entre X et Y.
Il existe alors 3 nombres a, b, et c tels que:
aX + bY + c = 0
Que peut-on dire d'un Coefficient de

Corrélation r proche de 0 ?
On ne peut alors affirmer que le lien entre
X et Y est faible que si ce lien est non
linéaire .
Mais il est possible qu'un lien fort, mais non linéaire entre X et Y conduise à une
valeur faible du Coefficient de Corrélation, comme le montre l'image ci-dessous.
Donc en l'absence de certitude sur la linéarité du lien entre X et Y, il n'est pas

possible de tirer de conclusion d'une faible valeur du Coefficient de Corrélation. On
dit parfois que le Coefficient de Corrélation ne représente que la "partie linéaire" du
lien entre X et Y.
Deux variables dont le Coefficient de Corrélation a une valeur proche de 0 sont dites
non corrélées.
La non corrélation ne doit pas être confondue avec l'indépendance authentique :
• Deux variables indépendantes sont non corrélées,
• Mais deux variables non corrélées peuvent ne pas du tout être indépendantes (voir
l'exemple ci-dessus, la relation est forte et r = 0,3). Ce n'est que dans le cas où les
variables sont toutes deux normales et de distribution conjointe binormale que
"non corrélation" implique "Independence" : deux variables normales décorrélées
et de distribution conjointe binormale sont indépendantes.
Donc, dans le cas général, la notion d'indépendance est beaucoup plus forte que celle
5.3. Coefficient de corrélation et Régression Linéaire
La Régression Linéaire Simple est intimement liée à
la notion de Coefficient de Corrélation. En particulier
si les deux variables sont de variances identiques (par
exemple, après standardisation), alors la pente de
l'unique droite de régression est égale au Coefficient
de Corrélation.
Remarque : le coefficient de corrélation (en général)
peut être trompeur de part la possibilité que la
dépendance de deux variables soit liée à une

5.4. Coefficient de Corrélation Multiple
La notion de Coefficient de Corrélation se généralise à
la situation suivante. On dispose :
• D'une variable Y,
• Et d'un ensemble de variables {X1, X2 , ..., Xn}.
La force de la partie linéaire du lien entre Y et {X1, X2
, ..., Xn} est mesurée par un nombre appelé Coefficient
de Corrélation Multiple
6. Conclusion
Lorsque les observations portent simultanément sur deux caractères, et

lorsqu’elles sont trop nombreuses pour qu’on les cite une à une, on les
présente sous la forme d’un tableau à double entrée.
L’étude de la distribution de deux variables se poursuit par celle de leur

liaison.
L’étude des séries statistiques à deux variables permet de mettre en rapport
deux caractères afin de pouvoir déterminer une valeur manquante ou de
prévoir une tendance. Néanmoins, deux caractères peuvent avoir un très fort
coefficient de corrélation sans pour autant être réellement lié.
Un exemple est l’accroissement simultané des divorces dans les familles et

l’acquisition d’un ordinateur. La conclusion serait que les hommes préfèrent
leur ordinateur à leur femme …

Cours Statistiques Descriptives 7 Pr. Chtita

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Statistiques Descriptives 7 Pr. Chtita

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 2 :

II. Statistique descriptive bi-variée

1. Variable statistique à deux dimensions

Les statistiques mono variées s’intéressaient,

pour une population donnée, à une variable

donné : les notes à un devoir surveillé d’une

classe, les concentrations du calcium dans l’eau,

Lorsque l’on s’intéresse à l’étude simultanée de

deux variables d’une même population, on fait

ce que l’on appelle des statistiques bi variées, en

étudiant des séries statistiques doubles.

Deux variables sont liées si connaître l'une donne

des informations sur l'autre.

Par exemple, connaître le sexe d'un individu

permet d'en savoir un peu plus sur la longueur de

Attention, cela ne permet pas de connaître mais

juste d'avoir une information plus précise.

On considère une population d'effectif n, si on étudie

A chaque individu i ( 1≤ i ≤ n) correspond un couple

Lorsque l’un des deux caractères est une année, une

2) On considère la série statistique à deux variables, donnant le poids en kg et la taille en

3) Le tableau suivant donne, dans une population féminine, la moyenne de la tension

Dans le plan rapporté à un repère orthogonal, on

appelle nuage de points associé à une série statistique

à deux variables, l'ensemble des points M1(x1 ; y1) ;

M2(x2 ; y2) … Mn(xn ; yn).

Comme son nom l'indique, la Covariance est une

mesure de la force du lien entre deux variables

(numériques). Elle mesure la dispersion des points

du nuage autour du point G.

4.1. Notion de lien entre deux variables

2) Il existe entre X et Y un lien si fort qu'il est en

Alors, connaître la valeur prise par X permet de

connaître sans aucune incertitude la valeur prise

par Y. Il n'existe pas de grandeur universelle

permettant la mesure de la force de ce lien dans les

situations intermédiaires. La Covariance est une

grandeur qui, malgré ses limitations, est très utile

4.3. Interprétation de la covariance

• Alors qu'une de la Covariance proche de 0 montre qu'une des variables sera

Donc une valeur positive importante de la

• La Covariance peut être faible parce que le lien

4.3.3. Propriétés de la covariance

Cette formule est l'analogue de (x + y)2 = x2 + y2 + 2xy . En fait, la plupart des

Mais la réciproque est fausse : deux variables

aléatoires peuvent avoir une covariance nulle et

pourtant ne pas être indépendantes.

Par exemple, soient : X uniformément distribuée dans

Nous cherchons une fonction f dont la courbe représentative passe « au plus

Il existe, cependant, d’autres ajustements : exponentiel, logarithme,

5.2.1. Méthode « au jugé »

précis, mais peut suffire dans certains cas.

5.2.2. Méthode de Mayer

• Etape 2 : On calcule les coordonnées des deux points moyens G1 et G2

• Etape 3 : On trace la droite (G1 G2), appelée droite de Mayer du nuage de

5.2.4. Méthodes des moindres carrés ordinaires

Ce nom bizarre vient du fait que la méthode consiste à déterminer la droite

d'ajustement en minimisant la somme du carré des écarts entre cette droite et

les observations. Les détails mathématiques de cette méthode importent peu

De plus, les machines à calculer ainsi que les logiciels informatiques

permettent un calcul et un tracé facile de cette droite.

On considère un nuage de points Mi (xi , yi ) et soit (D) une droite d’équation

y = ax + b que l’on cherche à déterminer.

La méthode des moindres carrés ordinaires consiste, dans sa version la plus