Vous êtes sur la page 1sur 32

Chapitre 2 :

Statistiques descriptives
Master spécialisé
Ingénierie de formation et digital Learning

II. Statistique descriptive bi-variée

1. Variable statistique à deux dimensions


Module M233 :
2. Quelques exemples
Statistiques descriptives
3. Représentation graphique
Pr. Samir CHTITA
4. Covariances entre deux variables
samirchtita@gmail.com
https://sites.google.com/view/chtita/home 5. Ajustement affine

6. Conclusion

1
Année universitaire 2023/2024
II Statistique descriptive bivariée

Les statistiques mono variées s’intéressaient,

pour une population donnée, à une variable

donné : les notes à un devoir surveillé d’une

classe, les concentrations du calcium dans l’eau,

etc.

Lorsque l’on s’intéresse à l’étude simultanée de

deux variables d’une même population, on fait

ce que l’on appelle des statistiques bi variées, en

étudiant des séries statistiques doubles.


II Statistique descriptive bivariée

Deux variables sont liées si connaître l'une donne

des informations sur l'autre.

Par exemple, connaître le sexe d'un individu

permet d'en savoir un peu plus sur la longueur de

ses cheveux.

Attention, cela ne permet pas de connaître mais

juste d'avoir une information plus précise.


1. Variable statistique à deux dimensions

On considère une population d'effectif n, si on étudie


deux caractères X et Y de cette population, on dit que
l'on étudie une série statistique double. Chaque
individu de cette population est désigné par un nombre
compris entre 1 et n.

A chaque individu i ( 1≤ i ≤ n) correspond un couple


(xi ; yi), où xi est la modalité du caractère X et yi est la
modalité du caractère Y associé à l'individu i.
Les couples (xi ; yi) forment une série statistique à
deux variables.

Lorsque l’un des deux caractères est une année, une


date, on dit que la série statistique double est une série
chronologique.
2. Quelques exemples
1) Température moyenne mensuelle en fonction de la pluviométrie de la ville de Berrechid

2) On considère la série statistique à deux variables, donnant le poids en kg et la taille en


cm d'enfants de 60 mois de sexe masculin

3) Le tableau suivant donne, dans une population féminine, la moyenne de la tension


artérielle maximale en fonction de l'âge.
3. Représentation graphique

Dans le plan rapporté à un repère orthogonal, on

appelle nuage de points associé à une série statistique

à deux variables, l'ensemble des points M1(x1 ; y1) ;

M2(x2 ; y2) … Mn(xn ; yn).


3. Représentation graphique
4. Covariances entre deux variables

Comme son nom l'indique, la Covariance est une

mesure de la force du lien entre deux variables

(numériques). Elle mesure la dispersion des points

du nuage autour du point G.

4.1. Notion de lien entre deux variables


Soient X et Y deux telles variables. Deux situations
extrêmes peuvent se rencontrer :
1) Il n'existe aucun lien entre X et Y. La
connaissance de la valeur prise par X n'apporte
aucune information permettant de réduire
l'incertitude sur la valeur que va prendre Y. Les
deux variables sont alors dites indépendantes.
4. Covariances entre deux variables

2) Il existe entre X et Y un lien si fort qu'il est en


fait fonctionnel. Il existe une fonction
complètement déterministe f telle que : Y = f(X)

Alors, connaître la valeur prise par X permet de

connaître sans aucune incertitude la valeur prise

par Y. Il n'existe pas de grandeur universelle

permettant la mesure de la force de ce lien dans les

situations intermédiaires. La Covariance est une

grandeur qui, malgré ses limitations, est très utile

en pratique.
4. Covariances entre deux variables

• Théorème de Huyghens-König :
4. Covariances entre deux variables
4.2.2. Cas de données groupées dans un tableau de contingence

4.3. Interprétation de la covariance


4.3.1. Valeur absolue de la covariance
Poursuivant avec des arguments purement qualitatifs, notons que pour deux
variables aléatoires X et Y :

• Alors qu'une de la Covariance proche de 0 montre qu'une des variables sera


vraisemblablement proche de sa moyenne quand l'autre prendra des valeurs
élevées (positives ou négatives).
4. Covariances entre deux variables

Donc une valeur positive importante de la


Covariance est un bon détecteur d'un lien fort entre
deux variables. On montre alors que ce lien est alors
nécessairement linéaire.
A l'inverse, quelle conclusion peut-on tirer d'une
valeur de la Covariance proche de 0 ? Dans le cas
général, aucune.

• La Covariance peut être faible parce que le lien


entre les variables est effectivement faible.

• Mais elle peut être faible parce que le lien entre les
variables est non-linéaire. Il peut alors être très fort,
et pourtant conduire à une faible valeur de la
Covariance.
4. Covariances entre deux variables

4.3.3. Propriétés de la covariance

Cette formule est l'analogue de (x + y)2 = x2 + y2 + 2xy . En fait, la plupart des


propriétés de la covariance sont analogues à celles du produit de deux réels ou du
produit scalaire de deux vecteurs.
4. Covariances entre deux variables
Si deux variables X et Y sont indépendants,

Mais la réciproque est fausse : deux variables

aléatoires peuvent avoir une covariance nulle et

pourtant ne pas être indépendantes.

Par exemple, soient : X uniformément distribuée dans

[-1, +1].

Y = X ².
5. Ajustement affine

Nous cherchons une fonction f dont la courbe représentative passe « au plus


près » des points du nuage. C’est le problème de l’ajustement.
Pour l’exemple 1, la forme « allongée » du nuage de points permet de penser
qu’une droite convient pour ajuster le nuage. Nous parlons alors d’ajustement
affine ou linéaire.

Il existe, cependant, d’autres ajustements : exponentiel, logarithme,


polynomial, …
Un tel ajustement permet alors de réaliser des estimations :
• Par interpolation, dans l’intervalle connu,
• Par extrapolation, au delà de cet intervalle.
Nous allons étudier, à présent, une méthode dans le cas de l’ajustement affine :
la méthode des moindres carrés.
5. Ajustement affine

5.1. Principe
Soit (xi , yi ) une série statistique double, avec un nuage de points Mi (xi , yi )
associé.

Lorsque les points du nuage paraissent presque alignés, on peut chercher une
relation de la forme y = ax + b qui exprime de façon approchée les valeurs de
la série ( yi ) en fonction des valeurs de la série (xi ) , autrement dit, une
fonction affine f telle que l’égalité y = f(x) s’ajuste au mieux avec les données.

Graphiquement, cela signifie qu’on cherche une droite qui passe au plus près
de tous les points du nuage. Une telle relation permettrait notamment de faire
des prévisions. Il existe de nombreuses manières d’obtenir un ajustement
affine satisfaisant.
5. Ajustement affine

5.2. Méthodes

5.2.1. Méthode « au jugé »

A vous de tracer une droite qui passe le plus près possible de tous les points du

nuage, si possible en la faisant passer par le point moyen du nuage. C’est peu

précis, mais peut suffire dans certains cas.


5. Ajustement affine

5.2.2. Méthode de Mayer


Cette méthode peut se faire en trois étapes :
• Etape 1: On commence par « découper » la série statistique double en deux
sous-séries bien distinctes, c’est-à-dire que l’on découpe le nuage de points Mi
(xi , yi ) en deux sous-nuages distincts et de même effectif (ou presque : si le
nombre de points est pair, pas de souci. S’il est impair, on peut mettre le point
surnuméraire dans n’importe lequel des deux sous-nuages)

• Etape 2 : On calcule les coordonnées des deux points moyens G1 et G2


associés à ces deux sous nuages, et on place ces deux points sur le graphique.

• Etape 3 : On trace la droite (G1 G2), appelée droite de Mayer du nuage de


points Mi (xi , yi ), qui doit passer par le point moyen G du nuage de points Mi
(xi , yi ). C’est cette droite qui constitue un ajustement affine tout à fait
acceptable pour la série double (xi , yi ).
5. Ajustement affine
5.2.3. Méthodes des points extrêmes
Puisqu’il faut deux points pour tracer une droite, une idée simple consiste à faire
passer une droite par les deux points extrêmes de la série, soit {1,3; 24,6} et {79,4;
9,3} d’autre part. On obtient alors une droite qui nous indique une tendance
négative.

Cette méthode n’est cependant pas très satisfaisante car elle ne tient compte que
des deux points extrêmes. Une meilleure méthode est celle dite des « moindres
carrés ordinaires » ou MCO en abrégé.
5. Ajustement affine

5.2.4. Méthodes des moindres carrés ordinaires

Ce nom bizarre vient du fait que la méthode consiste à déterminer la droite

d'ajustement en minimisant la somme du carré des écarts entre cette droite et

les observations. Les détails mathématiques de cette méthode importent peu

dans un cours de statistique descriptive, car l'essentiel est de savoir calculer les

coordonnées de la droite.

De plus, les machines à calculer ainsi que les logiciels informatiques

permettent un calcul et un tracé facile de cette droite.

On considère un nuage de points Mi (xi , yi ) et soit (D) une droite d’équation

y = ax + b que l’on cherche à déterminer.


5. Ajustement affine
Définition 1 :
On appelle somme des résidus associée à la droite (D), le nombre réel S défini
par :

La méthode des moindres carrés ordinaires consiste, dans sa version la plus


simple, à trouver la droite qui minimise les carrés des écarts des points
représentatifs à cette droite.

Trouver la droite telle que la somme des


carrés des écarts d1, d2,… soit minimale

Définition 2 :
On appelle méthode des moindres carrés la méthode qui consiste à rechercher
les coefficients a et b tels que la somme S soit minimale. Remarquons que S est
une fonction des deux variables a et b.
5. Ajustement affine

5.2.5. Détermination des coefficients

Le nombre S est minimum pour :

La droite (D) d’équation y = ax + b où a et b sont déterminés par les formules ci-

dessus, est appelé droite de régression de Y en X et on dit qu’on a obtenu cette

équation par la méthode des moindres carrés.

La droite (D’) est appelée droite de régression de X en Y d’équation : x= a’y + b’

avec :
5. Ajustement affine

Remarques :

• Les deux droites de régression de Y en X et de X en

Y passent toutes deux par le point moyen G de

coordonnées ( x ; y ).

• Le signe de la pente a donne le sens de corrélation,

mais pas sa qualité.

• a > 0 corrélation positive

• a < 0 corrélation négative

• a = 0 pas de corrélation
5. Ajustement affine

5.2.6. Coefficient de corrélation linéaire

Une faiblesse de la Covariance est qu'elle n'est pas invariante dans un


changement d'unités utilisées pour exprimer les valeurs des deux variables X et
Y.

Par exemple, la valeur de la Covariance de "pluie" et "température" de la ville de


Berrechid change si les températures sont exprimées en Kelvin au lieu de °C, ou
les pluies sont exprimés en "cm" au lieu de mm, alors que la force du lien entre
ces deux grandeurs ne dépend évidemment pas des unités utilisées pour les
exprimer.

Supposons que l'unité utilisée pour mesurer X soit divisée par 2 (et donc que les
valeurs de X soient multipliées par 2).
Alors la covariance Cov(X, Y) est également multipliée par 2.
5. Ajustement affine

Mais l'écart-type (racine carrée de la variance) de X est également multiplié par

2, et donc le rapport :
reste inchangé.

Le même argument s'applique à Y, et plus généralement, à tout changement

d'unités pour la mesure de X et de Y. Donc, en toute généralité, le nombre :

ne dépend pas des unités dans lesquelles X et Y sont exprimées. Ce nombre r XY

s'appelle le Coefficient de Corrélation Linéaire des variables (X, Y).

Il peut être perçu comme la version standardisée de la Covariance.


5. Ajustement affine
5.2.7. Propriétés du Coefficient de Corrélation
• La valeur du Coefficient de Corrélation est toujours comprise entre -1 et +1 :
-1 ≤ r ≤ +1

• Plus il s'éloigne de zéro, plus la corrélation est meilleure.

• r = +1 corrélation positive parfaite

• r = -1 corrélation négative parfaite

• r = 0 absence totale de corrélation

• Si X = Y, alors Cov(X, X) = Var(X) et donc rXY = +1.

• Le Coefficient de Corrélation est symétrique : rXY = rYX.

• Si les variables sont toutes deux de variance unité, leur Covariance et leur
5. Ajustement affine
5.2.8. Interprétation du Coefficient de Corrélation

rXY = +1 ou rXY = -1 implique un lien


fonctionnel linéaire entre X et Y.
Il existe alors 3 nombres a, b, et c tels que:
aX + bY + c = 0

Que peut-on dire d'un Coefficient de


Corrélation r proche de 0 ?
On ne peut alors affirmer que le lien entre
X et Y est faible que si ce lien est non
linéaire .
5. Ajustement affine

Mais il est possible qu'un lien fort, mais non linéaire entre X et Y conduise à une
valeur faible du Coefficient de Corrélation, comme le montre l'image ci-dessous.

Donc en l'absence de certitude sur la linéarité du lien entre X et Y, il n'est pas


possible de tirer de conclusion d'une faible valeur du Coefficient de Corrélation. On
dit parfois que le Coefficient de Corrélation ne représente que la "partie linéaire" du
lien entre X et Y.
5. Ajustement affine

Deux variables dont le Coefficient de Corrélation a une valeur proche de 0 sont dites
non corrélées.

La non corrélation ne doit pas être confondue avec l'indépendance authentique :

• Deux variables indépendantes sont non corrélées,

• Mais deux variables non corrélées peuvent ne pas du tout être indépendantes (voir

l'exemple ci-dessus, la relation est forte et r = 0,3). Ce n'est que dans le cas où les

variables sont toutes deux normales et de distribution conjointe binormale que

"non corrélation" implique "Independence" : deux variables normales décorrélées

et de distribution conjointe binormale sont indépendantes.

Donc, dans le cas général, la notion d'indépendance est beaucoup plus forte que celle
5. Ajustement affine
5.3. Coefficient de corrélation et Régression Linéaire

La Régression Linéaire Simple est intimement liée à

la notion de Coefficient de Corrélation. En particulier

si les deux variables sont de variances identiques (par

exemple, après standardisation), alors la pente de

l'unique droite de régression est égale au Coefficient

de Corrélation.

Remarque : le coefficient de corrélation (en général)

peut être trompeur de part la possibilité que la

dépendance de deux variables soit liée à une


5. Ajustement affine

5.4. Coefficient de Corrélation Multiple

La notion de Coefficient de Corrélation se généralise à

la situation suivante. On dispose :

• D'une variable Y,

• Et d'un ensemble de variables {X1, X2 , ..., Xn}.

La force de la partie linéaire du lien entre Y et {X1, X2

, ..., Xn} est mesurée par un nombre appelé Coefficient

de Corrélation Multiple
6. Conclusion

Lorsque les observations portent simultanément sur deux caractères, et


lorsqu’elles sont trop nombreuses pour qu’on les cite une à une, on les
présente sous la forme d’un tableau à double entrée.

L’étude de la distribution de deux variables se poursuit par celle de leur


liaison.
L’étude des séries statistiques à deux variables permet de mettre en rapport
deux caractères afin de pouvoir déterminer une valeur manquante ou de
prévoir une tendance. Néanmoins, deux caractères peuvent avoir un très fort
coefficient de corrélation sans pour autant être réellement lié.

Un exemple est l’accroissement simultané des divorces dans les familles et


l’acquisition d’un ordinateur. La conclusion serait que les hommes préfèrent
leur ordinateur à leur femme …

Vous aimerez peut-être aussi