Vous êtes sur la page 1sur 5

I.

Résumé de statistique descriptive


unidimensionnelle
I.1 Terminologie de la statistique
I.1.1 Caractère
Attribut, caractéristique, propriété faisant l'objet d'une observation répétée.
Une valeur possible pour un caractère est une modalité de ce caractère.
Un caractère peut être, selon la nature de ses modalités:
Qualitatif : les modalités sont des libellés
ex. : l’activité principale d’un ménage, le niveau de vie d’un ménage, l’espèce d’un kg de viande
produite.
Quantitatif (aussi appelé variable statistique) : les modalités sont des nombres. Un caractères
quantitatif appartient à l’une des deux catégories :
- discret : l’ensemble des modalités est discret
- continu : l’ensemble des modalités est continu.
ex. : la pluie annuelle en un lieu donné, le revenu annuel d’un ménage, le nombre d’enfant dans une
famille.
Un caractère quantitatif de nature peut être interprété comme qualitatif (en regroupant les modalités
dans des classes par exemple) et vice-versa (en procédant à un codage numérique, ou une ordination).
Ordinal : un caractère qualitatif dont les modalités sont ordonnées.
I.1.2 Individu
Réalité physique concernée par un caractère. Ex. : un ménage, une station pluviométrique-année, un
kg de viande
I.1.3 Population
Ensemble de tous les individus considérés. Elle peut être finie de taille N ou infinie.
I.1.4 Recensement
_Etude de tous les individus d'une population donnée.
I.1.5 Sondage
Etude d'une partie seulement d'une population appelée échantillon.

I.2 Description de données quantitatives


I.2.1 Défnition
On appelle variable un vecteur X de taille n. Chaque cordonnée xi correspond à un individu . On s'intéresse
ici à des valeurs numériques .
I.2.2 Poids
Chaque individu a éventuellement un poids pi, tel que p1 +….+ pn=1. On a souvent pi = 1/n pour tout i. Les
individus ont alors tous le même poids.
I.2.3 Représentation
Histogramme en découpant le domaine des valeurs de la variable en classes ; ou alors «boîte à moustache»

1
I.2.4 Résumés numériques
On dispose d'une série d'indicateurs qui ne donne qu'une vue partielle des données : effectif, moyenne,
médiane, variance, écart type, minimum, maximum, étendue, 1er quartile, 3ème quartile, ... Ces
indicateurs mesurent principalement la tendance centrale et la dispersion.
On utilisera principalement la moyenne, la variance et l'écart type.

I.3 Moyenne arithmétique


1 n n
Définition : on note x = ∑
n i =1
xi ou pour des données pondérées x = ∑ pi xi
i =1
Propriétés : la moyenne arithmétique est une mesure de tendance centrale qui dépend de toutes les
observations et est sensible aux valeurs extrêmes. Elle est très utilisée à cause de ses bonnes propriétés
mathématiques.

I.4 Variance et écart-type


1 n n

∑ ∑
2 2
Définition : la variance de X est définie par sx2 = ( xi − x ) ou s 2
x = pi ( xi − x )
n i =1 i =1

L’écart-type Sx est la racine carrée de la variance.


Propriétés : autre formule de calcul de la variance (théorème de König)
1 n 2 n
sx2 = ∑
n i =1
xi − x 2 ou sx2 = ∑ pi xi 2 − x 2
i =1
La variance est « la moyenne des carrés moins le carré de la moyenne ».
L'écart-type, qui a la même unité que X, est une mesure de dispersion.

I.5 Variable centrée, variable réduite


La variable centrée de x est la variable colonne z dont les valeurs s’obtiennent en retranchant de
chaque valeur de x la moyenne arithmétique x . zi = xi- x . La moyenne de la variable centrée est donc 0.
x −x
La variable réduite de x est la variable colonne t dont les valeurs sont ti = i . La variance de la
sx
variable réduite est donc 1.

I.6 Mesure de liaison entre deux variables


A l’examen du nuage de points représentant les couples (xi, yi) dans un repère d’axes Ox et Oy, seules trois
situations peuvent apparaître :
- les variations des deux caractères n’ont aucun lien entre elles : les deux variables sont indépendantes.
- l’une des deux variables s’obtient dès que l’on connaît l’autre : il y a une liaison fonctionnelle (y = f(x) ou x
= g(y)) entre les deux variables. On parle alors de régression de y en x (ou de x en y).
- sans être rigoureusement liées, les deux variables sont en dépendance plus ou moins marquées : les deux
variables sont en corrélation.
Définitions La covariance sxy entre deux variables x et y est une sorte de variance combinée :

1 n n

s xy
= ∑ ( xi − x )( yi − y ) ou
n i =1 s xy
= ∑ pi ( xi − x )( yi − y )
i =1

Contrairement à la variance qui est toujours positive ou nulle, la covariance peut être négative.
Lorsque x et y sont totalement indépendantes sxy est nulle. La réciproque n’est pas vraie.

Si x et y varient globalement dans le même sens alors sxy > 0 ; au contraire si x et y varient globalement en
sens inverses alors s xy < 0.
2
Lorsque le nuage de points est allongé suivant une direction de droite, on a affaire à une corrélation linéaire
entre x et y. On recherche une régression linéaire de la forme y = ax +b , où a et b sont les coefficients de
régression de y en x. L’intensité de la liaison est alors mesurée par le coefficient de corrélation linéaire

∑ ( x − x )( y − y ) ∑
n n
sxy i =1 i i i =1
pi ( xi − x )( yi − y )
rxy = = = en présence de poids.
sx s y
∑ (x − x) ∑ ( y − y) ∑ i =1 pi ( xi − x ) ∑ i=1 pi ( yi − y )
n 2 n 2 n 2 n 2
i =1 i i =1 i

I.7 Propriétés du coefficient de corrélation


• On a −1 ≤ rxy ≤ 1 ; et | rxy | =1 ⇔ le nuage de points est une droite
• Lorsque | r | ≈ 1, le nuage de points est distribué autour d’une droite. On admet alors
qu’approximativement y ≈ f(x), et que les différences constatées sont dues aux fluctuations
d’échantillon et diverses erreurs d’observation qui surviennent de manière aléatoire. Il existe
alors deux réels a et b tels que y ≈ ax + b. Y = aX + b est l’équation de la droite de régression
de y en x
• Les coefficients de la droite de régression calculés par la méthode des moindres carrés sont
donnés par :
sxy sxy
a= 2 ; b= y− 2 x
sx sx

I.8 Le coefficient de corrélation par l'exemple

Interprétation : on a 4 variables numériques avec 30 individus. Les variables 1 et 2 sont indépendantes ; les
variables 1 et 3 ont une relation linéaire ; les variables 2 et 4 ont une relation non-linéaire.

I.9 Corrélation et liaison significative

Problème : à partir de quelle valeur de rxy peut-on considérer que les variables x et y sont liées ?

Règle : valable dans le cas ou le nombre d'individus est n > 30 ou si x et y sont gaussiennes. On montre

alors que


suit une loi de Fischer-Snedecor F(1;n - 2).
On se fixe un risque d'erreur (0,01 ou 0,05 en général) et on calcule la probabilité
22 
 1,   2  
12
Si  < α on considère que l'événement est trop improbable et que donc l'hypothèse originale d'indépendance
doit être rejetée au seuil α. On trouvera en général ces valeurs dans une table pré calculée de la loi F.
3
II. La notation matricielle
L’ensemble de données correspondant à m variables observées sur n individus (sujets) peut être
considéré comme une matrice M à n lignes et m colonnes : les vecteurs colonnes sont les variables
exprimées sur les sujets, et les vecteurs lignes sont les sujets exprimés sur les variables.
La notation matricielle simplifie l’écriture des formules et facilite la compréhension des relations entre
variables et sujets.
Exemple : soient deux variables X et Y et 3 sujets S1, S2 et S3. La matrice des données est
 x1 y1 
 
M =  x2 y2  où xi (respectivement yi) est la valeur de la variable X (respectivement Y) pour le sujet
x y3 
 3
Si.
Remarque : Lorsqu’il y a un grand nombre de variables, il est plus commode de les noter X1, X2, …,
Xm, et la matrice des données s’écrit alors :
 x11 … x1m 
M =      où xij est la valeur observée sur le sujet Si pour la variable Xj
x  x 
 n1 nm 

II.1 Quelques définitions et propriétés


Transposée d’une matrice : la transposée de M est la matrice M’ obtenue en inter changeant les
lignes et les colonnes.
 x1 y1 
   x1 x2 x3 
M =  x2 y2  ⇒ M ' =   La transposée d’un vecteur colonne est un vecteur ligne et vice-
x   y1 y2 y3 
 3 y3 
versa.
Matrice carrée : Une matrice est carrée lorsque le nombre de lignes est égal au nombre de colonnes.
Matrice symétrique : Une matrice carrée est symétrique si elle est égale à sa transposée ( xij = xji pour
i ≠ j).
Matrice diagonale : matrice carrée dont tous les éléments sont nuls sauf ceux de la diagonale de
gauche à droite ( xij = 0 pour i ≠ j). Elle est de la forme :
 a1 0  1 0 
 
∆=   In =   
   
0 an  0 1
Matrice unité : matrice diagonale In, dont tous les éléments de la diagonale sont égaux à 1
Multipliée d’une matrice par un nombre : c’est la matrice obtenue en multipliant tous les éléments
par ce nombre.
Somme de deux matrices : les matrices doivent être de mêmes dimensions.
 a11 … a1m   b11 … b1m   a11 + b11 … a1m + b1m 
     
A =      B =      ⇒ A+ B =     
a  a  b  b  a +b  a +b 
 n1 nm   n1 nm   n1 n1 nm nm 

Remarque : A – B = A + (-1.B)

4
Produit de deux matrices : le produit (A.B) de deux matrices A et B n’est défini que si le nombre de
colonnes de A est égal au nombre de lignes de B. Le produit de deux matrices n’est donc pas commutatif
(A.B ≠ B.A).
 p11 … p1r   q11 … q1m   t11 … t1m 
      r
Soit P =      et Q =      ⇒ P.Q = T =      avec tij = ∑ pik .qkj
p  p  q  q  t  t  k =1
 n1 nr   r1 rm   n1 nm 

2 3
 
Exemple : revenons à nos deux variables observées sur 3 sujets et supposons que M =  1 5 
5 2
 
2 3  13 17 16 
  2 1 5  
Le produit de M par sa transposée est M .M ' =  1 5  •   =  17 26 15  . Calculez M’.M
5 2  3 5 2   16 15 29 
   

II.2 Interprétation du produit de la matrice par sa transposée


Soient Y1, …, Ym les variables centrées correspondants respectivement à X1, …, Xm et Y la matrice de
données correspondante.
yij = xij -  , i = 1,… ,n, j= 1, …,m
Soient U1, …, Um les variables réduites correspondants respectivement à X1, …, Xm et U la matrice de
données correspondante.
" ((('
&#$ &
 !  % #$  . Alors :
$ %$

• Y’.Y = n.V où V est la matrice de variance-covariance :


les éléments de la diagonales sont les variances (vjj = )& ! pour j =1, …,m) et les éléments hors
diagonales les covariances (vij = )&#"$ pour i≠j). Les variances représentent la dispersion des
variables sur les individus et les covariances la position relative des variables entre elles.
• U’.U = R où R est la matrice de corrélation :
les éléments de la diagonale sont tous égaux à 1 et les éléments hors diagonale sont les
coefficients de corrélation. ( rjj = 1 pour i=1, …,m et rij = &#"$ pour i≠j).

Vous aimerez peut-être aussi