Académique Documents
Professionnel Documents
Culture Documents
Resume de Statistique Descriptive Unidimensionnelle PDF
Resume de Statistique Descriptive Unidimensionnelle PDF
1
I.2.4 Résumés numériques
On dispose d'une série d'indicateurs qui ne donne qu'une vue partielle des données : effectif, moyenne,
médiane, variance, écart type, minimum, maximum, étendue, 1er quartile, 3ème quartile, ... Ces
indicateurs mesurent principalement la tendance centrale et la dispersion.
On utilisera principalement la moyenne, la variance et l'écart type.
∑ ∑
2 2
Définition : la variance de X est définie par sx2 = ( xi − x ) ou s 2
x = pi ( xi − x )
n i =1 i =1
1 n n
s xy
= ∑ ( xi − x )( yi − y ) ou
n i =1 s xy
= ∑ pi ( xi − x )( yi − y )
i =1
Contrairement à la variance qui est toujours positive ou nulle, la covariance peut être négative.
Lorsque x et y sont totalement indépendantes sxy est nulle. La réciproque n’est pas vraie.
Si x et y varient globalement dans le même sens alors sxy > 0 ; au contraire si x et y varient globalement en
sens inverses alors s xy < 0.
2
Lorsque le nuage de points est allongé suivant une direction de droite, on a affaire à une corrélation linéaire
entre x et y. On recherche une régression linéaire de la forme y = ax +b , où a et b sont les coefficients de
régression de y en x. L’intensité de la liaison est alors mesurée par le coefficient de corrélation linéaire
∑ ( x − x )( y − y ) ∑
n n
sxy i =1 i i i =1
pi ( xi − x )( yi − y )
rxy = = = en présence de poids.
sx s y
∑ (x − x) ∑ ( y − y) ∑ i =1 pi ( xi − x ) ∑ i=1 pi ( yi − y )
n 2 n 2 n 2 n 2
i =1 i i =1 i
Interprétation : on a 4 variables numériques avec 30 individus. Les variables 1 et 2 sont indépendantes ; les
variables 1 et 3 ont une relation linéaire ; les variables 2 et 4 ont une relation non-linéaire.
Problème : à partir de quelle valeur de rxy peut-on considérer que les variables x et y sont liées ?
Règle : valable dans le cas ou le nombre d'individus est n > 30 ou si x et y sont gaussiennes. On montre
alors que
suit une loi de Fischer-Snedecor F(1;n - 2).
On se fixe un risque d'erreur (0,01 ou 0,05 en général) et on calcule la probabilité
22
1, 2
12
Si < α on considère que l'événement est trop improbable et que donc l'hypothèse originale d'indépendance
doit être rejetée au seuil α. On trouvera en général ces valeurs dans une table pré calculée de la loi F.
3
II. La notation matricielle
L’ensemble de données correspondant à m variables observées sur n individus (sujets) peut être
considéré comme une matrice M à n lignes et m colonnes : les vecteurs colonnes sont les variables
exprimées sur les sujets, et les vecteurs lignes sont les sujets exprimés sur les variables.
La notation matricielle simplifie l’écriture des formules et facilite la compréhension des relations entre
variables et sujets.
Exemple : soient deux variables X et Y et 3 sujets S1, S2 et S3. La matrice des données est
x1 y1
M = x2 y2 où xi (respectivement yi) est la valeur de la variable X (respectivement Y) pour le sujet
x y3
3
Si.
Remarque : Lorsqu’il y a un grand nombre de variables, il est plus commode de les noter X1, X2, …,
Xm, et la matrice des données s’écrit alors :
x11 … x1m
M = où xij est la valeur observée sur le sujet Si pour la variable Xj
x x
n1 nm
Remarque : A – B = A + (-1.B)
4
Produit de deux matrices : le produit (A.B) de deux matrices A et B n’est défini que si le nombre de
colonnes de A est égal au nombre de lignes de B. Le produit de deux matrices n’est donc pas commutatif
(A.B ≠ B.A).
p11 … p1r q11 … q1m t11 … t1m
r
Soit P = et Q = ⇒ P.Q = T = avec tij = ∑ pik .qkj
p p q q t t k =1
n1 nr r1 rm n1 nm
2 3
Exemple : revenons à nos deux variables observées sur 3 sujets et supposons que M = 1 5
5 2
2 3 13 17 16
2 1 5
Le produit de M par sa transposée est M .M ' = 1 5 • = 17 26 15 . Calculez M’.M
5 2 3 5 2 16 15 29