Vous êtes sur la page 1sur 46

Statistique Exploratoire

M1 ASD
2023/2024
Description unidimensionnelle de
données numériques
• La plupart du temps les données se présentent sous la forme suivante: on
a relevé sur n unités appelées «individus» et p variables numériques.
Lorsque n et p sont grands on cherche à synthétiser cette masse
d’information sous une forme exploitable et compréhensible.

• Une première étape consiste à décrire séparément les résultats obtenus


pour chaque variable: c’est la description unidimensionnelle, on
considérera qu’on ne s’intéresse qu’à une variable X, appelée caractère,
donc on possède n valeurs x1, x2 ,...,xn.

• La synthèse de ses données se fait sous forme de tableaux, de graphuques et


de résumés numériques.
Exemple1
La distribution des 100 emplyés d’une entreprise selon leur salaire annuel
exprime en centaines d’unités d’une monaie quelconque est donnée dans le
tableau:

1- Représenter graphiqument cette série statistique.


2- Calculer le salaire modal M0
3- Calculer le salaire médiane Med
4- Calculer le salaire moyen
5- Quelle conclusion, concernant la forme de la distribution
6- calculer la variance, l’écart-type et le coefficient de variation.
Description bidimentionnelle et mesures de liaison entre
variables

• Aprés les descriptions unidimentionnelles on étudie les liaisons entre les


variables observées: c’est ce que l’on appelle l’étude des corrélations.

Liaison entre deux variables numériques:


- 2
1
1 -
2

supposons que l’on observe pour n individus deux variables X et Y. on a donc


(xi, yi) ou encore deux vecteurs x et y de Rn avec:

La La
Tableau de contingence (ou Tableaux croises) :
Statistique marginale :
Exemple :
On a relevé les notes en statistique et en physique obtenues par 100 étudiants
d’une section A /M1 . On a obtenu le tableau suivant :
1) Préciser le type du tableau de données. Calculer n23
et donner sa signification.
2) Déterminer les deux distributions marginales.
3) Calculer sa moyenne et sa variance.
4) Les variables X et Y sont-elles indépendantes ?
Justifier.
5) Donner le centre de gravité du nuage de points.
• Indépendance entre 2 caractères
Deux caractères X et Y sont indépendants si les variations de l’un des caractères n’entrainent pas de
variations pour l’autre caractère.
Définition : les séries statistiques (xi, ni.) i=1,…,p et (yj, n.j) j=1,…,k sont dites indépendantes si on a :
Représentation graphique : nuage de points
Covariance entre deux caractères :
Coefficient de corrélation linéaire
- La corrélation est une mesure qui décrit la force et la direction
d'une relation entre deux variables. Il est couramment utilisé
dans les statistiques, l'économie et les sciences sociales pour
les budgets, les plans d'entreprise, etc.

- La méthode utilisée pour étudier le degré de corrélation entre


les variables s'appelle l'analyse de corrélation.
Quelques exemples de corrélation forte :

- Le nombre de calories que vous mangez et votre poids


(corrélation positive)

- La température extérieure et vos factures de chauffage


(corrélation négative) Un exemple de corrélation faible ou
nulle : La couleur de vos yeux et votre taille
X, 𝑌𝑌
𝑋𝑋 ⋅ 𝑌𝑌
Exercice

1. Représenter le nuage de points


Peut ont-on envisager un ajustement linéaire de ce nuage ?
2. Calculer le coefficient de corrélation linéaire de X et Y et dire si le résultat
confirme l’observation faite précédemment.
Etude graphique de la corrélation
Afin d’examiner s’il existe une liaison entre X et Y on représente chaque observation i
comme un point de cordonnées (xi , yi) dans un repère cartisien. la forme du nuage
de points ainsi tracé est fondamentale pour la suite:

1) une absence de liaison;


2) une corrélation linéaire(négative ou positive)
Le coefficient de corrélation linéaire
La corrélation est une mesure qui décrit la force et la direction d'une relation
entre deux variables. Il est couramment utilisé dans les statistiques,
l'économie et les sciences sociales pour les budgets, les plans d'entreprise,
etc.
La méthode utilisée pour étudier le degré de corrélation entre les variables
s'appelle l'analyse de corrélation.

Quelques exemples de corrélation forte :


- Le nombre de calories que vous mangez et votre poids (corrélation positive)
- La température extérieure et vos factures de chauffage (corrélation négative)
Un exemple de corrélation faible ou nulle : La couleur de vos yeux et votre
taille
Exercice 2
On a relevé la consommation de l’eau exprimée en de 12 ménages, durant untrimestre (Y) et le
nombre de personnes par ménage (X), dont le but est de savoir s’il existe un lien entre ces deux
mesures. Les résultats sont donnésdans le tableau suivant :
Aperçu Matricielle :
De la statistique à la géométrie

• Soient 𝑋𝑋 et 𝑌𝑌 deux variables statistiques.

Notons 𝑿𝑿’ et 𝒀𝒀𝒀 les variables centrées construites à


partir de 𝑿𝑿 et Y :


𝑿𝑿𝑿 = 𝑿𝑿 − 𝑿𝑿 et �
𝐘𝐘𝐘 = 𝒀𝒀 − 𝒀𝒀
Exemple 1 : Soit le tableau des données correspondant à deux variables statistiques 𝑿𝑿 et Y
1 étape:: Calculer la moyenne
X Y

𝒆𝒆𝟏𝟏 1 6

𝒆𝒆𝟐𝟐 3 2

𝟏𝟏+𝟑𝟑 𝟔𝟔+𝟐𝟐
On a : �
𝑿𝑿 = 𝟐𝟐 = 2 et �
𝒀𝒀 = 𝟐𝟐 = 4

�≠ 0
𝑿𝑿 et �𝒀𝒀 ≠ 0 Le tableau n’est pas centré

𝒀𝒀𝟏𝟏 = 𝑿𝑿𝟏𝟏 − �
𝑿𝑿𝟏𝟏 𝒀𝒀𝟐𝟐 = 𝑿𝑿𝟐𝟐 − �
𝑿𝑿𝟐𝟐

𝐞𝐞𝟏𝟏 -1 2
𝐞𝐞𝟐𝟐 1 -2
Les vecteurs X(-1,1) et Y(2,-2) de 𝑹𝑹𝟐𝟐 ; le plan 𝑹𝑹𝟐𝟐 est aespace des individus, car
chaque axe du repère orthonormé est associé à un individu
• Dans l’exemple 1, on peut voir clairement que les vecteurs Y et X sont
colinéaires et de sens contraire, l’angle de Y1 et Y2 est donc égal à , or le
résultat que l’on retrouve en utilisant la formule (1),

Lorsque les vecteurs sont linéairement dépendants (liés), il existe tel que : Y = aY1 +b,
2

Donc (cos α=±1) et réciproquement. Quand on centre et on réduit des variables:


par exemple
Exemple 2 :

4+6+8

 Les moyennes : 𝑋𝑋1 = =6 et �𝑋𝑋2 = 5+7+0 = 4
3 3

 Centrer les variables : (x ij −�


𝑿𝑿𝒋𝒋 )
x11 − �
𝑋𝑋1 = 4- 6 = -2 x12 − �𝑋𝑋2 = 5- 4 = 1
x21 − �
𝑋𝑋1 =6- 6 = 0 x22 − �𝑋𝑋2 = 7- 4 = 3
x31 − �
𝑋𝑋1 =8- 6 = 2 x32 − �𝑋𝑋2 = 0-4 = -4
• Leurs normes :
𝟏𝟏
• Calcul du produit matriciel : 𝑷𝑷
𝒁𝒁𝒁𝒁𝒁
 Le résultat de ce calcul est la matrice R des corrélations linéaires des
variables. On l’appelle aussi la matrice d’information des variables.

 R est une matrice symétrique, ayant des «1» sur la diagonale (les
variances des variables) et tous ses éléments sont inférieurs ou égales
à 1 en valeur absolue.
• Calcul du produit matriciel ZZ' :

Cette matrice V n’est pas une matrice de corrélation, mais elle porte le nom de matrice
d’information des individus. Elle est symétrique aussi.
• Matrice de Variance- covariance : Matrice de corrélation
On appelle matrice de corrélation la matrice
Lorsque l’on observe les valeurs regroupant tous les coefficients de corrélation
numériques de variables sur linéaire entre les p variables prises deux à deux
qu’on la note R
individus on se trouve en présence
d’un tableau à lignes et colonnes.

Vous aimerez peut-être aussi