Vous êtes sur la page 1sur 43

Analyse de données

Chapitre 1

Introduction à l’analyse statistiques élémentaires


des données expérimentales

Pr. H.HAMZAOUI STASD 1


Statistique descriptive
Cas unidimensionnel

Pr. H.HAMZAOUI SMA-S5 2


Variable unidimensionnelle

Définition:

La statistique descriptive unidimensionnelle consistent à étudier les


variables séparément via des techniques descriptives ou probabilistes.

Les objectifs de ces études sont :

• Décrire et résumer chaque variable

• Généraliser les informations à la population entière

• Tester des hypothèses faites a prioiri

• Comparer 2 variables ou 1 variable sur plusieurs groupes


Pr. H.HAMZAOUI SMA-S5 3
Variable unidimensionnelle

Selon la population en question, on peut classer les variables en


deux types :

Variables qualitatives
(décrivent une caractéristique non-
quantifiable de façon naturelle)

– Nominales (Exp.: groupe sanguin)


– Ordinales (Exp.: Niveau d’étude)

Variables quantitatives
(décrivent une caractéristique quantifiable
exprimée dans une échelle de valeurs )
– Discrètes
– Continues

Pr. H.HAMZAOUI SMA-S5 4


Variable unidimensionnelle
variables quantitatives X

La première étape consiste à organiser les valeurs dans un tableau :


1. Sur la première colonne du tableau, on liste les valeurs ou les
Classes distinctes de la série en ordre croissant
2. Sur les autres colonnes, on présente les effectifs (ou les
fréquences) et les effectifs cumulés (ou les fréquences cumulées) :

Modalité X Effectif Effectif cumulé Fréquence Fréquence cumulée


x1 n1 n1 f1=n1/n f1
Modalités

x2 n2 n1+n2 f2=n2/n f1+f2


⁞ ⁞ ⁞ ⁞ ⁞
xN-1 nN-1 n1+….+ nN-1 fk-1=nk-1/n f1+….+ fN-1
xN nN n1+….+ nN-1+nN fk=nk/n 1

Total ni = n 1

Pr. H.HAMZAOUI SMA-S5 5


Variable unidimensionnelle

Définition :
Une modalité d’une variable est une des façons possibles d’effectuer la description
d’un individu au moyen de cette variable.
Valeur est synonyme de modalité
Exemple :
Si on décrit les livres de la bibliothèque à l’aide de la variable « couleur de
la couverture », une modalité (valeur) possible est « bleu ».

Si on décrit ces livres à l’aide du nombre de pages, une modalité (valeur)


possible est 436

On évitera la terminologie «valeur» et on lui préfèrera «modalité» car une valeur


d’une variable statistique n’est pas nécessairement une valeur numérique.

Pr. H.HAMZAOUI SMA-S5 6


Variable unidimensionnelle
Exemple:

On considère la série quantitative discrète suivante :

Pr. H.HAMZAOUI SMA-S5 7


Variable unidimensionnelle

Variables quantitatives continues


On discrétise une variable quantitative continue en découpant son domaine de
variation en classes définies par des intervalles semi ouverts à droite sans
discontinuité ni chevauchement.

On regroupe les valeurs observées par classes pour cela il faut définir :
– le nombre de classes k
– les limites des classes (bornes des intervalles) : a1, a2 , ..., ak+1
– les centres de classes x1, …, xk :

– On appelle amplitude de la classe i la longueur de cette classe:


li =(ai+1 –ai)

On calcule l’effectif de chaque classe : le nombre d'observations appartenant à


la classe
Pr. H.HAMZAOUI SMA-S5 8
Variable unidimensionnelle
Variables quantitatives continues

Classe Centre Effectif Effectif Fréquence Fréquence Densité des


cumulé cumulée effectifs

[a1, a2[ x1 n1 n1 f1=n1/N f1 d1=n1/(a2-a1)

[a2, a3[ x2 n2 n1+n2 f2=n2/N f1+f2 d2=n2/(a3-a2)

⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞
⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞

[ak, ak+1[ xk nk N fk=nk/N 1 Dk=nk/(ak-ak-1)

Total N 1

Pr. H.HAMZAOUI SMA-S5 9


Variable unidimensionnelle
Exemple:

On considère la répartition d’une variable quantitative continue suivante :

Pr. H.HAMZAOUI SMA-S5 10


Variable unidimensionnelle
Variables quantitatives continues

Remarque :

Lorsque la variable X présente beaucoup de modalités différentes, presque tous les


individus de la population présentent des modalités différentes de la variable.

C’est typiquement le cas lorsque X est une variable a priori continue


et appartient à l’échelle numérique.

Dans ce cas, on procède parfois à une opération appelée


regroupement par classes des modalités observées de la variable.

Pr. H.HAMZAOUI SMA-S5 11


Variable unidimensionnelle

Description numérique des données:


Fréquence:

On appelle fréquence de (ou associée à) la modalité xk de X le nombre


noté fk et défini par

On constate que la fréquence fk mesure l’importance de la sous-population


composée des individus présentant la modalité xk de la variable X. Tandis que
l’effectif nk mesure cette importance de façon absolue, la fréquence fk la mesure
relativement à la taille N de la population, et par conséquent de façon
indépendante d’elle.

Nous avons les propriétés suivantes:

Pr. H.HAMZAOUI SMA-S5 12


Variable unidimensionnelle

Indicateurs de position:
Les indicateurs de position les plus couramment utilisés sont le mode,
la médiane et la moyenne.

Le mode :
Le mode de la variable X est la modalité la plus fréquemment observée
dans la population.

La médiane :
La médiane d’une variable X est un indicateur déterminé à partir d’un classement
des individus selon un critère d’ordre des modalités de X.
Ceci n’est évidemment possible que s’il existe un ordre sur l’ensemble des
modalités.

Pr. H.HAMZAOUI SMA-S5 13


Variable unidimensionnelle

Indicateurs de position:

La moyenne arithmétique:

Données individualisées :

Données regroupées:

Données par classes, pour la variable continue :

Chaque classe est remplacée par son centre pour le calcul.

Pr. H.HAMZAOUI SMA-S5 14


Variable unidimensionnelle
Différente position de la moyenne par rapport à la distribution :

Pr. H.HAMZAOUI SMA-S5 15


Variable unidimensionnelle

Indicateurs de position:

Les quartiles

Trois valeurs Q1 , Q2 , Q3 qui partagent la série ordonnée des observations en


4 groupes d’effectifs égaux

Le premier quartile Q1 est obtenu lorsqu’on a cumulé 25% de la population

Le second quartile Q2 est obtenu lorsqu’on a cumulé 50% de la population :


c’est la médiane

Le troisième quartile Q3 est obtenu lorsqu’on a cumulé 75% de la population

Pr. H.HAMZAOUI SMA-S5 16


Variable unidimensionnelle

Indicateurs de position:

Les quartiles

Pour déterminer les quartiles Q1 et Q3 d'une série de n valeurs :

• On calcule la quantité q= n/4.


Deux cas sont possibles: soit le résultat est entier (la division tombe juste),
soit non.

– 1er cas : q est un entier alors Q1 est la valeur qui se trouve à


la position q et Q3 est la valeur située à la position 3q

– 2ème cas : q n’est pas un entier alors on arrondi q à l'entier


supérieur, Q1 est la valeur qui se trouve à cette position et on arrondi 3q à
l'entier supérieur pour trouver la position de la valeur de Q3 .
17
Pr. H.HAMZAOUI SMA-S5
Variable unidimensionnelle

Indicateurs de position:
Les quartiles

Pour une distributions regroupées en classes, le calcul des quartiles


Q1 et Q3 se fait en deux étapes :

On détermine la classe qui contient le quartile Q1 (resp. Q3) :


C’est la classe dont la fréquence cumulée vérifie:
Fi  0,25 et Fi+1 > 0,25 ( resp. Fi  0,75 et Fi+1 > 0,75 )
On calcule la médiane par interpolation linéaire :
Si [ ai , ai+1 [ est la classe de Q1 (resp. Q3 ) alors

Pr. H.HAMZAOUI SMA-S5 18


Variable unidimensionnelle

Indicateurs de position:
Les quartiles
Exemple :

19
Variable unidimensionnelle
Exercices:

On considère la série suivante :

Modalités xi 70 72 74 75 78 80 83
Effectifs ni 2 1 2 2 1 3 1

Soit la répartition des ouvriers d’un établissement industriel selon leur salaire
mensuel:
Classes des salaires effectifs
[ 800, 1000 [ 26
[ 1000, 1100[ 33
[1100, 1200[ 64
[1200, 1300[ 7
[1300, 1500[ 10

Calculer la fréquence et la fréquence cumulée des deux tableaux


et déterminer le 1er, le 2ème ainsi que le 3ème quartiles. 20
Variable unidimensionnelle
Tableau Statistique:

Modalité xi ni Ni fi Fi

70 2 2 1/6 1/6

72 1 3 1/12 ¼

74 2 5 1/6 5/12

75 2 7 1/6 7/12

78 1 8 1/12 8/12

80 3 11 ¼ 11/12

83 1 12 1/12 1

Pr. H.HAMZAOUI SMA-S5 21


Variable unidimensionnelle

Nous avons n=7  q = n / 4 = 1.75

Alors Q1 = x2 = 72 et

3q = 5.25 alors Q3 = x6 = 80

2q = 3.5 alors Q2 = x4 = 75

Pr. H.HAMZAOUI SMA-S5 22


Variable unidimensionnelle

Tableau Statistique:

Classes des Centres ci Effectifs Ni Fréquence Fi di


salaires ni fi
[ 800, 1000 [ 900 26 26 0.186 0.186 0.13
[ 1000, 1100[ 1050 33 59 0.236 0.422 0.33
[1100, 1200[ 1150 64 123 0.457 0.879 0.64
[1200, 1300[ 1250 7 130 0.05 0.929 0.07
[1300, 1500[ 1400 10 140 0.071 1 0.05
Total 140 1

Nous avons n=5  q = n / 4 = 1.25 alors on s’intéresse à la 2ème classe donc


Q1 = 1000+100*(0.25-0.186)/(0.422-0.186)= 1027.12
3q = 3.75 alors Q3 = 1100+100*(0.75-0.422)/(0.879-0.422) = 1171.77
2q = 2.5 alors Q2 = 1100+100*(0.5-0.422)/(0.879-0.422) =1171.07

Pr. H.HAMZAOUI SMA-S5 23


Variable unidimensionnelle
Indicateurs de dispersion:

L’écart- type :

L’écart type (X) mesure la dispersion de l’échantillon autour de la moyenne.


Pour calculer l’écart type, il faut calculer la variance de
l’échantillon :

Variance, données individualisées :

Variance, données regroupées:

 et

24
Pr. H.HAMZAOUI SMA-S5
Variable unidimensionnelle

Indicateurs de dispersion:

Coefficient de variation

Le coefficient de variation (CV) est le rapport de l'écart-type à la moyenne;

CV = ecart-type / moyenne

1. Le coefficient de variation n’a pas d’unité

2. Ce coefficient est souvent exprimé sous forme de pourcentage

Pr. H.HAMZAOUI SMA-S5 25


Variable unidimensionnelle

Indicateurs de dispersion:

Intervalle et écart interquartile

On appelle intervalle interquartile l'intervalle [ Q1 ; Q3 ];


L’écart interquartile est l'amplitude de l'intervalle [ Q1 ; Q3 ],
c'est-à-dire le nombre IQ = (Q3 - Q1 );

L’écart interquartile est utilisé comme indicateur de dispersion. Il


correspond à 50% des effectifs situés dans la partie centrale de la
distribution

Toute valeur n’appartenant pas à l’intervalle


[ Q1 -1,5*IQ; Q3+1.5*IQ ] est considérée comme aberrante.

Pr. H.HAMZAOUI SMA-S5 26


Variable unidimensionnelle

Exercice:

On considère la série suivante :


Modalités xi 70 72 74 75 78 80 83
Effectifs ni 2 1 2 2 1 3 1

et la répartition des ouvriers d’un établissement industriel selon leur salaire mensuel

Classes des salaires effectifs


[ 800, 1000 [ 26
[ 1000, 1100[ 33
[1100, 1200[ 64
[1200, 1300[ 7
[1300, 1500[ 10

Déterminer les paramètres de dispersion pour les deux tableaux


27
Pr. H.HAMZAOUI SMA-S5
Variable unidimensionnelle

REPRÉSENTATIONS GRAPHIQUES

Représentations graphiques de variables quantitatives

1. Le choix de la représentation graphique est fortement lié à la nature des


variables étudiées.
2. Les représentations les plus fréquemment utilisées sont :
3. Représentations des effectifs (ou des fréquences ):
• diagramme en bâtons pour les variables discrètes
• histogramme pour les variables continues
4. Représentations des effectifs cumulés (ou des fréquences cumulées)
5. Représentations de la dispersion des valeurs : boîte à moustaches

Pr. H.HAMZAOUI SMA-S5 28


Variable unidimensionnelle

Représentations graphiques de variables quantitatives discrète

Diagrammes en bâtons

Il est constitué de segments de droite


verticaux dont les hauteurs sont égales aux
effectifs ou aux fréquences de chaque
modalité.

- Sur l'axe des abscisses (horizontal) sont


reportées les modalités de la série par ordre
croisant.
- Sur l'axe des ordonnés sont reportées
les effectifs ou les fréquence

Pr. H.HAMZAOUI SMA-S5 29


Variable unidimensionnelle
Représentations graphiques de variables quantitatives discrète

Diagrammes des fréquences cumulées

Il représente une fonction en escaliers


(fonction de répartition de la distribution) :
F(x) = Fi pour xi  x < xi+1

les paliers correspondent aux effectifs


cumulés (ou aux fréquences cumulées) de
la série.

1. Sur l'axe des abscisses (horizontal)


sont reportées les modalités de la série par
ordre croissant.

2. Sur l'axe des ordonnées sont reportées


les effectifs cumulés ou les fréquences
cumulées
30
Pr. H.HAMZAOUI SMA-S5
Variable unidimensionnelle
Représentations graphiques de variables quantitatives continue

Histogramme
Un histogramme est constitué de
rectangles contigus dont les aires sont
proportionnelles aux effectifs (ou bien
aux fréquences) de chaque classe :
• Sur l'axe des abscisses sont reportées les
bornes des classes de la série.
• Chaque rectangle correspond à une
classe et sa hauteur est hi =  * di
où  est une constante de mise à
l’échelle.
• Remarque : si les classes ont tous la
même amplitude, alors on peut prendre
hi = ni ou hi = fi
Pr. H.HAMZAOUI SMA-S5 31
Variable unidimensionnelle
Représentations graphiques de variables quantitatives continue

Histogramme

Elle représente la fonction de répartition de la


distribution qui doit être continue :

• Sur l'axe des abscisses sont reportées les


bornes des classes de la série.

• Sur l'axe des ordonnées sont reportées les


effectifs cumulés ou les fréquences cumulées

A la borne supérieure de chaque classe


on fait correspondre en ordonnée la
fréquence cumulée (ou l’effectif
cumulé) de la classe puis on relie les
points obtenus par des segments.

32
Pr. H.HAMZAOUI SMA-S5
Variable unidimensionnelle

Représentations graphiques de variables quantitatives continue

Boite à moustaches

Graphique très pratique qui permet de résumer quelques


caractéristiques (min=d1 « 10% », max=d9 « 90% »)

33
Pr. H.HAMZAOUI SMA-S5
Variable unidimensionnelle

Exemple

Mode = 119.40
Q1 = 119.4, Q2= 119.5, Q3=119.9
IQ= Q3-Q1 = 0.5
Q1-1.5(Q3-Q1)=118.65
Q3+1.5(Q3-Q1)=120.65
X = 119.64
 = 0.38

34
Pr. H.HAMZAOUI SMA-S5
Statistique descriptive
Cas bidimensionnel

Pr. H.HAMZAOUI SMA-S5 35


Variable bidimensionnelle :
On considère deux variables quantitatives X et Y de modalités respectives x1, ….., xk
et y1, ….., yl . Le regroupement des données se fait à l’aide d’un tableau croisé
(tableau à double entrée)

Y y1 ... yj ... yl Total


X
x1 n11 ... n1j ... n1l n1.
. . . . . .
. . . . . .
. . . . . . l
xi ni1 ... nij ... nil ni. ni.   nij
j 1
. . . . . .
. . . . . .
. . . . . .
xk nk1 ... nkj ... nkl nk. k l

Total n.1 ... n.j ... n.l n n   nij


k i 1 j 1
n. j   nij
i 1 36
nij: Effectif de (X=xi , Y= yj) , ni. : Effectif de (X=xi ) et n.j : Effectif de (Y=yj )
Variable bidimensionnelle

Les fréquences :
On peut considérer les fréquences au lieu des effectifs :
nij
Fréquence de (X=xi , Y= yj) : f ij  on a  f ij  1
n i, j
k
n
Fréquence de (X=xi ) : f i. , i. on a  f i.  1
n i 1
n l
Fréquence de (Y= yj) : f . j , . j on a  f. j  1
n j 1

Fréquences conditionnelles : nij


• Fréquence de (X=xi ) conditionnellement à (Y= yj): f  X  x  / Y  y   f i / j 
i j
n. j
nij
• Fréquence de (Y= yj) conditionnellement à (X=xi ): f Y  y /  X  x   f j / i 
j i
ni.

f ij  f. j f i / j  f i. f j / i

Pr. H.HAMZAOUI SMA-S5 37


Variable bidimensionnelle

Distributions marginales
1 k k
x   ni. xi   f i. xi
n i 1 i 1

1 l l
y   n. j y j   f. j y j
n j 1 j 1

1 k 1 k 2
  X    ni. xi  x     ni. xi    x 
2 2 2
n
n i 1  n i 1 

  f i. xi  x     f i. xi2   x 2

k k
2

i 1  i1 

Pr. H.HAMZAOUI SMA-S5 38


Variable bidimensionnelle

Distributions conditionnelles
Y  y   j 1 k
Moyenne conditionnelle de X sachant (Y= yj) : x
j
x   nij xi
n. j i 1
Y  y 
 
2

Variance conditionnelle de X sachant (Y= yj) :


Vn j
 X   Vn  X    nij xi  x  j 
 j 1 k
n. j i1

 
k
  f i / j xi  x  j 
2

Propriétés : i 1

1 l
x   n. j x   f . j x  j 
 j l

n j 1 j 1

 
Vn  X   Vn X  j   Vn j   X  avec  
Vn X  j  
1 l
  j
 n. j x  x
n j 1
2
Vn j   X  
1 l
n j 1
 j
 n. jV  X 

Pr. H.HAMZAOUI SMA-S5 39


Variable bidimensionnelle

Covariance de X et Y

La covariance est un paramètre en statistique et théorie des


probabilités qui indique pour deux variables aléatoires X et Y la mesure
dans laquelle les deux variables aléatoires sont liées les unes aux
autres. La covariance indique si, et indirectement dans quelle mesure,
les valeurs d'une variable augmentent ou diminuent avec les valeurs
croissantes de l'autre.
La formule mathématique de la covariance de X et Y est:

1 k l
  
Covn  X , Y     nij xi  x  y j  y   f ij xi  x  y j  y
n i 1 j 1

i, j

Pr. H.HAMZAOUI SMA-S5 40


Variable bidimensionnelle

Propriétés pour la covariance :

 k l 
Cov n  X , Y      f ij xi y j    x  y 
 i 1 j 1 
Cov n  X , X   Vn  X 

Covn  X , Y   Covn Y , X 

Covn  X  Y , Z   Covn  X , Z   Covn Y , Z 

a  IR  Covn  X , a   0

a  IR  Covn aX , Y   aCovn  X , Y 

Pr. H.HAMZAOUI SMA-S5 41


Variable bidimensionnelle

Corrélation de X et Y

le coefficient de corrélation indique le degré de cohérence linèaire


et indique directement la force de la corrélation. Le coefficient de
corrélation est basé sur la covariance, mais contrairement au
coefficient de corrélation, la covariance dépend de l'échelle.

Covn  X , Y 
rX ,Y 
 n  X  n Y 

 1  rX ,Y  1

Si rX ,Y  1 les variables X et Y sont liées de façon linéaire, Y= a X +b

Si rX ,Y  0 les variables X et Y ne sont pas corrélées.

Pr. H.HAMZAOUI SMA-S5 42


Variable bidimensionnelle

Exercice :

On désigne respectivement par et le nombre d’enfants et


les dépenses annuels en fournitures scolaires:

Y 0,4 4,10 10,20 20,40


X
1 322 12 2 0
2 14 230 116 36
3 0 0 20 248

Calculer la valeur modale des dépenses ainsi que la dépense médiane.


Calculer les moyennes et les variances conditionnelles de X et Y .

Pr. H.HAMZAOUI SMA-S5 43

Vous aimerez peut-être aussi