Vous êtes sur la page 1sur 56

Analyse de données

Chap. 1.

Introduction à l’analyse statistiques élémentaires


des données expérimentales

Pr. H.HAMZAOUI SMA-S5 1


Introduction

• Lorsque on effectue plusieurs mesures d’une grandeur physique


on constate qu’elles ne sont presque jamais constantes :
(Exp. la valeur d’un paramètre physique varie toujours)

• Une grandeur physique n’est pas caractérisée par une valeur, mais
plutôt par la probabilité de trouver dans une expérience telle ou
telle valeur

• Pour cela on introduit une fonction la distribution d'une valeur physique,


qui montre quelles sont les valeurs les plus fréquentes ou les plus rares

Pr. H.HAMZAOUI SMA-S5 2


Exemple:

Analyse de plomb sur 20 prélèvements indépendants provenant


d’un même échantillon de foie de bœuf lyophilisé:

Pour exploiter ces 20 résultats obtenus après 20 analyses


indépendantes Tab.1, on peut se faire une première idée
de leur distribution en calculant quelques paramètres
statistiques simples comme :

1. La moyenne

2. L’estimation de la variance et de l’écart-type

3. L’estimation des moments centrés d’ordre p de


la distribution (avec p =2, 3, 4), un moment centré
d’ordre p étant défini par la relation :
mp=E((X-E(X)) p)

Tab1. Analyse du plomb : résultats obtenus 3


Pr. H.HAMZAOUI SMA-S5
Introduction

À une grandeur physique on doit associé :

1. La valeur la plus probable : la valeur estimée

2. L’intervalle de confiance : l’incertitude

3. La probabilité que la vraie valeur se trouve dans


l’intervalle de confiance :
la confiance (1 -  ) ou bien le risque 

Exemple : Mesure de la capacité thermique de l'eau :


c = 4320  660 J/K/kg à 95% ( = 5%)
Valeur estimée
Incertitude Unitée
Confiance et Risque 4
Introduction :

Approches et objectifs

Statistique descriptive ou analyse de données : est l'ensemble


des techniques statistiques permettant de synthétiser
l'information recueillie au cours d'une enquête ou d'une étude.
•Ressortir des propriétés de la distribution des données
Objectifs

étudiées
•Suggérer des hypothèses

Pr. H.HAMZAOUI SMA-S5 5


Introduction :

Statistique Inférentielle : regroupe les méthodes d’estimation


statistique et de tests d'hypothèse.
• Étendre les propriétés constatées sur un échantillon
à toute la population
Objectifs

• Vérifier l'adéquation des hypothèses a priori ou issues


d'une phase exploratoire
• Prévoir en présence de l’aléatoire

Pr. H.HAMZAOUI SMA-S5 6


Statistique descriptive

Cas unidimensionnel

Etude de chaque variable séparément

Cas bidimensionnel

Etude des variables 2 à 2 : corrélation entre les variables

Cas multidimensionnel

Etude de plus de deux variables à la fois : analyse des données

Pr. H.HAMZAOUI SMA-S5 7


Statistique descriptive
Cas unidimensionnel

Pr. H.HAMZAOUI SMA-S5 8


Variable unidimensionnelle

Définition:

Elles consistent à étudier les variables séparément via des techniques


descriptives ou probabilistes.

Les objectifs de ces études sont :

• Décrire et résumer chaque variable


• Généraliser les informations à la population entière
• Tester des hypothèses faites a prioiri
• Comparer 2 variables ou 1 variable sur plusieurs groupes

Pr. H.HAMZAOUI SMA-S5 9


Variable unidimensionnelle

Selon la population en question, on peut classer les variables en


quatre types :

Variables qualitatives
(décrivent une caractéristique non-quantifiable de façon naturelle)
– Nominales (Exp.: groupe sanguin)
– Ordinales (Exp.: Niveau d’étude)

Variables quantitatives
(décrivent une caractéristique quantifiable exprimée dans une échelle de valeurs )
– Discrètes
– Continues
Pr. H.HAMZAOUI SMA-S5 10
Variable unidimensionnelle
variables quantitatives

La première étape consiste à organiser les valeurs dans un tableau :


1. Sur la première colonne du tableau, on liste les valeurs ou les
Classes distinctes de la série en ordre croissant
2. Sur les autres colonnes, on présentent les effectifs (ou les
fréquences) et les effectifs cumulés (ou les fréquences cumulées) :

• Effectif d’une modalité : le nombre de répétitions de la modalité,


noté ni
• Fréquence d’une modalité : la proportion de l’effectif de la modalité
par rapport à l’effectif total, notée fi
• Effectif cumulé d’une modalité : est le cumul des effectifs des
modalités qui lui sont inférieures ou égales, noté Ni
• Fréquence cumulée d’une modalité : est le cumul des fréquences
des modalités qui lui sont inférieures ou égales, noté Fi
Pr. H.HAMZAOUI SMA-S5 11
Variable unidimensionnelle

Les données brutes:


On considère une variable quantitative X et x1, ….., xN sont les modalités de X
de taille N.
Le regroupement des données se fait par un tableau de la manière suivante:

Modalité X Effectif Effectif Fréquence Fréquence


cumulé cumulée
Modalités

x1 n1 n1 f1=n1/n f1
x2 n2 n1+n2 f2=n2/n f1+f2
⁞ ⁞ ⁞ ⁞ ⁞
xN-1 nN-1 n1+….+ nN-1 fk-1=nk-1/n f1+….+ fN-1
xN nN n1+….+ nN-1+nN fk=nk/n 1

Total ni = n 1

Pr. H.HAMZAOUI SMA-S5 12


Variable unidimensionnelle

Définition :
Une modalité d’une variable est une des façons possibles d’effectuer la description
d’un individu au moyen de cette variable.
Valeur est synonyme de modalité
Exemple :
Si on décrit les livres de la bibliothèque à l’aide de la variable « couleur de
la couverture », une modalité (valeur) possible est « bleu ».

Si on décrit ces livres à l’aide du nombre de pages, une modalité (valeur)


possible est 436

On évitera la terminologie «valeur» et on lui préfèrera «modalité» car une valeur


d’une variable statistique n’est pas nécessairement une valeur numérique.
Pr. H.HAMZAOUI SMA-S5 13
Variable unidimensionnelle
Exemple:

On considère la série quantitative discréte suivante :

Pr. H.HAMZAOUI SMA-S5 14


Variable unidimensionnelle

Variables quantitatives continues

On discrétise une variable quantitative continue en découpant son domaine de


variation en classes définies par des intervalles semi ouverts à droite sans
discontinuité ni chevauchement.

On regroupe les valeurs observées par classes pour cela il faut définir :
– le nombre de classes k
– les limites des classes (bornes des intervalles) : a1, a2 , ..., ak+1
– les centres de classes x1, …, xk :

– On appelle amplitude de la classe i la longueur de cette classe:


li =(ai+1 –ai)

On calcule l’effectif de chaque classe : le nombre d'observations appartenant à


la classe
Pr. H.HAMZAOUI SMA-S5 15
Variable unidimensionnelle
Variables quantitatives continues

Classe Centre Effectif Effectif Fréquence Fréquence Densité des


cumulé cumulée effectifs

[a1, a2[ x1 n1 n1 f1=n1/N f1 d1=n1/(a2-a1)

[a2, a3[ x2 n2 n1+n2 f2=n2/N f1+f2 d2=n2/(a3-a2)

⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞
⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞

[ak, ak+1[ xk nk N fk=nk/N 1 Dk=nk/(ak-ak-1)

Total N 1

Pr. H.HAMZAOUI SMA-S5 16


Variable unidimensionnelle
Exemple:

On considère la répartition d’une variable quantitative continue suivante :

Pr. H.HAMZAOUI SMA-S5 17


Variable unidimensionnelle
Variables quantitatives continues

Remarque :

Lorsque la variable X présente beaucoup de modalités différentes, presque tous les


individus de la population présentent des modalités différentes de la variable.

C’est typiquement le cas lorsque X est une variable a priori continue


et appartient à l’échelle numérique.

Dans ce cas, on procède parfois à une opération appelée


regroupement par classes des modalités observées de la variable.

Pr. H.HAMZAOUI SMA-S5 18


Variable unidimensionnelle

Description numérique des données:


Fréquence:

On appelle fréquence de (ou associée à) la modalité xk de X le nombre


noté fk et défini par

On constate que la fréquence fk mesure l’importance de la sous-population composée


des individus présentant la modalité xk de la variable X. Tandis que l’effectif nk
mesure cette importance de façon absolue, la fréquence fk la mesure relativement à
la taille N de la population, et par conséquent de façon indépendante d’elle.

Nous avons les propriétés suivantes:

Pr. H.HAMZAOUI SMA-S5 19


Variable unidimensionnelle

Indicateurs de position:
Les indicateurs de position les plus couramment utilisés sont le mode,
la médiane et la moyenne.

Le mode :
Le mode de la variable X est la modalité la plus fréquemment observée
dans la population.

La médiane :
La médiane d’une variable X est un indicateur déterminé à partir d’un
classement des individus selon un critère d’ordre des modalités de X.
Ceci n’est évidemment possible que s’il existe un ordre sur l’ensemble
des modalités.

Pr. H.HAMZAOUI SMA-S5 20


Variable unidimensionnelle

Indicateurs de position:

La moyenne arithmétique:

Données individualisées :

Données regroupées:

Données par classes, variable continue :

Chaque classe est remplacée par son centre pour le calcul.

Pr. H.HAMZAOUI SMA-S5 21


Variable unidimensionnelle
Différente position de la moyenne par rapport à la distribution :

Pr. H.HAMZAOUI SMA-S5 22


Variable unidimensionnelle

Indicateurs de position:

Les quartiles

Trois valeurs Q1 , Q2 , Q3 qui partagent la série ordonnée des observations en


4 groupes d’effectifs égaux

Le premier quartile Q1 est obtenu lorsqu’on a cumulé 25% de la population

Le second quartile Q2 est obtenu lorsqu’on a cumulé 50% de la population :


c’est la médiane

Le troisième quartile Q3 est obtenu lorsqu’on a cumulé 75% de la population

Pr. H.HAMZAOUI SMA-S5 23


Variable unidimensionnelle

Indicateurs de position:

Les quartiles

Pour déterminer les quartiles Q1 et Q3 d'une série de n valeurs :

• On calcule la quantité q= n/4.


Deux cas sont possibles: soit le résultat est entier (la division tombe juste),
soit non.

– 1er cas : q est un entier alors Q1 est la valeur qui se trouve à


la position q et Q3 est la valeur située à la position 3q

– 2ème cas : q n’est pas un entier alors on arrondi q à l'entier


supérieur, Q1 est la valeur qui se trouve à cette position et on arrondi 3q à
l'entier supérieur pour trouver la position de la valeur de Q3 .
24
Pr. H.HAMZAOUI SMA-S5
Variable unidimensionnelle

Indicateurs de position:
Les quartiles

Pour une distributions regroupées en classes, le calcul des quartiles


Q1 et Q3 se fait en deux étapes :

On détermine la classe qui contient le quartile Q1 (resp. Q3) :


C’est la classe dont la fréquence cumulée vérifie:
Fi  0,25 et Fi+1 > 0,25 ( resp. Fi  0,75 et Fi+1 > 0,75 )
On calcule la médiane par interpolation linéaire :
Si [ ai , ai+1 [ est la classe de Q1 (resp. Q3 ) alors

Pr. H.HAMZAOUI SMA-S5 25


Variable unidimensionnelle

Indicateurs de position:
Les quartiles
Exemple :

26
Variable unidimensionnelle
Exercices:

On considère la série suivante :

Modalités xi 70 72 74 75 78 80 83
Effectifs ni 2 1 2 2 1 3 1

Soit la répartition des ouvriers d’un établissement industriel selon leur salaire
mensuel:
Classes des effectifs
salaires
[ 800, 1000 [ 26
[ 1000, 1100[ 33
[1100, 1200[ 64
[1200, 1300[ 7
[1300, 1500[ 10
Calculer la fréquence et la fréquence cumulée des deux tableaux
27
et déterminer le 1er, le 2ème ainsi que le 3ème quartiles.
Variable unidimensionnelle
Tableau Statistique:

Modalité xi ni Ni fi Fi

70 2 2 1/6 1/6

72 1 3 1/12 ¼

74 2 5 1/6 5/12

75 2 7 1/6 7/12

78 1 8 1/12 8/12

80 3 11 ¼ 11/12

83 1 12 1/12 1

Pr. H.HAMZAOUI SMA-S5 28


Variable unidimensionnelle

Nous avons n=7  q = n / 4 = 1.75

Alors Q1 = x2 = 72 et

3q = 5.25 alors Q3 = x6 = 80

2q = 3.5 alors Q2 = x4 = 75

Pr. H.HAMZAOUI SMA-S5 29


Variable unidimensionnelle

Tableau Statistique:

Classes des Centres Effectifs Ni Fréquence Fi di


salaires ci ni fi
[ 800, 1000 [ 900 26 26 0.186 0.186 0.13
[ 1000, 1100[ 1050 33 59 0.236 0.422 0.33
[1100, 1200[ 1150 64 123 0.457 0.879 0.64
[1200, 1300[ 1250 7 130 0.05 0.929 0.07
[1300, 1500[ 1400 10 140 0.071 1 0.05
Total 140 1

On s’intéresse à la 2ème classe donc Q1 = 1000+100*(0.25-


0.186)/(0.422-0.186)= 1027.12
Q3 = 1200+100*(0.75-0.422)/(0.879-0.422) = 1128

Pr. H.HAMZAOUI SMA-S5 30


Variable unidimensionnelle
Indicateurs de dispersion:

L’écart- type :

L’écart type (X) mesure la dispersion de l’échantillon autour de la moyenne.


Pour calculer l’écart type, il faut calculer la variance de
l’échantillon :

Variance, données individualisées :

Variance, données regroupées:

 et
31
Pr. H.HAMZAOUI SMA-S5
Variable unidimensionnelle

Indicateurs de dispersion:

Coefficient de variation

Le coefficient de variation (CV) est le rapport de l'écart-type à la moyenne;

CV = ecart-type / moyenne

1. Le coefficient de variation n’a pas d’unité

2. Ce coefficient est souvent exprimé sous forme de pourcentage

Pr. H.HAMZAOUI SMA-S5 32


Variable unidimensionnelle

Indicateurs de dispersion:

Intervalle et écart interquartile

On appelle intervalle interquartile l'intervalle [ Q1 ; Q3 ];


L’écart interquartile est l'amplitude de l'intervalle [ Q1 ; Q3 ],
c'est-à-dire le nombre IQ = (Q3 - Q1 );

L’écart interquartile est utilisé comme indicateur de dispersion. Il


correspond à 50% des effectifs situés dans la partie centrale de la
distribution

Toute valeur n’appartenant pas à l’intervalle


[ Q1 -1,5*IQ; Q3+1.5*IQ ] est considérée comme aberrante.
Pr. H.HAMZAOUI SMA-S5 33
Variable unidimensionnelle

Exercice:

On considère la série suivante :


Modalités xi 70 72 74 75 78 80 83
Effectifs ni 2 1 2 2 1 3 1

et la répartition des ouvriers d’un établissement industriel selon leur salaire mensuel

Classes des salaires effectifs


[ 800, 1000 [ 26
[ 1000, 1100[ 33
[1100, 1200[ 64
[1200, 1300[ 7
[1300, 1500[ 10

Déterminer les paramètres de dispersion pour les deux tableaux


34
Pr. H.HAMZAOUI SMA-S5
Variable unidimensionnelle

REPRÉSENTATIONS GRAPHIQUES

Représentations graphiques de variables quantitatives

1. Le choix de la représentation graphique est fortement lié à la nature des


variables étudiées.
2. Les représentations les plus fréquemment utilisées sont :
3. Représentations des effectifs (ou des fréquences ):
• diagramme en bâtons pour les variables discrètes
• histogramme pour les variables continues
4. Représentations des effectifs cumulés (ou des fréquences cumulées)
5. Représentations de la dispersion des valeurs : boîte à moustaches

Pr. H.HAMZAOUI SMA-S5 35


Variable unidimensionnelle

Représentations graphiques de variables quantitatives discrète

Diagrammes en bâtons

Il est constitué de segments de droite


verticaux dont les hauteurs sont égales
aux effectifs ou aux fréquences de chaque
modalité.

- Sur l'axe des abscisses (horizontal) sont


reportées les modalités de la série par
ordre croisant.
- Sur l'axe des ordonnés sont reportées
les effectifs ou les fréquence

Pr. H.HAMZAOUI SMA-S5 36


Variable unidimensionnelle
Représentations graphiques de variables quantitatives discrète

Diagrammes des fréquences cumulées

Il représente une fonction en escaliers


(fonction de répartition de la distribution) :
F(x) = Fi pour xi  x < xi+1

les paliers correspondent aux effectifs


cumulés (ou aux fréquences cumulées) de
la série.

1. Sur l'axe des abscisses (horizontal)


sont reportées les modalités de la série par
ordre croissant.

2. Sur l'axe des ordonnées sont reportées


les effectifs cumulés ou les fréquences
cumulées
37
Pr. H.HAMZAOUI SMA-S5
Variable unidimensionnelle
Représentations graphiques de variables quantitatives continue

Histogramme
Un histogramme est constitué de
rectangles contigus dont les aires sont
proportionnelles aux effectifs (ou bien
aux fréquences) de chaque classe :
• Sur l'axe des abscisses sont reportées les
bornes des classes de la série.
• Chaque rectangle correspond à une
classe et sa hauteur est hi =  * di
où  est une constante de mise à
l’échelle.
• Remarque : si les classes ont tous la
même amplitude, alors on peut prendre
hi = ni ou hi = fi
Pr. H.HAMZAOUI SMA-S5 38
Variable unidimensionnelle
Représentations graphiques de variables quantitatives continue

Histogramme

Elle représente la fonction de répartition de la


distribution qui doit être continue :

• Sur l'axe des abscisses sont reportées les


bornes des classes de la série.

• Sur l'axe des ordonnées sont reportées les


effectifs cumulés ou les fréquences cumulées

A la borne supérieure de chaque classe


on fait correspondre en ordonnée la
fréquence cumulée (ou l’effectif
cumulé) de la classe puis on relie les
points obtenus par des segments.
39
Pr. H.HAMZAOUI SMA-S5
Variable unidimensionnelle

Représentations graphiques de variables quantitatives


continue

Boite à moustaches

Graphique très pratique qui permet de résumer quelques


caractéristiques (min=d1 « 10% », max=d9 « 90% »)

40
Pr. H.HAMZAOUI SMA-S5
Variable unidimensionnelle

Exemple

Mode = 119.40
Q1 = 119.4, Q2= 119.5, Q3=119.9
IQ= Q3-Q1 = 0.5
Q1-1.5(Q3-Q1)=118.65
Q3+1.5(Q3-Q1)=120.65
X = 119.64
 = 0.38

41
Pr. H.HAMZAOUI SMA-S5
Statistique descriptive
Cas bidimensionnel

Pr. H.HAMZAOUI SMA-S5 42


Variable bidimensionnelle :
On considère deux variables quantitatives X et Y de modalités respectives x1, ….., xk
et y1, ….., yl . Le regroupement des données se fait à l’aide d’un tableau croisé
(tableau à double entrée)

Y y1 ... yj ... yl Total


X
x1 n11 ... n1j ... n1l n1.
. . . . . .
. . . . . .
. . . . . . l
xi ni1 ... nij ... nil ni. ni.   nij
j 1
. . . . . .
. . . . . .
. . . . . .
xk nk1 ... nkj ... nkl nk. k l

Total n.1 ... n.j ... n.l n n   nij


k i 1 j 1
n. j   nij 43
i 1
nij: Effectif de (X=xi , Y= yj) , ni. : Effectif de (X=xi ) et n.j : Effectif de (Y=yj )
Variable bidimensionnelle

Les fréquences :
On peut considérer les fréquences au lieu des effectifs :
nij
Fréquence de (X=xi , Y= yj) : f ij  on a  f ij  1
n i, j
k
n
Fréquence de (X=xi ) : f i.  i. , on a  f i.  1
n i 1
n. j l
Fréquence de (Y= yj) : f . j  , on a  f. j  1
n j 1

Fréquences conditionnelles : nij


• Fréquence de (X=xi ) conditionnellement à (Y= yj): f  X  x  / Y  y   f i / j 
i j
n. j
nij
• Fréquence de (Y= yj) conditionnellement à (X=xi ): f Y  y /  X  x   f j / i 
j i
ni.

f ij  f. j f i / j  f i. f j / i

Pr. H.HAMZAOUI SMA-S5 44


Variable bidimensionnelle

Distributions marginales
1 k k
x   ni. xi   f i. xi
n i 1 i 1

1 l l
y   n. j y j   f. j y j
n j 1 j 1

1 k 1 k 2
  X    ni. xi  x     ni. xi    x 
2 2 2
n
n i 1  n i 1 

  f i. xi  x     f i. xi2   x 2

k k
2

i 1  i1 

Pr. H.HAMZAOUI SMA-S5 45


Variable bidimensionnelle

Distributions conditionnelles
Y  y   j 1 k
Moyenne conditionnelle de X sachant (Y= yj) : x j
x   nij xi
n. j i 1
Y  y 
 
2
Variance conditionnelle de X sachant (Y= yj) : Vn j
 X   Vn  X    nij xi  x  j 
 j 1 k
n. j i1

 
k
  f i / j xi  x  j 
2

i 1
Propriétés :
1 l
x   n. j x   f . j x  j 
 j l

n j 1 j 1

 
Vn  X   Vn X  j   Vn j   X   
avec Vn X  j  
1 l
  j
 n. j x  x
n j 1
2
Vn j   X  
1 l
n j 1
 j
 n. jV  X 

Pr. H.HAMZAOUI SMA-S5 46


Variable bidimensionnelle

Covariance de X et Y

La covariance est un paramètre en statistique et théorie des


probabilités qui indique pour deux variables aléatoires X et Y la
mesure dans laquelle les deux variables aléatoires sont liées les
unes aux autres. La covariance indique si, et indirectement dans
quelle mesure, les valeurs d'une variable augmentent ou
diminuent avec les valeurs croissantes de l'autre.
La formule mathématique de la covariance de X et Y est:
1 k l
   
Covn  X , Y     nij xi  x  y j  y   f ij xi  x  y j  y
n i 1 j 1 i, j

Pr. H.HAMZAOUI SMA-S5 47


Variable bidimensionnelle

Propriétés pour la covariance :


 k l 
Cov n  X , Y      f ij xi y j    x  y 
 i 1 j 1 
Cov n  X , X   Vn  X 

Covn  X , Y   Covn Y , X 

Covn  X  Y , Z   Covn  X , Z   Covn Y , Z 

a  IR  Covn  X , a   0

a  IR  Covn aX , Y   aCovn  X , Y 


Pr. H.HAMZAOUI SMA-S5 48
Variable bidimensionnelle

Corrélation de X et Y

le coefficient de corrélation indique le degré de cohérence


linèaire et indique directement la force de la corrélation. Le
coefficient de corrélation est basé sur la covariance, mais
contrairement au coefficient de corrélation, la covariance
dépend de l'échelle.
Covn  X , Y 
rX ,Y 
 n  X  n Y 

 1  rX ,Y  1

Si rX ,Y  1 les variables X et Y sont liées de façon linéaire, Y= a X +b

Si rX ,Y  0 les variables X et Y ne sont pas corrélées.


Pr. H.HAMZAOUI SMA-S5 49
Variable bidimensionnelle

Exercice :

On désigne respectivement par et le nombre d’enfants et


les dépenses annuels en fournitures scolaires:

Y 0,4 4,10 10,20 20,40


X
1 322 12 2 0
2 14 230 116 36
3 0 0 20 248

Calculer la valeur modale des dépenses ainsi que la dépense médiane.


Calculer les moyennes et les variances conditionnelles de X et Y .

Pr. H.HAMZAOUI SMA-S5 50


Pr. H.HAMZAOUI SMA- 56
S5

Vous aimerez peut-être aussi