Statistique Descriptive Ch1

FIIFO 3 PROBABILITES - STATISTIQUES
STATISTIQUE
DESCRIPTIVE
1. MTHODE STATISTIQUE
1.1. HISTORIQUE ET DFINITION
Aussi loin que l'on remonte dans le temps et dans l'espace ( en Chine et en gypte, par
exemple), les tats ont toujours senti le besoin de disposer d'informations sur leurs sujets ou
sur les biens qu'ils possdent et produisent. Mais les recensements de population et de
ressources, les statistiques (du latin status : tat ) sont restes purement descriptives jusqu'au
17me sicle.
Puis s'est dvelopp le calcul des probabilits et des mthodes statistiques sont
apparues en Allemagne, en Angleterre et en France. Beaucoup de scientifiques de tous ordre
ont apport leur contribution au dveloppement de cette science : PASCAL, HUYGENS,
BERNOULLI, MOIVRE, LAPLACE, GAUSS, MENDEL, PEARSON, FISCHER etc....
Actuellement, beaucoup de domaines utilisent les mthodes statistiques ( mdecine,

agronomie, sociologie, industrie etc....).
Dfinition : La Statistique, c'est l'tude des variations observables. C'est une mthode qui
consiste runir des donnes chiffres sur des ensembles nombreux, puis les
analyser et les interprter.
1.2. MTHODES STATISTIQUES
1re tape :On collecte des donnes :

soit de manire exhaustive
soit par sondage
me
2 tape : On trie les donnes que lon organise en tableaux, diagrammes, etc...
3me tape : On interprte les rsultats : on les compare avec ceux dduits de la
thorie des probabilits.
On pourra donc :
valuer une grandeur statistique comme la moyenne ou la variance (estimateurs,
intervalles de confiance ).
savoir si deux populations sont comparables (tests dhypothses).
dterminer si deux grandeurs sont lies et de quelle faon ( corrlation, ajustement
analytique).
J-P LENOIR Page 3 CHAPITRE 1

Les conclusions, toujours entaches d'un certain pourcentage d'incertitude, nous

permettent alors de prendre une dcision.
2. SRIES STATISTIQUES A UNE VARIABLE
2.1. TERMINOLOGIE
POPULATION : Ensemble que l'on observe et qui sera soumis une analyse statistique.
Chaque lment de cet ensemble est un individu ou unit statistique.
CHANTILLON : C'est un sous ensemble de la population considre. Le nombre

d'individus dans lchantillon est la taille de l'chantillon.
CARACTRE : C'est la proprit ou l'aspect singulier que l'on se propose d'observer

dans la population ou l'chantillon. Un caractre qui fait le sujet d'une
tude porte aussi le nom de variable statistique.
Diffrents types de variables statistiques :
Lorsque la variable ne se prte pas des valeurs numriques, elle est dite
qualitative (exemple : opinions politiques, couleurs des yeux...) .Elle peut tre
ordonne ou non, dichotomique ou non.
Lorsque la variable peut tre exprime numriquement, elle est dite quantitative
( ou mesurable). Dans ce cas, elle peut tre discontinue ou continue.
Elle est discontinue si elle ne prend que des valeurs isoles les unes des
autres. Une variable discontinue qui ne prend que des valeurs entires est
dite discrte (exemple : nombre d'enfants d'une famille).
Elle est dite continue lorsqu'elle peut prendre toutes les valeurs d'un
intervalle fini ou infini (exemple : diamtre de pices, salaires...).
2.2. COMMENT ORGANISER LES DONNES
On regroupe toutes les donnes de la srie statistique dans un tableau indiquant la

rpartition des individus selon le caractre tudi. Le regroupement s'effectue par classes :
Si le caractre est qualitatif ou discontinu, une classe contient tous les individus ayant la
mme modalit ou la mme valeur du caractre.
Si le caractre est continu, une classe est un intervalle.
Pour construire ces intervalles, on respecte les rgles suivantes :
1. Le nombre de classes est compris entre 5 et 20 (de prfrence entre 6 et 12)
2. Chaque fois que cela est possible, les amplitudes des classes sont gales.
3. Chaque classe (sauf la dernire) contient sa borne infrieure mais pas sa
borne suprieure.
Dans les calculs, une classe sera reprsente par son centre, qui est le milieu de
l'intervalle.

Une fois la classe constitue, on considre les individus rpartis uniformment entre
les deux bornes ( ce qui entrane une perte d'informations par rapport aux donnes
brutes).

Que faut-il indiquer pour chaque classe ?
1. Leffectif : nombre d'individus de la classe : on le note ni (i est lindice de la classe).
2. La frquence : proportion d'individus de la population ou de l'chantillon appartenant

la classe : on la note fi.
ni
fi et ni sont lis par : f i = o N est le nombre total dindividus dans la population.
N
Remarque : On peut remplacer fi par fi100 qui reprsente alors un pourcentage.
k k
On a toujours : ni = N 0 fi 1 f i = 1
i =1 i =1
o k reprsente le nombre de classes
3. L'effectif (ou la frquence) cumul (e) : effectif ( ou frquence) de la classe augment

(e) de ceux (ou celles) des classes prcdentes(lorsque la variable statistique est
quantitative). La frquence cumule est une fonction F de la borne suprieure de la
classe (dans le cas dune variable statistique continue).
2.3. DIAGRAMMES
Ils servent visualiser la rpartition des individus.
Pour une variable statistique qualitative :
On utilise des diagrammes secteurs circulaires, des diagrammes en tuyaux

d'orgue, des diagrammes en bandes. Le principe est de reprsenter des aires
proportionnelles aux frquences de la variable statistique.
Pour une variable statistique discrte :
On utilise un diagramme diffrentiel en btons, complt du diagramme des

frquences cumules appel diagramme cumulatif. Le diagramme cumulatif est la
reprsentation graphique dune fonction F, appele fonction de rpartition de la
variable statistique.
Exemple : nombre derreurs dassemblage sur un ensemble dappareils

nombre nombre frquences

derreurs dappareils cumules
0 101 0.26
1 140 0.61
2 92 0.84
3 42 0.94
4 18 0.99
5 3 1
Diagramme cumulatif
nombre derreurs dassemblage
Pour une variable statistique continue :
1. Le diagramme reprsentant la srie est un histogramme : ce sont des rectangles

juxtaposs dont chacune des bases est gale lintervalle de chaque classe et dont la
hauteur est telle que laire de chaque rectangle soit proportionnelle aux
effectifs(histogramme des effectifs) ou aux frquences de la classe correspondante
(histogramme des frquences).
2. On obtient le polygone des effectifs (ou des frquences) en reliant les milieux des
bases suprieures des rectangles.
3. La courbe cumulative ( ou polygone des frquences cumules ) est obtenue en

portant les points dont les abscisses reprsentent la borne suprieure de chaque
classe et les ordonnes les frquences cumules correspondantes, puis en reliant ces

points par des segments de droite. Son quivalent dans la thorie probabiliste est la
fonction de rpartition.

Exemple : nombre de ventes effectues en un mois par 50 employs dune compagnie
Dans cet exemple la variable statistique( le nombre de ventes), quoique discrte, doit
tre traite comme une variable continue car elle prend un grand nombre de valeurs.
HISTOGRAMME
nombre de nombre frquences

ventes : x demploys cumules
80 x < 90 2 0.04
90 x < 100 6 0.16
100 x < 110 10 0.36
110 x < 120 14 0.64
120 x < 130 9 0.82
130 x < 140 7 0.96
140 x < 150 2 1
mdiane
On remarque que : F est une fonction croissante.

On a toujours : 0 F( x) 1 .
3. CARACTRISTIQUES NUMRIQUES DUNE SRIE

QUANTITATIVE
3.1. CARACTRISTIQUES DE POSITION
3.1.1. Le mode
Le mode, dsign par Mo est la valeur de la variable statistique la plus frquente.

Dans le cas d'une variable statistique continue, on parle plutt de classe modale.
NB : Le mode ou la classe modale n'est pas obligatoirement unique.
3.1.2. La mdiane
La mdiane, dsigne par Me, est la valeur de la variable telle qu'il y ait autant
d'observations, en dessous d'elle qu'au dessus ou, ce qui revient au mme, la valeur
correspondant 50% des observations.
Comment la dterminer?
Si la variable est discrte :
On dsigne par n le nombre dobservations .

n + 1 me
Si n est impair : Me est la ( ) observation.
2
Si n est pair : n = 2k. Me est la moyenne arithmtique des deux

observations centrales.
k me observation + ( k + 1) me observation
Me =
2
Si la variable est continue, Me vrifie F(Me) = 0.5 ,o F est la fonction de

rpartition de la variable. On dtermine alors un intervalle mdian(intervalle
contenant la mdiane), puis on procde l'intrieur de cette classe une
interpolation linaire.
Gnralisation : notion de quantiles
Quantile d'ordre 1/4 : Cest la valeur Q1 tel que F(Q1) = 0.25.

Quantile d'ordre 3/4 : Cest la valeur Q3 tel que F(Q3) = 0.75 (on a Me = Q2).
Dciles d'ordre 1/10, 2/10.... : F(D1)=0.1, F(D2)=0.2...
Remarque : Ces lments se dterminent facilement partir des courbes

n n
cumulatives, en cherchant les abscisses des points d'ordonnes pour Me, pour
2 4
Q1...
3.1.3. La moyenne
Lorsque x dsigne la variable statistique, la valeur moyenne, ou moyenne de la srie se

note m ou x . Elle est l'analogue d'un centre de gravit.
1e r cas : si les observations ne sont pas groupes (la srie est dite non classe)

1 n
x= x
n j =1 j
n = effectif total xj = j me valeur de la variable

2me cas : si les observations sont groupes ( la srie est dite classe)
xi = centre de la classe i
k k
1
x= n x =
n i =1 i i
f x i i ni = effectif de la classe i
i =1
n= effectif total fi = frquence de la classe i
On effectue en fait ici une moyenne arithmtique pondre.
NB : Dans le cas dune variable continue, cette moyenne pondre n'est qu'une valeur
approche de la vraie valeur moyenne de la srie car on remplace chaque xj par le centre de la
classe laquelle il appartient.
Pourquoi utiliser la moyenne arithmtique?
Elle a t choisie parmi d'autres types de moyenne (gomtrique, harmonique...) car elle
possde une proprit extrmement intressante:
Lorsqu'on se livre des observations scientifiques, les mesures ne sont pas toujours
exactement identiques d'une fois sur l'autre, mme lorsque les conditions semblent tre
similaires. Il se produit ce que lon appelle une erreur d'observation . On a la relation suivante :
valeur observe = valeur exacte + erreur d'observation
avec: xi = valeur observe xe = valeur exacte
xi - xe = erreur d'observation
On dcide alors de prendre pour xe la valeur qui minimise les erreurs dobservation , en fait la
moyenne des carrs de ces erreurs ( critre des moindres carrs) . Le calcul prouve que la
meilleure valeur estimant xe suivant ce critre est x .
Proprit : La moyenne x des valeurs observes dune grandeur x correspond la meilleure

estimation de xe .
Cela ne signifie pas que x soit la valeur exacte xe de la grandeur observe mais que c'est
la meilleure valuation possible que l'on puisse en faire selon le critre des moindres carrs.
3.2. CARACTRISTIQUES DE DISPERSION
3.2.1. Ltendue
L'tendue, note e, reprsente la diffrence entre les valeurs extrmes de la distribution : e = xn-x1.

3.2.2. Lintervalle interquartile
L'intervalle interquartile, not I, est la diffrence entre les deux quartiles Q3 et Q1 :
I = Q3 - Q1
Cet intervalle contient 50% de la population en en liminant 25% chaque extrmit.

Cette caractristique est nettement meilleure que l'tendue.
3.2.3. La variance
C'est la caractristique de dispersion la plus utilise avec l'cart quadratique moyen.
1er cas : srie non classe
1 n
Vx = ( x j x ) 2
n j=1
2me cas : srie classe
1 k k
Vx = n i (x i x) = f i (x i x) 2
2
n i=1 i =1
Dans le cas dune variable statistique continue, xi reprsente le centre de la ime classe.
La variance est donc toujours positive ou nulle. Les formules ci-dessus imposent de calculer
les diffrences (xi- x )2 ce qui est assez fastidieux. On peut viter cet inconvnient en utilisant le
thorme de Koenig.
Autre expression de la variance : Thorme de KOENIG
1er cas: srie non classe
1 n 2
Vx = ( x j ) x 2
n j=1
2me cas: srie classe
1 k k
Vx = ( n i x i ) x = ( f i x i 2 ) x 2
2 2
n i=1 i =1
Dmonstration:
k k k k k k
Vx = f i ( x i x ) 2 = f i ( x i 2 2 x i x + x 2 ) = f i x i 2 2 x ( f i x i ) + x 2 f i = f i x i 2 x 2
i =1 i =1 i =1 i =1 i =1 i =1

k k
car : f x i i =x et f i =1
i =1 i =1
3.2.4. cart quadratique moyen
Par dfinition, lcart quadratique moyen dune srie statistique est la racine carre
de la variance. On le note sx
A la diffrence de la variance qui correspond un carr, l'cart quadratique moyen est
homogne la variable statistique et s'exprime dans les mmes units. Il permet de mesurer la
dispersion de la distribution statistique autour de sa valeur moyenne.
3.3. DTERMINATION GRAPHIQUE DE LA MOYENNE ET DE LCART

QUADRATIQUE MOYEN DUNE DISTRIBUTION GAUSSIENNE A
LAIDE DE LA DROITE DE HENRY
On connat plusieurs distributions statistiques particulires donnant la frquence

thorique d'apparition d'une valeur x en fonction de x ( on reviendra en dtail sur ces notions
dans les chapitres suivants) . L'une des plus importantes est la distribution gaussienne ou
distribution normale.
La frquence thorique dapparition d'une valeur xi est donne par :
2
1 xi m

1 2
f (x i ) = e
2
o m est la moyenne thorique et lcart-type thorique de la distribution gaussienne.

La reprsentation graphique de cette fonction f' est la fameuse courbe "en cloche".

X m
On associe la variable X , la variable T = ,appele variable gaussienne centre

rduite (sa moyenne est nulle et son cart-type gal 1).

Mthode de la DROITE DE HENRY :
Elle permet la fois :

1) De tester si la distribution donne est gaussienne.
2) Si elle lest, de dterminer m et .
Il faut pour cela utiliser du papier gausso-arithmtique contenant :
1) en abscisses : les valeurs x, prises par la variable X.

2) en ordonnes :
droite : les valeurs t de la variable gaussienne centre rduite T.
gauche : les valeurs de la fonction de rpartition de la loi T.
Que faire?
1. On calcule pour chaque valeur de xis, borne suprieure d'une classe, la frquence
cumule correspondante F(xis).
2. On porte les points de coordonnes(xis , F(xis) sur le papier gausso-arithmtique (en
utilisant l'chelle de gauche des ordonnes).
Si les points sont aligns :
La droite obtenue est la droite de Henry de la distribution.
On en dduit que la variable statistique a une distribution gaussienne. Comme les fonctions
de rpartition des variables T et X, notes respectivement F et se correspondent, on a :
x m X m
F( x is ) = ( t is ) = ( is ) et la relation affine entre T et X est de la forme : T =

On peut alors dterminer graphiquement m et :
L'abscisse du point d'intersection de la droite de Henry avec la droite d'quation t = 0 est m.
L'abscisse du point d'intersection de la droite de Henry avec la droite d'quation t = 1 est

m+.

Statistique Descriptive Ch1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Statistique Descriptive Ch1

Transféré par

Droits d'auteur :

Formats disponibles

FIIFO 3 PROBABILITES - STATISTIQUES

1.1. HISTORIQUE ET DFINITION

Actuellement, beaucoup de domaines utilisent les mthodes statistiques ( mdecine,

1.2. MTHODES STATISTIQUES

1re tape :On collecte des donnes :

J-P LENOIR Page 3 CHAPITRE 1

Les conclusions, toujours entaches d'un certain pourcentage d'incertitude, nous

2. SRIES STATISTIQUES A UNE VARIABLE

CHANTILLON : C'est un sous ensemble de la population considre. Le nombre

CARACTRE : C'est la proprit ou l'aspect singulier que l'on se propose d'observer

Diffrents types de variables statistiques :

2.2. COMMENT ORGANISER LES DONNES

On regroupe toutes les donnes de la srie statistique dans un tableau indiquant la

J-P LENOIR Page 4 CHAPITRE 1

J-P LENOIR Page 5 CHAPITRE 1

Que faut-il indiquer pour chaque classe ?

1. Leffectif : nombre d'individus de la classe : on le note ni (i est lindice de la classe).

2. La frquence : proportion d'individus de la population ou de l'chantillon appartenant

Remarque : On peut remplacer fi par fi100 qui reprsente alors un pourcentage.

o k reprsente le nombre de classes

3. L'effectif (ou la frquence) cumul (e) : effectif ( ou frquence) de la classe augment

Ils servent visualiser la rpartition des individus.

Pour une variable statistique qualitative :

On utilise des diagrammes secteurs circulaires, des diagrammes en tuyaux

Pour une variable statistique discrte :

On utilise un diagramme diffrentiel en btons, complt du diagramme des

Exemple : nombre derreurs dassemblage sur un ensemble dappareils

J-P LENOIR Page 6 CHAPITRE 1

nombre nombre frquences

nombre derreurs dassemblage

Pour une variable statistique continue :

1. Le diagramme reprsentant la srie est un histogramme : ce sont des rectangles

3. La courbe cumulative ( ou polygone des frquences cumules ) est obtenue en

J-P LENOIR Page 7 CHAPITRE 1

J-P LENOIR Page 8 CHAPITRE 1

Exemple : nombre de ventes effectues en un mois par 50 employs dune compagnie

nombre de nombre frquences

On remarque que : F est une fonction croissante.

3. CARACTRISTIQUES NUMRIQUES DUNE SRIE

3.1. CARACTRISTIQUES DE POSITION

Le mode, dsign par Mo est la valeur de la variable statistique la plus frquente.

J-P LENOIR Page 9 CHAPITRE 1

NB : Le mode ou la classe modale n'est pas obligatoirement unique.

Si la variable est discrte :

On dsigne par n le nombre dobservations .

Si n est pair : n = 2k. Me est la moyenne arithmtique des deux

Si la variable est continue, Me vrifie F(Me) = 0.5 ,o F est la fonction de

Gnralisation : notion de quantiles

Quantile d'ordre 1/4 : Cest la valeur Q1 tel que F(Q1) = 0.25.

Remarque : Ces lments se dterminent facilement partir des courbes

Lorsque x dsigne la variable statistique, la valeur moyenne, ou moyenne de la srie se

J-P LENOIR Page 10 CHAPITRE 1

J-P LENOIR Page 11 CHAPITRE 1

n= effectif total fi = frquence de la classe i

On effectue en fait ici une moyenne arithmtique pondre.

Pourquoi utiliser la moyenne arithmtique?

valeur observe = valeur exacte + erreur d'observation

avec: xi = valeur observe xe = valeur exacte

Proprit : La moyenne x des valeurs observes dune grandeur x correspond la meilleure

3.2. CARACTRISTIQUES DE DISPERSION

J-P LENOIR Page 12 CHAPITRE 1

3.2.2. Lintervalle interquartile

L'intervalle interquartile, not I, est la diffrence entre les deux quartiles Q3 et Q1 :