Académique Documents
Professionnel Documents
Culture Documents
Statistique Descriptive Ch1
Statistique Descriptive Ch1
STATISTIQUE
DESCRIPTIVE
1. MTHODE STATISTIQUE
Aussi loin que l'on remonte dans le temps et dans l'espace ( en Chine et en gypte, par
exemple), les tats ont toujours senti le besoin de disposer d'informations sur leurs sujets ou
sur les biens qu'ils possdent et produisent. Mais les recensements de population et de
ressources, les statistiques (du latin status : tat ) sont restes purement descriptives jusqu'au
17me sicle.
Puis s'est dvelopp le calcul des probabilits et des mthodes statistiques sont
apparues en Allemagne, en Angleterre et en France. Beaucoup de scientifiques de tous ordre
ont apport leur contribution au dveloppement de cette science : PASCAL, HUYGENS,
BERNOULLI, MOIVRE, LAPLACE, GAUSS, MENDEL, PEARSON, FISCHER etc....
Dfinition : La Statistique, c'est l'tude des variations observables. C'est une mthode qui
consiste runir des donnes chiffres sur des ensembles nombreux, puis les
analyser et les interprter.
On pourra donc :
valuer une grandeur statistique comme la moyenne ou la variance (estimateurs,
intervalles de confiance ).
savoir si deux populations sont comparables (tests dhypothses).
dterminer si deux grandeurs sont lies et de quelle faon ( corrlation, ajustement
analytique).
2.1. TERMINOLOGIE
POPULATION : Ensemble que l'on observe et qui sera soumis une analyse statistique.
Chaque lment de cet ensemble est un individu ou unit statistique.
Lorsque la variable ne se prte pas des valeurs numriques, elle est dite
qualitative (exemple : opinions politiques, couleurs des yeux...) .Elle peut tre
ordonne ou non, dichotomique ou non.
Lorsque la variable peut tre exprime numriquement, elle est dite quantitative
( ou mesurable). Dans ce cas, elle peut tre discontinue ou continue.
Elle est discontinue si elle ne prend que des valeurs isoles les unes des
autres. Une variable discontinue qui ne prend que des valeurs entires est
dite discrte (exemple : nombre d'enfants d'une famille).
Elle est dite continue lorsqu'elle peut prendre toutes les valeurs d'un
intervalle fini ou infini (exemple : diamtre de pices, salaires...).
Si le caractre est qualitatif ou discontinu, une classe contient tous les individus ayant la
mme modalit ou la mme valeur du caractre.
Si le caractre est continu, une classe est un intervalle.
Pour construire ces intervalles, on respecte les rgles suivantes :
1. Le nombre de classes est compris entre 5 et 20 (de prfrence entre 6 et 12)
2. Chaque fois que cela est possible, les amplitudes des classes sont gales.
3. Chaque classe (sauf la dernire) contient sa borne infrieure mais pas sa
borne suprieure.
Dans les calculs, une classe sera reprsente par son centre, qui est le milieu de
l'intervalle.
Une fois la classe constitue, on considre les individus rpartis uniformment entre
les deux bornes ( ce qui entrane une perte d'informations par rapport aux donnes
brutes).
ni
fi et ni sont lis par : f i = o N est le nombre total dindividus dans la population.
N
k k
On a toujours : ni = N 0 fi 1 f i = 1
i =1 i =1
2.3. DIAGRAMMES
Diagramme cumulatif
2. On obtient le polygone des effectifs (ou des frquences) en reliant les milieux des
bases suprieures des rectangles.
points par des segments de droite. Son quivalent dans la thorie probabiliste est la
fonction de rpartition.
Dans cet exemple la variable statistique( le nombre de ventes), quoique discrte, doit
tre traite comme une variable continue car elle prend un grand nombre de valeurs.
HISTOGRAMME
mdiane
3.1.1. Le mode
Dans le cas d'une variable statistique continue, on parle plutt de classe modale.
3.1.2. La mdiane
La mdiane, dsigne par Me, est la valeur de la variable telle qu'il y ait autant
d'observations, en dessous d'elle qu'au dessus ou, ce qui revient au mme, la valeur
correspondant 50% des observations.
Comment la dterminer?
3.1.3. La moyenne
1e r cas : si les observations ne sont pas groupes (la srie est dite non classe)
1 n
x= x
n j =1 j
n = effectif total xj = j me valeur de la variable
2me cas : si les observations sont groupes ( la srie est dite classe)
xi = centre de la classe i
k k
1
x= n x =
n i =1 i i
f x i i ni = effectif de la classe i
i =1
NB : Dans le cas dune variable continue, cette moyenne pondre n'est qu'une valeur
approche de la vraie valeur moyenne de la srie car on remplace chaque xj par le centre de la
classe laquelle il appartient.
Elle a t choisie parmi d'autres types de moyenne (gomtrique, harmonique...) car elle
possde une proprit extrmement intressante:
Lorsqu'on se livre des observations scientifiques, les mesures ne sont pas toujours
exactement identiques d'une fois sur l'autre, mme lorsque les conditions semblent tre
similaires. Il se produit ce que lon appelle une erreur d'observation . On a la relation suivante :
xi - xe = erreur d'observation
On dcide alors de prendre pour xe la valeur qui minimise les erreurs dobservation , en fait la
moyenne des carrs de ces erreurs ( critre des moindres carrs) . Le calcul prouve que la
meilleure valeur estimant xe suivant ce critre est x .
Cela ne signifie pas que x soit la valeur exacte xe de la grandeur observe mais que c'est
la meilleure valuation possible que l'on puisse en faire selon le critre des moindres carrs.
3.2.1. Ltendue
L'tendue, note e, reprsente la diffrence entre les valeurs extrmes de la distribution : e = xn-x1.
I = Q3 - Q1
3.2.3. La variance
1 n
Vx = ( x j x ) 2
n j=1
1 k k
Vx = n i (x i x) = f i (x i x) 2
2
n i=1 i =1
Dans le cas dune variable statistique continue, xi reprsente le centre de la ime classe.
La variance est donc toujours positive ou nulle. Les formules ci-dessus imposent de calculer
les diffrences (xi- x )2 ce qui est assez fastidieux. On peut viter cet inconvnient en utilisant le
thorme de Koenig.
Autre expression de la variance : Thorme de KOENIG
1 n 2
Vx = ( x j ) x 2
n j=1
1 k k
Vx = ( n i x i ) x = ( f i x i 2 ) x 2
2 2
n i=1 i =1
Dmonstration:
k k k k k k
Vx = f i ( x i x ) 2 = f i ( x i 2 2 x i x + x 2 ) = f i x i 2 2 x ( f i x i ) + x 2 f i = f i x i 2 x 2
i =1 i =1 i =1 i =1 i =1 i =1
k k
car : f x i i =x et f i =1
i =1 i =1
Par dfinition, lcart quadratique moyen dune srie statistique est la racine carre
de la variance. On le note sx
A la diffrence de la variance qui correspond un carr, l'cart quadratique moyen est
homogne la variable statistique et s'exprime dans les mmes units. Il permet de mesurer la
dispersion de la distribution statistique autour de sa valeur moyenne.
2
1 xi m
1 2
f (x i ) = e
2
X m
On associe la variable X , la variable T = ,appele variable gaussienne centre
rduite (sa moyenne est nulle et son cart-type gal 1).
Que faire?
1. On calcule pour chaque valeur de xis, borne suprieure d'une classe, la frquence
cumule correspondante F(xis).
2. On porte les points de coordonnes(xis , F(xis) sur le papier gausso-arithmtique (en
utilisant l'chelle de gauche des ordonnes).
On en dduit que la variable statistique a une distribution gaussienne. Comme les fonctions
de rpartition des variables T et X, notes respectivement F et se correspondent, on a :
x m X m
F( x is ) = ( t is ) = ( is ) et la relation affine entre T et X est de la forme : T =