Cours Papa23corrisé - 093729

Professeur chargé du cours UNIVERSITE PRIVEE Koffi Annan de Nongo/Guinée/Conakry
Koï Théodule MAOMOU/tel : 620 10 20 01/664 76 30 99/657 32 01 88/ email : ouidoh_yakpa@yahoo.fr

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Cours de statistique descriptive

CH I INTRODUCTION GÉNÉRALE
I.1 Généralité sur la statistique
I.1.1 Définition
La statistique est une sous-discipline des mathématiques qui est l’ensemble des méthodes ou techniques
permettant d’analyser ou de traiter des ensembles d’observations ou de donne.
Le mot statistique avec S’’ désigne l’ensemble des données sur un sujet précis.
L’objectif de la statistique est d’obtenir des résultats globaux partant des informations reçus individuellement sur
les éléments d’un ensemble d’étude. Une enquête statistique portant sur un ensemble de personnes, par
exemple, n’a pas besoin de faire intervenir les noms, mais exclusivement les renseignements qu’on désire étudier :
la répartition par âge, par exemple, profession ou religion…. Ces ensembles d’étude, objet de la statistique,
doivent être bien déterminés au sens de la théorie des ensembles. En effet ; il doit être toujours possible de savoir
si oui ou non un élément appartient à un ensemble. On parlera, par exemple, du recensement des enseignants
guinéens au mois de décembre 2016 pour une information quelconque. Ces éléments d’études doivent pouvoir se
prêter à une partition, c’est-à-dire le classement des éléments dans des sous-ensembles disjoints dont la réunion
fait l’ensemble de départ.
I .1.2 Statistique descriptive et statistique infférentielle
La statistique des divisée en deux parties : la statistique descriptive et inférence statistique.

La première a pour objectif principale la description des données à étudier. Cette description des données se fait à
travers leur présentation en tableau, en graphique et en résumes numériques. La deuxième a pour objectif
principale la précision d’un phénomène sur un ensemble global d’étude, à partir de son observation sur une partie
restreinte de cet ensemble d’étude. C’est-à-dire d’indure ou d’inférer du particulier au générale. Le plus souvent,
ce passage se fait moyennant des hypothèses se type probabiliste. Cette partie de la statistique est la plus délicate.
I.2 Terminologie de base.
On précise ici un certain nombre de termes statistiques très courants qui seront régulièrement utilisés par
la suite et qu’il convient de bien connaitre.
I.2.1 Population :
L’ensemble concerné par une étude statistique est appelé population.
Exemple :
- En s’intéressant aux notes d’un groupe d’étudiant ; ce groupe d’étudiants sera appelé population.
Cours de statistique descriptive pour l’année préparatoire d’ingénierie de Koffi Annan .

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
- L’ensemble des nouveau-nés à la maternité d’ignace-denn, pendant le mois de décembre 2016

constituera une population si on doit étudier le sexe ou le poids ou encore la taille.
- L’ensemble des véhicules circulant dans la ville de Conakry constituera une population si l’on
s’intéresse à la couleur, au numéro d’immatriculation.
I.2.2 Individu ou unité statistique :
Tout élément constituant une population est appelé individu ou unité statistique.
Exemple :
- Tout étudiant du groupe d’étudiants mentionné plus haut est appelé individu.
- Tout nouveau-nés à la maternité de Ignace-denn pendant le mois de décembre 2016 est appelé
individu.
- Tout véhicule susceptible de circule dans la ville de Conakry est appelé individu.
I.2.3 Échantillon :
Tout sous-ensemble non vide de l’ensemble d’étude statistique est appelé échantillon.
Exemple :
- Tous les nouveau-nés pendant la première semaine du mois de décembre 2016 forment un échantillon.
- Tous les étudiants du groupe d’étudiants de taille compris entre 1,60m et 1,75m forment un
échantillon.
- Tous les véhicules susceptibles de circule dans la ville de couleur noir forment un échantillon.
I.2.4 Taille de la population ou de l’échantillon :
La taille d’une population est le cardinal ou le nombre d’individus de cette population.
On parle de population de taille 800, de taille 1000….
En générale, on note par n la taille de l’échantillon.
I.2.5 Enquête :
L’enquête statistique est l’opération qui consiste à observer (mesurer, questionner) l’ensemble des individus
d’un échantillon ou de population.
I.2.6 Recensement :
C’est une enquête dans laquelle tous les individus de la population sont observés. On parle d’enquête
exhaustive. En Guinée, on organise aussi, de façon plus ou moins régulièrement, le recensement général de la
population.
I.2.7 Sondage :

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
C’est une enquête dans laquelle une partie de la population est observée. On parle de sondage non
exhaustif.
I.2.8 Caractère :
C’est une caractéristique, définie sur la population et observée sur l’échantillon. Par exemple, l’âge, la
taille, la couleur, le sexe, le poids, numéro d’immatriculation.
I.2.9 Modalité :
La modalité est la valeur prise par un caractère au niveau d’un individu de la population. Le sexe est un
caractère à deux modalités : Masculin (M), Féminin (F). Un caractère à deux modalités est appelé caractère
dichotomique.
I.2.10 Caractère quantitatif et caractère qualitatif :
- Les caractères qui ont pour modalités des nombres sont appelé caractère quantitatifs. Ils sont appelé
variables quantitatifs et ses modalités appelé valeurs.
* Les variables quantitatifs prenant des valeurs numériques entières sont appelées variables quantitatifs
discontinues ou discrètes.
* Les variables quantitatifs dont les valeurs couvrent un certain intervalle réel ou l’intervalle réel tout entier
seront appelées variables quantitatifs continues.
- Les caractères qui ont pour modalités non mesurables (non numérique) sont appelés caractères qualitatifs.
* Tout caractère qualitatifs qui a pour modalités impossibles à classer est appelé caractère nominal : le sexe ;
la couleur des yeux, la ville de naissance, ….
* Tout caractère qualitatifs qui a pour modalités qu’on peut classer ou ordonner est appelé caractère
qualitatif ordinal : le niveau d’étude, rang de naissance, ………….
I.2.11 Les données statistiques :
Les données statistiques désignent l’ensemble des individus observés, l’ensemble des variables (caractère)
considérées et les valeurs (modalités) de ses variables (caractère) sur ces individus. Les données sont en générales
présentées sous forme de tableau (individus en lignes, variables en colonne et valeur à leur intersection) et
stockés dans un fichier informatique sous la forme suivante :
Tableau : collecte de données sur une certaine population
Identification sexe Age Poids Taille Rang de Nombre Dernier

naissance d’enfant diplôme
1 M 25 65 Kg 1.65m Troisième 0 Baccalauréat

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
2 M 36 70 Kg 1.70m Premier 2 Maitrise

3 F 42 80 Kg 1.80m Sixième 5 Doctorat
. . . . . . . .
. . . . . . . .
100 M 30 72 1.72m Deuxième 1 Licence
I.2.12 Dépouillement des données

Lorsque les données sont obtenues, elles doivent être classées et exploitées. Auparavant
une critique des réponses doit être faite afin d’éliminer les contradictions invraisemblables. Pour
chaque caractère à étudier, on définit un nombre de classe selon les modalités, puis on fait le tri
des données, c’est-à-dire une répartition des classes. Ces opérations peuvent être faites à la main
ou à l’ordinateur. Le résultat d’un dépouillement de données est normalement un tableau de
nombres. Les tableaux sont utiles pour l’analyse statistique détaillée, mais il convient à ne publier
que des tableaux faciles à lire.
Chap. II Statistique descriptive unidimensionnelles

Les caractères sont étudiés individuellement (séparément) pour une population donnée.
Par exemple pour les nouveau-nés, on peut s’intéresser qu’au caractère sexe ou poids.
II.1 Tableaux statistiques
À partir des données brutes d’une étude dans un tableau ou sous la forme d’une suite de
données : x1, x2, x3, ……, xn appelée série statistique ; on peut déduire un tableau plus clair, en faisant
un regroupement par modalité ou par classe ou intervalle.
II.1.1 Cas des variables quantitatives discrètes et caractères qualitatifs
On fait un regroupement par une valeur (modalité). L’effectif partiel d’une modalité est le nombre
d’individus observés pour cette modalité noté nj. Le rapport de cet effectif partiel par la taille n de
la population est appelé la fréquence de la même modalité noté f j. Cette fréquence multipliée par
100 donne le pourcentage d’individus observés pour cette modalité dans la population.
On a le tableau suivant, appelé distribution d’effectifs ou de fréquence ou encore de
pourcentage.

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
II.2.3 Fréquence cumulées

Il est souvent intéressant, devant une série statistique, de pouvoir dire « il y a tant d’observation »
ou « il y a tel pourcentage » inférieur (ou supérieur) à telle valeur. C’est à ce genre de
préoccupation que répond le calcul des effectifs cumulés croissants ou des fréquences cumulées
croissantes ou encore des pourcentages cumulés croissants.
Le tableau de distribution des effectifs ou fréquences cumulés sont sous la forme suivante :
Modalités
ou classes nj fj (fj*100)% Nj Fj (Fj*100)%
(modalités)
M1 n1 f1 (f1*100)% n1 f1 (F1*100)%
M2 n2 f2 (f2*100)% n1+n2 f1+f2 (F2*100)%
M3 n3 f3 (f3*100)% n1+n2+n3 f1+f2+f3 (F3*100)%
……. ……. …… …… …… …… ……..
……. …… …… …… …… …… ……..
Mk nk fk (fk*100)% N1+n2+…+nk f1+f2+..+fk (Fk*100)%
Total N 1 100% Rien rien rien
On peut également construire un tableau pour des effectifs cumulés décroissante ainsi pour les
fréquences et pour les pourcentages. On remarque des effectifs cumulés croissants et
décroissants s’obtiennes à partir des formules suivantes :
i ⅈ
Ni=∑ nj et Fi=∑ f j pour cumulé croissant
j=1 J =1
k k
Ni=∑ nj et Fi= ∑ f j pour cumulé décroissant

j=i j=i
II.1.4 Fonction de répartition

Les fonctions de répartition sont définies de la façon suivante :
- Cas d’une variable quantitative discrète
La fonction de répartition d’une variable quantitative est une fonction en escalier non
décroissante définie par la formule :

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
{
¿ 0 , si x < x min
F(x)= Fi ,∧x i ≤ x < x i+1 pour i=1 , k −1
1 , si x ≥ x k
- Cas d’une variable quantitative continue

Cette fonction est définie de la façon suivante :
F ( x )=¿
II.2 Représentation Graphique

II.2.1 Cas des caractères qualitatifs :
Le tableau statistique d’un caractère qualitatif peut être représenté par un diagramme en
colonne (bande), par un diagramme en barre et par un diagramme en secteur (camembert) de la
forme :
- En colonne
Effectif
n1
nk
nj
m1 …. mj ….. mk Modalité

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
- En barre :
o 1
f5
Fk-1
f4
f3
f2
F3 f1
F1
F0
- En secteur
 modalité 1
 modalité 2
 modalité 3
 modalité 4

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
II.2.2 Cas des variables quantitatives

II.2.2.1 Variable quantitative discrète
- Diagramme en bâtons
Les valeurs de la variable X en abscisse, bâton de longueur égal à la fréquence de ces valeurs en ordonnée.
Effectif
f1
Ligne polygonale
fk
f1
X1 …… X2 ……... Xk X

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
II.2.2.2 Variable quantitative continue :

- Histogramme : rectangle contigus de base égale ai et de hauteur proportionnelle à la fréquence.
fi
Généralement on prend comme hauteur le rapport (l’aire de la surface de l’histogramme est égale à
ai
1).
fi
ai
La ligne polygonale
f1
a1
fk
ak
ei-1 ei
II.3 Fonction de répartition ou fonction cumulative

Pour une variable quantitative, il est important de savoir le nombre d’individus de la population pour
lesquels la valeur de la variable inférieur ou supérieur à une certaine valeur connue X. La fonction cumulative nous
permet de le savoir en se servant des fréquences cumulées.
Pour une variable quantitative discrète, la fonction de répartition F définit de R dans [ 0 ; 1 ] par la relation II.1.4.
Le plus souvent, le diagramme cumulatif est obtenu à partir des fréquences cumulées croissantes ou décroissante.
La courbe cumulative se représente comme une courbe d’escalier (la fonction F est constant par intervalle).
Pour une variable quantitative continue la fonction de répartition F est connue seulement aux extrémités des
classes
X= e0, e1, e2, …., ek . Comme indiqué dans II.1.4
On a les formes des graphiques suivantes :

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Fk
X
F1
Xmin Xmax
Graphique de la fonction de répartition d’une variable quantitative discrète
F(X)
Fk=1
F1
Classe
e0 ek
Graphique de la fonction de répartition d’une variable quantitative continue

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Exemple II.4.1 : On s’intéresse à la charge de rupture d’un fil en gramme.

711 862 851 922 791 825 935 895 758 912
915 873 926 864 800 931 722 774 903 925
853 700 885 857 844 907 917 786 820 930
789 790 753 910 847 784 936 706 758 887
941 909 784 882 859 903 925 704 792 888
890 925 895 768 869 892 895 912 850 920
763 805 796 759 916 853 789 942 712 764
892 893 915 890 888 865 909 931 710 798
914 791 931 701 772 935 887 880 933 905
889 791 782 713 724 868 842 892 905 792
1. Qu’elle est la population ?

2. Qu’elle est le caractère à étudier ?
3. Qu’elle est la nature de ce caractère ?
4. Appliquer la règle de sturge pour transformer cette série statistique en distribution
d’effectifs, de fréquence, de pourcentage, d’effectifs cumulés, de fréquence
cumulée, de pourcentage cumulé croissant de décroissant ?
5. Représenter graphiquement toutes les distributions mentionnées dans la question
précédente.
Solution :
1- La population est l’ensemble des fils pour leur résistance.
2- Le caractère est la charge de rupture (en gramme).
3- Les modalités étant des nombres, il s’agit d’une variable quantitative. Les valeurs de cette variable
quantitative sont entières mais très nombreuses distinctement. Elle est donc de type continu.
4- n=100, Xmin=700, Xmax=942g on a d’après Sturge : le nombre de classes = 1+(10/3) log100=8
942−700
L’amplitude de chaque classe = =30,2530,3g. La première borne : e0=700g et
8
e1=700g+30,3g=730.3g, e2=760.6g, e3=790.9g, e4=812,2g, e5=881.8g, e6=942,4g

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
On obtient le tableau de dépouillement :
Classe de charge de
rupture(en g) Dépouillement Effectifs
partiels
[700 ; 730,3[ 10
[730,3 ; 760,6[ 4
[760,6 ; 790,9[ 12
[790,9 ; 821,2[ 10
[821,2 ; 851,5[ 6
[851,5 ; 881,8[ 11
[881,8 ; 912,1[ 26
[912,1 ; 942,4[ 21
Total 100
On a ci-dessous les distributions demandées :
Classe de amplitud Centre ni N N fi F F % % % Densité

charge de e des Di=ni / ai
rupture (en g) classes
[700 ; 730,3[ 30.3 715,15 10 10 100 0,1 0,1 1,00 10% 10% 100% 0,33
[730,3 ; 760,6[ 30.3 745,45 4 14 90 0,04 0,14 0,9 4% 14% 90% 0,13
[760,6 ; 790,9[ 30.3 775,75 12 26 86 0,12 0,26 0,86 12% 26% 86% 0,40
[790,9 ; 821,2[ 30.3 806,05 10 36 74 0,1 0,36 0,74 10% 36% 74% 0,33
[821,2 ; 851,5[ 30.3 836,35 6 42 64 0,06 0,42 0,64 6% 42% 64% 0,20
[851,5 ; 881,8[ 30.3 866 ,65 11 53 58 0,11 0,53 0,58 11% 53% 58% 0,36
[881,8 ; 912,1[ 30.3 896,95 26 79 47 0,26 0 ,79 0,47 26% 79% 47% 0,86
[912,1 ; 942,4[ 30.3 927,25 11 100 21 0,21 1,00 0,21 21% 100% 21% 0,69

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Total 100 1,00 100%

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Histogramme de variable X
Effectif ou Fréquence ou pourcentage
22
21
12
11
10 10

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
1.00
0.79
0.53
0.42
0.36
0.26
0.14
0.1
700 730.3 760.6 790.9 821.2 851.5 881.8 912.1 941.4
Graphique de la fonction de répartition X
Remarque : (Propriétés important de la fonction cumulative F)
Elle est croissante, c’est-à-dire que tous nombres réels t1 et t2, vérifiant t1<t2, on a F(t1) <F(t2).
Elle est nulle pour tout nombre réel t inférieur à eo, où eo désigne la borne de gauche de la première classe c’est-à-
dire [eo ; e1].
Elle est égale à 1 pour tout nombre réel t supérieur à ek, où ek désigne la borne de droite de la dernière classe
c’est-à-dire] ek ; ek].

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Lorsque X est une variable continue, sa fonction cumulative F n’est connue que pour les valeurs de X égales aux
extrémités des classes c’est-à-dire pour t=eo, t=e1, t=e2 ; …… ; t=ek.
On peut considérer que F est linéaire (fonction affine) entre ces valeurs, parce qu’on suppose que les classes
forment des entités homogènes.
II.6 LES PARAMETRES :
Un tableau statistique ou un graphique sont parfois long à consulter, sans permettre d’avoir une idée suffisamment
concise de la distribution statistique observée. On cherche alors à résumer d’une façon objective, comme par exemple la
moyenne arithmétique, la médiane ou le mode.
Alors, lorsque la présentation (en tableau et en graphique) est terminée, on tente de résumer les données
obtenues en un nombre restreint de paramètre bien choisis.
Nous allons maintenant étudier systématiquement les principales statistiques permettant de résumer une série. A
chaque fois, on insistera sur la méthode de calcul (plutôt que sur la formule) et on s’appuiera sur les exemples. Il
est habituel de distinguer deux types de statistiques résumés, quitte ensuite à les réunir dans les statistiques
résumés plus élaborées :
Les statistiques qui résument la tendance « centrale » d’une série ou d’une distribution :
Mode, Moyenne, Médiane.
Les statistiques qui résument la dispersion d’une série :
Minimum et Maximum, Étendue, Intervalle interquartile.
Certaines de ces statistiques, tout en résumant la dispersion de la série, tiennent aussi compte de sa valeur centrale.
C’est le cas de: L’écart-type, La variance, Du coefficient de variation.
Les statistiques qui résument de « forme » d’une distribution, mais celles-ci ne sont plus guère utilisées aujourd’hui dans la
mesure où il est plus facile d’observer directement le graphique d’une distribution pour en apprécier la forme que le calculer
des coefficients dont l’interprétation est fastidieuse.
Une dernière remarque : bien qu’il soit possible d’effectuer des calculs de statistiques résumés (moyenne, médiane, mode,
etc. …) sur les distributions, c’est fortement déconseillé de le faire quand on dispose des données brutes ou regroupées par
valeur ou modalités. C’est une question de bon sens. Si l’on effectue les calculs sur les données regroupées par catégories, on
obtient des résultats approximatifs et même carrément faux quand on les compare aux calculs effectués sur les données
brutes (sans parler des formules abstruses et abscondes qu’il faut employer pour effectuer les calculs de moyenne, médiane,
quartile ou variance sur des données catégorielle). Les méthodes de calcul sur les données groupées plutôt que sur les
données brutes n’ont plus leur place dans la statistique moderne alors que l’informatique se charge des calculs pour un
nombre arbitrairement grand de valeurs.
II.6.1 Les paramètres de position ou de tendance centrale :
II.6.1.1 Le mode:

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Le mode, noté M0, n’est pas un paramètre de tendances centrale, mais un paramètre indiquant la valeur fréquente.
Cas discret : Dans le cas discret, le mode est la valeur de la variable qui a la plus grande fréquence observée. Il faut
remarquer qu’une distribution d’effectifs ou de fréquences peut présenter un seul mode (distribution uni modale) ou
plusieurs modes (distribution multimodale). Exemple : soit une série {8, 4, 4, 3, 4, 3, 8, 2, 5} la valeur la plus fréquente de
cette série est 4. Le mode est donc égal à 4. L'effectif associé à ce mode est 3.
Cas continu : dans le cas continu, on parle de classe modale qui correspond à la classe de fréquence maximale dans
distribution des fréquences. On peut identifier le mode comme la demi-somme des extrémités de la classe modale. Si par
exemple, la classe modale est la i ème classe, on a:
ei −1 +e i
Mo = . La classe modale est la classe dont la fréquence par unité d’amplitude est la plus élevée ; cette classe
2
correspond donc au rectangle le plus haut de l’histogramme des fréquences. Par exemple, dans le cas de la variable « la
charge de rupture des fils », [881,8 ;912,1] est la classe modale. Signalons au passage que certaines variables peuvent avoir
plusieurs classes modales. Lorsqu’on souhaite être plus précis, on peut déterminer à l’intérieur de la classe modale la valeur
exacte du mode ; l’exemple suivant permet de comprendre la démarche à suivre.
Exemple II.6.1 on désire lancer un nouveau produit sur le marché ; on recherche le prix psychologique nous permettant
d’attirer le plus de consommateurs possible. La détermination du mode peut, entre autre méthode, nous permettre
d’approcher au mieux le prix psychologique de lancement du produit. Présentant le produit à un échantillon représentatif de
la population étudiée, nous observons pour chaque classe le prix, les effectifs prêts à faire l’acquisition du produit. Nous
obtenons les résultats suivants :
Prix en euros Effectifs

[210 ;230[ 30
[230 ;250[ 60
[250 ;270[ 100
[270 ;290[ 20
Total 210
Les classes de prix étant toutes de même amplitude (égale à 20), les hauteurs des rectangles de l’histogramme des
effectifs seront donc égales aux effectifs.
Histogramme des effectifs
A B
100
D
60
C
30
C
20
210 230 250 Mo 270 290

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
La classe modale est [250 ;270[. La projection du point d’intersection G des segments [AB] et [CD] sur l’axe Prix correspond à
la valeur exact du mode MG257 euros. Si on souhaite davantage de précisions, on peut calculer (Mo ;Yg) les coordonnées de
G. Pour ce faire il faut d’abord trouver les équations des droites (AB) et (CD). Rappelons que de façon générale, l’équation
d’une droite qui n’est pas verticale, s’écrit de la forme y=ax+b. Pour déterminer les valeurs des paramètres a et b dans le cas
de la droite (AB), il faut résoudre le système d’équation :
{250 a+b=100
270 a+b=20
Ce système d’équation traduit le fait que cette droite passe par le point A de coordonnées (250 ;100) et le point B de
coordonnées (270 ;20). Ainsi la droite (AB) admet pour équation :
y=−4 x +1100
Pour déterminer les valeurs des paramètres a et b dans le cas de la droite (CD), il faut résoudre le système d’équation :
{270
250 a+b=60
a+b=100
Qui traduit le fait que cette droite passe par le point D de coordonnées (250 ;60) et le point C de coordonnées (270 ;100).
Ainsi la droite (CD) admet pour équation :
y=2 x−440
Finalement les coordonnées du point G l’intersection des droites (AB) et (CD) sont obtenues en résolvant le système
d’équation :
{−4 M o +1100= y G
2 M o −440= y G
La solution nous permet de donne le mode Mo=256.7
Ainsi pour trouver le mode d’une variable quantitative continue, on utilise la formule suivante :
∆1
Mo = e i−1+ ∗a
∆ 1+ ∆2
Où la classe modale est [ei-1 ; ei[,∆ 1 est la différence entre l’effectif de la classe modale et celui de la classe précédente, ∆ 2 est
la différence entre l’effectif de la classe modale et celui de la classe suivante, a est l’amplitude de la classe modale.
II.6.1.2 La médiane :
La médiane noté X1/2 d’une série statistique est la valeur réelle qui partage les données rangées en ordre croissant ou
décroissant en deux ensembles de données de même taille.
Soit la série statistique ordonnée x(1) , x(2) , x (3 ) , … , x (n−1 ) , x(n). Cette série ordonnée a pour médiane :
Pour n impair on a : x 1/ 2=x( n+ 1 )

2

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
x n +x n+1
( ) ( )
Pour n pair on a : x = 2 2
1
2 2
Pour une distribution de fréquence, la définition de la médiane ne change pas, on peut la définir aisément à partir des
fréquences cumulées: la médiane est la plus petite valeur pour laquelle la fréquence cumulée est supérieur à 0.5. Si la
fréquence cumulée coïncide à 0.5 pour une valeur donnée de la variable alors la médiane sera la demi-somme de cette
valeur et la suivante.
Pour la distribution d’une variable quantitative continue, la médiane est déterminée par l’interpolation linéaire avec
-1
x1/2=F (0.5) dans la classe médiane.
Si par exemple, la classe médiane est la ième classe, alors on a :
0.5−Fi−1
x 1 =e i−1+ ¿)
2
F i−Fi−1
II.6.1.3 Généralité de la notion de médiane :
La notion de quantile d’ordre d (0<d<1), encore appelée fractile d’ordre d, généralise la notion de médiane.
Le quantile d’ordre d d’une variable quantitative X, est la valeur Xd qui permet de scinder la population étudiée en
deux sous-population dont les effectifs respectifs sont égaux à d et 1-d de l’effectif de la population initiale.
Lorsque X est continue, on peut déterminer xd au moyen de l’égalité F(xd)=d.
Les quartiles de X sont trois valeurs : x0.25, x0.5, x0.75. d=0.25
Q1=x0.25, s’appelle le premier quartile ; un quart des valeurs prises par X sont inférieures ou égales à Q1.
Q2=x0.5= médiane
Q3=x0.75, s’appelle le troisième quartile ; un quart des valeurs prises par X sont supérieures ou égales à Q3.
L’intervalle interquartile (IIQ) est la différence entre le troisième quartile et le premier quartile ; il s’écrit : IIQ=Q3-Q1.
Les déciles sont les neuf valeurs : x0.1, x0.2, x0.3, x0.4, x0.5, x0.6, x0.7, x0.8, x0.9. d=0.1
Les centiles sont les 99 valeurs : x0.01, …, x0.99. d=0.01
L’intervalle inter quantile sert à apprécier la dispersion de X, de façon absolue, ou bien par comparaison avec une
autre variable quantitative, à condition que cette dernière soit exprimée dans la même unité que X.
En effet, les valeurs Q1 et Q3 délimitent une plage au sein de laquelle 50% des valeurs de X sont concentrées. Plus IIQ est
grand, plus X est dispersée.

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
II.6.1.4 La moyenne arithmétique :

La moyenne arithmétique donne une idée d’ensemble sur l’ordre de grandeur des observations.
Elle est égale au rapport de la somme de toutes les valeurs observées de la variable quantitative par leur nombre n
(la taille de la population). Elle est notée par X .
Pour une série statistique, x 1 , x 2 , x 3 , … , x n, on a:

n
x=∑ x i
i=1
Pour une distribution d’effectifs (xj ; fj), j=1 , k on a :

n
1
x= ∑n×x
n i=1 i i
Pour une distribution de fréquence (xj ; fj), j=1 , k on a :

n
x=∑ f i × x i
i=1
Si la variable est continue et si les données sont groupées on ne peut que rechercher arbitrairement une moyenne
à l’intérieur de chaque classe ; à défaut on choisit le « centre de classe ». Le calcul est effectué comme si tous les
individus d’une classe avaient pour caractères le centre de classe, toute la part d’approximation que cela
comporte.
Pour une distribution en classe d’effectifs des variables quantitatives continues les centres :
ei−1 +e i
C i=
2
Des classes joueront le rôle des valeurs Xi, i=1 , k
Propriétés :
1)
n
∑ (x i ¿−x)=n x−n x =0 ¿
i=1
2) La moyenne de la série ax1+b, ax2+b, ax3+b, …, axn+b est a x +b

Lorsque la distribution des fréquences est symétrique par rapport à la droite x=a, la moyenne vaut a.
3) La moyenne arithmétique est très affecté par les valeurs extrêmes.
Exemple : trouver la moyenne arithmétique de la charge de rupture indiqué dans l’exemple II.4.1.
En série statistique on a :

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
100
1
x= ∑ x = 711+862+ 851+100
100 i=1 i
…+892+905+ 792 84797
=
100
En distribution en classe on a :
Classe de Centre des ni ni*ci

charge de classes Ci
rupture (en g)
[700 ; 730.3[ 715.15 10 7151.5
[730.3 ; 760.6[ 745.45 4 2981.8
[760.6 ;790.9[ 775.75 12 9309
790.9 ;821.2[ 806.05 10 8060.5
[821.2 ;851.5[ 836.35 6 5018.1
[851.5 ;881.8[ 866.65 11 9533.15
[881.8 ;912.1[ 896.95 26 23320.7
[912.1 ;942.4[ 927.25 21 19472.25
Total 100 84847
8
1
x= ∑ n × c = 84847 =848.47
100 i=1 i i 100
II.6.1.5 Autres moyennes (moyennes occasionnelles) : ils existent d’autres moyennes moins utilisées car
elles ne disposent pas des propriétés algébriques valables pour la moyenne arithmétique. On les rencontres
occasionnellement dans les domaines limités spécifiques.
II.6.1.5.1 La moyenne géométrique : pour les n observations strictement supérieures à 0, elle est égale à
la racine nième du produit de ces observations. Elle est notée x g et définit par la formule :
√
n
n
x g = √ x 1 × x 2 × … × x n=
n
∏ x i , pour une série statistique.
i=1
√
k
n
xg= ∏ x ni , pour une distribution d’effectifs.
i
i=1
k
x g =∏ x fi , pour une distribution de fréquences.
i
i=1
II.6.1.5.2 La moyenne quadratique : elle est égale à la racine carrée de la moyenne arithmétique des
carrées des observations (les valeurs). Elle est notée par x q et définit par la formule :
√ √ √∑
n k k
1 1
x q= ∑ x 2i = ∑ ni x 2i = f i x 2i .
n i=1 n i=1 i=1

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
II.6.1.5.3 La moyenne harmonique : pour des observations non nulles, elle est égale à l’inverse de la
moyenne arithmétique des inverses de ces observations. Elle est notée x h et définit par la formule :
1
x h= n
1 1 , pour une série statistique.
∑
n i=1 xi
1
x h= k
1 ni , pour une distribution d’effectifs.
∑
n i=1 xi
1
x h= k
f , pour une distribution de fréquences.
∑ xi
i=1 i
II.6.2 Les paramètres de dispersion :

On considère les deux séries de données suivantes :
95, 97, 100, 103, 105
50, 75, 100, 125, 150
Elles ont la même moyenne arithmétique et même médiane (100). Cependant elles différent
profondément. Ce qui fait leur différence, c’est ce qu’en statistique on nomme la dispersion ; la deuxième série est
beaucoup plus dispersée que la première. Il est donc important de résumer une série statistique non seulement
par les paramètres de position, mais aussi par les paramètres de dispersion. On en définira de deux sortes :
 Ceux liés à la moyenne :
Écart absolu moyen, écart-type et le coefficient de variation ;
 Ceux liés à la médiane :
Écart interquartile, écart inter décile, etc….
1. Minimum et maximum d’une série : Ces deux valeurs donnent une certaine idée de la dispersion. Dans
l’exemple ci-dessus on a pour chaque série :
Minimum=95 ; Maximum=105.
Minimum=50 ; Maximum=150.
2. Étendue : L’étendue de la série est simplement une façon de résumer le minimum et le maximum de la
série en un seul chiffre. On l’obtient ainsi :
L’étendue=valeur maximale – valeur minimale.
Dans l’exemple ci-dessus on a pour chaque série :
Et=105-95=10
Et=150-50=100

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
3. Intervalle interquartile : l’intervalle de variation ne donne qu’une idée imprécise et parfois fausse de la
dispersion de la série, car les valeurs extrêmes peuvent être exceptionnelles et le reste de la population
statistique peut être concentré sur un intervalle beaucoup plus restreint. D’où l’idée de calculer l’intervalle
interquartile qui donne une idée plus précise de la dispersion des valeurs d’une série ou d’une distribution.
L’intervalle interquartile sert à apprécier la dispersion de la série, de façon absolue, ou bien par
comparaison avec une autre série (à condition que les valeurs de l’autres série soient exprimées dans la
même unité). En effet, les valeurs Q1 et Q3 délimitent une plage au sein de laquelle environ 50% des
valeurs de la série sont concentrées. Plus cet intervalle est large, plus la série est dispersée.
Dans l’exemple ci-dessus on a pour chaque série :
Q1=96 ; Q3=104. D’où EIQ=104-96=8
Q1=62.5 ; Q3=137.5. D’où EIQ=137.5-62.5=75
4. Écart moyen absolu : on calcul d’abord l’écart à la moyenne. Pour chaque valeur de la variable x, on calcul
l’écart de cette valeur à la moyenne X, on recherche ensuite à résumer ces écarts en calculant une
moyenne.
Pour les deux séries, les écarts sont : -5 -3 0 3 5
-50 -25 0 25 50
Il est impossible de résumer ces écarts par leur moyenne arithmétique. Puisque par définition même on a :
n n n
∑ (x i ¿−x)=∑ x i−∑ x=n x−n x=0 ¿

i=0 i=0 i=0
Cependant, une simple observation des deux lignes d’écart calculées ci-dessus montre que ceux-ci caractérisent
convenablement la dispersion. On a alors recours à la moyenne des valeurs absolues des écarts, c’est l’écart
absolu moyen.
n
∑|x i−x|
e x = i=1
n
L’écart absolu moyen à la moyenne de la variable quantitative discrète X est la moyenne arithmétique des valeurs
absolues des écarts à la moyenne arithmétique :
k k
1
e x = ∑ ni∨x i−x∨¿ ∑ f i∨ xi −x∨¿
n i=1 i=1
Où k désigne le nombre de valeurs distinctes de X et fi la fréquence de Xi.

Ou, si les observations sont réparties par classes :
k k
1
ex= ∑ n ∨c −x∨¿ ∑ f i∨c i−x∨¿
n i=1 i i i=1
Où les c i sont les centres des classes
Pour la première série observée on a :

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
16
e x =|−5|+|−3|+|0|+|3|+¿ 5∨ ¿ = =3.2 ¿
5 5
Pour la deuxième :
150
e x =|−5|+|−25|+|0|+|25|+¿ 50∨ ¿ = =30 ¿
5 5
Cette caractéristique rend convenablement compte de la différence de dispersion entre les deux séries. Elle est
cependant peu utilisée. En outre, la formulation des lois statistiques fait appel à un autre paramètre : la variance
ou bien l’écart type ou bien encore le coefficient de variation. La variance, l’écart type et le coefficient de
variation sont liées entre elles. Elles sont toutes les trois des indicateurs de la dispersion d’une série par rapport à
sa valeur moyenne. Le plus simple est de commencer par l’étude de la variance.
5. La variance : la variance est un indicateur de la dispersion d’une série par rapport à sa moyenne. De même
que la moyenne, elle se résume à un seul chiffre qui s’obtient par un calcul. la variance d’une série est la
moyenne arithmétique des carrés des écarts à la moyenne.
n
1
σ = ∑ ( xi −x)2
2
n i=1
Pour une distribution :

k
1
σ = ∑ ni (x i−x )2
2
n i=1
k
σ 2=∑ f i (xi −x)2
i=1
Pour une distribution d’une variable continue on a :

k
1
σ = ∑ ni (ci −x)2
2
n i=1
k
σ 2=∑ f i (c i−x)2
i=1
Où k est le nombre de classe et ci est le centre de la ième classe.

6. Écart-type : La caractéristique de dispersion la plus usuelle est en effet l’écart-type noté parσ . L’écart type
d’une série : c’est la moyenne quadratique des écarts à la moyenne, autrement dit, c’est la racine carrée de
la variance. On obtient :
√
n
1
σ = ∑ ( x i−x )
2
n i=1

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
√
k
1
σ= ∑
n i=1
ni ( x i−x )
2
√
k
σ= ∑ f i ( x i−x )2
i=1
√∑
n
2
σ= f i (c i−x)
i=1
Méthode de calcul :
Les calculs risquent de devenir laborieux si la moyenne n’est pas entière : on a à traiter des « écart à la
moyenne » non entiers avec d’inévitable arrondis, d’où des calculs lourds et forcément peu précis. Pour
alléger les calculs, on se sert du théorème du Koenig. On exprime souvent ce théorème à partir de la
formule de la variance qui s’en déduit : la variance est égale à la moyenne des carrées moins le carré de la
moyenne. Ce résultat simplifie considérablement les calculs nécessaires pour obtenir la variance et l’écart-
type ; c’est sous cette forme que le théorème de Koenig est utilisé dès qu’on dispose d’une machine à
calculer. On a :
2
σ =¿
2
σ =¿
2
σ =¿
2
σ =¿
Remarque : cette dernière formulation de la variance limite les erreurs d’arrondis car la moyenne n’intervient
qu’une seule fois alors que dans la formule précédente elle intervient une fois.
Propriété de la variance et de l’écart-type :
Soit la série statistique xi, i=1 , n . De variance σ 2 et l’écart-type σ on a :
1. La variance de la série statistique ax i +b , i=1 , n est égale àa 2 × σ 2.
2. L’écart-type de cette même série est égal à ¿ a∨× σ 2
Exemple : calculer la variance et l’écart-type de l’exemple concernant la rupture en charge des fils, sur les données
groupées en classe. En utilisant la formule de Koenig on ajoute la colonne ni × x 2i .

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Classe de Centre des ni ni × ci ni × ci

2
charge et classe ci
rupture en (g)
[700 ;730.3[ 715.15 10 7151.5 5114395.225
[730.3 ;760.6[ 745.45 4 2981.8 2222782.81
[760.6 ;790.9[ 775.75 12 9309 7221456.75
[790.9 ;821.2[ 806.05 10 8060.5 6497166.025
[821.2 ;851.5 [ 836.35 6 5018.1 4196887.935
[851.5 ;881.8[ 866.65 11 9533.15 8261904.4475
[881.8 ;912.1[ 896.95 26 23320.7 20917501.835
[912.1 ;942.4[ 927.25 21 19472.25 18055643.8125
Total 100 84847 72487738.87
2 72487738.87 2
σ = −848.47 =724877.3887−719901.3409=4976.0478
100
σ =√ 4976.0478=70.54
Lorsque l’on compare deux série de même nature, celle qui a l’écart type le plus élevé est la plus dispersée.
Cependant, par référence à une loi statistique usuelle, la loi normale, il est possible de préciser un peu la
signification de l’écart type. Lorsqu’une série statistique satisfait à la loi normale, 95% des observations sont
compris entre x−2 σ et x +2 σ : plus l’écart type est élevé, plus les observations sont dispersées.
7. Le coefficient de variation : L’étendue, la variance et l’écart type sont des paramètres de dispersion
absolue qui mesurent la variation absolue des données. Cependant, ils sont exprimés dans la même unité
que la variable pour comparer les paramètres de dispersion des variables de différentes unités n’est
convenable.
On dispose un paramètre de dispersion relative appelé coefficient de variation, noté CV. Par définition, le
coefficient de variation est défini par la formule :
σ
CV =
x
Ce coefficient de variation a l’avantage d’être comparable pour toutes les séries statistiques.
Exemple : (rupture en charge) le coefficient de variation de la distribution en classe est :
70.54
CV = =0.08
848.47
La distribution de charge apparaît peu dispersée, parce que toutes les observations sont « relativement » voisine à
la moyenne.
II.6.3 Les paramètres de formes :

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Les paramètres de forme donnent une idée de la symétrie et l’aplatissement d’une distribution. Leur usage est
moins fréquent.
II.6.3.1. Symétrie :
Une série a une distribution symétrique si ses valeurs sont également dispersées de part et d’autre de sa moyenne
arithmétique, c’est-à-dire si le graphe de la distribution (histogramme ou diagramme en bâton en fréquence
admet un axe de symétrie).
Dans une distribution parfaitement symétrique on a : M o= X 1 =X

2
En général, lorsque la moyenne est supérieure à la médiane c’est le signe que la distribution est étalée vers la
droite (inversement).
Le coefficient de symétrie est :
μ 3( X ) k
A s= où μ3 (X )=∑ f i ( x i−x )3 appelé moment centré d’ordre 3.
σ3 i=1
As= 0, correspond à une distribution symétrique.

As< 0, correspond à une distribution étalée vers les valeurs inférieures à la moyenne.
As˃ 0, correspond à une distribution étalée vers les valeurs supérieures à la moyenne.
II.6.3.2 Aplatissement : une distribution est plus ou moins aplatie selon que les fréquences des valeurs voisines
des valeurs centrales différentes peu ou beaucoup les unes par rapport aux autres.
Le coefficient d’aplatissement :
μ 4( X ) k
Ap= −3. Où μ4 ( X )=∑ f i (x i−x)4 appelé moment centré d’ordre 4
σ4 i=1
Ap= 0, pour une distribution qui suit une loi normale centré réduite.
Ap < 0, la concentration des valeurs autour de la moyenne est faible : la distribution est aplatie.
Ap ˃ 0, la concentration des valeurs de la série autour de la moyenne est forte : la distribution n’est pas aplatie.
II.6.4 Centrage et réduction :
Le centrage et réduction, noté Z appelé la cote, nous permet de situer une observation par rapport à l’ensemble. C’est savoir
X−X
combien de fois l’écart-type cette valeur est éloignée de la moyenne arithmétique. on a Z= .
σ
Pour une distribution normale 95% des observations se situent à moins de deux écart-type de la moyenne de toutes les
observations et presque toutes les observations se situent à moins de quatre écart-type de la moyenne. C’est-à-dire : la
proportion d’observations appartient à [ x−2 σ ; x +2 σ ¿ est égale à 95% et celle des observations appartenant à
[ x−4 σ ; x +4 σ ¿ est presque égale à 100%.

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
On remarque, d’après la définition de la moyenne arithmétique et de l’écart-type, que la moyenne arithmétique de toutes
les cotes Z de toutes les observations est égale à 0 et l’écart-type de toutes ces cotes est égale à 1. Cette variable Z joue un
grand rôle en statistique inférsentielle.

Cours Papa23corrisé - 093729

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Papa23corrisé - 093729

Transféré par

Droits d'auteur :

Formats disponibles

Professeur chargé du cours UNIVERSITE PRIVEE Koffi Annan de Nongo/Guinée/Conakry

Koï Théodule MAOMOU/tel : 620 10 20 01/664 76 30 99/657 32 01 88/ email : ouidoh_yakpa@yahoo.fr

Cours de statistique descriptive

I .1.2 Statistique descriptive et statistique infférentielle

La statistique des divisée en deux parties : la statistique descriptive et inférence statistique.

Cours de statistique descriptive pour l’année préparatoire d’ingénierie de Koffi Annan .

- L’ensemble des nouveau-nés à la maternité d’ignace-denn, pendant le mois de décembre 2016

Cours de statistique descriptive pour l’année préparatoire d’ingénierie de Koffi Annan .

Tableau : collecte de données sur une certaine population

Identification sexe Age Poids Taille Rang de Nombre Dernier

Cours de statistique descriptive pour l’année préparatoire d’ingénierie de Koffi Annan .

2 M 36 70 Kg 1.70m Premier 2 Maitrise

I.2.12 Dépouillement des données

Chap. II Statistique descriptive unidimensionnelles

Cours de statistique descriptive pour l’année préparatoire d’ingénierie de Koffi Annan .

II.2.3 Fréquence cumulées

Ni=∑ nj et Fi= ∑ f j pour cumulé décroissant

II.1.4 Fonction de répartition

Cours de statistique descriptive pour l’année préparatoire d’ingénierie de Koffi Annan .

- Cas d’une variable quantitative continue

II.2 Représentation Graphique

Cours de statistique descriptive pour l’année préparatoire d’ingénierie de Koffi Annan .

Cours de statistique descriptive pour l’année préparatoire d’ingénierie de Koffi Annan .

II.2.2 Cas des variables quantitatives

Cours de statistique descriptive pour l’année préparatoire d’ingénierie de Koffi Annan .

II.2.2.2 Variable quantitative continue :

II.3 Fonction de répartition ou fonction cumulative

Cours de statistique descriptive pour l’année préparatoire d’ingénierie de Koffi Annan .

Graphique de la fonction de répartition d’une variable quantitative continue

Cours de statistique descriptive pour l’année préparatoire d’ingénierie de Koffi Annan .

Exemple II.4.1 : On s’intéresse à la charge de rupture d’un fil en gramme.

1. Qu’elle est la population ?

Cours de statistique descriptive pour l’année préparatoire d’ingénierie de Koffi Annan .

On obtient le tableau de dépouillement :

On a ci-dessous les distributions demandées :

Classe de amplitud Centre ni N N fi F F % % % Densité

Cours de statistique descriptive pour l’année préparatoire d’ingénierie de Koffi Annan .

Total 100 1,00 100%

Cours de statistique descriptive pour l’année préparatoire d’ingénierie de Koffi Annan .

Cours de statistique descriptive pour l’année préparatoire d’ingénierie de Koffi Annan .

700 730.3 760.6 790.9 821.2 851.5 881.8 912.1 941.4

Graphique de la fonction de répartition X

Remarque : (Propriétés important de la fonction cumulative F)

Cours de statistique descriptive pour l’année préparatoire d’ingénierie de Koffi Annan .

II.6.1 Les paramètres de position ou de tendance centrale :

Cours de statistique descriptive pour l’année préparatoire d’ingénierie de Koffi Annan .

Prix en euros Effectifs

Cours de statistique descriptive pour l’année préparatoire d’ingénierie de Koffi Annan .

La solution nous permet de donne le mode Mo=256.7

Pour n impair on a : x 1/ 2=x( n+ 1 )

Cours de statistique descriptive pour l’année préparatoire d’ingénierie de Koffi Annan .

Si par exemple, la classe médiane est la ième classe, alors on a :

II.6.1.3 Généralité de la notion de médiane :

Lorsque X est continue, on peut déterminer xd au moyen de l’égalité F(xd)=d.

Les quartiles de X sont trois valeurs : x0.25, x0.5, x0.75. d=0.25

Les centiles sont les 99 valeurs : x0.01, …, x0.99. d=0.01

Cours de statistique descriptive pour l’année préparatoire d’ingénierie de Koffi Annan .

II.6.1.4 La moyenne arithmétique :

Pour une série statistique, x 1 , x 2 , x 3 , … , x n, on a:

Pour une distribution d’effectifs (xj ; fj), j=1 , k on a :

Pour une distribution de fréquence (xj ; fj), j=1 , k on a :

2) La moyenne de la série ax1+b, ax2+b, ax3+b, …, axn+b est a x +b

Cours de statistique descriptive pour l’année préparatoire d’ingénierie de Koffi Annan .