Vous êtes sur la page 1sur 23

Année Universitaire 2019/2020

Biomathématiques : L1S1 Saint-Christopher


Dr Don Bosco DIATTA

STATISTIQUE DESCRIPTIVE
Table des matières

1 Statistique descriptive 3
1.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 Vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Variable qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Effectifs -Fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.2 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Variable quantitative discrète . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1 Effectifs - Fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.2 Paramètres caractéristiques . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.2.1 Paramètres de position . . . . . . . . . . . . . . . . . . . . . 13
1.3.2.2 Paramètres de dispersion . . . . . . . . . . . . . . . . . . . . 14
1.3.3 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4 Variable quantitative continue . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.1 Effectifs - Fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.2 Paramètres caractéristiques d’une variable continue . . . . . . . . . . 18
1.4.2.1 Les paramètres de position . . . . . . . . . . . . . . . . . . 18
1.4.2.2 Les paramètres de dispersion . . . . . . . . . . . . . . . . . 20
1.4.3 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . . 20

2
Chapitre 1

Statistique descriptive

1.1 Généralités
La statistique est l’étude de la collecte de données, leur analyse, leur traitement, l’inter-
prétation des résultats et leur présentation afin de rendre les données compréhensibles par
tous. C’est à la fois une science, une méthode et un ensemble de techniques.
L’analyse des données est utilisée pour décrire les phénomènes étudiés, faire des prévisions
et prendre des décisions à leur sujet. En cela, la statistique est un outil essentiel pour la
compréhension et la gestion des phénomènes complexes.
Les données étudiées peuvent être de toute nature, ce qui rend la statistique utile dans
tous les champs disciplinaires et explique pourquoi elle est enseignée dans toutes les filières
universitaires, de l’économie à la biologie en passant par la psychologie et bien sûr les sciences
de l ?ingénieur. La statistique consiste à :
– Recueillir des données.
– Présenter et résumer ces données.
– Tirer des conclusions sur la population étudiée et d’aider à la prise de décision.

1.1.1 Vocabulaire
Les statistiques se sont développées dans la deuxième moitié du XIXe siècle dans le
domaine des sciences humaines (sociologie, économie, anthropologie, ...). Elles se sont dotées
d ?un vocabulaire particulier.

Population. En statistique, on travaille sur des populations. Ce terme vient du fait que
la démographie, étude des populations humaines, a occupé une place centrale aux débuts de
la statistique, notamment au travers des recensements de population. Mais, en statistique,
le terme de population s’applique à tout objet statistique étudié, qu’il s’agisse d ?étudiants
(d’une université ou d’un pays), de ménages ou de n’importe quel autre ensemble sur lequel
on fait des observations statistiques. Nous définissons la notion de population.

Définition 1.1 (Population). On appelle population l’ensemble sur lequel porte l’étude
statistique. C’est un ensemble d’éléments homogènes auxquels on s’intéresse.

3
Exemple 1.1.
• Si une étude statistique concerne les étudiants d’une section, alors la population est
l’ensemble des étudiants de la section.
• Si l’étude s’intéresse à la circulation automobile dans une ville, la population est alors
constituée de l’ensemble des véhicules susceptibles de circuler dans cette ville à une date
donnée.

Définition 1.2 (Échantillon). On appelle échantillon un sous-ensemble représentatif d’une


population étudiée. Il est de taille plus petite que celle la population. En général, l’étude sta-
tistique sur une population s’effectue sur un échantillon de la population.

Individu (unité statistique).

Définition 1.3. On appelle individu ou unité statistique tout élément de la population


étudiée. Les individu sont donc les composante de la population.

Remarque 1.1.
• Une population peut être un ensemble de personnes, de choses ou d’animaux.
• Dans une population les informations sont recueillies sur les individus.

Exemple 1.2.
• Dans une population d’étudiants, les individus sont les étudiants.
• Dans une population d’entreprise, les individus sont les entreprises.
• Dans une population de ménages les individus sont les ménages.

Caractère (variable statistique). La statistique descriptive, comme son nom l’indique


cherche à décrire une population donnée. Alors sur chaque individu on relève des informations.
Chaque type d’information concerne une caractéristique bien précise de l’individu, ce qui
renvoie ainsi à la notion caractère.

Définition 1.4. Soit Ω une population, on appelle caractère ou variable statistique toute
application

X: Ω→C
ω 7→ X(ω)

L’ensemble C est dit : ensemble des valeurs du caractère X (c’est ce qui est mesuré ou observé
sur les individus).

Exemple 1.3. Quelques exemples de caractères : taille, poids, âge, température, mention au
Bac, nationalité, situation matrimoniale, couleur des yeux, catégorie socioprofessionnelle,...

4
Remarque 1.2. Notons que l’application caractère X n’est pas forcément numérique, c’est-à-
dire que X(ω) n’est pas toujours un réel. Cela dépend de la nature du caractère. si le caractère
X est qualitatif, alors ∀ ω ∈ Ω, X(ω) n’est pas une valeur numérique. Si le caractère X est
quantitatif dans ce cas ∀ ω ∈ Ω, X(ω) ∈ R.

Exemple 1.4.
• Si la variable statistique X désigne la « couleur de la voiture » lorsqu’une étude est
réalisée sur une population de véhicule, alors pour toute voiture ω ∈ Ω, X(ω) est une couleur
(rouge, jaune, noire beige,· · · )
• Si la variable statistique X désigne le « poids » des individus d’une population Ω, alors
pour toute personne ω ∈ Ω, X(Ω), est un réel.

Modalités. Les modalités sont les différentes situations dans lesquelles les individus peuvent
se trouver à l’égard du caractère considéré.

Définition 1.5. Les modalités d’une variable statistique sont les différentes valeurs que peut
prendre celle-ci.

Exemple 1.5.
• Le caractère « catégorie socio-professionnelle », a pour modalités : cadres, employés,ouvriers,
retraités,. . .
• Le caractère « mention au Bac » a pour modalités : passable, assez bien, bien et très
bien.

Série statistique. Elle décrit les modalités (ou valeurs) prises par la variable statistique.

Définition 1.6. On appelle série statistique l’énumération de toutes les valeurs prises par
la variable statistique, mesurées ou observées chez les individus de la population d’étude.

Exemple 1.6. Une étude statistique est réalisée sur une population de ménages, et concer-
nant le nombre d’enfants de chaque ménage. Les valeurs relevées sont les suivantes : 1 ; 2 ;
0 ; 1 ; 3 ; 5 ; 1 ; 2 ; 0 ; 4 ; 6 ; 3.
La liste de ces valeurs constitue la série statistique de la variable (ou caractère) « nombre
d’enfants ».

Typologie des variables. Les variables statistiques (ou caractères) sont principalement
de deux natures : les variables qualitatives (qui ne prennent pas des valeurs numériques)
et les variables quantitatives (qu’on quantifie, et donc prennent des valeurs numériques).

5
1.2 Variable qualitative
Définition 1.7. On appelle variable qualitative, une variable dont les modalités ne sont
pas des valeurs numériques. Il s’agit donc d’une variable qu’on ne quantifie pas (ne mesure
pas), mais qui décrit juste l’état des individus étudiés. On distingue deux types de variables
qualitatives : les variables nominales et les variables ordinales.

Exemple 1.7. Une étude statistique concerne un groupe d’étudiants Ω, et s’intéresse à deux
variables : la « couleur des yeux » , notée X et le « sexe » , notée Y . On a alors X(Ω) =
{bleu, marron, noir, vert} et Y (Ω) = {masculin, féminin}. Les modalités de X et Y ne
sont pas des valeurs numériques donc X (couleur des yeux) et Y (sexe) sont des variables
qualitatives.

Définition 1.8 (variable nominale). On appelle variable qualitative nominale, une va-
riable qualitative dont les modalités ne peuvent pas être ordonnées.

Exemple 1.8. Dans l’exemple précédent, les variables « couleur des yeux » et « sexe »
sont des variables qualitatives nominales, car leurs modalités respectives ne peuvent pas être
ordonnées.

Définition 1.9 (variable ordinale). On appelle variable qualitative ordinale, une variable
qualitative dont les modalités peuvent être ordonnées.

Exemple 1.9. Une étude statistique concerne un groupe d’étudiants Ω, et s’intéresse a leur
« mention au Bac ». Notons X cette variable.
On a alors X(Ω) = {assez bien, passable, très bien, bien}. La variable X (mention au Bac)
a des modalités qui ne sont pas des valeurs numériques, dont c’est une variable qualitative.
En plus ses modalités peuvent être ordonnées dans un sens croissant d’importance, à savoir :
passable, assez bien, bien, très bien. Il s’agit donc d’une variable qualitative ordinale.

1.2.1 Effectifs -Fréquences


Lorsqu’une étude statistique est réalisée sur une population, et concernant une variable
statistique. Il est judicieux de connaître l’effectif correspondant à chaque modalité, de même
que sa proportion.

Définition 1.10 (Effectif ). On appelle effectif d’une modalité xi observée sur une variable
qualitative, le nombre ni d’individus dont la variable prend cette modalité.

Propriété 1.1. Soient n1 , n2 , . . . , nk les effectifs partiels des modalités x1 , x2 , . . . , xk


respectivement, pour une variable statistique X. Alors l’effectif total n de la population étudiée
est donné par
X k
n= ni
i=1

6
Définition 1.11 (Fréquence). On appelle fréquence d’une modalité xi observée sur une
variable qualitative, la proportion fi d’individus dont la variable prend cette modalité.

Propriété 1.2. Soit ni l’effectif de la modalité xi d’une variable statistique X, et n l’effectif


total de la population étudiée. Alors,
ni
• la fréquence de xi est donnée par fi =
n
k
X
• la somme de toutes les fréquences vaut 1, i.e fi = 1
i=1

Tableau statistique . Lorsqu’une étude statistique est faite sur une population, et que les
données concernant une variable d’intérêt sont recueillies, il est nécessaire pour une bonne
analyse, d’organiser ces données dans un tableau appelé tableau statistique.

Définition 1.12 (Tableau statistique partiel). On appelle tableau statistique partiel,


un tableau qui résume et organise les données recueillies de la façon suivante. La première
décrit les différentes modalités de la variable. Les deuxième et la troisième lignes renseignent
respectivement sur les effectifs et les fréquences des modalités.

Exemple 1.10. Une étude statistique est réalisée sur un groupe de 15 étudiants, et a concerné
les variables « couleur des yeux » et « mention au Bac ». Les données sont relevées et consti-
tuent les deux séries statistiques suivantes :
• couleur des yeux : vert, bleu, noir, marron, bleu, vert, noir, marron, bleu, vert, noir, bleu,
vert, noir, marron.
• mention au Bac : P, AB, P, P, AB, P, B, AB, B, B, P, TB, AB, P, TB.
1) Établir le tableau statistique partiel pour la variable « couleur des yeux ».
2) Établir le tableau statistique partiel pour la variable « mention au Bac ».
Solution

1) Établissons le tableau statistique partiel pour la variable « couleur des yeux ».

Couleur vert bleu noir marron total


Effectifs 4 4 4 3 15
Fréquences 0,267 0,267 0,267 0,2 1

Table 1.1 – Tableau statistique partiel de la variable « couleur des yeux ».

2) Établissons le tableau statistique partiel pour la variable « mention au Bac »

7
Couleur P AB B TB total
Effectifs 6 4 3 2 15
Fréquences 0,4 0.267 0,2 0,133 1

Table 1.2 – Tableau statistique partiel de la variable « mention au Bac ».

Cas particulier de la variable qualitative ordinale.


Définition 1.13 (Effectif cumulé croissant). On appelle effectif cumulé croissant
(ECC) d’une modalité, observée sur une variable qualitative ordinale, le nombre d’individus
dont la valeur de la variable est « inférieure ou égale » à cette modalité.

Propriété 1.3. Soient n1 , n2 , . . . , nk , les k effectifs partiels des différentes modalités


x1 , x2 , . . . , xk , telles que xi < xj si i < j, d’une variable ordinale X. Alors l’ECC d’une
modalité xi est donné par
Xi
Ni+ = nj
j=1

Définition 1.14 (Effectif cumulé décroissant). On appelle effectif cumulé décroissant


(ECD) d’une modalité, observée sur une variable qualitative ordinale, le nombre d’individus
dont la valeur de la variable est « supérieure ou égale » à cette modalité.

Propriété 1.4. Soient n1 , n2 , . . . , nk , les k effectifs partiels des différentes modalités


x1 , x2 , . . . , xk , telles que xi < xj si i < j, d’une variable ordinale X. Alors l’ECD d’une
modalité xi est donné par
Xk

Ni = nj
j=i

Définition 1.15 (Fréquence cumulée croissante). On appelle fréquence cumulée crois-


sante (FCC) d’une modalité, observée sur une variable qualitative ordinale, la proportion
d’individus dont la valeur de la variable est « inférieure ou égale » à cette modalité.

Propriété 1.5. Soient f1 , f2 , . . . , fk les fréquences des différentes modalités x1 , x2 , . . . , xk ,


telles que xi < xj si i < j, de la variable ordinale X. Alors la FCC d’une modalité xi est
donnée par
Xi
Fi+ = fj
j=1

Définition 1.16 (Fréquence cumulée décroissante). On appelle fréquence cumulée


décroissante (FCD) d’une modalité, observée sur une variable qualitative ordinale, la
proportion d’individus dont la valeur de la variable est « supérieure ou égale » à cette modalité.

8
Propriété 1.6. Soient f1 , f2 , . . . , fk les fréquences des différentes modalités x1 , x2 , . . . , xk ,
telles que xi < xj si i < j, de la variable ordinale X. Alors la FCD d’une modalité xi est
donnée par
Xk

Fi = fj
j=i

Définition 1.17 (Tableau statistique complet). On appelle tableau statistique com-


plet, le tableau complété du tableau partiel, où les lignes des ECC, ECD, FCC et FCD sont
rajoutées.

Exemple 1.11. En reprenant l’Exemple 1.10, établir le tableau statistique complet de la


variable « mention au Bac » .
Solution
Établissons le tableau statistique complet

Couleur P AB B TB total
Effectifs 6 4 3 2 15
ECC 6 10 13 15 -
ECD 15 9 5 2 -
Fréquences 0,4 0,267 0,2 0,133 1
FCC 0,4 0,667 0.867 1 -
FCD 1 0.6 0,333 0.133 -

Table 1.3 – Tableau statistique complet de la variable « mention au Bac ».

Définition 1.18 (mode). Pour une variable qualitative (nominale ou ordinale), on appelle
mode, la modalité qui a le plus grand effectif (ou la fréquence la plus élevée).

Exemple 1.12. La variable qualitative ordinale « mention au Bac » a pour mode la modalité
P.

1.2.2 Représentation graphique


La représentation graphique est très utile pour une bonne analyse statistique. Elle permet
de visualiser les informations du tableau statistique. Il existe principalement deux types
de représentation : le diagramme en barres et le diagramme circulaire (ou diagramme en
secteurs).

9
Diagramme en barres. Il est tracé dans un repère du plan, où les modalités de la variable
sont placées sur l’axe des abscisses (axe horizontal), et les effectifs (ou les fréquences) sur
l’axe des ordonnées (axe vertical). La hauteur de chaque barre est proportionnelle à l’effectif
(ou à la fréquence) de la modalité correspondante. Les barres ont toutes la même largeur et
sont décalées les une des autres en gardant un espacement constant.

Exemple 1.13. On s’intéresse à la variable « situation matrimoniale » notée X et à la série


statistique des valeurs prises par X sur un ensemble Ω de 20 personnes. Les différentes mo-
dalités sont données par X(Ω) = {célibataire, marié(e), veuf(ve), divorcé(e)}. En codifiant
les modalités par C : célibataire, M : marié(e), V : veuf(ve) et D : divorcé(e), on a la série
statistique suivante pour X : M, M, D, C, C, M, C, C, C, M, C, M, V, M, V, D, C, C, C,
M.
1) Établir le tableau statistique de X.
2) Construire le diagramme en barres des effectifs.
Solution
1) Etablissons le tableau statistique de X

xi C M V D total
Effectifs 9 7 2 2 20
Fréquences 0,45 0,35 0,1 0,1 1

Table 1.4 – Tableau statistique de la variable « situation matrimoniale ».

2) Construisons 1.3.
le diagramme en barres des effectifs.
VARIABLE QUALITATIVE ORDINALE 13
10
8
6
4
2
0

Célibataire Divorcé(e) Marié(e) Veuf(ve)

Figure 1.2 – Diagramme en barres des effectifs


Figure 1.1 – Diagramme en barres des effectifs.
En langage R
>m=max(V1)
>barplot(T1, ylim=c(0,m+1))

Diagramme circulaire.
1.3 Variable Il est décrit par un ordinale
qualitative disque partagé en plusieurs parts. Le disque
correspondant à un angle de 360°(effectif total, ou fréquence totale), à chaque modalité est
1.3.1 Le tableau statistique
attribuée un angle associé à son effectif ou sa fréquence. Pour une modalité xi , l’angle αi ° est
Les valeurs distinctes d’une variable ordinale peuvent être ordonnées, ce
calculé avec la formule
qu’on :écrit

x1 ≺ x2 ≺ · · · ≺ xj−1n≺ 360°
xj ≺ · · · ≺ xJ−1 ≺ xJ .
αi =
La notation x1 ≺ x2 se lit x1 précède x2 . n
Si la variable est ordinale, on peut calculer les effectifs cumulés :
j
� 10
Nj = nk , j = 1, . . . , J.
k=1
12CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS

En langage R
où ni est l’effectif >X=c(’Marié(e)’,’Marié(e)’,’Divorcé(e)’,’Célibataire’,’Célibataire’,’Marié(e)’,’Céli
de la modalité xi , et n l’effectif de la population étudiée.
’Célibataire’,’Célibataire’,’Marié(e)’,’Célibataire’,’Marié(e)’,’Veuf(ve)’,’Mar
’Veuf(ve)’,’Divorcé(e)’,’Célibataire’,’Célibataire’,’Célibataire’,’Marié(e)’)
Exemple 1.14. En reprenant l’exemple précédent, construire le diagramme circulaire
> T1=table(X) des
fréquences. > V1=c(T1)
> data.frame(Eff=V1,Freq=V1/sum(V1))
Solution Eff Freq
Construisons leDivorcé(e)
diagramme
Célibataire
circulaire des fréquences.
9 0.45
2 0.10
Calculons d’abord les angles
Marié(e) pour chaque modalité
7 0.35
Veuf(ve) 2 0.10
9 × 360° 7 × 360°
αC ° = = 162°; αM ° = = 126°
20 20
1.2.2 Diagramme en secteurs et diagramme en barres
2 × 360° 2 × 360°
αV ° =
Le tableau statistique d’une variable αD ° =nominale peut être
= 36°;qualitative = représenté
36°
20 Les effectifs sont représentés20par un diagramme
par deux types de graphique.
en barres et les fréquences par un diagramme en secteurs (ou camembert ou
piechart en anglais) (voir Figures 1.1 et 1.2).

Célibataire

Divorcé(e)

Veuf(ve)

Marié(e)

Figure 1.2 –1.1Diagramme


Figure – Diagramme en circulaire des fréquences.
secteurs des fréquences

En langage R

> pie(T1,radius=1.0)

1.3 Variable quantitative discrète


Définition 1.19. On appelle variable quantitative discrète, une variable X dont les
valeurs mesurées sont numériques et appartiennent à un ensemble dénombrable (fini). On a
donc

X: Ω→C
ω 7→ X(ω)

où X(Ω) = {x1 , x2 , . . . , xn } avec xi ∈ R, i = 1, . . . , n.

Exemple 1.15. Une enquête réalisée dans un village porte sur le nombre d’enfants par
famille. On note X le nombre d’enfants, les résultats sont donnés dans le tableau suivant

11
xi 0 1 2 3 4 5 6
ni 12 24 8 20 17 6 4

X est une variable quantitative discrète car X(Ω) = {0, 1, 2, . . . , 5, 6} où Ω est l’ensemble des
familles.

1.3.1 Effectifs - Fréquences


Effectif - Effectif cumulé croissant - Effectif cumulé décroissant

Définition 1.20 (Effectif ). On appelle effectif d’une valeur xi , mesurée sur une variable
quantitative discrète, le nombre ni d’individus dont la variable prend cette valeur.

Définition 1.21 (Effectif cumulé croissant). On appelle effectif cumulé croissant


(ECC) d’une valeur xi , mesurée sur une variable quantitative discrète, le nombre d’individus
dont la valeur de la variable est inférieure ou égale à xi .

Définition 1.22 (Effectif cumulé décroissant). On appelle effectif cumulé décroissant


(ECD) d’une valeur xi , mesurée sur une variable quantitative discrète, le nombre d’individus
dont la valeur de la variable est supérieure ou égale à xi .

Fréquence - Fréquence cumulée croissante - Fréquence cumulée décroissante

Définition 1.23 (Fréquence). On appelle fréquence d’une valeur xi mesurée sur une
variable quantitative discrète, la proportion fi d’individus dont la variable prend cette valeur.

Définition 1.24 (Fréquence cumulée croissante). On appelle fréquence cumulée crois-


sante (FCC) d’une valeur xi , mesurée sur une variable quantitative discrète, la proportion
d’individus dont la valeur de la variable est inférieure ou égale à xi .

Définition 1.25 (Fréquence cumulée décroissante). On appelle fréquence cumulée


décroissante (FCD) d’une valeur xi , mesurée sur une variable quantitative discrète, la
proportion d’individus dont la valeur de la variable est supérieure ou égale à xi .

Exemple 1.16. En considérant la variable X désignant le nombre d’enfants par famille,


dans l’Exemple 1.15, établir le tableau statistique complet.
Solution
Établissons le tableau statistique complet

12
xi 0 1 2 3 4 5 6 total
ni 12 24 8 20 17 6 4 91
ECC 12 36 44 64 81 87 91 -
ECD 91 79 55 47 27 10 4 -
fi 0,132 0,264 0,088 0,22 0,187 0,066 0,044 1
FCC 0,132 0,396 0,484 0,704 0,891 0,957 1 -
FCD 1 0,869 0,605 0,517 0,297 0,11 0,044 -

Table 1.5 – Tableau statistique complet de la variable « nombre d’enfants ».

1.3.2 Paramètres caractéristiques


1.3.2.1 Paramètres de position
Les paramètres de position (ou de tendance centrale) permettent de savoir autour de
quelles valeurs se situent les valeurs d’une variable statistique.

Définition 1.26 (mode). Le mode d’une variable quantitative discrète est la valeur qui
possède le plus grand effectif ou la fréquence la plus élevée.

Exemple 1.17. En considérant la variable X (nombre d’enfants par ménage) de l’Exemple


1.15, le mode est la valeur 1 (qui possède le plus grand effectif, 24)

Définition 1.27 (moyenne). La moyenne (arithmétique) d’une variable quantitative dis-


crète X est la somme de toutes les valeurs prises divisée par l’effectif total. Soient x1 , x2 , . . . , xp
les p distinctes valeurs de X, d’effectifs respectifs n1 , n2 , . . . , np , et n l’effectif total. Alors la
moyenne est donnée par
p
1X
x̄ = n i xi
n i=1

Exemple 1.18. Les notes en mathématiques des étudiants d’une classe sont donnée par la
série statistique suivante : 6 ; 10 ; 7 ; 6 ; 8 ; 12 ; 8 ; 6 ; 15 ; 12 ; 18 ; 7.
Calculer la note moyenne de la classe.
Solution
Calculons la moyenne
p
1X 1 
x̄ = ni xi = (3 · 6) + (2 · 7) + (2 · 8) + (1 · 10) + (2 · 12) + (1 · 15) + (1 · 18) = 9, 58
n i=1 12

Définition 1.28 (médiane). La médiane, notée Me, d’une variable quantitative discrète
est la valeur observée ou possible de la série statistique correspondante dont les valeur sont
au préalable ordonnées de façon croissante, et qui partage la série en deux effectifs égaux.

13
Calcul de la médiane : On range d’abord la série par ordre croissant des valeur.

• Si l’effectif total est impair. Dans ce cas la médiane est la modalité xp de la série
(ordonnée), avec p = n+1
2
, où n est l’effectif total.

• Si l’effectif total est pair. Dans ce cas, il existe un entier p tel que l’effectif total
s’écrit sous la forme n = 2p. La médiane est alors le centre de l’intervalle [xp ; xp+1 ], c’est-à-dire
xp + xp+1
Me =
2
Exemple 1.19. En reprenant l’Exemple 1.18, calculer la médiane de la série.
Solution
• On ordonne d’abord la série de façon croissante, on a alors

6 6 6 7 7 8 8 10 12 12 15 18
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12

• La série a un effectif total pair, on a n = 12 = 2 × 6, donc


x6 + x7 8+8
Me = = =8
2 2

1.3.2.2 Paramètres de dispersion


Les paramètres de dispersions donnent des informations sur la répartition des valeurs
autour de la valeur centrale de référence.
Définition 1.29 (étendue). On appelle étendue d’une série statistique est la différence
entre la valeur maximale et la valeur minimale. On a
E = max − min

Exemple 1.20. Considérons la série statistique de l’Exemple 1.18, et calculer son étendue.
Solution
On a min = 6 et max = 18, donc E = 18 − 6 = 12

Les quartiles. Ce sont des valeurs caractéristiques qui partagent la série statistique en
quatre effectifs représentant chacun 25% de l’effectif total. Ils sont au nombre de trois : le
quartile d’ordre 25%, Q1 , le quartile d’ordre 50%, Q2 , et le quartile d’ordre 75%, Q3 .
Définition 1.30. On appelle quartile d’ordre 25% (ou 1er quartile), noté Q1 , la plus petite
valeur de la série telle qu’au moins 25% des observations lui sont inférieures ou égales.

Définition 1.31. On appelle quartile d’ordre 75% (ou 3me quartile), noté Q3 , la plus
petite valeur de la série telle qu’au moins 75% des observations lui sont inférieures ou égales.

Remarque 1.3. Le quartile d’ordre 50% est la médiane : on a donc Q2 = M e.


Calcul des premier et troisième quartiles. Soit n l’effectif total de la série ordonnée au
préalable de façon croissante.

14
n
Calcul de Q1 : On calcule , le premier quartile Q1 est alors la valeur de rang l’entier
4
n
juste supérieur ou égal à .
4

3n
Calcul de Q3 : On calcule , le troisième quartile Q3 est alors la valeur de rang l’entier
4
3n
juste supérieur ou égal à .
4

Exemple 1.21. Considérons la série statistique de l’Exemple 1.18, et calculons les quatiles
Q1 et Q3 .
Solution
• On ordonne d’abord la série de façon croissante, on a alors

6 6 6 7 7 8 8 10 12 12 15 18
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12

n 12
• Calcul de Q1 : soit n = 12 l’effectif total, calculons alors = =3
4 4
Q1 est alors la valeur x3 , donc Q1 = 6.
3n 36
• Calcul de Q3 : calculons = = 9, alors Q3 est la valeur x9 , donc Q3 = 12.
4 4

Définition 1.32.
• On appelle écart interquartile la différence entre le troisième quartile et le premier
quartile. On a
EI = Q3 − Q1
• On appelle intervalle interquartile, l’intervalle II = [Q1 , Q3 ].

Exemple 1.22. Considérons la série statistique de l’Exemple 1.18, et déterminons l’écart


interquartile et l’intervalle interquartile.
Solution
• Ecart interquartile : EI = Q3 − Q1 = 12 − 3 = 9.
• Intervalle interquartile : II = [3 , 12]

Définition 1.33. Soient x1 , x2 , . . . , xp les p distinctes valeurs d’une variable quantitative


discrète X, d’effectifs respectifs n1 , n2 , . . . , np , et n l’effectif total. On appelle variance de
X, la quantité positive définie par
p
1X
V ar(X) = ni x2i − x̄2
n i=1

Exemple 1.23. Considérer la série statistique de l’Exemple 1.18, et calculer la variance.

15
1.3.3 Représentation graphique
Pour une variable quantitative discrète on rencontre essentiellement deux types de repré-
sentations graphiques : le diagramme en bâtons et le diagramme cumulatif.

Le diagramme en bâtons. Il permet d’avoir une vision d’ensemble, en mettant en relief


les effectifs partiels ou les fréquences des observations. Il est construit dans un repère du plan
dont l’axe des abscisses (axe horizontal) porte les observations et l’axe des ordonnées (axe
vertical) porte les effectifs (ou les fréquences). Pour chaque observation distincte on trace
un trait vertical (bâton) dont la longueur est proportionnelle à l’effectif (ou à la fréquence)
correspondant.

Exemple 1.24. Reprenons l’Exemple 1.18, et représenter le diagramme en bâtons des effec-
tifs de la variable « notes en mathématiques » .
Solution
Représentons le diagramme en bâtons des effectifs
3.0
2.5
2.0
Effectifs

1.5
1.0
0.5
0.0

6 7 8 10 12 15 18

Valeurs de la variable

Figure 1.3 – Diagramme en bâtons des effectifs.

Diagramme cumulatif. C’est une représentation faite aussi dans un repère du plan et qui
permet de visualiser les ECC ou les FCC. L’axe des abscisses porte les observations tandis que
l’axe des ordonnées porte les ECC ou les FCC. C’est une fonction en escaliers dont chaque
palier est à hauteur de l’ECC ou la FCC associée à une valeur disctincte.

Exemple 1.25. En considérant la variable « notes en mathématiques » de l’Exemple 1.18,


construire de diagramme cumulatif des fréquences.
Solution
Construisons le diagramme cumulatif des fréquences.

16
1.0

Fréquences cumulées croissantes


0.8

0.6
0.4 ●


0.2
0.0

6 7 8 10 12 15 18

Valeurs de la variable

Figure 1.4 – Diagramme cumulatif des fréquences.

1.4 Variable quantitative continue


Définition 1.34. On appelle variable quantitative continue, une variable X qui prend
toutes les valeurs d’un intervalle I de R. Elle a donc une infinités de modalités qui sont
réparties dans des intervalles adjacents de la forme [bi , bi+1 [ qui constituent une subdivision
finie de l’intervalle I. On a
X: Ω→R
ω 7→ X(ω)
avec X(Ω) = I ⊂ R. Les intervalles [bi , bi+1 [, i = 1, . . . , p sont appelées classes de valeurs
de X.

1.4.1 Effectifs - Fréquences


Effectif - Effectif cumulé croissant - Effectif cumulé décroissant
Définition 1.35 (Effectif ). On appelle effectif d’une classe [a, b[ le nombre ni d’individus
dont la valeur de la variable est dans cette classe.

Définition 1.36 (Effectif cumulé croissant). On appelle effectif cumulé croissant


(ECC) d’une classe [a, b[ le nombre d’individus dont la valeur de la variable est inférieure
ou égale à la borne supérieure b.

Définition 1.37 (Effectif cumulé décroissant). On appelle effectif cumulé décroissant


(ECD) d’une classe [a, b[ le nombre d’individus dont la valeur de la variable est supérieure
ou égale à la borne inférieure a.

17
Fréquence - Fréquence cumulée croissante - Fréquence cumulée décroissante

Définition 1.38 (Fréquence). On appelle fréquence d’une classe [a, b[ la proportion d’in-
dividus dont la valeur de la variable est dans cette classe.

Définition 1.39 (Fréquence cumulée croissante). On appelle fréquence cumulée crois-


sante (FCC) d’une classe [a, b[ la proportion d’individus dont la valeur de la variable est
inférieure ou égale à la borne supérieure b.

Définition 1.40 (Fréquence cumulée décroissante). On appelle fréquence cumulée


décroissante (FCD) d’une classe [a, b[ la proportion d’individus dont la valeur de la variable
est supérieure ou égale à la borne inférieure a.

Exemple 1.26. La répartition des notes des étudiants d’une classe est décrite dans le tableau
suivant

Notes [0,5[ [5,8[ [8,12[ [12,15[ [15,20] total


Effectifs 10 8 12 11 9 50

1) Quelle est la nature de la variable « notes » ?


2) Compléter le tableau statistique en donnant les ECC, EDC, fréquences, FCC et FCD.
Solution
1) C’est une variable quantitative continue.
2) Complétons le tableau statistique.

Notes [0,5[ [5,8[ [8,12[ [12,15[ [15,20] total


Effectifs 10 8 12 11 9 50
ECC 10 18 30 41 50 -
ECD 50 40 32 20 9 -
Fréquences 0,2 0,16 0,24 0,22 0,18 1
FCC 0,2 0,36 0,6 0,82 1 -
FCD 1 0,8 0,64 0,4 0,18 -

1.4.2 Paramètres caractéristiques d’une variable continue


1.4.2.1 Les paramètres de position
Les paramètres de position sont le mode, la moyenne et la médiane.
La classe modale et le mode.
La classe modale : c’est la classe qui contient le mode. Sa détermination se fait selon que
l’on est dans l’un des deux cas suivants :

18
• Les classes sont de même amplitude : dans ce cas la classe modale est celle qui
possède l’effectif le plus grand ou la fréquence la plus élevée.
• Les classes sont d’amplitudes différentes : dans ce cas on calcule d’abord les
densités d’effectifs ou les densités de fréquences. La classe modale est alors celle qui la densité
la plus grande. Pour une classe [bi , bi+1 [ d’effectif ni , de fréquence fi et d’amplitude ai , alors
ni fi
sa densité d’effectif est dni = et sa densité de fréquence est dfi =
ai ai
Définition 1.41 (Le mode). C’est la valeur de la variable qui a le plus grand effectif ou
la fréquence la plus élevée. Il se calcule par interpolation linéaire et est donné par la formule
suivante
∆i
Mo = a + (b − a)
∆i + ∆s
où [a, b[ est la classe modale. ∆i et ∆s se calculent selon l’un des deux cas suivants :
X si les classes sont de même amplitude :

∆i = no − ni (ou ∆i = fo − fi ), où no (ou fo ) est l’effectif (ou la fréquence) de la classe


modale et ni (ou fi ) l’effectif (ou la fréquence) de la classe adjacente inférieure à la classe
modale.
∆s = no − ns (ou ∆s = fo − fs ), où no (ou fo ) est l’effectif (ou la fréquence) de la classe
modale et ns (ou fs ) l’effectif (ou la fréquence) de la classe adjacente supérieure à la classe
modale.
X si les classes sont d’amplitudes inégales :

∆i = dno −dni (ou ∆i = dfo −dfi ), où dno (ou dfo ) est la densité d’effectif (ou la densité de
fréquence) de la classe modale et dni (ou dfi ) la densité d’effectif (ou la densité de fréquence)
de la classe adjacente inférieure à la classe modale.
∆s = dno −dns (ou ∆s = dfo −dfs ), où dno (ou dfo ) est la densité d’effectif (ou la densité de
fréquence) de la classe modale et dns (ou dfs ) la densité d’effectif (ou la densité de fréquence)
de la classe adjacente supérieure à la classe modale.

Définition 1.42 (moyenne). Soit X une variable continue dont les modalités sont repré-
sentées par p classes [bi , bi+1 [, i = 1, . . . , p. La moyenne de X est donnée par
p
1X
x̄ = n i ci
n i=1

où n est l’effectif total, ni l’effectif de la classe [bi , bi+1 [ et ci son centre, c’est-à-dire ci = bi +bi+1
2

Définition 1.43 (médiane). Comme pour la variable discrète, la médiane d’une variable
continue est le quartile d’ordre 50%. Cependant pour la variable continue le calcul est dif-
férent : on procède par interpolation linéaire. Si F est la fonction des fréquences cumulées
croissantes et [a, b[ la classe qui contient la médiane Me = Q2 , alors on a
F (M e) − F (a)
Me = a + (b − a)
F (b) − F (a)

19
Remarque 1.4. Soit F la fonction des fréquences cumulées croissantes, alors F (M e) = 0, 5
(ou F (M e) = 50 si les fréquence sont exprimées en pourcentage).

1.4.2.2 Les paramètres de dispersion


Les paramètres de dispersion que nous étudions ici sont l’étendue, l’écart interquartile,
l’intervalle interquartile et la variance.
Définition 1.44 (Étendue). L’étendue pour une variable quantitative continue est la dif-
férence entre la borne supérieure de la dernière et la borne inférieure de la première. Soient
[b1 , b2 [ et [bp , bp+1 [ désignant respectivement la première et la dernière classe, alors l’étendue
est donnée par
E = bp+1 − b1

Les quartiles. Les trois quartiles Q1 , Q2 et Q3 sont définies de la même manière que pour
la variable discrète. Cependant leur calcul est différent pour la variable continue.

Calcul du premier quartile. Le quartile d’ordre 25%, Q1 , pour une variable continue
se calcule par interpolation linéaire. Si F est la fonction des fréquences cumulées croissantes
(FCC), et si Q1 ∈ [a, b[, alors Q1 est donné par :
F (Q1 ) − F (a)
Q1 = a + (b − a)
F (b) − F (a)

Calcul du troisième quartile. Le quartile d’ordre 75%, Q3 , pour une variable continue
se calcule par interpolation linéaire. Si F est la fonction des fréquences cumulées croissantes
(FCC), et si Q3 ∈ [a, b[, alors Q3 est donné par :
F (Q3 ) − F (a)
Q3 = a + (b − a)
F (b) − F (a)
Remarque 1.5. Soit F la fonction des fréquences cumulées croissantes, alors F (Q1 ) = 0, 25
(ou F (Q1 ) = 25 si les fréquences sont exprimées en pourcentage) et F (Q3 ) = 0, 75 (ou
F (Q3 ) = 75 si les fréquences sont exprimées en pourcentage)

Définition 1.45 (variance). Soit X une variable continue dont les modalités sont repré-
sentées par p classes [bi , bi+1 [, i = 1, . . . , p. La variance est donnée par
p
1X 2
V ar(X) = ni ci − x̄2
n i=1

où n est l’effectif total, ni l’effectif de la classe [bi , bi+1 [ et ci son centre, c’est-à-dire ci = bi +bi+1
2

1.4.3 Représentation graphique


Lorsque la variable est continue nous avons principalement comme représentation gra-
phique l’histogramme des effectifs (ou des fréquences) et les courbes cumulatives (ECC,
ECD, FCC, et FCD).

20
Histogramme. C’est un graphique représenté dans un repère du plan. Sur l’axe des abs-
cisses (axe horizontal) sont portés les classes (modalités) alors que sur l’axe des ordonnées
(axe vertical) sont portés les effectifs (ou fréquences) ou les densités d’effectifs (ou densités
de fréquences). Pour construire
22CHAPITRE l’histogramme
1. VARIABLES, DONNÉESnousSTATISTIQUES,
distinguons deux TABLEAUX,
cas : EFFECTIFS

cas où les classes ont toutes la même amplitude. L’histogramme est constitué d’un
– L’aire de l’histogramme est égale à l’effectif total n, puisque l’aire de
ensemble de rectangles « debout » collés les uns aux autres, et qui ont la même largeur
chaque rectangle est égale à l’effectif de la classe j : aj × hj = nj .
(amplitude commune des classes). La longueur de chaque rectangle est proportionnelle à
Pour un histogramme des fréquences on a
l’effectif (ou fréquence) de la classe correspondante.
fj
cas où les classes sont d’amplitudes ddifférentes. j =
aj L’histogramme est constitué d’un
ensemble de rectangles « debout » collés les uns aux autres, et dont la largeur de chacun est
égale à l’amplitude de ladjclasse
– On appelle associée.
la densité La longueur de chaque rectangle est proportionnelle
de fréquence.
à la densité d’effectif
– L’aire de (ou densité de fréquence)
l’histogramme est égale àde1,lapuisque
classe correspondante.
l’aire de chaque rectangle
est égale à la fréquence de la classe j : aj × dj = fj .
ExempleFigure Exemple
1.27. 1.8 d’histogramme
représente avec classes
l’histogramme de mêmedeamplitude
des fréquences l’exemple précedent :
0.06
0.04
0.02
0.00

151.5 155.5 159.5 163.5 167.5 171.5

Figure 1.8 – Histogramme des fréquences


Figure 1.5 – Histogramme des fréquences.

En langage R
Courbe cumulative des ECC/FCC. C’est une courbe tracée dans un
> hist(S,breaks=c(151.5,155.5,159.5,163.5,167.5,171.5), repère du plan.
freq=FALSE,
Sur l’axexlab="",ylab="",main="",xaxt
des abscisses sont portés les observations
= "n") (plus précisément les bornes de classes),
alors que sur l’axe des ordonnées sont inscrites les ECC ou les FCC. Pour le tracé de la courbe
> axis(1, c(151.5,155.5,159.5,163.5,167.5,171.5))
on place d’abord les points associés à chaque classe. Ces points sont tels que l’abscisse est la
borne supérieure de la classe et l’ordonnée l’ECC ou la FCC de la classe.
Si les deux dernières classes sont agrégées, comme dans la Figure 1.9, la
Exemple du En
1.28.
surface reprenant
dernier l’Exepmle
rectangle 1.26,
est égale oùsurface
à la l’étude des
concerne la variable
deux derniers « notes »
rectangles
1) Calculer le mode, la moyenne
de l’histogramme et la1.8.
de la Figure variance.
2) Calculer les quartiles Q1 , Q2 et Q3 .
3) Représenter
En langagel’histogramme
R des fréquences et la courbe cumulative des FCC.

21
> hist(S,breaks=c(151.5,155.5,159.5,163.5,171.5),
xlab="",ylab="",main="",xaxt = "n")
> axis(1, c(151.5,155.5,159.5,163.5,171.5))
Solution :
Reprenons le tableau statistique de l’Exepmle 1.26.

Notes [0,5[ [5,8[ [8,12[ [12,15[ [15,20] total


Effectifs 10 8 12 11 9 50
ECC 10 18 30 41 50 -
ECD 50 40 32 20 9 -
Fréquences 0,2 0,16 0,24 0,22 0,18 1
FCC 0,2 0,36 0,6 0,82 1 -
FCD 1 0,8 0,64 0,4 0,18 -

1) Calculons le mode, la moyenne et la variance


• Calcul du mode : les classes étant d’amplitudes inégales, calculons les densités d’ef-
fectifs.
n1 10 n2 8
pour [0; 5[ dn1 = = =2 ; pour [5; 8[ dn2 = = = 2, 67
a1 5 a2 3
n3 12 n4 11
pour [8; 12[ dn3 = = =3 ; pour [12; 15[ dn4 = = = 3, 67
a3 4 a4 3
n5 9
pour [15; 20[ dn5 = = = 1, 8.
a5 5
La classe modale est celle qui a plus grande densité d’effectif, et donc est [12; 15[.

on a ∆i = 3, 67 − 3 = 0, 67 et ∆s = 3, 67 − 1, 8 = 1, 87 et donc
0, 67
M o = 12 + (15 − 12) = 12, 79
0, 67 + 1, 87
• Calcul de la moyenne : on calcule d’abord les centres de classe
0+5 5 5+8 13
pour [0; 5[ c1 = = = 2, 5 ; pour [5; 8[ c2 = = = 6, 5
2 2 2 2
8 + 12 20 12 + 15 27
pour [8; 12[ c3 = = = 10 ; pour [12; 15[ c4 = = = 13, 5
2 2 2 2
15 + 20 35
pour [15; 20] c5 = = = 17, 5.
2 2
1 
x̄ = (10 × 2, 5) + (8 × 6, 5) + (12 × 10) + (11 × 13, 5) + (9 × 17, 5) = 10, 06
50
• Calcul de la variance : nous avons déjà les centres de classes, donc
1 
V ar(X) = (10 × 2, 52 ) + (8 × 6, 52 ) + (12 × 102 ) + (11 × 13, 52 ) + (9 × 17, 52 ) − (10, 06)2
50
V ar(X) = 26, 0264

2) Calculons les quartiles Q1 , Q2 et Q3 .

22
• Calcul du premier quartile Q1 : on détermine d’abord la classe qui contient Q1
Notons par F la fonction des fréquences cumulées croissantes (FCC)

X on a F (Q1 ) = 0, 25 encadrons 0, 25 par les valeurs des FCC du tableau statistique.

On a 0, 2 < 0, 25 < 0, 36 ⇐⇒ F (5) < F (Q1 ) < F (8) =⇒ 5 < Q1 < 8 d’où Q1 ∈ [5, 8[
0, 25 − 0, 2
ainsi Q1 = 5 + (8 − 5) = 5, 94
0, 36 − 0, 2

• Calcul du second quartile Q2 : on détermine d’abord la classe qui contient Q2

X on a F (Q2 ) = 0, 5 encadrons 0, 5 par les valeurs des FCC du tableau statistique.

On a 0, 36 < 0, 5 < 0, 6 ⇐⇒ F (8) < F (Q2 ) < F (12) =⇒ 8 < Q2 < 12 d’où Q2 ∈ [8, 12[
0, 5 − 0, 36
ainsi Q2 = 8 + (12 − 8) = 10, 33
0, 6 − 0, 36

• Calcul du troisième quartile Q3 : on détermine d’abord la classe qui contient Q3

X on a F (Q3 ) = 0, 75 encadrons 0, 75 par les valeurs des FCC du tableau statistique.

On a 0, 6 < 0, 75 < 0, 82 ⇐⇒ F (12) < F (Q3 ) < F (15) =⇒ 12 < Q3 < 15 d’où Q3 ∈ [12, 15[
0, 75 − 0, 6
ainsi Q3 = 12 + (15 − 12) = 14, 045
0, 82 − 0, 6

23

Vous aimerez peut-être aussi