Vous êtes sur la page 1sur 10

ENIS-DGIMA-GI2 C HAPITRE 1: S TATISTIQUE D ESCRIPTIVE 2020-2021

Chapitre I : Statistique Descriptive

Table des matières


I Introduction 2

II Vocabulaire 3

III Représentations graphiques 6


III.1 Caractère quantitatif Discret : Diagramme en bâtons . . . . . . . . . . . . . . . . . . . . . . . 6
III.2 Caractère quantitatif Continu : Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
III.3 Polygone des effectifs cumulés (ou fréquences cumulées) . . . . . . . . . . . . . . . . . . . . 7

IV Caractéristiques (ou paramètres) d’une série statistique simple 7


IV.1 Caractéristiques de position . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
IV.1.1 Moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
IV.1.2 Médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
IV.1.3 Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
IV.1.4 Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
IV.2 Caractérisitiques de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
IV.2.1 Ecart-Moyen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
IV.2.2 Variance et Ecart-Type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
IV.2.3 Ecart-interquartile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

V Série statistique double 11


V.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

Enseignante responsable: Mariem Tounsi -1-


ENIS-DGIMA-GI2 C HAPITRE 1: S TATISTIQUE D ESCRIPTIVE 2020-2021

I Introduction

Les méthodes statistiques sont aujourd’hui utilisées dans presque tous les secteurs de l’activité humaine
et font partie des connaissances de base de l’ingénieur.
Parmi leurs nombreuses applications, citons : la fiabilité (c.à.d la probabilité de bon fonctionnement
d’un système ou d’une machine pendant une période bien déterminée), le contrôle de qualité, l’analyse
des résultats de mesure et leur planification, les sondages,...

Définition 1
Une définition du mot "statistique" : C’est un ensemble de données d’observations et l’activité qui
consiste dans
• leur recueil,
• leur traitement,
• et leur interpretation.

Le concept de base en statistique est la variabilité : C’est-à-dire que des individus en apparence sem-
blables peuvent prendre, pour le même caractère, des valeurs différentes (la mesure varie d’un individu
à l’autre).
Faire de la statistique, c’est étudier un ensemble, appelé : population, d’objets équivalents, chaque ob-
jet est appelé individu (ou unité statistique), sur lesquels on observe des caractéristiques appelées :
caractères.
L’étude de tous les individus d’une population finie s’appelle : recensement. Quand la population est
trop grande (ou l’étude est desctructive), on travaille sur une partie de cette population appelée : échantillon,
on dit qu’on fait : un sondage.

Les caractères se classent selon leur nature :

1. Caractère quantitatif : (ou on dit numérique) C’est un caractère auquel on peut associer un nombre
réel (c.à.d qu’on peut le mesurer) et sur lequel les opérations arithmétiques ont un sens.
Par exemple : taille, poids, longueur...
Le caractère quantitatif se divise en deux sous-groupes comme suit :

(a) Caractère quantitatif Discret : C’est un caractère qui ne peut prendre que des valeurs entières
(un nombre fini ou dénombrable de valeurs).
Par exemple : Nombre d’enfants d’une famille,...
(b) Caractère quantitatif Continu : C’est un caractère qui peut prendre toutes les valeurs d’un
intervalle de R. Ses valeurs sont regroupées en Classes (voir Section 2).
Par exemple : Température, Age, ...

2. Caractère qualitatif : C’est un caractère qui exprime l’appartenance à une catégorie ou modalité
d’un certain ensemble fini (exprime une qualité).
Par exemple : Couleur des yeux, Seuil de gravité d’une maladie, Mention Bac, cadre, Nationalité...

Enseignante responsable: Mariem Tounsi -2-


ENIS-DGIMA-GI2 C HAPITRE 1: S TATISTIQUE D ESCRIPTIVE 2020-2021

Exemple 1
Préciser dans chacun des exemples suivants la population statistique, l’unité statistique, le caractère statistique
étudié ainsi que sa nature.
1. On veut effectuer une étude sur la rémunération de 150 membres d’une certaine association professionnelle.
Population : ...
Unité statistique : ...
Caractère : ...
Nature : ...
2. La STEG veut effectuer une étude sur la consommation d’électricité dans les foyers de la région de Sfax.
Population : ...
Unité statistique : ...
Caractère : ...
Nature : ...
3. Une enquête a été effectuée auprès des médecins dans une certaine ville pour voir s’ils sont pour ou contre
une nouvelle réforme de la sécurité sociale.
Population : ...
Unité statistique : ...
Caractère : ...
Nature : ...

• La démarche statistique comporte les trois phases suivantes :


1. Rassembler les données et les informations et les présenter sous forme de tableaux, de gra-
phiques...
2. Résumer les données par l’intermédiaire de caractéristiques de position ou de dispersion.
3. Interpréter les résultats obtenus, étendre ces résultats à la population et validation des hypo-
thèses formulées avant ou après une phase exploratoire.
Dans les deux premières phases, le calcul des probabilités ne joue presque aucun rôle significatif. Ces
deux phases relèvent de ce qu’on appelle : la Statistique Descriptive (ou on dit exploratoire).
Dans la dernière phase, le calcul des probabilités joue un rôle fondamental. Cette phase relève de ce
qu’on appelle : la Statistique Inférentielle (qui permet d’étendre les propriétés de l’échantillon à la
population, c’est l’inférence).

II Vocabulaire

Soit X un caractère quantitatif à étudier sur une population Ω (ou un échantillon E d’une population
Ω).
• L’ensemble X(Ω) = {X(w i ) = x i } des valeurs (ou on dit des modalités x i ) prises par X sur Ω, peut être
fini ou infini selon que X est discret ou continu.
• En associant au caractère une application X : Ω −→ R, on définit une variable aléatoire (notée aussi X)
dite : empirique.
• Dans le cas où X est continu et si X(Ω) ⊂ [a, b[, on définit une suite d’intervalles jointifs [x i −1 , x i [,
∀1 ≤ i ≤ p appelés classes, tels que x 0 = a < ... < x p = b.
x i −1 + x i
• Pour une classe [x i −1 , x i [ donnée, on définit son centre par : c i = , et son étendue par :
2
e i = x i − x i −1 .

Enseignante responsable: Mariem Tounsi -3-


ENIS-DGIMA-GI2 C HAPITRE 1: S TATISTIQUE D ESCRIPTIVE 2020-2021

• L’effectif total : est le nombre n d’éléments de la population Ω (ou de l’échantillon E , selon l’étude
faite).
• L’effectif : est le nombre n i qui présente l’effectif de la modalité x i (c.à.d le nombre de fois (ou le
cardinal) d’apparition de l’événement [X = x i ]). Dans le cas continu, il suffit de remplacer la modalité
x i par la classe [x i −1 , x i [.
X p
On a n i = n (supposons qu’on a p modalité).
i =1
• La fréquence relative de x i (respectivement de la classe [x i −1 , x i [), notée par f i , est le quotient de son
effectif par le nombre total d’individus de la population (ou de l’échantillon) étudié(e).
ni
fi = .
n
p
X
On a f i = P[X = x i ], et donc f i ∈ [0, 1] et on a f i = 1.
i =1
• Une série statistique simple associée à un seul caractère X est l’ensemble :

• Cas Discret : {(x i , n i ) ; ∀1 ≤ i ≤ p}, ou bien {(x i , f i ) ; ∀1 ≤ i ≤ p}.


• Cas Continu : {([x i −1 , x i [, n i ) ; ∀1 ≤ i ≤ p}, ou bien {([x i −1 , x i [, f i ) ; ∀1 ≤ i ≤ p}.
• L’effectif cumulé de rang k est celui obtenu en ajoutant les effectifs de toutes les valeurs x i , pour i ≤ k.
Si on ajoute les effectifs en commençant par les valeurs les plus petites, on obtient l’effectif cumulé croissant,
et si on commence par les plus grandes, on obtient l’effectif cumulé décroissant.
• La fréquence cumulée de rang k, s’obtient de la même manière que précédemment en remplaçant
effectif par fréquence.
• La fréquence cumulée croissante de rang k, n’est autre que la valeur de la fonction de répartition FX
du variable aléatoire X au point x k . Rappelons que :
k
X
FX (x k ) = P[X ≤ x k ] = P[X = x i ].
i =1
Exemple 2
On interroge les 64 familles d’un immeuble sur le nombre d’enfants de chacune. Le caractère X est le nombre
d’enfants par famille et les réponses sont résumées dans le tableau des effectifs suivant :

X = xi 0 1 2 3 4 5
Effectif n i 16 18 14 11 3 2
On peut donner aussi le tableau des fréquences :

X = xi 0 1 2 3 4 5
Fréquence f i 25% 28.1% 21.8% 17.2% 4.7% 3.1%

Le tableau des effectifs cumulés croissants (qu’on va noter par Ni %) est :

X = xi Effectif cumulé croissant Ni %


0 16
1 16+18=34
2 34+14=48
3 48+11=59
4 59+3=62
5 62+2=64=n

Enseignante responsable: Mariem Tounsi -4-


ENIS-DGIMA-GI2 C HAPITRE 1: S TATISTIQUE D ESCRIPTIVE 2020-2021

Le tableau des effectifs cumulés décroissants (qu’on va noter par Ni &) est :

X = xi Effectif cumulé décroissant Ni &


0 64=n
1 64-16=48
2 48-18=30
3 30-14=16
4 16-11=5
5 5-3=2

Le tableau des fréquences cumulés croissants (qu’on va noter par Fi %) est :

X = xi Fréquence cumulé croissant Fi %


0 25%

1 25% + 28.1% = 53.1%

2 74.9%

3 92.1%

4 96.8%

5 100%

Le tableau des fréquences cumulés décroissants (qu’on va noter par Fi &) est :

X = xi Fréquence cumulé décroissant Fi &


0 100%

1 100% − 25% = 75%

2 46.9%

3 25.1%

4 7.9%

5 3.2%

Exemple 3
Dans un établissement scolaire, on considère 60 élèves ayant subi un même examen et on se propose d’étudier
leurs notes. Le caractère X étudié est donc la note d’un élève à l’examen.
On regroupe les notes et on dresse le tableau des effectifs suivant :

X = [x i −1 , x i [ [0, 6[ [6,10[ [10,12[ [12,14[ [14,16[ [16,20[


Effectif n i 5 10 12 15 14 4

On peut dresser le tableau des effectifs cumulés croissants suivant :

X = [x i −1 , x i [ [0,6[ [6,10[ [10,12[ [12,14[ [14,16[ [16,20[


Ni % 5 15 27 42 56 60=n

Enseignante responsable: Mariem Tounsi -5-


ENIS-DGIMA-GI2 C HAPITRE 1: S TATISTIQUE D ESCRIPTIVE 2020-2021

III Représentations graphiques

Elles permettent de voir d’un coup d’oeil les caractèristiques (Médiane, Mode, ...) de la série statistique
étudiée et de comparer des séries différentes.

III.1 Caractère quantitatif Discret : Diagramme en bâtons

On trace des segments verticaux (des bâtons) joignant, chacun, une valeur du caractère portée en abs-
cisse (modalité x i ) et l’effectif (ou la fréquence) associée. En joignant les sommets on obtient, ce qu’on

F IGURE 1 – Diagramme en bâtons et polygone des effectifs (ou fréquences).

appelle le polygone des effectifs (ou des fréquences).

III.2 Caractère quantitatif Continu : Histogramme

Pour une répartition d’un caractère continu X en classes du type [x i −1 , x i [, ∀1 ≤ i ≤ p, ayant chacune
un effectif n i (ou fréquence f i ), on porte les x i en abscisse et on construit au dessus de chaque classe
ni fi
[x i −1 , x i [ un rectangle de hauteur (ou ), de telle façon que l’aire de ce rectangle (A =
x i − x i −1 x i − x i −1
n
base × haut eur = e i × e i ) soit égale à l’effectif n i (ou la fréquence f i ). En repérant, en haut de chaque
i

F IGURE 2 – Histogramme et polygone des effectifs (ou fréquences).

rectangle de l’histogramme des effectifs (ou des fréquences), le point correspondant au centre de la
classe associée et en joignant ces points on obtient le polygone des effectifs (ou des fréquences).

Enseignante responsable: Mariem Tounsi -6-


ENIS-DGIMA-GI2 C HAPITRE 1: S TATISTIQUE D ESCRIPTIVE 2020-2021

Remarque : Dans le cas d’un caractère qualitatif, la représentation graphique est par diagramme en
barres (ou on dit en bâtons), c’est le même principe que pour le cas d’un caractère quantitatif Discret.

III.3 Polygone des effectifs cumulés (ou fréquences cumulées)

Pour le cas discret, la représentation du polygone (des Ni ou des Fi croissants % ou décroissants &) est
de la même manière que celle d’un polygone des effectifs (ou des fréquences) : on porte en abscisses les
x i et en ordonnées les effectifs cumulés (ou fréquences cumulées) (coissants ou décroissants) corres-
pondants ("selon la donnée de l’exercice").
Pour le cas continu, si les classes [x i −1 , x i [, ∀1 ≤ i ≤ p, ont des effectifs n i (ou des fréquences f i ) : on
porte en abscisse les points x i et en ordonnée les effectifs cumulés (ou les fréquences cumulées) d’ordre
i correspondants.

F IGURE 3 – Polygone des effectifs (ou fréquences) cumulé(e)s.

IV Caractéristiques (ou paramètres) d’une série statistique simple

IV.1 Caractéristiques de position

Une caractéristique de position est un nombre autour duquel se répartissent les valeurs observées.
Soit X un caractère qui prend les modalités x i (ou les classes [x i −1 , x i [) avec les effectifs n i , ∀1 ≤ i ≤ p.

IV.1.1 Moyenne

La moyenne observée (ou on dit empirique) d’un n-échantillon aléatoire (c.à.d échantillon de taille n)
est la caractéristique de position, notée x qui est définie comme suit :

p
1X
x= ni xi ,
n i =1
Pp
où n = i =1
n i est l’effectif total.

Enseignante responsable: Mariem Tounsi -7-


ENIS-DGIMA-GI2 C HAPITRE 1: S TATISTIQUE D ESCRIPTIVE 2020-2021

• Si X est continu, on utilise les centres c i à la place des valeurs x i :


p
1X
x= ni ci .
n i =1

• On peut considérer que x est le centre de gravité (ou barycentre) des points x i (c i dans le cas continu)
affectés des coefficients n i .
p
X
• On peut aussi écrire que x = f i x i (et dans le cas continu, toujours on remplace les x i par les c i , et
i =1
p
X
alors x = f i c i ), où les f i sont les fréquences relatives.
i =1
La caractéristique x est une estimation de la moyenne (l’espérance théorique) de la variable, lors-
qu’elle existe, sur toute la population de référence. (Voir Chapitre Estimation).

IV.1.2 Médiane

• C’est une valeur notée par Me du caractère X qui partage la population étudiée en deux : L’effectif pour
lequel X < Me est égal à l’effectif pour lequel X > Me (les observations à 50%).
C’est aussi une valeur du caractère X dont la fréquence cumulée est aussi voisine que possible de 12
ou aussi dont l’effectif cumulé est aussi voisine que possible de n2 .
• Dans le cas le plus important d’un caractère X continu, on détermine d’abord la classe contenant la
médiane, puis on opère une interpolation linéaire entre les deux extrémités de la classe :
Suppposons que Me ∈ [x k−1 , x k [ (c’est la classe médiane). La formule d’interpolation linéaire est la
suivante : n
− N(x k−1 )
Me = x k−1 + 2 × (x k − x k−1 ),
N(x k ) − N(x k−1 )
où N est la fonction des effectifs cumulés.
Ou bien, en utilisant la fonction des fréquences cumulées F :
1
2 − F(x k−1 )
Me = x k−1 + × (x k − x k−1 ).
F(x k ) − F(x k−1 )

On peut déterminer la médiane aussi graphiquement, en utilisant le polygone des effectifs cumulés
ou des fréquences cumulées (par projection sur la graphique). Ainsi, la médiane sera le réel Me tel que
F(Me ) = 12 ou N(Me ) = n2 . Sur la représentation graphique on cherche l’abscisse correspondant à 21 (si
on travaille avec le polygone des fréquences cumulées) et on cherche l’abscisse correspondant à n2 (si
on travaille avec le polygone des effectifs cumulés).

F IGURE 4 – Détermination du valeur de Me à partir du polygone des fréquences cumulées.

Enseignante responsable: Mariem Tounsi -8-


ENIS-DGIMA-GI2 C HAPITRE 1: S TATISTIQUE D ESCRIPTIVE 2020-2021

IV.1.3 Mode

Le mode noté par Mo est la valeur que nous observons le plus fréquemment. Mo est la valeur du carac-
tère correspondant donc à la plus grande fréquence (ou effectif).
Dans le cas continu, on parle du classe modale, c’est la classe la plus haute sur l’histogramme auquel
cas on parle de classe modale.
Une distribution peut être uni modale (admet un seul mode) ou plurimodale (admet plusieurs modes).

IV.1.4 Percentiles

C’est une généralisation de la notion de médiane.


Par définition le k i ème percentile est la valeur Ck du caractère telle que l’effectif des individus pour les-
quels X ≤ Ck est de k% de l’effectif total.
k
En utilisant la fonction F des fréquences cumulées, on a F(Ck ) = .
100
On distingue notamment :
-Les déciles : (k = 10, 20, 30, ...), notés : Dk . Ainsi :
D1 = C10 , D2 = C20 , ...
-Les quartiles : (k = 25, 50, 75, ...), notés : Qk . Ainsi :
Q1 = C25 , Q2 = C50 , Q3 = C75 .
Le calcul des percentiles est identique à celui de la médiane : on détermine d’abord la classe contenant
le percentile, et on termine le calcul par interpolation linéaire (dans le cas continu).
Remarquons que la médiane est le 5i ème décile et le 2i ème quartile.

• Exemple 2 : x = 1.578125 ∼= 2 ⇒ L’arrondi à l’unité est x ∼


= 2 enfants/famille, Me = 1 enfant et Mo = 1
enfant.
• Exemple 3 : x = 11.7333 la note moyen par élève, Me = 12.4 et la classe modale est [12, 14[.

IV.2 Caractérisitiques de dispersion

Une caractéristique de dispersion mesure la variabilité des valeurs d’une série statistique. Il est toujours
positif et d’autant plus grand que les valeurs de la série sont étalées. Les plus courants sont l’écart-
moyen, la variance, l’écart-type et l’écart interquartile.

Comparons la distribution des notes de deux élèves au cours de l’année scolaire :

ELEVE 1 0 5 10 15 20

EFFECTIF 1 1 1 1 1

ELEVE 2 9 10 11
EFFECTIF 2 1 2
A la fin de l’année les deux élèves ont la même moyenne 10, mais il est clair que leurs parcours ne sont
pas comparables : l’élève 2 est très régulier autour de la moyenne, alors que l’élève 1 a des résultats
complètement dispersés.

Enseignante responsable: Mariem Tounsi -9-


ENIS-DGIMA-GI2 C HAPITRE 1: S TATISTIQUE D ESCRIPTIVE 2020-2021

IV.2.1 Ecart-Moyen

L’écart-moyen donne une bonne idée de la distance des données à la moyenne de ces données. L’écart-
moyen d’un caractère X prenant des valeurs x 1 , ..., x p avec des effectifs n 1 , ..., n p , est définit par :
p p
1X X
em = n i | x i − x |= f i | xi − x | .
n i =1 i =1

Dans le cas continu, on remplace les x i par les centres c i des intervalles [x i −1 , x i [.

IV.2.2 Variance et Ecart-Type

• La variance empirique (associée à la population ou l’échantillon à étudier) du caractère X est définie


par
p p
1X
σ2 = n i (x i − x)2 = f i (x i − x)2 .
X
n i =1 i =1
Dans le cas continu, on remplace les x i par les centres c i des intervalles [x i −1 , x i [.
• L’écart-type empirique (associé à la population ou l’échantillon à étudier) du caractère X est définie
par : q
σ= σ2 .
• Proriété : Formule de Koening :
p
2 1X
σ =( n i x i2 ) − x 2 .
n i =1
• Signification de l’écart-type : Si on a deux séries statistiques de même nature, celle qui a l’écart-type
le plus élevé est la plus dispersée autour de la moyenne x.
σ
-Si ≤ 1, alors la dispersion de X est proche de x.
x
σ
-Si > 1, alors la dispersion de X n’est pas concentrée autour de x.
x

IV.2.3 Ecart-interquartile

L’écart interquartile est une autre étendue utilisée comme mesure de la dispersion. La différence entre
les quartiles supérieur et inférieur (Q3 − Q1 ), qu’on appelle l’écart interquartile, indique aussi la disper-
sion d’un ensemble de données. L’écart interquartile couvre 50% d’un ensemble de données et élimine
l’influence des valeurs aberrantes (de l’extérieur), parce qu’on soustrait, en effet, le quartile le plus élevé
et le quartile le plus faible.

Ecart-interquartile= Q3 − Q1 .

Remarque : A noter que l’intervalle interquartile noté par IIQ = [Q1 , Q3 ].

V Série statistique double

Enseignante responsable: Mariem Tounsi -10-

Vous aimerez peut-être aussi