Académique Documents
Professionnel Documents
Culture Documents
II Vocabulaire 3
I Introduction
Les méthodes statistiques sont aujourd’hui utilisées dans presque tous les secteurs de l’activité humaine
et font partie des connaissances de base de l’ingénieur.
Parmi leurs nombreuses applications, citons : la fiabilité (c.à.d la probabilité de bon fonctionnement
d’un système ou d’une machine pendant une période bien déterminée), le contrôle de qualité, l’analyse
des résultats de mesure et leur planification, les sondages,...
Définition 1
Une définition du mot "statistique" : C’est un ensemble de données d’observations et l’activité qui
consiste dans
• leur recueil,
• leur traitement,
• et leur interpretation.
Le concept de base en statistique est la variabilité : C’est-à-dire que des individus en apparence sem-
blables peuvent prendre, pour le même caractère, des valeurs différentes (la mesure varie d’un individu
à l’autre).
Faire de la statistique, c’est étudier un ensemble, appelé : population, d’objets équivalents, chaque ob-
jet est appelé individu (ou unité statistique), sur lesquels on observe des caractéristiques appelées :
caractères.
L’étude de tous les individus d’une population finie s’appelle : recensement. Quand la population est
trop grande (ou l’étude est desctructive), on travaille sur une partie de cette population appelée : échantillon,
on dit qu’on fait : un sondage.
1. Caractère quantitatif : (ou on dit numérique) C’est un caractère auquel on peut associer un nombre
réel (c.à.d qu’on peut le mesurer) et sur lequel les opérations arithmétiques ont un sens.
Par exemple : taille, poids, longueur...
Le caractère quantitatif se divise en deux sous-groupes comme suit :
(a) Caractère quantitatif Discret : C’est un caractère qui ne peut prendre que des valeurs entières
(un nombre fini ou dénombrable de valeurs).
Par exemple : Nombre d’enfants d’une famille,...
(b) Caractère quantitatif Continu : C’est un caractère qui peut prendre toutes les valeurs d’un
intervalle de R. Ses valeurs sont regroupées en Classes (voir Section 2).
Par exemple : Température, Age, ...
2. Caractère qualitatif : C’est un caractère qui exprime l’appartenance à une catégorie ou modalité
d’un certain ensemble fini (exprime une qualité).
Par exemple : Couleur des yeux, Seuil de gravité d’une maladie, Mention Bac, cadre, Nationalité...
Exemple 1
Préciser dans chacun des exemples suivants la population statistique, l’unité statistique, le caractère statistique
étudié ainsi que sa nature.
1. On veut effectuer une étude sur la rémunération de 150 membres d’une certaine association professionnelle.
Population : ...
Unité statistique : ...
Caractère : ...
Nature : ...
2. La STEG veut effectuer une étude sur la consommation d’électricité dans les foyers de la région de Sfax.
Population : ...
Unité statistique : ...
Caractère : ...
Nature : ...
3. Une enquête a été effectuée auprès des médecins dans une certaine ville pour voir s’ils sont pour ou contre
une nouvelle réforme de la sécurité sociale.
Population : ...
Unité statistique : ...
Caractère : ...
Nature : ...
II Vocabulaire
Soit X un caractère quantitatif à étudier sur une population Ω (ou un échantillon E d’une population
Ω).
• L’ensemble X(Ω) = {X(w i ) = x i } des valeurs (ou on dit des modalités x i ) prises par X sur Ω, peut être
fini ou infini selon que X est discret ou continu.
• En associant au caractère une application X : Ω −→ R, on définit une variable aléatoire (notée aussi X)
dite : empirique.
• Dans le cas où X est continu et si X(Ω) ⊂ [a, b[, on définit une suite d’intervalles jointifs [x i −1 , x i [,
∀1 ≤ i ≤ p appelés classes, tels que x 0 = a < ... < x p = b.
x i −1 + x i
• Pour une classe [x i −1 , x i [ donnée, on définit son centre par : c i = , et son étendue par :
2
e i = x i − x i −1 .
• L’effectif total : est le nombre n d’éléments de la population Ω (ou de l’échantillon E , selon l’étude
faite).
• L’effectif : est le nombre n i qui présente l’effectif de la modalité x i (c.à.d le nombre de fois (ou le
cardinal) d’apparition de l’événement [X = x i ]). Dans le cas continu, il suffit de remplacer la modalité
x i par la classe [x i −1 , x i [.
X p
On a n i = n (supposons qu’on a p modalité).
i =1
• La fréquence relative de x i (respectivement de la classe [x i −1 , x i [), notée par f i , est le quotient de son
effectif par le nombre total d’individus de la population (ou de l’échantillon) étudié(e).
ni
fi = .
n
p
X
On a f i = P[X = x i ], et donc f i ∈ [0, 1] et on a f i = 1.
i =1
• Une série statistique simple associée à un seul caractère X est l’ensemble :
X = xi 0 1 2 3 4 5
Effectif n i 16 18 14 11 3 2
On peut donner aussi le tableau des fréquences :
X = xi 0 1 2 3 4 5
Fréquence f i 25% 28.1% 21.8% 17.2% 4.7% 3.1%
Le tableau des effectifs cumulés décroissants (qu’on va noter par Ni &) est :
2 74.9%
3 92.1%
4 96.8%
5 100%
Le tableau des fréquences cumulés décroissants (qu’on va noter par Fi &) est :
2 46.9%
3 25.1%
4 7.9%
5 3.2%
Exemple 3
Dans un établissement scolaire, on considère 60 élèves ayant subi un même examen et on se propose d’étudier
leurs notes. Le caractère X étudié est donc la note d’un élève à l’examen.
On regroupe les notes et on dresse le tableau des effectifs suivant :
Elles permettent de voir d’un coup d’oeil les caractèristiques (Médiane, Mode, ...) de la série statistique
étudiée et de comparer des séries différentes.
On trace des segments verticaux (des bâtons) joignant, chacun, une valeur du caractère portée en abs-
cisse (modalité x i ) et l’effectif (ou la fréquence) associée. En joignant les sommets on obtient, ce qu’on
Pour une répartition d’un caractère continu X en classes du type [x i −1 , x i [, ∀1 ≤ i ≤ p, ayant chacune
un effectif n i (ou fréquence f i ), on porte les x i en abscisse et on construit au dessus de chaque classe
ni fi
[x i −1 , x i [ un rectangle de hauteur (ou ), de telle façon que l’aire de ce rectangle (A =
x i − x i −1 x i − x i −1
n
base × haut eur = e i × e i ) soit égale à l’effectif n i (ou la fréquence f i ). En repérant, en haut de chaque
i
rectangle de l’histogramme des effectifs (ou des fréquences), le point correspondant au centre de la
classe associée et en joignant ces points on obtient le polygone des effectifs (ou des fréquences).
Remarque : Dans le cas d’un caractère qualitatif, la représentation graphique est par diagramme en
barres (ou on dit en bâtons), c’est le même principe que pour le cas d’un caractère quantitatif Discret.
Pour le cas discret, la représentation du polygone (des Ni ou des Fi croissants % ou décroissants &) est
de la même manière que celle d’un polygone des effectifs (ou des fréquences) : on porte en abscisses les
x i et en ordonnées les effectifs cumulés (ou fréquences cumulées) (coissants ou décroissants) corres-
pondants ("selon la donnée de l’exercice").
Pour le cas continu, si les classes [x i −1 , x i [, ∀1 ≤ i ≤ p, ont des effectifs n i (ou des fréquences f i ) : on
porte en abscisse les points x i et en ordonnée les effectifs cumulés (ou les fréquences cumulées) d’ordre
i correspondants.
Une caractéristique de position est un nombre autour duquel se répartissent les valeurs observées.
Soit X un caractère qui prend les modalités x i (ou les classes [x i −1 , x i [) avec les effectifs n i , ∀1 ≤ i ≤ p.
IV.1.1 Moyenne
La moyenne observée (ou on dit empirique) d’un n-échantillon aléatoire (c.à.d échantillon de taille n)
est la caractéristique de position, notée x qui est définie comme suit :
p
1X
x= ni xi ,
n i =1
Pp
où n = i =1
n i est l’effectif total.
• On peut considérer que x est le centre de gravité (ou barycentre) des points x i (c i dans le cas continu)
affectés des coefficients n i .
p
X
• On peut aussi écrire que x = f i x i (et dans le cas continu, toujours on remplace les x i par les c i , et
i =1
p
X
alors x = f i c i ), où les f i sont les fréquences relatives.
i =1
La caractéristique x est une estimation de la moyenne (l’espérance théorique) de la variable, lors-
qu’elle existe, sur toute la population de référence. (Voir Chapitre Estimation).
IV.1.2 Médiane
• C’est une valeur notée par Me du caractère X qui partage la population étudiée en deux : L’effectif pour
lequel X < Me est égal à l’effectif pour lequel X > Me (les observations à 50%).
C’est aussi une valeur du caractère X dont la fréquence cumulée est aussi voisine que possible de 12
ou aussi dont l’effectif cumulé est aussi voisine que possible de n2 .
• Dans le cas le plus important d’un caractère X continu, on détermine d’abord la classe contenant la
médiane, puis on opère une interpolation linéaire entre les deux extrémités de la classe :
Suppposons que Me ∈ [x k−1 , x k [ (c’est la classe médiane). La formule d’interpolation linéaire est la
suivante : n
− N(x k−1 )
Me = x k−1 + 2 × (x k − x k−1 ),
N(x k ) − N(x k−1 )
où N est la fonction des effectifs cumulés.
Ou bien, en utilisant la fonction des fréquences cumulées F :
1
2 − F(x k−1 )
Me = x k−1 + × (x k − x k−1 ).
F(x k ) − F(x k−1 )
On peut déterminer la médiane aussi graphiquement, en utilisant le polygone des effectifs cumulés
ou des fréquences cumulées (par projection sur la graphique). Ainsi, la médiane sera le réel Me tel que
F(Me ) = 12 ou N(Me ) = n2 . Sur la représentation graphique on cherche l’abscisse correspondant à 21 (si
on travaille avec le polygone des fréquences cumulées) et on cherche l’abscisse correspondant à n2 (si
on travaille avec le polygone des effectifs cumulés).
IV.1.3 Mode
Le mode noté par Mo est la valeur que nous observons le plus fréquemment. Mo est la valeur du carac-
tère correspondant donc à la plus grande fréquence (ou effectif).
Dans le cas continu, on parle du classe modale, c’est la classe la plus haute sur l’histogramme auquel
cas on parle de classe modale.
Une distribution peut être uni modale (admet un seul mode) ou plurimodale (admet plusieurs modes).
IV.1.4 Percentiles
Une caractéristique de dispersion mesure la variabilité des valeurs d’une série statistique. Il est toujours
positif et d’autant plus grand que les valeurs de la série sont étalées. Les plus courants sont l’écart-
moyen, la variance, l’écart-type et l’écart interquartile.
ELEVE 1 0 5 10 15 20
EFFECTIF 1 1 1 1 1
ELEVE 2 9 10 11
EFFECTIF 2 1 2
A la fin de l’année les deux élèves ont la même moyenne 10, mais il est clair que leurs parcours ne sont
pas comparables : l’élève 2 est très régulier autour de la moyenne, alors que l’élève 1 a des résultats
complètement dispersés.
IV.2.1 Ecart-Moyen
L’écart-moyen donne une bonne idée de la distance des données à la moyenne de ces données. L’écart-
moyen d’un caractère X prenant des valeurs x 1 , ..., x p avec des effectifs n 1 , ..., n p , est définit par :
p p
1X X
em = n i | x i − x |= f i | xi − x | .
n i =1 i =1
Dans le cas continu, on remplace les x i par les centres c i des intervalles [x i −1 , x i [.
IV.2.3 Ecart-interquartile
L’écart interquartile est une autre étendue utilisée comme mesure de la dispersion. La différence entre
les quartiles supérieur et inférieur (Q3 − Q1 ), qu’on appelle l’écart interquartile, indique aussi la disper-
sion d’un ensemble de données. L’écart interquartile couvre 50% d’un ensemble de données et élimine
l’influence des valeurs aberrantes (de l’extérieur), parce qu’on soustrait, en effet, le quartile le plus élevé
et le quartile le plus faible.
Ecart-interquartile= Q3 − Q1 .