Académique Documents
Professionnel Documents
Culture Documents
CHAPITRE I-1
Introduction
"L’échantillonnage, c’est regarder attentivement une partie d’une chose afin d’en apprendre plus sur
la chose dans son entier." Feuerstein (1969, 1983)
"L’échantillonnage est une action ou étape d’une enquête quantitative qui consiste à sélectionner les
individus que l’on souhaite interroger au sein de la population de base." J. Giannelloni, E. Vernette,
Etudes de marché.
-L’échantillonnage a pour but d’extrapoler les résultats obtenus sur une petite partie à la population
parente.
-Il permet de former des conclusions au sujet d’un tout en y examinant une partie et de présumer les
caractéristiques d’une population après avoir observé une partie de l’ensemble de cette dernière. Ce
processus nécessite donc d’étudier trois éléments essentiels: la population mère, la base de sondage
et l’échantillon.
1. Terminologie statistique
1.1. Population statistique
On appelle population statistique l'ensemble des individus sur lesquels porte l'étude
statistique.
Le mot population désigne l’ensemble des unités parmi lesquelles l’échantillon est prélevé. Sa taille,
habituellement désignée par N, est grande, ou même infinie.
L’unité d’échantillonnage est l’élément (de l’objet étudié) sur lequel vont se porter les mesures des
variables.
Cet élément doit être défini a priori pour être identifié sans ambiguïté. La population est donc
subdivisée en unités appropriées à l’objet de l’enquête, appelées unités d’échantillonnage.
Une variable est une information dont on recueille ou on observe ou on mesure la valeur sur chaque
individu. On parle de variable parce que la valeur de l’information n’est pas la même d’un individu
à l’autre.
Un échantillonnage est un tirage d’un certain nombre d’individus (ou unités) dans une population.
Échantillonnage systématique
Un échantillonnage est systématique si les individus sont sélectionnés à intervalles réguliers (ex :
une mesure journalière tous les six jours).
Pr. A. EL Hammadi 2020-2021
Master Spécialisé Procédés d’Analyse et Contrôle Qualité (PACQ)
CHAPITRE I-1
Temps
pas de mesure
mesure
Figure 1 - Illustration d’un échantillonnage systématique.
Échantillonnage aléatoire
Temps
pas de mesure
mesure
Figure 2 - Illustration d’un échantillonnage aléatoire simple.
Recueil des valeurs de la totalité des individus de la population. Les valeurs recueillies sont les
données.
Un sondage est le recueil des valeurs d’une partie (l’échantillon) d’effectif n (d’où l’expression n-
échantillon) de la population (dite base de sondage).
Le taux de sondage est le rapport n/N.
On appelle variable une caractéristique commune à l'ensemble des individus d'une étude.
La valeur de cette caractéristique varie entre les individus. C'est pour cela que nous parlons de
variables.
On distingue les variables qualitatives, quantitatives et temporelles.
Elles peuvent prendre n'importe quelle Elles ne peuvent prendre que des
valeur numérique entière ou décimale. valeurs numériques entières.
Elles peuvent avoir une infinité de Elles se distinguent par le fait que le
décimales. passage d'une valeur à une autre est
discontinu.
La seule limite à ce continuum est la précision
de la mesure Exemple :
Exemple : Poids (kg) de cinq individus :
- La pointure des chaussures : 40, 37
55.5 ; 60.8 ; 75..8 ; 50.4 ; 45.7 - Nombre de frères et sœurs : 3 ou 4
Supposons une population finie composée d’unités U1, U2, …, UN. Notons yi la valeur de la
caractéristique de la i-ème unité. La moyenne arithmétique est :
1 N
Y pop yi
N i 1
La variance de la population est une mesure de la variation entre les unités de la population :
SY2
1
yi Y 2 1 yi2 Y 2
N i 1 N i 1
SY
1
yi Y 2 1
yi2 Y 2
N i 1 N i 1
On décrit en figure ci-dessous, deux exemples de populations de moyennes égales, mais d’écarts-
types différents.
yi Y yi2 Y 2
1 2 1
Y2
N 1 N 1
i 1 i 1
y i Y yi2 Y 2
1 2 1
Y
N 1 N 1
i 1 i 1
Sy
C.V .
Y pop
Du fait qu’il est adimensionnel, le coefficient de variation est un instrument précieux pour comparer
les variations de deux ou plusieurs populations ou ensembles d’observations.
1er cas : Prenons un exemple de population, avec 5 individus, et dont les valeurs ordonnées sont :
Dans ce cas, la médiane de population est égale à 2.8. Cet exemple est facile car le nombre
d’individus dans la population est impair, si bien qu’il existe une valeur ”au milieu” des autres.
2ème cas : Dans le cas où l’effectif de la population est pair, il y a plutôt deux valeurs ”au milieu”
des autres, et il est d’usage de retenir la moyenne des deux.
Fait important : la moyenne est plus sensible aux valeurs extrêmes que la médiane.
Prenons l’exemple d’une petite entreprise de 9 personnes, dont les salaires nets mensuels (en
dirhams) sont donnés par :
Dans cet exemple, la médiane de population vaut 11600 Dh, alors que la moyenne de population
vaut environ 15555.6 Dh.
Si le salaire du patron était encore plus élevé, par ex de 85000 Dh au lieu de 35000, alors la
moyenne passerait à 21111 Dh environ, mais la médiane resterait inchangée.
L’écart-type n’est pas la seule mesure de dispersion. En effet, deux populations de moyennes et
d’écarts-types égaux peuvent malgré tout avoir des histogrammes de formes différentes.
De même que nous avons défini la médiane d’une population, on peut définir le premier quartile Q1
et le troisième quartile Q3 de la façon suivante :
x1 x2 x3 x 4 Q1 ........... x i ............ x N 2 x N 1 xN
aumoins 75% des individus
au moins75% des individus
x1 x2 x3 x 4 ........... x i ..........Q3 .. x N 2 x N 1 xN
On appelle écart interquartile d’une population la différence Q3-Q1. Cette différence est la largeur
d’un intervalle qui contient au moins 50% de la population. Plus cette différence est élevée, et plus
les valeurs de la population sont dispersées.
Le rectangle du milieu s’étend du premier quartile Q1 au troisième quartile Q3, et le trait vertical du
milieu correspond à la médiane.
Les traits horizontaux, qu’on appelle les moustaches, englobent encore davantage de valeurs de la
population. Pour simplifier, la convention que nous utiliserons est de placer les extrémités des
moustaches au premier décile (10% des valeurs en dessous) et au neuvième décile (10% des valeurs
au-dessus). Attention néanmoins : en biologie, la convention est souvent un peu différente
(longueur des moustaches égale à 1.5 fois l’écart interquartile).
Si quelques valeurs de la population ne sont pas comprises entre les extrémités des moustaches,
celles-ci sont figurées par des points à part ; on parle de valeurs extrêmes ou « «outliers = valeurs
aberrantes».
Exemple : Soit l'expérience aléatoire : "On lance un dé à six faces et on regarde le résultat."
L'ensemble de toutes les issues possibles = {1 ; 2 ; 3 ; 4 ; 5 ; 6} s'appelle l'univers des possibles.
On considère l'événement A : "On obtient un résultat pair."
On a donc : A = {2 ; 4 ; 6}.
On considère l'événement élémentaire E : "On obtient un 3".
On a donc : E = {3}.
Définitions :
- Chaque résultat d'une expérience aléatoire s'appelle une issue.
- L'univers des possibles est l'ensemble des issues d'une expérience aléatoire.
- Un événement est un sous-ensemble de l'univers des possibles.
- Un événement élémentaire est un événement contenant une seule issue.
Définition : Une variable aléatoire X est une fonction définie sur un univers et à valeur dans ℝ.
Définition : Soit une variable aléatoire X définie sur un univers et prenant les valeurs x1, x2, ...,
xn. La loi de probabilité de X associe à toute valeur xi la probabilité P(X = xi).
En utilisant les données du tableau suivant, on peut calculer tous les nombres Na et on obtient :
Définitions : Soit une variable aléatoire X définie sur un univers et prenant les valeurs x1, x2, ...,
xn. La loi de probabilité de X associe à toute valeur xi la probabilité pi = P(X = xi).
a. L'espérance mathématique de la loi de probabilité de X est :
n
E ( X ) p1 x1 p 2 x 2 p3 x3 ....... p n x n p i xi
i 1
L'espérance est donc la moyenne que l'on peut espérer si l'on répète l'expérience un grand
nombre de fois.
-. L'écart-type est donc une caractéristique de dispersion "espérée" pour la loi de probabilité
de la variable aléatoire.
Définition : Formellement, le biais de l'estimateur d'un paramètre est la différence entre la valeur de
l'espérance de cet estimateur (qui est une variable aléatoire) et la valeur qu'il est censé estimer
(définie et fixe =q).
Si X̂ est l'estimateur de X, Biais( Xˆ ) E( Xˆ ) q )
X̂ est appelée estimateur non biaisé d’un paramètre q de la population si son espérance
mathématique (ou valeur probable), notée E ( Xˆ ) , est égale à q.
E( Xˆ ) q
Avec une procédure d’échantillonnage de type probabiliste, on obtient, par répétition, un certain
nombre d’échantillons possibles.
Si les valeurs de X̂ sont calculées pour chaque échantillon possible et si la moyenne des valeurs est
égale à la valeur q associée à la population, on dit que X̂ est un estimateur non biaisé de q, basé sur
la procédure d’échantillonnage.
Si X̂ n’est pas égal à q , X̂ est un estimateur biaisé de q et le biais est donné par :
Biais( Xˆ ) E( Xˆ ) q
L’introduction d’un processus réellement aléatoire pour la sélection d’un échantillon est un pas
important pour éviter les biais.
La différence entre une estimation d’un échantillon et la valeur de la population est appelée erreur
d’échantillonnage de l’estimation; on ne connaît évidemment pas l’amplitude de cette erreur
puisqu’on ne connaît pas la valeur de la population.
Exemple : Soit un échantillon de n individus et soit Xéch la valeur moyenne des xi (i=1,2,….n) :
n
xi
1
X éch
n
i 1
X éch X pop = Erreur d’échantillonnage
L’exactitude se réfère habituellement à l’ampleur des écarts entre l’estimation d’un échantillon et la
moyenne m = E (X) qui serait obtenue en appliquant plusieurs fois le procédé expérimental, le biais
étant ainsi mesuré par m - q .
Le point le plus important, c’est l’exactitude de l’estimation d’un échantillon, la précision avec
laquelle nous sommes capables de mesurer, dans la majorité des cas. Nous nous efforçons de
concevoir l’enquête et d’analyser les données en utilisant des méthodes statistiques propres à
maximiser la précision et à minimiser le biais.
Une variable suivra une loi normale si : elle dépend d'un grand nombre de causes,
indépendantes, dont aucune n'est prépondérante et dont les effets s'additionnent (ces
conditions définissant la loi normale sont appelées conditions de Borel).
Une Loi normale possède deux paramètres : le premier correspond à son espérance (sa
"moyenne") et sera donc noté : ; le second correspond à son écart-type (à la racine carrée
de sa Variance) et sera donc noté σ.
Une loi normale de paramètres et σ sera notée : N (,σ).
Comme c'est une variable aléatoire continue, les probabilités ponctuelles sont nulles et l'on définit
une densité de probabilité :
Pr. A. EL Hammadi 2020-2021
Master Spécialisé Procédés d’Analyse et Contrôle Qualité (PACQ)
CHAPITRE I-1
Ainsi, par un changement de variable, on peut ramener une loi normale quelconque à une loi
normale de paramètres 0 et 1 (appelée loi normale centrée réduite).
Si l'on trace la courbe représentative de la densité de probabilité, on obtient une courbe en forme de
cloche symétrique par rapport à l'axe des ordonnées :
Cet intervalle est appelé l’intervalle de confiance du paramètre X car la probabilité que X dont la
ˆ ˆ
valeur est inconnue se trouve compris entre X 1 et X 2 est égale à 1- le coefficient
de confiance P( Xˆ 1 X Xˆ 2 ) 1
Un intervalle de confiance indique la précision d’une estimation car pour un risque donné,
l’intervalle est d’autant plus grand que la précision est faible comme l’indiquent les graphes ci-
dessous. Pour chaque graphe, l’aire hachurée en vert correspond au coefficient de
risque Ainsi de part et d’autre de la distribution, la valeur de l’aire hachurée vaut α/2 .
α= 0,01
α = 0,05
α = 0,10
Etablir l’intervalle de confiance autour de la moyenne revient à établir la valeur de z pour une
valeur du coefficient de confiance 1 – α donnée par l’expérimentateur.
En effet :
Si P( X z X z ) 1 alors P( z X z ) 1
Connaissant la loi suivie par la v. a. X et d’après le théorème central limite, nous pouvons établir
z X z X
P 1
sachant que
N (0,1) (conditions)
n n n n
z
par conséquent
correspond à la valeur de la variable normale réduite pour la
n
z
Ainsi z
n
n
On veut connaître le poids moyen de ce corps dans la population avec un coefficient de confiance
de 99%. avec = 64,33g et 2.576
0.039
alors z 2.576 * 0.058 et donc X 64 .33 0.058 g
n 1.732 n
d’où le poids moyen de ce corps est compris dans l’intervalle [64,27 ; 64,39] avec une probabilité
de 0,99 (soit 99%).
La valeur de est donnée par la table de l’écart-réduit pour une valeur donnée
= 0,01 = 2,576
= 0,05 = 1,960
= 0,10 = 1,645
Le raisonnement reste le même mais la variance de la population doit être estimée par
n
ˆ 2 S2
n 1
Si P( X z X z ) 1 alors P( z X z ) 1
Connaissant la loi suivie par la v. a. et celle suivie par la variable centrée réduite, on peut établir
z X z
P ˆ ˆ ˆ 1
n n n
X
sachant que T (n 1 d .d .l.) (conditions)
n
z
par conséquent ˆ
correspond à la valeur de la variable de student pour une valeur de
n
z ˆ
Ainsi t z t
n
n
Définition : Si Y est une variable aléatoire prenant les valeurs y1,...,yn avec les
probabilités p1,...,pn. L'espérance mathématique de X est le réel :
N
E (Y ) yi pi
i 1
N
V (Y ) pi ( xi ) 2 E (Y ) 2
i 1
(Y ) V (Y )
- E(X+Y)=E(X)+E(Y)
- E(λX+Y)=λE(X)+E(y)
Exemple : On lance un dé. On perd 2 dirhams si on tire 1 ou 2, on gagne 0,5 dirhams si on tire
3 et enfin on gagne 1dirham si on tire 4, 5 ou 6.
On a ainsi
X(1)=X(2)=−2
X(3)=0,5
X(4)=X(5)=X(6)=1
xi -2 0.5 1
E(X)=(1/3)x(-2)+(05)x((1/6)+(1/2)x(1)=(-0.5/6)=(-1/12)
Concrètement, elle signifie que si on joue un très grand nombre de fois à ce jeu, en moyenne,
on perd 1/12 dirhams par partie.