Vous êtes sur la page 1sur 55

SOMMAIRE

CHAPITRE 1 : La statistique. Collecte de l’information. Tableaux et


graphiques………………………………………………………………….
1. La statistique : définition et vocabulaire…………………………………………...
2. La collecte de l’information………………………………………………………….
3. Dépouillement des observations……………………………………………………..
4. Tableaux statistiques…………………………………………………………………
5. Graphiques……………………………………………………………………………

CHAPITRE 2 : Traitement des séries statistiques a un caractère………..


1. Réduction des données………………………………………………………………
1.1 Introduction…………………………………………………………………………
1.2 Paramètres de tendance centrale…………………………………………………..
1.3 Paramètres de dispersion…………………………………………………………..

CHAPITRE3 : Analyse combinatoire………………………………….….


1. Cardinal d’un ensemble……………………………………………………………
2. Nombre de p-listes d’un ensemble ayant n éléments…………………………….
Nombre
d’arrangements…………………………………………………………….. .Nombre de
combinaisons…………………………………………………………….
5. Récapitulation………………………………………………………………………

CHAPITRE 4 : Introduction à la notion de probabilité………………….


1. Introduction…………………………………………………………………………
2. Axiomes et définitions……………………………………………………………...
3. Corollaires……………………………………………………………………….….
4. Relation fondamentale (dit théorème de probabilités totales)…………………..
5. Probabilité conditionnelle (ou liée)……………………………………………..….
6. Indépendance en probabilité………………………………………………….…...
7. Exemple d’application………………………………………………………..…….
CHAPITRE 5 : Lois de probabilité………………………………………... 
Distribution binomiale…………………………………………………....
1. Généralités…………………………………………………………………………...
2. Définition…………………………………………………………………………….
3. Propriétés………………………………………………...………………………….
4. Domaine d’application………..…………………………………………………..…
Loi de Poisson…………………………………………………………..…
1. Définition…………………………………………………………………………..…
2. Propriétés………………………………………………………………………….....
3. Domaine d’application……………………………………………………………....
La loi normale ou de Laplace- Gauss…………………………………....
1. Variable normée…………………………………………………………………..…
2. Définition de la loi normale……………………………….……………………..….
3. La loi normale centrée réduite…………………………………………………..….

1
4. Usage de la table de la fonction N(0,1)……………………...……………………...
5) La fonction intégrale II (t) de la loi normale, centrée, réduite N(0,1)……………
6) Usage de la table intégrale II (t)…………………………………………………….

CHAPITRE 6 : Echantillonnage. estimation…………………………….....


1. Notions sur les sondages…………………………………………………………..…
2. Vue d’ensemble sur l’échantillonnage et l’estimation……………………………..
3. Les méthodes d’échantillonnage………………………………………………….....
4. Distribution d’échantillonnage……………………………………………………...
5. Estimateurs…………………………………………………………………………...
6. Estimation……………………………………………………………………….....…

2
Chapitre 1

La STATISTIQUE. COLLECTE DE L’INFORMATION.


TABLEAUX GRAPHIQUES

1. LA STATISTIQUE : DEFINTION ET VOCABULAIRE

. La statistique est une méthode scientifique qui consiste à réunir des données
chiffrées sur des ensembles nombreux, puis à analyser, à commenter et à critiquer ces
données.
Cette science n’a pas pour objet la connaissance des éléments des ensembles dans ce
qui fait leur individualité, mais au contraire dans ce qu’ils ont en commun : il s’agit
d’obtenir des résultats globaux. Ainsi, une enquête statistique portant sur des personnes
n’a pas besoin de faire intervenir leurs noms, mais seulement les renseignements que l’on
désire étudier : elle permet de connaître la répartition de ces personnes par âge, sexe,
couleur de cheveux, profession ou groupe de sanguin…
- Comme toute science, la statistique fait appel à un vocabulaire spécialisé.
- Les ensembles sont appelés population. Comme un ensemble, une population
statistique doit être clairement définie.

Exemples

1 : Population de chômeurs : il faut préciser s’il s’agit des inscrits à l’ANPE (Agence
nationale pour l’emploi), des personnes se déclarant sans travail ou à la recherche du
travail. En outre, les précisions de temps et de lieu s’imposent.
2 : Population d’automobiles produites par une usine : il faut préciser le mode
comptage d’automobiles.

- Les éléments de la population sont appelés individus ou unités statistiques, que


ce soit des hommes comme dans l’exemple 1 ou des automobiles comme dans
l’exemple 2.
- La population est étudiée selon un ou plusieurs caractères : ce sont des «
facettes » que présentent les individus de la population.

Dans l’exemple 1, on peut s’intéresser aux caractères « âges », « qualification


professionnelle », « nombre d’enfants à charge »… Dans l’exemple 2, le caractère
pourrait être « le nombre de chevaux fiscaux », « La couleur », « le nombre de
places », « le degré de luxe, etc. Le choix d’un caractère dépend de l’objectif que
l’on assigne à l’étude.

- un caractère permet de déterminer une répartition de la population selon ses


diverses modalités. Ainsi, le sexe est un caractère à deux modalités : masculin et
féminin ; la qualification professionnelle peut avoir un nombre de modalités qui
dépend de la précision recherchée.
- Lorsque les modalités du caractère sont des nombres, le caractère étudié est dit :
quantitatif ; on lui donne souvent alors le nom de variable statistique. Une

3
variable statistique peut être discrète s’il ne prend que des valeurs isolées, ou
continue, si elle peut prendre toutes les valeurs d’un intervalle donné.
- Lorsque les modalités du caractère ne sont pas mesurables. Le caractère est dit
qualitatif. Les modalités d’un caractère peuvent faire l’objet d’une nomenclature
ou énumération ; la nomenclature doit être en principe courte (une dizaine de
modalités pour une étude statistique simple).

Exemple : pour les chômeurs, l’âge est un caractère quantitatif continu ; Le nombre
d’enfants à charge est un caractère quantitatif discret. Pour les automobiles, la couleur
est un caractère qualitatif.

2. La collecte de l’information

Le premier objet de la méthode statistique est de réunir les informations avant de les
traiter. Il existe différentes méthodes pour réunir des statistiques ; nous nous bornerons à
quelques généralités.

2.1. Objectif de l’information. Enquête.

Il importe, dés le départ, de bien définir l’objectif ou les objectifs de l’étude, avant de
réaliser l’enquête. Si un élément est oublié dans les premières recherches, il risque d’être
long et coûteux de le rechercher ensuite.

Exemple

Si on réalise une enquête sur l’emploi dans un secteur déterminé, il ne faut pas oublier
aucune variable ; on peut interroger les personnes en leur demandant leur qualification
professionnelle, leurs âges, prétention salariales.

2.2. quantité d’information.

Cependant, il ne faut pas être très ambitieux. Il ne doit pas y avoir de lacune dans
l’information, mais il ne doit non plus y avoir trop d’information.

2.3. Collecte des données.

Les données sont recueillies soit par observation directe. Soit indirectement.

- S’il s’agit d’observation directe, l’enquête est menée par les statisticiens, à des fins
uniquement statistiques. D’une manière ou d’une autre, cette enquête aboutit à des
questionnaires que le statisticien est ensuite amené à dépouiller. Ces questionnaires
portent soit sur chaque unité statistique, soit déjà sur un groupe d’unités
statistiques ; dans ce dernier cas, Les résultats sont déjà sous forme de tableau.

La réalisation des questionnaires est délicate. Autant que possible, ils ne doivent pas
être trop longs. Pour avoir plus de chances d’être remplis correctement ; cependant ils doivent
contenir toute l’information désirée. Par ailleurs, ils ne doivent présenter aucune ambiguïté
(aucune question qui pourrait être mal comprise). Il est souvent nécessaire de tester un
questionnaire sur quelques personnes avant de le lancer.

4
Il est souhaitable que l’enquête puisse atteindre toutes les unités statistiques et par
conséquent qu’il n’y ait pas « non-réponses ». Pour cela, les statisticiens recourent à tous les
moyens d’incitation en leur pouvoir ; cependant, ce point reste difficile.

- Les statistiques recueillis par observation indirecte sont des sous produits d’autre
travaux : statistiques d’une entreprise tirées de sa comptabilité (ONE, LYDEC…).
Ce moyen est plus économique que le précédent, et a souvent l’avantage de
recouvrir avec certitude toute la population à étudier ;

2.4. Différents mode de collecte de l’information.

- les résultats statistiques peuvent être obtenus à partir d’une enquête exhaustive
instantanée (dénombrement instantané ou recensement) ou d’un relevé continu.
C’est ainsi que les statistiques démographiques viennent de deux sources : les
recensements de la population, à date fixe, et les statistiques du « mouvement » de
la population dressées à partir de l’état civil.

- De même, l’enquête peut être exhaustive ou partielle. L’enquête exhaustive porte


sur toutes les unités de la population ; elle est utile, mais souvent coûteuse. C’est
pourquoi on a souvent recours à des enquêtes partielles faites sur un échantillon de
la population : il s’agit alors d’un sondage. La méthode des sondages consiste à
déterminer un échantillon représentatif, de manière que les résultats statistiques
soient voisins de la population

3. Dépouillement des observations

Lorsque l’information a été obtenue indirectement ou par enquête, elles doivent être
classées et exploitées. Auparavant, une critique des réponses reçues doit être faite. Afin
d’éliminer les contradictions et les invraisemblables. Pour chaque caractère à étudier,
on définit un certain nombre de classes selon les modalités. Puis on fait le tri des
observations, c’est à dire une répartition entre classes.

4. Tableaux statistiques

Le premier résultat d’un dépouillement est normalement un tableau de nombres. Ces


tableaux peuvent être de simple résultat de dépouillent par classe, ou faire intervenir à la
fois deux caractères, lorsque le nombre de données est très élevées, l’analyse des données
statistiques devient difficile, on a recours à un regroupement des données sous forme de
classes à fin que l’étude soit beaucoup plus simple à faire et que les résultats soient simple
à interpréter.
Soit une population de n individus désignés par :
U1, U2, U3, …., Un
Ui : désigne le ième individu.

Soit X un caractère statistique supposé à k modalités notées par :

M1, M2, M3, …., Mn

5
4. 1. Cas d’un caractère qualitatif

On étudie la population suivant le caractère X. Les données relatives à cette distribution


peuvent être groupées dans le tableau suivant :

Tableau 1

Modalités Mi Effectif ni Fréquences relatives fi


M1 n1 f1
M2 n2 f2
. . .
. . .
. . .
Mi ni fi
. . .
. . .
. . .
Mk nk fk
Total n 1
ni : représente le nombre d’individus possédant la modalité Mi

fi : représente la proportion d’individus possédant la modalité Mi

ni
f i= avec 1≤i≤k 0≤f i ≤1
n
k
On a : n=∑ ni =n1 +n 2 +n3 +.. . ..+n k
n=1
k
et ∑ f i=f 1 + f 2 + f 3 + .. .+f k =1
i =1

Exemple 1

On a observé la nature du baccalauréat des étudiants de 2007-2008.


Le caractère étudié : la nature du Bac
La population : les étudiants
L’unité statistique : un étudiant de 2007-2008
Les modalités : Bac sc ex, sc eco, s, lettre.
Tableau 2

Modalités Mi Effectif ni Fréquences relatives fi


Bac Sciences expérimentales 8 8/12=0.66
Bac S 2 2/12=0.17
Bac lettres 2 2 /12=0.17
Total n=12 1.00

6
7
4. 2. Cas d’un caractère quantitatif
4. 2. 1. Cas d’un caractère quantitatif discret 

Dans ce cas le caractère est mesurable les modalités sont discrètes (cas d’un dénombrement)
qu’on note : x1, x2, x3, …., xn.

Ces valeurs x1, x2, x3, …., xn sont différentes et rangées par ordre croissant.

On peut définir les effectifs cumulés croissants :

Ni : est la somme des effectifs correspondant aux valeurs du caractère inférieures ou égale à xi

N 1 =n1
N 2 =n1 +n2
N 3 =n1 +n2 +n 3
.
.
.
N i=n1 +n 2 +. .. .+ni =N i−1 +n i avec i=1 , 2 , ,. .. , k

.
.
N k =n1 +n2 +. . ..+n k =n

Et les fréquences relatives cumulées croissantes :

F1 =f 1
F2 =f 1 +f 2
F3 =f 1 +f 2 +f 3
.
.
.
Fi =f 1 +f 2 +. .. .+f i avec i=1 , 2 , , .. . , k
=F i−1 +f i
.
.
F k=f 1 +f 2 +. . ..+f k =1

8
On peut définir les effectifs cumulés décroissants :

Ti : est la somme des effectifs correspondant aux valeurs des caractères supérieurs ou égaux à
xi

T 1 =n
T 2=n−( n1 )
T 3 =n−(n1 +n 2 )
.
.
.
T i =n−(n 1 +n2 +.. ..+ni−1 )=T i−1−ni−1 avec i=1 , 2 , ,.. . , k

.
.
T k=n−(n1 +n 2 +. .. .+nk −1 )=nk

Et les fréquences relatives cumulées décroissantes :

G 1=1. 00
G 2 =1−f 1
G 3 =1−( f 1 +f 2 )
.
.
.
G i=1−( f 1 +f 2 +... .+f i−1 ) avec i=1 , 2 , ,. . .,k

=G i−1−f i−1
.
.
G k =1−(f 1 +f 2 +.. ..+f k −1 )

9
Exemple2

Une entreprise de bâtiment possède 100 appartements dont la répartition selon le nombre de
chambres est la suivante (voir tableau ci-dessous) :

Population : L’ensemble des 100 appartements.


Caractère étudié : Nombre de chambres.
Nature du caractère : quantitatif discontinu (discret)
Modalités  : Le nombre de chambres.

Tableau 3

Nombre Effectifs Fréquences Effectifs Effectifs Fréquences Fréquences


de ni relatives fi cumulés cumulés relatives relatives
chambres croissants décroissants cumulées cumulées
Ni Ti croissantes décroissantes
Fi Gi
1 36=n1 36/100=0.36 36 100 0.36 1.00
2 18=n2 18/100=0.18 54=36+18 100-36=64 0.54 0.64
3 24 24/100=0.24 78=54+24 64-18=46 0.78 0.46
4 10 10/100=0.10 88=78+10 46-24=22 0.88 0.22
5 12=n5 12/100=0.12 100=88+12 22-10=12 1.00 0.12
Total 100=n 1.00

Explication :

 L’effectif cumulé croissant permet de répondre à des


questions de type : quel est le nombre d’appartements ayant
au plus k pièces (1≤k≤5). Par exemple le nombre
d’appartements ayant au plus 3 pièces est : 78 (3èm ligne de
l’effectif cumulé croissant :1 ou 2 ou 3 pièces)
 L’effectif cumulé décroissant permet de répondre à des
questions de type : quel est le nombre d’appartements ayant
au moins k pièces (1≤k≤5). Par exemple le nombre
d’appartements ayant au moins 4 pièces est : 22 (4èm ligne de
l’effectif cumulé décroissant : 4 ou 5 pièces)
 Le nombre d’appartements ayant 2 pièces est : 18
 Le pourcentage d’appartements ayant 3 pièces est : 24%

4.2. 2 Cas d’un caractère quantitatif continu

Pour un caractère quantitatif continu les modalités sont des classes de valeurs de la
forme : ]e0, e1] ; ]e1, e2] ; ]e2, e3] ; …. ; ]ek-1, ek] . On a k modalités (classes) prises fermées à
droite et ouvertes à gauche (ou l’inverse).

10
On notera :
ni : Effectif de classe ]ei-1, ei] (nombre d’unités ou de personnes dont la valeur
de la variable appartient à la classe ]ei-1, ei] 
Ni : Effectif cumulé croissant correspondant au nombre d’unités ou de
personnes dont la valeur variable appartient à la classe]e0, ei] 
Ti : Effectif cumulé correspondant au nombre d’unités ou de personnes dont la
valeur de la variable appartient à la classe]ei, ek] 

Tableau 4

Effecti Fréquence Effectifs Effectifs Fréquences Fréquences


Caractè fs s relatives cumulés cumulés relatives relatives
re ni fi croissants décroissants cumulées cumulées
étudié Ni Ti croissantes Fi décroissantes
Gi
]e0, e1] n1 n1/n=f1 n1 n f1 1
]e1, e2] n2 n2/n=f2 n1+n2 n-n1 f1+f2 1-f1
]e2, e3] n3 n3/n=f3 n1+n2+n3 n-n1-n2 f1+f2+f3 1-f1-f2
. .
. .
]ei-1, ei] ni ni/n=fi n1+n2+…+ni n-n1-n2-...ni-1 f1+f2+…+fi 1-f1-f2-...fi-1
. .
. .
. .
]ek-1, ek] nk nk/n=fk n=n1+n2+…+nk n-n1-n2-...nk-1= 1=f1+f2+…+fk 1-f1-f2-...fk-1=fk
nk

Total n 1

5. Graphiques

5.1 Cas de distributions quantitatives.

Les graphiques correspondant à des distributions quantitatives sont normalement


réalisés en portant en abscisse la variable observée, et en ordonnée l’effectif ou la
fréquence.
- Dans le cas d’une variable discrète, le graphique re présentant la répartition est un
diagramme à bâtons : l’effectif est représenté par un segment de droite ; ainsi apparaît
la discontinuité entre deux valeurs de la variable. Un exemple mettra cette représentation
en évidence.

Les graphiques correspondant à des distributions quantitatives sont normalement réalisés


en portant en abscisse la variable observée, et en ordonnée l’effectif ou la fréquence.

11
- Dans le cas d’une variable discrète, le graphique représentant la répartition est un
diagramme à bâtons : l’effectif ou la fréquence est représenté par un segment de
droite ; ainsi apparaît la discontinuité entre deux valeurs de la variable. Un
exemple mettra cette représentation en évidence.

Exemple 2 : Représenter graphiquement les données du tableau 3.

Tableau 3. Distribution des ménages selon le nombre d’enfants.

Nombre d’enfants Effectifs


0 42
1 12 Le nombre d’enfants (variable observée) est
2 33 indiqué en abscisse. La longueur des segments
3 05 de droite représente la fréquence.
4 et plus 02
Total 94

- Dans le cas d’une variable continue, le graphique est appelé histogramme et


chaque classe est représentée par un rectangle. La représentation est donc effectuée
comme si la distribution était uniforme à l’intérieur d’une classe. La surface
limitée par l’histogramme doit être proportionnelle à l’effectif. Il convient de

12
prendre garde à l’amplitude des classes : on se réfère à la plus petite amplitude et
on divise la hauteur du rectangle par la mesure de l’amplitude.

Exemple 2 

ENQUETE SUR UN ECHANTILLON DE 615


PERSONNES

Tableau 5

Durée de Effectif
scolarisation

[1-6[ 144
[6-11[ 230
[11-16[ 173
[16-21[ 64
[21-26[ 4
Total 615

Hh

Histogramme

5. 2. Cas de distributions qualitatives.

Il n’est plus alors possible d’utiliser un diagramme cartésien, puisque les données ne
sont pas numériques. Diverses méthodes sont possibles ; nous indiquerons certaines
d’entre elles à partir de l’exemple 3.

Exemple 3 : Tableau 6.


V5 : Etat
matrimonia
l
    Fréquence Pourcentage
Célibataire   462 39,97
Marié   621 53,72
Divorcé   22 1,90
Veuf (ve)   51 4,41
Total   1156 100,00

13
Etat matrimonial

700
600
500
400
Fréquence
300
200
100
0
célibataire marié divorcé veuf(ve)

Diagramme à bandes

14
La variable statistique (élément matériel) est qualitative, Dans ce cas précis on peut
utiliser deux sortes de diagrammes
- Diagramme en bandes représentant chaque type d’accident dont la hauteur est
proportionnelle à l’effectif et dont la base est constante (voir figure ci dessus)
- Diagramme à secteurs ; les effectifs des diverses modalités sont représentés par les
secteurs d’un cercle ou d’un demi cercle en effectif ou en pourcentages.(voir
figure)

Diagramme à secteurs

4%
2%

40% célibataire
marié
divorcé
veuf(ve)
54%

15
Chapitre 2 :

Traitement des séries statistiques à un caractère

Le chapitre précédent était consacré à une représentation graphique des séries


statistiques. Son objet était de visualiser les caractéristiques générales d’une population.
Cependant, malgré le caractère rigoureux de leur construction, les graphiques conservent un
aspect subjectif.
Le présent chapitre va permettre de définir les indicateurs dont l’objet est de résumer
quantitativement les caractéristiques d’ensembles observés.

1) REDUCTION DES DONNEES

1.1. Introduction  :

La réduction des données a pour objet le calcul de paramètres qui permettent de


caractériser de façon simple les séries statistiques et les distributions observées les paramètres
les plus utilisés sont :

1. 1. 1. Les paramètres de position :

Appelés valeurs de tendance centrales, ils servent à caractériser l’ordre de grandeur


des observations. Les principaux paramètres de position sont : La moyenne arithmétique, la
moyenne géométrique, la moyenne harmonique la moyenne quadratique, la médiane, la
médiale et le mode.

1.1.2 Les paramètres de dispersion :

Ces paramètres permettent de chiffrer la variabilité des valeurs observées au tour d’un
paramètre de position. Les principaux paramètres de dispersion sont : La variance, l’écart-
type, le coefficient de variation, l’écart moyen absolu, l’écart médian, l’écart interquartile,
l’étendu, la différence moyenne et le coefficient de concentration.

1. 1.3. Les paramètres de forme :

Ces paramètres permettent de caractériser la forme d’une distribution. Les principaux


paramètres de forme sont : le coefficient d’asymétrie, et le coefficient d’aplatissement.

1. 2. Paramètres de tendance centrale :

1.3. 1 Moyenne arithmétique :

Définition :

La moyenne arithmétique, qu’on appelle tout simplement moyenne, est égale à la somme
des valeurs observées divisé par le nombre d’observations.
16
 Cas d’une série statistique :
Soit n observations : x1, x2,…,xn
− n
1
x= ∑ xi
Alors
n i=1

 Cas d’une série de fréquence :


− k k
1
x = ∑ ni xi ∑ f i xi
- Moyenne d’une variable discrète :
n i=1 = i=1
ni
f i=
n
− k k
1
x = ∑ ni xi ∑ f i ci
- Moyenne d’une variable continue :
n i=1 = i=1

Groupée en classes.
Avec ci : point central de la classe i
Si la classe i est : [ei-1, ei[ a pour effectif ni, alors ci=( ei-1,+ei)/2

1. 3. 2. Mode  :

Le mode d’un ensemble de nombres est le nombre que l’on rencontre le plus
fréquemment, c’est à dire celui qui a la plus grande fréquence.

Exemple :

L’ensemble : 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12. Le mode est 9 sa fréquence est égale à 3
L’ensemble : 1, 2, 3, 4, 5. n’a pas de mode
L’ensemble : 2, 3, 3, 4, 4, 5, 6, 7 a deux modes 3 et 4, leur fréquences est égale à 2
- Si la variable statistique est discontinue, le mode correspond au maximum du
diagramme en bâtons.
- Si la variable statistique est continue groupée en classes, on parle de classe modale
qui correspond à l’effectif maximum de l’histogramme.

Exemple : Cas d’une variable discrète : Répartition du nombre d’enfants dans 90 familles

Nbre d’enfants Effectif


0 12
1 16
2 14
3 25
4 13
> (5 et plus) 10
17
TOTAL 90

Le mode de cette distribution est la valeur 3 car elle correspond à l’effectif le plus
élevé (25) :
On dira que la plus part des familles ont 3 enfants

Exemple : Cas d’une variable continue : Répartition des salaires horaire de 43 employés
dans une société

Salaire horaire en $ Effectif


[2-4[ 5
[4-6| 8
[6-8[ 12
[8-10[ 10
[10-12[ 8
TOTAL 43

La classe modale de cette distribution est la classe [6-8[ car elle correspond à l’effectif
le plus élevé (12) :
On dira que la plus part des employés ont un salaire horaire entre 6 et 8 $

1. 3. 4. Médiane :

La médiane d’une variable statistique est la valeur pour laquelle la moitié des
observations lui sont inférieure ou égales et la moitié restante sont supérieure ou égales.

 Cas d’une variable discrète :

Soit une série de valeur rangée par ordre croissant : x1, x2,…,xn

- Si le nombre d’observation est pair, la médiane est comprise entre l’observation de rang
(n/2) et l’observation de rang ( (n/2)+1) :
x(n/2) <Me< x(n/2)+1
On prend comme valeur médiane la moyenne des deux bornes, donc Me=( x(n/2)+ x(n/2)+1)/2

Exemples

Soit la série : 8, 10, 11, 12, 18 (n=5 : impaire) alors, il correspond au rang (n+1)/2=3,
c’est è dire Me=x3=11

Soit la série : 8, 10, 11, 12, 14, 18 (n =6 : paire) alors, la médiane se trouve entre le rang
(n/2)=3 et le rang (n/2)+1=4, c'est-à-dire entre x3 et x4 on prend pour Me=(x3+x4)/2
=(11+12)/2=11.5,

 Cas d’une variable continue groupée en classes :


18
Pour des données groupées en classes ; la classe médiane est la classe qui contient la
médiane. On détermine la médiane par interpolation linéaire.

Exemple :

Salaire / h ni ni cumulées
2-4 5 5
4-6 8 13
6-8 12 25
8-10 10 35
10-12 8 43

Total n=43

La médiane correspond à la valeur de rang (n+1)/2=(43+1) /2 = 22, donc Me = X 22, il se


trouve dans la classe 6-8 ; la classe 6-8 est donc la classe médiane.
Dans la classe médiane, il y a 12 observations rangées par ordre croissant. La médiane
est la 9ème observation parmi les 12 observations.
Sur une amplitude de 2, il y a 12 observations.
Sur quelle amplitude se trouve la 9ème observations ?

On a donc 
6 Me 8

13 22 25

Par interpolation linéaire on a :: (Me-6)/(22-13)=(8-6)/(25-13) ce qui implique Me=7.5

Interprétation : On dira qu’il y a donc autant de salaires horaires inférieurs à 7,5 Dhs
que de salaires horaires supérieurs à 7,5 Dhs
1.4. 5 Médiale :
C’est la valeur de xi telle que les individus dont le caractère est inférieur à Ml possédant
globalement (à eux tous) La moitié de la masse totale du caractère :On dira que la médiale
k
∑ ni xi
partage la masse totale i=1 en deux parties égales.Exemple : Cas d’une variable
continue : Répartition des salaires horaire de 43 employés dans une société

Salaire Point central ni Effectif nixi nixi cumulé Eff ni*xi


horaire xi CC cc/n CC/Somme(ni*xi
)
2-4 (2+4)/2=3 5 5 15 15 5/43 15/317
4-6 (4+6)/2=5 8 13 40 55 13/43 55/317
6-8 (6+8)/2=7 12 25 84 139 25/43 139/317
8-10 (8+10)/2=9 10 35 90 229 35/43 229/317

19
10-12 (10+12)/2=11 8 43 88 317 43/43 317/317
TOTAL 43 317

La médiale correspond à la moitié de la masse salariale horaire : 317/2 = 158,5, il se


trouve dans la classe 8-10
Par interpolation linéaire :

8 Ml 10

139 158.5 229

On a donc (10-8)/(229-139)=(Ml-8)/(158.5-139)
Donc Ml=8.43Dhs

Interprétation : La moitié de la masse salariale horaire (158,5 dhs) est distribuée sous
forme de salaires horaires inférieurs à 8,43 dhs.

1.5 Les paramètres de dispersion :

1.5.1 Variance et écart type  :

Définition :

La variance est la moyenne arithmétique des carrées des écarts des observations par
rapport à leur moyenne.

)
2 k − 2
1
S= ∑
n i=1
ni ( x i−x
OU
− k
1 317
x = ∑ ni xi = =7 , 37
n i=1 43
L’écart type est la racine carrée de la variance.

20
( ))
k − 2 1/ 2
1
S= ∑ n i ( xi −x
n i=1

( ))
k − 1/2
1
( ∑ ni x 2 )−x
2
n i=1 i
L’écart type s’exprime dans la même unité que la variable xi

1.5. 4 Coefficient de variation  :

Le coefficient de variation est le rapport de l’écart type par rapport à la moyenne.


S
CV = −
X
Le coefficient de variation est indépendant des unités choisies, il mesure la dispersion
d’une variable par rapport à sa moyenne, il est utile pour comparer des distributions qui ont
des unités différentes.

Exemple : Comparaison des salariés de deux entreprises

Salaire de l’ ni xi nixi nixi2


entreprise I
par unité de
100 dh
1-3 20=n1 (1+3)/2=2=x1 n1*x1=140 80
3-5 18=n2 (3+5)/2=4=x2 n2*x2=72 288
5-7 20=n3 (5+7)/2=6=x3 n3*x3=120 720
7-9 14=n4 (7+9)/2=8=x4 n4*x4=112 896
9-11 15=n5 (9+11)/ n5*x5=150 1560
2=10=x5
Total 87=n 494 3484

Salaire de l’
entreprise II
par unité de
100 dh
3-5 33 4 132 528
5-7 35 6 210 1260
7-9 19 8 152 1216
Total 87 494 3004
21
Les deux entreprises ont la même masse salariale totale qui est de 494 dhs.
Les deux entreprises ont le même nombre d’ouvriers 87 donc même salaires moyens.

Si cette valeur centrale qui est la moyenne donne la même grandeur concernant le
salaire pour les deux entreprises, on peut constater que les salaires ne sont pas distribués
de la même manière. Les paramètres de dispersion résument la manière dont sont
distribués les caractères.

Entreprise I

x 1=5 . 68
2
3485
S 2= −(5 . 68) =7 . 8
1 87
S 1 =√7 . 8=2. 79
S1 2 .79
CV 1= = =0 . 49 ou 49 %
− 5 . 68
x1
Entreprise II

x 2=5 . 68
2
3004
S 2= −( 5. 68 ) =5 .20
2 87
S 2 =√ 2. 28=2 . 28
S2 2 .28
CV 2 = − = =0. 27 ou 27 %
5 . 68
x2

On peut remarquer que CV1>CV2 ce qui implique que les salaries l’entreprise I sont plus
dispersés que ceux de l’entreprise II.
1.5. 6 Ecart interquartile :

22
a) Les quartiles q1,q2,q3 :

- q1 : est la valeur de la variable telle que un quart des observations lui sont inférieures ou
égales et trois quarts des observations lui sont supérieures ou égales.

- q2 : est la valeur de la variable telle que deux quarts des observations lui sont inférieures ou
égales et deux quarts des observations lui sont supérieurs ou égales. C’est aussi égale à la
médiane.

- q3 : est la valeur de la variable telle que trois quarts des observations lui sont inférieures ou
égales et un quart des observations lui sont supérieures ou égales.

25% 25% 25% 25% Effectif

q1 q2 =Me q3
b) Les déciles :

En procédant comme pour la médiane et les quartiles, il est possible de définir et de calculer
les déciles d1 et d2.

- d1 : est la valeur de la variable telle que un dixième des observations lui sont
inférieures ou égales et neuf dixième des observations lui sont supérieures ou égales.
- di : est la valeur de la variable telle que 1 dixième… et (10-1) dixième…

Effectif :

c) Ecart intérquatile :

Ecart interquartile = q3-q1, il permet de mesurer la dispersion pour 50% d’effectif


Pour la détermination des quartiles et des déciles on utilise la même méthode d’interpolation
utilisée pou le calcul de la médiane.

25% 25% 25% 25% Effectif

q1 q2 q3
q3-q1
50% de l’effectif total
1.5.7) L’étendue :

L’étendue est un indicateur de la dispersion d’une variable, il est représente l’écart entre la
valeur maximale et la valeur minimale de la variable statistique.

Et = Xmax –Xmin

I. 6) Coefficient de concentration

23
L’étude de la concentration permet essentiellement de rendre compte du phénomène de
concentration économique qui caractérise l’évolution de l’économie mondiale (concentration
des richesses, concentration des populations)

I. 6. 1) Courbe de concentration

Cette courbe est obtenue en calculant les fréquences relatives cumulées croissantes après les
avoir classées par ordre croissant et les masses relatives cumulées croissantes.
n k
( i ) cumulées croissantes sur l ' axe Ox où n=∑ ni
n i=1
k
ni x i
( k ) cumulées croissantes sur l ' axe Oy , ∑ ni x i représente la masse totale
∑ ni x i
i=1

i=1

La courbe de concentration ou courbe de LORENZ s’inscrit toujours dans un carré de coté


unitaire dont les abscisses sont les fréquences relatives cumulées croissantes et les ordonnées
sont les masses relatives cumulées croissantes.

M.R.C.C

La surface courbe

F.R.C.C.
0 1

Courbe de LORENZ
Dans le cas ou toutes les observations seraient égales entre elles, la courbe de concentration à
la bissectrice. Plus la courbe s’éloigne de la bissectrice, plus la concentration est élevée.

I. 6 .2 Coefficient de concentration

On mesure la concentration par la surface courbe entre les deux courbes (bissectrice et courbe
de concentration (voir courbe de LORENZ).
On mesure la concentration par le coefficient de GINI=2*(la surface hachurée)

I. 6. 3. Indice de concentration

24
On peut étudier la concentration directement à partir de la différence entre la médiale et la
médiane, on définit l’indice de concentration par :

Mediale−Mediane
Indice de concentration= Etendue ou
Mediale−Mediane
L’intensité de la concentration = médiane

25
Chapitre 3 :
ANALYSE COMBINATOIRE

L’analyse combinatoire consiste essentiellement à effectuer des dénombrements. Dans


certains cas élémentaires, on peut dénombrer avec méthode et patience, sans connaissance
particulières. Mais dés que des problèmes se compliquent un peu, il est utile de connaître les
résultats exposés dans ce chapitre.

1) Cardinal d’un ensemble

Définition : on appelle cardinale d’un ensemble fini A, le nombre d’éléments de A noté


Card(A)

a) Cardinal d’une réunion

Soient A, B sont des ensembles finis disjoints (A∩B=Ø) alors :

  Card (AυB)= Card(A)+Card(B)

Dans le cas où A et B sont quelconques alors on a :

Propriété 1

Card(AυB)= Card(A)+Card(B)-Card(A∩B)

Ω Ω
A B A B

A∩B=Ø A∩B≠Ø

Propriété 2
¿

On désigne par A le complémentaire de A, c’est à dire l’ensemble des éléments de Ω qui


n’appartiennent pas à A :
¿

Si A est une partie de Ω, alors : Card( A )=Card (Ω)-Card(A)


b) Cardinal d’un produit cartésien

Définition : Soient A et B deux ensembles finis. Le produit cartésien AΧB est l’ensemble des
couples (x,y), où x est un élément de A et y un élément de B

Exemple1 :
26
Une classe de 32 élèves (20 filles et 12 garçons) à un problème à régler avec l’administration.
Il est décidé d’envoyer à « la vie scolaire » une délégation formée d’une fille et d’un garçon.
Si on appelle F l’ensemble des filles et G l’ensemble des garçons, chaque délégation possible
représente un élément de FΧG. Il y a évidemment 20*12 délégations Ω possibles.
Nous avons donc :

Card(AΧB)= Card(A)Χ Card(B)

2) Nombre de p-listes d’un ensemble ayant n éléments

Définition : Une p-liste d’éléments d’un ensemble A est une suite (a1, a2,…,ap) de p éléments
appartenant à A

Remarque :
L’ensemble des p-listes de A est donc l’ensemble Ap, produit cartésien de p facteurs égaux à
A.
Ap=AΧAΧ…ΧA p fois

Exemple 2 :

Le numéro gagnant d’une petite loterie est désigné en faisant tourner 3 roues divisées en
secteurs numérotés de 1 à 4

1 2 1 2 1 2
3 4
3 4 3 4

Combien y a-t-il de résultats possibles ?

Chaque numéro obtenu est un triplet appartenant au produit cartésien :


{1, 2, 3, 4}Χ{1, 2, 3, 4}Χ{1, 2, 3, 4}, et réciproquement. Il y a donc autant de numéros que de
triplets :{1, 2, 3, 4}3, soit 43

b) Résultats générale

Soit A un ensemble à n éléments et p un entier supérieur ou égal à 1 ; le nombre de p-listes


d’éléments de A est np
En effet card(Ap)=card(A)p=np

27
3) Nombre d’arrangements

Les p-listes (p=4) envisagés dans l’exemple précédents sont formées de 4 éléments dont
certains peuvent être égaux ; exemple de 4-liste : 1214. Nous allons donc nous intéresser
maintenant à p-listes formées d’éléments tous différents.

Définition : Un arrangement de p éléments d’un ensemble E est une p-listes d’éléments


distincts de E.

Exemple2 :

Vingt chevaux, numérotés de 1 à 20, prennent le départ de course. Les parieurs essaient de
deviner le tiercé gagnant dans l’ordre.
Combien ont-ils de choix possibles, en supposant qu’il n’y aura pas d’ex æquo ?

Un « tiercé dans l’ordre » est en fait un triplet de chevaux distincts. Il s’agit de dénombrer ces
triplets
Sur les 20 chevaux on 20 choix possibles pour le premier cheval. Une fois choisi, il nous reste
19 choix possibles pour le deuxième cheval, après le deux choix, il nous reste 18 chois
possibles pour le troisième cheval. Finalement il y a 20*19*18 tiercés possibles dans l’ordre
soit 6840.
Résultats général

Pour dénombrer les p listes d’éléments distincts de E, re prenons le raisonnement maintenant


bien connu :

Pour constituer une p-liste, il y a :

n façons de choisir le 1er élément de la p-liste,


n-1 façons de choisir le 2èm élément de la p-liste,
n-2 façons de choisir le 3èm élément de la p-liste,
.
.
.
(n-(p-1)) façons de choisir le pèm élément de la p-liste,
En conséquence, le nombre de p-lites est :

n(n-1)(n-2)(n-3)…..(n-(p-1)) p facteurs

Théorème :

Soit E un ensemble à n éléments et p un entier tel que 1≤p≤n.


Dans E, le nombre d’arrangements à p éléments (p-listes d’éléments distincts de E), noté, Anp
vérifie :
Anp= n(n-1)(n-2)(n-3)…..(n-(p-1)) (p facteurs)

a) Cas particulier : nombre de permutations

Dans le théorème précédent, si on prend p=n, on trouve :

28
Ann= n(n-1)(n-2)(n-3)…3.2.1 ce nombre est noté n ! (factorielle n)

Exemple 3 :

Une revue propose à ses lecteurs une liste de 4 chanteurs, et leur demande un classement par
ordre de préférence.
Un classement peut être considéré comme un arrangement à 4 éléments de l’ensemble des
chanteurs. Il y a donc 4! =24 classement possibles.
Un arrangement des n éléments d’un ensemble E est appelé permutation de E

Théorème :
Soit un ensemble E à n éléments. Il existe n ! Permutation des éléments de E

4) Nombre de combinaisons

Définition :
Une combinaison à p éléments d’un ensemble E est une partie à p éléments de E

Exemple 4 :
De combien de manière peut-on choisir 3 chevaux parmi 20, sans tenir compte de l’ordre ?

Sur trois chevaux distincts, on 3 ! permutations, le nombre de combinaisons de 3 chevaux


parmi 20 est donc : A203/3 !=(20*19*18)/(1*2*3)=1140

Résultat général

Le nombre de parties formées de 3 chevaux dans un ensemble de 20 chevaux est noté


C203=A203/3 !

Théorème :
Soit E un ensemble à n éléments et p un entier tel que 1≤p≤n.
Dans E, le nombre de combinaisons à p éléments de E noté Cnp, vérifie :

Cnp =Anp /n !=[n(n-1)(n-2)(n-3)…(n-(p-1))]/[(1.2.3….p)]

Cas particulier :
Cn0=1
Cn1=n
Cnn=1

5) Récapitulation

Les trois types de problèmes que nous venons d’étudier dans les paragraphes 2, 3 et 4 peuvent
se retrouver dans les différentes façons de tirer p boules dans une urne qui en contient n :

29
Tirages Successifs Simultanés
(l’ordre compte) (l’ordre ne compte
pas)
Avec remise np p-listes
Sans remise Anp arrangements Cnp combinaisons

30
Chapitre 4 :

INTRODUCTION A LA NOTION DE PROBABILITE

1) Introduction

Concéderons une «épreuve ». Généralement les résultats éventuels de cette épreuve font
appels « au hasard ».La collection des résultats éventuels forment un ensemble. A chaque
élément de cet ensemble des éventualités, on associe un nombre que l’on appelle
« probabilité ». On obtient l’ensemble fondamental Ω de tous les résultats possibles

2) Axiomes et définitions

Axiome 1

Les événements possibles Ei sont des sous ensembles de Ω.


L’événement impossible (Ø) et l’événement certain (Ω) sont des sous ensemble de Ω

Axiome 2

A chaque événement Ei, on associe un nombre positif ou nul, que l’on appelle la probabilité
de l’événement Ei
Ei → Pr (Ei) ≥0
Axiome 3

La probabilité de l’événement certain (Ω) est l’unité :

Ω → Pr (Ω) =1
Définition.

Deux événements A et B sont incompatibles, si l’intersection des deux événements donne


l’événement impossible (Ω) :
Ω Ω
A
A B A B

A∩B=Ø A∩B≠Ø

Incompatibles Compatibles

Axiome 4 (dit de probabilités totales).

Si deux événement A et B son incompatible A∩B=Ø alors :

Pr(AυB)= Pr(A)+Pr(B)

31
3) Corollaires

Corollaire 1.
¿

La probabilité de l’événement contraire A (complémentaire de l’événement A) est défini


par :

Ω
A

¿ ¿ ¿

Pr( A )=1-Pr(A) (car (Aυ A )= Ω et A∩ A =Ø)

Corollaire 2

La probabilité de l'événement impossible (Ø) est nulle

Pr(Ø) =0

4) Relation fondamentale (dit théorème de probabilités totales).

Si A et B sont des événements compatibles, alors :

Pr(AυB)= Pr(A)+Pr(B)-Pr(A∩B)

5) Probabilité conditionnelle (ou liée).

Soit A et B deux événement compatibles, et de probabilités non nulles.

Pr(A)>0 et Pr(B)>0

La probabilité de réalisation de l’événement A, sachant que l’événement B est réalisé est :

Pr(A/B)= Pr(A∩B)/Pr(B)

La formule précédente implique : Pr(A∩B)= Pr(B)Pr(A/B)

6) Indépendance en probabilité.

On dit que deux événements A et B sont indépendants en probabilité, si la probabilité de leur


intersection est égale au produit de leur probabilité.

Pr(A∩B)= Pr(A)Pr(B)
32
Langage statistique et notion ensembliste

A : L’événement A est réalisé.


¿

A  : L’événement A n’est pas réalisé.


AυB : L’événement A ou l’événement B est réalisé.
A∩B : L’événement A et l’événement B sont réalisés.
Ø : L’événement est impossible.
Ω : L’événement est certain.
A∩B= Ø : Les événements A et B sont incompatibles.

7) Exemple d’application

On tire une carte au hasard dans un jeu ordinaire de 52 cartes. On considère les événements
suivants :
A= la carte tiré est le roi du cœur,
B= la carte tiré est un cœur,
C= la carte tiré est soit l’as de pique, soit un cœur,
D= la carte tiré est un pique ou un cœur
Calculer
1°) La probabilité des événements A, B, C et D
2°) La probabilité des intersections suivantes :
A∩B, A∩C, et A∩D
3°) La probabilité des réunions suivantes :
AυB, AυC et AυD
4°) les probabilités conditionnelles suivantes :
A sachant que B est réalisé,
A sachant que C est réalisé,
A sachant que D est réalisé.

Solution.

Dans un jeu de 52 cartes, il y a quatre couleurs (Trèfle, Carreau, Cœur, Pique) de treize cartes
(As, Roi, Dame, Valet, Dix, neuf, huit, sept, six, cinq, quatre, Trois, Deux) Chacune.

1°) Dans les 52 cartes il y a un seul roi de cœur donc :

Pr(A)=1/52

Dans les 52 cartes il y a 13 cartes de cœur donc :

Pr(B)=13/52

La probabilité de tirer l’as de pique, soit un cœur .

33
On sait que :
Pr(AυB)= Pr(A)+Pr(B)-Pr(A∩B)

Pr(C)=Pr{(as de pique) υ (un cœur )}= Pr(as de pique)+Pr(un cœur )} –Pr{(as de


pique) ∩ (un cœur )}
Or obtenir (as de pique) et un (un cœur) est incompatible donc :
Pr {(as de pique) ∩ (un cœur)}=0
Finalement Pr (as de pique)=1/52 et Pr (un cœur )=13/52
Ce qui donne :
Pr(C) = 1/52+13/52=14/52

La probabilité de tirer un pique ou un cœur est :

Pr(D)= Pr (un pique) υ (un cœur)= Pr (un pique) +Pr (un cœur)=13/52+13/52=26/52

2°) Calculons la probabilité des intersections :

Pr(A∩B)=Pr(A)=1/52
Pr(A∩C)=Pr(A)=1/52
Pr(A∩D)=Pr(A)=1/52

3°) Calculons la probabilité des réunions :

Pr(AυB)= Pr(A)+Pr(B)-Pr(A∩B)
Pr(AυB)= 1/52+13/52-1/52=13/52=Pr(B)

Pr(AυC)= Pr(A)+Pr(C)-Pr(A∩C)
Pr(AυC)= 1/52+14/52-1/52=14/52=Pr(C)

Pr(AυD)= Pr(A)+Pr(D)-Pr(A∩D)
Pr(AυD)= 1/52+26/52-1/52=26/52=Pr(D)

4°) Calculons les probabilités conditionnelles :

Pr(A/B)= Pr(A∩B)/Pr(B)=1/13
Pr(A/C)= Pr(A∩C)/Pr(C)=1/14
Pr(A/D)= Pr(A∩D)/Pr(D)=1/26

34
Chapitre 5 : LOIS DE PROBABILITE

35
DISTRIBUTION BINOMIALE

1) Généralités.
Soit p la probabilité de réalisation d’un événement quelconque, lors d’une certaine
épreuve (p : probabilité de succès).

Soit q = 1 – p la probabilité de non –réalisation du même événement, lors de la


même épreuve (q : probabilité d’échec).

La probabilité de k réalisation (succès) de cet événement, lors de n répétition


successive indépendante de la même épreuve, est fournie par la loi de probabilité
binomiale :

Pr { X= k } = Cnk pk qn-k

Où k = 0 ,1,2, …, n.
On résume cette loi par la notation B(n, p).
Cette loi est une de probabilité discrète .Elle porte le nom de distribution binomiale car
pour k = 0, 1,2, .., n elle correspond aux termes successifs du développement de la formule du
Binôme de Newton :
(q + p)n = qn + Cn1 p1 qn-1 + … + Cnk pk qn-k + … + pn=1
où les termes Cn constituent les coefficients du binôme :
k

Cnk = n !
k ! (n - k) !

Rappelons que :
n ! = 1 x 2 x 3 x … x(n – 1)n.
1 ! = 1
0 ! = 1 (par convention).

2) Définition.
Considérons une épreuve alternative, définie par les probabilités attachées à ces deux
états :

p = Pr{E1} , q = Pr{E2} = 1 –p.

Considérons une succession d’épreuves du même type, indépendantes, les unes des
autres.
La variable aléatoire X, dont la loi de probabilité est définie par :

- les relations discrètes :


0, 1,2…, k, …, n ;
- et par les probabilités associées à ces réalisations :
p0, p2, p3,…pk,… pn, où

pk =Pr(X=k)= Cnk pk qn-k

36
est une variable binomiale
La loi de X est la loi de probabilité binomiale ; on la désigne parfois sous le nom de la
loi des épreuves répétées : B (n, p).

Remarque : On appelle fonction de répartition de la variable aléatoire X la


probabilité F(x) de voir X prendre toute les valeurs inférieure à xa
F(x)=P(X<xa)=P(X=x1)+ P(X=x2)+ ……+P(X=xi))
¿
Avec xi< xa xi+1

Exemple : X suit la loi binomiale de paramètre n=3 p=0.5 q=0.5 alors


m−1

Pr { X<m} =Pr(X=0)+Pr(X=1)+…+Pr(X=m-1)= k =0 Cnk pk qn-k

3) Propriétés.

Pour une distribution binomiale,


- l’espérance mathématique est : E{X} = n.p
- la variance est V{X} = n . p . q
- l’écart –type est : σ{X} = (n . p .q)1/2.

4) Domaine d’application.

La distribution de probabilité binomiale, rend compte de tous les phénomènes répétés


d’une façon indépendante, pouvant prendre deux états : Succès ou Echec, tout ou rien, Etat 1
ou Etat 2,… .

Calcul numérique.

Etant donné la présence de la fonction factorielle ainsi que de la fonction puissance, le


calcul numérique des termes Pr {X=k} est parfois fastidieux sous certaines conditions afin de
faciliter les calculs, on peut approximer cette loi par la loi Normale, ou la loi de Poisson

Exemple d’application

Dans une entreprise, on a observé que la fréquence de rupture du stock a été de quatre
semaines sur cent, on s’intéresse aux ruptures de stock qui peuvent se produire au cours des
25 prochaines semaines.
a) Calculer la probabilité de n’observer aucune rupture de stock au cours des 25
prochaines semaines.
b) Calculer la probabilité d’observer 2 ruptures de stock au cours des 25 prochaines
semaines
c) Calculer la probabilité d’avoir un nombre de ruptures de stock inférieur (ou
égale) à 3 au cours des 25 prochaines semaines.

37
Le nombre d’expériences est n=25 (25 épreuves), la probabilité de rupture est p=0.04, donc si
X : La variable aléatoire : nombre de ruptures au cours des 25 semaines alors la probabilité
d’avoir k ruptures est :

P( X=k )=C kn ( p) k (1− p )( n−k )

0 0 ( 25 )
a) P( X=0)=C25 (0 . 04 ) (0 . 96 ) = 0.3604

2 2 (23 )
b) P( X=2)=C 25 (0 .04 ) (0 .96 ) = 0.1877

0 0 ( 25 )
c) P( X≤3)=Pr ( X=0)+Pr ( X=1)+ Pr ( X=2 )+Pr ( X =3)=C25 (0 . 04 ) (0 . 96 ) +
C125 (0. 04 )1 (0. 96 )( 24 ) + C225 (0. 04 )2 (0 . 96 )( 23 ) + C325 (0 . 04 )3 (0. 96 )( 22 ) =0.9835

38
LA LOI DE POISSON

1) Définition

On dit qu’une variable aléatoire X suit une loi de poisson, si elle est susceptible de
prendre toutes les valeurs entières 0, 1,2,…, n,… ; la probabilité que X soit égal à k étant :

Prob{X=k}=e-λ (λk/k!)

La constante λ positive, s’appelle le paramètre de la loi. On résume cette loi par la


notation :P(λ).

2) Propriétés

- L’espérance mathématique de la loi de Poisson est égale au paramètre λ :


E{X}= λ

- La variance d’une loi de Poisson est égale au paramètre λ :

V{X}= λ

- L’écart-type d’une loi de Poisson est égal à la racine carrée du paramètre λ


.
σ{X}= (V{X})1/2= λ1/2

3) Domaine d’application.

La loi de Poisson s’appelle encore la loi des petites probabilités. Elle est utilisée pour
représenter des phénomènes rares : nombre d’accidents, nombre de déchets dans une
fabrication,…

Calcul numérique.

La loi de Poisson est d’un calcul relativement aisé pour les petites valeurs de k. elle est
également tabulée pour certaines valeurs de paramètres.

Exemple d’application

Lors d’une fabrication de billets de banque, le nombre de défauts suit une loi de Poisson de
moyenne λ=0.5. Calculer
a) la probabilité d’avoir 0 défauts
b) La probabilité d’avoir un défaut.
c) La probabilité d’avoir plus de trois défauts.

Soit X la variable aléatoire : nombre de défauts.


Par hypothèse X suit la loi de Poisson :

39
k
λ
P( X=k )=e− λ
k!
0
0 .5
P( X=0)=e−0. 5 =0 . 6065
a) 0!

1
0.5
P( X=1)=e−0 . 5 =0 . 3033
b) 1!

c) P( X >3 )=1−P ( X≤3 )=1−( P( X =0)+P( X=1)+P( X=2 )+P ( X=3 ))=0. 0018

40
LA LOI NORMALE OU DE LAPLACE-GAUSS

1) Variable normée .

Soit une variable certaine xi, dont on connaît



- la moyenne x
- l’écart- type σx

Définissons une nouvelle variable ti par


( x i−x )
ti =
σx
Cette variable ti est dite variable normée, si elle possède les deux propriétés suivantes :

- la moyenne arithmétique t est nulle : t=0


- l’écart- type σx, est égal à l’unité =1

Cette notion se généralise au cas d’une variable aléatoire.


Normée une variable aléatoire X, dont l’espérance mathématique est E{X}
et l’écart- type σx, revient à faire le changement de variable, défini par :

T= X – E{X} = X – Moyenne
σX Ecart- type

La nouvelle variable aléatoire T est normée. En effet :


- la moyenne t des réalisations ti de T est nulle :t=0 ;
- l’écart- type des réalisations ti de Test égal à l’unité =1.
On dit que la variable aléatoire T est :
- centrée (moyenne nulle).
- réduite (écart-type égal à l’unité).

On utilise souvent la notation : T(0,1).

2) Définition de la loi normale.

Soit une variable aléatoire X, continue. On dit que X suit une loi de probabilité
normale (ou de Laplace-Gauss) si
-ses réalisations appartiennent à l’intervalle (-∞,+∞),
-la densité de probabilité, associée à ses réalisations est définie par :

( t− x )2

1 2 σ2
f (t )= e
√ 2 π
41

où x et σ sont respectivement la moyenne et l’écart-type de la variable X
On démontre que :


- l’espérance mathématique de X est :E{X} = x .
- l’écart- type de X est  : σ{X} =σ ou Var(X)= σ2 (Variance de X)

On dit que l’on est en présence de la loi normale, de moyenne x et d’écart-type σ. on résume

cette loi par la notation : N ( x , σ)
x


On définit la probabilité : P(X<x)=F(x)= −∞
f (t )dt
F(x) : s’appelle fonction de répartition de la variable aléatoire X

3) la loi normale, centrée, réduite.

Normons la variable X, c’est-à-dire faisons le changement de variable défini par :


( X− x )
T=
σ

La densité de probabilité devient alors :

t2
1 −
2
f (t )= e
√2 π
Cette loi est dite, loi normale, centrée, réduite, car elle est de moyenne nulle et d’écart-
type égale à l’unité.

On note celle loi par : N(0,1).

4) Usage de la table de la fonction : N(0,1).


L’allure de la fonction
N(0,1) est la suivante :

42
y=f(t)

-t t

La fonction est symétrique : f(t)=f(-t).

Les tables donnent les valeurs de la fonction, uniquement pour les valeurs positives de
la variable t.

Exemples :

t=0 y= 0,398 94 = 1/√2π


t=1 y=0,241 97 0,841 3
t=-1 y= 0,241 97
t=-4 y=0,00013.

La courbe est pratiquement asymptotique pour [t] > 4.

5) La fonction intégrale II (t) de la loi normale, centrée, réduite N(0,1).

En intégrant la fonction f(t), densité de probabilité de t, on définit la fonction intégrale


de la loi normale, centrée, réduite :

t0
1 −t 2
∫ exp( )dt
II(t0)=Pr(T<t0)= −∞ √ 2 π 2

t
to

43
On démontre que :
−t 2

1
∫ exp( 2 )dt=1
−∞ √ 2 π

L’aire comprise entre la courbe N(0,1) et l’axe des t est égale à l’unité.
Ainsi, la fonction intégrale II (t0) constitue la fonction
de répartition de t, c’est-à-dire :
II (t0)=Prob{T<t0},

Où Test la variable T(0,1).

6) Usage de la table intégrale II (t).

La table II(t) donne les valeurs de la fonction, uniquement pour les valeurs positives de la
variable t.

Exemple :Prob {T<0,82}=II(0,82)=0,793 9.

t
0.82

Pour les valeurs négatives de t, on utilise la propriété de symétrie de la courbe.


Ex : Prob {T<-0,82}=II(-0,82)= 1-Prob {T<0,82}
Prob {T <-0,82}=1-II(0,82)
Prob {T<-0,82}= 1-0,793 .
Prob {T<-0,82}=0,206 1.

y=f(t)

t
-0.82 0.82

44
Calculer la probabilité associée à un intervalle. En effet la surface II(t) comprise entre ta et tb,
représente la probabilité pour que T soit compris entre ta et tb :
II (t)=Pr {ta<T<tb}=Pr(T<tb)-Pr(T<ta),

y=f(t)

ta tb

Si l’intervalle (ta,tb) est centré, il est aisé de vérifier que :


-pour –1 <t<+1, II(t)=Pr(-1<T<1)=0,682 7 ; soit 68,27% de la surface totale ;
-pour -2 <t< 2, II(t)=Pr(-2<T<2)=0,954 5 ; soit 95,45% de la surface totale ;
-pour –3<t< 3, II(t)= Pr(-3<T<3)=0,997 3 ; soit 99,73% de la surface totale
De plus si X sui une loi normale e moyenne m et d’écart-type σ alors :
Pr(m- σ <T<m+ σ)=0,682 7 
Pr(m- 2σ <T<m+ 2σ)=0.9545
Pr(m- 3σ <T<m+ 3σ)= 0,9973 

y
0.4

N(0, 1)

t
68.27%

95.45%

99.73%
Exemple d’application
Lors de fabrication d’une pièce de monnaie, on contrôle le poids des pièces à partir d’un
échantillon de 100 pièces, sachant que le poids d’une pièce suit sensiblement la loi normale de
moyenne 5 g et d’écart-type 0.05 g. on supposant que la norme de fabrication des pièces
impose que poids de chaque pièces P doit être entre 4.9 g et 5.1 g
Calculer le pourcentage des pièces acceptables
Soit X la variable aléatoire poids, P suit la loi normale de moyenne 5 g et d’écart-type 0.05g
On cherche : Pr( 4.9 <X<5.1)=Pr(X<5.1)-Pr(X<4.9)=0.95.
Donc le pourcentage des pièces acceptable est : 95%

45
46
Chapitre 6

ECHANTILLONNAGE. ESTIMATION

1. Notions sur les sondages

Pour recueillir des informations sur une population statistique, on dispose de deux
méthodes :

 La méthode « exhaustive » ou recensement : on examine chacun des individus de


la population selon le caractère étudiés. (exemple : recensement de la population
du Maroc)
 La méthode des sondages : on examine une fraction de la population ou
échantillon. (exemple : prélever à la sortie d’une fabrication des échantillons pour
contrôler la qualité du produit).

Il arrive fréquemment que l’on doive rejeter la méthode exhaustive, soit à cause de
son coût ou de sa durée, soit parce qu’elle destructive.

Population mère (N,X,σ2) Population mère (N,μ,σ2)


Echantillon

Echantillon (n, X , s2)
(n, X ,s 2
)

Echantillonnage déduction Estimation induction


du général au particulier du particulier au général
Fig 1.

Notation :
N, X et σ : sont respectivement la taille de la population mère, sa moyenne et son écart-type.

n, X et s : sont respectivement la taille de l’échantillon, sa moyenne et son écart-type.

47
La figure 1 met en évidence la différence entre l’échantillonnage qui consiste à passer
d’une population totale à un échantillon et l’estimation qui consiste à induire, à partir des
résultats observés sur l’échantillon, des résultats sur la population.

2. Vue d’ensemble sur l’échantillonnage et l’estimation

Lorsqu’on effectue un sondage, on ne peut aboutir à une connaissance parfaite des


paramètres de la population totale ; en effet on étudie qu’une fraction de la population. On
cherche seulement à estimer ces paramètres avec une précision connue : on détermine un
intervalle de confiance où se trouve le paramètre avec un risque d’erreur connu.

Exemple 1 : On cherche à connaître par sondage la proportion de pièces défectueuses


dans une certaine production. En prélevant un échantillon, on trouve 1/6 de pièces
défectueuses. Peut-on conclure que, dans la population totale, le pourcentage de mauvaises
pièces sera le même ?
La réponse à cette question sera formulée de la façon suivante : peut-on trouver un
intervalle [a, b] tel que le pourcentage de mauvaises pièces appartient à l’intervalle [a, b]. (Par
exemple avec un risque de 5% de se tromper) Cependant, il n’est pas possible de déterminer a
et b sans connaître la taille de l’échantillon et la manière dont il a été prélevé.

2. 1. L’échantillonnage

S’il s’agit d’échantillonnage. La population totale est connue.

Exemple2 : La production d’une machine comprend une pièce mauvaise sur 6 en


moyenne. Si l’on prélève un échantillon de 10 pièces sur cette production, combien sont
défectueuses ?
On est en présence d’une loi binomiale. On :
Pr{X=n}=Cn10(1/6)n(5/6)10-n n=0,1,2,…,10
Ce qui permet de calculer que :

- Aucune pièce n’est défectueuse : équivaut à Pr{X=0}=C010(1/6)0(5/6)10-0=(5 /6)10.


- Une pièce est défectueuse : équivaut à Pr{X=1}=C110(1/6)1(5/6)10-1=(10)* (1/6)((5/6)9
- Deux pièces sont défectueuses : équivaut à Pr{X=2}=C210(1/6)2(5/6)10-2=45(1/6)2(5/6)8.
- Enfin que les dix pièces soient défectueuses : équivaut à
Pr{X=10}=C1010(1/6)10(5/6)10-10= (1/6)10 soit environ une chance sur 60 millions.

Pour que la loi binomiale soit réellement applicable à l’exemple pratique indiqué, il est
nécessaire que :

 L’échantillon soit prélevé au hasard.


 Chaque pièce doit être remise après tirage dans l’ensemble de départ.
 Chaque pièce doit être tirée parfaitement au hasard.

48
En conclusion : si l’on connaît la composition de la population, on peut, sous certaines
conditions, en déduire la composition de l’échantillon. Plus la taille de l’échantillon est
grande, plus sa structure est voisine de la population totale.

L’estimation.

Dans le cas d’un sondage. On connaît l’échantillon et l’on veut en induire la


composition de la population.

3. Les Méthodes d’échantillonnage

Pour obtenir un échantillon  « au hasard » permettant de connaître la population « mère »


avec une certaine précision. On peut employer plusieurs procédés.

3.1. Tirage au hasard.

On prélève les éléments de la population, préalablement numérotés, à l’aide de nombres


au hasard. (Soit lu dans la table, soit tiré au hasard par un procédé quelconque)
L’inconvénient de ce mode de prélèvement est coûteux : On est amené à prendre des
éléments de la population d’origine qui peut être dispersée. Pour obtenir une bonne précision
à moindre coût, on utilise souvent d’autr
es procédés.

3.2. Sondage systématique.

Après avoir déterminé la taille de l’échantillon nécessaire pour la précision cherché, on


prélève systématiquement un individu sur n. (exemple : soit un lot de 1000 pièces réparties en
50 caisses de 20 pièces, si on veut estimer la proportion des pièces défectueuses, on prélève
deux pièces de chaque caisse, c’est évidemment plus simple que de tirer au hasard 100 pièces
sur 1000. la précision de l’estimation est d’autant bonne que les pièces sont rangées au hasard
dans les caisses.

3.3. Sondage par grappes.

Les individus ne sont plus tirés un par un mais par « grappes » (logement, entreprise, unité
géographique). Le coût de la collecte de l’information est diminué ; mais pour que la
précision demeure correcte, les grappes doivent être de tailles voisines et de composition aussi
hétérogène que possible.

3.4. Sondage avec probabilités inégales.

Dans ce tirage tous les individus n’ont pas la même probabilité de figurer dans
l’échantillon, Au dépouillement, on affecte à chaque unité observée un coefficient égal à
l’inverse de sa probabilité d’être tiré.

3.5. Sondage à plusieurs degrés.

49
On tire un échantillon d’unités primaires. Dans chaque unité primaire, on tire un
échantillon d’unités secondaires et ainsi de suite. Le coût de l’enquête est très diminué,
malheureusement la précision baisse également. A coût constant l’efficacité est cependant
souvent meilleure.

3.6. Méthodes des quotas.

Les méthodes précédentes reposent sur les principes statistiques des sondages aléatoires.
Quel que soit le procédé utilisé, elles supposent l’existence d’une « base de sondage », listes
ou figurent tous les éléments de la population. Or cette base de sondage n’est pas toujours
disponible.
On peut alors recourir à une autre catégorie de sondage, dit par « quotas » ou par choix
raisonné. On construit empiriquement, à partir d’information antérieure, un échantillon aussi
représentatif que possible de la population étudiée. Pour cela on distribue la population
suivant certains critères que l’on pense en corrélation avec les paramètres étudiés et l’on fixe
des « quota » que devront respecter les enquêteurs (il faut interroger 1000 hommes dont 700
ouvriers, 400 de 25 à 35 ans, 500 banlieusards, etc.)
L’avantage de la méthode des choix raisonnés réside dans sa souplesse et son faible coût ;
c’est la méthode la plus couramment utilisée.

3.7. Sondage stratifié.

Si l’on possède une liste ou au moins une certaine base de sondage, la stratification est la
meilleure méthode d’échantillonnage. Elle consiste à découper la population en groupes
homogène (strates) et tirer indépendamment un échantillon aléatoire dans chaque strate. Les
gains de précision peuvent être considérables par rapport à d’autres méthodes.

4. Distribution d’échantillonnage

Dans ce paragraphe, on suppose connue la population totale P d’effectif N ; ainsi que sa
moyenne M et son écart-type σ ; La loi de la distribution de la population est également
connue. On suppose que le tirage est effectué avec remise (tirage non exhaustif)

4.1. Etude de la variable aléatoire X.

On tire un élément de la population. Soit X la valeur de la variable observée pour cet


élément. On peut monter que :
E(X)=M V(X)= σ2
4.2. Etude de la moyenne d’échantillon.

On sait que si on a une suite de variables indépendantes. De même loi. De même


moyenne m. Si X est la moyenne d’un échantillon d’effectif n. On a :


2
− − σ
E( X )=M V( X )= n si le tirage est non exhaustif
Si le tirage est exhaustif on a :

50
2
− − σ N−n
( )( )
E( X )=M, V( X )= n N−1 où N est la taille de la population

Lorsque n est grand (n≥30) et la taille de la population est importante, on utilisant le théorème
de la limite centrale :

X −M
σ
√n
Suit une loi normale de moyenne 0 et d’écart- type 1, ceci reste valable pour n<30 à condition
que la variable X suit une loi normale N (m, σ).

4.3. Etude des proportions.

La population P contient une proportion p d’éléments présentant une certaine propriété.


On se trouve devant un cas particulier : la population P est connue. Si X est la variable
aléatoire nombre de pièces présentant la propriété dans un échantillon de taille n. On
peut montrer en utilisant la loi faible des grands nombres, la proportion fn d’un échantillon
converge vers l’espérance mathématique p de cette loi, lorsque n augmente indéfiniment. On
a :
n : taille de l’échantillon
E(X)=p, V(X)=npq. (q=1-p). E(X), V(X) : moyenne et variance de la variable X

La proportion f est telle que :

pq pq N−n
( )( )
E(fn)=p V(fn)= n (si l’échantillon est exhaustif V(fn)= n N−1

Lorsque la taille de l’échantillon est petite, on utilise la loi binomiale. Il existe des
abaques donnant les intervalles de confiance au risque donné α. (α=5% ou 1%)

5. Estimateurs

On observe n fois la variable aléatoire X dans une population P ; les résultas sont x1…xn.
On cherche on cherche à connaître la caractéristique α de la population totale (moyenne ou
écart-type), à partir d’une valeur calculée en fonction de x1…xn. On dit que a est un estimateur
de α si a converge en moyenne quadratique vers α, c’est à dire si :

E(a) α

V(a) 0 lorsque n croît indéfiniment.

L’estimateur est dit sans biais lorsque :


E(a)=α
51
Dans le cas d’un tirage avec remise la fréquence f est un estimateur sans biais de la proportion
p réelle de la population, de même quel que soit le mode de tirage :

E( X )=M (M étant la moyenne de X dans la population)


X est un estimateur sans biais.

Par contre, on peut vérifier que la variance V(X) d’un échantillon d’effectif n tiré sans
remise n’est pas un estimateur sans biais de σ2. Il existe un estimateur sans biais de σ2, c’est :

n
s2 = V (X)
n−1
6. Estimation

Dans le cas de l’estimation, la population P est peu connue ou inconnue. On tire un


échantillon de taille n et l’on calcule ses caractéristiques. Que peut-on déduire quant aux
caractéristiques de la population P ?

6.1. Estimation et signification d’une moyenne.

Si la population suit une loi normale, la moyenne X d’un échantillon de cette population
est distribuée selon la loi normale. Lorsque la population P est inconnue, on peut supposer que
X suit une loi normale à condition que l’effectif de l’échantillon soit supérieur à 30. Tout fois,
si l’écart -type de la population n’est pas connue, on est obligé de l’estimer ; la moyenne X
suit alors la loi de Student.

Echantillon d’effectif supérieur à 30.

On peut déterminer l’intervalle de confiance, c’est à dire déterminer entre quelles


limites se situe la moyenne cherchée, avec une probabilité donnée. L’écart –type peut être
connu ou inconnu.

L’écart –type de la population est connu

X −M
σ
Si le seuil de confiance est de 95% alors Pr(-t< √n <t)=0.95 =
σ − σ σ − − σ
Pr(-t √n < X −M <t √n ) = Pr( X -t √n < M < X +t √n ) =0.95 d’après la table de la loi
normale t=1.96

52
− σ − σ
On a donc X -1.96 √n < M < X +1.96 √n dans 95% de cas ce qui représente une erreur

σ
de + 1.96 √n sur la moyenne M.
Donc l’erreur sur la moyenne de la population est inversement proportionnelle à la racine
carré de la taille de l’échantillon et directement proportionnelle à l’écart-type de la population.

Conclusion : Pour avoir une meilleure précision sur la moyenne M de la population, on a


intérêt à avoir une population homogène (écart-type σ faible : moins de dispersion par
rapport à la moyenne)

Exemple 3.

Le service d’une banque chargé de l’étude de 900 factures dont la moyenne= 5000 dhs
d’un échantillon tiré de la population mère de moyenne M inconnue et d’écart-type σ =2000.
a) calculer un intervalle de confiance au seuil de 95% pour M et donner l’erreur relative
sur M 
b) Quelle est la taille n de l’échantillon à choisir pour que l’erreur relative soit inférieure à ε
(ε=0.01)

SOLUTION
− σ
a) On sait que n=900>=30 donc X suit la loi normale de moyenne M et d’écart-type √n
− σ − σ
D’après 6.1 on X -1.96 √n < M < X +1.96 √n dans 95%
− 2000 2000
Or σ =2000, n=900, t=1.96, X =5000 donc 5000-1.96 √ 900 < M < 5000+1.96 √900
Finalement 4869.33<M<5130.67


ΔM 1 .96 σ − 1. 96 2000 −
=+ ∗¿ ¿ = −
L’erreur relative M M √n = + 5000 * √900 + 0.026 ou + 2.6%
ΔM 1.96 σ σ 2 1 . 962 20002 1. 96 2
= ∗¿ ¿ =6146 . 56
b) On a : M M √n < ε donc n> ε2 M 2 = 0 .012 50002
on peut prendre n=6147

6.3 Estimation et signification d’une proportion.

Si la population suit une loi normale, la proportion fn d’un caractère d’un échantillon de
cette population est distribuée selon la loi normale. Lorsque la population P est inconnue, on
peut supposer que fn suit une loi normale à condition que l’effectif de l’échantillon soit
supérieur à 30.

53
On suppose que la prortion p dans la population est connue

fn− p
Au seuil de confiance est de 95% alors Pr(-t< √ pq
n <t)=0.95

=Pr(-t √
normale t=1.96
pq
n < fn− p <t √ pq
n ) = Pr(-t √ pq
n < fn− p <t √ pq
n ) d’après la table de la loi

On a donc p-t √ pq
n < p <p+t √ pq −
n ) dans 95% de cas ce qui représente une erreur de + 1.96

√ pq
n sur la moyenne p dans la population.
Donc l’erreur sur la moyenne de la population est inversement proportionnelle à la racine
carré de la taille de l’échantillon et directement proportionnelle à l’écart-type de la population.

Exemple 4

A la suite d’une étude, le directeur financier d’une entreprise ait conclu que le nombre de
factures non réglées dans les 10 jours ouvrable qui suivent la date limite de règlement,
représente 10% des factures émises dans un échantillon de 900, compte tenu des habitudes de
la clientèle et des procédures de rappel en vigueur dans l’entreprise.
Donner l’intervalle de confiance pour la proportion p de la population des factures.

Solution

On sait que n>=30 donc fn suit la loi Normale de moyenne p et d’écart type √ pq
n

fn− p
Au seuil de confiance est de 95% alors Pr(-t< √ pq
n <t)=0.95

=Pr (-t √ pq
n < fn− p <t
loi normale t=1.96
√ pq
n ) = Pr(p-t √ pq
n < fn− p <p+t √ pq
n ) d’après la table de la

On a donc fn -t √ pq
n <p< fn +t √ pq −
n ) dans 95% de cas ce qui représente une erreur de +


pq
1.96 n sur la moyenne p dans la population.
Application :
n=900, t=1.96, fn=0,10
0.08<p<0.12 dans 95% de cas

Remarque :

54
De manière générale, le sondage est une méthode efficace d’information sur les
populations d’hommes, d’êtres ou d’objets.
Mais les résultats ne sont valables que si l’on respecte la procédure scientifique de
construction de l’échantillon. Il faut reconnaître qu’il est assez rare que cette procédure soit
vraiment respectée : la plupart des résultas des sondages ne sont qu’approximatifs.

55

Vous aimerez peut-être aussi