Académique Documents
Professionnel Documents
Culture Documents
Sommaire:: Introduction À La Notion de Probabilité
Sommaire:: Introduction À La Notion de Probabilité
1
4. Usage de la table de la fonction N(0,1)……………………...……………………...
5) La fonction intégrale II (t) de la loi normale, centrée, réduite N(0,1)……………
6) Usage de la table intégrale II (t)…………………………………………………….
2
Chapitre 1
. La statistique est une méthode scientifique qui consiste à réunir des données
chiffrées sur des ensembles nombreux, puis à analyser, à commenter et à critiquer ces
données.
Cette science n’a pas pour objet la connaissance des éléments des ensembles dans ce
qui fait leur individualité, mais au contraire dans ce qu’ils ont en commun : il s’agit
d’obtenir des résultats globaux. Ainsi, une enquête statistique portant sur des personnes
n’a pas besoin de faire intervenir leurs noms, mais seulement les renseignements que l’on
désire étudier : elle permet de connaître la répartition de ces personnes par âge, sexe,
couleur de cheveux, profession ou groupe de sanguin…
- Comme toute science, la statistique fait appel à un vocabulaire spécialisé.
- Les ensembles sont appelés population. Comme un ensemble, une population
statistique doit être clairement définie.
Exemples
1 : Population de chômeurs : il faut préciser s’il s’agit des inscrits à l’ANPE (Agence
nationale pour l’emploi), des personnes se déclarant sans travail ou à la recherche du
travail. En outre, les précisions de temps et de lieu s’imposent.
2 : Population d’automobiles produites par une usine : il faut préciser le mode
comptage d’automobiles.
3
variable statistique peut être discrète s’il ne prend que des valeurs isolées, ou
continue, si elle peut prendre toutes les valeurs d’un intervalle donné.
- Lorsque les modalités du caractère ne sont pas mesurables. Le caractère est dit
qualitatif. Les modalités d’un caractère peuvent faire l’objet d’une nomenclature
ou énumération ; la nomenclature doit être en principe courte (une dizaine de
modalités pour une étude statistique simple).
Exemple : pour les chômeurs, l’âge est un caractère quantitatif continu ; Le nombre
d’enfants à charge est un caractère quantitatif discret. Pour les automobiles, la couleur
est un caractère qualitatif.
2. La collecte de l’information
Le premier objet de la méthode statistique est de réunir les informations avant de les
traiter. Il existe différentes méthodes pour réunir des statistiques ; nous nous bornerons à
quelques généralités.
Il importe, dés le départ, de bien définir l’objectif ou les objectifs de l’étude, avant de
réaliser l’enquête. Si un élément est oublié dans les premières recherches, il risque d’être
long et coûteux de le rechercher ensuite.
Exemple
Si on réalise une enquête sur l’emploi dans un secteur déterminé, il ne faut pas oublier
aucune variable ; on peut interroger les personnes en leur demandant leur qualification
professionnelle, leurs âges, prétention salariales.
Cependant, il ne faut pas être très ambitieux. Il ne doit pas y avoir de lacune dans
l’information, mais il ne doit non plus y avoir trop d’information.
Les données sont recueillies soit par observation directe. Soit indirectement.
- S’il s’agit d’observation directe, l’enquête est menée par les statisticiens, à des fins
uniquement statistiques. D’une manière ou d’une autre, cette enquête aboutit à des
questionnaires que le statisticien est ensuite amené à dépouiller. Ces questionnaires
portent soit sur chaque unité statistique, soit déjà sur un groupe d’unités
statistiques ; dans ce dernier cas, Les résultats sont déjà sous forme de tableau.
La réalisation des questionnaires est délicate. Autant que possible, ils ne doivent pas
être trop longs. Pour avoir plus de chances d’être remplis correctement ; cependant ils doivent
contenir toute l’information désirée. Par ailleurs, ils ne doivent présenter aucune ambiguïté
(aucune question qui pourrait être mal comprise). Il est souvent nécessaire de tester un
questionnaire sur quelques personnes avant de le lancer.
4
Il est souhaitable que l’enquête puisse atteindre toutes les unités statistiques et par
conséquent qu’il n’y ait pas « non-réponses ». Pour cela, les statisticiens recourent à tous les
moyens d’incitation en leur pouvoir ; cependant, ce point reste difficile.
- Les statistiques recueillis par observation indirecte sont des sous produits d’autre
travaux : statistiques d’une entreprise tirées de sa comptabilité (ONE, LYDEC…).
Ce moyen est plus économique que le précédent, et a souvent l’avantage de
recouvrir avec certitude toute la population à étudier ;
- les résultats statistiques peuvent être obtenus à partir d’une enquête exhaustive
instantanée (dénombrement instantané ou recensement) ou d’un relevé continu.
C’est ainsi que les statistiques démographiques viennent de deux sources : les
recensements de la population, à date fixe, et les statistiques du « mouvement » de
la population dressées à partir de l’état civil.
Lorsque l’information a été obtenue indirectement ou par enquête, elles doivent être
classées et exploitées. Auparavant, une critique des réponses reçues doit être faite. Afin
d’éliminer les contradictions et les invraisemblables. Pour chaque caractère à étudier,
on définit un certain nombre de classes selon les modalités. Puis on fait le tri des
observations, c’est à dire une répartition entre classes.
4. Tableaux statistiques
5
4. 1. Cas d’un caractère qualitatif
Tableau 1
ni
f i= avec 1≤i≤k 0≤f i ≤1
n
k
On a : n=∑ ni =n1 +n 2 +n3 +.. . ..+n k
n=1
k
et ∑ f i=f 1 + f 2 + f 3 + .. .+f k =1
i =1
Exemple 1
6
7
4. 2. Cas d’un caractère quantitatif
4. 2. 1. Cas d’un caractère quantitatif discret
Dans ce cas le caractère est mesurable les modalités sont discrètes (cas d’un dénombrement)
qu’on note : x1, x2, x3, …., xn.
Ces valeurs x1, x2, x3, …., xn sont différentes et rangées par ordre croissant.
Ni : est la somme des effectifs correspondant aux valeurs du caractère inférieures ou égale à xi
N 1 =n1
N 2 =n1 +n2
N 3 =n1 +n2 +n 3
.
.
.
N i=n1 +n 2 +. .. .+ni =N i−1 +n i avec i=1 , 2 , ,. .. , k
.
.
N k =n1 +n2 +. . ..+n k =n
F1 =f 1
F2 =f 1 +f 2
F3 =f 1 +f 2 +f 3
.
.
.
Fi =f 1 +f 2 +. .. .+f i avec i=1 , 2 , , .. . , k
=F i−1 +f i
.
.
F k=f 1 +f 2 +. . ..+f k =1
8
On peut définir les effectifs cumulés décroissants :
Ti : est la somme des effectifs correspondant aux valeurs des caractères supérieurs ou égaux à
xi
T 1 =n
T 2=n−( n1 )
T 3 =n−(n1 +n 2 )
.
.
.
T i =n−(n 1 +n2 +.. ..+ni−1 )=T i−1−ni−1 avec i=1 , 2 , ,.. . , k
.
.
T k=n−(n1 +n 2 +. .. .+nk −1 )=nk
G 1=1. 00
G 2 =1−f 1
G 3 =1−( f 1 +f 2 )
.
.
.
G i=1−( f 1 +f 2 +... .+f i−1 ) avec i=1 , 2 , ,. . .,k
=G i−1−f i−1
.
.
G k =1−(f 1 +f 2 +.. ..+f k −1 )
9
Exemple2
Une entreprise de bâtiment possède 100 appartements dont la répartition selon le nombre de
chambres est la suivante (voir tableau ci-dessous) :
Tableau 3
Explication :
Pour un caractère quantitatif continu les modalités sont des classes de valeurs de la
forme : ]e0, e1] ; ]e1, e2] ; ]e2, e3] ; …. ; ]ek-1, ek] . On a k modalités (classes) prises fermées à
droite et ouvertes à gauche (ou l’inverse).
10
On notera :
ni : Effectif de classe ]ei-1, ei] (nombre d’unités ou de personnes dont la valeur
de la variable appartient à la classe ]ei-1, ei]
Ni : Effectif cumulé croissant correspondant au nombre d’unités ou de
personnes dont la valeur variable appartient à la classe]e0, ei]
Ti : Effectif cumulé correspondant au nombre d’unités ou de personnes dont la
valeur de la variable appartient à la classe]ei, ek]
Tableau 4
Total n 1
5. Graphiques
11
- Dans le cas d’une variable discrète, le graphique représentant la répartition est un
diagramme à bâtons : l’effectif ou la fréquence est représenté par un segment de
droite ; ainsi apparaît la discontinuité entre deux valeurs de la variable. Un
exemple mettra cette représentation en évidence.
12
prendre garde à l’amplitude des classes : on se réfère à la plus petite amplitude et
on divise la hauteur du rectangle par la mesure de l’amplitude.
Exemple 2
Tableau 5
Durée de Effectif
scolarisation
[1-6[ 144
[6-11[ 230
[11-16[ 173
[16-21[ 64
[21-26[ 4
Total 615
Hh
Histogramme
Il n’est plus alors possible d’utiliser un diagramme cartésien, puisque les données ne
sont pas numériques. Diverses méthodes sont possibles ; nous indiquerons certaines
d’entre elles à partir de l’exemple 3.
13
Etat matrimonial
700
600
500
400
Fréquence
300
200
100
0
célibataire marié divorcé veuf(ve)
Diagramme à bandes
14
La variable statistique (élément matériel) est qualitative, Dans ce cas précis on peut
utiliser deux sortes de diagrammes
- Diagramme en bandes représentant chaque type d’accident dont la hauteur est
proportionnelle à l’effectif et dont la base est constante (voir figure ci dessus)
- Diagramme à secteurs ; les effectifs des diverses modalités sont représentés par les
secteurs d’un cercle ou d’un demi cercle en effectif ou en pourcentages.(voir
figure)
Diagramme à secteurs
4%
2%
40% célibataire
marié
divorcé
veuf(ve)
54%
15
Chapitre 2 :
1.1. Introduction :
Ces paramètres permettent de chiffrer la variabilité des valeurs observées au tour d’un
paramètre de position. Les principaux paramètres de dispersion sont : La variance, l’écart-
type, le coefficient de variation, l’écart moyen absolu, l’écart médian, l’écart interquartile,
l’étendu, la différence moyenne et le coefficient de concentration.
Définition :
La moyenne arithmétique, qu’on appelle tout simplement moyenne, est égale à la somme
des valeurs observées divisé par le nombre d’observations.
16
Cas d’une série statistique :
Soit n observations : x1, x2,…,xn
− n
1
x= ∑ xi
Alors
n i=1
Groupée en classes.
Avec ci : point central de la classe i
Si la classe i est : [ei-1, ei[ a pour effectif ni, alors ci=( ei-1,+ei)/2
1. 3. 2. Mode :
Le mode d’un ensemble de nombres est le nombre que l’on rencontre le plus
fréquemment, c’est à dire celui qui a la plus grande fréquence.
Exemple :
L’ensemble : 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12. Le mode est 9 sa fréquence est égale à 3
L’ensemble : 1, 2, 3, 4, 5. n’a pas de mode
L’ensemble : 2, 3, 3, 4, 4, 5, 6, 7 a deux modes 3 et 4, leur fréquences est égale à 2
- Si la variable statistique est discontinue, le mode correspond au maximum du
diagramme en bâtons.
- Si la variable statistique est continue groupée en classes, on parle de classe modale
qui correspond à l’effectif maximum de l’histogramme.
Exemple : Cas d’une variable discrète : Répartition du nombre d’enfants dans 90 familles
Le mode de cette distribution est la valeur 3 car elle correspond à l’effectif le plus
élevé (25) :
On dira que la plus part des familles ont 3 enfants
Exemple : Cas d’une variable continue : Répartition des salaires horaire de 43 employés
dans une société
La classe modale de cette distribution est la classe [6-8[ car elle correspond à l’effectif
le plus élevé (12) :
On dira que la plus part des employés ont un salaire horaire entre 6 et 8 $
1. 3. 4. Médiane :
La médiane d’une variable statistique est la valeur pour laquelle la moitié des
observations lui sont inférieure ou égales et la moitié restante sont supérieure ou égales.
Soit une série de valeur rangée par ordre croissant : x1, x2,…,xn
- Si le nombre d’observation est pair, la médiane est comprise entre l’observation de rang
(n/2) et l’observation de rang ( (n/2)+1) :
x(n/2) <Me< x(n/2)+1
On prend comme valeur médiane la moyenne des deux bornes, donc Me=( x(n/2)+ x(n/2)+1)/2
Exemples
Soit la série : 8, 10, 11, 12, 18 (n=5 : impaire) alors, il correspond au rang (n+1)/2=3,
c’est è dire Me=x3=11
Soit la série : 8, 10, 11, 12, 14, 18 (n =6 : paire) alors, la médiane se trouve entre le rang
(n/2)=3 et le rang (n/2)+1=4, c'est-à-dire entre x3 et x4 on prend pour Me=(x3+x4)/2
=(11+12)/2=11.5,
Exemple :
Salaire / h ni ni cumulées
2-4 5 5
4-6 8 13
6-8 12 25
8-10 10 35
10-12 8 43
Total n=43
On a donc
6 Me 8
13 22 25
Interprétation : On dira qu’il y a donc autant de salaires horaires inférieurs à 7,5 Dhs
que de salaires horaires supérieurs à 7,5 Dhs
1.4. 5 Médiale :
C’est la valeur de xi telle que les individus dont le caractère est inférieur à Ml possédant
globalement (à eux tous) La moitié de la masse totale du caractère :On dira que la médiale
k
∑ ni xi
partage la masse totale i=1 en deux parties égales.Exemple : Cas d’une variable
continue : Répartition des salaires horaire de 43 employés dans une société
19
10-12 (10+12)/2=11 8 43 88 317 43/43 317/317
TOTAL 43 317
8 Ml 10
On a donc (10-8)/(229-139)=(Ml-8)/(158.5-139)
Donc Ml=8.43Dhs
Interprétation : La moitié de la masse salariale horaire (158,5 dhs) est distribuée sous
forme de salaires horaires inférieurs à 8,43 dhs.
Définition :
La variance est la moyenne arithmétique des carrées des écarts des observations par
rapport à leur moyenne.
)
2 k − 2
1
S= ∑
n i=1
ni ( x i−x
OU
− k
1 317
x = ∑ ni xi = =7 , 37
n i=1 43
L’écart type est la racine carrée de la variance.
20
( ))
k − 2 1/ 2
1
S= ∑ n i ( xi −x
n i=1
( ))
k − 1/2
1
( ∑ ni x 2 )−x
2
n i=1 i
L’écart type s’exprime dans la même unité que la variable xi
Salaire de l’
entreprise II
par unité de
100 dh
3-5 33 4 132 528
5-7 35 6 210 1260
7-9 19 8 152 1216
Total 87 494 3004
21
Les deux entreprises ont la même masse salariale totale qui est de 494 dhs.
Les deux entreprises ont le même nombre d’ouvriers 87 donc même salaires moyens.
Si cette valeur centrale qui est la moyenne donne la même grandeur concernant le
salaire pour les deux entreprises, on peut constater que les salaires ne sont pas distribués
de la même manière. Les paramètres de dispersion résument la manière dont sont
distribués les caractères.
Entreprise I
−
x 1=5 . 68
2
3485
S 2= −(5 . 68) =7 . 8
1 87
S 1 =√7 . 8=2. 79
S1 2 .79
CV 1= = =0 . 49 ou 49 %
− 5 . 68
x1
Entreprise II
−
x 2=5 . 68
2
3004
S 2= −( 5. 68 ) =5 .20
2 87
S 2 =√ 2. 28=2 . 28
S2 2 .28
CV 2 = − = =0. 27 ou 27 %
5 . 68
x2
On peut remarquer que CV1>CV2 ce qui implique que les salaries l’entreprise I sont plus
dispersés que ceux de l’entreprise II.
1.5. 6 Ecart interquartile :
22
a) Les quartiles q1,q2,q3 :
- q1 : est la valeur de la variable telle que un quart des observations lui sont inférieures ou
égales et trois quarts des observations lui sont supérieures ou égales.
- q2 : est la valeur de la variable telle que deux quarts des observations lui sont inférieures ou
égales et deux quarts des observations lui sont supérieurs ou égales. C’est aussi égale à la
médiane.
- q3 : est la valeur de la variable telle que trois quarts des observations lui sont inférieures ou
égales et un quart des observations lui sont supérieures ou égales.
q1 q2 =Me q3
b) Les déciles :
En procédant comme pour la médiane et les quartiles, il est possible de définir et de calculer
les déciles d1 et d2.
- d1 : est la valeur de la variable telle que un dixième des observations lui sont
inférieures ou égales et neuf dixième des observations lui sont supérieures ou égales.
- di : est la valeur de la variable telle que 1 dixième… et (10-1) dixième…
Effectif :
c) Ecart intérquatile :
q1 q2 q3
q3-q1
50% de l’effectif total
1.5.7) L’étendue :
L’étendue est un indicateur de la dispersion d’une variable, il est représente l’écart entre la
valeur maximale et la valeur minimale de la variable statistique.
Et = Xmax –Xmin
I. 6) Coefficient de concentration
23
L’étude de la concentration permet essentiellement de rendre compte du phénomène de
concentration économique qui caractérise l’évolution de l’économie mondiale (concentration
des richesses, concentration des populations)
I. 6. 1) Courbe de concentration
Cette courbe est obtenue en calculant les fréquences relatives cumulées croissantes après les
avoir classées par ordre croissant et les masses relatives cumulées croissantes.
n k
( i ) cumulées croissantes sur l ' axe Ox où n=∑ ni
n i=1
k
ni x i
( k ) cumulées croissantes sur l ' axe Oy , ∑ ni x i représente la masse totale
∑ ni x i
i=1
i=1
M.R.C.C
La surface courbe
F.R.C.C.
0 1
Courbe de LORENZ
Dans le cas ou toutes les observations seraient égales entre elles, la courbe de concentration à
la bissectrice. Plus la courbe s’éloigne de la bissectrice, plus la concentration est élevée.
I. 6 .2 Coefficient de concentration
On mesure la concentration par la surface courbe entre les deux courbes (bissectrice et courbe
de concentration (voir courbe de LORENZ).
On mesure la concentration par le coefficient de GINI=2*(la surface hachurée)
I. 6. 3. Indice de concentration
24
On peut étudier la concentration directement à partir de la différence entre la médiale et la
médiane, on définit l’indice de concentration par :
Mediale−Mediane
Indice de concentration= Etendue ou
Mediale−Mediane
L’intensité de la concentration = médiane
25
Chapitre 3 :
ANALYSE COMBINATOIRE
Propriété 1
Card(AυB)= Card(A)+Card(B)-Card(A∩B)
Ω Ω
A B A B
A∩B=Ø A∩B≠Ø
Propriété 2
¿
Définition : Soient A et B deux ensembles finis. Le produit cartésien AΧB est l’ensemble des
couples (x,y), où x est un élément de A et y un élément de B
Exemple1 :
26
Une classe de 32 élèves (20 filles et 12 garçons) à un problème à régler avec l’administration.
Il est décidé d’envoyer à « la vie scolaire » une délégation formée d’une fille et d’un garçon.
Si on appelle F l’ensemble des filles et G l’ensemble des garçons, chaque délégation possible
représente un élément de FΧG. Il y a évidemment 20*12 délégations Ω possibles.
Nous avons donc :
Définition : Une p-liste d’éléments d’un ensemble A est une suite (a1, a2,…,ap) de p éléments
appartenant à A
Remarque :
L’ensemble des p-listes de A est donc l’ensemble Ap, produit cartésien de p facteurs égaux à
A.
Ap=AΧAΧ…ΧA p fois
Exemple 2 :
Le numéro gagnant d’une petite loterie est désigné en faisant tourner 3 roues divisées en
secteurs numérotés de 1 à 4
1 2 1 2 1 2
3 4
3 4 3 4
b) Résultats générale
27
3) Nombre d’arrangements
Les p-listes (p=4) envisagés dans l’exemple précédents sont formées de 4 éléments dont
certains peuvent être égaux ; exemple de 4-liste : 1214. Nous allons donc nous intéresser
maintenant à p-listes formées d’éléments tous différents.
Exemple2 :
Vingt chevaux, numérotés de 1 à 20, prennent le départ de course. Les parieurs essaient de
deviner le tiercé gagnant dans l’ordre.
Combien ont-ils de choix possibles, en supposant qu’il n’y aura pas d’ex æquo ?
Un « tiercé dans l’ordre » est en fait un triplet de chevaux distincts. Il s’agit de dénombrer ces
triplets
Sur les 20 chevaux on 20 choix possibles pour le premier cheval. Une fois choisi, il nous reste
19 choix possibles pour le deuxième cheval, après le deux choix, il nous reste 18 chois
possibles pour le troisième cheval. Finalement il y a 20*19*18 tiercés possibles dans l’ordre
soit 6840.
Résultats général
n(n-1)(n-2)(n-3)…..(n-(p-1)) p facteurs
Théorème :
28
Ann= n(n-1)(n-2)(n-3)…3.2.1 ce nombre est noté n ! (factorielle n)
Exemple 3 :
Une revue propose à ses lecteurs une liste de 4 chanteurs, et leur demande un classement par
ordre de préférence.
Un classement peut être considéré comme un arrangement à 4 éléments de l’ensemble des
chanteurs. Il y a donc 4! =24 classement possibles.
Un arrangement des n éléments d’un ensemble E est appelé permutation de E
Théorème :
Soit un ensemble E à n éléments. Il existe n ! Permutation des éléments de E
4) Nombre de combinaisons
Définition :
Une combinaison à p éléments d’un ensemble E est une partie à p éléments de E
Exemple 4 :
De combien de manière peut-on choisir 3 chevaux parmi 20, sans tenir compte de l’ordre ?
Résultat général
Théorème :
Soit E un ensemble à n éléments et p un entier tel que 1≤p≤n.
Dans E, le nombre de combinaisons à p éléments de E noté Cnp, vérifie :
Cnp =Anp /n !=[n(n-1)(n-2)(n-3)…(n-(p-1))]/[(1.2.3….p)]
Cas particulier :
Cn0=1
Cn1=n
Cnn=1
5) Récapitulation
Les trois types de problèmes que nous venons d’étudier dans les paragraphes 2, 3 et 4 peuvent
se retrouver dans les différentes façons de tirer p boules dans une urne qui en contient n :
29
Tirages Successifs Simultanés
(l’ordre compte) (l’ordre ne compte
pas)
Avec remise np p-listes
Sans remise Anp arrangements Cnp combinaisons
30
Chapitre 4 :
1) Introduction
Concéderons une «épreuve ». Généralement les résultats éventuels de cette épreuve font
appels « au hasard ».La collection des résultats éventuels forment un ensemble. A chaque
élément de cet ensemble des éventualités, on associe un nombre que l’on appelle
« probabilité ». On obtient l’ensemble fondamental Ω de tous les résultats possibles
2) Axiomes et définitions
Axiome 1
Axiome 2
A chaque événement Ei, on associe un nombre positif ou nul, que l’on appelle la probabilité
de l’événement Ei
Ei → Pr (Ei) ≥0
Axiome 3
Ω → Pr (Ω) =1
Définition.
A∩B=Ø A∩B≠Ø
Incompatibles Compatibles
Pr(AυB)= Pr(A)+Pr(B)
31
3) Corollaires
Corollaire 1.
¿
Ω
A
¿ ¿ ¿
Corollaire 2
Pr(Ø) =0
Pr(AυB)= Pr(A)+Pr(B)-Pr(A∩B)
Pr(A)>0 et Pr(B)>0
Pr(A/B)= Pr(A∩B)/Pr(B)
6) Indépendance en probabilité.
Pr(A∩B)= Pr(A)Pr(B)
32
Langage statistique et notion ensembliste
7) Exemple d’application
On tire une carte au hasard dans un jeu ordinaire de 52 cartes. On considère les événements
suivants :
A= la carte tiré est le roi du cœur,
B= la carte tiré est un cœur,
C= la carte tiré est soit l’as de pique, soit un cœur,
D= la carte tiré est un pique ou un cœur
Calculer
1°) La probabilité des événements A, B, C et D
2°) La probabilité des intersections suivantes :
A∩B, A∩C, et A∩D
3°) La probabilité des réunions suivantes :
AυB, AυC et AυD
4°) les probabilités conditionnelles suivantes :
A sachant que B est réalisé,
A sachant que C est réalisé,
A sachant que D est réalisé.
Solution.
Dans un jeu de 52 cartes, il y a quatre couleurs (Trèfle, Carreau, Cœur, Pique) de treize cartes
(As, Roi, Dame, Valet, Dix, neuf, huit, sept, six, cinq, quatre, Trois, Deux) Chacune.
Pr(A)=1/52
Pr(B)=13/52
33
On sait que :
Pr(AυB)= Pr(A)+Pr(B)-Pr(A∩B)
Pr(D)= Pr (un pique) υ (un cœur)= Pr (un pique) +Pr (un cœur)=13/52+13/52=26/52
Pr(A∩B)=Pr(A)=1/52
Pr(A∩C)=Pr(A)=1/52
Pr(A∩D)=Pr(A)=1/52
Pr(AυB)= Pr(A)+Pr(B)-Pr(A∩B)
Pr(AυB)= 1/52+13/52-1/52=13/52=Pr(B)
Pr(AυC)= Pr(A)+Pr(C)-Pr(A∩C)
Pr(AυC)= 1/52+14/52-1/52=14/52=Pr(C)
Pr(AυD)= Pr(A)+Pr(D)-Pr(A∩D)
Pr(AυD)= 1/52+26/52-1/52=26/52=Pr(D)
Pr(A/B)= Pr(A∩B)/Pr(B)=1/13
Pr(A/C)= Pr(A∩C)/Pr(C)=1/14
Pr(A/D)= Pr(A∩D)/Pr(D)=1/26
34
Chapitre 5 : LOIS DE PROBABILITE
35
DISTRIBUTION BINOMIALE
1) Généralités.
Soit p la probabilité de réalisation d’un événement quelconque, lors d’une certaine
épreuve (p : probabilité de succès).
Pr { X= k } = Cnk pk qn-k
Où k = 0 ,1,2, …, n.
On résume cette loi par la notation B(n, p).
Cette loi est une de probabilité discrète .Elle porte le nom de distribution binomiale car
pour k = 0, 1,2, .., n elle correspond aux termes successifs du développement de la formule du
Binôme de Newton :
(q + p)n = qn + Cn1 p1 qn-1 + … + Cnk pk qn-k + … + pn=1
où les termes Cn constituent les coefficients du binôme :
k
Cnk = n !
k ! (n - k) !
Rappelons que :
n ! = 1 x 2 x 3 x … x(n – 1)n.
1 ! = 1
0 ! = 1 (par convention).
2) Définition.
Considérons une épreuve alternative, définie par les probabilités attachées à ces deux
états :
Considérons une succession d’épreuves du même type, indépendantes, les unes des
autres.
La variable aléatoire X, dont la loi de probabilité est définie par :
36
est une variable binomiale
La loi de X est la loi de probabilité binomiale ; on la désigne parfois sous le nom de la
loi des épreuves répétées : B (n, p).
3) Propriétés.
4) Domaine d’application.
Calcul numérique.
Exemple d’application
Dans une entreprise, on a observé que la fréquence de rupture du stock a été de quatre
semaines sur cent, on s’intéresse aux ruptures de stock qui peuvent se produire au cours des
25 prochaines semaines.
a) Calculer la probabilité de n’observer aucune rupture de stock au cours des 25
prochaines semaines.
b) Calculer la probabilité d’observer 2 ruptures de stock au cours des 25 prochaines
semaines
c) Calculer la probabilité d’avoir un nombre de ruptures de stock inférieur (ou
égale) à 3 au cours des 25 prochaines semaines.
37
Le nombre d’expériences est n=25 (25 épreuves), la probabilité de rupture est p=0.04, donc si
X : La variable aléatoire : nombre de ruptures au cours des 25 semaines alors la probabilité
d’avoir k ruptures est :
0 0 ( 25 )
a) P( X=0)=C25 (0 . 04 ) (0 . 96 ) = 0.3604
2 2 (23 )
b) P( X=2)=C 25 (0 .04 ) (0 .96 ) = 0.1877
0 0 ( 25 )
c) P( X≤3)=Pr ( X=0)+Pr ( X=1)+ Pr ( X=2 )+Pr ( X =3)=C25 (0 . 04 ) (0 . 96 ) +
C125 (0. 04 )1 (0. 96 )( 24 ) + C225 (0. 04 )2 (0 . 96 )( 23 ) + C325 (0 . 04 )3 (0. 96 )( 22 ) =0.9835
38
LA LOI DE POISSON
1) Définition
On dit qu’une variable aléatoire X suit une loi de poisson, si elle est susceptible de
prendre toutes les valeurs entières 0, 1,2,…, n,… ; la probabilité que X soit égal à k étant :
Prob{X=k}=e-λ (λk/k!)
2) Propriétés
V{X}= λ
3) Domaine d’application.
La loi de Poisson s’appelle encore la loi des petites probabilités. Elle est utilisée pour
représenter des phénomènes rares : nombre d’accidents, nombre de déchets dans une
fabrication,…
Calcul numérique.
La loi de Poisson est d’un calcul relativement aisé pour les petites valeurs de k. elle est
également tabulée pour certaines valeurs de paramètres.
Exemple d’application
Lors d’une fabrication de billets de banque, le nombre de défauts suit une loi de Poisson de
moyenne λ=0.5. Calculer
a) la probabilité d’avoir 0 défauts
b) La probabilité d’avoir un défaut.
c) La probabilité d’avoir plus de trois défauts.
39
k
λ
P( X=k )=e− λ
k!
0
0 .5
P( X=0)=e−0. 5 =0 . 6065
a) 0!
1
0.5
P( X=1)=e−0 . 5 =0 . 3033
b) 1!
c) P( X >3 )=1−P ( X≤3 )=1−( P( X =0)+P( X=1)+P( X=2 )+P ( X=3 ))=0. 0018
40
LA LOI NORMALE OU DE LAPLACE-GAUSS
1) Variable normée .
−
( x i−x )
ti =
σx
Cette variable ti est dite variable normée, si elle possède les deux propriétés suivantes :
T= X – E{X} = X – Moyenne
σX Ecart- type
Soit une variable aléatoire X, continue. On dit que X suit une loi de probabilité
normale (ou de Laplace-Gauss) si
-ses réalisations appartiennent à l’intervalle (-∞,+∞),
-la densité de probabilité, associée à ses réalisations est définie par :
−
( t− x )2
−
1 2 σ2
f (t )= e
√ 2 π
41
−
où x et σ sont respectivement la moyenne et l’écart-type de la variable X
On démontre que :
−
- l’espérance mathématique de X est :E{X} = x .
- l’écart- type de X est : σ{X} =σ ou Var(X)= σ2 (Variance de X)
−
On dit que l’on est en présence de la loi normale, de moyenne x et d’écart-type σ. on résume
−
cette loi par la notation : N ( x , σ)
x
∫
On définit la probabilité : P(X<x)=F(x)= −∞
f (t )dt
F(x) : s’appelle fonction de répartition de la variable aléatoire X
−
( X− x )
T=
σ
t2
1 −
2
f (t )= e
√2 π
Cette loi est dite, loi normale, centrée, réduite, car elle est de moyenne nulle et d’écart-
type égale à l’unité.
42
y=f(t)
-t t
Les tables donnent les valeurs de la fonction, uniquement pour les valeurs positives de
la variable t.
Exemples :
t0
1 −t 2
∫ exp( )dt
II(t0)=Pr(T<t0)= −∞ √ 2 π 2
t
to
43
On démontre que :
−t 2
∞
1
∫ exp( 2 )dt=1
−∞ √ 2 π
L’aire comprise entre la courbe N(0,1) et l’axe des t est égale à l’unité.
Ainsi, la fonction intégrale II (t0) constitue la fonction
de répartition de t, c’est-à-dire :
II (t0)=Prob{T<t0},
La table II(t) donne les valeurs de la fonction, uniquement pour les valeurs positives de la
variable t.
Exemple :Prob {T<0,82}=II(0,82)=0,793 9.
t
0.82
y=f(t)
t
-0.82 0.82
44
Calculer la probabilité associée à un intervalle. En effet la surface II(t) comprise entre ta et tb,
représente la probabilité pour que T soit compris entre ta et tb :
II (t)=Pr {ta<T<tb}=Pr(T<tb)-Pr(T<ta),
y=f(t)
ta tb
y
0.4
N(0, 1)
t
68.27%
95.45%
99.73%
Exemple d’application
Lors de fabrication d’une pièce de monnaie, on contrôle le poids des pièces à partir d’un
échantillon de 100 pièces, sachant que le poids d’une pièce suit sensiblement la loi normale de
moyenne 5 g et d’écart-type 0.05 g. on supposant que la norme de fabrication des pièces
impose que poids de chaque pièces P doit être entre 4.9 g et 5.1 g
Calculer le pourcentage des pièces acceptables
Soit X la variable aléatoire poids, P suit la loi normale de moyenne 5 g et d’écart-type 0.05g
On cherche : Pr( 4.9 <X<5.1)=Pr(X<5.1)-Pr(X<4.9)=0.95.
Donc le pourcentage des pièces acceptable est : 95%
45
46
Chapitre 6
ECHANTILLONNAGE. ESTIMATION
Pour recueillir des informations sur une population statistique, on dispose de deux
méthodes :
Il arrive fréquemment que l’on doive rejeter la méthode exhaustive, soit à cause de
son coût ou de sa durée, soit parce qu’elle destructive.
−
Echantillon
−
Echantillon (n, X , s2)
(n, X ,s 2
)
Notation :
N, X et σ : sont respectivement la taille de la population mère, sa moyenne et son écart-type.
−
47
La figure 1 met en évidence la différence entre l’échantillonnage qui consiste à passer
d’une population totale à un échantillon et l’estimation qui consiste à induire, à partir des
résultats observés sur l’échantillon, des résultats sur la population.
2. 1. L’échantillonnage
Pour que la loi binomiale soit réellement applicable à l’exemple pratique indiqué, il est
nécessaire que :
48
En conclusion : si l’on connaît la composition de la population, on peut, sous certaines
conditions, en déduire la composition de l’échantillon. Plus la taille de l’échantillon est
grande, plus sa structure est voisine de la population totale.
L’estimation.
Les individus ne sont plus tirés un par un mais par « grappes » (logement, entreprise, unité
géographique). Le coût de la collecte de l’information est diminué ; mais pour que la
précision demeure correcte, les grappes doivent être de tailles voisines et de composition aussi
hétérogène que possible.
Dans ce tirage tous les individus n’ont pas la même probabilité de figurer dans
l’échantillon, Au dépouillement, on affecte à chaque unité observée un coefficient égal à
l’inverse de sa probabilité d’être tiré.
49
On tire un échantillon d’unités primaires. Dans chaque unité primaire, on tire un
échantillon d’unités secondaires et ainsi de suite. Le coût de l’enquête est très diminué,
malheureusement la précision baisse également. A coût constant l’efficacité est cependant
souvent meilleure.
Les méthodes précédentes reposent sur les principes statistiques des sondages aléatoires.
Quel que soit le procédé utilisé, elles supposent l’existence d’une « base de sondage », listes
ou figurent tous les éléments de la population. Or cette base de sondage n’est pas toujours
disponible.
On peut alors recourir à une autre catégorie de sondage, dit par « quotas » ou par choix
raisonné. On construit empiriquement, à partir d’information antérieure, un échantillon aussi
représentatif que possible de la population étudiée. Pour cela on distribue la population
suivant certains critères que l’on pense en corrélation avec les paramètres étudiés et l’on fixe
des « quota » que devront respecter les enquêteurs (il faut interroger 1000 hommes dont 700
ouvriers, 400 de 25 à 35 ans, 500 banlieusards, etc.)
L’avantage de la méthode des choix raisonnés réside dans sa souplesse et son faible coût ;
c’est la méthode la plus couramment utilisée.
Si l’on possède une liste ou au moins une certaine base de sondage, la stratification est la
meilleure méthode d’échantillonnage. Elle consiste à découper la population en groupes
homogène (strates) et tirer indépendamment un échantillon aléatoire dans chaque strate. Les
gains de précision peuvent être considérables par rapport à d’autres méthodes.
4. Distribution d’échantillonnage
Dans ce paragraphe, on suppose connue la population totale P d’effectif N ; ainsi que sa
moyenne M et son écart-type σ ; La loi de la distribution de la population est également
connue. On suppose que le tirage est effectué avec remise (tirage non exhaustif)
50
2
− − σ N−n
( )( )
E( X )=M, V( X )= n N−1 où N est la taille de la population
Lorsque n est grand (n≥30) et la taille de la population est importante, on utilisant le théorème
de la limite centrale :
X −M
σ
√n
Suit une loi normale de moyenne 0 et d’écart- type 1, ceci reste valable pour n<30 à condition
que la variable X suit une loi normale N (m, σ).
pq pq N−n
( )( )
E(fn)=p V(fn)= n (si l’échantillon est exhaustif V(fn)= n N−1
Lorsque la taille de l’échantillon est petite, on utilise la loi binomiale. Il existe des
abaques donnant les intervalles de confiance au risque donné α. (α=5% ou 1%)
5. Estimateurs
On observe n fois la variable aléatoire X dans une population P ; les résultas sont x1…xn.
On cherche on cherche à connaître la caractéristique α de la population totale (moyenne ou
écart-type), à partir d’une valeur calculée en fonction de x1…xn. On dit que a est un estimateur
de α si a converge en moyenne quadratique vers α, c’est à dire si :
E(a) α
Par contre, on peut vérifier que la variance V(X) d’un échantillon d’effectif n tiré sans
remise n’est pas un estimateur sans biais de σ2. Il existe un estimateur sans biais de σ2, c’est :
n
s2 = V (X)
n−1
6. Estimation
Si la population suit une loi normale, la moyenne X d’un échantillon de cette population
est distribuée selon la loi normale. Lorsque la population P est inconnue, on peut supposer que
X suit une loi normale à condition que l’effectif de l’échantillon soit supérieur à 30. Tout fois,
si l’écart -type de la population n’est pas connue, on est obligé de l’estimer ; la moyenne X
suit alors la loi de Student.
X −M
σ
Si le seuil de confiance est de 95% alors Pr(-t< √n <t)=0.95 =
σ − σ σ − − σ
Pr(-t √n < X −M <t √n ) = Pr( X -t √n < M < X +t √n ) =0.95 d’après la table de la loi
normale t=1.96
52
− σ − σ
On a donc X -1.96 √n < M < X +1.96 √n dans 95% de cas ce qui représente une erreur
−
σ
de + 1.96 √n sur la moyenne M.
Donc l’erreur sur la moyenne de la population est inversement proportionnelle à la racine
carré de la taille de l’échantillon et directement proportionnelle à l’écart-type de la population.
Exemple 3.
Le service d’une banque chargé de l’étude de 900 factures dont la moyenne= 5000 dhs
d’un échantillon tiré de la population mère de moyenne M inconnue et d’écart-type σ =2000.
a) calculer un intervalle de confiance au seuil de 95% pour M et donner l’erreur relative
sur M
b) Quelle est la taille n de l’échantillon à choisir pour que l’erreur relative soit inférieure à ε
(ε=0.01)
SOLUTION
− σ
a) On sait que n=900>=30 donc X suit la loi normale de moyenne M et d’écart-type √n
− σ − σ
D’après 6.1 on X -1.96 √n < M < X +1.96 √n dans 95%
− 2000 2000
Or σ =2000, n=900, t=1.96, X =5000 donc 5000-1.96 √ 900 < M < 5000+1.96 √900
Finalement 4869.33<M<5130.67
−
ΔM 1 .96 σ − 1. 96 2000 −
=+ ∗¿ ¿ = −
L’erreur relative M M √n = + 5000 * √900 + 0.026 ou + 2.6%
ΔM 1.96 σ σ 2 1 . 962 20002 1. 96 2
= ∗¿ ¿ =6146 . 56
b) On a : M M √n < ε donc n> ε2 M 2 = 0 .012 50002
on peut prendre n=6147
Si la population suit une loi normale, la proportion fn d’un caractère d’un échantillon de
cette population est distribuée selon la loi normale. Lorsque la population P est inconnue, on
peut supposer que fn suit une loi normale à condition que l’effectif de l’échantillon soit
supérieur à 30.
53
On suppose que la prortion p dans la population est connue
fn− p
Au seuil de confiance est de 95% alors Pr(-t< √ pq
n <t)=0.95
=Pr(-t √
normale t=1.96
pq
n < fn− p <t √ pq
n ) = Pr(-t √ pq
n < fn− p <t √ pq
n ) d’après la table de la loi
On a donc p-t √ pq
n < p <p+t √ pq −
n ) dans 95% de cas ce qui représente une erreur de + 1.96
√ pq
n sur la moyenne p dans la population.
Donc l’erreur sur la moyenne de la population est inversement proportionnelle à la racine
carré de la taille de l’échantillon et directement proportionnelle à l’écart-type de la population.
Exemple 4
A la suite d’une étude, le directeur financier d’une entreprise ait conclu que le nombre de
factures non réglées dans les 10 jours ouvrable qui suivent la date limite de règlement,
représente 10% des factures émises dans un échantillon de 900, compte tenu des habitudes de
la clientèle et des procédures de rappel en vigueur dans l’entreprise.
Donner l’intervalle de confiance pour la proportion p de la population des factures.
Solution
On sait que n>=30 donc fn suit la loi Normale de moyenne p et d’écart type √ pq
n
fn− p
Au seuil de confiance est de 95% alors Pr(-t< √ pq
n <t)=0.95
=Pr (-t √ pq
n < fn− p <t
loi normale t=1.96
√ pq
n ) = Pr(p-t √ pq
n < fn− p <p+t √ pq
n ) d’après la table de la
On a donc fn -t √ pq
n <p< fn +t √ pq −
n ) dans 95% de cas ce qui représente une erreur de +
√
pq
1.96 n sur la moyenne p dans la population.
Application :
n=900, t=1.96, fn=0,10
0.08<p<0.12 dans 95% de cas
Remarque :
54
De manière générale, le sondage est une méthode efficace d’information sur les
populations d’hommes, d’êtres ou d’objets.
Mais les résultats ne sont valables que si l’on respecte la procédure scientifique de
construction de l’échantillon. Il faut reconnaître qu’il est assez rare que cette procédure soit
vraiment respectée : la plupart des résultas des sondages ne sont qu’approximatifs.
55