Académique Documents
Professionnel Documents
Culture Documents
Tanger
Probabilité et Statistique
BCG-S3
Cours-Tds
UNIVERSITE ABDELMALEK ESSAADI
TANGER
STATISTIQUE DESCRIPTIVE
Contenu du module
1. Statistique descriptive.
La Statistique :
La Statistique descriptive :
L’ensemble des données (ou informations) que l’on possède sur un sujet. Elle a pour objet de
proposer une description simple, clairement présentée et aussi complète que possible de ces
données.
Exemple : âge, poids, taux du cholestérol, durée de vie d’une bactérie, etc.
par un caractère sont appelées modalités, notées xi , yi ,... (lettres minuscules). Leur ensemble
est noté Μ.
Définition : un caractère est dit quantitatif si ses modalités sont mesurables, sinon le
caractère est dit qualitatif.
Exemples :
- caractère quantitative : diamètre d’un axe, température, poids, taille, etc.
- caractère qualitatif : couleur d’un certain type de fleur, favorable ou défavorable, la
pièce conforme ou non conforme, types de défauts, etc.
Définition. Un caractère quantitatif est dit discret si elle ne peut prendre qu’un nombre limité
de valeurs (souvent des valeurs entières). Lorsque le caractère peut prendre toutes les valeurs
d’un intervalle, il est alors dit continu.
Le groupement de données en classes notées ei , ei1 s’appelle dépouillement des données.
ei ei1
ci : .
2
- On appelle amplitude de la classe ei , ei1 le nombre :
ai : ei 1 ei
Remarque : Il arrive que l’amplitude des classes extrêmes soit indéterminée.
Soit N card (P) . Le nombre k de classes à utiliser est donné par la formule
k 1 3,33 log10 N (Formule de Sturges).
c) Effectif-Fréquence.
Définition. - Le nombre d’individus présentant une modalité x i donnée, est appelé effectif ou
- Dans le cas d’un caractère continu, on parle de l’effectif d’une classe ou de son centre.
- Le nombre d’individus pour lesquels le caractère X prend une valeur inférieure ou égale
à α est appelé effectif cumulé jusqu’à l’ordre α. On le note N ( ) .
N ( ) n
i: xi
i
.
Définition. L’ensemble ( x1 , n1 ), ( x2 , n2 ),.... , est appelé distribution statistique.
Définition. On appelle fréquence relative de la modalité x i d’effectif n i , le nombre f i défini
par :
ni
f i :
N
Dans le cas d’un caractère continu on parle de la fréquence relative d’une classe ou de son
centre.
a) Tableaux statistiques.
1. - Cas discret.
Modalité effectif fréquence N ( ) F ( )
x1 n1 f1
x2 n2 f2
xp np fp
N 1
2. - Cas continu.
Classe effectif fréquence N ( ) F ( )
e1 , e2 n1 f1
e2 , e3 n2 f2
ek 1 , ek np fp
N 1
b) Représentations graphiques.
Les représentations graphiques ont l’avantage de renseigner immédiatement sur l’allure
générale de la distribution. Elles facilitent l’interprétation des données recueillies.
1. Diagramme en bâtons.
Lorsque le caractère est discret, la représentation graphique de la distribution de fréquences
absolues (ou relatives) s’effectue à l’aide d’un diagramme en bâtons où la hauteur des bâtons
correspond à l’effectif ni (ou la fréquence relative f i de chaque modalité xi .
Exemple. Une entreprise vérifie régulièrement si l’assemblage d’un appareil complexe a été
effectué correctement. Le responsable du contrôle a effectué une compilation du nombre
d’erreurs d’assemblage pour chaque appareil contrôlé. On a le tableau suivant.
fi
l’amplitude de base, son rectangle aura pour hauteur ( ou m f i ).
m
iii) La surface de chaque rectangle est : = amplitude de la classe x fréquence corres-
pondante. La surface de l’histogramme est égale à 1.
Polygone de fréquence.
Il est obtenu en joignant les milieux des sommets de chaque rectangle de l’histogramme par des
segments de droites. La seule utilité est de présenter l’allure générale de la distribution de
fréquences de la variable étudiée.
Exemple 1: Dans un centre avicole, on mesure le poids d’un échantillon de 36 œufs. Les
mesures sont données dans le tableau suivant :
Nombre de classes: k = 7.
Classe ni fi Ni
[50-52[ 3 0.0833 3
[52-54[ 11 0.3055 14
[54-56[ 13 0.3611 27
[56-58[ 5 0.1388 32
[58-60[ 2 0.0555 34
[60-62[ 1 0.0277 35
[62-64[ 1 0.0277 36
5,10 10 0.1
10,15 30 0.3
Total 100 1
10,15 60 60
15, 20 80 80
20, 25 40 40
Total 200
Polygone cumulé.
C’est la ligne composée de segments dont les extrémités ont pour abscisse les
sommets des rectangles et pour ordonnées les effectifs cumulés (ou les fréquences
relatives cumulées) correspondant à ces sommets de classes.
a) Indicateurs de positions.
- Moyenne.
x i
X i 1
n .
- La moyenne du caractère X de distribution xi , ni ou xi , fi est définie par :
k
n x i i k
X i 1
, avec n ni
n i 1
k
f i xi .
i 1 .
La moyenne de l’échantillon est simplement la moyenne arithmétique des observations. Elle
fournit une estimation de la tendance centrale de la variable statistique, c’est-à-dire une valeur
autour de laquelle se trouvent les valeurs du caractère étudié pour l’ensemble de la population.
- Médiane.
Définition. La médiane, notée Me, est la valeur du caractère pour laquelle la fréquence cumulée
est égale à 0.5. Elle correspond au centre de la série statistique classée par ordre croissant ou à
la valeur pour laquelle 50% des valeurs observées sont supérieures.
Donc Me est telle que : F (Me) 0.5.
Détermination de la médiane.
i- Données non groupées :
X ( m1) , si n 2m 1
M e X ( m ) X ( m1)
, si n 2m
2
avec X (1) X ( 2) .... X ( m) X ( m1) .... X ( n) les valeurs ordonnées de manière croissante
de x1 , x2 ,...., xn .
Remarque.
La médiane n’est pas affectée par les données aberrantes. Elle est influencée par le nombre
de données.
Si la distribution des valeurs est symétrique, la valeur médiane est proche de la moyenne
( Me X ).
- Quartiles.
Définition. On appelle quartiles, les trois modalités du caractère, notés Q1 , Q2 et Q3 , qui
partagent la série en quatre parties égales. On a:
F (Q1 ) 0,25 , F (Q2 ) 0,5 , F (Q3 ) 0,75 .
- Q2 Me .
- Q1 ,Q3 est appelé intervalle interquartile : il contient 50% d’observations.
Remarque. Le calcul se fait comme pour la médiane.
jusqu’aux valeurs extrêmes xmin et xmax de la série. Certains hauteurs relient la boîte aux valeurs
a Q1 1,5(Q3 Q1 ) et b Q3 1,5(Q3 Q1 ) .
Exemple 4 : Le tableau suivant contient des mesures de la teneur en benzène du CO2,
exprimée en ppm par volume :
0,46 0,43 0,47 0,63 1,67 1,75 2,18 2,55 2,62 2,80 3,56 3,61 3,71 3,76
3,95 4,19 4,80 5,03 5,55 5,69 5,79 5,94 5,99 6,63 7,99 8,87 9,71 10,14
b Q3 1,5(Q3 Q1 ) .
- Mode
Le mode, noté Mo, est la valeur du caractère X la plus fréquente ou dominante de l’échantillon.
Le mode correspond à la classe de fréquence maximale. On peut considérer le mode comme la
valeur milieu de la classe modale (de fréquence maximale).
Remarque.
Une distribution de fréquences peut présenter un seul mode (distribution unimodale) ou
deux modes (distribution bimodale) ou plusieurs modes.
Si la distribution des valeurs est symétrique, la valeur du mode est proche de la moyenne
Mo X
6) Graphique circulaire
Dans le graphique circulaire, l’angle (en degré) i au centre du secteur est proportionnel aux
effectifs n i ou aux fréquences f i . Il est donné par : i 360 f i (cas du cercle complet) ou
i 180 f i (cas du demi cercle).
Exemple. Les crédits bancaires selon leur terme se présentent comme suit :
Exercice 1.
1) Tracer le graphique circulaire.
2) Tracer le diagramme à barres (tuyaux d’orgue).
Si les valeurs centrales sont généralement nécessaires pour caractériser une série statistique,
elles ne sont pas suffisantes. Deux populations peuvent avoir les mêmes valeurs centrales et se
comporter de façon différente, notamment en ce qui concerne la dispersion des individus autour
de cette valeur centrale.
Exemple. On considère deux populations :
P1 6, 8, 10, 12, 14, P2 2, 6, 10, 14, 18
X 1 X 2 10 Me 10 .
(1) ( 2)
On a : et Me
Mais les modalités des individus qui les composent ne sont pas réparties de la même manière
autour de la valeur centrale 10. On dit que les séries 1 et 2 non pas la même dispersion; la Série
2 est plus dispersée que la Série 1.
Donc il est nécessaire pour comparer deux populations de considérer à la fois leurs valeurs
centrales et leurs dispersions.
1) Variance.
1 n
2 (X )
n i 1
( xi X ) 2
.
Remarque. Dans le cas des données regroupés en k classes d’effectifs ni
1 k k
2(X ) i i
n i1
n ( x X ) 2
avec n
i 1
ni .
n i 1 .
1 n
2(X )
n i1
( xi X ) 2 .
3) Coefficient de variation.
Définition. On appelle coefficient de variation de X le nombre, noté CV, définit par :
CV .
X
Le coefficient de variation permet d’apprécier la représentativité de la moyenne par rapport à
l’ensemble des données. Une série est fortement dispersée quand son coefficient de variation
est proche de 1. Elle est faiblement dispersée quand son coefficient de variation est proche de
0. Plus le CV est faible plus la série est homogène.
Le CV permet aussi de comparer les dispersions des différentes séries qui ne sont pas exprimés
dans les mêmes unités ou des séries ayant des moyennes différentes.
4) Etendue.
Définition. L’étendue, notée E , est définit par :
E X max X min
.
Elle contient 100% des observations. Cette caractéristique est très affectée par des données
aberrantes.
D’autres étendues centrées sur la médiane contiennent moins de 100 % d’observations.
- Ecart interquartile : Q3 Q1 contient 50 % des observations.
Remarque.
L’écart type est le paramètre de dispersion le plus sensible et le plus efficace, car il tient compte
de la variation de l’ensemble des valeurs par rapport à la moyenne. L’étendue ne tient compte
que des valeurs extrêmes (la valeur maximale et la valeur minimale), ce qui la rend moins
sensible et par conséquent moins efficace.
5) Moments centrés.
Définition : Le moment centré d’ordre k de l’échantillon est donnée par :
1 n
mk
n i1
( xi X ) k , k 1, 2, .... . .
- Coefficient d’asymétrie de Fisher (Skewness) : C’est une mesure descriptive qui permet de
caractériser le degré de symétrie. Elle est de la forme:
m3
3
3 .
- 3 0 : Distribution présente une asymétrie positive (étalement des observations sur le côté
supérieur).
- 3 0 : Distribution présente une asymétrie négative (étalement des observations sur le côté
inférieur).
- 3 0 : Distribution symétrique.
Remarque :
- Si Mo < Me < X : l’histogramme des fréquences est étalé vers la droite ; la distribution
est asymétrique positive.
- Si X < Me < Mo : l’histogramme des fréquences est étalé vers la gauche; la
distribution est asymétrique négative.
- Distribution aplatie :
Une distribution plus ou moins aplatie suivant que les observations ont un faible écart par
rapport à la valeur centrale ou non.
- Coefficient d’aplatissement (Kurtosis) : C’est une mesure du degré de l’aplatissement de
la distribution d’une variable. Elle est donnée par :
m4
4 3.
4
Si 4 0 , la courbe de fréquences est aigue (leptokurtique).
Si 4 0 , la courbe est normale (mésokurtique)
Tableau 1.
Individus Modalités Modalités
xi yi
1 x1 y1
2 x2 y2
i
xi yi
xn yn
n
0
Tableau 2. Tableau à double entrées (tableau de contingence)
y1 yj yp Effectifs selon Y
(effectifs
marginaux)
x1 n11 n1 j n1 p n1
xi ni
ni1 nij nip
Notation :
nij : Nombre d’individus présentant la modalité x i et la modalité y j .
ni : Nombre d’individus présentant la modalité x i (quelque soit les modalités de Y).
n j : Nombre d’individus présentant la modalité y j (quelque soit les modalités de X).
k p k p
n nij ni n j
i 1 j 1 i 1 j 1
1
n j k
f j f i j : Fréquence relative de la modalité y j .
n i 1
k p k p
On a
i 1 j 1
f i j f i f j 1
i 1 j 1
a) Déterminer les fréquences relatives des employés par salaire et par âge.
b) Déterminer le pourcentage des employés dont le salaire est compris entre 1000 et 1100.
c) Déterminer le pourcentage des employés dont l’âge est compris entre 35 et 45 ans.
d) Donner le tableau de répartition des employés selon le salaire.
e) Donner le tableau de répartition des employés selon l’âge.
3. Fréquences conditionnelles.
nij
f j / i : f ( y j / xi ) .
ni
2
Les p fréquences conditionnelles pour la modalité x i forment la distribution conditionnelle
de Y sachant X xi .
k p
On
i 1
fi / j f j / i 1 .
j 1
1 k k
La variance : Var ( X )
n i 1
n i ( x i X ) 2
i 1
f i ( xi X ) 2 .
b) Caractéristiques marginales de Y.
1 p p
La moyenne : Y j j
n j 1
n y
j 1
f j y j .
1 p p
La variance : Var (Y ) n j ( y j Y ) f j ( y j Y ) 2 .
2
n j 1 j 1
b) Caractéristiques conditionnelles.
On considère la j-ème colonne du Tableau 2. Elle définit la variable conditionnelle X / Y y j
- Variance conditionnelle de X / Y y j :
k k
1
Vj (X )
n j
n
i 1
ij ( xi X j ) f i / j ( xi X j ) 2 .
2
i 1
3
5. La corrélation
En statistique la détermination du degré de liaison (ou corrélation) entre deux variables X et Y
et l’élaboration de la forme de relation qui lie ces variables est d’une grande importance aussi
bien pour l’analyse que pour la prévision.
La forme de la liaison (relation).
Une relation est linéaire si l'on peut trouver une relation entre X et Y de la forme Y=aX+b,
c'est à dire si le nuage de point peut s'ajuster correctement à une droite.
Une relation est non-linéaire si la relation entre X et Y n'est pas de la forme Y=aX+b, mais
de type différent (parabole, hyperbole, sinusoïde, etc). Le nuage de point présente alors une
forme complexe avec des courbures.
Une relation non-linéaire est monotone si elle est strictement croissante ou strictement
décroissante. Toutes les relations linéaires sont monotones.
( xi , y j )
La corrélation est presque totale (linéarité des points ) : les variables X et Y varient dans
le même sens : on parle de liaison (ou corrélation) positive.
Exemple : relation entre la production d’une entreprise et sa consommation en matières
premières.
Type 2
Il existe une forte corrélation mais celle-ci est négative : X et Y varient en sens inverse.
Exemple : Relations entre notes aux contrôles et absences.
Type 3.
Il existe un lien entre les variables mais ce lien n’est pas aussi strict que la relation précédente.
Type 4
Type 5
Absence de relation
( xi , y j )
Le graphique des points est désordonné : Il ne semble pas exister de lien entre les
(x , y )
variables. On dit qu’il y a absence de corrélation entre X et Y. le nuage de point i j a la
forme d'un carré, d'un cercle, d'une "patate".
Remarque.
Lorsque qu’on a un tableau de contingence, la covariance de X et Y est donnée par :
1 k p
COV ( X , Y ) nij xi y j X Y
n i 1 j 1
COV ( X , Y )
r
XY .
COV 2 ( X , Y )
R r2
X Y
2 2
:
Le coefficient de corrélation est une mesure de l’intensité de la liaison linéaire entre deux
variables d’une même population. On a
- 1 r 1.
- 0 r2 1.
- Si r est proche de 1 : il existe une forte corrélation linéaire positive entre X et Y.
- Si r 1 : il existe une forte corrélation linéaire négative entre X et Y.
- Si r est nul ou proche de zéro, il y a absence de liaison linéaire entre X et Y : on dit que
les variables X et Y sont non-corrélées.
Cependant on peut avoir une liaison non-linéaire avec un coefficient de corrélation nul ou
proche de zéro.
Le signe de r indique le sens de la liaison.
Droite de régression de y en x : On cherche à déterminer la droite qui ajuste au mieux
le nuage de points donné par (xi, yi) i = 1, …, n.
L’équation de la droite de régression est donnée par : y = a x + b avec :
𝐶𝑜𝑣(𝑋, 𝑌)
𝑎= 𝑒𝑡 𝑏 = 𝑌̅ − 𝑎𝑋̅
𝑉(𝑋)
Exemple :
Pour des raisons de santé publique, on s’intéresse à la concentration d’ozone O3
dans l’air (en microgrammes par millilitre).
En particulier, on cherche à savoir s’il est possible d’expliquer le taux maximal d’ozone de la journée p
par la température T12 à midi.
Y= Concentration d'Ozone
X= Températire à Midi
Jour Xi Yi
1 23,8 115,4
2 16,3 76,8
3 27,2 113,8
4 7,1 81,6
5 25,1 115,4
6 27,5 125
7 19,4 83,6
8 19,8 75,2
9 32,2 136,8
10 20,7 102,8
X Y
Moy= 21,91 102,64
Variance= 44,1889 434,2944
Ecar-type= 6,6475 20,8397
Covriance= 116,2416
Corréltion= 0,8391
a= 2,6306 Y=aX+b
b= 45,0044
140
120
110
100
90
80
70
60
5 10 15 20 25 30 35
Température à midi
6. Droite de régression.
Le coefficient de corrélation linéaire nous donne une indication sur le degré de liaison entre
deux variables X et Y. Lorsque cette corrélation linéaire est significative, on peut établir
l’équation de la liaison existant entre ces deux variables.
L’idée est de transformer le nuage de point ( xi , yi ) en une droite. Celle-ci doit être la plus
proche possible de chacun des points. On dit qu’on ajuste le nuage de points par une droite,
appelée droite de régression. On cherchera donc à minimiser les écarts entre les
points et la droite.
Pour cela, on utilise la méthode des moindres carrées. Cette méthode vise à expliquer le nuage
de points par une droite qui lie Y à X, c’est à dire, Y = aX + b, telle que la distance entre le
nuage de points et la droite soit minimale. Cette droite d’équation Y = aX + b, appelée droite
de régression de Y en X.
Ainsi, la méthode des moindres carrés consiste à chercher la valeur des paramètres a et b qui
minimise la somme des carrés des écarts entre les valeurs observées et la droite.
Posons,
n
S (a, b) : yi (axi b) .
2
i 1
yi
: Observation réelle.
Donc, on obtient
y a x b 0 c’est-à-dire b y ax
COV ( X , Y )
a .
Var ( X )
y yˆ
n n n
y yi yˆ i .
2 2
y
2
On a la relation : i i
i 1 i 1 i 1
n
VT : yi y
2
: variation totale.
i 1
n
VE : yˆ i y
2
: variation expliquée par la droite.
i 1
n
VR : yi yˆ i : variation résiduelle ou variation inexpliquée.
2
i 1
Donc,
VT VE VR
2
Plus R se rapproche de 1, plus le nuage de points se resserre autour de la droite de régression.
2
Au contraire, plus R se rapproche de 0, plus le nuage de points se disperse de la droite de
régression.
Remarque. Le coefficient de détermination est le carré du coefficient de corrélation :
COV 2 ( X , Y )
R2 r 2
X 2 Y 2 .
2
Interprétation de R en pratique :
- Si R 2 91% , alors 91 % de la variation totale dans Y est expliquée par la droite de régression.
Moins de 9 % reste inexpliquée.
- Lorsque R 2 est élevé, on peut considérer que l’ajustement de la droite aux points
expérimentaux est de bonne qualité.
2020-2021 Chapitre3 :
Probabilités
Abdelhadi AKHARIF
Faculté des Sciences et Techniques de Tanger
I. ANALYSE COMBINATOIRE :
On considère un ensemble E de n éléments et on définit à partir de cet ensemble
différents sous-ensemble par des tirages avec et sans remise ordonnés ou non; notre but est de
dénombrer les différentes dispositions que l'on peut former.
𝒑 𝒏!
𝑨𝒏 =
(𝒏−𝒑)!
𝒏!
𝑨𝒏𝒏 = = 𝒏! par convention (n-n)! = 0! = 1
(𝒏−𝒏)!
𝒑 𝒏!
𝑪𝒏 =
𝒑!(𝒏−𝒑)!
2 COURS DE PROBABILITE
Quelques propriétés des combinaisons
𝑝 𝑛−𝑝
2. 𝐶𝑛 = 𝐶𝑛 ;
𝑝 𝑝−1 𝑝
3. 𝐶𝑛 = 𝐶𝑛−1 + 𝐶𝑛−1 avec 1 ≤ p ≤ n-1.
il y a np p-uplets différents.
Une permutation avec répétition de ces n éléments est une disposition ordonnée de ces
n éléments, il y a :
𝑛!
𝑛1 ! 𝑛2 !. . . 𝑛𝑘 !
𝑝 𝒑
𝐾𝑛 = 𝑪𝒏+𝒑−𝟏
3 COURS DE PROBABILITE
C. Résumé :
D. EXEMPLE :
On tire une à une quatre billes d'un sac contenant une bille rouge (R), une bille bleue
(B), une bille jaune (J) et une bille verte (V). Quels sont les résultats possibles?
Vingt enseignants doivent être répartis sur quatre écoles ; de combien de façon peut
on le faire ?
Soit A l'ensemble des nombres de quatre chiffres, le premier étant non nul.
Calculer le nombre d'éléments de A ;
Dénombrer les éléments de A ;
Composés de quatre chiffres distincts ;
Composés d'au moins deux chiffres identiques ;
Composés de quatre chiffres distincts autres que 5 et 7.
Dans chacun des cas suivants, dénombrer les anagrammes du mot LISTE :
Commençant et finissant par une consonne ;
Commençant et finissant par une voyelle ;
Commençant par une consonne et finissant par une voyelle ;
Commençant par une voyelle et finissant par une consonne.
4 COURS DE PROBABILITE
La théorie de probabilité est une branche de mathématique qui permet la modélisation
des expériences où le "hasard" intervient et d'en faire l'étude théorique.
A. Expérience aléatoire :
On appelle" expérience aléatoire", une expérience dont les conditions de déroulement sont
parfaitement définies, mais dont le résultat ne peut être prévu avec certitude à l'avance.
Exemples :
1) On lance un dé, on note le nombre apparaissant sur la face supérieure. Par contre si toutes
les faces du dé portent le même numéro ce ne serait pas une expérience aléatoire car le
résultat est certain.
2) On dispose d'une urne dans laquelle se trouvent 6 boules noires et 4 boules blanches. On
tire (à l'aveugle) une boule, on note sa couleur et on la remet dans l'urne. Cette
expérience est répétée trois fois de suite.
B. Univers
On appelle "univers" associé à une expérience aléatoire, l'ensemble de tous les résultats
possibles. Cet ensemble est noté Ω (dite Oméga). Un résultat élémentaire (résultat possible) est
un élément de Ω. On le note ω.
C. Evénement
On appelle événement toute partie (i.e. sous ensemble) de l'univers Ω. L'événement est une
assertion qui peut ou non se réaliser suivant l'issue de l'expérience aléatoire.
Exemple : Pour l'exemple 2 voici des événements :
E = {(N, N, B)}.
Deux boule au moins sont noires.
5 COURS DE PROBABILITE
iii. {ω} un singleton de Ω; s’appelle événement élémentaire.
"La somme des points est égale à 2" est l'événement élémentaire lorsqu'on lance deux
dé à la fois ; {(1,1)}.
iv. Soit A un événement de Ω, l'événement contraire de A qu'on note Ā est l'ensemble
des réalisations de Ω qui n'appartient pas à A (i.e. complémentaire de A dans Ω).
A : "le résultat du lancement du dé est impair" ;
Ā : "le résultat du lancement du dé est pair".
A et B deux événements de Ω ;
i. 𝐴 ∩ B est l'événement "A et B" signifie que A et B se réalisent simultanément.
ii. 𝐴 ∪ B est l'événement "A ou B" signifie qu'au moins un des deux événements
A ou B se réalise.
iii. 𝐴\B est l'événement "A et 𝐵̅" signifie que A et 𝐵̅ se réalisent simultanément.
iv. A ⊂ B signifie que la réalisation de A implique la réalisation de B.
6 COURS DE PROBABILITE
Soit Θ une tribu de parties de l’ensemble Ω alors :
i. Ω ∈ Θ;
ii. 𝐴1 , 𝐴2 , … , 𝐴𝑛 , . .. une suite finie ou infinie dénombrable d’éléments de Θ
alors ⋂𝑙≥1 𝐴𝑙 ∈ Θ.
On appel espace probabilisable (Ω, Θ) tout ensemble Ω non vide muni d'une tribu Θ.
7 COURS DE PROBABILITE
- On a Ω ∪ ∅ = Ω alors
𝑃(Ω ∪ ∅) = 𝑃(Ω) + P(∅).
- On a 𝐴 ∪ 𝐴̅ = Ω alors
𝑃(𝐴 ∪ ̅̅̅ ̅̅̅ = 𝑃(Ω) = 1.
𝐴) = 𝑃(𝐴) + 𝑃(𝐴)
- On a 𝐵 = 𝐴 ∪ (𝐵\𝐴) alors
P(𝐵) = 𝑃(𝐴) + 𝑃(𝐵\𝐴) or 𝑃(𝐵\𝐴) ≥ 0.
- On a 𝐴 ∪ 𝐵 = (𝐴 ∩ 𝐵̅)∪ (𝐴 ∩ 𝐵) ∪ (𝐴̅ ∩ 𝐵) alors
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴 ∩ 𝐵̅)+𝑃(𝐴 ∩ 𝐵) + 𝑃(𝐴̅ ∩ 𝐵)
or P(A)- 𝑃(𝐴 ∩ 𝐵)= 𝑃(𝐴 ∩ 𝐵̅)
de même 𝑃(𝐴̅ ∩ 𝐵) = P(B)- 𝑃(𝐴 ∩ 𝐵).
∀𝑖 ∈ {1, . . . , 𝑛} 𝑝𝑖 ≥ 0 𝑒𝑡 ∑ 𝑝𝑖 = 1.
𝑖=1
𝑐𝑎𝑟𝑑(𝐴)
∀ 𝐴 ∈ 𝒫(Ω) 𝑃(𝐴) = 𝑐𝑎𝑟𝑑(Ω)
4- Probabilité conditionnelle :
Soit (Ω, Θ, 𝑃) un espace probabilisé et A un événement tel que 𝑃(𝐴) ≠ 0. Pour un événement
quelconque B, on appelle probabilité conditionnelle de B sachant que A est réalisé, le nombre:
𝑃(𝐴∩𝐵)
𝑃(𝐵/𝐴) = 𝑃(𝐴)
8 COURS DE PROBABILITE
5- Evénements indépendants :
Dans un espace probabilisé (Ω, Θ, 𝑃), deux événements A et B sont dits indépendants si et
seulement si:
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) × 𝑃(𝐵).
9 COURS DE PROBABILITE
Faculté des Sciences et Techniques Année 2020-2021
Tanger
Département de Mathématiques
TD N°1
Exercice 2. Sur un échantillon de 100 personnes d’âges différents (variant entre 55 et 65 ans), on a
mesuré le taux de cholestérol total. On a obtenu les résultats suivants:
Effectifs
Taux de Cholestérol (g/l)
ni
[1.4 , 1.6[ 4
[1.6 , 1.8[ 6
[1.8 , 2.0[ 8
[2.0 , 2.4[ 20
[2.4 , 2.6[ 18
[2.6 , 2.8[ 30
[2.8 , 3.0[ 14
Exercice 3. On a relevé les âges de 92 patients visitant une clinique privée durant l’été.
1) Retrouvez la valeur manquante sachant que l’âge moyen est 49,89 ans.
2) Tracer l’histogramme, le polygone des fréquences et déterminer le mode.
3) Déterminer la médiane et l’écart-type.
4) En déduire la forme de la distribution de l’âge des patients.
Exercice 4.
On a noté l’âge (arrondi à l’année près) des 48 salariés d’une entreprise ; la série statistique brute est
donnée ci-dessous.
43 29 57 45 50 29 37 59 46 31 46 24 33 38 49 31
62 60 52 38 38 26 41 52 60 49 52 41 38 26 37 59
57 41 29 33 33 43 46 57 46 33 46 49 57 57 46 43
4
t
Faculté des sciences et techniques Année 2020-2021
Tanger
Département de Mathématiques
Filière : BCG - 2ème année
Module : Statistique descriptive et Probabilités
T D1
Exercice 2 Sur un échantillon de 100 personnes d’âges différents (variant entre 55 et 65 ans), on a
mesuré le taux de cholestérol total. On a obtenu les résultats suivants :
Exercice 3 On a relevé les âges de 92 patients visitant une clinique privée durant l’été.
1
Classe ni
[10 − 20[ 9
[20 − 40[ 26
[40 − x[ 19
[x − 80[ 24
[80−, v100[ 14
Total 92
1. Retrouvez la valeur manquante sachant que l’âge moyen est 49,89 ans.
2. Tracer l’histogramme, le polygone des fréquences et déterminer le mode.
3. Déterminer la médiane et l’écart-type.
4. En déduire la forme de la distribution de l’âge des patients.
Exercice 4 On a noté l’âge (arrondi à l’année près) des 48 salariés d’une entreprise ; la série
statistique brute est donnée ci-dessous :
26 26 29 29 29 31 31 33 33 33 33 37 37 38 38 38 38 41 41 41 43 43 43 45 46 46 46 46 46 46 49
49 49 50 52 52 52 57 57 57 57 57 59 59 60 60 62
1. Ordonner de manière croissante ces valeurs.
2. Dépouiller ces données suivant un tableau statistique.
3. Faites une représentation graphique convenable.
4. Déterminer le mode, la moyenne et l’écart type de cette distribution.
5. Déterminer la valeur médiane de cette distribution, les 1er et 3ème quartiles.
6. Tracer le diagramme en boîte (Box pot).
7. Après l’analyse des graphiques et des paramètres caractérisant cette série statistique, donner
une conclusion sur l’âge de ces salariés.
——————————————————
2
Corrigé de l’exercice 1 1. Tableau statistique
X ni fi Fi ni xi ni xi2
0 2 0,1 0,1 0 0
1 3 0,15 0,25 3 3
2 5 0,25 0,5 10 20
3 4 0,2 0,7 12 36
4 4 0,2 0,9 16 64
5 0 0 0,9 0 0
6 2 0,1 1 12 72
Total 20 1 53 195
ni ni
fi = = ; Fi = f1 + f2 + ... fi
N 20
2. Diagramme
3. La courbe des fréquences cumulées croissantes La fonction cumulée croissante est définie
par :
0 si x < 0
0.1 si 0 ≤ x < 1
0.25 si 1 ≤ x < 2
0.5 si 2 ≤ x < 3
F(x) =
0.7 si 3 ≤ x < 4
0.9 si 4 ≤ x < 5
0.9 si 5 ≤ x < 6
1 si 6 ≤ x
3
Figure 2 – Courbe des fréquences cumulées croissantes.
0 − 0 − 1 − 1 − 1 − 2 − 2 − 2 − 2 − 2-3 − 3 − 3 − 3 − 4 − 4 − 4 − 4 − 6 − 6
———————————————-
4
Table 2 – Tableau statistique
Les fréquences corrigées sont utilisées seulement pour tracer l’histogramme des fréquences et
le calcule du mode.
5
2. Courbe des fréquences cumulées croissantes
(c) La variance σ2
X
σ2 = 1/100 ni c2i − X̄ 2 = 600, 96/100 − 2, 422 = 0, 1532
i=1
6
(d) L’écart-type
σ= V(x) = 0, 3914
p
6. (a) La médiane
0, 38 < 0.5 < 0, 56
2, 4 < Me < 2, 6
⇒
Me − 2, 4 0, 5 − 0, 38
=
2, 6 − 2, 4 0, 56 − 0, 38
⇒
0, 5 − 0, 38
Me = 2, 4 + (2, 6 − 4) = 2, 5333
0, 56 − 0, 38
(b) F(Q1 ) = 0, 25 et F(Q3 ) = 0, 75, danc Q1 est dans [2, 2, 4[ et Q3 dans [2, 6, 2, 8[
ainsi
Q1 = (2 + 2, 4)/2 = 2, 2
Q3 = (2, 6 + 2, 8)/2 = 2, 7
7. Tracer le diagramme en boîte (Box pot)
———————————————-
Corrigé de l’exercice 3 1. La valeur manquante sachant que l’âge moyen est 49,89 ans
5
X 3515 + 21, 5 ∗ x
X = 1/92 ni ci = = 49, 9944186
i
92
On trouve x = 50
Table 3
M0 = (20 + 40)/2 = 30
7
3. La médiane
Table 4
di 10 20 40 50 80 100
Fi 0 0,10 0,38 0,59 0,85 1,00
40 < Me < 50
⇒
Me − 40 0, 5 − 0, 38
=
50 − 40 0, 59 − 0, 38
⇒
Me = 45, 714
4. La variance V(x) = σ2
X
σ2 = 1/92 ni c2i − X̄ 2 = 278700/92 − 49, 892 = 540, 33
i=1
Ainsi
σ= V(x) = 23, 24
p
ai = (62 − 24)/7 = 6
Age ni ci Ni Fi ni ci ni c2i
[24 − 30[ 6 27 6 0,125 162 4374
[30 − 36[ 6 33 12 0,25 198 6534
[36 − 42[ 9 39 21 0,4375 351 13689
[42 − 48[ 10 45 31 0,6458 450 20250
[48 − 54[ 7 51 38 0,7917 357 18207
[54 − 60[ 7 57 45 0,9375 399 22743
[60 − 66[ 3 63 48 1 189 11907
Total 48 2106 97704
8
3. Représentation graphique
di 24 30 36 42 48 54 60 66
Fi 0 0,13 0,25 0,44 0,65 0,79 0,94 1,00
9
F(36)= 0,25
Q1= 36
F(Q3)= 0,75
Q3 dans la classe [48 − 54[
Q3= 52,2851
6.
Q1 = 36
Q2 = 43, 80
Q3 = 52, 28
d1 = Q1 − 1, 5 ∗ (Q3 − Q1) = 11, 5723
d2 = Q3 + 1, 5 ∗ (Q3 − Q1) = 76, 71
7. Me = 43, 8 < X = 43, 875 < M0 = 45, donc la distribution de l’age est asymétrie étalée vers
la gauche
10
Faculté des sciences et techniques Année 2020-2021
Tanger
Département de Mathématiques
Filière : BCG - 2ème année
Module : Statistique descriptive et Probabilités
T D2
X/Y 10 20 30 40
2 a 0 b 0
4 0 b 0 a
6 b 0 a 0
8 0 a 0 b
10 c c c c
Exercice 2 Lors d’un test d’effort sur une personne, on a fait varier l’intensité X du travail fourni
(en kilojoules par minute) et on a relevé la fréquence cardiaque Y (en nombre de battements par
minute). On a obtenu les résultats suivants :
Intensité xi Fréquence
10 70
13 86
19 92
30 106
38 120
48 130
50 144
56 152
1
2. Déterminer le coefficient de corrélation linéaire entre les variables X et Y. Interprétez.
3. Déterminez la droite de régression de Y en X.
4. En déduire le coefficient de détermination. Interpréter.
5. Estimer l’intensité du travail fourni pour une fréquence cardiaque de 148 battements par
minute.
Corrigé : TD2
Corrigé de l’exercice 1 1. Calcule de a , b et c
Y/X=2 10 20 30 40 total
Effectifs a 0 b 0 a+b
Proportions a/(a+b) 0 0 b/(a+b) 1
N = 40 = 4(a + b + c)
f1. = n1. /n = (a + b)/40 = 0.13
f5. = n5. /n = (4c)/40 = 0.5
f (Y = 10/X = 2) = a/(a + b) = 0.4
c=5
= 0.4
a/5
a+b =5
a + b + c = 10
Ainsi a=2, b=3 et c=5
2. Les moyennes et les variances marginales des variables X et Y.
2
5
X 300
X = 1/40 ni xi = = 7.5
i=1
40
5
2
X
v(X) = σ2 = 1/n ni xi2 − X = 2600/40 − 7.52 = 8.75
i=1
yj n. j n. j y j n. j y2j
10 10 100 1000
20 10 200 4000
30 10 300 9000
40 10 400 16000
Total 40 1000 30000
4
X 1000
y = 1/40 ni yi = = 25
i=1
40
4
X
v(y) = σ2 = 1/n ni y2i − y2 = 30000/40 − 252 = 125
i=1
X/Y 10 20 30 40 total
2 40 0 180 0 220
4 0 240 0 320 560
6 180 0 360 0 540
8 0 320 0 960 1280
10 500 1000 1500 2000 5000
total 230 580 570 1320 7600
3
Le coefficient de corrélation linéaire r entre X et Y
Cov(X, Y) Cov(X, Y)
r= = √
σ(X)σ(X)
p
V(x) V(y)
X
V(x) = 2.95; V(Y) = 11.18; Cov(X, Y) = 1/10 ni j xi yi − x × y = 2.5.
p p
i, j
4
8
X 264
X = 1/8 xi = = 33
i=1
8
8
2
X
v(X) = σ = 1/8
2
xi2 − X = 10914/8 − 332 = 275, 25
i=1
8
X 900
y = 1/8 yi = = 112, 5
i=1
8
8
X
v(y) = σ2 = 1/8 y2i − y2 = 107136112, 52 = 735, 75
i=1
X
Cov(X, Y) = 1/8 xi yi − x × y = 444, 75
i, j
Cov(X, Y) Cov(X, Y)
r= = √ = 0, 988
σ(X)σ(X)
p
V(x) V(y)
ainsi, x et y sont fortement corrélées.
3. La droite de régression de y en x : y=ax+b
a = Cov(x, y)/v(x) = 444.75/275.25 = 1.6158
b = y − ax = 112.5 − 1.6158 × 33 = 59.1784
5
5. L’intensité du travail fourni pour une fréquence cardiaque de 148 battements par minute.
6
FACULTE DES SCIENCES ET TECHNIQUES Année 2020-2021
De TANGER
Département de Mathématiques
TD N°2
X\Y 10 20 30 40
2 a 0 b 0
4 0 b 0 a
6 b 0 a 0
8 0 a 0 b
10 c c c c
On donne en plus les renseignements suivants :
Effectif total = 40 ;
La fréquence de X = 2 est égale à 1/8 ;
La fréquence de X = 10 est égale à 1/2, la fréquence de Y = 10 sachant que X =
2 est égale à 0,4.
Déterminer les nombres a, b et c.
Exercice 2 : Lors d’un test d’effort sur une personne, on a fait varier l’intensité X du
travail fourni (en kilojoules par minute) et on a relevé la fréquence cardiaque Y (en nombre de
battements par minute). On a obtenu les résultats suivants :
Intensité 10 13 19 30 38 48 50 56
xi
6 6 6
TD N°3
Exercice 1.
Exercice 2. Supposons que l’on désire créer les codes d’accès à l’ordinateur de 5 lettres à
partir de 26 lettres de l’alphabet. Quelle est le nombre de codes différents ? Considérer les cas :
a) Les lettres sont distinctes ;
b) Avec répétition des lettres.
1) P( B C ) , P ( A B ) .
2) P( A B C ) .
3) P ( A B ) et P A ( B C ) .
4) P ( B / A), P ( B / A) , P( B / A), P( B C / A).
Exercice 5. Dans une population, 7 % des individus sont contaminé par un virus. On dispose
d’un test de dépistage tel que :
- Si un individu est contaminé, le test est positif à 99 %,
- Si un individu n’est pas contaminé, le test est positif à 3 %.
1) Quelle est la probabilité pour que le test appliqué à un individu soit positif.
2) Sachant que le test est positif, quelle est la probabilité que l’individu soit contaminé.
3) Le test est-il efficace ?
Exercice 6. Un quart d’une population a été vaccinée contre une maladie contagieuse. Si on
est vacciné, on tombe malade avec une probabilité de 1/20. Si la personne est malade, la
probabilité qu’elle soit vaccinée est 1/5.
Exercice7. On sait qu’à une date donnée, 3% d’une certaine population est atteinte d’hépatite.
On dispose de tests de dépistage de la maladie :
- Si la personne est malade, alors le test est positif avec une probabilité 0.95.
- Si la personne est saine, alors le test est positif avec une probabilité de 0.10.
1. Quelle est la probabilité qu’une personne de cette population présente un test positif ?
2. Quelle est la probabilité qu’une personne soit malade si son test est positif ?
3. Le test est-il efficace ?
k 1 2 3 4 5 6
P( X k ) a 2a 3a 3a 2a a
TD N° 4
Exercice 2 : On s’intéresse dans cet exercice aux allergies déclenchées par un médicament
dans une grande population. Une étude a montré que 23% des individus sont allergiques. On
choisit au hasard un échantillon de 18 personnes. Soit 𝑋 le nombre aléatoire de personnes
allergiques.
1. Quelle est la loi de probabilité de la variable aléatoire X ? (Justifier). Donner son espérance, sa
variance et son écart type.
2. Calculer les probabilités : ℙ(X=1), ℙ(X=18), ℙ (5 ≤ 𝑋 ≤ 7).
Exercice 3 : Un astronome voit passer un nombre X d’étoiles filantes sur une période d’une
minute. On suppose que X suit la loi de Poisson de paramètre .
1. Déterminer sachant que l’astronome voit passer en moyenne 3 étoiles filantes par
minute.
2. Quelle est la probabilité que pendant cette minute, il en observe respectivement 0, 1,
au moins 2 étoiles filantes ?
Exercice 4 : Dans une population une personne sur cent est centenaire.
1) Quelle est la probabilité de trouver au moins un centenaire parmi 100 personnes
choisies au hasard ? Justifier.
2) Même question pour 200 personnes ?
Université Abdelmalek Essaadi Année universitaire : 2021/2022
FST de Tanger
Département de Mathématiques
Filière : BCG – 2ème année
Module : Statistique descriptive et Probabilité
TD N° 5
Exercice2 : Une enquête a été effectuée auprès de famille de 4 personnes afin de connaître leur
achat de lait en 1 mois. Sur l'ensemble des personnes interrogées, la consommation a une
distribution de type normale avec une moyenne de 22 litres et un écart-type de 6 litres.