Vous êtes sur la page 1sur 98

Faculté des Sciences et Techniques de

Tanger

Probabilité et Statistique

BCG-S3

Cours-Tds
UNIVERSITE ABDELMALEK ESSAADI

FACULTE DES SCIENCES ET TECHNIQUES

TANGER

STATISTIQUE DESCRIPTIVE

Prof. Abdelouahid IMLAHI

Parcours « Biologie, Chimie, Géologie (BCG) – S3 »

Année universitaire 2020-2021


Objectifs du module

- Maîtriser l’essentiel des méthodes de la statistique descriptive en mettant à con-


tribution des outils de bases pour illustrer des applications à la vie courante.
- S’initier aux logiciels statistiques.

Contenu du module

1. Statistique descriptive.

1ère partie : - Distribution à une dimension: concepts de bases, tableau de


fréquences et représentations graphiques, caractéristiques de tendance
centrale, de dispersion ; de forme et de concentration. Applications.

2ème partie : - Distributions à deux dimensions : tableaux de contingence,


corrélation, ajustement linéaire simple, méthodes de moindres carrées.
Applications.

2. Initiations aux logiciels statistiques.

Enseignement (cours et travaux dirigés) : 56 heures

Modalités d’évaluation : - Deux contrôles continus :


Partie 1 : STATISTIQUE DESCRIPTIVE A UNE DIMENSION

La Statistique :

La science du traitement de l’information et de la prise de décision. Elle englobe un ensemble


de méthodes et théories appliquées à l’analyse des données associées à une situation ou un
phénomène dont le comportement ne peut être décrit avec certitude mais plutôt être analysé
dans un contexte d’incertitude. Pour l’ingénieur, le but ultime de l’utilisation de ces méthodes
est d’arriver à des conclusions pratiques pour éventuellement proposer des recommandations
et des mesures correctives s’il y a lieu.

La Statistique descriptive :
L’ensemble des données (ou informations) que l’on possède sur un sujet. Elle a pour objet de
proposer une description simple, clairement présentée et aussi complète que possible de ces
données.

1. Vocabulaire de la statistique descriptive.


a) Données : elles sont la source principale de l’information.
« données » i.e. tout ce que peut constituer une information.

Exemple : âge, poids, taux du cholestérol, durée de vie d’une bactérie, etc.

Vu l’importance des données dans l’étude statistique, elles doivent :


- être exactes et recueillies avec soin et précision,
- servir à un objectif clair,
On doit faciliter la saisie des données et leur exploitation.

Pour une collecte efficace des données, on doit se poser la question :


- Qui va effectuer la collecte des données ?

- Quels sont les objectifs qu’on espère atteindre en réalisant l’étude ?


- Pendant combien de temps doit-on effectuer la collecte ?
- Combien de données doit-on collecter ?
- Comment est-ce que les données seront collectées ?

b) Individu (unité statistique) : élément soumis à une étude statistique.


c) Population : l’ensemble des individus, notée P.
Une population peut être de nature très variée (êtres humains, animaux, plantes, bactéries,
objets, etc.).
Exemple. Dans une usine fabriquant des produits d’éclairage, on a mesuré la durée de vie de
certains types de lampes. L’ensemble des lampes fabriquées au cours de cette étude constitue
la population. Chaque lampe est une unité statistique de cette population.

d) Échantillon : Généralement l’étude statistique ne porte pas sur l’ensemble de la


population pour plusieurs raisons :
- taille de la population très élevée,
- temps, coût de l’opération important,
- l’étude peut détruire les éléments de la population.
Un échantillon est une partie de la population recueillie telle que les résultats de l’analyse
pourront être étendus à la population. Divers méthodes pour construire un échantillon
(Modules : Inférence statistique, Sondage).

e) Caractère –modalité. Chaque individu ou ensemble d’individus de la population peut


être décrit par une ou plusieurs caractéristiques, on les appelle caractère statistique, notés X,
Y, … (lettres majuscules).
Exemples : Les employés d’une entreprise peuvent être décrits par :
X :=Age
Y : Salaire
Les pièces produites par une machine peuvent être décrites par :
X : Diamètre,
Y : nombre de pièces défectueuses (non-conformes),
Z : Durée de vie de la pièce.
Un caractère est appelé aussi variable statistique. Les différentes situations possibles prises

par un caractère sont appelées modalités, notées xi , yi ,... (lettres minuscules). Leur ensemble
est noté Μ.
Définition : un caractère est dit quantitatif si ses modalités sont mesurables, sinon le
caractère est dit qualitatif.
Exemples :
- caractère quantitative : diamètre d’un axe, température, poids, taille, etc.
- caractère qualitatif : couleur d’un certain type de fleur, favorable ou défavorable, la
pièce conforme ou non conforme, types de défauts, etc.

Définition. Un caractère quantitatif est dit discret si elle ne peut prendre qu’un nombre limité
de valeurs (souvent des valeurs entières). Lorsque le caractère peut prendre toutes les valeurs
d’un intervalle, il est alors dit continu.

Exemples : - Poids, durée de vie, âge sont des caractères continus.


- « Nombre d’enfants », « nombre de défauts observés » sont des caractères
discrets.

2. Dépouillement des données et distributions de fréquences.

Le groupement de données en classes notées ei , ei1 s’appelle dépouillement des données.

- On appelle centre de la classe ei , ei1 le nombre :

ei  ei1
ci : .
2
- On appelle amplitude de la classe ei , ei1 le nombre :

ai : ei 1  ei
Remarque : Il arrive que l’amplitude des classes extrêmes soit indéterminée.

a) Détermination du nombre de classes.


Le nombre de classes ne devrait, en général, être ni inférieur à 5 ni supérieur à 20. De
préférence, il varie entre 6 et 12 classes.
En pratique on peut utiliser une formule pour déterminer le nombre de classes.

Soit N  card (P) . Le nombre k de classes à utiliser est donné par la formule
k  1 3,33 log10 N (Formule de Sturges).

b) Détermination de l’amplitude de chaque classe.


Définition : l’écart entre la plus grande et la plus petite modalité d’un caractère est appelé
étendue, noté E.
E
L’amplitude de la classe est égale à .
k
Remarque.
- Comme la valeur de E sera rarement un nombre entier, on arrondit au plus grand ou au
plus petit entier. Le choix définitif de l’amplitude de chaque classe s’effectuera dans le
but de faciliter la présentation et la compréhension de la distribution des fréquences.
- Une amplitude trop grande aura comme effet de donner un petit nombre de classes et
une amplitude trop petite donnera un nombre de classes trop élevé.

c) Effectif-Fréquence.
Définition. - Le nombre d’individus présentant une modalité x i donnée, est appelé effectif ou

fréquence absolue de cette modalité, on le note n i .

N : card ( P)   ni est appelé effectif total.


i 1

- Dans le cas d’un caractère continu, on parle de l’effectif d’une classe ou de son centre.
- Le nombre d’individus pour lesquels le caractère X prend une valeur inférieure ou égale
à α est appelé effectif cumulé jusqu’à l’ordre α. On le note N ( ) .

N ( )  n
i: xi 
i
.
Définition. L’ensemble ( x1 , n1 ), ( x2 , n2 ),.... , est appelé distribution statistique.
Définition. On appelle fréquence relative de la modalité x i d’effectif n i , le nombre f i défini
par :
ni
f i :
N
Dans le cas d’un caractère continu on parle de la fréquence relative d’une classe ou de son
centre.

Définition. On appelle fréquence cumulée croissante la fonction F définie par


N ( )
F ( ) :
N .
C’est le cumul des fréquences des modalités inférieures ou égales à α.
Dans le cas des classes F et N ne sont connues que pour les extrémités des classes.

3. Tableaux et principales représentations graphiques.


Pour que les résultats de l’enquête soient facilement lisibles et compréhensibles, on les publie
sous forme de tableaux ou graphes. Les graphes les plus usuelles sont le diagramme en bâtons
et l’histogramme ; on utilise également le polygone de fréquences, les courbes des fréquences
cumulées, le diagramme à secteurs circulaires et le diagramme à barres.

a) Tableaux statistiques.
1. - Cas discret.
Modalité effectif fréquence N ( ) F ( )

x1 n1 f1
x2 n2 f2

xp np fp

N 1

2. - Cas continu.
Classe effectif fréquence N ( ) F ( )

e1 , e2  n1 f1
e2 , e3  n2 f2

ek 1 , ek  np fp

N 1
b) Représentations graphiques.
Les représentations graphiques ont l’avantage de renseigner immédiatement sur l’allure
générale de la distribution. Elles facilitent l’interprétation des données recueillies.

1. Diagramme en bâtons.
Lorsque le caractère est discret, la représentation graphique de la distribution de fréquences
absolues (ou relatives) s’effectue à l’aide d’un diagramme en bâtons où la hauteur des bâtons
correspond à l’effectif ni (ou la fréquence relative f i de chaque modalité xi .

Exemple. Une entreprise vérifie régulièrement si l’assemblage d’un appareil complexe a été
effectué correctement. Le responsable du contrôle a effectué une compilation du nombre
d’erreurs d’assemblage pour chaque appareil contrôlé. On a le tableau suivant.

Nombre d’erreurs Nombre d’appareil


0 101
1 140
2 92
3 42
4 18
5 3

2. Histogramme et polygone de fréquences.


 Histogramme.
Lorsque le caractère quantitatif est continu, les valeurs observées sont réparties suivant une
distribution en classes ; la représentation a la forme d’un histogramme.
L’histogramme permet de visualiser rapidement l’allure de la série de données.

Considérations pratiques pour tracer l’histogramme :


i) Lorsque les classes ont la même amplitude (le cas le plus fréquent), chaque rectangle
aura comme hauteur la fréquence correspondante.
ii) Si les amplitudes de certaines classes sont inégales, on doit rectifier les fréquences
comme suit :
Si l’amplitude d’une classe de fréquence f i est m fois plus grande (ou plus petite) que

fi
l’amplitude de base, son rectangle aura pour hauteur ( ou m f i ).
m
iii) La surface de chaque rectangle est : = amplitude de la classe x fréquence corres-
pondante. La surface de l’histogramme est égale à 1.

 Polygone de fréquence.

Il est obtenu en joignant les milieux des sommets de chaque rectangle de l’histogramme par des
segments de droites. La seule utilité est de présenter l’allure générale de la distribution de
fréquences de la variable étudiée.
Exemple 1: Dans un centre avicole, on mesure le poids d’un échantillon de 36 œufs. Les
mesures sont données dans le tableau suivant :

50 ,34 52,62 53,79 54 ,99 55,82 57,67


51,41 53,13 53,89 55,04 55,91 57,99
51,51 53,28 54,63 55,12 55,95 58,10
52,07 53,30 54,76 55,24 57,05 59,30
52,22 53,32 54,78 55,28 57,18 60,58
52,38 53,39 54,93 55,56 57,31 63,15

Nombre de classes: k = 7.

L’étendue de l’échantillon : E = 63,15-50,34 = 12,8


12,8
Amplitude de chaque classe :  1,82  2 .
7

On choisit 50 comme borne inférieure de de la première classe. On détermine les effectifs ni


et les fréquences relatives fi de chaque classe. On obtient le tableau suivant :

Classe ni fi Ni
[50-52[ 3 0.0833 3
[52-54[ 11 0.3055 14
[54-56[ 13 0.3611 27
[56-58[ 5 0.1388 32
[58-60[ 2 0.0555 34
[60-62[ 1 0.0277 35
[62-64[ 1 0.0277 36

Ni Représente l’effectif cumulé (i=1,….,7).

N1  3 : 3 œufs ayant le poids inférieur strict à 52.


N 4  32 : 32 œufs ayant le poids inférieur strict à 53.
On représente l’histogramme des fréquences de cette série statistique :

Exemple 2 (classes de même d’amplitudes).


Les salaires horaires des 100 ouvriers d’une entreprise sont indiqués dans le tableau suivant.

Classes des Nombre Fréquences


salaires d’ouvriers fi
(en DH) ni

5,10 10 0.1

10,15 30 0.3

15, 20 40 0.4

20, 25 20 0.2

Total 100 1

Exemple 3 (classes d’amplitudes différentes).


La répartition des salaires horaires de 100 ouvriers d’une entreprise est donnée par le tableau
suivant :
Classes Effectif réel Effectif
des rectifié
salaires
(en DH)
7.5, 10 20 40

10,15 60 60

15, 20 80 80

20, 25 40 40

Total 200

 Polygone cumulé.
C’est la ligne composée de segments dont les extrémités ont pour abscisse les
sommets des rectangles et pour ordonnées les effectifs cumulés (ou les fréquences
relatives cumulées) correspondant à ces sommets de classes.

5. Indicateurs numériques (ou paramètres caractéristiques).


Les tableaux et les graphes permettent d’obtenir une première image de la distribution des
données. Pour améliorer cette image, on introduit de nouvelles valeurs qui caractérisent la
distribution.

a) Indicateurs de positions.
- Moyenne.

Définition. - Soit un échantillon de n valeurs observées


x1 , x2 ,...., xn d’un caractère quantitatif

X. On définit sa moyenne X par :


n

x i
X  i 1

n .
- La moyenne du caractère X de distribution xi , ni  ou xi , fi  est définie par :
k

n x i i k
X  i 1
, avec n   ni
n i 1
k
  f i xi .
i 1 .
La moyenne de l’échantillon est simplement la moyenne arithmétique des observations. Elle
fournit une estimation de la tendance centrale de la variable statistique, c’est-à-dire une valeur
autour de laquelle se trouvent les valeurs du caractère étudié pour l’ensemble de la population.

- Médiane.
Définition. La médiane, notée Me, est la valeur du caractère pour laquelle la fréquence cumulée
est égale à 0.5. Elle correspond au centre de la série statistique classée par ordre croissant ou à
la valeur pour laquelle 50% des valeurs observées sont supérieures.
Donc Me est telle que : F (Me)  0.5.

Détermination de la médiane.
i- Données non groupées :
 X ( m1) , si n  2m  1

M e   X ( m )  X ( m1)
 , si n  2m
 2
avec X (1)  X ( 2)  ....  X ( m)  X ( m1)  .... X ( n) les valeurs ordonnées de manière croissante

de x1 , x2 ,...., xn .

ii- Données groupées en classes.


Par interpolation linéaire on obtient :
0.5  F ( x( m) )
Me  x( m)  ( x( m1)  x( m) ) avec [ x(m ) , x( m1) [ la classe médiane.
F ( x( m1) )  F ( x( m) )

Remarque.
 La médiane n’est pas affectée par les données aberrantes. Elle est influencée par le nombre
de données.
 Si la distribution des valeurs est symétrique, la valeur médiane est proche de la moyenne
( Me  X ).
- Quartiles.
Définition. On appelle quartiles, les trois modalités du caractère, notés Q1 , Q2 et Q3 , qui
partagent la série en quatre parties égales. On a:
F (Q1 )  0,25 , F (Q2 )  0,5 , F (Q3 )  0,75 .

- Q2  Me .
- Q1 ,Q3  est appelé intervalle interquartile : il contient 50% d’observations.
Remarque. Le calcul se fait comme pour la médiane.

Diagramme en boîte (box-plot).


Le diagramme en boîte est construit à partir des quartiles. La longueur de la boîte est égale à
l’écart interquartile Q3  Q1 . La largeur de la boîte est arbitraire et elle n’a pas de signification.
A l’intérieur de la boîte, on trace la position de la médiane. La moyenne de l’échantillon est
représentée par le symbole (+). On trace ensuite un trait à partir de chaque extrémité de la boîte

jusqu’aux valeurs extrêmes xmin et xmax de la série. Certains hauteurs relient la boîte aux valeurs
a  Q1  1,5(Q3  Q1 ) et b  Q3  1,5(Q3  Q1 ) .
Exemple 4 : Le tableau suivant contient des mesures de la teneur en benzène du CO2,
exprimée en ppm par volume :

0,46 0,43 0,47 0,63 1,67 1,75 2,18 2,55 2,62 2,80 3,56 3,61 3,71 3,76

3,95 4,19 4,80 5,03 5,55 5,69 5,79 5,94 5,99 6,63 7,99 8,87 9,71 10,14

11,90 12,62 12,70.

On trouve : Q1  2.585, Q2  5,086, Q3  6.310 et Q3 – Q1 = 3,725.

Le diagramme en boîte (box-plot) de cette série statistique :


Diagramme en boîte de la teneur en benzène du CO2
Règle pratique pour détecter une valeur aberrante : Une valeur aberrante est une donnée
qui s’écarte de façon marquée de l’ensemble des données. On peut déclarer une valeur donnée
aberrante si elle est supérieure à a  Q3  1,5(Q3  Q1 ) ou si elle est inférieure à

b  Q3  1,5(Q3  Q1 ) .

Dans cet exemple,


a = Q1 – 1,5 (Q3 – Q1) = -3.0025 et b = Q3 + 1,5 (Q3 – Q1) = 11.8975.
On observe qu’il y a trois valeurs aberrantes : 11,90 ; 12,62 ; 12,70, situées au-delà de
l’intervalle a, b .

- Mode
Le mode, noté Mo, est la valeur du caractère X la plus fréquente ou dominante de l’échantillon.
Le mode correspond à la classe de fréquence maximale. On peut considérer le mode comme la
valeur milieu de la classe modale (de fréquence maximale).
Remarque.
 Une distribution de fréquences peut présenter un seul mode (distribution unimodale) ou
deux modes (distribution bimodale) ou plusieurs modes.
 Si la distribution des valeurs est symétrique, la valeur du mode est proche de la moyenne
Mo  X
6) Graphique circulaire

Dans le graphique circulaire, l’angle (en degré)  i au centre du secteur est proportionnel aux

effectifs n i ou aux fréquences f i . Il est donné par :  i  360 f i (cas du cercle complet) ou
 i  180 f i (cas du demi cercle).

Exemple. Les crédits bancaires selon leur terme se présentent comme suit :

Type de crédits Montant Fréquence Angles


6
(en %) (degrés)
(en 10 DH )
Crédits à court terme 43 479 73,38 132,08
Crédits à moyen terme 12 039 20,32 36,58
Crédits à long terme 3 732 6,30 11,34
Total 59 250 100 180

Exercice 1.
1) Tracer le graphique circulaire.
2) Tracer le diagramme à barres (tuyaux d’orgue).

Exercice 2. Le nombre d’étudiants inscrits en première année de la FSTT se présente


comme suit :
Parcours Nombre de
grèves
MIPC 450
BCG 300
MIP 120
GE-GM 100

N.B. les données ne sont pas exactes.

Tracer les diagrammes appropriés de cette distribution.


b) Indicateurs de dispersion.
Ces paramètres ont pour objectif dans le cas d’un caractère quantitatif de caractériser la
variabilité des données dans l’échantillon.

Si les valeurs centrales sont généralement nécessaires pour caractériser une série statistique,
elles ne sont pas suffisantes. Deux populations peuvent avoir les mêmes valeurs centrales et se
comporter de façon différente, notamment en ce qui concerne la dispersion des individus autour
de cette valeur centrale.
Exemple. On considère deux populations :
P1  6, 8, 10, 12, 14, P2  2, 6, 10, 14, 18

X 1  X 2  10  Me  10 .
(1) ( 2)
On a : et Me

Mais les modalités des individus qui les composent ne sont pas réparties de la même manière
autour de la valeur centrale 10. On dit que les séries 1 et 2 non pas la même dispersion; la Série
2 est plus dispersée que la Série 1.
Donc il est nécessaire pour comparer deux populations de considérer à la fois leurs valeurs
centrales et leurs dispersions.

1) Variance.

Définition. - Soit un échantillon de n valeurs observées


x1 , x2 ,...., xn d’un caractère

quantitatif X. On appelle variance du caractère X le nombre noté  ( X ) ou  définit par :


2 2

1 n
 2 (X )  
n i 1
( xi  X ) 2
.
Remarque. Dans le cas des données regroupés en k classes d’effectifs ni

1 k k
 2(X )  i i
n i1
n ( x  X ) 2
avec n  
i 1
ni .

Pour le calcul on se sert de la formule:


1 n 2
 ( X )   xi  X
2 2

n i 1 .

Théorème. Soit  un nombre réel. On a,


  2 (X )   2 2 ( X )
  2 (  X )   2 ( X )
  2 ( )  0.
2) Ecart-type.

On appelle écart-type du caractère X le nombre noté  ( X ) ou  :

1 n
   2(X )  
n i1
( xi  X ) 2 .

3) Coefficient de variation.
Définition. On appelle coefficient de variation de X le nombre, noté CV, définit par :

CV  .
X
Le coefficient de variation permet d’apprécier la représentativité de la moyenne par rapport à
l’ensemble des données. Une série est fortement dispersée quand son coefficient de variation
est proche de 1. Elle est faiblement dispersée quand son coefficient de variation est proche de
0. Plus le CV est faible plus la série est homogène.
Le CV permet aussi de comparer les dispersions des différentes séries qui ne sont pas exprimés
dans les mêmes unités ou des séries ayant des moyennes différentes.

4) Etendue.
Définition. L’étendue, notée E , est définit par :
E  X max  X min
.
Elle contient 100% des observations. Cette caractéristique est très affectée par des données
aberrantes.
D’autres étendues centrées sur la médiane contiennent moins de 100 % d’observations.
- Ecart interquartile : Q3  Q1 contient 50 % des observations.

- Ecart interdécile : D9  D1 contient 80 % des observations.

Remarque.
L’écart type est le paramètre de dispersion le plus sensible et le plus efficace, car il tient compte
de la variation de l’ensemble des valeurs par rapport à la moyenne. L’étendue ne tient compte
que des valeurs extrêmes (la valeur maximale et la valeur minimale), ce qui la rend moins
sensible et par conséquent moins efficace.
5) Moments centrés.
Définition : Le moment centré d’ordre k de l’échantillon est donnée par :
1 n
mk  
n i1
( xi  X ) k , k  1, 2, .... . .

c) Caractéristiques de forme : Asymétrie et aplatissement.


Les principales caractéristiques des courbes de fréquences, en ce qui concerne leur forme, sont
l’asymétrie et l’aplatissement.

- Distribution symétrique : Lorsque les valeurs de la variable statistique sont également


dispersées de part et d’autre de la valeur centrale. Dans le cas contraire, la distribution est dite
asymétrique ou dissymétrique.
Dans ce cas, moyenne = médiane = mode.

- Coefficient d’asymétrie de Fisher (Skewness) : C’est une mesure descriptive qui permet de
caractériser le degré de symétrie. Elle est de la forme:
m3
3 
3 .
-  3  0 : Distribution présente une asymétrie positive (étalement des observations sur le côté
supérieur).
-  3  0 : Distribution présente une asymétrie négative (étalement des observations sur le côté
inférieur).
-  3  0 : Distribution symétrique.

Remarque :
- Si Mo < Me < X : l’histogramme des fréquences est étalé vers la droite ; la distribution
est asymétrique positive.
- Si X < Me < Mo : l’histogramme des fréquences est étalé vers la gauche; la
distribution est asymétrique négative.

- Distribution aplatie :
Une distribution plus ou moins aplatie suivant que les observations ont un faible écart par
rapport à la valeur centrale ou non.
- Coefficient d’aplatissement (Kurtosis) : C’est une mesure du degré de l’aplatissement de
la distribution d’une variable. Elle est donnée par :
m4
4  3.
4
Si  4  0 , la courbe de fréquences est aigue (leptokurtique).
Si  4  0 , la courbe est normale (mésokurtique)

Si  4  0 , la courbe est aplatie ( platycurtique).


2ème partie : Statistique descriptive à deux dimensions

On considère une population pour laquelle on observe le caractère X et le caractère Y.


Le caractère X peut prendre les modalités x1 , x2 ,....., x k .
Le caractère Y peut prendre les modalités y1 , y 2 ,....., y p .
Le couple ( X , Y ) est appelé caractère à deux dimensions.

Par exemple, pour chaque personne on mesure à la fois la taille X et le poids Y.

1. Présentation sous forme de tableaux.

Tableau 1.
Individus Modalités Modalités
xi yi

1 x1 y1
2 x2 y2

i
xi yi

xn yn
n

n : Effectif total de la population.


L’individu i présente les modalités x i et y i .

L’ensemble ( xi , y j ), 1  i  n est appelé série statistique double.

0
Tableau 2. Tableau à double entrées (tableau de contingence)

y1 yj yp Effectifs selon Y
(effectifs
marginaux)
x1 n11 n1 j n1 p n1

xi ni
ni1 nij nip

xk nk1 nkj nkp nk

Effectifs selon X n1 n j n p n


(effectifs
marginaux)

Notation :
nij : Nombre d’individus présentant la modalité x i et la modalité y j .
ni : Nombre d’individus présentant la modalité x i (quelque soit les modalités de Y).
n j : Nombre d’individus présentant la modalité y j (quelque soit les modalités de X).

k p k p
n   nij   ni   n j
i 1 j 1 i 1 j 1

2. Fréquences relatives et fréquences marginales.


nij
f ij  : Fréquence relative du couple ( xi , y j ) .
n
p
ni 
f i    f i j : Fréquence relative de la modalité x i , appelée fréquence marginale.
n j 1

1
n j k
f j    f i j : Fréquence relative de la modalité y j .
n i 1

k p k p
On a 
i 1 j 1
f i j   f i   f  j  1
i 1 j 1

Exemple. Distribution des employés par salaire mensuel et par âge


Age [18, 25[ [25, 35[ [35, 45[ [45, 55[ [55, 65[
Salaire
[800, 900[ 250 200 180 150 100
[900, 1000[ 300 350 400 200 150
[1000, 1100[ 260 340 400 250 200
[1100, 1500[ 125 150 200 260 200
[1500, 2000[ 100 120 150 180 210

a) Déterminer les fréquences relatives des employés par salaire et par âge.
b) Déterminer le pourcentage des employés dont le salaire est compris entre 1000 et 1100.
c) Déterminer le pourcentage des employés dont l’âge est compris entre 35 et 45 ans.
d) Donner le tableau de répartition des employés selon le salaire.
e) Donner le tableau de répartition des employés selon l’âge.

3. Fréquences conditionnelles.

On s’intéresse aux individus présentant la condition x i :

- L’effectif de ce groupe est ni ;

- La fréquence conditionnelle de la modalité y j sachant X  xi est donnée par :

nij
f j / i : f ( y j / xi )  .
ni 

De même pour la condition y j :

- l’effectif de ce groupe est n j ;


- la fréquence conditionnelle de la modalité x i sachant Y  y j est donnée par :
nij
f i / j : f ( xi / y j )  .
n j
Les k fréquences conditionnelles pour la modalité y j forment la distribution conditionnelle
de X sachant Y  y j .

2
Les p fréquences conditionnelles pour la modalité x i forment la distribution conditionnelle
de Y sachant X  xi .

k p
On 
i 1
fi / j   f j / i  1 .
j 1

Exercice. Déterminer la distribution conditionnelle du salaire mensuel sachant l’âge.

4. Caractéristiques marginales et conditionnelles.


a) Caractéristiques marginales de X.
1 k k
La moyenne : X   i i 
n i 1
n x 
i 1
f i  xi .

1 k k
La variance : Var ( X )  
n i 1
n i ( x i  X ) 2
 
i 1
f i  ( xi  X ) 2 .

L’écart type :  X : Var ( X ) .

b) Caractéristiques marginales de Y.
1 p p
La moyenne : Y  j j 
n j 1
n y 
j 1
f j y j .

1 p p
La variance : Var (Y )   n j ( y j  Y )   f  j ( y j  Y ) 2 .
2

n j 1 j 1

L’écart type :  Y : Var(Y ) .

b) Caractéristiques conditionnelles.
On considère la j-ème colonne du Tableau 2. Elle définit la variable conditionnelle X / Y  y j

. Les caractéristiques de cette distribution conditionnelle sont :


- Moyenne conditionnelle de X / Y  y j :
k k
1
Xj 
n j
 nij xi   f i / j xi .
i 1 i 1

- Variance conditionnelle de X / Y  y j :
k k
1
Vj (X ) 
n j
n
i 1
ij ( xi  X j )   f i / j ( xi  X j ) 2 .
2

i 1

Exercice. Calculer la moyenne et la variance conditionnelle du salaire mensuel X sachant l’âge


Y  35, 45 .

3
5. La corrélation
En statistique la détermination du degré de liaison (ou corrélation) entre deux variables X et Y
et l’élaboration de la forme de relation qui lie ces variables est d’une grande importance aussi
bien pour l’analyse que pour la prévision.
La forme de la liaison (relation).

Une relation est linéaire si l'on peut trouver une relation entre X et Y de la forme Y=aX+b,
c'est à dire si le nuage de point peut s'ajuster correctement à une droite.
Une relation est non-linéaire si la relation entre X et Y n'est pas de la forme Y=aX+b, mais
de type différent (parabole, hyperbole, sinusoïde, etc). Le nuage de point présente alors une
forme complexe avec des courbures.
Une relation non-linéaire est monotone si elle est strictement croissante ou strictement
décroissante. Toutes les relations linéaires sont monotones.

Types de liaison : 5 types.


Type 1.

( xi , y j )
La corrélation est presque totale (linéarité des points ) : les variables X et Y varient dans
le même sens : on parle de liaison (ou corrélation) positive.
Exemple : relation entre la production d’une entreprise et sa consommation en matières
premières.

Type 2

Il existe une forte corrélation mais celle-ci est négative : X et Y varient en sens inverse.
Exemple : Relations entre notes aux contrôles et absences.
Type 3.

Il existe un lien entre les variables mais ce lien n’est pas aussi strict que la relation précédente.

Type 4

Il existe une corrélation mais non linéaire.

Corrélation non- Relation non-linéaire


Corrélation non-
linéaire négative et non-monotone
linéaire positive

Type 5

Absence de relation

( xi , y j )
Le graphique des points est désordonné : Il ne semble pas exister de lien entre les
(x , y )
variables. On dit qu’il y a absence de corrélation entre X et Y. le nuage de point i j a la
forme d'un carré, d'un cercle, d'une "patate".

Exemple : relation entre taille et productivité des ouvriers d’une entreprise.

Mesure de degré de corrélation :


 Covariance

La covariance est définie par


1 n
COV ( X , Y )   ( xi  X )( yi  Y )
n i 1
Remarque.

La covariance peut prendre des valeurs positives, négatives ou nulles.


x  yj
Quand i ; pour tout i = 1,….., n la covariance est égale à la variance.

Théorème. La covariance peut également s'écrire :


1 n
COV ( X , Y )   xi y j  X Y
n i 1 .

Remarque.
Lorsque qu’on a un tableau de contingence, la covariance de X et Y est donnée par :
1 k p
COV ( X , Y )    nij xi y j  X Y
n i 1 j 1

 Coefficient de corrélation linéaire

On définit le coefficient de corrélation linéaire r entre X et Y par le rapport :

COV ( X , Y )
r
 XY .

 Coefficient de détermination (carré du coefficient de corrélation )

COV 2 ( X , Y )
R  r2 
 X Y
2 2
:

Interprétation du coefficient de corrélation.

Le coefficient de corrélation est une mesure de l’intensité de la liaison linéaire entre deux
variables d’une même population. On a

-  1  r  1.
- 0  r2 1.
- Si r est proche de 1 : il existe une forte corrélation linéaire positive entre X et Y.
- Si r  1 : il existe une forte corrélation linéaire négative entre X et Y.
- Si r est nul ou proche de zéro, il y a absence de liaison linéaire entre X et Y : on dit que
les variables X et Y sont non-corrélées.
Cependant on peut avoir une liaison non-linéaire avec un coefficient de corrélation nul ou
proche de zéro.
Le signe de r indique le sens de la liaison.
Droite de régression de y en x : On cherche à déterminer la droite qui ajuste au mieux
le nuage de points donné par (xi, yi) i = 1, …, n.
L’équation de la droite de régression est donnée par : y = a x + b avec :

𝐶𝑜𝑣(𝑋, 𝑌)
𝑎= 𝑒𝑡 𝑏 = 𝑌̅ − 𝑎𝑋̅
𝑉(𝑋)

Interprétation du coefficient de détermination R :

R = r2 est le pourcentage de l’information de Y expliqué par la droite de régression a x + b.

Exemple :
Pour des raisons de santé publique, on s’intéresse à la concentration d’ozone O3
dans l’air (en microgrammes par millilitre).
En particulier, on cherche à savoir s’il est possible d’expliquer le taux maximal d’ozone de la journée p
par la température T12 à midi.

Y= Concentration d'Ozone
X= Températire à Midi

10 données journalières de température et d’ozone

Jour Xi Yi
1 23,8 115,4
2 16,3 76,8
3 27,2 113,8
4 7,1 81,6
5 25,1 115,4
6 27,5 125
7 19,4 83,6
8 19,8 75,2
9 32,2 136,8
10 20,7 102,8

X Y
Moy= 21,91 102,64
Variance= 44,1889 434,2944
Ecar-type= 6,6475 20,8397
Covriance= 116,2416
Corréltion= 0,8391
a= 2,6306 Y=aX+b
b= 45,0044
140

130 y = 2,6306x + 45,004


R² = 0,7041
Concentration d'Ozone

120

110

100

90

80

70

60
5 10 15 20 25 30 35
Température à midi
6. Droite de régression.

Le coefficient de corrélation linéaire nous donne une indication sur le degré de liaison entre
deux variables X et Y. Lorsque cette corrélation linéaire est significative, on peut établir
l’équation de la liaison existant entre ces deux variables.

Ajustement linéaire : méthode des moindres carrées.

L’idée est de transformer le nuage de point ( xi , yi ) en une droite. Celle-ci doit être la plus
proche possible de chacun des points. On dit qu’on ajuste le nuage de points par une droite,
appelée droite de régression. On cherchera donc à minimiser les écarts entre les
points et la droite.
Pour cela, on utilise la méthode des moindres carrées. Cette méthode vise à expliquer le nuage
de points par une droite qui lie Y à X, c’est à dire, Y = aX + b, telle que la distance entre le
nuage de points et la droite soit minimale. Cette droite d’équation Y = aX + b, appelée droite
de régression de Y en X.

Ainsi, la méthode des moindres carrés consiste à chercher la valeur des paramètres a et b qui
minimise la somme des carrés des écarts entre les valeurs observées et la droite.

Posons,
n
S (a, b) :   yi  (axi  b)  .
2

i 1

yi
: Observation réelle.

yˆ i  axi  b : Valeur ajustée.


ei  yi  (axi  b)  yi  yˆ i : appelée résidu.
n
La méthode des moindres carrées consiste donc à minimiser la fonction S (a, b)  e
2
i .
i 1
Les conditions de minimisation sont :
d
 da S (a, b)  0
 (*)
 d S ( a, b)  0
 db
n
  y i  (axi  b)   0 (i )
 i 1
Le système (*) donne n .
 x  y  (ax  b)   0
 i i i (ii )
i 1

La relation (i) implique que,


 n n n
 1
  yi  a  xi  b1.  0 .
 i 1 i 1 i 1  N

Donc, on obtient
y  a x  b  0 c’est-à-dire b  y  ax

De même, d’après (ii), on montre que,

COV ( X , Y )
a .
Var ( X )

 Détermination de l’ampleur de la variabilité- Coefficient de détermination:

 y    yˆ 
n n n
 y    yi  yˆ i  .
2 2
y
2
On a la relation : i i
i 1 i 1 i 1

 
n
VT :  yi  y
2
: variation totale.
i 1

 
n
VE :  yˆ i  y
2
: variation expliquée par la droite.
i 1
n
VR :   yi  yˆ i  : variation résiduelle ou variation inexpliquée.
2

i 1

Donc,

VT  VE  VR

Le coefficient de détermination est définie par :

Variation exp liquée VE


R2  
var iation tatale VT .

R 2 est un indice permettant de juger la qualité d’ajustement de la droite aux points


expérimentaux. On a, 0  R 2  1 .
Si les points se situent sur la droite, alors la variation résiduelle VR  0 et la variation VE  VT .
Par conséquent R  1.
2

2
Plus R se rapproche de 1, plus le nuage de points se resserre autour de la droite de régression.
2
Au contraire, plus R se rapproche de 0, plus le nuage de points se disperse de la droite de
régression.
Remarque. Le coefficient de détermination est le carré du coefficient de corrélation :
COV 2 ( X , Y )
R2  r 2 
 X 2 Y 2 .

On peut déduire le coefficient de corrélation: r   R .


2

2
Interprétation de R en pratique :

- Si par exemple, r = 0,50, alors R 2  (0,5) 2  25 % : signifie que « 25 % de la variation totale


dans Y est expliquée par la droite de régression, moins de 75 % inexpliquée ».

- Si R 2  91% , alors 91 % de la variation totale dans Y est expliquée par la droite de régression.
Moins de 9 % reste inexpliquée.

- Lorsque R 2 est élevé, on peut considérer que l’ajustement de la droite aux points
expérimentaux est de bonne qualité.
2020-2021 Chapitre3 :
Probabilités

Abdelhadi AKHARIF
Faculté des Sciences et Techniques de Tanger
I. ANALYSE COMBINATOIRE :
On considère un ensemble E de n éléments et on définit à partir de cet ensemble
différents sous-ensemble par des tirages avec et sans remise ordonnés ou non; notre but est de
dénombrer les différentes dispositions que l'on peut former.

Le nombre de parties d'un ensemble E de n éléments a pour cardinal 2n.

A. Situations sans répétitions

1. Les arrangements : On tire dans un ensemble de n éléments, successivement et sans


remise, p éléments ; ces éléments sont donc tous distincts et ordonnés. On obtient un
arrangement de p éléments parmi n. On peut compter le nombre d'arrangements de p
éléments pris parmi n en utilisant la formule pour 0 ≤ p ≤ n :

𝒑 𝒏!
𝑨𝒏 =
(𝒏−𝒑)!

2. Les permutations : C'est un arrangement de n éléments parmi n. On peut utiliser la


formule de l'arrangement (sans remise).

𝒏!
𝑨𝒏𝒏 = = 𝒏! par convention (n-n)! = 0! = 1
(𝒏−𝒏)!

3. Les combinaisons : Dans un ensemble de n éléments, on tire simultanément p


éléments; ces p éléments ne sont donc pas ordonnés. On peut compter le nombre de
combinaisons des p éléments choisis parmi n en utilisant la formule pour 0 ≤ p ≤ n :

𝒑 𝒏!
𝑪𝒏 =
𝒑!(𝒏−𝒑)!

2 COURS DE PROBABILITE
Quelques propriétés des combinaisons

Soient n et p deux entiers naturels tels que 0 ≤ p ≤ n :

1. 𝐶𝑛0 = 𝐶𝑛𝑛 = 1 & 𝐶𝑛1 = 𝑛;

𝑝 𝑛−𝑝
2. 𝐶𝑛 = 𝐶𝑛 ;

𝑝 𝑝−1 𝑝
3. 𝐶𝑛 = 𝐶𝑛−1 + 𝐶𝑛−1 avec 1 ≤ p ≤ n-1.

B. Situations avec répétitions

1- Les p-uplets ou Arrangements avec répétition : On tire dans un ensemble


de n éléments, successivement et avec remise, p éléments ; ces éléments sont donc
ordonnés mais pas forcément distincts. On obtient un p-uplet,

il y a np p-uplets différents.

2- Permutations avec remise : Soit un ensemble à n élément comportant :


 n1 élément du 1er type indiscernable entre eux,
 n2 élément du 2ème type indiscernable entre eux,
 . . .
 . . .
 . . .
 nk élément du kème type indiscernable entre eux.

Une permutation avec répétition de ces n éléments est une disposition ordonnée de ces
n éléments, il y a :

𝑛!
𝑛1 ! 𝑛2 !. . . 𝑛𝑘 !

3- Combinaison avec remise: Dans un ensemble de n éléments, on tire successivement


p éléments; ces éléments ne sont pas ordonnés. Le nombre de combinaisons est :

𝑝 𝒑
𝐾𝑛 = 𝑪𝒏+𝒑−𝟏

3 COURS DE PROBABILITE
C. Résumé :

Permutation Arrangement Combinaison


Disposition ordonnée
Disposition ordonnée de Disposition non ordonnée
d'un certain nombre
tous les éléments d'un d'un certain nombre
d'éléments d'un
ensemble. d'éléments d'un ensemble
ensemble

D. EXEMPLE :

 On tire une à une quatre billes d'un sac contenant une bille rouge (R), une bille bleue
(B), une bille jaune (J) et une bille verte (V). Quels sont les résultats possibles?

 Combien de menus différents peut-on composer si on a le choix entre 3 entrées, 2


plats et 4 desserts ?

 Un groupe de 3 élèves de Terminale doit aller chercher des livres a la bibliothèque.


De combien de manières peut-on former ce groupe ? (il y a 24 élèves dans la classe ).

 Vingt enseignants doivent être répartis sur quatre écoles ; de combien de façon peut
on le faire ?

 Soit A l'ensemble des nombres de quatre chiffres, le premier étant non nul.
 Calculer le nombre d'éléments de A ;
 Dénombrer les éléments de A ;
 Composés de quatre chiffres distincts ;
 Composés d'au moins deux chiffres identiques ;
 Composés de quatre chiffres distincts autres que 5 et 7.

 En informatique, on utilise le système binaire pour coder les caractères. Un bit


(chiffre binaire) est un élément qui prend la valeur 0 ou la valeur 1. Avec 8 chiffres
binaires (un octet), combien de caractères peut-on coder ?

 Dénombrer les anagrammes du mot LISTE.

Dans chacun des cas suivants, dénombrer les anagrammes du mot LISTE :
 Commençant et finissant par une consonne ;
 Commençant et finissant par une voyelle ;
 Commençant par une consonne et finissant par une voyelle ;
 Commençant par une voyelle et finissant par une consonne.

4 COURS DE PROBABILITE
La théorie de probabilité est une branche de mathématique qui permet la modélisation
des expériences où le "hasard" intervient et d'en faire l'étude théorique.

I. Notions de base : quelques définitions :

A. Expérience aléatoire :
On appelle" expérience aléatoire", une expérience dont les conditions de déroulement sont
parfaitement définies, mais dont le résultat ne peut être prévu avec certitude à l'avance.

Exemples :

1) On lance un dé, on note le nombre apparaissant sur la face supérieure. Par contre si toutes
les faces du dé portent le même numéro ce ne serait pas une expérience aléatoire car le
résultat est certain.
2) On dispose d'une urne dans laquelle se trouvent 6 boules noires et 4 boules blanches. On
tire (à l'aveugle) une boule, on note sa couleur et on la remet dans l'urne. Cette
expérience est répétée trois fois de suite.

B. Univers
On appelle "univers" associé à une expérience aléatoire, l'ensemble de tous les résultats
possibles. Cet ensemble est noté Ω (dite Oméga). Un résultat élémentaire (résultat possible) est
un élément de Ω. On le note ω.

Exercice : Trouver les univers associés aux exemples 1, et 2.

C. Evénement
On appelle événement toute partie (i.e. sous ensemble) de l'univers Ω. L'événement est une
assertion qui peut ou non se réaliser suivant l'issue de l'expérience aléatoire.
Exemple : Pour l'exemple 2 voici des événements :

 E = {(N, N, B)}.
 Deux boule au moins sont noires.

1- Quelques particularités des événements :

i. L'événement Ω se réalise toujours ; On l’appelle évènement certain.


"Avoir un nombre entre 1 & 6" est l'événement certain pour le lancement d'un dé.
ii. L'événement Ø ne se réalise jamais ; On l’appelle évènement impossible.
" Avoir le numéro 7" est l'événement impossible pour le lancement d'un dé.

5 COURS DE PROBABILITE
iii. {ω} un singleton de Ω; s’appelle événement élémentaire.
"La somme des points est égale à 2" est l'événement élémentaire lorsqu'on lance deux
dé à la fois ; {(1,1)}.
iv. Soit A un événement de Ω, l'événement contraire de A qu'on note Ā est l'ensemble
des réalisations de Ω qui n'appartient pas à A (i.e. complémentaire de A dans Ω).
A : "le résultat du lancement du dé est impair" ;
Ā : "le résultat du lancement du dé est pair".

v. Deux événements A et B sont incompatibles (disjoints) s'ils ne peuvent pas se


réaliser en même temps (i.e. A ∩ B =∅).
2- Opérations sur les événements :

A et B deux événements de Ω ;
i. 𝐴 ∩ B est l'événement "A et B" signifie que A et B se réalisent simultanément.
ii. 𝐴 ∪ B est l'événement "A ou B" signifie qu'au moins un des deux événements
A ou B se réalise.
iii. 𝐴\B est l'événement "A et 𝐵̅" signifie que A et 𝐵̅ se réalisent simultanément.
iv. A ⊂ B signifie que la réalisation de A implique la réalisation de B.

3- Système complet d'événement

Une partition de Ω est un système complet d'événement. Autrement dit, des


événements (Ai) iI forment un système complet s'ils sont différents de Ø, deux à deux
incompatible et si ⋃𝑖∈𝐼 𝐴𝑖 = Ω.

4- Loi de Morgan généralisée :

i. A et B deux événements de Ω; on a: ̅̅̅̅̅̅̅


𝐴 ∪ B = 𝐴̅ ∩ B
̅.
ii. Soient 𝐴1 , 𝐴2 , … , 𝐴𝑛 des événements de Ω alors on a:
𝑛 ̅̅̅̅̅̅̅̅
𝑛
̅
⋂ 𝐴𝑙 = ⋃ 𝐴𝑙
𝑙=1 𝑙=1

II. Tribu (ou 𝝈- algèbre) d'événements:

Soit un univers Ω et Θ un ensemble de partie de Ω. Θ a une structure de tribu s' il


satisfait aux trois axiomes:
i. ∅ ∈ Θ.
ii. Si Α ∈ Θ, alors son complémentaire Α ̅ ∈ Θ;
iii. Si on a une suite finie ou infinie dénombrable 𝐴1 , 𝐴2 , … , 𝐴𝑛 , . ..
d’éléments de Θ, alors ⋃𝑙≥1 𝐴𝑙 ∈ Θ;

6 COURS DE PROBABILITE
Soit Θ une tribu de parties de l’ensemble Ω alors :
i. Ω ∈ Θ;
ii. 𝐴1 , 𝐴2 , … , 𝐴𝑛 , . .. une suite finie ou infinie dénombrable d’éléments de Θ
alors ⋂𝑙≥1 𝐴𝑙 ∈ Θ.

En appliquant la définition et la "Loi de Morgan".

Dans la pratique, on n'envisage que deux cas particuliers de Θ:


1. Si Ω est un ensemble fini ou infinie dénombrable, on prend Θ = 𝒫(Ω).
2. Si Ω=ℝ, on considère la tribu borélienne ℬ(ℝ), c'est la plus petite σ-algèbre sur ℝ
contenant tous les intervalles ouverts.
1- Espace probabilisable :

On appel espace probabilisable (Ω, Θ) tout ensemble Ω non vide muni d'une tribu Θ.

On appel probabilité ou mesure de probabilité sur l'espace probabilisable (Ω, Θ) toute


application:
𝑃: Θ ⟶ [0 1]
𝐴 ⟼ 𝑃(𝐴)
Vérifiant les deux conditions suivantes :

- La probabilité de l'événement certain est égale à 1 ;


- Pour toute suite 𝐴1 , … , 𝐴𝑖 , . .. d'événement de Θ disjoints (i.e. ∀ 𝑖 ≠ 𝑗 𝐴𝑖 ∩ 𝐴𝑗 = ∅)
on a 𝑃(⋃+∞
𝑖 𝐴𝑖 ) = ∑+∞
𝑖=1 𝑃(𝐴𝑖 ).

Le triplet (𝛀, 𝚯, 𝑷) est dit espace probabilisé.

Soit P une probabilité définie sur Θ, on a les propriétés suivantes:


- P(Ø)=0 ;
- 𝑃(𝐴̅) = 1 − 𝑃(𝐴);
- A ⊂ B alors 𝑃(𝐴) ≤ 𝑃(𝐵). L'application P est croissante ;
- 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵).

7 COURS DE PROBABILITE
- On a Ω ∪ ∅ = Ω alors
𝑃(Ω ∪ ∅) = 𝑃(Ω) + P(∅).
- On a 𝐴 ∪ 𝐴̅ = Ω alors
𝑃(𝐴 ∪ ̅̅̅ ̅̅̅ = 𝑃(Ω) = 1.
𝐴) = 𝑃(𝐴) + 𝑃(𝐴)
- On a 𝐵 = 𝐴 ∪ (𝐵\𝐴) alors
P(𝐵) = 𝑃(𝐴) + 𝑃(𝐵\𝐴) or 𝑃(𝐵\𝐴) ≥ 0.
- On a 𝐴 ∪ 𝐵 = (𝐴 ∩ 𝐵̅)∪ (𝐴 ∩ 𝐵) ∪ (𝐴̅ ∩ 𝐵) alors
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴 ∩ 𝐵̅)+𝑃(𝐴 ∩ 𝐵) + 𝑃(𝐴̅ ∩ 𝐵)
or P(A)- 𝑃(𝐴 ∩ 𝐵)= 𝑃(𝐴 ∩ 𝐵̅)
de même 𝑃(𝐴̅ ∩ 𝐵) = P(B)- 𝑃(𝐴 ∩ 𝐵).

2- Construction d'une probabilité sur un univers fini :

Soit Ω = {𝜔1 , 𝜔2 , … , 𝜔𝑛 } un univers fini. Notons 𝐴𝑖 l'événement élémentaire 𝐴𝑖 = {𝜔𝑖 }

Toute probabilité 𝑃 sur Ω est entièrement déterminée par la donnée des n


nombres réels 𝑝𝑖 = 𝑃(𝐴𝑖 ) vérifiant les seuls conditions:
𝑛

∀𝑖 ∈ {1, . . . , 𝑛} 𝑝𝑖 ≥ 0 𝑒𝑡 ∑ 𝑝𝑖 = 1.
𝑖=1

3- Probabilité uniforme sur 𝛀:


Dans toutes les situations où aucun événement élémentaire ne doit être distingué des autres, on
suppose que tous les événements élémentaires sont équiprobables (i.e. tous les résultats
élémentaires ont la même probabilité d'être réalisé. On a ainsi une probabilité unique sur Ω dite
probabilité uniforme donnée par:

𝑐𝑎𝑟𝑑(𝐴)
∀ 𝐴 ∈ 𝒫(Ω) 𝑃(𝐴) = 𝑐𝑎𝑟𝑑(Ω)

4- Probabilité conditionnelle :

Soit (Ω, Θ, 𝑃) un espace probabilisé et A un événement tel que 𝑃(𝐴) ≠ 0. Pour un événement
quelconque B, on appelle probabilité conditionnelle de B sachant que A est réalisé, le nombre:

𝑃(𝐴∩𝐵)
𝑃(𝐵/𝐴) = 𝑃(𝐴)

A et B deux événements tel que 𝑃(𝐴) 𝑒𝑡 𝑃(𝐵) ≠ 0, alors


𝑃(𝐴/𝐵)×𝑃(𝐵)
𝑃(𝐵/𝐴) = 𝑃(𝐴)
.

8 COURS DE PROBABILITE
5- Evénements indépendants :

Dans un espace probabilisé (Ω, Θ, 𝑃), deux événements A et B sont dits indépendants si et
seulement si:
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) × 𝑃(𝐵).

A et B étant deux événements d'un espace probabilisé (Ω, Θ, 𝑃), on a:


A et B sont indépendants ⇔ A et 𝐵̅ sont indépendants
⇔ 𝐴̅ et B sont indépendants
⇔ 𝐴̅ et 𝐵̅ sont indépendants
6- Formule de Bayes

Formule des probabilités totales :


Soit E1, ..., En un système complet d'événements. Pour tout événement A, on a
𝑛

𝑃(𝐴) = ∑ 𝑃(𝐸𝑖 ) × 𝑃(𝐴/𝐸𝑖 ) .


𝑖=1
Formule de Bayes :
Soit E1, ..., En un système complet d'événements et A un événement tel que P(A)>0, on a :
𝑃(𝐸𝑗 ) × 𝑃(𝐴⁄𝐸𝑗 )
∀ 𝑗 ∈ {1, … , 𝑛} 𝑃(𝐸𝑗 ⁄𝐴) = 𝑛
∑𝑖=1 𝑃(𝐸𝑖 ) × 𝑃(𝐴⁄𝐸𝑖 )

9 COURS DE PROBABILITE
Faculté des Sciences et Techniques Année 2020-2021
Tanger
Département de Mathématiques

Filière BCG -2ème année


Mod.: Probabilités et Statistique

TD N°1

Exercice 1. Le nombre de « frères et sœurs » sur un échantillon de 20 étudiants, prélevé au hasard de


la 2ème année de BCG, est donné par la liste suivante :
4, 3, 3, 1, 6, 0, 2, 1, 2, 3, 0, 3, 4, 2, 6, 2, 1, 4, 2, 4.
2) Classer ces données dans un tableau statistique.
3) Faites une représentation graphique convenable.
4) Tracer la courbe des fréquences cumulées croissantes.
5) Calculer le mode, la médiane, la moyenne et l’écart-type.

Exercice 2. Sur un échantillon de 100 personnes d’âges différents (variant entre 55 et 65 ans), on a
mesuré le taux de cholestérol total. On a obtenu les résultats suivants:

Effectifs
Taux de Cholestérol (g/l)
ni
[1.4 , 1.6[ 4
[1.6 , 1.8[ 6
[1.8 , 2.0[ 8
[2.0 , 2.4[ 20
[2.4 , 2.6[ 18
[2.6 , 2.8[ 30
[2.8 , 3.0[ 14

1) Tracer l’histogramme de fréquences absolues (ou relatives).


2) Tracer la courbe de fréquences cumulées croissantes.
3) Quelle est le proportion de personnes ayant un taux de cholestérol inférieur à 2 ?
4) Quelle est le proportion de personnes ayant un taux de cholestérol supérieure ou égale à 2,4 ?
5) Déterminer le mode, la moyenne et l’écart type de cette distribution.
6) Déterminer la valeur médiane de cette distribution, les 1er et 3ème quartiles.
7) Tracer le diagramme en boîte (Box pot).
8) La distribution du taux de cholestérol est-elle symétrique? Pourquoi ?

Exercice 3. On a relevé les âges de 92 patients visitant une clinique privée durant l’été.

Ages [10 , 20[ [20 , 40[ [40 , ? [ [ ? , 80[ [80 , 100[


Effectis 9 26 19 24 14

1) Retrouvez la valeur manquante sachant que l’âge moyen est 49,89 ans.
2) Tracer l’histogramme, le polygone des fréquences et déterminer le mode.
3) Déterminer la médiane et l’écart-type.
4) En déduire la forme de la distribution de l’âge des patients.
Exercice 4.

On a noté l’âge (arrondi à l’année près) des 48 salariés d’une entreprise ; la série statistique brute est
donnée ci-dessous.

43 29 57 45 50 29 37 59 46 31 46 24 33 38 49 31
62 60 52 38 38 26 41 52 60 49 52 41 38 26 37 59
57 41 29 33 33 43 46 57 46 33 46 49 57 57 46 43

1) Ordonner de manière croissante ces valeurs.


2) Dépouiller ces données suivant un tableau statistique.
3) Faites une représentation graphique convenable.
4) Déterminer le mode, la moyenne et l’écart type de cette distribution.
5) Déterminer la valeur médiane de cette distribution, les 1er et 3ème quartiles.
6) Tracer le diagramme en boîte (Box pot).
7) Après l’analyse des graphiques et des paramètres caractérisant cette série statistique, donner une
conclusion sur l’âge de ces salariés.

4
t
Faculté des sciences et techniques Année 2020-2021
Tanger
Département de Mathématiques
Filière : BCG - 2ème année
Module : Statistique descriptive et Probabilités
T D1

Exercice 1 Le nombre de « frères et soeurs » sur un échantillon de 20 étudiants, prélevé au hasard


de la 2ème année de BCG, est donné par la liste suivante : 4, 3, 3, 1, 6, 0, 2, 1, 2, 3, 0, 3, 4, 2, 6, 2, 1,
4, 2, 4.
1. Classer ces données dans un tableau statistique.
2. Faites une représentation graphique convenable.
3. Tracer la courbe des fréquences cumulées croissantes.
4. Calculer le mode, la médiane, la moyenne et l’écart-type.

Exercice 2 Sur un échantillon de 100 personnes d’âges différents (variant entre 55 et 65 ans), on a
mesuré le taux de cholestérol total. On a obtenu les résultats suivants :

Taux de Cholestérol (g/l) ni


[1, 4 − 1, 6[ 4
[1, 6 − 1, 8[ 6
[1, 8 − 2, 0[ 8
[2, 0 − 2, 4[ 20
[2, 4 − 2, 6[ 18
[2, 6 − 2, 8[ 30
[2, 8 − 3, 0[ 14

1. Tracer l’histogramme de fréquences absolues (ou relatives).


2. Tracer la courbe de fréquences cumulées croissantes.
3. Quelle est le proportion de personnes ayant un taux de cholestérol inférieur à 2 ?
4. Quelle est la proportion de personnes ayant un taux de cholestérol supérieure ou égale à 2,4 ?
5. Déterminer le mode, la moyenne et l’écart type de cette distribution.
6. Déterminer la valeur médiane de cette distribution, les 1er et 3ème quartiles.
7. Tracer le diagramme en boîte (Box pot).
8. La distribution du taux de cholestérol est-elle symétrique ? Pourquoi ?

Exercice 3 On a relevé les âges de 92 patients visitant une clinique privée durant l’été.

1
Classe ni
[10 − 20[ 9
[20 − 40[ 26
[40 − x[ 19
[x − 80[ 24
[80−, v100[ 14
Total 92

1. Retrouvez la valeur manquante sachant que l’âge moyen est 49,89 ans.
2. Tracer l’histogramme, le polygone des fréquences et déterminer le mode.
3. Déterminer la médiane et l’écart-type.
4. En déduire la forme de la distribution de l’âge des patients.

Exercice 4 On a noté l’âge (arrondi à l’année près) des 48 salariés d’une entreprise ; la série
statistique brute est donnée ci-dessous :

26 26 29 29 29 31 31 33 33 33 33 37 37 38 38 38 38 41 41 41 43 43 43 45 46 46 46 46 46 46 49
49 49 50 52 52 52 57 57 57 57 57 59 59 60 60 62
1. Ordonner de manière croissante ces valeurs.
2. Dépouiller ces données suivant un tableau statistique.
3. Faites une représentation graphique convenable.
4. Déterminer le mode, la moyenne et l’écart type de cette distribution.
5. Déterminer la valeur médiane de cette distribution, les 1er et 3ème quartiles.
6. Tracer le diagramme en boîte (Box pot).
7. Après l’analyse des graphiques et des paramètres caractérisant cette série statistique, donner
une conclusion sur l’âge de ces salariés.

——————————————————

2
Corrigé de l’exercice 1 1. Tableau statistique

Table 1 – Tableau statistique

X ni fi Fi ni xi ni xi2
0 2 0,1 0,1 0 0
1 3 0,15 0,25 3 3
2 5 0,25 0,5 10 20
3 4 0,2 0,7 12 36
4 4 0,2 0,9 16 64
5 0 0 0,9 0 0
6 2 0,1 1 12 72
Total 20 1 53 195

ni ni
fi = = ; Fi = f1 + f2 + ... fi
N 20
2. Diagramme

Figure 1 – Diagramme en bâtons du nombre de "frères et sœurs" de l’étudiant.

3. La courbe des fréquences cumulées croissantes La fonction cumulée croissante est définie
par :
0 si x < 0





0.1 si 0 ≤ x < 1






0.25 si 1 ≤ x < 2







 0.5 si 2 ≤ x < 3



F(x) = 




 0.7 si 3 ≤ x < 4

0.9 si 4 ≤ x < 5







0.9 si 5 ≤ x < 6







1 si 6 ≤ x

3
Figure 2 – Courbe des fréquences cumulées croissantes.

4. Le mode, la médiane, la moyenne et l’écart-type


(a) Le mode M0 = 2
(b) La médiane
On classe les valeurs de la série par ordre croissante

0 − 0 − 1 − 1 − 1 − 2 − 2 − 2 − 2 − 2-3 − 3 − 3 − 3 − 4 − 4 − 4 − 4 − 6 − 6

n est paire (n=20), donc


Xn/2 + Xn/2+1 X10 + X11 2 + 3
Me = = = = 2.5
2 2 2
(c) La moyenne ?
7
X 53
X = 1/20 ni xi = = 2.65
i
20
(d) L’écart type
7
2
X
v(X) = σ = 1/n
2
ni xi2 − X = 1/20(195 − 2.652 ) = 2.1275)
i

σ= v(X) = 2.1275 = 1.4585
p

———————————————-

Corrigé de l’exercice 2 1. l’histogramme des fréquences

4
Table 2 – Tableau statistique

Classe Amplitude ai ni fi a0i = ai /0, 2 fi0 = fi /a0i Fi ci ni ci ni c2i


[1, 4 − 1, 6[ 0,2 4 0,04 1 0,04 0,04 1,5 6 9
[1, 6 − 1, 8[ 0,2 6 0,06 1 0,06 0,1 1,7 10,2 17,34
[1, 8 − 2, 0[ 0,2 8 0,08 1 0,08 0,18 1,9 15,2 28,88
[2, 0 − 2, 4[ 0,4 20 0,2 2 0,1 0,38 2,2 44 96,8
[2, 4 − 2, 6[ 0,2 18 0,18 1 0,18 0,56 2,5 45 112,5
[2, 6 − 2, 8[ 0,2 30 0,3 1 0,3 0,86 2,7 81 218,7
[2, 8 − 3, 0[ 0,2 14 0,14 1 0,14 1 2,9 40,6 117,74
Total 100 1 242 600,96

Les classes n’ont pas la même amplitude (a4 = 0, 4 et a1 = a2 = a3 = a5 = a6 = a7 = 0, 2 )


On doit corriger les amplitudes et les fréquences

a0i = ai /0, 2; fi0 = fi /a0i

Les fréquences corrigées sont utilisées seulement pour tracer l’histogramme des fréquences et
le calcule du mode.

Figure 3 – histogramme de fréquences

5
2. Courbe des fréquences cumulées croissantes

di 1,4 1,6 1,8 2 2,4 2,6 2,8 3


Fi 0 0,04 0,1 0,18 0,38 0,56 0,86 1

Figure 4 – Courbe des fréquences cumulées croissantes.

3. La proportion de personnes ayant un taux de cholestérol inférieur à 2


4+6+8
= 0.18
100
4. La proportion de personnes ayant un taux de cholestérol supérieure ou égale à 2,4
18 + 30 + 14
= 0, 62
100
5. Le mode, la moyenne et l’écart type de cette distribution.
(a) Le mode
La classe modale : [2,6 2,8] ⇒ M0 ' 2,6+2,8
2
= 2, 7
(b) La moyenne
X
X̄ = 1/100 ni ci = 242/100 = 2, 42
i=1

(c) La variance σ2
X
σ2 = 1/100 ni c2i − X̄ 2 = 600, 96/100 − 2, 422 = 0, 1532
i=1

6
(d) L’écart-type
σ= V(x) = 0, 3914
p

6. (a) La médiane
0, 38 < 0.5 < 0, 56
2, 4 < Me < 2, 6

Me − 2, 4 0, 5 − 0, 38
=
2, 6 − 2, 4 0, 56 − 0, 38

0, 5 − 0, 38
Me = 2, 4 + (2, 6 − 4) = 2, 5333
0, 56 − 0, 38
(b) F(Q1 ) = 0, 25 et F(Q3 ) = 0, 75, danc Q1 est dans [2, 2, 4[ et Q3 dans [2, 6, 2, 8[
ainsi
Q1 = (2 + 2, 4)/2 = 2, 2
Q3 = (2, 6 + 2, 8)/2 = 2, 7
7. Tracer le diagramme en boîte (Box pot)

d1 = Q1 − 1, 5 ∗ (Q3 − Q1) = 2, 2 − 1, 5(2, 7 − 2, 2) = 1, 45


d2 = Q3 + 1, 5 ∗ (Q3 − Q1) = 2, 7 + 1, 5(2, 7 − 2, 2) = 3, 45
8. La distribution du taux de cholestérol

———————————————-

Corrigé de l’exercice 3 1. La valeur manquante sachant que l’âge moyen est 49,89 ans
5
X 3515 + 21, 5 ∗ x
X = 1/92 ni ci = = 49, 9944186
i
92

On trouve x = 50

Table 3

Classe ni ci ci ni ci fi ai a0i = ai /20 fi0 = fi /a0i Fi ni c2i


[10 − 20[ 9 15 15 135 0,10 10 0,5 0,20 0,10 2025
[]20 − 40[ 26 30 30 780 0,28 20 1 0,28 0,38 23400
[40 − x[ 19 (40+x)/2 45 855 0,21 17 0,85 0,24 0,59 38475
[x − 80[ 24 (x+80)/2 65 1560 0,26 23 1,15 0,23 0,85 101400
[80 − 100[ 14 90 90 1260 0,15 20 1 0,15 1,00 113400
Somme 92 4590 1 278700

2. Le mode : La classe modale [20, 40[, donc

M0 = (20 + 40)/2 = 30

7
3. La médiane
Table 4

di 10 20 40 50 80 100
Fi 0 0,10 0,38 0,59 0,85 1,00

0, 38 < 0.5 < 0, 59

40 < Me < 50

Me − 40 0, 5 − 0, 38
=
50 − 40 0, 59 − 0, 38

Me = 45, 714
4. La variance V(x) = σ2
X
σ2 = 1/92 ni c2i − X̄ 2 = 278700/92 − 49, 892 = 540, 33
i=1

Ainsi
σ= V(x) = 23, 24
p

5. M0 < Me < X, ainsi la distribution est étalée à droite


———————————————-
Corrigé de l’exercice 4 1. 24 26 26 29 29 29 31 31 33 33 33 33 37 37 38 38 38 38 41 41 41 43
43 43 45 46 46 46 46 46 46 49 49 49 50 52 52 52 57 57 57 57 57 59 59 60 60 62
2. (a) Le nombre de classes ?
Méthode de Huntsbeerger : le nombre de classes est k = 1 + 3.3log10(n) où n = longueur
de la série = le nombre d’individus
n=48, on trouve k = 6.604137, k est un entier> 6, soit k = 7
(b) L’amplitude ai

ai = (62 − 24)/7 = 6

Age ni ci Ni Fi ni ci ni c2i
[24 − 30[ 6 27 6 0,125 162 4374
[30 − 36[ 6 33 12 0,25 198 6534
[36 − 42[ 9 39 21 0,4375 351 13689
[42 − 48[ 10 45 31 0,6458 450 20250
[48 − 54[ 7 51 38 0,7917 357 18207
[54 − 60[ 7 57 45 0,9375 399 22743
[60 − 66[ 3 63 48 1 189 11907
Total 48 2106 97704

8
3. Représentation graphique

Figure 5 – Répartition des salariés selon l’age

4. Le mode, la moyenne et l’écart type

Classe modale= [42 − 48[


Mode= 45
Moyenne= 43,875
Variance= 110,4844
Ecart-type= 10,5112

5. La valeur médiane de cette distribution, les 1er et 3ème quartiles.

di 24 30 36 42 48 54 60 66
Fi 0 0,13 0,25 0,44 0,65 0,79 0,94 1,00

9
F(36)= 0,25
Q1= 36

Classe Médiane= [42 − 48[


Me= 43,8003

F(Q3)= 0,75
Q3 dans la classe [48 − 54[
Q3= 52,2851

6.
Q1 = 36

Q2 = 43, 80
Q3 = 52, 28
d1 = Q1 − 1, 5 ∗ (Q3 − Q1) = 11, 5723
d2 = Q3 + 1, 5 ∗ (Q3 − Q1) = 76, 71

Figure 6 – Le diagramme en boîte (Box plot)

7. Me = 43, 8 < X = 43, 875 < M0 = 45, donc la distribution de l’age est asymétrie étalée vers
la gauche

10
Faculté des sciences et techniques Année 2020-2021
Tanger
Département de Mathématiques
Filière : BCG - 2ème année
Module : Statistique descriptive et Probabilités
T D2

Exercice 1 On donne la distribution statistique à deux dimensions suivantes :

X/Y 10 20 30 40
2 a 0 b 0
4 0 b 0 a
6 b 0 a 0
8 0 a 0 b
10 c c c c

On donne en plus les renseignements suivants :


— Effectif total = 40 ;
— La fréquence de X = 2 est égale à 1/8 ;
— La fréquence de X = 10 est égale à 1/2, la fréquence de Y = 10 sachant que X =2 est égale à
0,4.
1. Déterminer les nombres a, b et c.
2. Déterminer les moyennes et les variances marginales des variables X et Y.
3. Donner la distribution et la moyenne conditionnelle de X/Y= 20.
4. Déterminer le coefficient de corrélation linéaire entre les variables X et Y.
5. Déduire l’intensité de la liaison linéaire entre X et Y.

Exercice 2 Lors d’un test d’effort sur une personne, on a fait varier l’intensité X du travail fourni
(en kilojoules par minute) et on a relevé la fréquence cardiaque Y (en nombre de battements par
minute). On a obtenu les résultats suivants :

Intensité xi Fréquence
10 70
13 86
19 92
30 106
38 120
48 130
50 144
56 152

1. Représenter graphiquement le nuage de points {(xi , yi ), i = 1, 2, ....8}

1
2. Déterminer le coefficient de corrélation linéaire entre les variables X et Y. Interprétez.
3. Déterminez la droite de régression de Y en X.
4. En déduire le coefficient de détermination. Interpréter.
5. Estimer l’intensité du travail fourni pour une fréquence cardiaque de 148 battements par
minute.

Corrigé : TD2
Corrigé de l’exercice 1 1. Calcule de a , b et c

X/Y 10 20 30 40 totaux (ni. )


2 a 0 b 0 a+b
4 0 b 0 a a+b
6 b 0 a 0 a+b
8 0 a 0 b a+b
10 c c c c 4c
totaux (n. j ) a+b+c a+b+c a+b+c a+b+c 40

Y/X=2 10 20 30 40 total
Effectifs a 0 b 0 a+b
Proportions a/(a+b) 0 0 b/(a+b) 1

N = 40 = 4(a + b + c)
f1. = n1. /n = (a + b)/40 = 0.13
f5. = n5. /n = (4c)/40 = 0.5
f (Y = 10/X = 2) = a/(a + b) = 0.4
c=5





= 0.4

a/5



a+b =5






 a + b + c = 10


Ainsi a=2, b=3 et c=5
2. Les moyennes et les variances marginales des variables X et Y.

xi ni. ni. xi ni. xi2


2 5 10 20
4 5 20 80
6 5 30 180
8 5 40 320
10 20 200 2000
total 40 300 2600

2
5
X 300
X = 1/40 ni xi = = 7.5
i=1
40

5
2
X
v(X) = σ2 = 1/n ni xi2 − X = 2600/40 − 7.52 = 8.75
i=1

yj n. j n. j y j n. j y2j
10 10 100 1000
20 10 200 4000
30 10 300 9000
40 10 400 16000
Total 40 1000 30000

4
X 1000
y = 1/40 ni yi = = 25
i=1
40

4
X
v(y) = σ2 = 1/n ni y2i − y2 = 30000/40 − 252 = 125
i=1

3. La distribution et la moyenne conditionnelle de X/Y= 20.

(X/ Y=20) ni2 ni2 xi


2 0 0
4 3 12
6 0 0
8 2 16
10 5 50
Total 10 78

(X/Y = 20) = 78/10 = 7.8

4. Le coefficient de corrélation linéaire entre les variables X et Y.

X/Y 10 20 30 40 total
2 40 0 180 0 220
4 0 240 0 320 560
6 180 0 360 0 540
8 0 320 0 960 1280
10 500 1000 1500 2000 5000
total 230 580 570 1320 7600

3
Le coefficient de corrélation linéaire r entre X et Y
Cov(X, Y) Cov(X, Y)
r= = √
σ(X)σ(X)
p
V(x) V(y)
X
V(x) = 2.95; V(Y) = 11.18; Cov(X, Y) = 1/10 ni j xi yi − x × y = 2.5.
p p

i, j

Ainsi, r = 0, 0758 ' 0 ⇒ une faible liaison linéaire entre X et Y.


5. l’intensité de la liaison linéaire entre X et Y.
Le coefficient de détermination R = r2 = 0.0057 ' 0

Corrigé de l’exercice 2 1. Le nuage de points {(xi , yi ), i = 1, 2, ....8}

2. Le coefficient de corrélation linéaire entre les variables X et Y

Intensité xi Fréquence yi xi yi xi2 y2i


10 70 700 100 4900
13 86 1118 169 7396
19 92 1748 361 8464
30 106 3180 900 11236
38 120 4560 1444 14400
48 130 6240 2304 16900
50 144 7200 2500 20736
56 152 8512 3136 23104
Total 264 900 33258 10914 107136

4
8
X 264
X = 1/8 xi = = 33
i=1
8
8
2
X
v(X) = σ = 1/8
2
xi2 − X = 10914/8 − 332 = 275, 25
i=1

8
X 900
y = 1/8 yi = = 112, 5
i=1
8
8
X
v(y) = σ2 = 1/8 y2i − y2 = 107136112, 52 = 735, 75
i=1
X
Cov(X, Y) = 1/8 xi yi − x × y = 444, 75
i, j

Cov(X, Y) Cov(X, Y)
r= = √ = 0, 988
σ(X)σ(X)
p
V(x) V(y)
ainsi, x et y sont fortement corrélées.
3. La droite de régression de y en x : y=ax+b
a = Cov(x, y)/v(x) = 444.75/275.25 = 1.6158
b = y − ax = 112.5 − 1.6158 × 33 = 59.1784

4. Le coefficient de détermination est le carré du coefficient de corrélation


R2 = r2 = 0, 0.9882 = 0, 976144
alors 97.61 % de la variation totale dans Y est expliquée par la droite de régression.

5
5. L’intensité du travail fourni pour une fréquence cardiaque de 148 battements par minute.

x = (y − b)/a = (148 − 59, 1784)/1, 6158 = 54, 970

6
FACULTE DES SCIENCES ET TECHNIQUES Année 2020-2021
De TANGER

Département de Mathématiques

Filière : BCG - 2ème année

Module : Statistique descriptive et Probabilités

TD N°2

Exercice 1 : On donne la distribution statistique à deux dimensions suivantes :

X\Y 10 20 30 40
2 a 0 b 0
4 0 b 0 a
6 b 0 a 0
8 0 a 0 b
10 c c c c
On donne en plus les renseignements suivants :


Effectif total = 40 ;

La fréquence de X = 2 est égale à 1/8 ;

La fréquence de X = 10 est égale à 1/2, la fréquence de Y = 10 sachant que X =
2 est égale à 0,4.
Déterminer les nombres a, b et c.

1. Déterminer les moyennes et les variances marginales des variables X et Y.


2. Donner la distribution et la moyenne conditionnelle de X/Y= 20.
3. Déterminer le coefficient de corrélation linéaire entre les variables X et Y.
4. Déduire l’intensité de la liaison linéaire entre X et Y.

Exercice 2 : Lors d’un test d’effort sur une personne, on a fait varier l’intensité X du
travail fourni (en kilojoules par minute) et on a relevé la fréquence cardiaque Y (en nombre de
battements par minute). On a obtenu les résultats suivants :

Intensité 10 13 19 30 38 48 50 56
xi

Fréquence 70 86 92 106 120 130 144 152


yi

a) Représenter graphiquement le nuage de points ( xi , yi ), i  1,....,8


b) Déterminer le coefficient de corrélation linéaire entre les variables X et Y. Interprétez.
c) Déterminez la droite de régression de Y en X.
d) En déduire le coefficient de détermination. Interpréter.
e) Estimer l’intensité du travail fourni pour une fréquence cardiaque de 148 battements par
minute.

Exercice 3 : Pour un échantillon de 6 individus, on a observé deux variables X et Y. On a


obtenu :

xi 0,9 1 1,2 1,3 1,5 1,7

yi 1,9 1,7 1,5 1,2 0,7 0,4

6 6 6

 xi  10,08 ,  yi  10,84 et x y  8,5 .


2 2
On donne : i i
i 1 i 1 i 1

Considérer les valeurs arrondies à quatre chiffres après la virgule.

1) Déterminer les moyennes et les variances marginales de X et Y.


2) Déterminer le coefficient de corrélation linéaire entre X et Y.
3) Déterminer l’équation de la droite de régression de Y en X.
4) Quelle est la qualité d’ajustement de la droite aux points expérimentaux (xi, yi).
FACULTE DES SCIENCES ET TECHNIQUES Année 2020-2021
TANGER
Département de Mathématiques
Filière BCG - 2ème année
Module: Probabilités et Statistique

TD N°3

Exercice 1.

1) On lance 3 fois un dé. Combien y a-t-il des résultats possibles ?


2) De combien de façon peut-on placer 4 dossiers différents dans 15 casiers différents ? A
raison d’un dossier par case.
3) Combien de mots différents peut-on former avec toutes les lettres du mot
STATISTICA ?

Exercice 2. Supposons que l’on désire créer les codes d’accès à l’ordinateur de 5 lettres à
partir de 26 lettres de l’alphabet. Quelle est le nombre de codes différents ? Considérer les cas :
a) Les lettres sont distinctes ;
b) Avec répétition des lettres.

Exercice 3. On veut constituer un groupe de 5 étudiants choisis parmi 20 étudiants de BCG et


25 de MIPC.

1) De combien de façon peut-on constituer ce groupe de 5 étudiants ?


2) De combien de façon peut-on constituer ce groupe avec :
a) uniquement les étudiants de BCG ;
b) uniquement les étudiants de MIPC ;
c) des étudiants de la même filière.
3) Quelle est la probabilité d’avoir au moins un étudiant de BCG ?
4) Quelle est la probabilité d’avoir au moins un étudiant de BCG et au moins un étudiant
de MIPC ?
5) Quelle est la probabilité d’avoir 5 étudiants de la même filière ?

Exercice 4. Soit A, B et C des événements de l’espace fondamentale Ω tels que :


P(B) =0,25 et P(A) = P(C) = 0,35.
On suppose que B  A , B et C sont incompatibles, A et C sont incompatibles. Calculer :

1) P( B  C ) , P ( A  B ) .
2) P( A  B  C ) .

3) P ( A  B ) et P A  ( B  C ) . 
4) P ( B / A), P ( B / A) , P( B / A), P( B  C / A).
Exercice 5. Dans une population, 7 % des individus sont contaminé par un virus. On dispose
d’un test de dépistage tel que :
- Si un individu est contaminé, le test est positif à 99 %,
- Si un individu n’est pas contaminé, le test est positif à 3 %.

1) Quelle est la probabilité pour que le test appliqué à un individu soit positif.
2) Sachant que le test est positif, quelle est la probabilité que l’individu soit contaminé.
3) Le test est-il efficace ?

Exercice 6. Un quart d’une population a été vaccinée contre une maladie contagieuse. Si on
est vacciné, on tombe malade avec une probabilité de 1/20. Si la personne est malade, la
probabilité qu’elle soit vaccinée est 1/5.

1) Quelle est la probabilité pour une personne non-vaccinée de tomber malade ?


2) Le vaccin est-il efficace ?

Exercice7. On sait qu’à une date donnée, 3% d’une certaine population est atteinte d’hépatite.
On dispose de tests de dépistage de la maladie :
- Si la personne est malade, alors le test est positif avec une probabilité 0.95.
- Si la personne est saine, alors le test est positif avec une probabilité de 0.10.
1. Quelle est la probabilité qu’une personne de cette population présente un test positif ?
2. Quelle est la probabilité qu’une personne soit malade si son test est positif ?
3. Le test est-il efficace ?

Exercice 8. On considère le jet d’un dé pipé. Soit X la variable aléatoire représentant le


numéro obtenu. La loi de X est donnée par le tableau suivant:

k 1 2 3 4 5 6
P( X  k ) a 2a 3a 3a 2a a

1) A quelle condition sur a, ce tableau définit bien une loi de probabilité de X.


2) Calculer l’espérance mathématique et la variance de X.
3) Déterminer la fonction de répartition F de la v. a. X et tracer sa courbe.
Université Abdelmalek Essaadi Année universitaire : 2020/2021
FST de Tanger
Département de Mathématiques
Filière : BCG – 2ème année
Module : Statistique descriptive et Probabilité

TD N° 4

Exercice 1 : On donne ci-dessous la loi de probabilité de la variable aléatoire X :


xi -2 -1 0 1 2 3
P(X = xi) 0,3 0,05 0,1 0,05 0,2 p

Soit F sa fonction de répartition.


Déterminer p, déterminer F (0,5), déterminer E(X), déterminer 𝜎(X).

Exercice 2 : On s’intéresse dans cet exercice aux allergies déclenchées par un médicament
dans une grande population. Une étude a montré que 23% des individus sont allergiques. On
choisit au hasard un échantillon de 18 personnes. Soit 𝑋 le nombre aléatoire de personnes
allergiques.
1. Quelle est la loi de probabilité de la variable aléatoire X ? (Justifier). Donner son espérance, sa
variance et son écart type.
2. Calculer les probabilités : ℙ(X=1), ℙ(X=18), ℙ (5 ≤ 𝑋 ≤ 7).

Exercice 3 : Un astronome voit passer un nombre X d’étoiles filantes sur une période d’une
minute. On suppose que X suit la loi de Poisson de paramètre .
1. Déterminer  sachant que l’astronome voit passer en moyenne 3 étoiles filantes par
minute.
2. Quelle est la probabilité que pendant cette minute, il en observe respectivement 0, 1,
au moins 2 étoiles filantes ?

Exercice 4 : Dans une population une personne sur cent est centenaire.
1) Quelle est la probabilité de trouver au moins un centenaire parmi 100 personnes
choisies au hasard ? Justifier.
2) Même question pour 200 personnes ?
Université Abdelmalek Essaadi Année universitaire : 2021/2022
FST de Tanger
Département de Mathématiques
Filière : BCG – 2ème année
Module : Statistique descriptive et Probabilité

TD N° 5

Exercice1 : Soit X une variable aléatoire qui possède pour densité :


1 − x si x [−1, +1]
𝑓(𝑥) = {
0 𝑠𝑖𝑛𝑜𝑛

1. Vérifier que f est une densité de probabilité.


2. Déterminer la fonction de répartition F(x) de la variable aléatoire X.
3. Calculer les probabilités, P (X ≤ 0) ; P (X ≤ 0.5) ; P (-0.5 ≤ X ≤ 0.5).
4. Déterminer la médiane, la moyenne et la variance de la variable aléatoire X.

Exercice2 : Une enquête a été effectuée auprès de famille de 4 personnes afin de connaître leur
achat de lait en 1 mois. Sur l'ensemble des personnes interrogées, la consommation a une
distribution de type normale avec une moyenne de 22 litres et un écart-type de 6 litres.

1. Déterminer le pourcentage des familles qui consomment moins de 10 litres ?


2. Déterminer le pourcentage des familles qui consomment plus de 30 litres ?
3. Déterminer la consommation minimale de 75% des consommateurs ?
4. Déterminer la consommation maximale de 50% des consommateurs ?
5. Au-dessus de quelle consommation se trouve le tiers de la population ?
6. On choisit au hasard 50 familles comme précédemment. Désignons par Y la variable
aléatoire qui compte le nombre de famille qui consomment moins de 20 litres.
i. Quelle est la loi de probabilité de la variable aléatoire Y ?
ii. Par quelle loi peut-on approcher la loi de probabilité de Y ?
iii. Quelle est la probabilité qu'il y ait, parmi ces 50 familles, au moins 10 familles qui
consomment moins de 20 litres ?

Vous aimerez peut-être aussi