Vous êtes sur la page 1sur 136

UE 

: IUT GMP34 CULTURE SCIENTIFIQUE ET HUMAINE

EC : GMP 343 - PROBABILITÉS ET STATISTIQUES

NIVEAU 2 DUT GMP

SEMESTRE 3

Pr Francis DJANNA KOFFI

Rodrigue FOSSI

i
PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue
UE : IUT GMP34 CULTURE SCIENTIFIQUE ET HUMAINE

EC : GMP 343 : PROBABILITLÉS ET STATISTIQUES

DUREE: 24 Heures

CM14 TD10 TP0

ÉQUIPE PÉDAGOGIQUE

Pr Francis DJANNA KOFFI (CM14 TD0 TP0)

Rodrigue FOSSI (CM0 TD10 TP0)

OBJECTIFS GENERAUX

(i) Effectuer une étude statistique et modéliser sous la forme d’une ou deux variables ou
dimensions

(ii) Effectuer un calcul de probabilités et appliquer à l’aide de différentes loi de probabilités

OBJECTIFS SPECIFIQUES

(i) Représenter une série statistique à une variable et interpréter les caractéristiques de
position et de dispersion.

(ii) Représenter une série statistique à deux variables et effectuer un ajustement affine Y en
X.

(iii) Dénombrer, modéliser et calculer une situation aléatoire à l’aide des probabilités et
variables aléatoires en utilisant les différentes loi quantitatives (Binomiale, Poisson et
Normale).

(iv) Etudier la fiabilité d’un dispositif à l’aide de la loi Exponentielle ou de Weibull.

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


(v) Effectuer une estimation d’un paramètre puis construire et utiliser différents tests (test de
conformité, test de comparaison, test d’adéquation à une loi théorique, test d’indépendance
209)

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


FICHE DE PROGRESSION

SEQUENCES THEMES DEVELOPPES DUREE


1.1. Représenter une série statistique à une variable
1.2. Déterminer et interpréter des caractéristiques
de position
1.3. Déterminer et interpréter des caractéristiques
1
de dispersion
Statistique
2.1. Représenter une série statistique à deux CM: 6H
Descriptive à une et à TD: 3H
variables
deux Dimensions
2.2. Calculer et interpréter le coefficient de
corrélation linéaire
2.3. Déterminer un ajustement affine de Y en X
2.4. Calculer et interpréter les résidus standardisés
3.1. Dénombrer
2
Calcul des 3.2. Modéliser une situation aléatoire CM: 6H
3.3. Calculer des probabilités conditionnelles TD: 3H
Probabilités

4.1. Modéliser un caractère quantitatif


4.2. Utiliser une loi binomiale
4.3. Utiliser une loi de Poisson
3 4.4. Utiliser une loi normale
Variables Aléatoires 4.5. Calculer les paramètres d’une somme ou d’une CM: 6H
TD: 3H
et Fiabilité différence de v.a.
5.1. Étudier la fiabilité d’un dispositif
5.2. Utiliser la loi exponentielle
5.3. Utiliser une loi de Weibull
6.1. Donner une estimation ponctuelle d’un
paramètre
6.2. Donner une estimation par intervalle de
4 confiance d’un paramètre
Statistique 7.1. Construire et utiliser un test de conformité
7.2. Construire et utiliser un test de comparaison CM: 6H
Inférentielle-
7.3. Construire et utiliser un test d’adéquation à une TD: 3H
Estimation-Tests
d’Hypothese loi théorique
7.4. Construire et utiliser un test d’indépendance
209
vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


SOURCES DOCUMENTAIRES
Chauvat G., Chollet A., Bouteiller Y., Mathématiques BTS/DUT, Probabilités et Statistique.
EdiScience, Dunod, 2005.
A. Borovkov. Mathematical Statistics. Gordon and Breach Science Publishers, 1998.
N. Bouleau. Probabilités de l’ingénieur. Variables aléatoires et simulation. Hermann, 1986.
P. Brémaud. Introduction aux Probabilités. Springer Verlag, 1984.
D. Dacunha-Castelle and M. Duffo. Probabilités et Statistiques: Problèmes à temps fixe.
Masson, 1982.
B. Jourdain. Probabilités et Statistiques pour L’ingénieur. ENSTA, 2018.
J. F. Delmas. Introduction au Calcul des Probabilités et à la Statistique. Polycopié ENSTA,
2008.

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


TABLE DES MATIERES
FICHE DE PROGRESSION..................................................................................................iii
SOURCES DOCUMENTAIRES...........................................................................................iv
TABLE DES MATIERES.......................................................................................................v
CHAPITRE I : STATISTIQUE DESCRIPTIVE A UNE DIMENSION................................1
1.1. REPRESENTER UNE SERIE STATISTIQUE A UNE VARIABLE.........................1
1.1.1. Représenter une série statistique à une variable.....................................................1
1.1.2. Notions, notations et résultats................................................................................1
1.2 DÉTERMINER ET INTERPRÉTER DES CARACTÉRISTIQUES DE POSITION. .4
1.2.1. Introduction............................................................................................................4
1.2.2. Notions, notations et résultats................................................................................4
1.3. DÉTERMINER ET INTERPRÉTER DES CARACTÉRISTIQUES DE
DISPERSION.......................................................................................................................8
1.3.1 Introduction.............................................................................................................8
1.3.2. Notions, notations et résultats................................................................................8
CHAPITRE II : SERIES STATISTQIUES A DEUX DIMESNIONS..................................11
2.1. REPRÉSENTER UNE SÉRIE STATISTIQUE À DEUX VARIABLES..................11
2.1.1. Introduction..........................................................................................................11
2.1.2. Notions, notations et résultats..............................................................................11
2.1.3. Techniques...........................................................................................................16
2.2. CALCULER ET INTERPRÉTER LE COEFFICIENT DE CORRÉLATION
LINÉAIRE..........................................................................................................................16
2.2.1. Introduction..........................................................................................................17
2.2.2. Notions, notations et résultats..............................................................................17
2.2.3. Techniques...........................................................................................................20
2.3. DÉTERMINER UN AJUSTEMENT AFFINE...........................................................21
2.3.1. Introduction..........................................................................................................21
2.3.2. Notions, notations et résultats..............................................................................21
2.3.3. Techniques...........................................................................................................26
2.4. CALCULER ET INTERPRÉTER LES RÉSIDUS STANDARDISÉS.....................26
2.4.1. Introduction..........................................................................................................27
2.4.2. Notions, notations, résultats.................................................................................27
2.4.3. Technique.............................................................................................................27
CHAPITRE 3 : CALCUL DES PROBABILITES................................................................29
3.1. DÉNOMBRER............................................................................................................29
3.1.1. Introduction..........................................................................................................29 vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


3.1.2. Notions, notations et résultats..............................................................................29
3.1.3. Techniques...........................................................................................................31
3.2. MODÉLISER UNE SITUATION ALÉATOIRE.......................................................32
3.2.1. Introduction..........................................................................................................32
3.2.2. Notions, notations et résultats..............................................................................32
3.2.3. Techniques...........................................................................................................35
3.3. CALCULER DES PROBABILITES CONDITIONNELLES....................................36
3.3.1. Introduction..........................................................................................................37
3.3.2. Notions, notations et résultats..............................................................................37
3.3.3. Techniques...........................................................................................................39
CHAPITRE 4: VARIABLES ALEATOIRES.......................................................................41
4.1. MODÉLISER UN CARACTÈRE QUANTITATIF...................................................41
4.1.1. Introduction..........................................................................................................41
4.1.2. Notions, notations et résultats..............................................................................42
4.1.3. Techniques...........................................................................................................51
4.2. UTILISER UNE LOI BINOMIALE...........................................................................52
4.2.1. Introduction..........................................................................................................52
4.2.2. Notions, notations et résultats..............................................................................52
4.2.3. Techniques...........................................................................................................53
4.3. UTILISER UNE LOI DE POISSON..........................................................................54
4.3.1. Introduction..........................................................................................................54
4.3.2. Notions, notations et résultats..............................................................................55
4.4. UTILISER UNE LOI NORMALE..............................................................................57
4.4.1. Introduction..........................................................................................................57
4.4.2. Notions, notations et résultats..............................................................................57
4.4.3. Techniques...........................................................................................................60
4.5. CALCULER LES PARAMÈTRES D’UNE SOMME OU D’UNE DIFFÉRENCE DE
V.A.....................................................................................................................................63
4.5.1 Introduction...........................................................................................................63
4.5.2. Notions, notations et résultats..............................................................................63
4.5.3. Techniques...........................................................................................................65
CHAPITRE 5 : FIABILITE...................................................................................................67
5.1. ÉTUDIER LA FIABILITÉ D’UN DISPOSITIF........................................................67
5.1.1. Introduction..........................................................................................................67
5.1.2. Notions, notations et résultats..............................................................................67
5.1.3. Techniques...........................................................................................................72
5.2. UTILISER LA LOI EXPONENTIELLE....................................................................73 vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


5.2.1. Introduction..........................................................................................................73
5.2.2. Notions, notations et résultats..............................................................................73
5.2.3. Techniques...........................................................................................................74
5.3. UTILISER LA LOI DE WEIBULL............................................................................77
5.3.1. Introduction..........................................................................................................77
5.3.3. Techniques...........................................................................................................80
CHAPITRE 6 : STATISTIQUE INFERENTIELLE- ESTIMATION..................................83
6.1. DONNER UNE ESTIMATION PONCTUELLE D’UN PARAMÈTRE...................83
6.1.3. Techniques...........................................................................................................88
6.2. DONNER UNE ESTIMATION PAR INTERVALLE DE CONFIANCE D’UN
PARAMÈTRE....................................................................................................................89
6.2.1. Introduction..........................................................................................................89
6.2.2. Notions, notations et résultats..............................................................................90
6.2.3. Techniques...........................................................................................................94
CHAPITRE 7 : STATISTIQUE INFERENTIELLE-TESTS D’HYPOTHESE...................96
7.1. CONSTRUIRE ET UTILISER UN TEST DE CONFORMITÉ.................................96
7.1.1. Introduction..........................................................................................................96
7.1.2. Notions, notations et résultats..............................................................................97
7.1.3. Techniques.........................................................................................................100
7.2. CONSTRUIRE ET UTILISER UN TEST DE COMPARAISON 7.2.1 introduction
..........................................................................................................................................102
7.2.2. Notions, notations et résultats............................................................................102
7.2.3. Techniques.........................................................................................................104
7.3. CONSTRUIRE ET UTILISER UN TEST D’ADÉQUATION À UNE LOI
THÉORIQUE...................................................................................................................105
7.3.1. Introduction........................................................................................................105
7.3.2. Notions, notations et résultats Test du 2 (o khi-deux ») de Pearson..................105
7.3.3. Techniques.........................................................................................................106
7.4. CONSTRUIRE ET UTIUSER UN TEST D’INDÉPENDANCE.............................107
7.4.1. Introduction........................................................................................................107
7.4.2. Notions, notations et résultats............................................................................107
7.4.3. Techniques.........................................................................................................108

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


CHAPITRE I : STATISTIQUE DESCRIPTIVE A UNE
DIMENSION
Représenter une série statistique à une variable
 Comment construire le diagramme en bâtons d’une série statistique quantitative
discrète

 Comment construire l’histogramme d’une série statistique quantitative continue?

Déterminer et interpréter certaines caractéristiques de position


 Comment calculer la moyenne d’une série statistique à une variable

 Comment calculer la médiane d’une série statistique à une variable

Déterminer et interpréter certaines caractéristiques de dispersion


 Comment calculer l’écart type d’une série statistique à une variable

 Comment calculer l’écart interquartile d’une série statistique à une variable. .

1.1. REPRESENTER UNE SERIE STATISTIQUE A UNE VARIABLE

1.1.1. Représenter une série statistique à une variable

Une série statistique à une variable est en général constituée d’un grand nombre de valeurs,
donc d’un grand nombre d’informations, difficiles à appréhender d’un seul coup. Un des
premiers buts de la statistique descriptive est de représenter cet ensemble de valeurs sous
une forme plus synthétique de façon à rendre plus accessibles les informations que l’on
souhaite tirer de cette série de données. Pour cela, on utilise des tableaux numériques et/ou
des graphiques. Il faut bien noter que le type de tableau et de graphique utilisé dépend du
type de données à représenter et que certaines informations peuvent alors être
définitivement perdues.

1.1.2. Notions, notations et résultats

1.1.2.1. Définitions

• Population : ensemble de référence, c’est-à-dire ensemble des unités observées. La


définition de la population est importante, car elle conditionne l’homogénéité des unités
observées et la fiabilité des résultats.

• Échantillon: sous-ensemble d’une population.


vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


• Individu ou unité statistique: tout élément de la population.

• Effectif total: nombre d’individus observés, noté n quand il est fini.

• Caractère: particularité de l’individu auquel on s’intéresse.

Un caractère est qualitatif s’il est lié à une observation ne faisant pas l’objet d’une mesure; il
est: ordinal si les observations peuvent être ordonnées ; nominal sinon.
Un caractère est quantitatif s’il est mesurable ; il est : discret si les valeurs observées sont
isolées ; continu s’il peut prendre toute valeur d’un intervalle réel (on traite comme continu
tout caractère discret dont on a regroupé les valeurs dans des classes).

On constitue et on étudie une série statistique à une variable (ou à une dimension)
lorsqu’on s’intéresse aux valeurs d’un seul caractère sur une population donnée.

1.1.2.2. Représentations

La collecte des données conduit à établir un tableau à deux colonnes dit tableau des données
ponctuelles. Dans la première colonne figurent tous les individus observés; dans la seconde,
sont indiquées les valeurs correspondantes du caractère observé.

Ce tableau, souvent important et lourd à gérer, est pratiquement toujours remplacé par le
tableau de distribution des observations. Dans la première colonne se trouvent les valeurs
distinctes du caractère ; dans la seconde, pour chacune de ces valeurs, se trouve la liste des
individus pour lesquels le caractère prend cette valeur. En général moins long que le tableau
de données ponctuelles, ce tableau permet de mieux appréhender l’ensemble des valeurs
observées tout en conservant la même information.

Cependant, même réorganisées en tableau de distribution, les données initiales restent


lourdes à traiter. On cherche alors à les représenter en les résumant soit sous forme de
tableaux de distribution d’effectifs (et/ou de fréquences), soit sous forme de graphiques.

Représentations associées à un caractère qualitatif.

Tableau de distribution d’effectifs et/ou de fréquences.


Modalité Effectif Fréquence
M1 n1
f1
. .
.
. .
.
. .
.
Mi ni
fi
. .
.
. .
.
. .
.
Mr nr vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


fr
Les modalités sont les différentes rubriques associées au caractère qualitatif. En général
elles sont listées en ordre quelconque : pour certaines applications (fiabilité. diagramme de
Pareto), on les ordonne selon leur effectif.

L’effectif n est le nombre de fois où la modalité numéro i a été observée. La fréquence est

le quotient de l’effectif par l’effectif total n.

Représentations graphiques
Les caractères qualitatifs peuvent être représentés par des diagrammes à bandes des
diagrammes à secteurs, des bandes subdivisées de longueur fixe, ou des diagrammes
figuratifs.
Représentations associées à un caractère quantitatif discret
- Tableau de distribution d’effectifs et/ou de fréquences
Les valeurs observées sont en général rangées en ordre croissant. Les fréquences cumulées
croissantes cumulent les fréquences associées aux valeurs du caractère inférieures (ou

égales) à . Ainsi :

Modalité Effectif Fréquence Fréquences cumulées


croissantes
f1 F1
x1 n1 . .
. . . .
. . . .
. . fi Fi
xi ni . .
. . . .
. . . .
. . Fr
xr nr fr

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


1.1.2.3. Techniques

(i) Comment construire le diagramme en bâtons d’une série statistique quantitative


discrète ?

1.2 DÉTERMINER ET INTERPRÉTER DES CARACTÉRISTIQUES


DE POSITION

1.2.1. Introduction

Dans le cas des caractères quantitatifs, on cherche souvent à résumer l’ensemble des valeurs
observées par une ou deux valeurs seulement, selon les buts poursuivis par l’analyse
statistique.

1.2.2. Notions, notations et résultats

1.2.2.1. Moyenne arithmétique

Définitions

On dispose d’un tableau de données ponctuelles (i; x i) où i est le numéro et xi la valeur de la


i-ième observation. La moyenne arithmétique de la série statistique est donnée par la
formule:

On dispose d’un tableau d’effectifs (ou de fréquences) (i; xi ; ni ou fi,) où j est le numéro, x
la valeur et n1 l’effectif (J la fréquence) de la i-ième donnée. La moyenne arithmétique de la
série statistique est donnée par la formule :

= =

où p est le nombre de valeurs distinctes et n l’effectif total de la série.

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Dans le cas continu ou du regroupement en classes, on remplace les valeurs par les

centres des classes ; dans ce cas la valeur obtenue n’est, en général, qu’une valeur

approchée de la moyenne de la série initiale.

Remarque : La moyenne arithmétique s’exprime dans la même unité que les valeurs

observées mais elle n’a aucune raison d’être égale à l’une d’entre elles, même d’être une

valeur observable.

Elle n’est pas robuste, c’est-à-dire qu’elle est sensible aux variations des valeurs extrêmes:

par exemple, une modification de la valeur minimum 1CC maximum) entraîne une

modification (parfois importante) de la moyenne. La validité d’une valeur moyenne repose


donc sur l’hypothèse de non existence de valeurs observées anormalement petites ou
grandes (valeurs dites aberrantes).

Propriétés :

• P1: on considère le tableau de données ponctuelles (i; ) avec 1≤ i ≤ n. On note le

minimum et , le maximum de cette suite.

On a toujours ≤ ≤ . Ce qui fournit un élément de contrôle élémentaire du calcul

d’une moyenne arithmétique.

• P2 : la somme des écarts à la moyenne est égale à 0.

En effet: = =0

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


• P3 : on dispose de deux séries statistiques d’un même caractère quantitatif. La première,

d’effectif total , a pour moyenne mi ; la seconde, d’effectif total , a pour moyenne .

Soit m la moyenne arithmétique de la série statistique, d’effectif total = + obtenue en

fusionnant ces deux séries statistiques. Alors :

Cette formule, facile à démontrer, montre que, contrairement à ce que pensent certains, la
moyenne de la série obtenue en fusionnant deux séries statistiques n’est pas, en général,

égale à la moyenne de leurs moyennes arithmétiques. Cela n’est vrai que lorsque

dans le cas contraire, il s’agit donc de la moyenne des moyennes pondérées par les

coefficients .

On peut étendre la formule au cas de p échantillons de valeurs d’un même caractère, chacun
de taille n et de moyenne m. La moyenne m de la série statistique, de taille n, obtenue en
fusionnant toutes les valeurs des p échantillons, est donnée par (formule MP).

• P4 : soient (xi)1 ≤ i ≤ n une série statistique, a et b deux réels. On considère la série statistique

(yi)1 ≤ i ≤ n définie par: Alors :

= +

Cette propriété est un cas particulier de la suivante:

Soient (xi)1 ≤ i ≤ n et (yi)1 ≤ i ≤ n deux séries statistiques de même nature. On considère la série

statistique (z)<< définie par : . Alors

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


= +

1.2.2.2. Quantiles

Définitions

On note F et G les fonctions « fréquences cumulées croissantes » et « fréquences cumulées


décroissantes ». Pour tout réel x, F(x) est la proportion, parmi les valeurs du caractère
observées, des valeurs inférieures ou égales à x et G(x) la proportion des valeurs supérieures
ou égales à x.

• Soit α un réel compris entre 0 et 1 (ou 0% et 100%). Un quantile d’ordre α est tout réel
satisfaisant simultanément :

(IQ) F(x) ≥ α et G(x) ≥ 1 – α.


Dans le cas où l’ensemble des solutions de (IQ) forme un intervalle borné non vide. Une
pratique courante désigne le centre de cet intervalle comme unique quantile d’ordre α.

La médiane, notée Me, est le quantile d’ordre 50%. Elle partage la série en deux séries de
même taille.

• Les trois quartiles partagent la série en quatre séries de même taille :

25 % des observations sont inférieures au 1er et quartile Q25

50 % des observations sont inférieures au 2ème quartile Q50 = Me ;

75 % des observations sont inférieures au 3ème quartile Q75

Ces trois quartiles, ainsi que les valeurs extrêmes de la série, peuvent être représentés
graphiquement à l’aide de boîtes à moustaches.

Les boîtes à moustaches (ou à dispersion, Box plots en anglais) sont des représentations

graphiques d’un caractère quantitatif résumé par ses valeurs extrêmes ( et ) et

ses quartiles (Q25, Me, Q75). Sur une échelle horizontale (ou verticale),

(1) on trace un rectangle qui s’étend du premier au dernier quartile;

(2) on partage ce rectangle par un segment tracé au niveau de la médiane;

(3) on ajoute les «moustaches », c’est-à-dire des segments s’étendant de la valeur minimale
au premier quartile et du dernier quartile à la valeur maximale.
vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Ces représentations permettent de comparer facilement différentes séries statistiques selon
cinq paramètres de position (valeurs extrêmes et quartiles) et d’illustrer leur dispersion en
mettant en évidence l’intervalle interquartile et l’étendue de chacune d’elles.

Figure 1.4 Boîte à moustaches (ou à dispersion).

De plus, on peut tenir compte de la taille des populations concernées en traçant les
rectangles d’une largeur proportionnelle à la racine carrée de celle-ci (voir TP 1.2, p. 25).

• Les 9 déciles et les 99 centiles partagent la série respectivement en 10 et 100 séries de


même taille.

c) Mode
On appelle mode(s) d’une distribution statistique non groupée la (les) valeur(s) observée(s)
d’effectif maximum. On le note généralement Mo.

Pour une distribution groupée, on appelle classe(s) modale(s) la (les) classe(s) de densité
maximum.

1.2.3 Techniques
a) Comment calculer la moyenne d’une série statistique à une variable?

i. Si on dispose d’un tableau de données ponctuelles,

(1) totaliser toutes les valeurs observées,

(2) diviser le total par le nombre de valeurs observées (effectif total de la série).

ii. Si on dispose d’un tableau d’effectifs,

(1)Multiplier chaque valeur par son effectif,

(2) totaliser tous ces produits, soit S cette somme,

(3) totaliser tous les effectifs ce qui donne l’effectif total n de la série,

(4) diviser la somme S par l’effectif n.

iii. Si on dispose d’un tableau de fréquences,

(1) multiplier chaque valeur par sa fréquence,

(2) totaliser tous ces produits.


vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


iv. Si on dispose d’un tableau d’effectifs (ou de fréquences) de classes,

(1) déterminer d’abord les centres des classes,

(2) se ramener au cas ii. ou iii. en remplaçant valeurs par centres des classes.

v. Si on sait que la série est obtenue par agrégation de plusieurs séries statistiques d’effectif
et moyenne connus,

appliquer la formule MP énoncée.

1.3. DÉTERMINER ET INTERPRÉTER DES CARACTÉRISTIQUES


DE DISPERSION

1.3.1 Introduction
Résumer une série statistique par une caractéristique de position est en général trop
restrictif. Ainsi, deux étudiants ayant obtenu respectivement 9, 10, 11 et 2, 10, 18 aux
contrôles de mathématiques ont même note moyenne (ou médiane). Mais, si on peut juger
que le premier a des « résultats moyens », cela est moins net pour le second

Les caractéristiques de dispersion permettent de compléter et nuancer l’opinion issue de la


considération des caractéristiques de position en renseignant sur la dispersion des valeurs
observées autour de ces valeurs de position.

1.3.2. Notions, notations et résultats

1.3.2.1. Écart-type

L’écart-type d’un caractère statistique est notée σ et défini par σ = où V est

la variance du caractère. Pour un tableau de distribution d’effectifs, on a:

Théorème 1.1

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Démonstration

= -2 +

En remarquant que : = on obtient la formule (FV2).

Pour un tableau de données ponctuelles, il suffit de remplacer, dans les formules ci-dessus,

tous les par 1. Pour un tableau d’effectifs de classes, on remplace les par les centres

des classes.

L’écart-type s’exprime dans la même unité que les valeurs observées et mesure la dispersion

autour de la moyenne . Plus l’écart type est grand, plus la dispersion des observations

autour de est importante.

1.3.2.2. Écarts interquantiles

L’écart interquartile est le nombre Q75 – Q25. L’écart interdécile est le nombre Q90 – Q10..
L’écart intercentile est le nombre Q99 – Q1.

Ces écarts permettent de mesurer la dispersion du caractère autour de sa médiane.

1.3.2.3. Écarts absolus moyens (e.a.m.)

L’e.a.m. par rapport à la moyenne est la moyenne des écarts absolus à la moyenne:

L’e.a.m. par rapport à la médiane est la moyenne des écarts absolus à la médiane:

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


=

1.3.2.4. Étendue

L’étendue est la différence entre la valeur maximum observée et la valeur minimum


observée. On note:

1.3.3. Techniques

1.3.3.1. Comment calculer l’écart-type d’une série statistique à une variable ?

(1) Calculer d’abord la moyenne arithmétique de la série (voir techniques p. 12).

(2) Calculer la variance de la série. Pour calculer la variance, on utilise en général la


formule (FV2) page 17. On calcule donc d’abord, puis on retranche le carré de la moyenne
au résultat.

(3) Calculer (une valeur approchée de) la racine carrée de la variance.

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


CHAPITRE II : SERIES STATISTQIUES A DEUX
DIMESNIONS
Types de tâches et techniques étudiées

Représenter une série statistique à deux variables

 Comment représenter graphiquement une série statistique à 2 variables?

Calculer et interpréter le coefficient de corrélation linéaire

 Comment calculer un coefficient de corrélation linéaire ?

Déterminer un ajustement affine par la méthode des moindres carrés

 Comment déterminer une droite de régression?

Calculer et interpréter les résidus standardisés d’un ajustement affine

 Comment calculer les résidus standardisés?

2.1. REPRÉSENTER UNE SÉRIE STATISTIQUE À DEUX


VARIABLES

2.1.1. Introduction

Sur une même population d’effectif n, on peut être amené à étudier m caractères différents.
Les n x m valeurs prises par ces caractères pour chaque individu de la population définissent
une statistique multi variée à m dimensions.

Cette section précise comment représenter une telle statistique dans le cas m = 2 de façon à
appréhender au mieux les données. Le but général est de mettre en évidence:

• soit des ressemblances entre individus au regard des 2 caractères étudiés,

• soit une liaison fonctionnelle entre les 2 caractères.

Dans la section suivante, on s’intéressera plus particulièrement à cette seconde


problématique.

2.1.2. Notions, notations et résultats

2.1.2.1. Définition

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Soient deux caractères X et Y définis sur une même population (ou un même échantillon)
d’effectif total n. Les couples (xi, yi)1 ≤ i ≤ n constituent une série statistique à deux variables ou
deux dimensions.

• Si X est qualitatif, x représente la modalité n°i de ce caractère.

• Si X est quantitatif, x représente la e1e valeur de ce caractère ou le centre de la ième


classe. De même pour Y.

2.1.2.2. Représentations en tableau

Tableau de données ponctuelles

Il s’agit d’un tableau à trois colonnes (ou trois lignes) du type:


Observation n° Valeur de X Valeur de Y
1 x1 y1
. . .
. . .
. . .
i xi yi
. . .
. . .
. . .
n Xn Yn
Tableau de contingence (à double entrée)

Lorsqu’un certain nombre d’observations sont identiques, il peut être judicieux de présenter
les données dans un tableau à double entrée. On reporte les p valeurs distinctes de X en
lignes et les q valeurs distincte de Y en colonnes. À l’intersection de la ième ligne et de la ième

colonne, on report à l’observation conjointe de X = et Y =

Valeurs de Y … …
Valeur X

. . . . . .
. . . . . .
. . . . . .

. . . . . .
. . . . . .
. . . . . .
vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


De ce tableau, on peut déduire les distributions statistiques de X seul et Y seul (distributions
marginales).

En notant = +… = , la distribution de X est donnée par la

suite (xi, yi)1 ≤ i ≤ p. En notant = +… = , la distribution de Y est

donnée par la suite (xi, yi)1 ≤ i ≤ p. ;

On a:. = = = n.

2.1.2.3. Stéréogramme

Soit (X, Y) une série statistique à deux variables quelconques connue par son tableau de
contingence (xi ; yi ; nij)1 ≤ i ≤ p, 1 ≤ j≤ p,

On appelle stéréogramme toute représentation graphique (en 3 dimensions) constituée d’un


ensemble de bâtons ou de parallélépipèdes rectangles dont les hauteurs sont proportionnelles
aux effectifs ou aux fréquences ou, éventuellement, aux densités des classes.

La figure ci-dessous, obtenue à l’aide du logiciel Excel©, reproduit un stéréogramme du


couple statistique défini par le tableau de contingence de l’exercice 2.1.

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


figure 2.1. Stéréogramme

Lorsque les deux caractères étudiés sont quantitatifs, on peut simplifier cette représentation
graphique en deux dimensions en traçant un nuage de points.

2.1.2.4. Nuage de points

Soit (X, Y) une série statistique à deux caractères quantitatifs.

L’ensemble des points , de coordonnées (xi ; yi )1 ≤ i ≤ n dans le plan rapporté à un repère

(O ; ), constitue le nuage de points représentant la série statistique double (X,Y).

Les individus qui se ressemblent sont représentés par des points confondus ou proches les
uns des autres. La liaison éventuelle entre X et Y est suggérée par la forme du nuage de
points. Par exemple, des points quasiment alignés indiquent une liaison affine entre les
caractères...

Lorsque des points se superposent, on ajoute entre parenthèses leur effectif sur la

représentation graphique du nuage.

La figure ci-dessous donne une représentation graphique du nuage de points défini par le
tableau de contingence de l’exercice 2.1.

Figure 2.2. Nuage de points pondérés.

2.1.2.5. Interprétation géométrique dans représentation vectorielle

Soit (X, Y) une série statistique à deux variables quantitatives. vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Une autre façon de représenter les données (xi ; yi )1 ≤ i ≤ n consiste à considérer les points Mx

de coordonnées (xi) et My de coordonnées (yi ) dans un espace affine associé à ou, de

manière équivalente, considérer les vecteurs de coordonnées (xi) et My de coordonnées

(y) dans l’espace vectoriel .

Pour comparer ces vecteurs et essayer d’établir d’éventuelles relations entre eux, on est
amené à utiliser la distance dite euclidienne, ce qui revient à privilégier les notions de
moyenne arithmétique et d’écart type comme on l’a vu au TP 1.1 p. 22.

En notant le vecteur dont toutes les coordonnées sont égales à 1, on introduit les vecteurs

dont toutes les coordonnées sont égales à la moyenne de la série X et dont toutes

les coordonnées sont égales à la moyenne de la série Y, et on définit les vecteurs

= - et = -

On rappelle (propriété de la distance euclidienne) que et , sont orthogonaux à donc a

x et (voir figure 2.3).

Figure 2.3. Définition de Figure 2.4. Représentation de et

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Dans toute la suite, on suppose n > 0, O et 0, c est-a-dire X et Y non

constantes. On représente alors le couple (X, Y) en représentant les vecteurs et dans

un même plan (voir figure 2.4 ci-dessus).

est représenté par un vecteur dont le support [O A) est un segment horizontal, avec A

à droite de O et la longueur OA proportionnelle à

= =

où σ(X) est l’écart type de la série statistique X. De même , est représente par un vecteur

dont le support est un segment de longueur O B proportionnelle à

= =

où σ (Y) est l’écart type de la série statistique Y.

L’écart angulaire de et est implicitement défini par

Cos( , ) = Cos( , )= =

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Si on souhaite s’affranchir des effets d’échelles dus à des unités différentes, en vue d’une
comparaison plus universelle des couples de caractères statistiques quantitatifs, il est

judicieux de considérer les vecteurs normés = et =

(En effet, on rappelle que est un vecteur unitaire de même sens que Leurs

représentants et , colinéaires à et ont des supports de longueurs égales à

l’unité et déterminent le même écart angulaire que et , lequel s’obtient alors

directement à partir du produit scalaire , puisque cos = cos ( , ) = cos (

)= .

2.1.3. Techniques

Comment représenter graphiquement une série statistique à 2 variables?

• Si les caractères ne sont pas tous les deux quantitatifs, utiliser un logiciel permettant de
réaliser des stéréogrammes.

• Si les caractères sont quantitatifs, construire un nuage de points en portant les valeurs du
premier sur l’axe des abscisses et celle du second sur l’axe des ordonnées. Lorsque des
points sont superposés, indiquer leur nombre entre parenthèses. On peut aussi indiquer,
lorsque le dessin n’est pas trop chargé, sous forme d’étiquettes attachées à chacun des
points, le nom (ou un code correspondant) des individus observés représentés par ces points.

2.2. CALCULER ET INTERPRÉTER LE COEFFICIENT DE


CORRÉLATION LINÉAIRE

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


2.2.1. Introduction

Le point de vue géométrique précédent permet d’introduire une notion importante pour
l’étude des séries statistiques à deux dimensions: la corrélation linéaire. On s’intéresse alors

à la colinéarité éventuelle des vecteurs et .

2.2.2. Notions, notations et résultats

2.2.2.1. Coefficient de corrélation linéaire

S’il existe une liaison fonctionnelle affine entre Y et X du type Y = aX + b (a E ℝ*, b ℝ),

alors (propriété P4 de la moyenne, p.10). Il en résulte que - = a

soit =a , ce qui signifie que les vecteurs

et sont colinéaires. On dit alors que les caractères X et Y sont parfaitement corrélés.

Réciproquement, si les vecteurs et et sont colinéaires (non nuls), il existe un réel a

(non nul) tel que, par exemple, =a soit - =a .

Ce qui signifie que, pour tout entier i entre 1 et n, on a: = a soit

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Dans ce cas le cosinus des vecteurs et et vaut 1 ou -1 suivant que et sont ou

non de même sens. Autrement dit, il existe une liaison fonctionnelle affine entre Y et X du

type Y = aX + b avec b =

A contrario, si les vecteurs et sont orthogonaux (cosinus nul), on dit que les caractères

X et Y sont non corrélés. Dans ce cas on a:

. =0 - ). - )

=0

Entre ces deux situations extrêmes, l’écart angulaire des vecteurs V et V (ou plus
précisément son cosinus) fournit une mesure du degré de corrélation linéaire entre les deux
caractères étudiés.

Définitions

On appelle coefficient de correlation linéaire de X et Y, le réel defini par :

En partageant arbitrairement le plan ou sont représentés les vecteurs et en secteurs

de 30°, on obtient 5 zones permettant de définir graphiquement une «bonne », «médiocre »,


«mauvaise» corrélation linéaire entre X et Y (voir figure 2.7).

Sachant que cos 30° = 0,866 et cos 60°= , ce critère graphique se traduit

numériquement par:
vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


• Si , il existe une bonne correlation linéaire entre X et Y.

• Si , la corrélation linéaire entre X et Y est médiocre.

• Si , la corrélation linéaire entre X et Y est mauvaise.

Figure 2.7. Types de corrélation

2.2.2.2. Covariance

Définition

En généralisant la notion de variance définie pour une série statistique à une dimension, on
introduit la notion de covariance d'un couple statistique (X, Y) :

ou

Théorème 2.1

(J) X et Y non corrélés Cov(X,Y) = O.

(2) Cov(X,Y) = Cov(Y,X).

(3) Cov(X,X) = Var(X).


vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


(4) Cov(X,Y) = ou n.Cov(X,Y) = 0

(5) 𝜌 = Cos ( )=

Démonstration.

(1) D’après le paragraphe précédent:

X et Y non corrélés ⇔ ou n.Cov(X,Y) = 0.

D’où, puisque n > 0, X et Y non corrélés ⇔ Cov(X,Y) = 0..

(2) Immédiat grâce à la commutativité de la multiplication des réels.

(3) Immédiat en remplaçant par .

(4) On développe les produits dans la définition de la covariance, on reconnaît les formules

donnant les moyennes de X et Y et on utilise les propriétés du signe .

On notera, entre autres, l’utilisation de la propriété : lorsque a est un réel

indépendant de l’indice de sommation i.

Cov(X,Y) =

=
vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


=

(5) =

Le signe de la corrélation est celui de la covariance : la corrélation est positive si Cov(X,Y)


> 0 ⇔ 𝜌 > 0 (les caractères varient dans le même sens, B est dans le quadrant I), la

corrélation est négative si Cov(X,Y) < 0 𝜌 < 0 (les caractères varient en sens opposés, B

est dans le quadrant II).

Remarque. Il ne faut pas confondre corrélation et causalité. L’existence (ou l’absence)


théorique d’une liaison affine entre 2 caractères ne signifie pas qu’il existe (ou qu’il n’existe
pas) de relation de cause à effet entre eux.

2.2.3. Techniques

Comment calculer un coefficient de corrélation linéaire?

La plupart des calculatrices et logiciels possédant des fonctions statistiques permettent de


calculer directement le coefficient de corrélation linéaire de (X, Y).

« À la main» les calculs intermédiaires peuvent être organisés de la façon suivante:

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


(1) Calculer , σ(X), σ(Y), voir chapitre 1.

(2) Calculer Cov(X, Y) à laide de la formule énoncée dans la propriété 4 ci-dessus. Cov (X,
Y)

(3) Calculer

2.3. DÉTERMINER UN AJUSTEMENT AFFINE

2.3.1. Introduction

Lorsque les deux caractères X et Y sont quantitatifs, il arrive fréquemment que l’on souhaite
établir une relation fonctionnelle entre eux.

Quand on cherche à « expliquer» Y par X (c’est-à-dire à prévoir les valeurs de Y à partir de


celles de X supposées connues), on effectue une régression de Y en X; on cherche alors à

déterminer une fonction f de la variable X dont la représentation graphique soit «la plus

proche » possible du nuage .

Le plus souvent cette proximité s’entend au sens des moindres carrés et la fonction f est de
type affine.

On peut bien entendu chercher aussi à « expliquer» X par Y (c’est-à-dire à prévoir les
valeurs de X à partir de celles de Y supposées connues), en effectuant une régression de X
en Y. On prendra garde que l’une ou l’autre de ces régressions peut ne présenter aucun
intérêt, voire être dénuée de sens, selon le contexte étudié.

2.3.2. Notions, notations et résultats

2.3.2.1. Méthode des moindres carrés

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Pour tout entier naturel i non nul, ne dépassant pas n, on pose : Ces réels

sont les écarts verticaux (parallèles à l’axe des y) entre les points de et ceux de . Ils

mesurent les erreurs que l’on commet en remplaçant les valeurs observées y par les valeurs

du modèle théorique retenu = .

La méthode des moindres carrés (appliquée aux écarts verticaux) consiste à déterminer la

fonction f qui rend minimum la quantité : (donc qui rend minimum la variance

des écarts verticaux).

2.3.2.2. Ajustement affine par la méthode des moindres carrés

Dans le cas où le nuage présente une forme allongée et linéaire, on choisit affine :

est la représentation graphique d’une droite dite droite de régression

de Y en X.

Remarque. On peut être ramené à ce cas après une transformation des données ; par
exemple, en posant u = ln x et/ou v = ln y.

La méthode des moindres carrés fournit une équation du type de la droite la

plus proche de au sens de la minimisation de Δ. Ls réels a et b sont les coefficients de la

régression de Y en X.

De la même façon, en minimisant la somme des carrés des écarts horizontaux, la méthode
des moindres carrés fournit une équation de la droite de régression de X en Y du type

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


ou Les réels a’ et b’ sont les coefficients de la régression de

X en Y.

Ces ajustements sont justifiés si la valeur absolue du coefficient de corrélation linéaire est

proche de 1. En pratique

Théorème 2.2 (calcul des coefficients de régression). Soit (X, Y) un couple de variables
statistiques quantitatives à variances non nulles.

Alors les coefficients de régression affine sont donnés par les formules suivantes:

a=

a’ =

où et V(X) et V(Y) sont les moyennes et variances respectives des caractères X et Y, et

Cov(X,Y) la covariance du couple (X,Y).

Démonstration. On utilise la représentation vectorielle dans W décrite plus haut avec

et . On note

le vecteur de de coordonnées = )= + b),

= le vecteur de coordonnées - )

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


= - celui de coordonnées ( = - )

= - celui de coordonnées ( -= - - - )

La méthode des moindres canés (appliquée aux écarts verticaux) consistent à déterminer les

réels a et b de façon que soit minimale.

Il est clair que = + . Or les vecteurs et étant orthogonaux a ,

il en est de même pour . Puisque , il s’ensuit (théorème de Pythagore):

= ²

Cette somme de deux canés indépendants est minimale lorsque chacun de ses termes est
minimal.

i. Pour n > 0, le terme ², est minimal lorsque = 0, c’est-à-dire = ): le caractère Y

et son modèle affine ont alors même moyenne. Or, de la propriété P4 (voir p). On déduit

= d’où: =

ii. Par ailleurs, = +b–( ) = + ), d’où =

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Les vecteurs et , sont donc colinéaires.

En notant = , = , = , il en résulte que les points O, H,A sont alignés (voir

figure 2.8).

Figure 2.8. Position du point H.

Comme = , on voit que est minimale si, et seulement si, H (OA) et la

distance HB est minimum, c’est-à-dire si, et seulement si, H est la projection orthogonale de

sur (OA).

Les vecteurs et sont alors orthogonaux.

On a la suite d’équivalences suivante :

=0

. =0

= 0

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


. =a

D’où, puisque V(X) O et n O:a=

Pour la régression de X en Y, on raisonnerait de même en projetant A sur (0 B)

Remarque: La droite de régression de Y en X, d’équation y = ax + b. et la droite de

régression de X en Y, d’équation , passent par G, point moyen du nuage ,

de coordonnées .

Théorème 2.3 (décomposition de la variance).

Soit (X, Y) un couple de variables statistiques quantitatives. On note:

V(Y) la variance de Y, V( ) la variance de la série statistique obtenue par régression affine

de Y en X (Y = aX + b), V(E) la variance de la série statistique des écarts verticaux (E = Y -

).

On a alors la formule de décomposition suivante:

V(Y) = V( ) + V(E)

Variance totale en Y = Variance « expliquée » + Variance résiduelle

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Démonstration, La démonstration du théorème précédent a établi que les vecteurs

sont orthogonaux ou encore que le triangle OHB est rectangle en H (voir figure 2.8). Le
théorème de Pythagore assure que: 0B² = OH² + HB² soit:

c’est-à-dire n V(Y) = n V(Y) + n V(E), d’où la formule

annoncée.

En utilisant la formule de décomposition de la variance, on peut mesurer la part de la


variance « expliquée » par la régression de Y en X par rapport à la variance totale. Plus cette
part est grande, plus la variance résiduelle est petite (plus l’erreur est faible), plus
l’ajustement affine est justifié.

On appelle coefficient de détermination le réel positif D défini par :

On a donc :

= = =

Dou: D = ².

On a toujours : O D = p² 1 et on peut reformuler les critères de corrélation linéaire de la

façon suivante : si D , il existe une forte corrélation linéaire entre Y et X et l’ajustement

affine est justifié; si D = O , X et Y ne Sont pas corrélés.

2.3.3. Techniques

Comment déterminer une droite de régression ?

Régression de Yen X vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


La plupart des calculatrices et logiciels possédant des fonctions statistiques permettent de
calculer directement les coefficients de régression a et b.

« A la main» les calculs intermédiaires peuvent être organisés de la façon suivante:

(1) Calculer, et V(X) (voir chapitre 1).

(2) Calculer Cov(X,Y).

(3) Calculer a = et b = . La droite de régression de Y en X est alors

définie par l’équation y = ax + b.

Attention ! De nombreuses calculatrices notent la droite de régression y = a + bx. Dans ce


cas, il faut échanger le rôle de a et b par rapport à ce cours. Régression de X en Y

Pour obtenir aussi la droite de régression de X en Y, il suffit de calculer V (Y), Cov(X,Y)

puis a’ = et b’ =

La droite de régression de X en Y est alors définie par l’équation y = x

2.4. CALCULER ET INTERPRÉTER LES RÉSIDUS STANDARDISÉS

2.4.1. Introduction

Pour utiliser la fonction affine définissant la droite de régression de Y cri X afin d’interpoler
ou d’extrapoler des valeurs de Y en fonction de nouvelles valeurs de X, il est recommandé
de s’assurer que le coefficient de détermination de (X. Y) est «bon» (c’est-à-dire supérieur à
0,75). Mais cela n’est pas toujours suffisant. Outre un contrôle graphique, il est bon de
s’assurer également que les erreurs commises en utilisant le modèle affine pour les valeurs
de X connues sont suffisamment faibles et paraissent aléatoires.

2.4.2. Notions, notations, résultats

On appelle résidus standardisés les écarts réel-modèle, divisés par une estimation non

biaisée de leur écart-type. Pour tout entier naturel , on écrit:

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


=

Où s se déduit de :

s² = ²

On démontre (sous certaines hypothèses concernant X et Y) que la variable aléatoire


modélisant les résidus standardisés suit une loi de Student centrée réduite à n 2 degrés de
liberté, ce qui signifie que les résidus standardisés inférieurs à 2 (environ), en valeur
absolue, peuvent être considérés, au risque de 5 %, comme non significativement différents
de 0, ce qui est souhaitable.

Tout résidu standardisé jugé significativement différent de 0 met en évidence les faiblesses
du modèle de prévision, à moins que la valeur observée ne puisse être considérée comme
aberrante, ce dont on cherchera à s’assurer.

Si un grand nombre de résidus standardisés sont significativement différents de 0, il faut


remettre en question le modèle retenu jusque-là. II en est de même si la suite de ces résidus
ne semble pas aléatoire, ce que l’on peut observer sur le diagramme en bâtons les
représentant.

2.4.3. Technique

Comment calculer les résidus standardisés ?

Certains logiciels fournissent la valeur de s. « À la main », si on a déjà calculé V (Y) et 𝜌²


on peut utiliser la formule:

En effet, d’une part:

D’autre part, la formule de la décomposition de la variance conduit à V(Y) 𝜌² V(Y) + Vr

puisque 𝜌²

Donc Vr = (1 - 𝜌²) V(Y) d’où la formule pour s².

(1) Calculer les coefficients de la régression: a et b.


vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


(2) Calculer pour tout = +b

(3) Calculer : s = ou s =

(4) Calculer pour tout , =

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


CHAPITRE 3 : CALCUL DES PROBABILITES
Types de tâches et techniques étudiées

Dénombrer

Comment déterminer le nombre de cas dans des situations comportant plusieurs choix 7

Modéliser une situation aléatoire

Comment calculer des probabilités sous l’hypothèse d’équiprobabilité 7

Comment calculer des probabilités grâce au calcul ensembliste ‘

Calculer des probabilités conditionnelles

Comment vérifier que deux événements sont indépendants pour une probabilité?

Comment calculer la probabilité de la conjonction de deux événements

Comment calculer des probabilités conditionnelles

3.1. DÉNOMBRER

3.1.1. Introduction

De nombreuses situations de dénombrement peuvent se ramener à compter nombre de


façons de choisir un certain nombre p d’éléments, un à un, avec ou sans remise, dans un
ensemble de n éléments, en tenant compte ou non de l’ordre dans lequel les choix ont été
faits.

Cette section donne les réponses, sans démonstration, à ces questions de dénombrement que
ion retrouve ensuite dans certains calculs de probabilité.

3.1.2. Notions, notations et résultats

Soit n un entier, on note n! (factorielle n) le produit de tous les entiers non nuls inférieurs ou
égaux à n et par convention O! = 1.

Soit E un ensemble de n éléments

3.1.2.1. Arrangements

Arrangements sans répétition

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Soit p n un arrangement de p éléments choisis parmi n est une liste (ordonnée) de p

éléments distincts appartenant à E

Le nombre d’arrangements de n objets pris p à p est :

Permutations

Dans le cas particulier où p n, A dénombre les permutations de E, c’est-à-dire les bijections


de E sur lui-même. Le nombre de permutations de E est donc:

Arrangements avec répétitions

Un arrangement avec répétitions de p éléments choisis parmi n est une liste (ordonnée), avec
répétitions éventuelles des éléments.

Le nombre d’arrangements avec répétitions est:

3.1.2.2. Combinaisons

Combinaisons sans répétition

Soit p n ; une combinaison de 𝜌 éléments choisis parmi n est un sous-ensemble de E ayant

𝜌 éléments.

Le nombre de combinaisons de n éléments pris p à p est

Propriétés

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


= +

( = (formule du binôme)

Combinaisons avec répétitions

Une combinaison avec répétitions de 𝜌 éléments choisis parmi n est une liste non ordonnée,
avec répétitions éventuelles des éléments.

Le nombre de combinaisons avec répétitions est

= =

3.1.3. Techniques

3.1.3.1. Comment déterminer le nombre de cas dans des situations comportant plusieurs
choix?

Modèles usuels

Pour dénombrer, on essaie de se ramener à l’un des modèles suivants:

Tirages de p éléments parmi n


Tirages Ordonnés Non ordonnés
Sans remise

Avec remise

Rangements de p objets dans n cases


Objets Discernables Indiscernables
Un seul dans une case

Eventuellement plusieurs dans une case

Opérations : principes de dénombrement d’un ensemble

Principe additif
vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Pour dénombrer une réunion disjointe de sous-ensembles, ce qui revient à considérer un cas
ou bien un autre ou bien un autre, etc., on effectue la somme des cardinaux de chaque sous-
ensemble.

Principe multiplicatif

Pour dénombrer un produit cartésien d’ensembles, ce qui revient à faire un choix, puis (et)
un autre, puis un autre, etc., on effectue le produit des cardinaux de chaque ensemble.

3.2. MODÉLISER UNE SITUATION ALÉATOIRE

3.2.1. Introduction

Lorsqu’on jette un dé ordinaire en l’air, on est certain qu’il va retomber et s’immobiliser sur
l’une de ses faces, mais on est incapable de prévoir exactement laquelle. De nombreuses
situations semblent obéir à cette dualité: d’une part des aspects prévisibles, déterministes,
nécessaires ; d’autre part des aspects imprévisibles, aléatoires, contingents.

On décrit une situation aléatoire bien définie à l’aide du langage des événements qui permet
de préciser les objets d’étude. En modélisant les événements par des ensembles, on dispose,
grâce au langage des ensembles, d’un outil de calcul sur les événements.

La notion de probabilité, enfin, répond au besoin de définir une mesure sur les ensembles
(représentant des événements) permettant de quantifier la chance qu’ont les événements
d’être réalisés ou non.

Ce chapitre introduit les principales notions du calcul des probabilités dans le cadre des
ensembles finis. Elles seront étendues aux ensembles infinis d’événements dans le chapitre
suivant.

3.2.2. Notions, notations et résultats

3.2.2.1. La langage des événements et des ensembles

Définitions

Expérience aléatoire: mise en œuvre, dans des conditions bien définies (protocole) d’un
processus évolutif pour un système (matériel ou modèle) dont l’état final est observable
(expérience concrète) ou imaginable (expérience abstraite) mais imprévisible. Un tel état
final est appelé résultat de l’expérience aléatoire.

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Issue ou éventualité : catégorie de résultats d’une expérience aléatoire définie par les
caractéristiques particulières retenues pour l’étude du processus aléatoire en jeu dans
l’expérience.

Si on jette aléatoirement un dé à jouer (à six faces) sur une table plane, l’état final du dé
(après son immobilisation à plat sur la table) peut être caractérisé par le numéro porté par sa
face supérieure mais aussi par l’orientation de celle-ci. En général on ne s’intéresse qu’au
numéro et on n’envisage donc que six issues à cette expérience. Tout résultat correspondant
à un cinq sur la face supérieure, quelle que soit l’orientation de celle-ci, détermine l’issue

notée par exemple .

Si le résultat d’une expérience aléatoire détermine une issue i. on dit que i est réalisée.

Univers ou ensemble référentiel (ou fondamental) : ensemble de toutes les issues


caractérisant de manière exhaustive tous les résultats d’une épreuve aléatoire. On le note 𝛀 ;
il peut être fini ou infini (dénombrable si on peut indexer les issues par des entiers naturels
ou continu sinon).

Événement : ensemble d’issues. Un événement est représenté par un sous-ensemble de


l’univers 𝛀.

Si l’une des issues d’un événement E est réalisée, on dit que E est réalisé.

Événement élémentaire: événement qui n’est réalisé que par une seule issue de l’épreuve
aléatoire. Il est représenté par un singleton inclus dans 𝛀.

Opérations logiques

Soient E et F deux événements liés à une épreuve aléatoire représentés respectivement par
deux parties A et B de l’univers 𝛀;

L’événement contraire de E, qui se réalise si et seulement si E ne se réalise pas, est noté

et représenté par (complémentaire de A dans 𝛀);

L’événement « E ou F », qui se réalise si et seulement si l’un au moins des deux événements

se réalise, est représenté par A B (réunion)


vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


L’événement « E et F» (conjonction de E et F), qui se réalise si et seulement si E et F se

réalisent conjointement, est représenté par (intersection);

La relation (inclusion) signifie que la réalisation de l’événement E entraîne la

réalisation de F;

𝛀 est l’événement certain car il se réalise toujours

Ø (l’ensemble vide) est l’événement impossible car il ne se réalise jamais

E et F sont incompatibles si et seulement si

Dans la suite, on confondra souvent l’événement E et l’ensemble A qui le représente.

3.2.2.2. Probabilité sur un ensemble fini

Définition

Soit 𝛀 un univers fini associé à une épreuve aléatoire l’ensemble des parties de 𝛀, noté
P(𝛀), représente l’ensemble de tous les événements.

Une probabilité sur 𝛀 est une application P de P(𝛀) dans [0; 1] telle que:

i. P(𝛀) 1

ii. pour tous événements A et B

si alors P (A B) = P (A) + P ( B)

P(A) est la probabilité de l’événement A.

Conséquences

Donc P(Ø) = 0

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Remarque. Soit 𝛀 où w est une issue et n un entier naturel non nul.

Pour définir une probabilité sur Q, il suffit de se donner n nombres

= P ({ }) (probabilités des événements élémentaires) tels que:

et =1

On a alors, pour tout événement A = où J ⊆

3.2.3. Techniques

3.2.3.1. Comment calculer des probabilités sous l’hypothèse d’équiprobabilité ?

Définition

On dit que P est l’équiprobabilité définie sur 𝛀 si P est la probabilité sur Q qui associe à tout
événement élémentaire la même valeur.

Théorème 3.1. Si P est l’équiprobabilité définie sur 𝛀 = { }, on a:

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


(2) Pour tout événement A,.

Technique

Soit P l’équiprobabilité définie sur 𝛀 univers fini à n éléments. Pour calculer P(A) lorsque

(1) Dénombrer les issues w qui appartiennent à A, soit k N le résultat.

(2) Calculer

3.2.3.2. Comment calculer des probabilités grâce au calcul ensemblistes ?

Dans de nombreuses situations, on connaît les probabilités de certains événements et on


cherche à calculer celles d’événements pouvant s’exprimer (dans le langage des
événements) en fonction des premiers.

La traduction de ces relations entre événements conduit à des expressions ensemblistes


(contenant des ensembles et des opérations d’union, d’intersection et de complémentarité
sur ces ensembles) qui peuvent être simplifiées ou transformées grâce aux propriétés des
opérations usuelles sur les ensembles dont les plus utiles sont rappelées ci-dessous.

Propriétés des opérations sur les ensembles

A Ø=Ø A Ø =A

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


A 𝛀=Ø A Ø =A

A A= Ø A A =A

A B=B A A B=B A

= = (lois de De Morgan)

A B C) = (A B C) A B C) = (A B C)

A B C) = (A B C) A B C) = (A B C)

) =Ø ) =𝛀

si B C A alors A B = B si B C A alors A B = A

Technique

Soit à calculer la probabilité d’un événement E.

(1) Exprimer E en fonction d’événements de probabilités connues dans le langage des


événements.

(2) Modéliser E par une expression ensembliste. Cette traduction se fait en remplaçant les

«et » par des « », les « ou » par des « » et les négations par des complémentaires.

(3) Simplifier ou transformer l’expression obtenue grâce au calcul ensembliste de façon à


pouvoir appliquer les formules du calcul des probabilités.

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Ces simplifications ou transformations peuvent être facilitées par le recours à des
diagrammes ensemblistes (diagrammes de Karnaugh² ou de Venn3).

3.3. CALCULER DES PROBABILITES CONDITIONNELLES

3.3.1. Introduction

Cette section donne la réponse à la question du calcul de la probabilité de la conjonction de


deux événements.

Pour cela elle introduit la définition d’une nouvelle probabilité (dite probabilité
conditionnelle) à partir d’une première probabilité définie sur l’univers.

3.3.2. Notions, notations et résultats

3.3.2.1. Probabilité conditionnelle

Théorème 3.2. et définition. Soit P une probabilité sur 𝛀 et A un événement de probabilité


non nulle.

L’application PA qui, à tout événement B E P(2), associe le nombre:

est une probabilité, appelée probabilité conditionnelle (relativement à la réalisation de A).

Pour tout événement B, PA(B) est aussi notée P(BA) et lue « probabilité de B, sachant que
A est réalisé» ou, en abrégé, «probabilité de B, sachant A ».

Propriété

A,B P(𝛀) tels que P(A) O et P(B) O, on a:

3.3.2.2. Événements indépendants pour une probabilité P

Définition

Deux événements A et B sont indépendants pour une probabilité P si:


vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Propriété

Si A et B sont indépendants pour P, alors :

i. P(B/A) = P(B) si P(A) O

P(A/B) = P(A) si P(B) O

La réalisation de B (resp. A) n’est pas conditionnée à celle de A (resp. B).

ii. P(A U B) = P(A) + P(B) - P(A) x P(B).

3.3.2.3. Théorème de Bayes

Les travaux de Bayes s’inscrivent dans les tentatives des mathématiciens pour déterminer la
probabilité des causes par les effets observés.

Dans le cas particulier traité ci-après, on suppose connue u priori la distribution des
probabilités de n événements AL, causes possibles d’un événement E et réalisant une
partition de l’univers Q, ainsi que les n probabilités de E conditionnées par chaque A5. La
formule de Bayes fournit alors la distribution a posteriori des probabilités de chaque A5
sachant que E est réalisé.

Théorème 3.3. Soient Q un univers fini et E, A1, A2, …, An, n + 1 événements tels que :

i. P(E) O et ) O

ii. (événements incompatibles)

iii. =𝛀

alors pour tout k

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


L’utilisation de ce théorème est facilitée par la réalisation d’un «arbre » de probabilités
semblable au diagramme ci-dessous

Démonstration. Puisque P(E) O, on a par définition

P( )

Puisque P( ) O on a P( ) = P( ) x P( )

Cette conversion est typique d’une situation bayésienne : on exprime la probabilité

conditionnelle inconnue P( ) en fonction des probabilités conditionnelles connues P(

).

Pour calculer P(E) on utilise une relation ensembliste : E est la réunion disjointe de tous les

ce qui s’écrit E

En effet, en appliquant la propriété de distributivité de l’union par rapport à l’intersection


d’ensembles, on obtient

E) = E) E) ... E)
vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


= ) E) ... E)

= ... E

= E puisque

La réunion est disjointe car : E) E) d’après ii.. On a

donc:

P(E)= P = = =

et la formule de Bayes en résulte.

3.3.3. Techniques

3.3.3.1. Comment vérifier que deux événements sont indépendants pour une probabilité ?

Soient A et B deux événements d’un même univers 𝛀 et P une probabilité définie sur 𝛀.

(1) Déterminer l’événement représenté par A n B et calculer ( ).

(2) Calculer P(A) x P(B).

Si ) = P(A) x P(B) les deux événements sont indépendants pour P.

Souvent on est dans l’incapacité de calculer directement ( ). On postule alors

l’indépendance (ou non) de A et B pour P à partir de ce qu’on sait de la situation aléatoire


étudiée (cas d’événements « physiquement» indépendants). Ainsi, lorsqu’on a toutes les
raisons de penser que la réalisation d’un événement noté A, lorsque l’événement noté B

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


s’est réalisé, ne dépend pas de la réalisation de B, on suppose que P(A/B) = P(A) donc que
A et B sont indépendants pour P.

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


CHAPITRE 4: VARIABLES ALEATOIRES
Types de tâches et techniques étudiées

Modéliser un caractère quantitatif dans une situation aléatoire à l’aide d’une variable
aléatoire discrète ou continue

Comment déterminer la loi de probabilité d’une variable aléatire

Comment déterminer la fonction de répartition d’une variable aléatoire ‘

Comment calculer l’espérance, l’écart type d’une variable aléaoire

Modéliser une situation aléatoire à l’aide d’une loi binomiale

Comment calculer une probabilité avec une loi binomiale

Comment vérifier qu’une variable aléatoire suit une loi binomiale

Modéliser une situation aléatoire à l’aide d’une loi de Poisson

Comment calculer une probabilité avec une loi de Poisson

Modéliser une situation aléatoire à l’aide d’une loi normale

Comment utiliser la table de la fonction de répartition de la loi normale centrée réduite

Comment calculer une probabilité avec une loi normale ?

Calculer les paramètres d’une somme ou d’une différence de deux variables aléatoires

Comment vérifier l’indépendance de deux variables aléatoires’

Comment calculer l’espérance et l’écart type d’une somme ou d’une différence de deux
variables aléatoires

4.1. MODÉLISER UN CARACTÈRE QUANTITATIF

4.1.1. Introduction

Considérons une population 𝛀 sur laquelle est défini un caractère quantitatif X.

X est une application de 𝛀 dans ℝ qui, à tout individu w, associe un réel x = X( ) E X(𝛀)

ensemble des valeurs du caractère.

Cette application modélise le caractère d’une façon déterministe en ce sens que, si on


connaît l’individu w, on connaît aussitôt la valeur x. Son étude relève de la statistique (voir vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


chapitre 1) qui conduit, par exemple, au tableau des couples ( ) où x est une valeur

observée et sa fréquence.

Supposons maintenant que l’on tire au hasard un individu w dans cette population 𝛀 pour
consigner la valeur x du caractère. Ne pouvant pas prévoir quel individu précis sera tiré, on
ne peut pas prévoir non plus la valeur x qui sera consignée. On aimerait donc, comme on l’a
fait au chapitre 3 pour les individus, disposer d’un moyen d’attribuer une probabilité aux
éléments de X(𝛀), valeurs prises par le caractère X.

L’idée est de transporter sur X(𝛀) la probabilité sur 𝛀 construite pour modéliser la situation
aléatoire correspondant au tirage aléatoire d’un individu.

De même qu’un caractère quantitatif peut être discret ou continu (voir chapitre I), on parlera
de variable aléatoire discrète ou continue. Mais cela oblige à considérer des univers infinis
dénombrables (comme N) ou non dénombrables (comme ℝ). On admettra qu’il est possible,
comme pour les univers finis, de définir une probabilité sur de tels ensembles 𝛀 en prenant
comme ensemble des événements 2(𝛀) pour les univers dénombrables et un ensemble
(appelé tribu) vérifiant les propriétés adéquates pour les univers non dénombrables.

On notera que le passage du fini ou dénombrable au non dénombrable se traduit par


l’extension de la notion d’algèbre de Boole à celle de tribu et par un changement d’outils
mathématiques de calcul : somme ou série (Z) dans le premier cas, intégrale (f) dans le
second. De plus, les sommes pouvant être infinies et les intégrales généralisées, il pourra
être utile de revoir les chapitres II et 8 d’Analyse.

4.1.2. Notions, notations et résultats

4.1.2.1. Algèbre de Boole, tribu

Définition 1

Soit љ une famille non vide de sous-ensembles de 𝛀. љ est une algèbre de Boole (ou

algèbre d’ensembles) si љ est stable pour les opérations de complémentarité et de réunion


finie:

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Théorème 4.1 (admis)

1. Si est une algèbre de Boole, alors

2. Si 𝛀 est fini ou dénombrable p(𝛀) est une algèbre de Boole.

Lorsque Q est infini, les opérations peuvent porter sur une infinité dénombrable
d’événements et il devient nécessaire d’étendre la notion d’algèbre de Boole.

Définition 2

Soit Ҝ une algèbre de Boole définie sur 𝛀 on dit que Ҝ est une tribu si, pour toute suite

infinie dénombrable A1, A2,…, An, ... d’éléments de Ҝ

Théorème 4.2 (admis)

1. Si est une tribu et A1, A2,…, An, ... une suite infinie dénombrable d’éléments de alors:

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


2. Si Q = R, il existe une tribu engendrée par les intervalles du type ]- ; a[ ou a] - ; a ] (a

R) dite tribu des boréliens ².

4.1.2.2. Probabilité sur un univers muni d’une tribu

Lorsque 𝛀 est infini et muni d’une tribu T de parties de Q représentant des événements,
toute union infinie dénombrable peut représenter aussi un événement. On étend alors la
notion de probabilité, définie sur les ensembles finis au chapitre 3, en ajoutant la condition
iii. suivante.

Définition

Une probabilité sur 𝛀 est une application P de Ґ dans [0; 1] telle que

i. P(𝛀) = 1

ii. (A,B) Ґ² = Ø ; P(A B) = P(A) + P(B)

iii. Pour toute suite d’éléments de Ґ disjoints deux à deux

Cette dernière condition, dite de σ-additivité, a des conséquences théoriques importantes


pour le calcul des probabilités, notamment le théorème suivant :

Théorème 4.3. Soit P une probabilité définie sur (𝛀, Ґ) elle vérifie les propriétés
équivalentes suivantes:

1. Pour toute suite décroissante d’éléments de Ґ (


vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


2. Pour toute suite croissante d’éléments de Ґ (

Démonstration. On vérifie tout d’abord que les deux propriétés sont bien équivalentes. Si on

pose on voit que est une suite décroissante si, et seulement si, est une

suite croissante. Puisque (loi de De Morgan), on a

1- et comme =1-

= 1- ; d’où résulte l’équivalence des propriétés.

On démontre ensuite la propriété 2. On considère la suite d’ensembles disjoints

définis par C1 = B1, et pour tout est le complémentaire de dans .

Pour tout , = donc P( )=

D’après la condition de σ-additivité, on a:

= = = =

4.1.2.3. Variable aléatoire

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Soient 𝛀 l’ensemble des événements élémentaires observables à l’issue d’une épreuve

aléatoire, et l’ensemble de tous les événements associés à cette épi-cuve ( est soit P(𝛀),

soit une tribu ).

On définit une variable aléatoire (à valeurs réelles), sur 𝛀, en associant à chaque résultat de
l’épreuve aléatoire un nombre réel (par exemple une mesure).

Plus précisément, une variable aléatoire X est une application :

telle que, pour tout , l’ensemble de tous les ayant x pour image par X est un

événement, c’est-à-dire : { 𝛀 et X( ) = x}

On note, en abrégé, cet événement : X = x. Il s’agit de l’image réciproque par X de la valeur

, notée aussi (x).

En fait, cette condition imposée à X est toujours vérifiée lorsque 𝛀 est fini ou dénombrable ;
il convient de la vérifier seulement lorsque 𝛀 est infini non dénombrable.

Conséquence

Pour toute partie A de l’ensemble des valeurs X(𝛀), l’ensemble de wus les avant une image
par X appartenant à A est un événement, c’est-à-dire :

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Si l’ensemble X(𝛀) des valeurs prises par X est fini ou dénombrable, on dit que X est une
variable aléatoire discrète. Si c’est une réunion d’intervalles de ℝ, X est une variable
aléatoire continue.

4.1.2.4. Loi de probabilité

Soit A une partie de X (Q). Comment définir la probabilité de A, c’est-à-dire la probabilité


que X prenne une valeur de A ? (voir figure 4.la)

Si ( ) est un espace probabilisé et X une variable aléatoire définie sur cet espace, on

Sait que, par définition, (A) est un événement de cet espace et p = p est bien

définie. (voir figure 4.1b).

On considère alors l’application P(. définie par (figure 4.1 e)

P(X(𝛀)) [0; 1]

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


On vérifie que est bien une probabilité sur X(𝛀) muni de l’algèbre de Boole P [X(𝛀)] si

X est discrète, ou de la tribu des boréliens si X est continue.

Cas des variables aléatoires discrètes

Lorsque X est discrète, toute partie A de X (Q) est un ensemble fini ou dénombrable de

valeurs (k K C N). Pour définir , il suffit donc de connaître ({ }) pour toute valeur

prise par X. On aura en effet:

La loi de probabilité d’une variable aléatoire discrète X est la donnée, pour chaque valeur

prise par X, de la probabilité de l’événement (X = ), notée pi. On l’énonce à l’aide d’un

tableau de valeurs ou par une formule permettant de calculer les ({ }) =

P (X = ) pour tout .

Si X(𝛀) est fini, et on a

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Si X(𝛀) est dénombrable, et on a

La fonction de répartition associée à la variable aléatoire X est la fonction définie par:

:ℝ [0; 1]

où représente l’événement réalisé par tout élément de 𝛀 dont la valeur par X est

inférieure ou égale à

Dans le cas où X(𝛀) est fini, en supposant les valeurs classées en ordre croissant,

quel que Soit le réel x,

• ou bien < et F(x) = O,

• ou bien il existe un entier i tel que ≤ et F(x) =

• ou bien ≥ et F(x) = 1.

Inversement, F permet de définir la loi de probabilité de X. En effet

Cas des variables aléatoires continues


vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Lorsque X(𝛀) est infini non dénombrable le procédé précédent échoue.

On montrera en effet que pour toute variable aléatoire continue X, on a quel que soit x ,

((x}) P(X= x) = 0.

Par contre, on sait que toute partie A de X(𝛀) doit être engendrée (par union et/ou

complémentarité) par les intervalles du type . Il suffit donc, pour

définir P, de connaître les probabilités ou

La loi de probabilité d’une variable aléatoire continue peut ainsi être définie à l’aide de sa
fonction de répartition :

:ℝ [0; 1]

F vérifiant les propriétés suivantes

• F est continue et croissante (au sens large) sur R

• = 0 et =1

• F est dérivable sur (sauf peut être sur un ensemble fini ou dénombrable I de réels pour

lesquels elle est dérivable à gauche et à droite) et F’ est continue sur ℝ / I,

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


On a, pout tout \ I: (x) = f(x) où est appelée densité de probabilité de la variable

aléatoire X. On peut donc aussi définir la loi de probabilité de X à l’aide d’une fonction

numérique , définie sur ℝ, telle que:

• ,

• est continue sur R (sauf peut être en tin nombre fini, ou dénombrable, de réels pour

lesquels elle admet une limite finie à gauche et à droite).

• existe et vaut I.

On peut alors écrire, pour tout réel x :

Théorème 4.4. Soit X une variable aléatoire continue,

1. P(X = x) = O et P(X < x) = P(X x) quel que soit x ℝ.

2. Pour tous réels a et b (a < b) :

P(a b) = P(a < X < b ) =

Démonstration. Pour tous réels a et b (a < b): ] ;b]=]

Ces deux intervalles étant disjoints, il en résulte que :

P(a b) = P( b) - P( a) = =

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Le théorème découle alors de l’écriture astucieuse suivante : quelque soit x ℝ :

La suite des intervalles (boréliens) est = est décroissante et on sait que

{x} = , la suite des intervalles (boréliens) = est décroissante

et on sait que

Donc =

Soit = = 0 puisque F est continue sur ℝ

4.1.2.5. Espérance mathématique et écart type

Cas des variables aléatoires discrètes

L’espérance mathématique d’une variable aléatoire discrète X correspond à la notion de


moyenne arithmétique définie en statistique, les probabilités remplaçant les fréquences. On
la note E(X) ;

si X (Q) est fini,

si X(Q) est dénombrable,

à condition que, dans ce cas, la série Soit convergente (Analyse, chapitre li), sinon

E(X) n’existe pas.

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


De même, l’écart type de X correspond à l’écart type d’une série statistique, racine carrée

(le la variance. On le note ;

Si X(𝛀) est fini, ,

si X(𝛀) est dénombrable,

à condition que cette série soit convergente.

Cas des variables aléatoires continues

Lorsque les intégrales utilisées ci-dessous sont convergentes, on définit l’espérance


mathématique d’une variable aléatoire continue X par :

sa variance par:

son écart-type : σ(X) =

Remarque. La variance d’une variable aléatoire quelconque est définie par:

Théorème 4.5 (de Koenigs3)

La démonstration se calque sur celle de la formule FV2 (chapitre 17).

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


4.1.3. Techniques

4.1.3.1. Comment déterminer la loi de probabilité d’une variable aléatoire? Cas des
variables aléatoires discrètes

On suppose connus tous les événements élémentaires pour i E J, ainsi que leur

probabilité .

(1) Déterminer X(𝛀) = (k K C N). (ici fini ou dénombrable, K ⊆ N).

(2) Pour tout o X(𝛀) déterminer

(J ⊆ I)

(3) Poser alors : pour tout P =

(4) Définir la loi de probabilité de X par les couples ; )

4.2. UTILISER UNE LOI BINOMIALE

4.2.1. Introduction

Lorsqu’une situation aléatoire met en jeu une variable aléatoire, les réponses aux questions
qu’on se pose dérivent en général des connaissances qu’on a de la loi de probabilité de
celle-ci. Dans la pratique (et les programmes scolaires !) de nombreuses situations se traitent
grâce à quelques lois particulières dont il suffit de connaître les propriétés loi binomiale
(l’univers des valeurs possibles est fini). loi de Poisson (I’ univers des valeurs possibles est
infini dénombrable) t loi normale (l’univers des valeurs possibles est infini non
dénombrable). vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Cette section étudie la première de ces lois. Elle apparaît lorsqu’on répète n fois une épreuve
de Bernoulli5, dans les mêmes conditions, de façon que le résultat de l’une quelconque de
ces épreuves ne dépende pas des épreuves précédentes. Une épreuve de Bernoulli est une
expérience aléatoire dans laquelle on s’intéresse seulement à la réalisation ou la non
réalisation d’un certain événement de probabilité connue.

4.2.2. Notions, notations et résultats

4.2.2.1. Loi binomiale

Modèle

On effectue n tirages avec remise dans une urne contenant deux catégories de boules, des
blanches en proportion p (0 < p < 1) et des rouges en proportion q (p + q = 1). La
probabilité d’obtenir une boule blanche à l’issue de chaque épreuve de Bernoulli
correspondant à ces tirages est donc p.

On considère la variable aléatoire X dénombrant les boules blanches à l’issue des n tirages.

Univers des valeurs possibles

Loi de probabilité de X

Dire que X suit la loi binomiale de paramètres n et P (on note X B (n, p)) signifie donc

que, pour tout entier

On vérifie que : grâce à la formule du binôme appliquée à

Espérance

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


En effet: E(X) =

puisque le terme correspondant à k = O est nul. En simplifiant par k, on obtient :

En effectuant le changement d’indice de sommation i = k – 1 k = i + 1) et en posant m =

n-1

En remarquant que il Vient: E(X) =

Écart-type

En effet, on remarque que

4.2.3. Techniques

4.2.3.1. Comment calculer une probabilité avec une loi binomiale?

Soit n N*, p [0; 1] et X B (n,p)

Il existe des tables (pour quelques valeurs de n et p) et des logiciels qui donnent accès

directement à la loi de probabilité de X (calcul de P(X = k) pour et à sa fonction

de répartition (calcul de P(X k)).

Par exemple, on obtient P(X k)

• avec MAPLE©, en tapant la commande: stats[statevalf,pf ,biaomiald[n,pj] (k);

avec EXCEL©, en spécifiant la fonction statistique LOI.BINOMIALE (k;n;p;O) et on


obtient P(X k)

• avec MAPLE©, en tapant la commande: stats[statevalf,dcdf, binomiald[n,pJ](k);

• avec EXCEL©, en spécifiant la fonction statistique:

Pour obtenir la probabilité d’autres événements, on utilise en général la fonction


LOI.BINOMIALE (k;n;p;1) de répartition :

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Le cas particulier P(X 1) peut se ramener au calcul direct 1 – (1 – p)n

4.2.3.1. Comment vérifier qu’une variable aléatoire suit une loi binomiale ?

Une variable aléatoire X étant donnée,

• on a affaire à une épreuve de Bernoulli comportant deux issues complémentaires M et ,

avec P(M) = p et P( ) = q = l - p;

• on réitère l’épreuve n fois et les n réalisations sont indépendantes

• X dénombre les réalisations de M (ou de ).

(2) Conclure

• si X dénombre les réalisations de M : X B(n ; p);

• si X dénombre les réalisations de : X B(n; q).

Vérifier les assertions suivantes

4.3. UTILISER UNE LOI DE POISSON

4.3.1. Introduction

La loi de Poisson est utilisée lorsque l’étude porte sur un phénomène rare. Elle apparaît dans
les processus de Poisson comme la limite, lorsque n tend vers l’infini, des lois binomiales

) où À est un réel strictement positif.

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Un processus de Poisson est caractérisé par une variable aléatoire X qui dénombre les
apparitions d’un certain événement aléatoire E au cours du temps de façon que :

i. la probabilité pour que E apparaisse au cours d’une courte période de l’unité de temps de
durée Δt est proportionnelle à cette durée et indépendante de la période choisie ; ce qu’on
traduit par P(E survient entre t et t + Δt) = λΔt où À est un réel strictement positif;

ii. la probabilité pour que E apparaisse plus d’une fois au cours de cette période peut être
considérée comme nulle.

En décomposant l’unité de temps en n intervalles dc durées égales à Δt. on a Δt = l/n et, quel
que soit t, P(E survient entre t et t + 1/n) = λ/n. D’après la condition ii. E apparaît k fois au
cours de l’unité de temps (0 ≤ k ≤ n) s’il survient au cours de k intervalles élémentaires de

durée 1/n. Il en résulte que X suit la loi binomiale de paramètres n et λ /n. Lorsque Δt 0,

soit n on obtient une loi de Poisson.

4.3.2. Notions, notations et résultats

4.3.2.1. Loi de Poisson

Univers des valeurs possibles

Loi de probabilité de X

Dire que X suit une loi de Poisson de paramètre λ, λ (on note X (λ)) signifie donc

que, pour tout entier

On vérifie grâce à la formule (voir volume Analyse, chapitre 12) que

Espérance

En effet en posant

Écart-type
vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


σ(X) =

Comme

vient

4.3.2.2. Utiliser une loi de Poisson pour approcher une loi binomiale

La loi binomiale B(n, p) peut être approchée par la loi de Poisson P(λ) avec λ = np lorsque n

restant fini.

En effet si on a pour tout k 0; n

Lorsque

est un produit de k termes qui tendent tous vers 1,

tend vers e À, (voir volume Analyse, chapitre 10)

est un produit de k termes qui tendent tous vers 1.

Il en résulte que pour tout entier k, P(X = k) tend vers quand .

En pratique, l’approximation peut se faire lorsque . On a alors

Cette approximation est surtout utile lorsqu’on ne possède pas de logiciel de calcul... (Ce
qui est encore le cas aux examens et concours !) vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


4.3.3 Techniques

Comment calculer une probabilité avec une loi de Poisson ?

Soit λ , et X (λ))

11 existe des tables (pour des valeurs de λ< 10, voir page 221) et des logiciels qui donnent
accès directement à la loi de probabilité de X (calcul de P(X = k) pour k o N) et à sa
fonction de répartition (calcul de P(X k)) pour tout À.

Par exemple, on obtient P(X = k)

• avec MAPLE©, en tapant la commande; stats[statevalf,pf,poisson{À]] (k);

• avec EXCEL©, en spécifiant la fonction statistique LOI.POISSON(k;λ ;O) et on obtient


P(X k)

• avec MAPLE©, en tapant la commande stats[statevaif,dcdf ,poisson [λ]] (k);

• avec EXCEL©, en spécifiant la fonction statistique LOI.POISSON(k;λ;1)

Pour obtenir la probabilité d’autres événements, on utilise en général la fonction de


répartition;

Le cas particulier P(X 1) peut se ramener au calcul direct 1 – .

4.4. UTILISER UNE LOI NORMALE

4.4.1. Introduction

La loi normale (ou loi de Laplace-Gauss) s’applique en général à une variable aléatoire
continue représentant un caractère résultant de nombreux facteurs indépendants, dont les
effets s’additionnent, mais dont aucun n’est prépondérant. Elle est caractérisée par deux
paramètres qui sont justement la moyenne et l’écart type du caractère.
vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Son importance résulte du théorème de la limite centrée (voir p. 109).

4.4.2. Notions, notations et résultats

4.4.2.1. Loi normale

Univers des valeurs possibles

Loi de probabilité de X

Dire que X suit une loi normale de paramètres et σ, avec et σ on note X

signifie que, pour tout réel x, P(X < x) = la densité de

probabilité de X est la fonction définie par:

Espérance et écart-type

4.4.2.2. Intervalles remarquables

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Figure 4.1. Intervalles remarquables

4.4.2.2. Propriété

On admet le résultat fondamental et très utile suivant :

pour tous réels a (a 0) et b :

4.4.2.3. Loi normale centrée réduite

Si X Suit , alors, d’après la propriété ci-dessus, la variable aléatoire

suit la loi normale centrée réduite On peut ainsi, grâce à ce changement de

variable, ramener les calculs sur toute loi normale aux calculs sur cette seule loi.

Univers des valeurs possibles

X(𝛀) = ℝ

Loi de probabilité de U

Dire que U suit la loi normale centrée réduite (on note signifie que, pour tout

réel u, P(U < u) = ∏ (u) où ∏ la fonction de répartition de U est définie par:

La densité de probabilité de U est donc la fonction f définie par

Espérance et écart-type

σ(X) = 1

4.4.2.4. Théorème de la limite centrée


vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Soit (Xn), n N*, une suite de variables aléatoires indépendantes de même loi, d’espérance

mathématique commune et d’écart type commun σ, alors la variable aléatoire

= converge en loi vers une variable aléatoire normale de moyenne et d’écart

type

Cela signifie que pour tout réel t, tend vers ∏(t) lorsque n tend vers l’infini.

Ce théorème fondamental est à l’origine de l’importance de la loi normale en probabilités et


statistiques.

4.4.2.5. Utiliser une loi normale pour approcher une loi binomiale

Pour n très grand (n ≥100), p pas trop proche de 0 ou 1, et n p q >3. La loi normale
constitue une bonne approximation de la loi binomiale. C’est-a-dire que. Pour les calculs de
probabilité, si on doit recouvrir à une table. On peut remplacer la loi B(n, p) par la loi.

4.4.2.6. Utiliser une loi normale pour approcher une loi de Poisson

Pour la loi normale constitue une bonne approximation de la loi de Poisson.

C’est-à-dire que, pour les calculs de probabilité, si on doit recouvrir à une able,

on peut remplacer la loi ) par la loi

Remarque. En fait, la loi normale étant continue, tandis que les lois binomiale et de Poisson

sont discrètes, le calcul d’une probabilité du type ) est entaché d’une erreur (puisque
vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


pour la loi normale ) qu’on peut minimiser en utilisant des formules dites de «

correction de continuité »: P(X = x) P(x — 0.5 < X <s 0,5)..

4.4.3. Techniques

4.4.3.1. Comment utiliser la table de la fonction de répartition de la loi normale centrée


réduite ?

La fonction de répartition de la loi normale centrée réduite est tabulée page 222. Il s’agit

d’un tableau à double entrée permettant, pour U suivant , de :

i. déterminer directement, à 10-4 près, les probabilités P(U ≤ u) = P(U < u) = ∏(u) pour u
décimal entre 0,00 et 2,99 par pas de 0,01,

ii. déterminer directement, à 10-2 près, le réel tel que ∏(u) est égale, à 10-4 près, à un

nombre p donné entre 0,5000 et 0,9986.

Soit t réel positif inférieur à 3. Pour déterminer P(U ≤ 1) = P(U < t),

(1) Arrondir t à l0-2 près, . Le nombre s’écrit donc sous la forme décimale e,dc où e,

d, c sont des chiffres entre 0 et 9.

(2) Décomposer u sous la forme +

(3) Lire directement le résultat à l’intersection de la ligne avec la colonne + .

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Remarque. Pour supérieur à 3 ces probabilités sont très proches de 1 pour t <0 on utilise

la symétrie du graphe de ∏ (voir ci-après p. 111).

Soit p un réel entre 0,5000 et 0, 9986. Pour déterminer

(1) Chercher dans la table un nombre r le plus proche possible de p.

(2) Sur la même ligne que , dans la première colonne, lire le nombre (écriture

décimale).

(3) Sur la même colonne que , dans la première ligne, lire le nombre (écriture

décimale).

(4) Alors (écriture décimale).

4.4.3.2. Comment calculer une probabilité avec une foi normale ?

Soit ; on cherche à calculer P(a < X < b) où a ℝ { } et b ℝ { }.

Avec une calculatrice (si elle est autorisée à l’examen ou au concours). On peut programmer
la formule :

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


en utilisant un calcul approchée d’intégrale. Si a = . On remplace a par - 4σ ;

si b = , on remplace b par 4σ.

Avec un logiciel, on peut programmer la formule précédente ou utiliser la formule:

P(a < X < b) = P(X < h) - P( X < o)

Pour tout réel x, on obtient P(X < x) = P(X

• avec MAPLE©, en tapant la commande:

stats[statevalf,cdf,normald{12,cr]] (x);

• avec EXCEL©, en spécifiant la fonction statistique LOI.NORMALE(x;p.; u;1)

• Avec une table de la fonction de répartition de la loi normale centrée réduite, il faut se
ramener systématiquement à la loi normale centrée réduite par le changement de variable U

. On peut alors écrire, par exemple :

En posant

Les calculs sont ensuite effectués avec la table qui fournit les valeurs. pour de P(

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Si u < on utilise la formule:

P(U ≤ u) = P(U < u) = 1 - P(U < - u) = ∏ (- u)

Pour calculer P(U ≥ u) on utilise la formule: P(U ≥ u) = 1 - P(U < u)

4.5. CALCULER LES PARAMÈTRES D’UNE SOMME OU D’UNE


DIFFÉRENCE DE V.A.

4.5.1 Introduction

Dans cette section, on s’intéresse à quelques éléments de l’étude des couples de variables
aléatoires: indépendance, covariance et combinaisons linéaires (notamment somme et
différence).

4.5.2. Notions, notations et résultats

Soient X et Y deux variables aléatoires définies sur le même espace probabilisé ( )

4.5.2.1. Indépendance de deux variables aléatoires

X et Y sont discrètes

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


X(𝛀) . ; Y(𝛀) . Les lois de probabilité de X et Y (dites lois marginales

du couple (X,Y)) sont données respectivement par:

La loi de probabilité (dite loi conjointe) du couple (X,Y) est définie par:

On dit que X et Y sont indépendantes si et seulement si:

Soit :

L’indépendance de X et Y permet donc de déterminer facilement la loi conjointe du couple


grâce à ses lois marginales.

X et Y sont continues

La densité de probabilité de X est une fonction numérique . Celle de Y une fonction

numérique h ; la densité de probabilité du couple (X, Y) est alors une fonction de ℝ² dans

ℝ.

On dit que X et Y sont indépendantes si et seulement si:

ℝ ℝ

4.5.2.2. Covariance d’un couple de variables aléatoires vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


La covariance du couple (X,Y) est le nombre réel, noté Cov(X,Y), défini par:

dans le cas discret,

dans le cas continu.

Théorème 4.6 (admis)

dans le cas continu.

2. Si X et Y sont indépendantes, alors Cov(X, Y) = O. Mais la réciproque est fausse

4.5.2.3. Somme et différence de 2 variables aléatoires

Définition

Soit α et β deux réels. La variable aléatoire sur 𝛀, combinaison linéaire de X et Y.

notée αX + βY est définie par:

(αX + βY)( ) = (αX( ) + βY)( ) = αX( ) + βY( )

Le couple (α = 1, β = 1) définit donc la somme des 2 variables aléatoires X et Y, tandis que


le couple (α = 1, β = 1) définit leur différence.

Théorème 4.7 (admis)

Quels que soient les réels α et β.

E(αX + βY) = αE(X + βE(Y)

D’où les cas particuliers

E(X+Y) = E(X) + E(Y) E(X -Y) = E(X) - E(Y)


et E(αX + β) = αE(X + β)

2. si X et Y sont indépendantes:

V(αX + βY) = α²V(X + β²V(Y)

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


D ‘où les cas particuliers

V(X+Y)= V(X)+V(Y) V(X - Y)= V(X) + V(Y)

et V(αX + β) = α²V(X ) soit σ(X)

Noter que pour la variable aléatoire Y = 1, définie, pour tout par: Y( ) = 1, on a

manifestement E(Y) = I et V(Y) = O.

Théorème 4.8 (admis). Si X suit et suit et si X et Y sont indépendantes,

alors

X + Y suit

X - Y suit

4.5.3. Techniques

4.5.3.1. Comment vérifier l’indépendance de deux variables aléatoires?

Soient deux variables aléatoires X et Y définies sur le même espace probabilisé (𝛀x).

(1) Si les lois de probabilités de X et Y sont connues, déterminer la loi (ou la densité) de
probabilité du couple (X,Y).

Si la loi de probabilité du couple (X,Y) est connue, déterminer les lois (ou densités) de
probabilité de X et Y.

(2) Si X et Y sont discrètes, comparer pour tout I, pour tout J

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


si X et Y sont continues, comparer pour tout x E R, pour tout ℝ

X et Y sont indépendantes seulement si ces valeurs sont toujours égales.

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


CHAPITRE 5 : FIABILITE
Types de tâches et techniques étudiées

Étudier la fiabilité d’un dispositif

Comment déterminer la fiabilité d’un système?

Utiliser la loi exponentielle

Comment déterminer numériquement le paramètre d’une loi exponentielle

Comment déterminer graphiquement le paramètre d’une loi exponentielle

Utiliser la loi de Weibull

Comment déterminer numériquement les paramètres d’une loi de Weibull

5.1. ÉTUDIER LA FIABILITÉ D’UN DISPOSITIF

5.1.1. Introduction

La durée de vie ou de bon fonctionnement d’un dispositif matériel est en général


imprévisible, de même que son temps de réparation ou de remplacement lorsqu’il est
réparable ou remplaçable. Ce chapitre expose la modélisation de telles grandeurs par des
variables aléatoires continues. Il s’agit donc dune application directe du chapitre 4 mais
avec un vocabulaire et des lois spécifiques.

5.1.2. Notions, notations et résultats

5.1.2.1. Fiabilité d’un élément

Définitions

La Commission Électronique Internationale et la nonne X60-500 définissent la fiabilité d’un


dispositif (d’une entité) comme «une caractéristique de ce dispositif, exprimée par la
probabilité qu’il accomplisse une fonction requise dans des conditions données, pendant une
durée donnée ». L’entité peut être un composant, un système, un réseau, un logiciel, etc...

La défaillance d’un dispositif est l’apparition d’un «défaut» correspondant au non-


fonctionnement total du dispositif: état de panne.

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Pour tout dispositif, mis en service ou sous surveillance à l’instant , on note la variable

aléatoire réelle, continue, qui prend pour valeur l’instant t (supérieur à t0, origine des temps
inconnue a priori mais souvent prise égale à 0) où apparaît la première défaillance.

Fonction de fiabilité

La fonction de fiabilité (reliability, en anglais) d’un dispositif est la fonction, notée R, qui, à
tout instant t (t ≥ t0 ), associe la probabilité de bon fonctionnement du dispositif à cet instant
t, c’est-à-dire la probabilité que la première défaillance apparaisse après l’instant t

R :

On remarque que : R (t0) = 1 et

Fonction de défaillance

La fonction de défaillance (failure, en anglais) d’un dispositif est la fonction, notée , qui, à

tout instant t (t t0), associe la probabilité que le dispositif soit en panne à cet instant t,

c’est-à-dire la probabilité que la première défaillance apparaisse avant (ou à) l’instant :

F :

On remarque que: F (t0) O et

est la fonction de répartition (voir chapitre 3) de la variable aléatoire Tet on a, pour tout t a t o :

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Taux d’avaries
Le taux d’avaries (ou taux de défaillances : nombre de défaillances par heure) est défini pour tout t

t0 par :

Il s’exprime en h ou en FIT (Failure In Time, en anglais) 1fit = 10 -9/h.

La courbe représentative de la fonction λ, sur [t0 ; + [, prend en général une forme

caractéristique dite courbe en baignoire, correspondant aux trois périodes souvent observées
dans la vie d’un dispositif:

• période des défauts de jeunesse pendant laquelle À est décroissante

• période des défaillances aléatoires on vie utile du dispositif pendant laquelle λ est
sensiblement constante;

• période des avaries d’usure pendant laquelle λ est croissante.

Figure 5.1. Courbe en baignoire


vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Estimations statistiques de R(t), F(t),f(t), .),Q)

On considère à l’instant t0 la mise en service dans les mêmes conditions de N0 dispositifs Is.

On note , le nombre de dispositifs encore en état de fonctionner à l’instant t .

En supposant qu’un dispositif ayant eu une défaillance n’est ni réparé, ni remplacé, on peut

estimer respectivement par

(t) : proportion de dispositifs en état de fonctionnement à l’instant t

( (t) proportion de dispositifs en panne à l’instant t (fréquence de défaillances) ;

(t) fréquence de défaillances rapportée à l’unité de temps ;

où Δt est un laps de temps suffisamment petit pour que l’estimation soit jugée

convenable.

Le taux d’avaries est estimé par (t), la fréquence de défaillances par unité de temps

rapportée au nombre de dispositifs encore en état de fonctionnement au début dc la période


[t; t + Δt] ;

Dans la pratique, on observe un échantillon de dispositifs, à partir d’un instant et,

pour chacun d’eux, on relève l’instant t de la première défaillance. On classe ces temps de
bon fonctionnement en ordre croissant et, après d’éventuels regroupements en classe lorsque

N0 est grand. on obtient une suite croissante de .

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


• Si 50, on pose (t1) = _(approximation par la loi de survie).

• Si 20 50, on pose (t1) = (t) (approximation des rangs moyens).

• Si 20, on pose (t1) = ri (approximation des rangs médians)

MTBF

La Moyenne des Temps de Bon Fonctionnement (traduction ambigüe de Mean Time


Between Failures, MTBF) est l’espérance mathématique de la variable aléatoire T, dans la
pratique, les densités de probabilité retenues sont telles que l’intégrale ci-dessous est
convergente).

Si l’on considère les défaillances comme irréparables, E(T) correspond aussi à la durée de
rie moyenne du dispositif ou moyenne des temps de bon fonctionnement avant la première
défaillance (MTTFF Mean Time To First Failure).

Théorème 5.1. Si la fonction de fiabilité R est négligeable, au voisinage de +ce, devant la fonction
inverse, c’est-à-dire si x = 0, alors
Démonstration. Il suffit de procéder à une intégration par parties en remarquant que

puis =1

5.1.2.2. Fiabilité d’un système

Un système S est un dispositif constitué de n éléments S 1, ……., Si, ……., Sn., On notera R5,
R5 les fonctions de fiabilité du système e des composants Si, et F5. F5 leurs fonctions de
défaillance.

Ces éléments sont dits groupés selon un modèle


vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


• série, lorsque la défaillance d’un seul provoque la défaillance du système.

• parallèle, lorsque la défaillance de tous est nécessaire pour provoquer la défaillance du


système.

Fiabilité d’un modèle série

À l’instant , un système série ne fonctionne que si chacun des dispositifs le composant

fonctionne.

Soient les taux de défaillance du système et de chacun de ses

composants, alors :

Fiabilité d’un modèle parallèle

À l’instant t, un système parallèle fonctionne si au moins un des dispositifs le composant


fonctionne (redondance active totale). Autrement dit, un système parallèle est défaillant si
chacun de ses composants est défaillant.

Si on peut supposer que les états (fonctionnement ou panne) de chacun des composants sont
des événements indépendants, alors on a :

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Donc :

5.1.3. Techniques

Comment déterminer la fiabilité d’un système ?

Considérons un système S constitué d’un nombre fini d’éléments indépendants S1 de

fiabilité connue.

Calcul série-parallèle

On suppose que le système peut être décomposé en sous-systèmes groupés selon le modèle
série ou parallèle.

Chaque groupement série :

peut être remplacé par l’élément:

et chaque groupement parallèle

peut être remplacé par l’élément:

sans changer la fiabilité du système.

On calcule donc la fiabilité de chacun des sous-systèmes de façon ii procéder aux


simplifications ci-dessus jusqu’à ce qu’elles aboutissent à un modèle réduit à un seul
composant dont la fiabilité est calculée.

5.2. UTILISER LA LOI EXPONENTIELLE

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


5.2.1. Introduction

Cette loi correspond à la période de défaillances aléatoires d’un dispositif avec un taux
d’avaries constant et égal à λ.

5.2.2. Notions, notations et résultats

5.2.2.1. Définition

On dit qu’un dispositif e suit une Loi exponentielle» à partir de l’instant , si la

variable aléatoire T, instant de la première défaillance, suit une loi exponentielle de

paramètre, (λ > 0), c’est-à-dire si la densité de probabilité de T est de la forme t

pour tout réel t positif et nulle pour tout réel strictement négatif. C’est notamment le cas des
systèmes électroniques ou de tout dispositif dans sa période dite de vie utile.

On a alors : pour tout t ≥ 0.

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Figure 5.2. Fiabilité exponentielle

5.2.2.2. Espérance

Pour λ > 0, on sait que. On peut donc utiliser

Théorème 5.1 page 135: MTBF= E(T) = R(t)dt I

. Or

5.2.3. Techniques

5.2.3.1. Comment déterminer numériquement le paramètre dune loi exponentielle ?

On suppose qu’une observation statistique fournit n couples de valeurs (ri; F (r)) On procède
à une régression affine après transformation des données (voir chapitre 2).

(1) Calculer pour tout ide 1 à n :

(2) Calculer le coefficient de détermination (X. Y) où X est la série statistique des et Y

celle des .

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Si < 0,75, l’ajustement affine est contestable le phénomène ne suit sans doute pas une loi

exponentielle.

Si 0,75, on peut admettre que l’ajustement affine est justifié et que le phénomène étudié

suit une loi exponentielle de paramètre λ.

(3) Déterminer le coefficient a de la régression linéaire de y en x (régression affine avec b =


O imposé).

(4) Identifier λ avec - a ; en déduire la MTBF et σ, tous deux égaux à l/λ.

5.2.3.2. Comment déterminer graphiquement le paramètre d’une loi exponentielle ?

On représente graphiquement le nuage de points (t in [R(t1)])1<1< sur papier millimétré et


on suppose que R est représentée par la droite passant par ces points s’ils sont alignés avec
l’origine ou par la droite de régression obtenue comme ci-dessus (avec b = 0 imposé).

Puisque R(MTBF)= R(1/λ) = = In [R(MTBF)] = ln = -1, la MTBF est

l’abscisse du point d’intersection de la droite représentant R avec la droite d’équation = -1.

On en déduit l’écart type σ = MTBF et le paramètre λ = 1/MTBF

La MTBF peut aussi être évaluée graphiquement en représentant le nuage de points

sur papier semi-logarithmique. On suppose que R est représentée par la

droite passant par ces points s’ils sont alignés avec A (0; 1) ou par la droite de régression
correspondante.

Puisque R (MTBF) = 0,368 ou 36,8 %, la MTBF est l’abscisse du point

d’intersection de la droite représentant R avec la droite d’équation y = .

Par exemple, sur les graphiques ci-après, si l’unité de temps est l’année, on lit MTBF = 5
ans, d’où σ(T) = 5 ans et λ = 1/5 = 0,2.
vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Un système déclenche automatiquement, en fonction de la température et de la vitesse du
vent, l’ouverture et la fermeture d’un store extérieur protégeant la vitrine d’un magasin.

Une étude statistique a permis d’obtenir les valeurs suivantes de la fonction de fiabilité

(t) du système où t désigne le nombre de jours depuis l’installation de celui-ci.

Exercice 5.4 (D’après BTS Systèmes Constructifs Bois et Habitats. 1998)

Un système déclenche automatiquement, en fonction de la température et de la vitesse du


vent, l’ouverture et la fermeture d’un store extérieur protégeant la vitrine d’un magasin.

Une étude statistique a permis d’obtenir les valeurs suivantes de la fonction de fiabilité

R(t) du système où t désigne le nombre de jours depuis l’installation de celui-ci.

t 90 200 360 500 750 1000 1200 1500

R(t) 0,89 0, 76 0,61 0,51 0,36 0,25 0,19 0,13


vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


1. Calculer les valeurs décimales arrondies à 10 -3 près de

2. Tracer le nuage de points correspondant à la série statistique ( En abscisse,

100 jours seront représentés par 1 centimètre et, en ordonnée, 1 unité sera représentée par 5
centimètres.

3. Déterminer le coefficient de détermination de la série statistique

Commenter le résultat.

4. Donner une équation de la droite d’ajustement obtenue par la méthode des

moindres carrés (donner la valeur de m arrondie 10 6 près), et tracer celle-ci sur le


graphique précédent. En déduire qu’on peut modéliser la fiabilité du système par la fonction

définie pour t 0, par

5. Donner une valeur approchée à 106 près du taux d’avaries du système, puis la MTBF au
jour près.

6. Calculer, à 10-2 près, la probabilité de voir le système tomber en panne pendant l’année de
garantie, c’est-à-dire avant 365 jours.

5.3. UTILISER LA LOI DE WEIBULL

5.3.1. Introduction

La loi de Weibullt généralise la loi exponentielle et, grâce à ses paramètres, s’adapte à toute
les périodes de défaillance d’un dispositif. Elle est très utilisée en fiabilité.

5.3.2. Notions, notations et résultats

5.3.2.1. Définition

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


On dit qu’un dispositif « suit une loi de Weibull » à partir de l’instant t0 = λ. si la variable

aléatoire , instant de la première défaillance, suit une loi de Weibull de paramètres

,( > 0). On a alors : pour tout t

5.3.2.2. Signification des paramètres

est un paramètre d’origine qui indique l’instant à partir duquel la première défaillance suit

une loi de Weibull ; il s’exprime dans la même unité que .

est un paramètre de forme (sans dimension)

• si O < < 1, le taux d’avaries λ est décroissant et la loi correspond à la période des défauts

de jeunesse;

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


• si = 1, le taux λ est constant et égal à ; la loi correspond à la période des défaillances

aléatoires (pour 7 = O, on retrouve la loi exponentielle de paramètre

• si > 1, le taux A est croissant et la loi correspond à la période d’usure ou de

vieillissement du dispositif.

n est un paramètre d’échelle il s’exprime dans la même unité que t.

5.3.2.3. Espérance et écart-type

On peut montrer que


vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


où r est la fonction Gamma définie par : (voir Analyse chapitre 8).
Dans la pratique, pour calculer la moyenne et l’écart-type d’une loi de Weibull, on utilise

une table donnant les coefficients A ) et B( ) tels que:

E(T) =7+ nA( ) et a(T) = nB( ) pour 0,2 ≤ <7, à moins que l’on dispose d’un logiciel de

calcul formel qui fournit directement la moyenne et l’écart-type pour tous / . Ainsi les

commandes Maple V© suivantes:

>A :=beta-> GAMMA(1+1/beta):

>B :=beta—> sqrt(A(beta/2)—(A(beta))2):

>‘A(1.8) ‘=A(1.8) ; ‘B(1.8) ‘=B(1.8)

donnent : A(1 .8) = .8892867325 et B(l .8) .5112267876 (la table fournit A 1.8) 0,8893 et
B(1.8) = 0,511). Puis

>MTBF :=(beta,gamnaa,eta)-> gamma+eta*A(beta):

>sigma :=(beta,gamma,eta)—> eta*B(beta):

>‘MTBF’=MTBF(1.8,O,2000); ‘sigma(T) ‘=sigma(1.8,O,2000);

donnent: MTBF = 1778.573465 et u(T) = 1022.453575.

5.3.2.4. Espérance et écart-type

On peut montrer que

MTBF= E(T)=+F(l+)

5.3.2.5. Linéarisation de la loi Weibull

5.3.3. Techniques

5.3.3.1. Comment déterminer numériquement les paramètres dune loi de Weibull?

Une observation statistique ayant fournit n couples de valeurs (t i ; F ; (ti) en %), procéder à
une régression affine après transformation des données.
vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


(1) Calculer pour tout i de 1 à n : = In ( ), R ( ) = 100 - F ( ) en %, et [- In R )].

(2) Calculer le coefficient de détermination 𝜌² (X, Y) où X est la série statistique des x- et Y


celle des y.

Si 𝜌² < 0,75, l’ajustement affine est contestable ; il vaut mieux utiliser un logiciel spécialisé.

Si 𝜌² 7 0,75, on peut admettre que l’ajustement affine est justifié et que le phénomène étudié

suit une loi de Weibull de paramètre = 0.

(3) Déterminer les coefficients a et b de la régression affine de y en x.

(4) Identifier avec a et ln n avec - b ; en déduire n = exp

5.3.3.2. Comment déterminer graphiquement les paramètres dune loi de Weibull?

Représenter graphiquement le nuage de points ( = ln ( ) y = ln [- ln R ( )]) sur papier

millimétré et supposer que R est représentée par la droite passant par ces points s’ils sont
alignés ou par la droite de régression de Y en X.

Si les points sont bien alignes ou suffisamment proches de la droite de régression, alors

• on peut supposer 7 = 0,

• est donné par la pente de la droite,

• et In p par son ordonnée à l’origine.

Mais ces informations ne sont pas forcément facile à lire sur le graphique et en général on

connaît une équation de la droite de régression dont on tire les coefficients et p comme

expliqué au point précédent.


vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


On peut alors utiliser un papier spécial, dit papier de Weihull d’Alkm Plait, gradué de façon

que les points de coordonnées soient alignés si suit une loi de Weihull de

paramètre = 0.

L’axe des temps t, en bordure inférieure, est gradué en échelle logarithmique X =In t ;

L’axe des ordonnées, en bordure gauche, est gradué en échelle

[In = In ou étant données en pourcentage

L’axe logarithmique des temps est reproduit à l’ordonnée F(t) 63,2%, qui correspond à Y=

O et permet d’évaluer p ; cet axe est appelé axe des n

Sur la bordure supérieure se trouve l’axe linéaire des X

A l’abscisse X = -1, un axe gradué linéairement en Y permet d’évaluer le paramètre -Y ; on


l’appelle l’axe des n.

Représentation de F(t) = t - R(t)

On dispose des temps de bon fonctionnement observés sur un échantillon 13e N0

dispositifs et d’une estimation F( ) de la fonction de défaillance en 11 donnée par l’une des

formules présentées plus haut.

On place les points ( F (t) %) sur un papier de Weibull.

Évaluation de

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Si ces points sont alignés sur une droite D (ou approximativement alignés). Alors -y = 0.

Sinon on translate les points horizontalement (on ajoute le même réel - aux abscisses

jusqu’à ce qu’ils soient alignés.

Évaluation de n

n est donné par l’intersection de la droite D avec l’axe des n

Évaluation de β

β est donné par l’intersection de la droite A, parallèle à D passant par le point 13 abscisse 1
de l’axe des p, avec l’axe des /3.

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


CHAPITRE 6 : STATISTIQUE INFERENTIELLE-
ESTIMATION
Estimation
Types de tâches et techniques étudiées

Donner une estimation ponctuelle d’un paramètre

Comment estimer une moyenne ?

Comment estimer une variance, un écart type ?

Comment estimer une proportion ?

Donner une estimation par intervalle de confiance d’un paramètre

Comment déterminer un intervalle de confiance ?

pour une moyenne ?

pour une proportion ?

Comment déterminer la taille d’un échantillon pour obtenir un intervalle de confiance


d’amplitude donnée ?

6.1. DONNER UNE ESTIMATION PONCTUELLE D’UN PARAMÈTRE

6.1.1. Introduction

Soit X une variable aléatoire définie sur un univers (une population) de grande taille N et
dont la loi dépend d’un paramètre inconnu Ө.

On cherche à déterminer Ө à l’aide d’informations obtenues à partir d’un échantillon de


taille n extrait de cette population. Ceci est en fait impossible tant que n < N, mais grâce aux

résultats de la théorie de l’échantillonnage, on peut fournir des « estimations», notées , du

paramètre Ө, d’autant «meilleure » que n est grand.

Ces estimations sont les valeurs prises, sur l’échantillon donné, par des variables aléatoires
fonctions des valeurs observées.

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Figure 6.1.a. Échantillonnage. Figure 6.1.b. Estimation.

6.1.2. Notions, notations et résultats

6.1.2.1. Définitions

Échantillonnage

Un échantillon de taille n est une liste de n individus extraits de la population- mère.

Si X est une variable aléatoire définie sur la population-mère, on appelle n- échantillon de

valeurs de X la liste des valeurs ( , . . . , ) prises par X sur un échantillon de taille n.

On appelle échantillonnage le prélèvement d’échantillons.

Un échantillonnage aléatoire est un prélèvement de n individus dans une population-mère de


façon que toutes les combinaisons possibles de n individus aient la même probabilité d’être
prélevées.

On réalise un échantillonnage raisonné lorsqu’on impose à l’échantillon d’avoir une


structure identique à celle de la population-mère pour un certain nombre de facteurs dont on
pense qu’ils influencent le phénomène étudié (méthode des quotas).

Un échantillonnage exhaustif ou sans remise est un prélèvement de n individus en une seule


fois, ou successivement sans remise, dans la population-mère.

Un échantillonnage est non-exhaustif ou avec remise lorsque chaque individu prélevé est
remis dans la population-mère avant le tirage de l’individu suivant.

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Remarque : Lorsque la taille de l’échantillon est suffisamment petite par rapport à celle de
la population-mère, on peut assimiler l’échantillonnage sans remise à l’échantillonnage avec
remise.

Échantillonnage de variable aléatoire

Soient X une variable aléatoire définie sur la population-mère (probabilisée) et un

échantillon aléatoire de taille n (n ≤ N), issu de cette population. A tout individu

X associe une valeur = X( ).

On note la variable aléatoire qui, à , associe la valeur x.

= X(

Les suivent toutes la même loi que X.

On appelle n-échantillon de valeurs de X la liste des valeurs ( ) prises par X su

un échantillon de taille n et n-échantillon de X le n-uplet ( ).

Estimation

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


On appelle statistique toute variable aléatoire Y fonction des variables aléatoires

).

,…, )

Un estimateur du paramètre O est une suite ( ) de statistiques telles que:

i. = ,…, ) où ( ,…, ) est un n-échantillon de X;

ii. où Ө est la fonction constante de valeur Ө.

Les variables aléatoires , définies sur l’ensemble des échantillons de taille n, sont

appelées estimateur de taille n.

Toute valeur prise par sur un échantillon de taille n quelconque est une estimation du

paramètre Ө.

T est un estimateur sans biais de Ө si: * )=Ө

6.1.2.2. Distribution d’échantillonnage des moyennes

On considère une population d’effectif , sur laquelle est définie un caractère quantitatif,

représenté par une variable aléatoire X, suivant une loi quelconque de moyenne

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


et d’écart type σ(X) = σ. Soient un échantillon quelconque de taille n, issu de cette

population, et ,…, ) un n-échantillon de X.

On pose et

est une statistique qui, à tout échantillon, associe la moyenne de X sur cet échantillon :

est une variable aléatoire qui, à tout échantillon , associe la variance de X sur cet

échantillon:

Théorème 6.1. On suppose que sur tout échantillon les variables aléatoires sont

indépendantes (tirage avec remise par exemple). Alors :

i) quelle que soit la loi de X et quel que soit n :

ii) si X suit alors, quel que soit n, suit donc suit suit

tandis que suit la loi de Student à degrés de liberté.

iii) si X suit une loi quelconque et que n est suffisamment grand (n ≤ 30), alors suit

approximativement .

iv) si X suit une loi quelconque et , alors la loi de est inconnue.

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Démonstration.

i. On sait que pour tout . En utilisant les propriétés de la

somme de variables aléatoires vues au chapitre 4, il vient:

et, grâce à l’indépendance des X1:

ii. La première partie de la proposition résulte de la propriété des sommes de variables


aléatoires normales vue au chapitre 4; on admettra la seconde partie. iii. résulte du théorème
de la limite centrée (chapitre 4, p. 109).

6.1.2.3. Distribution échantillonnage des proportions

Soit une population d’effectif dont une proportion d’individus présente une certaine

modalité d’un caractère qualitatif C.

On note la variable aléatoire qui associe, à tout échantillon de taille n, le nombre

d’individus de cet échantillon qui présentent la modalité . et = la fréquence

d’individus présentant .

Théorème 6.2 (admis) Pour tout entier naturel n non nul:

i) suit la loi binomiale ( ).

ii)

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


iii) Pour n grand, F suit approximativement la loi normale

(Voir travaux pratiques à la fin du chapitre.)

6.1.2.4. Estimation ponctuelle d’un paramètre

Il s’agit ici de donner à partir des valeurs prises par X sur un échantillon de taille n une

valeur unique estimant . On utilise les résultats de la théorie de l‘échantillonnage en

retenant en général des variables aléatoires, définies sur l’échantillon, ayant pour espérance
le paramètre que l’on cherche à estimer.

Paramètres Estimations sans biais Estimations ponctuelles

Moyenne

Variance

Proportion

6.1.3. Techniques

6.1.3.1. Comment estimer une moyenne, une variance, un écart-type?

On considère une variable aléatoire d’espérance = et d’écart type σ(X) = σ et un

échantillon de taille .

(1) Calculer et la moyenne et l’écart type des valeurs prises par sur l’échantillon .

(2) En déduire les estimations ponctuelles à l’aide des formules:

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Figure 6.2. Estimations d’une moyenne et d’un écart-type.

Remarque. Certaines calculatrices fournissent deux valeurs pour l’écart-type d’un

échantillon à l’aide de touches notées par exemple et

La première valeur correspond au calcul de la seconde à

Ces deux valeurs sont peu différentes dès que n est grand, mais seule la seconde est une
estimation non biaisée de l’écart type.

Exercice 6.1 (D’après BTS Groupement B, session 2000, Nouvelle Calédonie)

Une usine fabrique de grandes quantités d’un certain type de pièces mécaniques.

On mesure la longueur de chacune des 50 pièces d’un échantillon choisi au hasard et avec
remise dans une grosse commande.

On constate que les valeurs approchées arrondies à 10-3 près de la moyenne et de l’écart

type s des longueurs en millimètres, de cet échantillon sont : = 64,715 et s = 0,095.

À partir des informations portant sur cet échantillon, donner une estimation ponctuelle de la

moyenne et de l’écart type σ de la longueur des pièces de l’ensemble de la commande.

Exercice 6.2.

Un groupe d’étudiants en Statistique réalise une enquête auprès d’une population

d’étudiants en sociologie en interrogeant un échantillon de individus. Ils désirent

connaître, entre autres, la proportion d’étudiants ayant suivi des études secondaires

scientifiques.
vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Pour accélérer le traitement, ils partagent le dépouillement en deux : un demi-groupe
constate que, sur 60 des étudiants interrogés, 24 ont suivi des études secondaires
scientifiques, tandis que l’autre demi-groupe constate que, sur les 75 étudiants interrogés
restants, 33 ont suivi des études secondaires scientifiques.

Calculer trois estimations ponctuelles de .

6.2. DONNER UNE ESTIMATION PAR INTERVALLE DE


CONFIANCE D’UN PARAMÈTRE

6.2.1. Introduction

On suppose dans une population nombreuse, une proportion d’individus présqnte

une certaine modalité d’un caractère qualitatif. Si on prélève des échantillons de 10


individus, la fréquence des individus de ces échantillons qui présentent cette modalité ne
peut prendre que les valeurs : 0, 0,1, 0,2 0,9 et 1. Aucun échantillon de taille 10, aussi «

représentatif» soit-il, ne pourra donner une estimation de p égale à la vraie valeur de

Il paraît donc plus raisonnable de compléter l’estimation ponctuelle par une «fourchette »,
c’est-à-dire la donnée d’un intervalle réel dont la probabilité de contenir la vraie valeur du
paramètre estimé est fixée à l’avance et suffisamment grande.

Ce point de vue conduit à la notion d’intervalle de confiance.

6.2.2. Notions, notations et résultats

6.2.2.1. Détermination d’un intervalle de confiance

Soit X une variable aléatoire dont la loi dépend d’un paramètre inconnu . Les intervalles de

confiance pour le paramètre , au risque α (0 < α < 1), issus des différents n -échantillons

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


(x1 x) de valeurs de X sont les intervalles du type: [a ( ,…, ); b ( ,…, )] construits

d’une façon telle qu’a priori une proportion 1- α de ces intervalles contiennent .

1- α est appelé niveau (ou coefficient) de confiance de l’intervalle issu du tirage aléatoire de
n valeurs de X.

Si est un estimateur de taille n de , on détermine e et d tels que:

On a alors: P(c ≤ d) = l -

On détermine ensuite les variables aléatoires et fonctions de , telles que

Un intervalle de confiance [a; b] pour Ө, au risque α, issu d’un n-échantillon

( ,…, ) de valeurs de X s’obtient en calculant

( ,…, );

( ,…, );

6.2.2.2. Intervalle de confiance pour une moyenne

1er cas : σ est connu

Si l’échantillonnage est avec remise (ou peut être considéré comme tel) et si X suit vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


,on sait (théorème 6.1 p. 164) que est un estimateur de taille de qui suit

Si on ne connaît pas la nature de la loi de X, mais si , alors

suit appoximativement la même loi .

On cherche deux réels e et d tels que :

On sait que suit Donc:

où et sont les quantiles d’ordres respectifs et 1 - de la loi normale centrée

réduite. Or les propriétés de symétrie de la densité de probabilité de assurent que =-

(voir figure 6.4).

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


On en déduit que:

x et x

On a donc : 𝑃 = 1- α

Ce qui s’écrit aussi:

On calcule ( ,…, )= et on en déduit un intervalle confiance pour ,

au risque α :

2e cas : σ est inconnu

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Dans la plupart des cas pratiques, σ est inconnu. On utilise alors (théorème 6.1 p. 164) le fait

que L suit la loi de Student (centrée réduite) à n -1 degrés de liberté (tabulée p.

224).

Des calculs semblables aux précédents, dans lesquels les quantiles de la loi normale sont
remplacés par ceux de la loi de Student n - 1 degrés de liberté, conduisent à un intervalle de

confiance pour , au risque û de la forme :

où est le quantile d’ordre de la loi de Student à n - 1 degrés de liberté.

Dans le cas où n est suffisamment grand (n ≥30), la loi de Student est peu différente de la loi
normale centrée réduite et l’intervalle de confiance peut s’écrire :

où u1ca est le quantile d’ordre de la loi normale

Remarque :

1. Un intervalle de confiance pour une moyenne est toujours centré sur une estimation de
cette moyenne issue d’un échantillonnage aléatoire.

2. Dans les programmes de BTS, on suppose toujours que suit une loi normale ou que n

est suffisamment grand.


vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


6.2.2.3. Intervalle de confiance pour une proportion

On sait (théorème 6.2 p. 166) que , la variable aléatoire qui compte le nombre d’individus

ayant la propriété P dans un échantillon de taille non-exhaustif suit Si

l’approximation de la loi binomiale par une loi normale est justifiée, on sait alors que =

suit On montre de plus que la variable aléatoire , ou f est

la valeur de Fn sur 1’échantillon (fréquence d’individus de l’échantillon ayant la propriété

suit approximativement ce qui justifie l’estimation de l’écart type inconnu

par la quantité

On en déduit, par des calculs semblables aux précédents, les intervalles de confiance pour 𝜌,
au risque α,

où le quantile d’ordre de la loi normale .

6.2.3. Techniques

6.2.3.1. Comment déterminer un intervalle de confiance pour une moyenne ?

Cas où X suit une loi normale ou que n est suffisamment grand et l’écart type u est connu vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


(1) Considérer un n-échantillon de valeurs de ( ,…, ) et calculer sa moyenne

(2) Fixer un risque α (en général 5 % ou I %) et déterminer, grâce à une table ou une

calculatrice, le quantile d’ordre de la loi .

(3) Remplacer les lettres par leurs valeurs dans la formule

Cas où X suit une loi normale ou que n est suffisamment grand et l’écart type σ est inconnu

(1) Considérer un n-échantillon de valeurs de ( ,…, ) et calculer sa moyenne et son

écart type .

(2) Fixer un risque α (en général 5 % ou 1 %).

Si n ≥30, déterminer, grâce à une table ou une calculatrice, le quanfile d’ordre

de la loi

Si n < 30, déterminer, grâce à une table, le quantile d’ordre de la loi de

Student à degrés de liberté.

(3) Remplacer les lettres par leurs valeurs dans la formule :

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


=

= si n

Cas où on cherche un intervalle centré sur la moyenne de l’échantillon sachant que la

variable aléatoire suit la loi normale de moyenne inconnue et d’écart type connu

(Cette présentation de la tâche est fréquente dans les sujets de BTS).

Le coefficient de confiance étant donné, il s’agit donc de trouver un intervalle de la forme

[ -r ; ], avec r réel, tel que:

-r ≤ = 1-

Cette condition est équivalente

sachant que suit cette condition conduit, par des calculs déjà vus, à: r =

x - où est le quantile d’ordre de la loi normale

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


CHAPITRE 7 : STATISTIQUE INFERENTIELLE-TESTS
D’HYPOTHESE
Tests d’hypothèse

Types de tâches et techniques étudiées

Construire et utiliser un test de conformité

Comment construire un test bilatéral de conformité d’une moyenne?

Comment construire un test unilatéral de conformité d’une moyenne ?

Comment construire un test bilatéral de conformité d’une proportion ‘

Comment construire un test unilatéral de conformité d’une proportion ‘?

Construire et utiliser un test de comparaison

Comment construire un test bilatéral de comparaison de moyennes ?

Comment construire un test unilatéral de comparaison de moyennes ?

Comment construire un test bilatéral de comparaison de proportions ?

Comment construire un test unilatéral de comparaison de proportions ?

Construire et utiliser un test d’adéquation à une loi théorique

Comment réaliser un test d’adéquation à une loi théorique ?

Construire et utiliser un test d’indépendance

Comment réaliser un test d’indépendance ?

7.1. CONSTRUIRE ET UTILISER UN TEST DE CONFORMITÉ

7.1.1. Introduction

Dans cette section on s’intéresse au problème suivant étant donnée une variable aléatoire X,

définie sur une certaine population, dont la loi dépend d’un paramètre inconnu, peut-on

raisonnablement supposer que est égal à une certaine valeur donnée a priori?

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Par exemple, ce problème apparaît dans la situation suivante: on règle un procédé de

fabrication de façon à produire des pièces cylindriques de diamètre fixé. Mais, malgré les

réglages, les diamètres des pièces ne sont pas toujours égaux à et se distribuent

aléatoirement. Comment savoir si la moyenne des diamètres des pièces produites est bien

égale à ?

Le contrôle de toutes les valeurs de X sur la population étant en général impossible (ou trop
long, trop coûteux, etc.), on extrait un échantillon aléatoire de la population sur lequel on
observe les valeurs de X. La question devient : au vu des résultats obtenus sur l’échantillon

et aux fluctuations d’échantillonnage près, est-il légitime de supposer que ? La

réponse à la question est donnée par le mise en place d’un test de conformité.

On définit d’abord des notions générales de la théorie des tests qui restent utiles pour les
sections suivantes, puis on indique comment procéder dans le cas où le paramètre est une
moyenne ou une proportion.

7.1.2. Notions, notations et résultats

7.1.2.1. Définitions

Un test statistique est une procédure permettant de calculer la valeur d’une certaine fonction
des observations d’un ou de plusieurs échantillons, qui conduit à rejeter ou non, avec un

certain risque d’erreur, une hypothèse généralement appelée hypothèse nulle et notée .

Celle-ci porte sur la (ou les) population(s) d’où est (sont) issu(s) l’(ou les) échantillon(s).

Elle s’oppose à une hypothèse dite alternative et notée .

On appelle erreur de première espèce l’erreur commise lorsqu’on rejette l’hypothèse nulle
alors que celle-ci est vraie. La probabilité d’une telle erreur s’appelle risque de première
espèce et se note c.

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


On appelle erreur de seconde espèce l’erreur commise lorsqu’on ne rejette pas l’hypothèse
nulle alors que celle-ci est fausse. La probabilité d’une telle erreur s’appelle risque de
seconde espèce et se note β. La valeur 1 - β est la puissance du test.

En général, on se fixe un risque de première espèce assez faible (5 %, 1 %) de façon à


diminuer le risque de rejeter l’hypothèse nulle quand elle est vraie. On souhaite également
un risque de seconde espèce assez faible, mais en général il dépend du test et de la réalité.
Les statisticiens essaient donc de construire des tests dont la puissance est la plus élevée
possible.

Le critère du test est une variable aléatoire dont la valeur calculée à partir de(s)

l’échantillon(s) permet de rejeter ou non l’hypothèse nulle selon qu’elle appartient ou non à
la zone de rejet.

La zone de rejet de est une partie de ℝ, déterminée en supposant l’hypothèse vraie,

dépendante du risque a, telle que, z étant le critère adopté,

• si on rejette (dans ce cas, on reste libre d’accepter ou non ),

• si on ne rejette pas (dans ce cas, on peut éventuellement accepter !).

La zone d’acceptation (ou plutôt de non rejet) A de Ho est le complémentaire de R dans ℝ ;

si on ne rejette pas .

Remarque:

1. Le choix de l’hypothèse nulle est fait de façon à pouvoir déterminer la loi du critère .

ii. Ne pas rejeter l’hypothèse nulle ne signifie pas qu’on doit automatiquement l’accepter et
la considérer comme vraie! Cela signifie simplement qu’au vu des informations disponibles,
on n’a pas de raison de la considérer comme fausse, ce qui autorise à s’en contenter...

iii. Lorsque le critère de test appartient à la zone de rejet, il se peut que


vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


- l’hypothèse soit fausse,

- soit vraie mais que l’échantillon corresponde à l’un des cas rares observables sous

cette hypothèse,

- l’échantillon n’ait pas été tiré au hasard.

Si on s’est prémuni contre cette dernière cause, l’habitude est de retenir la première
éventualité, considérant en quelque sorte que les événements à faible probabilité ne se

produisent pas. Le principe est donc de considérer les valeurs de qui appartiennent à

comme suffisamment « rares » (α petit) pour remettre en cause l’hypothèse nulle, tandis que
celles qui appartiennent à A sont considérées comme «normales ».

7.1.2.2. Tests de conformité

Conformité d’une moyenne

On considère une variable aléatoire X supposée suivre la loi normale

Soit une valeur plausible de la moyenne de la population, fixée a priori.

Test bilatéral symétrique

On teste au risque de première espèce

 : = contre  :

Test unilatéral

On teste au risque de première espèce u :

(  : = contre  : ) ou (  : = contre  : )
vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Dans les deux cas, sous l’hypothèse H0, X est donc supposée suivre la loi normale (

Conformité d’une proportion

Soit p la proportion d’individus d’une certaine modalité A dans la population-mère

Soit Pu une valeur plausible de la proportion d’individus A dans la population-mère, fixée a


priori.

Test bilatéral symétrique

On teste au risque de première espèce u

 : = contre  :

Test unilatéral

On teste au risque de première espèce α :

: = contre  : ) ou (  : = contre  : )

7.1.3. Techniques

7.1.3.1. Comment construire un test bilatéral de conformité d’une moyenne ?

Au risque α, la zone de rejet R de est définie par les valeurs critiques , telles que

: /2 où est un estimateur de taille du paramètre .

Pour une moyenne, on choisit comme estimateur de taille On détermine en utilisant

la loi de sous l’hypothèse nulle.

σ est connu vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


S X suit alors suit donc donc suit

Si Fon ne connaît pas la nature de la loi de X, mais si , alors suit

approximativement et on peut donc aussi utiliser ce test)

On en déduit les règles de décision équivalentes suivantes, selon le critère dc test retenu : on

note , la moyenne d’un n-échantillon ( ) de valeurs de

R1 : Calculer z = . si z R, rejeter

R2 : Calculer z = - si ⃓z⃓ x rejeter

R3 : Calculer z = si . Si z⃓ rejeter

Remarque. La zone d’acceptation de l’hypothèse nulle est:

x x

Compte tenu de la symétrie de la loi de par rapport à p, elle peut être obtenue

directement en recherchant un réel positif r tel que:

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


A apparaît ainsi comme un intervalle de confiance pour la moyenne de la population, centré

sur avec un niveau de confiance de

est inconnu

On sait que T = suit la loi de Student (centrée réduite) a n - 1 degrés de liberté

(tabulée page 224). Un calcul semblable au précédent donne alors:

et = où

le quantile d’ordre de la loi de Student à degrés de liberté.

si n

On en déduit les règles de décision équivalentes suivantes, selon le critère dc test retenu : on

note et , la moyenne et l’écart type d’un n-échantillon (

R1 : Calculer z = . si z R, rejeter

R2 : Calculer z = - si ⃓z⃓ x rejeter

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


R3 : Calculer z = si . Si z⃓ rejeter

(Lorsque On approche alors la loi de Student par la loi normale

centrée réduite.)

7.2. CONSTRUIRE ET UTILISER UN TEST DE COMPARAISON 7.2.1


introduction

Soient et deux variables aléatoires définies sur deux populations-mères comparables

(éventuellement confondues). On suppose qu’elles suivent des lois normales (ou


approximativement normales) qui dépendent respectivement de deux paramètres inconnus

et .

Il s’agit ici de tester l’hypothèse nulle : «ces deux paramètres sont égaux » contre l’hypothèse
alternative: «ces deux paramètres sont différents » (test bilatéral) ou «le premier est supérieur
(inférieur) au second » (test unilatéral).

Pour prendre une décision, on prélève aléatoirement, avec remise, un -échantillon de

et un -échantillon de de façon indépendante. On considère alors les estimateurs et

définis sur ces échantillons et on définit un critère de test fonction de ces estimateurs.

En supposant l’hypothèse nulle vraie, on détermine, pour un risque de première espèce


donné, la zone de rejet R. de cette hypothèse. La règle de décision est alors

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


si la valeur du critère de test, déduite des valeurs prises par et . sur chaque

échantillon respectivement, appartient à R., on rejette l’hypothèse nulle.

7.2.2. Notions, notations et résultats

7.2.2.1. Comparaison de deux moyennes

Soient et deux variables aléatoires définies sur deux populations comparables

(éventuellement confondues).

On suppose que suit une loi normale de paramètres et ., et que suit une loi

normale de paramètres et .

On dispose de deux échantillons (supposés avec remise) le premier de taille n, de moyenne

et d’écart type , le second de taille , de moyenne m et d’écart type .

On teste, au risque de première espèce α :

test bilatéral :

 : contre  :

test unilatéral :

 : contre  : ( ou )

7.2.2.2. Comparaison de deux proportions

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Soit (respectivement ) la proportion d’individus d’une certaine modalité dans une

population n°1 (resp. n°2).

On extrait deux échantillons (supposés avec remise et suffisamment grands) ; premier de

taille dans lequel la proportion d’individus présentant la modalité est égale à , le

second, de taille , dans lequel cette proportion est égale à .

On teste, au risque de première espèce α,

test bilatéral :

 : contre  :

test unilatéral :

 : contre  : ( ou )

7.2.3. Techniques

7.2.3.1. Comment construire un test bilatéral de comparaison de moyennes?

On utilise comme critère de test la variable aléatoire Z = -

On sait (ou on admet) que suit suit et que +

sont indépendantes. On a vu, au chapitre 4, qu’alors - Suit une loi normale de

moyenne et de variance D’où Z suit

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Il en résulte que, sous l’hypothèse nulle, Z suit

suit

On Se donne un risque de première espèce α (5 % ou 1 % par exemple).

On détermine les deux réels c1 et c2 tels que: P(Z < c 1) P (Z > c2) α/2.

1er cas : sont connus (peu fréquent)

P(Z < c1) P (Z > c2) α/2.

1- de la loi normale

On en déduit les règles de décision équivalentes suivantes, selon le critère de test retenu.

Remarque. La zone d’acceptation de l’hypothèse nulle est:

Compte tenu de la symétrie de la loi de Z par rapport à 0, elle peut être obtenue directement
en recherchant un réel positif r tel que

2nd cas: sont inconnus, et et tous les deux supérieurs à 30 (L’approximation

des lois de Student par des lois normales est justifiée).

On trouve en estimant les quantités inconnues par = et par =


vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


On en déduit les règles de décision équivalentes suivantes, selon le critère de test retenu.

7.3. CONSTRUIRE ET UTILISER UN TEST D’ADÉQUATION À UNE


LOI THÉORIQUE

7.3.1. Introduction

Soit X une variable aléatoire définie sur la population mère, de fonction de réparation

inconnue F. On dispose d’un n-échantillon de valeurs ( ,..., ).

On veut tester ici l’hypothèse nulle: «F est égale à la fonction de répartition F) donnée »

contre l’hypothèse alternative « F est différente de ». Soit

: = contre : au risque.

7.3.2. Notions, notations et résultats Test du 2 (o khi-deux ») de Pearson

Test du (« khi-deux ») de Pearson

On groupe les données observées ( ,..., ) dans r classes du type [ [ pour allant

de 1 à r.

Si dépend de paramètres inconnus, on estime ces derniers à partir des ainsi

regroupées.

On note: ⟦1, n⟧ = P ( ) = F( ) - F( ).

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


Sous l’hypothèse H0, on a : = F( ) - F( ). et l’effectif « théorique » de la classe numéro j

devrait être égal à .

On construit le test du «khi-deux» à partir des différences entre ces effectifs théoriques et les
effectifs observés n grâce au résultat suivant:

La statistique est la variable aléatoire qui compte le nombre de

valeurs observées dans la classe numéro j, suit approximativement une loi du khi-deux à

degrés de liberté lorsque . (La fonctiofi de répartition de cette loi est

tabulée page 225).

Pour un risque de première espèce a fixé, on détermine le réel, noté tel que P(K

(v)) = 1-α ou P(K > (v)) = 1-α .ci. Considérant que dépasser cette valeur est

rare sous l’hypothèse nulle, on rejettera celle-ci si la valeur prise par K sur l’échantillon est
supérieure à

7.3.3. Techniques

Comment réaliser un test d’adéquation à une loi théorique ?

On étudie une variable aléatoire X de fonction de répartition F.

Soit une loi de probabilité théorique caractérisée par sa fonction de répartition F0. Pour
tester

: = contre : au risque α.

à l’aide d’un échantillon de taille n de valeurs regroupées dans r classes,

(1) Estimer les paramètres de la loi théorique à partir de l’échantillon, si nécessaire.


vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


(2) Calculer ⟦1, n⟧ = P ( )= ( )- ( ).

(3) En déduire les effectifs théoriques : ⟦1, n⟧ .

(4) Calculer où les n représentent les effectifs observes pour chaque

classe.

(5) Déterminer le quantile d’ordre 1 - α et de la loi du khi-deux à

degrés de liberté.

(6) Si > (v) rejeter l’hypothèse nulle.

7.4. CONSTRUIRE ET UTIUSER UN TEST D’INDÉPENDANCE

7.4.1. Introduction

Soient X et Y deux caractères quelconques définis sur une population-mère et un échantillon


de taille n issu de cette population.

On dispose d’observations réparties en r (r > 1) classes ou modalités pour le caractère X et


en s (s > 1) classes ou modalités pour le caractère Y.

On veut tester ici l’hypothèse nulle : «les caractères X et Y sont statistiquement

indépendants » contre l’hypothèse alternative : « X et Y ne sont pas statistiquement

indépendants

7.4.2. Notions, notations et résultats

7.4.2.1. Définition

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


En munissant l’échantillon de l’équiprobabilité P (voir chapitre 3), on définit la propriété
d’indépendance statistique de la façon suivante: les deux caractères X et Y sont
statistiquement indépendants si, et seulement si, pour tout i de 1 à r et pour tout j de 1 à s :

) )) = ) ))

où est la i-ème classe (ou modalité) du premier caractère et la j-ème classe (ou

modalité) du second.

7.4.2.2. Propriété

On note le nombre d’observations, parmi les de l’échantillon, appartenant à C

et à , puis et On rappelle que n = =

Si X et Y sont deux caractères statistiquement indépendants dont les distributions sont

définies respectivement par les effectifs ( )1 et ( .) 1 , alors les effectifs des

observations appartenant à la i-ème classe du premier caractère et à laj-ème classe du second


sont égaux à

En effet, pour tout i de 1 à r et pour tout j de 1 à s

) )) = )= ))

On construit alors le test d’indépendance à partir de la distance du khi-deux entre ces


effectifs théoriques et les effectifs observés.

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue


7.4.3. Techniques

Comment réaliser un test d’indépendance?

Soient X et Y deux caractères quelconques définis sur une même population.

Pour tester : «les caractères X et Y sont indépendants » contre : « X et Y ne sont pas

indépendants », au risque de 1ère espèce et, à l’aide d’un échantillon de taille n issu de cette
population

(1) Calculer pour tout i de 1 à r :

et pour tout j de 1 à s :

(2) Calculer les effectifs théoriques, pour tout i de 1 à r et pour tout j de 1 à s

(3) calculer

(4) (v) le quantile d’ordre 1 - α et de la loi du khi-deux à

degrés de liberté.

(5) Si > (v) rejeter l’hypothèse nulle.

vii

PROBABILITÉS ET STATISTIQUES Francis DJANNA KOFFI / Rodrigue

Vous aimerez peut-être aussi