Vous êtes sur la page 1sur 20

Département TECHNIQUES DE COMMERCIALISATION

MATHEMATIQUES

Semestre 3

________ Lois de probabilités ________

COURS

Cours en ligne : sur http://jff-dut-tc.weebly.com section DUT Maths S3.

____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S3 – LoisProba – Cours – Rev2019 – page 1 sur 20
SOMMAIRE

INTRODUCTION ET HISTORIQUE 3

COURS 5

1 LOIS DE PROBABILITE DISCRETES .............................................................................................................. 5

1.1 CAS GENERAL : RAPPELS 5


1.2 LA LOI HYPERGEOMETRIQUE 6
1.3 LA LOI BINOMIALE 7
1.4 LA LOI DE POISSON 8

2 UNE LOI DE PROBABILITES CONTINUE : LA LOI NORMALE ......................................................................... 9

2.1 CONVERGENCE DES LOIS DISCRETES 9


2.2 VARIABLE ALEATOIRE REELLE (V.A.R.) CONTINUE 10
2.3 LA LOI NORMALE (OU LOI DE LAPLACE) 11

3 DISTRIBUTIONS D'ECHANTILLONNAGE.................................................................................................... 14

3.1 INTRODUCTION 14
3.2 ECHANTILLONNAGE ALEATOIRE 14
3.3 DISTRIBUTION D'ECHANTILLONNAGE DES MOYENNES 14
3.4 DISTRIBUTION D'ECHANTILLONNAGE DES PROPORTIONS 15

4 ESTIMATION (INFERENCE STATISTIQUE) ................................................................................................. 16

4.1 ESTIMATION PONCTUELLE 16


4.2 ESTIMATIONS PAR INTERVALLES DE CONFIANCE 16

5 TESTS STATISTIQUES ............................................................................................................................... 17

5.1 TEST DU χ² D'ADEQUATION D'UNE DISTRIBUTION A UNE LOI 17


5.2 TESTS DE CONFORMITE D'UNE MOYENNE, D'UNE PROPORTION 18
5.3 LES RISQUES (NON EXIGIBLE) 19

____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S3 – LoisProba – Cours – Rev2019 – page 2 sur 20
INTRODUCTION ET HISTORIQUE
Petit historique de la loi Normale

À la fin du XVIIe siècle, Jakob Bernoulli ouvre la voie avec la loi binomiale en
évaluant les chances de chaque nombre de succès lors de n répétitions d'une
même expérience. Il est vite confronté à la difficulté du calcul des factorielles.
Dans la première moitié du XVIIIe siècle, Abraham
de Moivre s'intéresse lui aussi au calcul des
chances et découvre une formule donnant (de
manière approchée) la factorielle d'un nombre :
n
n
n! ≈ 2πn   .
e
(pour n > 8, erreur < 1 % ; n augmente : %erreur diminue)
Cette formule sera améliorée par Leonhard Euler au
milieu du siècle, pour obtenir une égalité :
+∞
−x
n! = ∫e
0
x n .dx . La fonction intégrée ici donne une courbe en cloche

  n n 
caractéristique, dont le sommet a pour coordonnées  n,    . Cette formule
 e 
 
sera redémontrée par Laplace, grâce aux travaux d'Euler.

À partir du milieu du XVIIIe siècle, avec Euler, puis avec Pierre Simon de Laplace et
Legendre, se développe la théorie des erreurs (née pour faciliter le travail des
astronomes) : à partir de plusieurs mesures fluctuantes du même objet ou
phénomène, des erreurs ou imprécisions étant commises, quelle valeur unique peut
correspondre à la réalité ? Apparaissent alors la loi de facilité de la mesure
(distribution des valeurs) et de la moyenne (distribution d'échantillonnage des
moyennes). Ces distributions sont de toutes formes suivant le cas concret.
Le cas général de la théorie des erreurs est un problème toujours non résolu.

Entre 1790 et 1800, Carl Friedrich Gauss, le "prince


des mathématiciens", invente et développe la méthode des moindres carrés. Il
l'applique à la théorie des erreurs en affirmant que pour rendre compte d'une
série de valeurs xi, la meilleure valeur centrale est celle, x, qui minimise Σ(xi - x)².
Dans des distributions simples, x se trouve être la moyenne arithmétique des xi,
et c'est aussi le cas pour une distribution en cloche (qui est également
caractéristique d'une distribution des moyennes d'échantillons de même taille
pris dans la population de départ). Ces travaux sont les seuls dans lesquels Gauss
fait mention de la fameuse courbe en cloche, dont la fonction existait déjà - c'est
pourquoi la dénomination "courbe de Gauss" est erronée.

Laplace objectera, relativement aux travaux de Gauss sur ce sujet, que si une
distribution en cloche donne une distribution d'échantillonnage en cloche, il n'est
pas fait mention des innombrables cas concrets qui ne se comportent pas de cette
façon. Pour lui, ces travaux ne sont qu'une vue de l'esprit et sont, en plus, circulaires
(une courbe en cloche… va forcément en donner une autre). Dans les années 1810, il
montre que si les valeurs sont de loi uniforme sur un segment (densité de probabilité
constante, sur un intervalle de moyenne x), alors la distribution d'échantillonnage
des échantillons de taille n suffisamment grande est en cloche, de moyenne x et
dont l'écart-type approche x/√(3n).

____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S3 – LoisProba – Cours – Rev2019 – page 3 sur 20
Puis il énonce un théorème qui est la pierre angulaire de l'inférence statistique :
théorème de Laplace (aujourd'hui théorème central limit) :
Quelle que soit la distribution des valeurs, pour n assez grand, la distribution d'échantillonnage des
moyennes est normale (courbe en cloche), de moyenne la moyenne arithmétique des valeurs et dont l'écart
type est calculable simplement par une formule du type de celle citée au-dessus.
Il formalise par là même sa loi de Laplace, c'est-à-dire la loi normale.

Au XIXe siècle apparaît le métier de statisticien (dans tous les domaines, on a besoin
de savoir de quelle façon se comporte telle ou telle population). Le plus célèbre et
prolifique, à cette époque, était sans doute Adolphe Quételet, qui publia une analyse
de la philosophie de Laplace, de nombreuses séries de données concrètes suivant des
courbes en cloche, et notamment les "tours de poitrine de 4000 soldats écossais"
dont la distribution suit parfaitement ce genre de courbe. En effet, le tour de poitrine
d'une personne est la somme de nombreux facteurs plus ou moins indépendants
entre eux et plutôt aléatoires (génétique, alimentation, activité sportive, …) et la
distribution d'une somme, comme celle d'une moyenne, est normale ! (th. de
Laplace). Il est aussi le premier, bien tardivement, à tracer une de ces fameuses
"courbes en cloche" !

Tout n'est pas forcément normal

Dans la seconde moitié du XIXe siècle, les statisticiens montrent que tout ne correspond pas à une loi normale.
Par la suite, d'autres lois continues ou discrètes seront créées pour modéliser un certain nombre de situations
concrètes. Par exemple :
* la loi de Poisson, très dissymétrique, dans le cas des événements rares,
* celle de Pareto (distributions de revenus, …), dissymétrique également,
* la loi exponentielle et ses dérivées pour les durées de vie, etc.
D'autres lois existaient aussi avant que la loi normale ne fût créée :
* la loi uniforme où la probabilité de toute valeur est la même (lancer de dé, choix d'un réel entre 0 et 1, …),
* la loi binomiale de Bernoulli,
* la loi géométrique traitant du nombre d'essais avant le premier succès, en loi binomiale,
* la loi hypergéométrique, en parallèle de la loi binomiale, mais interdisant les répétitions, etc.
On construisit aussi (début XXe siècle) des lois d'ordre supérieur, tenant compte de "degrés de liberté" :
* la loi de Student (distribution des moyennes, construite sur deux variables X et S)
* la loi du χ² (évaluation des différences entre une loi et une distribution réelle), etc.

À l'aube du XXe siècle, les statisticiens anglais, comme Pearson, Student (William Sealy Gosset) ou Fisher
commencent à développer une véritable méthodologie statistique, c'est à dire une théorie bien formalisée de
l'inférence (tirer des conclusions sur une population à partir d'un ou plusieurs échantillons) en créant et
étudiant des lois de probabilités à partir de phénomènes : ils imposent, entre 1900 et 1950, une interprétation
"objectiviste" ou "fréquenciste" du concept de probabilité.
À partir des années 1950, une controverse s'est exprimée sous le nom de courant "néo-Bayesien" pour lequel
l'inférence statistique ne saurait s'appuyer sur les seules données recueillies, mais nécessite aussi la prise en
compte de la connaissance a priori des modèles probabilistes sous-jacents. Il s'agit là de l'interprétation
"subjectiviste".

Des outils toujours plus puissants pour calculer


Avec l'informatique, un nouveau courant a pu prendre son essor : "l'analyse de données multidimensionnelles".
Il consiste à décrire, classer et simplifier des données recueillies en grande masse (par exemple, consulter 3000
individus sur chacun desquels on recueille 80 informations). De là, les résultats observés et croisés peuvent
suggérer des lois, des modèles ou des explications sans que l'on soit contraint de porter un jugement
relativement à des lois arbitraires établies par avance et auxquelles on les comparerait.

____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S3 – LoisProba – Cours – Rev2019 – page 4 sur 20
LOIS DE PROBABILITES - COURS

1 Lois de probabilité discrètes


1.1 Cas général : rappels
On considère un objet ou un ensemble d'objets sur le(s)quel(s) on conçoit une expérience aléatoire dont les
issues forment un univers des possibles partitionné en un certain nombre d'événements.

exemple :
objets : deux dés
expérience : les lancer, puis noter le total
univers : Ω = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} (issues non équiprobables)
partition de Ω : E1 : "inférieur à 7" ; E2 : "de 7 à 10" ; E3 : "11 ou 12"

À chaque événement Ei, on peut attribuer une valeur xi : un gain, aléatoire, à l'image du prochain résultat -
imprévisible - de l'expérience ; les xi forment donc ce qu'on nomme une variable aléatoire, notée X.

événements : E1 E2 E3
gain X (€) : -3 1 5

Pour chaque gain, on doit être capable de calculer la probabilité de l'événement associé.
Cela s'appelle "obtenir la loi de probabilité de X".

gain X (€) : -3 1 5
pi ou p(X = xi) : 15/36 18/36 3/36

Interprétation, utilité des probabilités :


Sur un grand nombre de parties, on va gagner ou perdre à peu près selon les proportions indiquées par ces
probabilités. Par exemple ici : toutes les 36 parties, on aura en moyenne 15 pertes de 3 €, 18 gains d'1 € et
3 gains de 5 € ; soit, en cumulant : une perte globale de 12 € en moyenne toutes les 36 parties.

Ce résultat global se convertit par partie : 12/36 = 0,33 environ.


On peut dire qu'à long terme, on aura en moyenne une perte de 33 centimes par partie. Cette valeur porte
le nom d'espérance (mathématique) de X : E(X).
n
Cette espérance de gain se calcule dans tous les cas par une formule unique : E ( X ) = ∑ pi xi
i =1

où n est le nombre de valeurs de X (de colonnes du tableau).

Ces prévisions à long terme nous font regarder le tableau précédent comme une série statistique, dans
laquelle les probabilités seraient des fréquences réelles d'apparition des valeurs de X (alors qu'elle n'en
sont que des fréquences "idéales"). Dans ce contexte, on peut traiter statistiquement ce tableau, en
obtenant par exemple un écart type de X, σ(X).

V ( X ) = ∑ pi xi2 − E ( X ) = E ( X 2 ) − E ( X )
n
; σ( X ) = V ( X )
2 2

i =1

____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S3 – LoisProba – Cours – Rev2019 – page 5 sur 20
1.2 La loi hypergéométrique
On restreindra ici son étude dans le cas d'une partition de Ω en deux (un événement et son contraire).

1.2.1 Définition et mise en œuvre


La loi de probabilité d'une variable aléatoire X est hypergéométrique ssi :
* une expérience est conduite n fois sans répétition possible d'une éventualité, dans le cadre d'une
partition de Ω en un événement (succès) et son contraire (échec) et dans le cadre des combinaisons.
* X désigne le nombre de succès obtenus au bout de n essais.

Considérons un univers Ω composé de N issues, partitionné en deux événements :


A, constitué de a issues, appelées succès
A , constitué des N - a issues restantes, appelées échecs.
Une expérience est menée n fois de suite, sans répétition possible d'une issue d'une fois sur la suivante
(donc n ≤ N). On aura alors obtenu un nombre k de succès, aléatoire, inférieur à n (nombre d'essais), et
inférieur à a (nombre total d'issues "succès" disponibles), et un nombre n - k d'échecs, inférieur à N - a
(nombre total d'issues "échecs").
X est ici la variable aléatoire donnant le nombre k de succès au bout des n tentatives.

Alors la loi de probabilité de X est hypergéométrique de paramètres n, a et N.


On la note : H (n , a , N).

1.2.2 Calcul des probabilités


Le dénombrement des possibilités à l'issue des n tentatives est : C Nn
Le dénombrement des possibilités contenant k succès est : C ka × CNn −−ka

Cka × CNn −−ka


La probabilité d'avoir obtenu k succès est donc : p ( X = k ) =
CNn

1.2.3 Moyenne et variance


Dans ce cadre, ces paramètres sont obtenus par des formules relativement simples :
a a (N − a ) N − n
E( X ) = n × V( X ) = n × ×
N N2 N−1

Remarque : si nous notons "p" la probabilité de succès lors de la première tentative, et "q" la probabilité
a N− a
d'échec correspondante, on peut remarquer que : p = et q =
N N
N− n
Ainsi les formules précédentes deviennent : E ( X ) = np et V ( X ) = npq ×
N−1

____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S3 – LoisProba – Cours – Rev2019 – page 6 sur 20
1.3 La loi binomiale
1.3.1 Définition et mise en œuvre
La loi de probabilité d'une variable aléatoire X est binomiale ssi :
* une expérience est conduite n fois avec répétition possible d'une éventualité, dans le cadre d'une
partition de Ω en un événement (succès) et son contraire (échec) et dans le cadre des p-listes.
* X désigne le nombre de succès obtenus au bout de n essais.

a. Schéma de Bernoulli
Considérons une expérience aléatoire représentée par un univers Ω.
L'événement A, appelé succès, a pour probabilité p(A) notée p.
Son contraire, appelé échec, a pour probabilité q = 1 - p.
b. Loi binomiale
On effectue l'expérience décrite précédemment n fois de suite, dans des conditions identiques, c'est à
dire : p est invariable.

Soit X la variable aléatoire qui donne le nombre k de succès à l'issue des n essais.
Alors la loi de probabilité de X est binomiale de paramètres n et p.
On la note : B (n ; p).

1.3.2 Calcul des probabilités


Un arbre ("schéma de Bernoulli à n niveaux") nous permet ici de justifier l'emploi de la formule générale qui
sera donnée en-dessous - dans cet exemple, l'expérience est répétée trois fois : n = 3 ; A est le succès.

Les nombres de succès, valeurs de X, sont mis en relation avec les probabilités des intersections
d'événements, à droite de l'arbre. La probabilité que X = 1, par exemple, est donc le cumul des probabilités
d'intersections correspondantes, qui valent toutes pq². Ainsi : p(X = 1) = 3pq². Pourquoi 3 chemins dans
l'arbre mènent-ils à X = 1 ? Parce qu'il y a trois façons de combiner un succès parmi trois essais.
En généralisant, la probabilité d'avoir obtenu k succès est donc : p ( X = k ) = Cn p q
k k n−k

1.3.3 Moyenne et variance


Dans ce cadre, elles sont obtenues par des formules simples : E ( X ) = np V ( X ) = npq

1.3.4 Approximation d'une loi hypergéométrique par une loi binomiale


Dans le cas où N ≥ 20n, la loi H (n, a, N) peut être approchée de manière fiable
par la loi B (n, p) où p = a/N.

____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S3 – LoisProba – Cours – Rev2019 – page 7 sur 20
1.4 La loi de Poisson
1.4.1 Existence
Dans de nombreux cas, le nombre de valeurs différentes que peut prendre une variable aléatoire X est très
important. Le calcul d'une probabilité impliquera alors des nombres de combinaisons immenses, (avec
également des puissances très grandes si la loi est binomiale), qu'un ordinateur, même actuel, peut ne pas
pouvoir traiter. De plus, dans les cas où un succès est un événement rare, il n'est pas très utile d'être
capable de calculer les probabilités extrêmement faibles des nombreuses situations irréalistes de grands
nombres de succès (très éloignés du faible nombre moyen de succès attendus).

Cela se produit concrètement par exemple :


* dans l'examen d'un échantillon d'une grande quantité produite, ou récoltée, dans le cas où la
probabilité p qu'un élément soit défectueux est faible :
Ici, les n prélèvements parmi N éléments produits/récoltés sont faits sans remise, d-où une loi
hypergéométrique ; mais n est très petit devant N, donc on peut utiliser une loi binomiale de manière
fiable ; de plus, n étant en général lui aussi assez grand et la probabilité p étant très faible, il sera
possible de modéliser cette loi binomiale par une loi de Poisson, là aussi de manière fiable.
* dans l'analyse d'un nombre d'accidents ou de pannes, ou autres événements rares, étudiés sur une
population nombreuse (compagnies d'assurances, etc.).
* dans les problèmes de longueur de file d'attente

Dans le cadre d'une loi binomiale ou hypergéométrique, sous certaines conditions, on pourra donc utiliser
un modèle approximatif, une loi de Poisson, dont les résultats seront assez proches de la réalité.

1.4.2 Définition et calcul d'une probabilité


Il s'agit d'une loi définie pour une variable aléatoire théorique X susceptible de prendre comme valeurs k
tous les entiers naturels (0, 1, 2, 3, 4, … "jusqu'à l'infini").

λk
Le calcul d'une probabilité est par définition : p ( X = k ) = e
−λ

k!
k est le nombre de succès envisagé, entier positif,
e désigne l'exponentielle,
λ est l'espérance (la moyenne) de X.

La loi de probabilité de X est la loi de Poisson de paramètre λ, P (λ).

1.4.3 Moyenne et variance


Dans ce cadre, elles valent simplement : E ( X ) = λ V( X ) = λ

1.4.4 Approximation d'autres lois par une loi de Poisson


Soit une variable aléatoire X dont la loi est B (n, p).
Pour n "assez grand" (n > 30) et pour p "faible" (p ≤ 0,1) tels que npq ≤ 10,
la loi B (n, p) est approchée de manière fiable par la loi P (λ) où λ = E(X) = np.

Soit une variable aléatoire X dont la loi est H (n, a, N).


Pour N ≥ 20n, n > 30 et a/N ≤ 0,1,
la loi H (n, a, N) est approchée de manière fiable par la loi P (λ) où λ = E(X) = na/N.

____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S3 – LoisProba – Cours – Rev2019 – page 8 sur 20
2 Une loi de probabilités continue : la loi Normale
2.1 Convergence des lois discrètes
Représentons quelques distributions de probabilités, en choisissant n, a, N :
n = 10, a = 500, N = 5000 n = 50, a = 500, N = 5000 n = 200, a = 500, N = 5000

On peut faire un certain nombre de remarques :


* dans cet exemple, p = 0,1. Cette probabilité de succès n'est pas très faible, ce qui fait que le critère de
fiabilité "np < 10" de la loi de Poisson n'est pas partout respecté.
* la taille de la population (N = 5000) est plutôt grande devant n, ce qui fait que les résultats des lois
hypergéométrique et binomiale sont assez similaires.
* plus n augmente, plus la distribution des probabilités semble symétrique, autour d'une valeur qui est
en fait la moyenne, l'espérance, de la série, dans chaque cas.
* plus n augmente, plus la distribution des probabilités semble suivre une courbe, dont on sent qu'elle
pourrait être unique, ou en tout cas qu'elle pourrait appartenir à une unique famille de fonctions.

Pourrait-on alors, sous certaines conditions portant sur n et p, définir une loi unique qui décrirait la réalité
de manière suffisamment fiable et rapide ?

* Lorsque n devient grand, il n'est plus très pertinent de chercher la probabilité d'une valeur de X
ponctuelle "noyée" parmi un grand nombre d'autres possibilités. Il serait plus judicieux de chercher
la probabilité que X se trouve dans tel ou tel intervalle.

Cette loi unique pourrait-elle être décrite en termes d'intervalles plutôt que de valeurs ?

On voit ici l'opportunité d'une nouvelle loi de probabilités, continue, qui engloberait les lois discrètes
existantes, pour de grandes populations, au sein desquelles on choisirait de grands échantillons (mais qui,
de préférence, restent petits comparés à la population).

____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S3 – LoisProba – Cours – Rev2019 – page 9 sur 20
2.2 Variable aléatoire réelle (v.a.r.) continue
2.2.1 Notion statistique de distribution "continue"

2.2.2 Variable aléatoire continue


Plaçons-nous dans le cas idéal où la variable aléatoire X peut prendre une valeur quelconque dans l'infinité
des nombres réels, à partir d'une population de taille ainsi infinie.

Dans ce contexte, la "concentration des fréquences" se nomme "densité de probabilité".


Une densité de probabilité de X est une fonction f positive et continue sur ℝ et telle que ∫ f ( x ).dx = 1

où une probabilité correspond à une surface comprise entre la courbe et l'axe (Ox).
3, 7

Par exemple (TD), la probabilité que la masse d'une pièce soit inférieure à 3,7 kg est ∫ f ( x ).dx .
−∞
La fonction de répartition de X est la fonction F qui, à une valeur x, associe le nombre F(x) = p(X < x).

y = f (x) y = f (x)

F (3,85)
F (3,7)

F est une fonction croissante de x.

y = F (x)
F (3,85)

F (3,7)

Remarques :
* la courbe d'une fonction densité de probabilité ne possède pas forcément d'axe de symétrie,
contrairement à ce que les représentations graphiques ci-dessus pourraient laisser penser ; ces
dernières sont celles d'une densité selon la loi normale, qui présente en fait une symétrie.

* l'espérance d'une variable aléatoire continue est : E ( X ) = ∫ x × f ( x ) .dx .


* la variance d'une variable aléatoire continue est : V ( X ) = ∫ ( x − E ( X ) ) × f ( x ) .dx , définition à partir


2

( )
de laquelle on retrouve d'ailleurs la propriété déjà connue : V ( X ) = E X 2 − E ( X ) .
2

____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S3 – LoisProba – Cours – Rev2019 – page 10 sur 20
2.3 La loi normale (ou loi de Laplace)
Comme on l'a entrevu, dans le cas d'une grande population et d'un grand nombre de mesures ou tirages
effectués dans celle-ci, de nombreux phénomènes concrets, ainsi que les lois de probabilités discrètes,
peuvent être modélisés par des densités de probabilité de forme caractéristique.
− a ( x −b )
2
Ces fonctions f ont pour expression générale : f ( x ) = k .e
Les courbes correspondantes sont des "courbes en cloche".

2.3.1 Définition générale : la loi normale N (µ , σ)


Soit une variable aléatoire X, de moyenne µ et d'écart type σ. (E(X) = µ ; V(X) = σ²)
On dit que sa loi de probabilité est N (µ , σ) lorsque sa densité de probabilité s'exprime par :
2
1  x −µ 
1 − 
f ( x) =

2 σ 
e
σ 2π
Un exemple : densité de probabilité de la loi N (25 , 10) :

σ σ

µ
15 25 35

Remarque 1 : les courbes de ces fonctions sont des "courbes en cloche" (dites "courbes de Gauss").
Remarque 2 : Une telle courbe possède deux points d'inflexion, aux abscisses µ - σ et µ + σ.
On peut donc se représenter l'écart type graphiquement.
Remarque 3 : on peut retenir quelques résultats-types :
p(µ - σ < X < µ + σ) = 68,3 % environ p(µ - 1,96σ < X < µ + 1,96σ) = 95 % environ

p(µ - 2σ < X < µ + 2σ) = 95,4 % environ p(µ - 2,58σ < X < µ + 2,58σ) = 99 % environ

Remarque 4 : il n'existe pas de définition du terme "normal" pour un individu. Seule une population peut
présenter une distribution normale, nommée ainsi car on s'est aperçu qu'elle reflétait un
grand nombre de cas concrets.

____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S3 – LoisProba – Cours – Rev2019 – page 11 sur 20
2.3.2 La loi normale centrée réduite N (0 , 1)
On pourra l'utiliser comme référence (parfois imposée, parfois nécessaire…).
Pour cette loi particulière, de moyenne 0 et d'écart type 1, la variable sera notée U et ses valeurs u.

La remarque 3 du 2.3.1 ci-dessus donne ici :


p(-1 < U < 1) = 68,3 % environ
p(-1,96 < U < 1,96) = 95 % environ
p(-2 < U < 2) = 95,4 % environ
p(-2,58 < U < 2,58) = 99 % environ

Un grand nombre de valeurs de F(u) = p(U < u)


sont données dans une table (formulaire).
Utilisation de la table :
Celle-ci donne des valeurs des probabilités p(U < u) avec u positif.

Ces valeurs sont suffisantes pour permettre de répondre à d'autres questions, grâce à des formules :

a b a -a a
p(a < U < b) = p(U < b) - p(U < a) p(U > a) = 1 - p(U < a) p(U < -a) = p(U > a)

2.3.3 Changement de variable : passage de N (µ , σ) à N (0 , 1)

On est parfois dans l'incapacité de résoudre un problème dans une loi normale "non centrée réduite",
notamment lorsqu'un paramètre reste inconnu. Il conviendra alors de se ramener à la loi N (0 , 1).
X −µ
X est distribuée par N (µ , σ) ⇔ U = est distribuée par N (0 , 1).
σ
U est distribuée par N (0 , 1) ⇔ X = µ + U σ est distribuée par N (µ , σ).

 X −µ 
Ainsi : p ( X < x ) = p  U <
 σ 

Quelle que soit la variable employée, la


probabilité cherchée est l'aire d'une
unique zone colorée. Appliquer le
changement de variable donné ci-dessus
ne fait que modifier les valeurs portées en
abscisses, mais ne déforme pas la courbe !
Par exemple, l'abscisse µ +0,5σ pour X
correspond à l'abscisse 0,5 pour U (d'après
le changement de variable) et donc
p(X < µ + 0,5σ) = p(U < 0,5).

____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S3 – LoisProba – Cours – Rev2019 – page 12 sur 20
2.3.4 Approximation d'autres lois par une loi normale
On a vu que lorsque n devient grand, les lois hypergéométrique, binomiale et de Poisson deviennent
proches d'une loi normale. Lorsqu'on se trouve dans le cas d'une d'elles, on peut utiliser une loi normale
(qui donnera des probabilités proches de la réalité) sous les conditions suivantes :

Critères d'approximation d'une loi binomiale par une loi normale :


Avec B (n , p), si n > 30, np > 5 et nq > 5, alors on peut utiliser N (µ , σ) avec µ = np et σ = npq

Critères d'approximation d'une loi de Poisson par une loi normale :


Avec P (λ), si λ > 20, alors on peut utiliser N (µ , σ) avec µ = λ et σ = λ

2.3.5 Calcul d'une probabilité discrète


Dans un problème discret, où la v.a.r. X peut prendre des valeurs par exemple entières, on peut vouloir
calculer p(X = k). Or la loi normale ne permet que de calculer des probabilités sur des inégalités.
Dans ce cas, on appliquera la règle suivante : p(X = k) = p(k - 0,5 < X < k + 0,5)

2.3.6 Conséquence importante


Les deux lois citées ici, binomiale et Poisson, sont discrètes, si bien que X ne peut prendre que des valeurs
entières : X = 3,8 n'a pas de sens pour elles, par exemple. Or on a vu dans le point 2.3.5 que l'emploi de la
loi normale pour modéliser un cas discret transformait tout entier en un intervalle de largeur 1 autour de
cet entier.
Dans ces cas discrets, les nombres 3, 0, ou -8 par exemple, seront à traduire en loi normale par les
intervalles [2,5 ; 3,5], [-0,5 ; 0,5], [-8,5 ; -7,5]. Quant à la probabilité que X soit supérieur ou égal à 10, elle
s'exprimera à travers une loi normale par p(X > 9,5), la probabilité que X soit strictement supérieur à 10
deviendra à travers une loi normale p(X > 10,5), la probabilité que X soit égal à 10 étant p(9,5 < X < 10,5).

____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S3 – LoisProba – Cours – Rev2019 – page 13 sur 20
3 Distributions d'échantillonnage
3.1 Introduction
Connaissez-vous une opération où l’on consulte la population française dans sa totalité ?
…pour connaître différentes informations ?
Les moyens déployés sont énormes. Il faut plus d’une année pour recueillir et dépouiller l’ensemble des
données et aussi un nombre impressionnant d’enquêteurs pour sillonner tout le pays. Bien sûr on ne peut
pas faire cela pour chaque enquête ou chaque sondage. En sélectionnant une partie de la population, on
obtient une représentation assez proche de la réalité. Cette sélection, plus ou moins "représentative", est
appelée échantillon.
Des méthodes de sondage existent, pour construire un échantillon représentatif de la population.
L'objectif de cette partie est de savoir dire, à partir d'une population parfaitement connue, comment se
comportent forcément les échantillons que l'on peut en tirer.

Conventions de notations :
Les paramètres de la population seront désignés par des lettres grecques :
moyenne : µ ; écart-type : σ ; proportion : π
Les paramètres d'un échantillon seront désignés par des lettres de notre alphabet :
moyenne : x ; écart-type : s ; proportion : p

3.2 Echantillonnage aléatoire


Il existe deux principaux types d'échantillonnage aléatoire :
* l'échantillonnage aléatoire simple (EAS), au cours duquel la répétition d'un individu est permise et l'ordre
du choix est pris en compte (ce qui s'apparente aux p-listes en dénombrements et à la loi binomiale en
probabilités),
* l'échantillonnage exhaustif, au cours duquel la répétition d'un individu n'est pas permise et l'ordre du
choix n'est pas pris en compte (ce qui s'apparente aux combinaisons en dénombrements et à la loi
hypergéométrique en probabilités).

3.3 Distribution d'échantillonnage des moyennes


Soit une population sur les individus de laquelle on souhaite étudier une variable aléatoire X.
Imaginons qu'une fois un effectif n choisi on puisse en extraire tous les échantillons de taille n.
Sur l'échantillon n° k, on a été capable de calculer la moyenne xk .

On note X la variable aléatoire moyenne des échantillons de taille n , dont les valeurs sont les xk .
On appelle distribution d’échantillonnage des moyennes la distribution de l’ensemble des xk , c’est à dire
la loi de probabilité de la variable aléatoire X .

Soit une population de grande taille (N > 30), sur laquelle on étudie une variable X, de moyenne µ et d'écart
type σ. Chaque échantillon de n individus présente une moyenne xk plus ou moins proche de µ.
Si n est suffisamment grand (n ≥ 5),
 σ   σ N−n 
alors X est distribuée par N  µ ,  en EAS, et par N  µ ,  en éch. exhaustif.
 n  n N − 1 

Remarque 1 : dans le cas où N > 20n (échantillon représentant moins du vingtième de la population), on
N− n
peut dire que le coefficient vaut approximativement 1 et donc ne pas le citer. Un
N−1
échantillonnage exhaustif (dans la pratique) pourra donc être considéré comme un EAS.
Remarque 2 : Si, dans un exercice, aucune comparaison entre N et n n'est possible, on considérera toujours
que l'on peut se ramener à un EAS.

____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S3 – LoisProba – Cours – Rev2019 – page 14 sur 20
Remarque 3 : (issue du Théorème "central limit") Plus N est grand, plus la loi de probabilité de X tend
vers une loi normale, et ce, quelle que soit la loi de probabilité de X.
Remarque 4: dans le cas où n est petit (< 5), la distribution de X n'est pas proche d'une loi normale.
Cependant, ses moyenne et écart type sont toujours ceux annoncés dans l'encadré.

Exemple : Soit une population de chiffres : Ω = {0, 1, 2, 3, 4, 5} (N = 6), de distribution uniforme.


Sa moyenne vaut : µ = 2,5 et son écart-type vaut : σ = 1,7078.
On liste ci-dessous tous les échantillons de taille 2 (EAS) : (en gras : l'échantillon ; à côté : sa moyenne)

Maintenant on s'intéresse à la distribution statistique de toutes ces moyennes d'échantillons :


σ
leur moyenne est : 2,5 ! leur écart-type est : 1,2076… or = 1,2076 !
n

On liste ci-dessous tous les échantillons de taille 2 (exhaustif) : (gras : échantillon ; à côté : moyenne)

Maintenant on s'intéresse à la distribution statistique de toutes ces moyennes d'échantillons :


σ N−n
leur moyenne est : 2,5 ! leur écart-type est : 1,0801… or = 1,0801 !
n N−1

3.4 Distribution d'échantillonnage des proportions


Soit une population de taille N sur laquelle on sait que a individus possèdent le caractère A. La proportion
a
de tels individus est donc dans la population : π = .
N

On note P la variable aléatoire proportion listant les valeurs pk relevées sur les échantillons de taille n.
On appelle distribution d’échantillonnage des proportions la distribution de l’ensemble des valeurs pk ,
c’est à dire la loi de probabilité de P.

Soit une population de grande taille (N > 30), sur laquelle on a relevé une proportion π d'un certain
caractère. Chaque échantillon de n individus présente une proportion pk plus ou moins proche de π.
Si n est suffisamment grand (n ≥ 5),
 π (1 − π )   π (1 − π ) N − n 
alors P est distribuée par N  π ,  en EAS, et par N  π ,  en éch. exhaustif.
 n   n N−1 
   

Remarque : justifions les résultats précédents dans le cadre de l'EAS. Soit la variable Y donnant dans
chaque échantillon de taille n le nombre d'individus présentant le caractère A. La loi de Y est ainsi la
loi binomiale de paramètres n et π. Rappels : E(Y) = nπ et V(Y) = nπ (1 - π).
π (1 − π )
De plus : P = Y/n , ce qui donne pour ces paramètres : E(P) = π et V(P) = .
n
Les quatre remarques de la partie 3.3 sont applicables ici aussi.

____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S3 – LoisProba – Cours – Rev2019 – page 15 sur 20
4 Estimation (inférence statistique)
problématique : une population de grande taille est à étudier. Elle est partiellement ou totalement
inconnue. On en prélève un échantillon. Dans quelle mesure est-il représentatif de la population ? Les
mesures effectuées sur celui-ci sont-elles fiables pour estimer la réalité inconnue de la population entière ?

4.1 Estimation ponctuelle


On placera un ^ sur un paramètre pour dire que l'on en fait une estimation.

La moyenne et la proportion prélevées sur un échantillon servent d'estimations pour la population.


µˆ = x ; πˆ = p
(on avait en effet constaté dans les parties 3.3 et 3.4 que X était centré sur µ et que P était centré sur π.
On dit que les variables X et P sont des estimateurs sans biais)
La variance s² relevée sur un échantillon n'est pas une bonne estimation de celle, σ², de la population. Elle
n n
doit être corrigée : σˆ 2 = s2 × ; σˆ = s × (estimateur biaisé)
n −1 n −1

4.2 Estimations par intervalles de confiance


La connaissance d'une estimation ponctuelle ne donne aucune information sur la précision avec laquelle on
a estimé le paramètre de la population. En effet, un échantillon pourrait très mal rendre compte de cette
population, n'être pas très "représentatif" au vu d'un critère particulier.
L'intervalle de confiance a été créé pour répondre au problème posé dans la remarque ci-dessus. Par
exemple, autour d'une moyenne x trouvée sur un échantillon, on construira un intervalle "qui aura 95 %
de chances" de contenir la moyenne µ de la population.
On appelle seuil de risque, α, la probabilité que l'intervalle de confiance ne contienne pas le paramètre à
estimer. En général, on s'intéresse à α = 5 % ou α = 1 %.
On appelle niveau de confiance la probabilité que l'intervalle de confiance contienne le paramètre à
estimer. Il vaut donc 1 - α et donc on choisit couramment 95 % ou 99 %.

4.2.1 Estimation de la moyenne


La méthode de construction de cet intervalle dépendra de la connaissance ou non de σ.

 σ σ 
Si σ est connu : Iα =  x − u ; x +u 
 n n
On utilise la variable U distribuée par la loi N (0 , 1), en déterminant sa valeur u telle que :
p(-u < U < u) = 1 – α.
Par exemple, pour α = 5 %, u = 1,96 et pour α = 1 %, u = 2,58.

 s s 
Si σ est inconnu : Iα =  x − t ; x +t 
 n −1 n −1 
La moyenne et l'écart type de la population sont inconnus, ce qui interdit l'utilisation de la variable U
et nous oblige à remplacer cette dernière par la variable T distribuée par la loi de Student à n – 1
"degrés de liberté" St (0 , 1), en déterminant sa valeur t telle que :
p(-t < T < t) = 1 – α.
Un grand nombre de valeurs de T sont données dans le formulaire correspondant.

4.2.2 Estimation d'une proportion


 p (1 − p ) p (1 − p ) 
Iα =  p − u ; p+u  (utilisation systématique de la loi normale)
 n n 

____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S3 – LoisProba – Cours – Rev2019 – page 16 sur 20
5 Tests statistiques
Connaissant (au moins) un échantillon d'une population inconnue, on formule une hypothèse sur cette
population. Un test statistique adapté permettra (ou non) de rejeter l'hypothèse formulée, nommée
hypothèse nulle, notée H0. Au début de l'étude, il peut être utile de formuler son contraire, hypothèse
alternative H1. Le rejet de H0 sera accompagné d'une probabilité de se tromper : le seuil de risque α.

5.1 Test du χ² d'adéquation d'une distribution à une loi


L'hypothèse nulle H0 est par convention : la distribution observée suit la loi théorique choisie.
On rejette cette hypothèse lorsque la distribution observée diffère trop de la distribution théorique.

exemple graphique d'une série d'observations comparée à la courbe théorique d'une loi normale :

H0 : les valeurs de la population sont distribuées par la loi N (6 , 2).


(on émet donc l'hypothèse que les valeurs et fréquences observées dans l'échantillon sont en
adéquation avec l'idée que la population soit distribuée par cette loi normale, et on pratiquera le test
d'adéquation du χ² dans le but de décider si on peut rejeter H0 avec suffisamment de confiance)

Mise en œuvre du test


1. Formulation de l'hypothèse nulle selon la loi testée
2. Calcul du χ² de l'expérience
n observations sont faites : n individus sont évalués. k valeurs différentes sont relevées.
On calcule les effectifs théoriques grâce à la loi testée.

effectifs effectifs
valeurs
observés théoriques
val 1 obs1 th1 χ² partiel1
val 2 obs2 th2 χ² partiel2
… … … …
val k obsk thk χ² partielk
total n n χ²calc

3. Détermination de la zone de rejet


On doit déterminer la valeur χ²limite correspondant au seuil de risque α choisi et au bon nombre de
degrés de liberté. Dans ce type de test, il y a k – 1 ddl.
4. Comparaison et décision
Si χ²calc > χ²lim, alors on peut rejeter H0 au risque α de se tromper.
Si χ²calc < χ²lim, alors on ne peut pas rejeter H0 au seuil α : le risque de se tromper dépasserait α.

____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S3 – LoisProba – Cours – Rev2019 – page 17 sur 20
5.2 Tests de conformité d'une moyenne, d'une proportion

5.2.1 Principe
Ces tests de conformité ont pour but de dire si la moyenne µ ou la proportion π d'une population,
inconnues, sont différentes d'une valeur µ0 ou π0 donnée (au risque α de les rejeter à tort).
L’hypothèse nulle est donc : H0 : µ = µ0 ou : (H0 : π = π0)
L’hypothèse alternative est alors : H1 : µ ≠ µ0 : test bilatéral,
ou H1 : µ < µ0 : test unilatéral à droite idem pour une proportion
ou H1 : µ > µ0 : test unilatéral à gauche

Cette hypothèse alternative est indispensable, car :


* si le test est bilatéral, le risque α devra être divisé en deux et nous imposera de tenir compte de deux
zones de rejet, de part et d'autre de la valeur relevée dans l'échantillon,
* si le test est unilatéral, la zone de rejet ne se trouvera que d'un côté de cette valeur.

Les opérations à conduire pour tester une moyenne ou une proportion tiennent directement compte des
résultats obtenus sur les estimations par intervalles de confiance, d'où ce qui suit :

5.2.2 Test de conformité d'une moyenne


Si on connaît l'écart type σ de la population
X − µ0
La variable de décision associée à ce test est la variable : U =
σ
n
dont on sait, sous l’hypothèse nulle (H0), qu’elle suit la loi normale centrée réduite, dans le cas où la
variable aléatoire étudiée X suit une loi normale ou dans le cas où n est suffisamment grand (n > 30).

Si on ne connaît pas l'écart type σ de la population


X − µ0
La variable de décision associée à ce test est la variable : T =
S
n −1
dont on sait, sous l’hypothèse nulle (H0), qu’elle suit la loi de Student à n- 1 degrés de liberté, dans le
cas où la variable aléatoire étudiée X suit une loi normale ou dans le cas où n est suffisamment grand
(n ≥ 5). (S est la variable aléatoire "écarts types des échantillons")

5.2.3 Test de conformité d'une proportion


P −π0
La variable de décision associée à ce test est la variable : U =
π 0 (1 − π 0 )
n
dont on sait, sous l’hypothèse nulle (H0), qu’elle suit la loi normale centrée réduite, dans le cas où la
variable aléatoire étudiée P suit une loi normale ou dans le cas où n est suffisamment grand (n ≥ 5).
(P est la variable aléatoire "proportions dans les échantillons")

5.2.4 Méthodologie
1. Énoncer clairement l'hypothèse nulle et l'hypothèse alternative
2. Calculer la valeur (u ou t) observée de la variable de décision, associée à la valeur x ou p de l'échantillon
3. Calculer la ou les valeurs u ou t limites (délimitant la zone de rejet)
4. Comparer les résultats des deux derniers points et conclure sur le rejet de H0 ou non

____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S3 – LoisProba – Cours – Rev2019 – page 18 sur 20
5.3 Les risques (non exigible)
5.3.1 Accepter une hypothèse ?
Pour prendre la décision de rejeter ou non une hypothèse nulle, on fera un test statistique qui consiste à
faire des observations pour la confronter à une hypothèse alternative. L’idée générale est de chercher à la
rejeter si les résultats de l’échantillon s’avèrent surprenants au regard de la validité de l’hypothèse nulle.
Des erreurs de décision sont cependant admises : chaque décision est accompagnée d'une probabilité de se
tromper, que l'on tente de maîtriser le mieux possible.

L'issue d'un test est toujours le rejet ou le non rejet de l'hypothèse nulle, mais jamais son acceptation. En
statistiques inférentielles (comme dans toute activité d'observation), il est impossible de prouver qu'une
théorie, une hypothèse précise, est vraie, exacte ; par contre il est possible que l'observation infirme cette
théorie ou la rende peu probable.

Prenons par exemple un test au seuil de 5%. Si notre observation se trouve dans la zone de rejet, alors nous
pouvons rejeter H0 avec un risque de se tromper inférieur à 5%, soit un degré de confiance de 95%. Par
contre, si l'observation ne se trouve pas dans la zone de rejet, nous savons seulement que nos chances
d'avoir raison de rejeter H0 sont inférieures à 95% ("on ne peut rejeter H0 au seuil de 5%"), ce qui n'est
certainement pas une situation qui nous conduirait à accepter H0 !

5.3.2 Décisions et risques


Il existe deux types d’erreurs de décision, chacun associé à un risque :
On rejette H0 alors que H0 est vraie : associée à un risque α dit de première espèce,
α = pH0 vraie (rejeter H0 )
On ne rejette pas H0 alors que H0 est fausse : associée à un risque β dit de deuxième espèce.
β = pH0 fausse (ne pas rejeter H0 )

Les probabilités montrées dans ce tableau sont conditionnelles ; attention à les interpréter correctement !
α est la probabilité de rejeter H0, sachant que H0 est vraie,
1-α est la probabilité de ne pas rejeter H0, sachant que H0 est vraie,
1-β est la probabilité de rejeter H0, sachant que H0 est fausse,
β est la probabilité de ne pas rejeter H0, sachant que H 0 est fausse,

5.3.3 Risques et test statistique


La probabilité α de rejeter H0 à tort est appelée seuil de risque ou seuil de signification du test.
La probabilité 1-α de ne pas rejeter H0 à raison est appelée niveau de confiance du test.
La probabilité 1-β de rejeter H0 à juste titre est appelée puissance du test.

Si, lors d'un test, le risque α est bien connu, puisqu'on l'a décidé au départ, il est malheureusement
impossible de connaître le risque β.

____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S3 – LoisProba – Cours – Rev2019 – page 19 sur 20
Par exemple : testons l'hypothèse qu'une population ait pour moyenne 4.
On suppose donc que la distribution des
moyennes des échantillons est celle du
graphique ci-contre.
On fixe un seuil de risque α = 5%, qui nous
fait conclure : si la moyenne de
l'échantillon est supérieure à 5,3 alors on
rejette l'hypothèse que µ = 4.
Mais si c'est le cas, on a le risque α de
s'être trompé puisque si µ = 4 est vrai, 5%
des échantillons auront bel et bien une
moyenne supérieure à 5,3 !

Imaginons maintenant que la moyenne réelle de la population soit 6 (mais la personne qui conduit le test
n'en sait rien !). La distribution réelle des moyennes des échantillons est placée ci-dessous en pointillés.
Mais si l'échantillon a une moyenne inférieure à 5,3 le testeur ne pourra pas rejeter l'hypothèse µ = 4
(niveau de confiance insuffisant), à tort bien entendu.
La proportion réelle des échantillons de moyenne inférieure à 5,3 est β : risque de ne pas rejeter µ = 4 à
tort, malheureusement inconnu (parce que la moyenne réelle est inconnue) et parfois élevé.

Cependant, le risque d’erreur β diminue lorsque le nombre d’observations augmente.


La figure ci-dessous montre ce qui se produit lorsque la taille de l'échantillon est multipliée par 2 (baisse
de l'écart type), avec α conservé (α est toujours choisi au préalable par le testeur) :

En conclusion : le moyen sûr de réduire les risques d'erreur d'interprétation est d'augmenter la taille de
l'échantillon !

____________________________________________________________________________
IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S3 – LoisProba – Cours – Rev2019 – page 20 sur 20