Vous êtes sur la page 1sur 187

3ème année de l’enseignement supérieur

Jean-
Michel Probabilités et Statistique
JOLION

Bint El Prep 2009


Probabilités et Statistique
Jean-Michel JOLION

Département Génie Industriel

3ème Année

 Sommaire ……………………………………………………………………………...2
 Probabilités …………………………………………………………………………….6
o Notions de probabilités
o Analyse combinatoire (rappels)
 Factorielle
 Arrangements de p objets parmi n
 Permutations
 Combinaisons de p parmi n
 Répétitions
o Epreuves et Evènements
o Espace probabilisé
 Axiomatique de Kolmogorov
 Propriétés élémentaires
o Probabilité conditionnelle - Théorème de Bayes
 Théorème des probabilités composées
 Conséquences
 Théorème de Bayes - Probabilités des causes
o Le paradoxe de Bertrand

 Variables aléatoires …………………………………………………………………17


o Variable aléatoire : définitions
o Fonction de répartition
 Définition
 Propriétés
 Fonction de répartition d'une v.a. discrète
o Fonction de répartition d'une v.a. continue
o Couple de variables aléatoires
 Définitions
 Cas d'un couple de v.a. continues
 Cas d'un couple de v.a. discrètes
 Distribution conditionnelle
o Loi d'une fonction d'une ou plusieurs variables aléatoires
 Transformation d'une variable aléatoire
 Densité de probabilité d'une somme de V.A. indépendantes
o Moyenne et espérance mathématique d'une v.a.
 Notion de moyenne pour une v.a. discrète
 Espérance mathématique
o Moments

2 Jean-Michel Jolion2006 LD
 Définitions
 Quelques moments particuliers
 Variance, covariance et écart-type
 Variable centrée réduite
 Coefficient de corrélation
 Exemple
 Inégalités de Bienaymé - Tchebyshev - Markov
o Quelques lois de probabilités
 Les valeurs principales
 Liaisons entre lois de probabilités
o Quelques relations
o Loi des grands nombres
 Convergence stochastique
 Théorème central limite
o Simulation d'une variable aléatoire
 Méthode générale par transformation inverse
 Loi uniforme
 Loi exponentielle
 Loi binomiale
 Loi de Poisson

 Loi normale :
o Autres indicateurs
 Histogramme
 Médiane
 Mode
 Autres moyennes

 Estimation ……………………………………………………………………………53
o Estimation ponctuelle
 Introduction
 Estimateur convergent
 Estimateur sans biais
 Estimateur efficace
 Robustesse
o Méthode du maximum de vraisemblance
o Estimation par intervalle de confiance
 Estimation d'une proportion
 Estimation d'une moyenne
 Estimation d'une variance
o Estimation robuste
 Interprétation de données: l'approche bayésienne
 Le traitement de l'a priori
 Le traitement de l'a posteriori
 Le cas monodimensionnel
 Le cas général
 Estimation itérative

3 Jean-Michel Jolion2006 LD
o Régression linéaire
 Formalisation
 Résolution dans le cas d'une distribution normale des écarts
 Le cas de la droite
 Intervalle de confiance sur le coefficient de corrélation
o Filtre de Kalman
o Estimation d'un mode
o Estimation d'une densité

 Tests d'hypothèse …………………………………………………………………….86


o Introduction
 Hypothèses et erreurs
 Tests bilatéral et unilatéral
 Région d'acceptation et région critique
 Choix d'un test
 Influence de l'échantillonnage
o Test entre deux hypothèses simples
 La méthode de Neyman et Pearson
 Test de la moyenne d'une loi normale d'écart-type connu
 Test de la moyenne d'une loi normale d'écart-type inconnu
 Test d'une variance de loi normale, la moyenne étant connue
 Test d'une variance de loi normale, la moyenne étant inconnue
 Test d'une proportion
o Test entre hypothèses composées
 Tests UMP
 Test d'une moyenne de loi normale, l'écart-type étant connu
 Test d'une moyenne de loi normale, l'écart-type étant inconnu
 Test d'une variance de loi normale, la moyenne étant connue
 Test d'une variance de loi normale, la moyenne étant inconnue
 Test d'une proportion
o Test de comparaison
 Comparaison de deux moyennes
 Comparaison de deux variances
 Comparaison de deux proportions
o Test du rapport des vraisemblances maximales
o Test d'adéquation

 Test du
 Test de Kolmogorov
 Test de Cramer-Von Mises
o Test d'indépendance
 Test des différences premières
 Test de Spearman
o Test de comparaison d'échantillons
 Test des variances de Fisher-Snédécor
 Test de Student
 Test de Spearman

4 Jean-Michel Jolion2006 LD
o Analyse de la variance
 Les données de l'analyse
 Le test
 Analyse des contrastes

 Le Contrôle Statistique de Process: SPC ……………………………...……………120


o Introduction
o Capabilité d'un processus
 Etude de la capabilité des processus
 Indicateurs généralisés
 Les cartes de contrôle

 Tables ……………………………………………………………………………….126
o Fonction de répartition de la loi normale centrée réduite
o Fractiles de la loi normale centrée réduite

o Fractiles de la loi du à degrés de liberté

o Valeurs de la variable de Fisher-Snédécor ayant la probabilité


d'être dépassées

o Valeurs de la variable de Fisher-Snédécor ayant la probabilité


d'être dépassées

o Valeurs de la variable de Fisher-Snédécor ayant la probabilité


d'être dépassées
o Table de distribution de (Loi de Student)
o Table du coefficient de corrélation des rangs de Spearman de deux variables
aléatoires indépendantes
o Fonction de répartition de la statistique de Cramer-Von Mises
o Table du test de Kolmogorov-Smirnov
 Exercices ……………………………………………………………………………142
o Probabilités
o Variables aléatoires
o Estimation
o Tests d'hypothèses
o SPC
o Sujets généraux
 Problème 1
 Problème 2
 Problème 3
 Problème 4
 Bibliographie ………………………………………………………………………..185

5 Jean-Michel Jolion2006 LD
Probabilités

Subsections

 Notions de probabilités
 Analyse combinatoire (rappels)
o Factorielle
o Arrangements de p objets parmi n
o Permutations
o Combinaisons de p parmi n
o Répétitions

 Epreuves et Evènements
 Espace probabilisé
o Axiomatique de Kolmogorov
o Propriétés élémentaires

 Probabilité conditionnelle - Théorème de Bayes


o Théorème des probabilités composées
o Conséquences
o Théorème de Bayes - Probabilités des causes

 Le paradoxe de Bertrand

6 Jean-Michel Jolion2006 LD
Notions de probabilités

Il existe plusieurs manières de définir une probabilité. Principalement, on parle de


probabilités inductives ou expérimentales et de probabilités déductives ou théoriques. On
peut les définir comme suit :

Probabilité expérimentale ou inductive : la probabilité est déduite de toute la population


concernée. Par exemple, si sur une population d'un million de naissances, on constate 530000
garçons et 470000 filles, on dit que P[garçon] = 0.53

Probabilité théorique ou déductive : cette probabilité est connue grâce à l'étude du phénomène
sous-jacent sans expérimentation. Il s'agit donc d'une connaissance a priori par opposition à la
définition précédente qui faisait plutôt référence à une notion de probabilité a posteriori. Par
exemple, dans le cas classique du dé parfait, on peut dire, sans avoir à jeter un dé, que

P["obtenir un 4"] = .

Comme il n'est pas toujours possible de déterminer des probabilités a priori, on est souvent
amené à réaliser des expériences. Il faut donc pouvoir passer de la première à la deuxième
solution. Ce passage est supposé possible en terme de limite (i.e. avec une population dont la
taille tend vers la taille de la population réelle).

Analyse combinatoire (rappels)

Subsections

 Factorielle
 Arrangements de p objets parmi n
 Permutations
 Combinaisons de p parmi n
 Répétitions

Factorielle

Si une action peut être obtenue de façons différentes, puis suivant cette action, de façons
différentes indépendantes des précédentes, puis ...alors, le nombre de possibilités correspondant à

l'ensemble de ces actions est

7 Jean-Michel Jolion2006 LD
On appelle factorielle n et l'on note n! le nombre :

On peut aussi définir la factorielle grâce à la fonction :

qui a les propriétés suivantes : pour n entier et .

La formule de Stierling permet de construire une estimation de la factorielle très valable pour

Arrangements de p objets parmi n

Nombre de possibilités de ranger p objets choisis parmi n :

Permutations

Arrangement de objets parmi en tenant compte de l'ordre : .

Par exemple, il y a permutations possibles de symboles : ,

, , , , .

Combinaisons de p parmi n

On ne tient pas compte de l'ordre des objets dans le rangement : .

8 Jean-Michel Jolion2006 LD
La notation anglosaxonne pour les combinaisons est un peu différente : .

Propriétés :

Répétitions
Soient n objets dont on dispose une infinité d'exemplaires. On en choisit p parmi ces n classes
d'objets. Il peut donc y avoir répétitions du même objet. Dans ce cas, on obtient de nouveaux
indicateurs :

Toujours dans le même contexte, on cherche le nombre de possibilité d'avoir a fois le 1er
objet, b fois le 2ème objet, ...k fois le nème objet. Le nombre de permutations est donné par :

Epreuves et Evènements

Une expérience est dite aléatoire si ses résultats ne sont pas prévisibles avec certitude en
fonction des conditions initiales.

On appelle épreuve la réalisation d'une expérience aléatoire.

9 Jean-Michel Jolion2006 LD
On appelle évènement la propriété du système qui une fois l'épreuve effectuée est ou n'est pas
réalisée.

Exemple : Soient l'expérience aléatoire "lancer deux dés discernables" (et non pipés si l'on

veut vraiment une expérience aléatoire) et l'évènement A "obtenir un total des nombres
".

A se réalise pour les épreuves (6,5), (5,6), (6,6).

Correspondance entre les opérateurs logiques et les ensembles (la relation liant ces notations
est un isomorphisme, on peut donc employer n'importe laquelle).

Logique Ensemble

état du système
élément

évènement A
partie

évènement certain espace entier

évènement impossible
partie vide

évènement contraire ou
partie complémentaire

l'évènement B entraine l'évènement A

A et B
intersection

évènements incompatibles
parties disjointes

A ou B (ou non exclusif)


réunion

ou exclusif somme

10 Jean-Michel Jolion2006 LD
A partir de ces notions, on peut préciser le calcul de probabilités d'un évènement A :

probabilité théorique : .

probabilité expérimentale : . Cette approche


(aussi appellée approche fréquentiste) ne permet pas de donner une valeur ni même un sens à
la probabilité d'un évènement non répétable du genre "neigera-t-il le 25 octobre 2990" ce qui
limite de fait le champ d'application du calcul des probabilités.

Pour les fréquentistes, seules ont un sens les probabilités calculées a posteriori sur la base de
la répétition d'un grand nombre d'évènements identiques; pour les subjectivistes, au contraire,
la notion de probabilité a priori, évaluable en fonction d'un sentiment individuel d'incertitude,
peut avoir un sens.

Espace probabilisé

Subsections

 Axiomatique de Kolmogorov
 Propriétés élémentaires

Axiomatique de Kolmogorov
A chaque évènement, on associe un nombre positif compris entre 0 et 1, sa probabilité. Afin d'éviter
toute discussion sur cette notion, la théorie moderne des probabilités repose sur l'axiomatique
suivante :

Définition 1

On appelle probabilité sur ( , ) (où est l'ensemble des évèvements et une classe de

parties de ), ou loi de probabilité, une application de dans telle que :

11 Jean-Michel Jolion2006 LD
-

- pour tout ensemble dénombrable d'évènements incompatibles on a

Définition 2

On appelle espace probabilisé le triplé ( , , )

Une loi de probabilité n'est donc rien d'autre qu'une mesure positive de masse totale 1. On
peut donc relier la théorie des probabilités à celle de la mesure.

Propriétés élémentaires

De l'axiomatique de Kolmogorov, on peut déduire les propriétés suivantes :

Propriété 1 :

Propriété 2 :

Propriété 3 :

Propriété 4 :

Propriété 5 : (Il n'y a stricte égalité que si les évènements sont


deux à deux incompatibles.)

Propriété 6 : Continuité monotone séquentielle.

12 Jean-Michel Jolion2006 LD
Propriété 7 : Théorème des probabilités totales : Soit un système complet

d'évènements (i.e. tel que constitue une partition de ).

Remarque : . De même, .

Probabilité conditionnelle - Théorème de Bayes

Subsections

 Théorème des probabilités composées


 Conséquences
 Théorème de Bayes - Probabilités des causes

Théorème des probabilités composées

Soient deux évènements A et B réalisés respectivement et fois au cours de épreuves.

On a donc et . Si de plus A et B sont réalisés simultanément fois,

on a . Que peut-on déduire sur la probabilité de l'évènement B sachant que


l'évènement A est réalisé ? Cette probabilité est appellée probabilité conditionnelle de B

sachant A et se note . Dans notre cas, on a .

Par définition, on a et .

13 Jean-Michel Jolion2006 LD
Conséquences

Deux évènements A et B sont dits indépendants si ou encore si

(l'information sur la réalisation de A n'apporte rien à l'évènement B) et

Attention :

1) indépendant incompatible.

2) et sont indépendants uniquement si vous pouvez

prouver que théoriquement. En pratique, i.e. sur des valeurs


numériques, on ne peut pas induire l'indépendance à partir de cette égalité constatée
numériquement. On ne peut que supposer très probable cette indépendance.

Si deux évènements et sont indépendants, alors il en est de même de et , et


, et .

Soit , , ..., une suite d'évènements ayant une intersection commune non nulle, i.e.

, on a alors

Théorème de Bayes - Probabilités des causes

Soit un évènement qui peut dépendre de causes différentes et incompatibles deux à


deux (on ne peut avoir deux causes réalisées simultanément). Etant donnée la réalisation de

l'évènement , quelle est la probabilité que ce soit qui en soit la cause ?

14 Jean-Michel Jolion2006 LD
On peut écrire que car constitue un système complet (les causes
sont incompatibles deux à deux et toutes les causes possibles à sont supposées connues).

Donc d'après le théorème des probabilités totales, on a .

En appliquant le théorème des probabilités conditionnelles, on a

donc

Exemple : Deux machines et produisent respectivement 100 et 200 objets.

produit de pièces défectueuses et en produit . Quelle est la probabilité pour

qu'un objet défectueux ait été fabriqué par la machine ?

L'évènement constaté, , est donc la présence d'une pièce défectueuse et les causes sont les

machines et . Compte tenu des productions de ces machines, on a et

. De plus, les probabilités conditionnelles de l'évènement selon les machines

sont et . En reportant ces valeurs dans la formule


générale, on obtient

Le paradoxe de Bertrand
Ce paradoxe est un exemple classique permettant de mesurer la limite des définitions de probabilités.

Considérons un triangle équilatéral et son cercle circonscrit. On tire une corde au hasard.
Quelle est la probabilité que sa longueur soit supérieure à celle du côté du triangle ?

15 Jean-Michel Jolion2006 LD
On doit à Renyi les remarques suivantes :

Première solution. Comme la longueur de la corde est déterminée par la position de son
milieu, le choix de la corde peut consister à marquer un point au hasard à l'intérieur du cercle.
La probabilité pour que la corde soit plus longue que le côté du triangle équilatéral inscrit est
alors égale à la probabilité pour que le milieu de la corde soit intérieur au cercle inscrit dans
ce triangle qui est de rayon moitié.

Si on admet que la répartition de ce point est uniforme dans le cercle, on trouve pour la
probabilité demandée :

Deuxième solution. La longueur de la corde est déterminée par la distance de son milieu au
centre du cercle. Par raison de symétrie, nous pouvons considérer que le milieu de la corde est
pris sur un rayon donné du cercle et supposer que la répartition de ce point sur le rayon est
uniforme. La corde sera plus longue que le côté du triangle équilatéral inscrit si son milieu est
à une distance du centre inférieure à r/2; la probabilité recherchée est alors 1/2.

Troisième solution. Par raison de symétrie, nous pouvons supposer qu'on a fixé une des

extrémités de la corde en . L'autre sera choisie au hasard sur la circonférence. Si on admet


que la probabilité que l'autre extrémité tombe sur un arc donné de la circonférence est

proportionnelle à la longueur de cet arc, la corde est plus grande que le côté du triangle

équilatéral inscrit quand P se trouve sur l'arc (tel que ) dont la longueur
est le 1/3 de celle de la circonférence; la probabilité est donc de 1/3.

Il est clair que les trois hypothèses de répartition sont également réalisable. Il n'y a pas
cependant de réel paradoxe car il s'agit simplement d'un choix de conditions expérimentales
de tirage des cordes qui conduisent à des évènements différents.

16 Jean-Michel Jolion2006 LD
Variables aléatoires

Subsections

 Variable aléatoire : définitions


 Fonction de répartition
o Définition
o Propriétés
o Fonction de répartition d'une v.a. discrète

 Fonction de répartition d'une v.a. continue


 Couple de variables aléatoires
o Définitions
o Cas d'un couple de v.a. continues
o Cas d'un couple de v.a. discrètes
o Distribution conditionnelle

 Loi d'une fonction d'une ou plusieurs variables aléatoires


o Transformation d'une variable aléatoire
o Densité de probabilité d'une somme de V.A. indépendantes

 Moyenne et espérance mathématique d'une v.a.


o Notion de moyenne pour une v.a. discrète
o Espérance mathématique

 Moments
o Définitions
o Quelques moments particuliers
o Variance, covariance et écart-type
o Variable centrée réduite
o Coefficient de corrélation
o Exemple
o Inégalités de Bienaymé - Tchebyshev - Markov
 Quelques lois de probabilités
o Les valeurs principales
o Liaisons entre lois de probabilités

17 Jean-Michel Jolion2006 LD
 Quelques relations
 Loi des grands nombres
o Convergence stochastique
o Théorème central limite

 Simulation d'une variable aléatoire


o Méthode générale par transformation inverse
o Loi uniforme
o Loi exponentielle
o Loi binomiale
o Loi de Poisson

o Loi normale :

 Autres indicateurs
o Histogramme
o Médiane
o Mode
o Autres moyennes

Variable aléatoire : définitions

Une variable aléatoire (V.A.) est une application de l'ensemble des épreuves dans le corps des
réels. Elle est caractérisée par l'ensemble des probabilités associées à tous ses états possibles.

Définition 1 Tout ensemble de parties d'un ensemble , stable par réunion, intersection et
complémentarité s'appelle une tribu sur .

Soit une tribu de parties de . Le couple s'appelle un espace probabilisable ou


mesurable et est l'ensemble des évènements.

Si peut être muni d'une topologie, alors la tribu engendrée par la classe des ouverts de
est appellée tribu borélienne.

Définition 2 Une variable aléatoire est une application mesurable d'un espace probabilisé
( , , ) dans le corps des réels muni de sa tribu borélienne ( , ) (i.e. ensemble des

intervalles de la forme ).

18 Jean-Michel Jolion2006 LD
Définition 3 Pour tout borélien B (i.e. ), on définit une loi de probabilité de X sur

( , ) et l'on note :

Définition 4 Une v.a. est discrète si Card[ ] est fini ou dénombrable.

Dans ce cas, ne peut prendre, avec une probabilité non nulle, qu'un nombre fini de valeurs

particulières . On note généralement les probabilités par .

Définition 5 Une v.a. est continue si elle peut prendre toute valeur sur un segment de la

forme , , , et telle que .

Définition 6 Une v.a. est mixte si 1) , 2)

et 3)

Fonction de répartition

Subsections

 Définition
 Propriétés
 Fonction de répartition d'une v.a. discrète

19 Jean-Michel Jolion2006 LD
Définition

La fonction de répartition (FR) d'une v.a. est l'application de dans définie


par

Propriétés

est non décroissante.

est continue à gauche.

est continue à droite dans le cas des v.a. continues.

et

Fonction de répartition d'une v.a. discrète

Soit une v.a. discrète pouvant prendre les valeurs de probabilités

respectivement avec .

où est donné par .

20 Jean-Michel Jolion2006 LD
Fonction de répartition d'une v.a. continue
Soit une v.a. continue. Sa fonction de répartition est continue à gauche et à droite. Il existe donc

une fonction telle que l'on puisse écrire :

Par définition, est appellée densité de probabilité de , ou en abrégé, ddp de . Cette


fonction a les propriétés suivantes :

Couple de variables aléatoires

Subsections

 Définitions
 Cas d'un couple de v.a. continues
 Cas d'un couple de v.a. discrètes
 Distribution conditionnelle
21 Jean-Michel Jolion2006 LD
Définitions
Soient et deux v.a. définies sur le même espace probabilisé. On appelle fonction de
répartition conjointe de et , la fonction définie par :

On a par définition, et .

Cas d'un couple de v.a. continues

On note la ddp conjointe de et et l'on a par définition :

avec les propriétés suivantes :

On peut également définir une fonction de répartition marginale de , notée par

(idem pour , ).

22 Jean-Michel Jolion2006 LD
Cas d'un couple de v.a. discrètes

On note .

Distribution conditionnelle

Soient et deux v.a. continues de FR conjointe et de ddp conjointe . Comment peut-on

évaluer la probabilité conditionnelle ?

On définit la fonction de répartition conditionnelle par

et la densité de probabilité conditionnelle par

Si les deux v.a. sont indépendantes, alors on a

23 Jean-Michel Jolion2006 LD
Loi d'une fonction d'une ou plusieurs variables aléatoires

Dans la pratique, on est souvent amené à manipuler des variables aléatoires qui sont des
transformations ou des combinaisons de variables aléatoires connues. C'est pourquoi on
dispose de règles de passage d'une loi à une autre, pour des transformations simples.

Subsections

 Transformation d'une variable aléatoire


 Densité de probabilité d'une somme de V.A. indépendantes

Transformation d'une variable aléatoire

Transformation d'une loi discrète Soit une v.a. discrète de loi . Alors, la loi de la

v.a. est définie par :

où désigne la fonction réciproque de .

Transformation d'une loi continue Soit une v.a. continue dont la loi admet la densité de

probabilité et une fonction monotone et dérivable. Alors, la densité de la loi de la v.a.

est définie par :

24 Jean-Michel Jolion2006 LD
où désigne la fonction réciproque de .

On peut par ces propriétés montrer en particulier que la v.a. où est la fonction

de répartition de la loi de la v.a. , suit une loi uniforme sur l'intervalle .

Exemple : Soit . On a et donc .


En application de la propriété précédente, on obtient

Densité de probabilité d'une somme de V.A. indépendantes

Soient et deux v.a. continues de ddp et . Si et sont indépendantes,

alors la densité de probabilité de la v.a. définie par est donnée par

Cette propriété se généralise quel que soit le nombre de variables dans la somme. On peut
aussi additionner des variables aléatoires discrètes.

Soient et deux v.a. discrètes à valeurs dans et . La loi de est


définie par :

25 Jean-Michel Jolion2006 LD
En particulier, si et sont indépendantes, on a :

On peut aussi passer par les propriétés de l'opérateur espérance mathématique (voir section
suivante).

Moyenne et espérance mathématique d'une v.a.

Subsections

 Notion de moyenne pour une v.a. discrète


 Espérance mathématique

Notion de moyenne pour une v.a. discrète

Soit une v.a. discrète prenant ses valeurs dans et dont les probabilités associées

sont .

26 Jean-Michel Jolion2006 LD
Par définition, on appelle moyenne théorique ou espérance mathématique de , et l'on

note , la valeur .

On ne connait cette v.a. que par le moyen d'un échantillon de taille (dont on supposera

qu'il est significatif par rapport au nombre de valeurs possible, , de la v.a., i.e. ).

Chaque évènement se réalise fois dans l'échantillon ( ).

La moyenne expérimentale est définit par .

Si on admet que la proportion tend vers la propabilité théorique pour un échantillon de


taille infinie ( ) alors on peut estimer la moyenne théorique par la limite de la
moyenne expérimentale.

Espérance mathématique

Soit une v.a. On définit l'espérance mathématique de et l'on note la valeur

où est la fonction de répartition de .

Cette intégrale est dite au sens de Stieljes. Soit une v.a. définie sur . On peut
discrétiser la v.a. en introduisant une nouvelle v.a. discrète en découpant l'intervalle

en intervalles tels que

et donc

27 Jean-Michel Jolion2006 LD
Grâce à un échantillon de taille , on peut calculer une moyenne expérimentale de

( ) qui tend vers la moyenne théorique si . Si

de plus, on découpe en une infinité d'intervalles de la forme ( ), alors on


obtient la moyenne théorique de la v.a. par

Remarque : L'espérance mathématique n'est pas toujours définie. C'est en particulier le cas de

la loi de Cauchy dont la ddp est donnée par car l'intégrale

diverge.

Propriétés : Les propriétés de l'espérance mathématique proviennent de celle de l'opérateur


intégral et en particulier la linéarité. Soit une v.a. et une constante.

Soient et deux v.a. et et deux constantes.

Plus généralement, pour toute fonction , positive, continue, à support compact

28 Jean-Michel Jolion2006 LD
Exemple : Soient et deux v.a. continues indépendantes de même loi . On souhaite

trouver la loi de la variable aléatoire . On a donc

Les deux variables étant indépendantes, on a . Soit le


changement de variables suivant :

dont le jacobien est

Ce qui nous donne

29 Jean-Michel Jolion2006 LD
d'où l'on déduit la densité de probabilité

Supposons maintenant que ces deux variables aléatoires suivent une loi exponentielle de

paramètre , . On a alors

La v.a. suit donc une loi uniforme. Comme on doit avoir et , cela donne

et .

Moments

La notion de moment permet d'introduire celle d'indicateur résumant et/ou caractérisant une
variable aléatoire. On y retrouvera la moyenne comme cas particulier.

Subsections

 Définitions
 Quelques moments particuliers
 Variance, covariance et écart-type
 Variable centrée réduite
 Coefficient de corrélation
 Exemple
 Inégalités de Bienaymé - Tchebyshev - Markov

30 Jean-Michel Jolion2006 LD
Définitions

Moment d'ordre n. On appelle moment d'ordre n de la v.a. et l'on note la valeur

Pour les v.a. discrètes, cela donne :

Moment d'ordre n rapporté à l'abscisse a. On appelle moment d'ordre n de la v.a.

rapporté à l'abscisse , et l'on note , la valeur

Moment centré d'ordre n. On appelle moment centré d'ordre n de la v.a. et l'on note

la valeur . Le moment centré


d'ordre d'une v.a. est donc le moment d'ordre de cette v.a. rapporté à l'abscisse

particulière qu'est sa moyenne ( ).

Quelques moments particuliers

est la moyenne.

est la variance (voir plus loin).

Très souvent, pour des raisons d'efficacité, les moments souhaités, i.e. , sont calculés à

partir des moments simples, i.e. . En effet, le calcul d'un moment centré nécessite le calcul
préalable de l'espérance mathématique, il y a donc 2 pas de calculs au lieu d'un seul pour les
moments non centrés.

31 Jean-Michel Jolion2006 LD
, et sont utilisés pour caractériser la forme d'une distribution. Pour cela, on
construit des indicateurs sans dimension :

Le coefficient d'asymétrie (skewness) : . Ce coefficient est nul pour une


distribution parfaitement symétrique, inférieur à zéro si la distribution est plus étendue vers la
gauche (les valeurs inférieures à la moyenne), et supérieur à zéro dans le cas contraire.

Le coefficient d'aplatissement (kurtosis) : . est toujours supérieur à 1. De plus,

on a toujours . Plus que l'aplatissement, le coefficient mesure


l'importance des ``queues'' de distribution. Cet indicateur vaut dans le cas de la loi de Gauss
(cf chapitre sur les principales lois de probabilité). Il est inférieur à pour une distribution
moins large que la loi de Gauss et supérieur à pour une distribution plus large.

Remarque : Ces indicateurs ne sont utilisables, i.e. n'ont de sens, que dans le cas d'une
distribution unimodale (un seul maximum).

Variance, covariance et écart-type

La variance est définie par

Elle traduit la dispersion de la distribution de la v.a. autour de sa valeur moyenne. Etant un


carré, la dimension de la variance n'est pas celle de la moyenne. C'est pourquoi on utilise plus
souvent l'écart type, noté , qui est la racine de la variance.

On dit aussi que la variance traduit la notion d'incertitude. Plus la variance est faible, moins le
résultat de l'expérience aléatoire est incertain. A la limite, une v.a. de variance nulle conduit à
des expériences strictement identiques (i.e. le phénomène est complètement déterministe, il
n'y a donc plus aucune raison de garder la notion de variable aléatoire).

La variance a également des propriétés intéressantes vis à vis de la combinaison linéaire de


v.a. :

Soient et deux v.a.


32 Jean-Michel Jolion2006 LD
où est la covariance des v.a. et définie par :

La covariance peut être vue comme le moment centré conjoint d'ordre 1 de deux v.a. Si les
deux v.a. sont indépendantes, alors leur covariance est nulle (mais la réciproque n'est pas
vraie en général).

Par ailleurs, soit une v.a. et et deux constantes. On a

Variable centrée réduite

On appelle variable aléatoire centrée réduite, une v.a. construite par : .

C'est le moyen le plus classique pour normaliser une v.a. Par construction, on obtient

et .

Coefficient de corrélation
La relation entre deux v.a. peut être quantifiée par la covariance comme vue précédemment.
Cependant, à l'image de la moyenne et de la variance, la covariance est un moment donc possède
une dimension ce qui la rend plus difficile à interpréter. C'est pourquoi on utilise plus généralement
le coefficient de corrélation, indicateur sans dimension, défini par

33 Jean-Michel Jolion2006 LD
Le coefficient de corrélation mesure la qualité de la relation linéaire entre deux variables

aléatoires et (i.e. de la forme ). On a les propriétés suivantes :

Si et sont indépendantes, alors (la réciproque n'est pas vraie en


général).

Si il existe une relation linéaire entre et alors .

On peut réécrire la relation sur la variance d'une somme de v.a. en utilisant le coefficient de
corrélation :

Et en généralisant, on obtient

34 Jean-Michel Jolion2006 LD
Exemple

Soit X une v.a. continue et uniforme sur (i.e. équiprobabilité de toutes les valeurs).
L'uniformité de X conduit à une densité de probabilité constante :

Le calcul des moments donne :

donc et

La moyenne ( ) de X est donc nulle et la variance ( ) est égale à

Inégalités de Bienaymé - Tchebyshev - Markov

Inégalité de Tchebyshev : où est un réel positif et une


fonction positive.

En posant, , on obtient l'inégalité de Markov : .

De même, si l'on pose et , on obtient l'inégalité de

Bienaymé-Tchebyshev : .

35 Jean-Michel Jolion2006 LD
Cette inégalité est la plus connue des trois. Elle est valable quelle que soit la v.a. X, ce qui est
une propriété très intéressante. Malheureusement, elle n'a que peu d'applications pratiques car
la majoration qu'elle fournit est la plupart du temps excessive.

Quelques lois de probabilités

Subsections

 Les valeurs principales


 Liaisons entre lois de probabilités

Les valeurs principales


Typ
Loi Prob. ou ddp Moyenne Variance
e

et
0-1 D

Uniforme D

Binomiale D

pour

Géométrique D pour

36 Jean-Michel Jolion2006 LD
Pascal D

Poisson D pour et

Uniforme C
avec

Gauss C pour

Cauchy C non défini non défini

Gamma C

Exponentiell pour et
C
e

Rayleigh C
pour

Laplace C

Student C

37 Jean-Michel Jolion2006 LD
Weibull C

Type : D loi discrète ; C loi continue.

Liaisons entre lois de probabilités

Loi 0-1 : on appelle aussi cette loi, loi de Bernoulli. La v.a. associée à une telle loi est
considérée comme la fonction indicatrice d'un évènement de probabilité p. C'est un cas
particulier de la loi Binomiale.

Loi binomiale : On obtient une v.a. de loi binomiale par une somme de v.a. de loi

0-1 ( ). En d'autres termes, la loi binomiale est la loi associée à répétitions, dans des
conditions identiques et indépendamment, d'une expérience aléatoire dont l'issue est
l'apparition ou la non apparition d'un évènement. La somme de deux lois binomiales de même
paramètre est une loi binomiale.

Loi géométrique : La loi géométrique est la loi du nombre d'essais nécessaires pour faire

apparaître un évènement de probabilité .

Loi de Pascal d'ordre n : C'est la loi du nombre d'essais nécessaires pour observer

exactement fois un évènement de probabilité . Cette loi est la somme de lois


géométriques indépendantes

Loi de Poisson (magistrat français du XIXème siècle) : On obtient une v.a. de loi de Poisson

à partir d'une v.a. de loi binomiale pour laquelle on a et et

. On peut aussi introduire la loi de Poisson par la notion de processus de


Poisson. Soit un phénomène tel qu'un seul évènement puisse se produire à la fois (non
simultanéïté des réalisations) et que le nombre d'évènements se produisant pendant une
période T ne dépend que de la durée de cette période. Supposons enfin l'indépendance des

évènements. Soit l'espérance mathématique d'un nombre N d'évènements


pendant la période de durée T avec la cadence c. c désigne donc le nombre moyen
d'évènements par unité de temps. On démontre alors que la probabilité d'obtenir n évènements

pendant un temps T est .

38 Jean-Michel Jolion2006 LD
Figure 1: Densité de probabilité de la loi de Poisson de paramètre .

La somme de deux lois de Poisson de paramètres et est une loi de Poisson de

paramètre .

Loi Normale ou loi de Gauss-Laplace : C'est incontestablement la loi la plus connue. On la


doit à Moivre qui, en 1738, a trouvé cette loi comme limite de la loi binomiale. On utilisera la

notation suivante : . On la retrouve comme modèle le


plus courant pour les distributions d'erreurs de mesure autour d'une valeur ``vraie''. Elle joue
aussi un rôle important en terme de comportement asymptotique des autres lois de
probabilités, comme le montre le théorème central limite. Une propriété intéressante de cette

loi est sa conservation vis à vis de la combinaison linéaire : Soient un ensemble de

v.a. normales de paramètres deux à deux indépendantes, leur somme pondérée par

les coefficients est une v.a. normale de paramètres la somme pondérée des paramètres

39 Jean-Michel Jolion2006 LD
Figure 2: Densité de probabilité de la loi normale centrée réduite.

Loi exponentielle : Si suit une loi de Poisson, et traduit le nombre d'apparitions d'un

certain phénomène aléatoire dans un intervalle de temps , alors la variable aléatoire


représente l'intervalle de temps séparant deux apparitions d'un évènement donné. Cette
nouvelle variable suit une loi exponentielle de paramètre où est le paramètre de la loi de
Poisson. En fiabilité, cette loi est très utilisée pour représenter la durée de vie de circuits
électroniques. L'espérance est souvent appelée le MTBF (Mean Time Between Failure) et

le taux de défaillance. La loi exponentielle est un cas particulier de la loi Gamma pour
.

Figure 3: Densité de probabilité de la loi exponentielle de paramètre .

40 Jean-Michel Jolion2006 LD
La loi exponentielle est souvent utilisée pour son caractère sans mémoire. Soit une
variable aléatoire suivant une loi exponentielle. Soient et deux réels strictement positifs,
on a

Cela signifie que la probabilité d'être dans un intervalle dépend uniquement de la


largeur de l'intervalle et pas de sa position absolue (d'où le vocable ``d'effet sans mémoire``).

Loi de Weibull : Cette loi est aussi très utilisée pour caractériser la fiabilité des matériels.
Elle est reliée à la loi exponentielle par la relation suivante : suit une loi de Weibull de

paramètre si suit une loi exponentielle. On dit que est le paramètre de forme :

correspond à un matériel qui se dégrade avec le temps (usure); à un matériel

qui se bonifie avec le temps; (cas où la loi est exponentielle) à un matériel sans usure
(pannes purement accidentelles).

Figure 4: Densité de probabilité de la loi de Weibull de paramètre .

41 Jean-Michel Jolion2006 LD
Loi Gamma : Soit une v.a. normale X de paramètres et soit une v.a. construite par

. suit une loi Gamma de paramètres . La distribution


gamma est une généralisation de la loi exponentielle. En effet, si la loi exponentielle
corrrespond à la distribution de probabilité du temps séparant l'apparition de deux évènements
donnés, la loi gamma fournit la distribution de probabilité du temps qui s'écoule entre la
Kème et la (K+r)ème apparition de l'évènement. La loi gamma est appliquée comme modèle
de probabilité pour prévoir la durée de vie des appareils qui subissent une usure tels les
véhicules automobiles ou les appareils mécaniques.

Loi du : Le paramètre m est le nombre de degrés de liberté de cette loi. Cette distribution

permet de définir la loi de la v.a. où les sont des v.a. normales centrées
réduites indépendantes. Pour m tendant vers l'infini, cette loi tend asymptotiquement vers une

loi normale. La somme de deux v.a. du à respectivement et degrés de liberté, est une

nouvelle v.a. de loi du à degrés de liberté. On peut aussi relier cette loi à la loi

Gamma avec .

Loi de Rayleigh : C'est la loi de la norme, i.e. où et sont des v.a.


normales centrées. C'est aussi la loi de la dérivée de la loi normale. La loi de Rayleigh
apparaît souvent pour décrire le bruit en sortie de certains récepteurs de transmissions.

Loi de Student : Si : , et si (indépendante de ) est telle que suit

une loi du à degrés de liberté, alors la variable suit une loi de Student à
degrés de liberté. Cette loi sert essentiellement pour les tests statistiques d'hypothèses.

Quelques relations

En statistique, on est souvent amené à construire les variables aléatoires suivantes :

42 Jean-Michel Jolion2006 LD
Dans le cas, fréquent, où l'on admet ou vérifie, que les sont des lois normales de même

paramètrage , alors

suit une loi normale .

suit une loi du à degrés de liberté.

suit une loi de Student degrés de liberté.

Par ailleurs, on sait que seules les affinités (et en particulier les sommes) conservent les lois
normale, binomiale, uniforme et Gamma (à paramètres entiers).

43 Jean-Michel Jolion2006 LD
Loi des grands nombres

Subsections

 Convergence stochastique
 Théorème central limite

Convergence stochastique
On s'intéresse à la loi d'une suite de v.a. indentiques, et plus particulièrement à la convergence à
l'infini. Pour étudier cette convergence, il existe de nombreux outils dont nous résumons ici les
principaux.

Convergence en loi. Soit une suite de v.a. de F.R. , et soit une v.a. de FR

. On dit que la suite converge en loi vers la v.a. ssi converge vers

44 Jean-Michel Jolion2006 LD
Convergence en probabilité. On dit que la suite converge en probabilité vers la v.a.

ssi (donnés arbitrairement petits) tel que

Cette définition est une généralisation du théorème de Bernouilli (dans le cas où est une
constante). En conséquence de ce théorème, on sait que dans une série d'épreuves
indépendantes, la fréquence relative de l'évènement A converge en probabilité vers P(A)
quand le nombre d'épreuves croit indéfiniment.

Convergence en moyenne. On dit que la suite converge en moyenne d'ordre p vers la v.a.

ssi pour tendant vers l'infini. La plus utilisée de ces convergences

est la convergence en moyenne quadratique ( ).

La convergence moyenne d'ordre 2 implique la convergence en moyenne d'ordre 1 (ou


convergence en moyenne) qui implique la convergence en probabilité qui implique la
convergence en loi. Cette dernière est donc la convergence la plus stricte.

Exemple : Théorème de De Moivre-Laplace : Soit une suite de v.a. binomiales .

converge en loi vers une loi normale centrée réduite . On admet

généralement que cette convergence est bonne si et . Par exemple,

soit une v.a. . Le critère est validé. Soit à approximer la valeur de

. La valeur exacte est 0.1319 d'après les tables. D'après le théorème, on obtient

une valeur approchée de par

Cette formule d'approximation avec une loi donne

Soit une erreur de moins de .

45 Jean-Michel Jolion2006 LD
Théorème central limite

Le théorème central limite est l'un des résultats les plus importants de la théorie des
probabilités. De façon informelle, ce théorème donne une estimation très précise de l'erreur
que l'on commet en approchant l'espérance mathématique par la moyenne arithmétique. Ce
phénomène a d'abord été observé par Gauss qui l'appelait loi des erreurs; mais ce dernier n'en
a pas donné de démonstration rigoureuse. La preuve du théorème a été apportée part Moivre
et Laplace; le théorème porte donc parfois leurs noms.

Ce théorème est fondamental car il justifie toutes les approximations par la loi normale.

Théorème :

Soit une suite de v.a. de même loi d'espérance et d'écart type . Alors la v.a.

converge en loi vers une v.a. normale centrée réduite .

Exemples : La moyenne expérimentale ou arithmétique ( ) converge donc

vers une loi normale de moyenne , la moyenne théorique, et d'écart-type .

Une proportion tend vers une loi normale de moyenne la proportion théorique et

d'écart-type .

Comme cas particulier de ce théorème, on retrouve également la convergence d'une suite de


loi binomiale vers la loi normale (théorème de Bernoulli). Ce théorème justifie l'utilisation de
la loi normale lorsqu'il y a répétition d'expériences identiques. Par contre, ce théorème reste
strict sur les conditions d'applications. On considère souvent que ce théorème reste valable
même si les distributions individuelles sont différentes, pour autant que la variance de chacun
des termes individuels soit négligeable vis-à-vis de la variance de la somme. C'est en fait un
théorème plus général du à Lindeberg.

Théorème :

Soient des v.a. indépendantes, pas forcément de même loi, centrées et de

variance . Soient , et la fonction de répartition de

la v.a. . Si la condition suivante est réalisée

46 Jean-Michel Jolion2006 LD
alors

La condition de Lindeberg exprime que les v.a. sont ``uniformément petites'' avec une
grande probabilité. Le résultat veut dire qu'à force d'ajouter de telles variables, on finit par
obtenir une loi normale. Autrement dit, si une variable est la résultante d'un grand nombre de
causes, petites, à effet additif, cette variable suit une loi normale. C'est à cause de cette
interprétation que la loi normale est très souvent employée comme modèle (malheureusement
pas toujours à raison).

Enfin, notons que ces théorèmes supposent l'existence des moments des v.a. On ne peut donc
pas les utiliser par exemple pour des v.a. suivant une loi de Cauchy (dans ce cas particulier, la
somme produit une v.a. qui a toujours une loi de Cauchy et cela quel que soit le nombre
d'éléments dans la somme).

Simulation d'une variable aléatoire

Très souvent en simulation, on est amené à utiliser des échantillons fictifs de réalisations
d'une v.a. de loi déterminée. Nous abordons ici un ensemble de méthodes de construction de
tels échantillons

Subsections

 Méthode générale par transformation inverse


 Loi uniforme
 Loi exponentielle
 Loi binomiale

47 Jean-Michel Jolion2006 LD
 Loi de Poisson

 Loi normale :

Méthode générale par transformation inverse


Soit à construire un échantillon de réalisations d'une v.a. de fonction de répartition . Soit

la v.a. définie par . Cette v.a. suit une densité de probabilité uniformément

distribuée sur l'intervalle . Sa fonction de répartition G est telle que

Soient un échantillon de taille n d'une v.a. uniformément distribuée sur .

Les peuvent être considérés comme des réalisations de la v.a. . Pour calculer les

réalisations de , il suffira alors de calculer la valeur de qui correspond à une valeur

de sa fonction de répartition :

Loi uniforme
La construction d'un échantillon fictif d'une v.a. de loi quelconque nécessite en premier lieu la
construction d'un échantillon fictif d'une v.a. uniforme entre 0 et 1. Pour une loi uniforme, on ne
pourra donc pas se servir de la méthode générale. On utilisera alors soit des tables de nombres au
hasard, soit des algorithmes de génération de nombres pseudo-aléatoires (fonction random classique
sur les machines par exemple).

Loi exponentielle

pour et . On a le résultat suivant

. La méthode générale par transformation inverse nous donne

48 Jean-Michel Jolion2006 LD
. Si on remplace par (ce qui est possible sans conséquence car la

distribution uniforme est symétrique), alors on obtient . On a donc

Loi binomiale

. et doivent être connus. On pose alors et on génère

nombres aléatoires uniformément distribués et pour chaque , on fait le test

si alors faire

si alors faire

sera la valeur de la réalisation d'une v.a. binomiale de paramêtres et . Cet algorithme

utilise la propriété qui relie la loi binomiale à la loi 0-1 ( ).

Loi de Poisson

. On utilise le fait que les intervalles de temps séparant deux évènements


successifs suivant une loi de Poisson sont distribués exponentiellement. On génère donc les

intervalles distribués suivant une loi exponentielle de moyenne 1. La réalisation de la


variable aléatoire de Poisson de paramètre sera alors déterminée par l'inégalité

49 Jean-Michel Jolion2006 LD
avec ( : v.a. uniforme [0,1] et v.a. exponentielle de moyenne 1).

Loi normale :
On utilise le théorème central limite. La distribution de la moyenne d'une v.a. tend vers une loi
normale lorsque la taille de l'échantillon est suffisamment grande, et ceci quelle que soit la

distribution de la v.a. . On peut donc prendre Y : v.a. uniforme sur [0,1]. Donc et

. La v.a. définie par tend vers une loi normale centrée réduite.

Pour obtenir une échantillon de v.a. normale de moyenne et de variance , on utilisera la


relation

En pratique, on utilise .

Autres indicateurs
Il existe d'autres indicateurs permettant de caractériser une v.a. Ils ne sont pas issus du calcul des
moments.

Subsections

 Histogramme
 Médiane
 Mode
 Autres moyennes

50 Jean-Michel Jolion2006 LD
Histogramme
L'histogramme est analogue à la courbe de densité. L'ordonnée associée à chaque abscisse est égal à
la fréquence d'apparition de la valeur dans l'échantillon. Dans le cas d'une v.a. discrète, la
construction de l'histogramme ne pose pas de problème. Par contre, pour une v.a. continue, il est
nécessaire de résumer les valeurs à reporter sur la courbe en classes.

La détermination du nombre de classes d'un histogramme est délicate et il n'existe aps de


règle absolue. Un trop faible nombre de classes fait perdre de l'information et aboutit à
gommer les différences pouvant exister entre des groupes de l'ensemble étudié. En revanche,
un trop grand nombre de classes aboutit à des graphiques incohérents où certaines classes
deviennent vides ou presque car , la taille de l'échantillon, est fini.

Sturges propose comme limite maximale du nombre de classes

où désigne la partie entière. Ainsi pour mesures, il ne faudrait pas construire


d'histogrammes de plus de classes.

Médiane
Par définition, la médiane est la valeur correspondant au milieu de la fonction de répartition d'une
v.a.

Si la loi de la v.a. est symétrique, alors la médiane est égale à l'espérance mathématique. la
médiane n'est pas unique. C'est une indicateur insensible aux valeurs extrèmes ce qui en fait
un outil très intéressant dans le domaine des statistiques robustes.

51 Jean-Michel Jolion2006 LD
Si l'on part d'un échantillon de réalisations triées par ordre croissant, la médiane sera

obtenue par si est impair. Si est pair, on prend conventionnellement

Exemple : La médiane de la série est (la valeur est la 4ème dans la

série triée ( ) alors que la moyenne est .

Lorsque l'on ne connait qu'une répartition en classes, on cherche la classe médiane

telle que et . On détermine alors par une interpolation


linéaire de la forme

Mode
Par définition, le mode d'une v.a. est sa valeur la plus probable

Le mode n'est pas unique. Il n'est strictement défini que pour une v.a. discrète car pour toute v.a.

continue, on a . Cependant, nous verrons dans le chapitre sur l'estimation


qu'il est possible de trouver une valeur que l'on assimile au mode pour les v.a. continues.

Autres moyennes
Dans la pratique, il peut arriver que la nature des réalisations d'un échantillon ne soit pas adaptée à
l'utilisation de la moyenne classique. Il existe d'autres possibilités

La moyenne géométrique :

La moyenne harmonique :

Il est très dur de connaître les lois de comportements de ces indicateurs particuliers. Il doivent
donc être utilisés avec précaution.

52 Jean-Michel Jolion2006 LD
Estimation
On considère généralement deux types d'estimation: l'estimation ponctuelle (on cherche à estimer
une valeur) et l'estimation par intervalle de confiance où l'on estime la probabilité que la valeur vraie
d'un paramètre appartienne à un intervalle donné.

Subsections

 Estimation ponctuelle
o Introduction
o Estimateur convergent
o Estimateur sans biais
o Estimateur efficace
o Robustesse

 Méthode du maximum de vraisemblance


 Estimation par intervalle de confiance
o Estimation d'une proportion
o Estimation d'une moyenne
o Estimation d'une variance

 Estimation robuste
o Interprétation de données: l'approche bayésienne
o Le traitement de l'a priori
o Le traitement de l'a posteriori
o Le cas monodimensionnel
o Le cas général
o Estimation itérative

 Régression linéaire
o Formalisation
o Résolution dans le cas d'une distribution normale des écarts
o Le cas de la droite
o Intervalle de confiance sur le coefficient de corrélation

53 Jean-Michel Jolion2006 LD
 Filtre de Kalman
 Estimation d'un mode
 Estimation d'une densité

Estimation ponctuelle

Subsections

 Introduction
 Estimateur convergent
 Estimateur sans biais
 Estimateur efficace
 Robustesse

Introduction
A partir de données d'échantillons représentatifs, on va induire des résultats sur la population-mère
(i.e. population dans laquelle les échantillons ont été prélevés).

Plus exactement, soit un paramètre inconnu 2intervenant dans la loi de probabilité d'une
variable aléatoire . La loi de probabilité de cette variable aléatoire doit être connue
analytiquement (on choisit parmi les modèles existants la loi la plus appropriée au phénomène
observé). Seule la valeur numérique du paramètre intervenant dans cette loi de probabilité
est inconnue.

Soient les valeurs prises par la v.a. dans un échantillon de taille


prélevé dans la population-mère.

On appelle estimateur de , et l'on note , la fonction qui aux valeurs de l'échantillon


fait correspondre la valeur du paramètre . On note la valeur numérique de cette estimation
par

54 Jean-Michel Jolion2006 LD
Par définition, est une fonction des réalisations d'une v.a., est donc une v.a. dont on
peut chercher à déterminer les caractéristiques (loi, ddp, FR, moments, ...).

Exemple: On observe un phénomène de production de pièces manufacturées. Chaque pièce


est associée à une mesure (un indicateur de qualité par exemple). Comme on ne peut pas
vérifier chaque mesure, on procède à un échantillonnage qui nous fournit donc un échantillon.
Supposons que la connaissance de la nature de cet indicateur nous permet de faire l'hypothèse
qu'il obéit à une loi de probabilité normale. Le problème est maintenant, au vue de

l'échantillon , de proposer une valeur pour la moyenne de cette loi normale. Il faut

procéder à une estimation du paramètre vrai qui se traduit par la valeur . Il y a une
infinité de manière possible parmi lesquelles on peut citer

médiane

mode

Quel est le meilleur estimateur de la moyenne ? Existe-t-il ?

Sur ce simple exemple, est résumé le problème fondamental de l'estimation: quelle est la
définition mathématique de meilleur?

La réponse est simple, il n'en existe pas. Alors comment comparer les estimateurs. Pour cela,
on se sert de plusieurs critères, le plus souvent liés au bon sens:

le biais: On souhaite que l'estimation ne soit pas systématiquement décalée par rapport à la
valeur vraie.

la précision: Si l'on répète l'estimation sur un autre échantillon, on souhaite obtenir une
estimation cohérente, donc peu de variation d'un échantillon à l'autre. On parlera aussi
d'efficacité.

la convergence: Si l'on peut estimer la valeur du paramètre sur toute la population-mère, la


valeur de l'estimation obtenue doit être la valeur vraie du paramètre.

la compléxité: Toute estimation nécessite un calcul donc un temps. On s'attachera donc à


évaluer la complexité du calcul en fonction de la taille des données (i.e. ).

55 Jean-Michel Jolion2006 LD
la robustesse: Dans tout cas concrèt, il existe des sources de perturbations. On souhaite que
l'estimation ne soit pas sensible à la présence de valeurs abérantes (outliers en anglais).

Ces différents critères ne sont pas forcément compatibles entre eux, et l'on retrouve des
dilemmes classiques, précision vs robustesse, convergence vs complexité.

Estimateur convergent

Un estimateur est convergent si la valeur estimée tend en probabilité vers la valeur vraie du
paramètre, soit:

(arbitrairement petits)

Si l'estimation est exhaustive (l'échantillon est égal à la population-mère), alors la valeur vraie
du paramètre est connue.

Estimateur sans biais

Un estimateur est dit sans biais lorsque son espérance mathématique est égale à la valeur vraie
du paramètre.

Un estimateur est dit asymptotiquement sans biais si le biais diminue si la taille de


l'échantillon augmente:

Exemples:

X: : est un estimateur convergent sans biais de la moyenne vraie


de cette v.a.

56 Jean-Michel Jolion2006 LD
X: : est un estimateur convergent sans biais de la variance
vraie de cette v.a.

X: ( est supposée inconnue): est un estimateur


convergent avec biais de la variance vraie de cette v.a. Cet estimateur est considéré sans biais
asymptotiquement.

X: ( est supposée inconnue): est un estimateur


convergent sans biais de la variance vraie de cette v.a.

La différence entre ces deux derniers exemples se limite au dénominateur de la formule de


calcul de . Le deuxième estimateur est sans biais car il prend en compte par le terme

le fait qu'il faut utiliser une estimation préalable de la moyenne pour pouvoir faire
l'estimation de la variance, i.e. il n'y a donc plus données disponibles (ou degrés de libertés)

mais . Cette appréciation intuitive peut bien sûr être démontrée.

Soit un estimateur de la variance. On pose comme hypothèse que

l'échantillon est constitué de réalisations de V.A. indépendantes 2 à 2 et de même


nature que la V.A. X inconnue et dont on veut estimer la variance. Pour estimer le biais de
, on calcule l'espérance mathématique de l'estimateur

où est la V.A. associée à la réalisation .

Soit .

57 Jean-Michel Jolion2006 LD
En posant , on obtient une V.A. centrée et de même variance que .

On simplifie l'équation précédente en tenant compte de la linéarité de l'opérateur espérance


mathématique.

58 Jean-Michel Jolion2006 LD
Pour aller plus loin, on tient compte de quelques propriétés :

 car les V.A. sont indépendantes 2 à 2.

 car est centrée.

 d'après la propriété énoncée sur et par propriété


de la variance.

On constate bien un biais qui se traduit par le facteur . Pour le compenser, on multiplie

l'estimateur par et on obtient un nouvel estimateur sans biais (car )

En développant cette formule, on obtient une forme plus efficace

59 Jean-Michel Jolion2006 LD
Estimateur efficace
La variance d'un estimateur représente sa précision. Pour tous les estimateurs (ayant même
moyenne), il est possible de trouver celui dont la précision sera la meilleure, i.e. dont la variance sera
la plus faible. On parle alors d'estimateur à variance minimum.

Lorsque l'on compare deux estimateurs, on dira également que est plus efficace que si

Une estimation est liée à un échantillon de taille finie. Si la population-mère est de taille
infinie, il n'est pas possible d'avoir accès à la valeur vraie . La précision que l'on pourra

obtenir sur ne pourra donc pas descendre en deça d'une certaine limite (borne inférieure de
la variance de l'estimateur ou Minimum Variance Bound (MVB)) qui est déterminée par
l'inégalité de Cramer-Rao:

où , appelée quantité d'information de l'échantillon, est définie par:

est appelée fonction de vraisemblance et se calcule par:

60 Jean-Michel Jolion2006 LD
désignant la ddp de la v.a. et

Si un estimateur atteint la limite inférieure, on parle alors de MVB estimateur. On démontre


aussi que cet estimateur est obligatoirement convergent et sans biais.

Remarque: La notion d'information a été proposée dans les années 20 par le chercheur
anglais Ronald A. Fisher (considéré comme le père de la statistique mathématique). La
démarche de Fisher est la suivante: si l'on s'intéresse aux caractéristiques d'une population
nombreuse (voire infinie, c'est le cas limite auquel on est en permanence ramené), on ne peut
ni connaître ni traiter les informations trop abondantes relatives à chacun des individus qui la
composent. Le problème devient donc d'être capable de décrire correctement la population au
moyen d'indicateurs de synthèse pouvant être fournis par des échantillons issus de la
population à étudier. Plus les données chiffrées que l'on peut extraire d'un échantillon
représentent correctement la population de référence et plus l'information contenue dans cet
échantillon doit être considérée comme élevée.

Partant de cette hypothèse, Fisher a définie techniquement l'information comme la valeur


moyenne du carré de la dérivée du logarithme de la loi de probabilité étudiée. La célèbre
inégalité de Cramer permet alors de montrer que la valeur d'une telle information est
proportionnelle à la faible variabilité - c'est à dire au fort degré de certitude - des conclusions
qu'elle permet de tirer. Cette idée, qui est à la racine de toute la théorie de l'estimation et de
l'inférence statistique, est exactement celle que l'on retrouvera vingt ans plus tard chez
Shannon, exprimée cette fois en des termes non plus statistiques mais probabilistes.

Robustesse
Le terme ``robuste'' a été pour la première fois introduit en statistique par G.E.P. Box en 1953. Un
estimateur est dit robuste si il est insensible à des petits écarts sur les hypothèses pour lesquelles il a
été optimisé. Il y a deux sens au terme ``petit'': de petites variations sur toutes les données, ou des
écarts importants sur un petit nombre de données. C'est le deuxième aspect qui est le plus mal pris
en compte par les estimateurs classiques.

Ainsi, la robustesse traduit le plus souvent la résistance de l'estimation aux données abérentes.
On la définit mathématiquement par le plus petit nombre de données extrèmes qui modifie la
valeur de l'estimation ramené à la taille de l'échantillon.

Considérons un échantillon constitué de valeurs identiques , auquel on ajoutera une

perturbation sous la forme de valeurs extrèmes . Pour estimer l'espérance


mathématique, on peut utiliser la moyenne arithmétique qui donne bien sûr sur l'échantillon.
Cependant, cette estimation est modifiée dès l'introduction d'une nouvelle valeur, , sa
61 Jean-Michel Jolion2006 LD
robustesse est donc de . Par contre, la médiane de cet échantillon n'est pas modifiée si l'on
ajoute une valeur extrème. En fait, la médiane ne sera modifiée que si le nombre de valeurs
extrèmes est supérieur au nombre de valeurs initiales. On en déduit que la robustesse de

l'estimateur médiane est égale à dont la valeur asymptotique est .

Méthode du maximum de vraisemblance


Le critère d'efficacité permet de comparer des estimateurs. On peut aussi s'en servir pour construire

un estimateur. Soit une variable aléatoire de densité de probabilité connue


analytiquement mais dont l'un des paramètres est inconnu (numériquement). Le problème
consiste donc à construire une expression analytique fonction des réalisations de cette variable dans
un échantillon de taille , permettant de trouver la valeur numérique la plus vraisemblable pour le
paramètre .

Si sont des réalisations indépendantes de la v.a., on peut dire que

est une réalisation d'un vecteur aléatoire dont les

composantes sont indépendantes deux à deux.

L'approche retenue consiste à chercher la valeur de qui rend le plus probable les réalisations
que l'on vient d'obtenir. La probabilité d'apparition a priori de l'échantillon en question peut
alors être caractérisée par le produit des probabilités d'apparition de chacune des réalisations
(puisque celles-ci sont supposées indépendantes deux à deux).

La méthode du maximum de vraisemblance consiste à rechercher la valeur de qui rend cette

probabilité maximale. Comme nous l'avons vu plus haut, le produit des valeurs est

62 Jean-Michel Jolion2006 LD
aussi noté et appelé fonction de vraisemblance. La valeur qui rend
maximum la fonction de vraisemblance est donc la solution de:

L'emploi du logarithme sur la fonction permet de passer de la maximisation d'un produit à celle
d'une somme, le résultat restant le même car la fonction logarithme est monotone strictement
croissante.

Propriétés de la fonction de vraisemblance:

Théorème: Si il existe un estimateur efficace sans biais, il sera donné par la méthode du
maximum de vraisemblance.

Théorème: L'estimateur efficace existe si où ne

dépend pas des observations . On peut alors montrer que

Cette approche est très théorique mais possède l'avantage d'être parfaitement formalisée.

63 Jean-Michel Jolion2006 LD
Exemple 1: Soit une loi normale avec connu mais inconnue. L'objectif est

de construire un estimateur de la valeur , étant donné un échantillon de réalisation

. Pour cela, on part de la fonction de vraisemblance de cet échantillon:

La moyenne arithmétique est l'estimateur le plus efficace de l'espérance mathématique dans le


cas de la loi normale. Quel est le biais de cet estimateur ?

où est une v.a. .

64 Jean-Michel Jolion2006 LD
de part la propriété de linéarité de l'opérateur espérance mathématique. L'estimateur est donc
sans biais.

Estimation par intervalle de confiance


Cette nouvelle approche est souvent préférée dans la pratique car elle introduit la notion

d'incertitude. On cherche à déterminer l'intervalle centré sur la valeur numérique estimée du


paramèter inconnu contenant la valeur vraie avec un probabilité fixée a priori. Cette probabilité
permet de s'adapter aux exigences de l'application.

L'intervalle est appelé intervalle de confiance et est le coefficient de confiance.


Une estimation par intervalle de confiance sera d'autant meilleure que l'intervalle sera petit
pour un coefficient de confiance grand.

La donnée de départ, outre l'échantillon, sera la connaissance de la loi de probabilité du


paramètre à estimer. Comme il n'existe pas de résolution générale de ce problème, nous allons
aborder successivement les cas les plus fréquents (estimation d'une proportion, d'une moyenne,
d'une variance de loi normale).

Subsections

 Estimation d'une proportion


 Estimation d'une moyenne
 Estimation d'une variance

Estimation d'une proportion

Soit une population dont les individus possèdent un caractère avec une probabilité (loi 0/1). On
cherche à déterminer cette probabilité inconnue en prélevant un échantillon de taille dans cette
population. On constate que parmi les individus possèdent le caractère . Que peut-on en

déduire, i.e. la proportion approxime la valeur vraie , mais avec quelle confiance.

65 Jean-Michel Jolion2006 LD
Soit ; est une v.a. construite par la somme de variables aléatoires 0/1 et de

même paramètre, . C'est donc, d'après le théorème central limite, une variable aléatoire dont

la loi de probabilité tend vers une loi normale de moyenne et d'écart-type . Cette
approximation est valable uniquement si la taille de l'échantillon est suffisamment grande (i.e.

en pratique).

Construisons l'intervalle de confiance autour de sous la forme:

où est le risque (a priori, on construit un intervalle symétrique). est une réalisation d'une v.a.

. donc on peut par normalisation et centrage obtenir une nouvelle v.a.

On en déduit donc l'intervalle de confiance sous la forme:

La valeur est donc un résultat de calcul. La valeur de sera lue sur une table

de loi normale . Il existe par ailleurs différentes manières pour approximer la valeur

de :

soit par la proportion :

66 Jean-Michel Jolion2006 LD
soit par majoration: en effet, quelle que soit la valeur de , le produit est majoré

par .

Exemple: Soit un échantillon de taille et une proportion estimée . Quelle


est la confiance dans cette valeur ou bien quel intervalle donne une confiance de (risque

de ?

Par lecture dans la table de la loi normale, on obtient .

L'intervalle à de confiance autour de la proportion estimée est donc .

Estimation d'une moyenne


Deux cas sont à envisager:

La variable aléatoire mesurée est normale et le nombre de réalisations est quelconque.

La variable aléatoire mesurée n'est pas normale et le nombre de réalisations est supérieur à
30 (dans ce cas, la distribution de la moyenne tend vers une loi normale d'après le théorème
central limite).

Soit donc une v.a. suivant une loi normale de moyenne inconnue et d'écart-type . On

dispose d'un échantillon de réalisations de cette v.a. Comme précédemment, l'intervalle


de confiance sur la moyenne est:

67 Jean-Michel Jolion2006 LD
où est la moyenne arithmétique calculée à partir de l'échantillon. Pour aller plus loin, nous
devons considérer deux cas

1- La variance est connue.

La valeur joue le rôle d'une constante dans la formule de l'intervalle de confiance et la

nouvelle v.a. suit toujours une loi normale. La valeur de est donc lue dans
une table de la loi normale.

2- La variance est inconnue.

Dans ce cas, joue le rôle d'une v.a. Soit l'estimation de que l'on obtient par:

Comme suit une loi normale, on sait que la quantité suit une loi du à

degrés de liberté. La nouvelle variable aléatoire suit donc une loi de Student

à degrés de liberté. L'intervalle de confiance est alors:

où est lue dans une table de Student pour degrés de liberté.

A posteriori, on peut être intéressé par la taille minimale de l'échantillon tel que l'intervalle de
confiance, pour un coefficient de confiance donné, soit tel que ses bornes inférieures et

supérieures ne s'écartent pas de plus de de la valeur moyenne. On impose donc

, ce qui conduit à

On approche par et par si l'écart-type est inconnu.

68 Jean-Michel Jolion2006 LD
Estimation d'une variance
Nous n'aborderons que le cas de l'estimation de la variance d'une v.a. normale de moyenne

à partir d'un échantillon de valeurs.

Si est connue (très rare), alors l'intervalle de confiance à (risque) est définit par

avec et où et sont les quantiles d'ordre et

de la loi du à degrés de liberté.

Si est inconnue. La quantité définie dans le paragraphe précédent suit une loi du à

degrés de liberté. L'intervalle de confiance à (risque) est définit par

où et sont les quantiles d'ordre et de la loi du à

degrés de liberté.

On obtient le résultat suivant :

69 Jean-Michel Jolion2006 LD
(attention, représente ici la confiance) avec lu sur une table du pour degrés de
liberté, d'où l'on tire :

avec .

Estimation robuste

Nous allons dans ce paragraphe reprendre le problème de l'estimation au tout début afin de
montrer qu'il est possible de dériver des estimateurs très différents de ceux que nous avons
abordés jusque là. Ces estimateurs relèvent du domaine que l'on nomme les statistiques
robustes et dont Legendre (le créateur de la méthode des moindres carrés) a été le précurseur
puisque parlant des écarts entre les données et l'interprétation, il déclarait (en 1805 dans sa
première publication sur les moindres carrés):

Si parmi ces erreurs, certaines apparaissent trop importantes pour être admises, alors les
observations qui ont générées ces erreurs seront rejetées, comme provenant d'expériences
trop peu fiables, et les inconnues seront déterminées grâce aux autres observations, qui de ce
fait induiront moins d'erreurs.

Subsections

 Interprétation de données: l'approche bayésienne


 Le traitement de l'a priori
 Le traitement de l'a posteriori
 Le cas monodimensionnel
 Le cas général
 Estimation itérative

70 Jean-Michel Jolion2006 LD
Interprétation de données: l'approche bayésienne

Soient un ensemble de données, i.e. un échantillon, et un contexte ( englobera tout ce


qui n'est pas directement en relation avec le processus sous-jacent aux données). Le problème
de l'estimation est un cas particulier d'un problème plus général qui est celui de l'interprétation
des données. Soit cette interprétation. Notre problème est donc de déterminer connaissant

et . Une approche possible est de choisir l'interprétation la plus probable. C'est à dire

chercher qui maximise la probabilité conditionnelle . Cette probabilité n'est pas


directement évaluable mais on peut se servir du théorème de Bayes.

d'où l'on déduit

La maximisation de cette expression se faisant sur l'interprétation , on peut supprimer le

dénominateur et ne pas tenir compte de la probabilité du contexte . Si de plus on


suppose que le contexte est indépendant des données, on trouve l'interprétation la plus

probable en maximisant le produit .

Dans cette expression, est la validation a posteriori des données par l'interprétation.

est l'a priori, indépendant des données. Ce deuxième terme traduit le biais qui fait
que l'on ne part jamais avec tous les modèles équiprobables (soit parce que l'on tient compte
de l'application sous-jacente, soit par habitude ou connaissance).

Le traitement de l'a priori

Malheureusement, on ne sait pas traduire l'a priori et donc sa probabilité, c'est pourquoi, on
suppose toujours qu'il est soit négligeable soit qu'il contraint suffisamment l'application pour
que toutes les interprétations possibles soient de la même catégorie.

Prenons le cas de l'interprétation de données bruitées. Dans ce cas, on suppose que les

données sont des prélèvements d'un phénomène perturbé par un bruit additif , ce qui

nous donne . Dans ce cas, la probabilité traduisant l'a priori s'écrit . Si

71 Jean-Michel Jolion2006 LD
le bruit n'est pas corrélé avec le phénomène , on obtient en fait un produit de deux

probabilités . La maximisation de ce produit ne conduit pas à une solution

unique car les complexités de et s'équilibrent. En effet, pour un jeu de données fixé, plus
le modèle sera d'ordre faible plus il faudra supposer un modèle de bruit complexe. A l'inverse,

pour données, on peut toujours envisager une forme polynomiale de degré qui prédit
exactement tous les points, et dans ce cas, le bruit est nul, donc de complexité très faible.
Mais avons-nous l'habitude de manipuler des modèles d'ordre très élevé ?

Le traitement de l'a posteriori


L'a posteriori traduit l'écart entre les données et la prédiction faite par l'interprétation / modèle. Afin
de formaliser cet écart, il est nécessaire de faire des hypothèses sur la distribution des données et
plus particulièrement sur la distribution des écarts entre les données et le modèle. Les hypothèses

minimales sont généralement au nombre de trois. Soient une donnée de l'échantillon et la


prédiction du modèle.

Symétrie:

Décroissance avec le module: décroit quand croit.

Indépendance des erreurs:

Pour aller plus loin, on suppose le plus souvent que la distribution des erreurs suit une loi
normale de moyenne nulle (pas de biais) et d'écart-type . On peut donc construire la

fonction de vraisemblance par

où .

On peut alors en déduire un estimateur par la recherche du maximum de vraisemblance, ce


qui conduit à la méthode des moindres carrés qui est abordée dans la suite de ce chapitre.

Depuis l'origine des statistiques, les statisticiens ont toujours adoré le fait que la distribution
de la somme d'un très grand nombre de petites variations aléatoires converge toujours vers
une distribution normale (cf Théorème central limite).

72 Jean-Michel Jolion2006 LD
Le principal problème de ce choix est que la probabilité d'un écart égal à fois est de

l'ordre de ce qui est beaucoup trop faible pour traduire la fréquence d'apparition

d'un écart très fort du à une donnée abérente. De plus, dans le cas de la loi normale, des
écarts doivent se trouver à au plus fois l'écart type.

On peut donc être amené à choisir des distributions dont la décroissance est moins rapide. Par
exemple, on peut utiliser la distribution de Cauchy, ou une distribution exponentielle.

Le cas monodimensionnel
Prenons le cas de l'estimation d'un paramètre représentant un échantillon. Soit ce paramètre. Si
l'on fait l'hypothèse d'une distribution normale des écarts, on aboutit à l'estimateur moyenne. Par

contre, si l'on suppose que la distribution est exponentielle ( ), on aboutit à un


autre estimateur (toujours par la méthode du maximum de vraisemblance) tout aussi simple, la
médiane.

Ces deux estimateurs peuvent être comparés grâce aux indicateurs que nous avons évoqués au
début de ce chapitre. Ils sont tous les deux convergents et sans biais. La complexité de la

moyenne est de alors que celle de la médiane est de car il faut faire un tri
des données, la moyenne est donc plus rapide à calculer. Par contre, la robustesse de la
moyenne est asymptotiquement nulle alors que celle de la médiane est asymptotiquement de
0.5 ce qui traduit une bien meilleure résistance au bruit, i.e. aux données abérentes.

Le cas général

Reprenons le cas général. On veut maximiser la probabilité où est

l'écart sur la ème donnée et la distribution des écarts.

La maximisation de cette probabilité peut se réécrire sous la forme d'une minimisation d'une

fonction de coût où est le vecteur des paramètres du modèle / interprétation .

73 Jean-Michel Jolion2006 LD
avec et où traduit l'incertitude sur la ème donnée et permet de relativiser la
valeur de chaque écart.

Soit . La minimisation de conduit à résoudre le système de (nombre de


paramètres) équations:

Ce système n'a bien sur pas de solution générale et il convient de l'étudier en fonction du

choix de , ce qui donne une classe d'estimateurs connus sous le nom de M-estimateurs.

Modèle de Legendre:

C'est le cas le plus connu car il correspond à l'hypothèse de normalité de la distribution des

écarts. On pose et

L-estimateur:

Egalement très utilisé, cet estimateur utilise et donc ce qui


conduit à l'estimateur médian.

Modèle de Cauchy / Lorentz:

Comme nous l'avons vu précédemment, ce modèle permet de par la plus lente décroissance de
la loi de Cauchy, de mieux rendre compte des apparitions de données abérentes.

et . La système à résoudre est alors non linéaire et il


faut avoir recours à des résolutions itératives.

Modèle de Huber:

74 Jean-Michel Jolion2006 LD
Dans ce modèle, on utilise un seuil qui permet d'avoir à la fois une décroissance rapide (i.e.
quadratique) si l'écart est faible et de réduire la décroissance (donc augmenter l'importance)
des écarts forts (au delà du seuil). Il réalise un bon compromis entre le modèle de Legendre et
celui du L-estimateur.

Modèle de Tuckey:

Le modèle de Tuckey est du même type que celui de Hubert mais un peu plus complexe car il
permet de s'affranchir de la sensibilité au choix du seuil .

La valeur est appelée point de rejet (rejection point) et joue le rôle du seuil de Hubert. La
valeur est la constante de confiance est vaut (cette valeur a été déterminée pour
obtenir une bonne adéquation à des écarts distribués normalement). La valeur est un facteur
de dimension qui permet d'adapter le seuil à l'étalement de la distribution des écarts. On peut
assimiler à un écart-type et utiliser l'estimateur correspondant mais Tuckey propose un
estimateur plus robuste, la médiane des écarts absolus (Median of Absolute Deviation) qui
vaut

On peut aussi déterminer le point de rejet en pourcentage du volume de données. Par exemple,
on ellimine les % plus grandes et plus petites valeurs des écarts. Une valeur généralement

75 Jean-Michel Jolion2006 LD
recommandée est . La médiane est le cas extrème de cet estimateur tronqué avec

R-estimateur (Jaeckel, 1972):

Le R-estimateur est un cas particulier car il ne s'appuie plus sur des relations linéaires mais
tient compte essentiellement du classement des écarts. La fonction de cout est la suivante:

où est le rang de l'écart dans la liste triée des écarts. La fonction est normalisée telle

que . Par exemple, Wilcoxon a proposé la fonction suivante .

Les tests de Kolmogorov-Smirnov et de Spearman sont d'autres exemples de R-estimateurs.

Le modèle L.M.S. (Least Median of Squares, Rousseeuw, 1984):

Le vecteur de paramètres est la solution de . Si la robustesse de cet

estimateur, , est asymptotiquement égale à , sa complexité est relativement élevée

Estimation itérative

Tous les estimateurs que nous avons abordés sont des méthodes directes, et, le plus souvent, il
faut faire un compromis entre efficacité et faible complexité d'une part, et robustesse d'autre
part.

Pour cela on peut procéder en plusieurs étapes pour essayer de combiner tous les avantages.
Dans un premier temps, un estimateur classique non robuste permet de quantifier l'adéquation
de chaque donnée au modèle, i.e. par l'écart. Chaque donnée est alors affectée d'un poids, le
plus souvent inversement proportionnel à l'écart. On peut alors itérer le processus d'estimation.
L'hypothèse sousjacente est qu'une donnée abérente aura un écart initial fort et donc une
adéquation et un poids faibles. Il n'interviendra donc que très peu dans la deuxième phase
d'estimation. Le processus peut être itéré jusqu'à convergence de l'estimation.
76 Jean-Michel Jolion2006 LD
Prenons pour exemple l'estimation de l'espérance mathématique par la moyenne arithmétique

à partir d'un échantillon . On peut résumer le processus par l'algorithme


suivant:

1. Première estimation ( ):

2. Calcul des écarts:

3. Calcul des poids: (cf le chapitre précédent pour diverses possibilités pour ).

4. Nouvelle estimation (itération ):

5. test de convergence: Si non convergence (par exemple et )


alors retour au pas .

Dans cet exemple, on augmente la robustesse au bruit avec comme coût une complexité un

peu plus forte ( au lieu de ). En pratique, on utilise peu d'itérations car le

processus a tendance à rejeter de nouveaux points (i.e. ) à chaque itération. Le risque


est donc non négligeable de voi le processus converger vers une estimation reposant sur très
peu de données (une seule réalisation à la limite). On peut, pour éviter cet écueil, arréter le

processus lorsque de la population initiale a un poids nul ou quasi-nul. Puisque l'objectif

de l'itération est de recherche la robustesse, on fixe le plus souvent .

Régression linéaire

La régression linéaire est un cas particulier d'estimation très usité car très bien formalisé et
correspondant à des modèles simples (car linéaires). C'est l'outil de base de la modélisation de
données. Une approche très générale de ce problème est fournit dans le cours d'approche
conceptuelle des systèmes. Nous ne traiterons ici que de la facette statistique de ce problème
mathématique.

77 Jean-Michel Jolion2006 LD
Subsections

 Formalisation
 Résolution dans le cas d'une distribution normale des écarts
 Le cas de la droite
 Intervalle de confiance sur le coefficient de corrélation

Formalisation

Soit une fonction de telle que .

On souhaite modéliser par une approximation linéaire caractérisée par un vecteur de

paramètres ( ) telle que .

L'objectif sera d'estimer le vecteur à partir d'un jeu de données .


Pour cela, on peut donc reprendre la formalisation du chapitre précédent. sera obtenu par

minimisation de la fonction de coût :

(On supposera par simplicité que toutes les données ont la même incertitude, ce qui permet de

ne pas faire intervenir les termes .)

Résolution dans le cas d'une distribution normale des écarts


Nous avons vu qu'il est nécessaire dans ce type de problème de faire un choix sur la nature de la
distribution des écarts. Nous adopterons le choix classique de la distribution normale. Dans ce cas,

nous avons vu que cela revient à utiliser . On obtient alors le système d'équations
linéaires suivant:

78 Jean-Michel Jolion2006 LD
Soit

Ce système étant linéaire, il a une solution unique sauf si le déterminant du système est nul.

On peut montrer que ce cas intervient si il existe une relation linéaire d'ordre entre les

vecteurs . On dit alors que le système est surdimensionné et un traitement des données est
nécessaire afin d'elliminer préalablement cette dépendance. La dimension du nouveau vecteur

de paramètres recherché est alors de .

Le système à résoudre est de plus symétrique. On peut donc faire appel à des techniques

spécifiques telles que la décomposition LU (méthode directe de complexité ) ou les

algorithmes Gauss-Seidel ou Jacobi (méthodes itératives de complexité où est le


nombre d'itérations nécessaires à la convergence). Pour plus de détails sur ces techniques,
référez vous au cours d'analyse numérique ou à tout bon livre sur la résolution de systèmes
linéaires.

Le cas de la droite
Nous abordons ici le cas limité où le modèle est une droite. On parle aussi de regression linéaire

simple. On a alors et . Le système linéaire à résoudre s'écrit:

79 Jean-Michel Jolion2006 LD
Ce système a une solution unique si et seulement si .

On peut considérer que les données constituent un échantillon d'une v.a. que l'on

peut caractériser par sa moyenne et sa variance estimées. La condition

d'existence d'une solution est donc ce qui équivaut à dire


qu'il faut simplement que les données de l'échantillon ne soient pas toutes identiques. Le
système peut alors se réécrire sous la forme:

dont la solution analytique est:

Les v.a. et sont reliées par la relation où et sont les valeurs vraies.

On a vu dans ce cas que et . On


peut donc relier la valeur estimée à la valeur vraie par:

80 Jean-Michel Jolion2006 LD
L'estimation sera donc parfaite si les v.a. et sont parfaitement corrélées (i.e.

). Plus cette corrélation sera faible, moins bonne sera l'estimation. Le


coefficient de corrélation est donc un bon indicateur de la qualité de la régression linéaire

simple. De même, pour le paramètre , on sait que . Donc,

Là encore, l'estimation sera d'autant meilleure que la corrélation sera proche de 1. Cependant,

on constate que et interviennent comme un gain sur l'erreur due à la corrélation non
parfaite. L'estimation de sera donc plus vite dégradée que celle de .

Intervalle de confiance sur le coefficient de corrélation

On peut déterminer un intervalle de confiance sur le coefficient de corrélation (afin de

quantifier la qualité de la régression) grâce à l'introduction de la transformation donnée


par :

et

L'intervalle de confiance est défini par

avec où est une loi normale centrée réduite.

Grâce à la relation liant les variables et , on peut obtenir l'intervalle de confiance sur .

81 Jean-Michel Jolion2006 LD
Exemple : Soit obtenu sur un échantillon de taille . On souhaite construire

l'intervalle de confiance à autour de cette valeur.

On obtient successivement . Dans la table de la loi normale, on lit

et donc . Par inversion, on obtient


l'intervalle de confiance sur l'estimation du coefficient de corrélation :

Filtre de Kalman
Dans tous les problèmes d'estimation que nous venons d'aborder, on suppose toujours connu et fixe
un échantillon de données. L'estimation est un travail a posteriori à partir de cet échantillon. Dans
certains contextes (lorsque l'échantillon est très grand, ou qu'il correspond à un échantillonnage
continu donc sans fin réel) on peut être amené à estimer les paramètres sans attendre d'avoir la
totalité de l'échantillon. A chaque nouvelle donnée disponible, on cherchera donc à mettre à jour la
valeur de l'estimation (il n'est bien sûr pas question de recommencer l'estimation à chaque fois, ce
qui serait trop couteux). On parle alors d'estimation incrémentale.

Nous aborderons dans ce chapitre la technique la plus classique qui réalise une régression
linéaire incrémentale, le filtre de Kalman.

Soit l'estimation initiale et son incertitude ( , et est une matrice ).

De même, soit l'estimation courante (calculée grâce aux premières données) et son

incertitude. On suppose l'arrivée d'une nouvelle donnée ( ) pour laquelle on

connait aussi son incertitude notée ( est une matrice ). Le problème est

donc le maintenant de trouver la nouvelle estimation et son incertitude, .

Le principe de cette mise à jour est traduit par la relation:

Comment cela s'interprète-t-il? La matrice est une matrice qui permet de passer

de l'estimation au domaine des données. Le terme est la prédiction de la

ème donnée à partir de l'estimation calculée sur les premières. Le terme

82 Jean-Michel Jolion2006 LD
traduit donc l'écart entre la prédiction et la donnée réelle. On peut aussi dire que cet écart est
l'innovation apportée par la nouvelle donnée. Cette innovation va servir à mettre à jour
l'estimation. Cette mise à jour est une simple addition où l'on fait cependant intervenir un gain
sur la partie innovation, la matrice appelée gain de Kalman.

Le gain de Kalman doit tenir compte des incertitudes relatives de l'estimation courante et de la

donnée. Si l'incertitude de la donnée est négligeable devant celle du modèle , on devra


avoir un gain fort, i.e. la donnée est fiable. A l'inverse, si l'incertitude de la donnée est grande
par rapport à celle de l'estimation, le gain doit être très faible, i.e. la donnée étant peu fiable, il
est normal qu'elle ne modifie pas ou peu l'estimation courante. Ces remarques se traduisent
par la relation suivante:

L'emploi de la matrice est rendu nécessaire par le fait que les matrices d'incertitudes ne
sont pas de même rang.

Il ne reste plus qu'à mettre à jour l'incertitude de l'estimation qui tient compte de l'incertitude
courante et du gain de Kalman par la relation:

Prenons un exemple simple, et . On obtient les formules suivantes:

On peut montrer que l'estimation obtenue par ce processus après données est égale à celle
que l'on obtiendrait si l'on estimait directement le vecteur sur l'échantillon de données.

Estimation d'un mode


Nous avons vu dans un des chapitres introductifs que la notion de mode n'était définie que pour les
variables aléatoires discrètes. Il existe cependant une généralisation au v.a. continue.

Rappel: est le mode de la v.a. discrète ssi .

Définition: Soit une v.a. continue. On appele mode de la valeur qui satisfait à

83 Jean-Michel Jolion2006 LD
avec

et .

Ce qui veut dire que est le milieu de l'intervalle le plus dense dans la
distribution des valeurs de .

Comment peut-on estimer cette valeur à partir d'un échantillon? On choisit dans un premier

temps la valeur de (le plus souvent, on fixe ). On recherche ensuite l'intervalle le

plus dense, i.e. , la liste des réalisations étant préalablement triée par
valeurs croissantes. L'estimation finale du mode est obtenue conformément à la définition, par
le mileu de l'intervalle retenu.

Les principaux inconvénients de cette estimation sont la compléxité et surtout la


très forte dépendance entre l'estimation et la valeur choisie a priori pour . Afin de tester
cette sensibilité, on peut bien sûr faire varier légèrement (au prix d'une complexité accrue)
et tester la variance de l'estimateur.

Estimation d'une densité


Nous avons vu précédemment que les tests d'adéquation ne permettait que de valider ou non une
hypothèse sur la nature d'une loi de probabilité en s'appuyant essentiellement sur une distribution
empirique, c'est à dire le plus souvent sur l'histogramme. Si il existe des règles simples sur la
détermination du nombre de classes, il peut arriver que la nature de la loi soit difficile à déduire a
priori de la forme de l'histogramme.

La théorie de l'estimation permet de proposer des solutions visant à obtenir une bien meilleure
approximation de la densité réelle à partir d'un histogramme.

La première approche consiste à estimer la densité de la v.a. en par , le nombre

d'occurences de réalisations appartenant à la ème classe associée à la valeur . La


densité est donc la même quelque soit la position de entre les extrémités de cette classe.

84 Jean-Michel Jolion2006 LD
Une première amélioration consiste à utiliser une fenêtre mobile. On construit autour de

une classe de longueur : , et on compte de nouveau le nombre

d'occurences appartenant à cette fenêtre: . On


peut également écrire

où est la fonction indicatrice de l'intervalle : si ou ,

et si . vaut donc si .

Cette méthode donne une estimation peu régulière. Si l'on veut une fonction lisse, il est alors
possible de généraliser la formule précédente en utilisant des noyaux, i.e. fonctions , plus
continus. En pratique, on utilise souvent des noyaux symétriques et très fréquemment un

noyau gaussien ou parabolique pour

Ce dernier noyau est appelé noyau d'Epanechnikov. Il a des propriétés mathématique


intéressantes. La constante est appelée constante de lissage. Son rôle est déterminant, à

l'image de la largeur des classes de l'histogramme: si est faible, sera très peu régulière, si

est grand, sera très (trop) lisse.

Bien que l'on sache que doit être proportionnel à , sa valeur optimale se détermine
souvent empiriquement.

Il n'est pas nécessaire que soit une densité positive en tout point. On peut tout à fait
envisager d'utiliser des noyaux prenant des valeurs négatives, par exemple le noyau proposé

par M.Lejeune: pour .

85 Jean-Michel Jolion2006 LD
Tests d'hypothèse

Subsections

 Introduction
o Hypothèses et erreurs
o Tests bilatéral et unilatéral
o Région d'acceptation et région critique
o Choix d'un test
o Influence de l'échantillonnage

 Test entre deux hypothèses simples


o La méthode de Neyman et Pearson
o Test de la moyenne d'une loi normale d'écart-type connu
o Test de la moyenne d'une loi normale d'écart-type inconnu
o Test d'une variance de loi normale, la moyenne étant connue
o Test d'une variance de loi normale, la moyenne étant inconnue
o Test d'une proportion

 Test entre hypothèses composées


o Tests UMP
o Test d'une moyenne de loi normale, l'écart-type étant connu
o Test d'une moyenne de loi normale, l'écart-type étant inconnu
o Test d'une variance de loi normale, la moyenne étant connue
o Test d'une variance de loi normale, la moyenne étant inconnue
o Test d'une proportion

 Test de comparaison
o Comparaison de deux moyennes
o Comparaison de deux variances
o Comparaison de deux proportions

 Test du rapport des vraisemblances maximales


 Test d'adéquation

o Test du
o Test de Kolmogorov
86 Jean-Michel Jolion2006 LD
o Test de Cramer-Von Mises

 Test d'indépendance
o Test des différences premières
o Test de Spearman

 Test de comparaison d'échantillons


o Test des variances de Fisher-Snédécor
o Test de Student
o Test de Spearman

 Analyse de la variance
o Les données de l'analyse
o Le test
o Analyse des contrastes

Introduction

Subsections

 Hypothèses et erreurs
 Tests bilatéral et unilatéral
 Région d'acceptation et région critique
 Choix d'un test
 Influence de l'échantillonnage

Hypothèses et erreurs
Une utilisation courante des statistiques est la notion de test. Un test est un mécanisme qui permet
de trancher entre deux hypothèses au vu des résultats d'un échantillon. Dans les cas qui nous
intéressent, ces hypothèses porteront sur des estimations (valeur d'un moment, égalité de variances,

nature d'une loi de probabilité ...). Soient et ces deux hypothèses, dont une et une seule est

87 Jean-Michel Jolion2006 LD
vraie. La décision aboutira à choisir ou . Il y a donc 4 cas possibles dont les probabilités sont
résumées dans le tableau suivant:

vraie vraie

décidée

décidée

et sont les erreurs de première et deuxième espèce:

est la probabilité de décider alors que est vraie.

est la probabilité de décider alors que est vraie.

Ces deux erreurs sont antogonistes, plus sera grand (resp. petit), plus sera petit (resp.
grand). Le fait d'imposer un faible conduit à une règle de décision plus stricte qui aboutit le

plus souvent à n'abandonner l'hypothèse que dans des cas rarissimes et donc à conserver

cette hypothèse quelque fois à tort. Le compromis entre les valeurs de et est donc
souhaitable bien que difficile à réaliser.

On appelle puissance d'un test la quantité .

Dans la pratique des tests statistiques, il est de règle de se fixer comme donné (les valeurs
les plus courantes sont 0.05, 0.01 ou 0.1) de préférence en fonction du risque de première

espèce. En effet, joue le plus souvent un rôle prédominant par rapport à l'hypothèse .

Cela est la conséquence du fait que joue le rôle d'hypothèse de référence alors que est

souvent limitée à l'hypothèse contraire. Par exemple, on peut avoir : ce qui est

relativement facile à tester et dans ce cas, est tout simplement .

Cette pratique est liée au fait que l'évaluation d'un test passe par l'évaluation de fonctions
complexes qui ont été tabulées pour de nombreuses valeurs de mais ne sont pas connues
. On est donc amené à choisir a priori . Cependant, l'apparition de plus en plus
88 Jean-Michel Jolion2006 LD
fréquente de processus numériques d'approximation rapides et précis permet une autre

approche consistant à rechercher la plus petite valeur de pour laquelle l'hypothèse reste
vraie.

Tests bilatéral et unilatéral


Avant d'appliquer tout test statistique, il s'agit de bien définir le problème posé. En effet, selon les
hypothèse formulées, on applique soit un test bilatéral, soit un test unilatéral.

Un test bilatéral s'applique quand on cherche une différence entre deux estimations, ou entre
une estimation et une valeur donnée sans se préoccuper du signe ou du sens de la différence.
Dans ce cas, la zone de rejet (cf section suivante) de l'hypothèse principale se fait de part et
d'autre de la distribution de référence.

Un test unilatéral s'applique quand on cherche à savoir si une estimation est supérieure (ou
inférieure) à une autre ou à une valeur donnée. La zone de rejet de l'hypothèse principale est
située d'un seul côté de la distribution de probabilité de référence.

Certains test comme l'analyse de la variance ou le test du sont pratiquement toujours


unilatéraux.

Région d'acceptation et région critique


Quelle est la démarche générale? étant fixé, il faut choisir une variable de décision, variable qui
doit apporter de l'information sur le problème posé, à savoir le choix entre les deux hypothèses. La
loi de cette variable doit être parfaitement connue dans au moins une hypothèse (le plus souvent

) afin de ne pas introduire de nouvelles inconnues dans le problème. On appelle alors région
critique, et l'on note , l'ensemble des valeurs de la variable de décision qui conduisent à écarter

au profit de . On peut relier à par .

On appelle région d'acceptation, et l'on note la région complémentaire de la région


critique. On a également des relations avec les erreurs de première et deuxième espèce:

et . La zone ou région d'acceptation correspond à


l'intervalle dans lequel les différences observées entre les réalisations et la théorie sont
attribuables aux fluctuations d'échantillonnage. La région critique ou zone de rejet correspond
donc aux intervalles dans lesquels les différences sont trop grandes pour être le fruit du hasard
d'échantillonnage.

89 Jean-Michel Jolion2006 LD
La construction d'un test est la détermination a priori de la région critique sans connaitre le
résultat de l'expérience. On peut donc résumer cette démarche de la manière suivante:

Choix de et

Détermination de la variable de décision

Allure de la région critique en fonction de

Calcul de la région critique en fonction de

Calcul éventuel de la puissance du test

Calcul expérimental de la variable de décision

Conclusion du test: rejet ou acceptation de

Choix d'un test


Plusieurs tests de conception très différente sont souvent disponibles pour soumettre à une épreuve

de vérité une hypothèse principale. Dans un tel cas, le test qui fournit l'erreur la plus petite, pour
une même valeur de , est par définition le plus puissant (celui ayant la plus grande valeur de la

puissance de test ). En effet, il peut détecter les plus petites différences entre les populations
sans pour autant augmenter l'erreur de première espèce.

La majorité des tests statistiques repose sur le respect d'un certain nombre de conditions.
Selon le degré de respect de ces conditions d'application, la validité des résultats se trouve
plus ou moins affectée et elle l'est d'autant plus que le test est moins robuste. Ainsi, la
robustesse d'un test équivaut à sa tolérance vis-à-vis du respect des conditions.

Si le statisticien dispose de plusieurs tests pour vérifier une hypothèse, il choisira bien sûr le
plus puissant et le plus robuste.

Les tests peu puissants augmentent la probabilité de commettre une erreur de deuxième
espèce. Or, cette erreur peut s'avérer particulièrement grave. En effet, en médecine par
exemple, une analyse qui classerait comme malade un individu bien portant peut avoir des
conséquences aussi graves qu'une analyse qui classerait comme bien portants des individus
malades (erreur de première espèce). Dans de tels cas, il y a intérêt à tracer la courbe de
puissance du test, aussi appelée courbe caractéristique d'efficacité qui indique la

90 Jean-Michel Jolion2006 LD
probabilité de prendre une bonne décision si est vraie. La puissance est mesurée par la

valeur de pour un donné.

Influence de l'échantillonnage
Pour comparer les moyennes, les variances ou les autres paramètres estimés de deux échantillons, il
faut prendre en considération la technique conduisant à la constitution des deux échantillons. Si la
sélection des éléments est aléatoire, et si le choix des éléments du premier échantillon n'a aucune
influence sur le choix des éléments du second, les deux échantillons sont alors appelés indépendants.

Si l'on prélève aléatoirement des paires d'éléments, et non les éléments eux-mêmes, on
constitue deux échantillons appariés. Dans ce cas, le premier élément de chaque paire
appartient au premier échantillon et le deuxième est affecté au second. Parfois, la paire
déléments peut se rapporter au même individu sur lequel on mesure la même variable à deux
occasions différentes, par deux moyens différents par exemple.

La technique de l'échantillonnage apparié présente l'avantage d'éliminer un maximum de


sources de variations non reliées au facteur que l'on étudie. En règele générale, plus les
critères d'appariement des données sont nombreux, plus grand sera cet avantage.

Dans ce qui suit, nous allons aborder quelques tests classiques. Cette liste ne se veut pas
exhaustive. Reportez-vous à des ouvrages plus spécialisés pour une approche plus
systématique des tests statistiques.

Test entre deux hypothèses simples

Subsections

 La méthode de Neyman et Pearson


 Test de la moyenne d'une loi normale d'écart-type connu
 Test de la moyenne d'une loi normale d'écart-type inconnu
 Test d'une variance de loi normale, la moyenne étant connue
 Test d'une variance de loi normale, la moyenne étant inconnue
 Test d'une proportion

91 Jean-Michel Jolion2006 LD
La méthode de Neyman et Pearson

Soit une v.a. de densité où est un paramètre réel inconnu. désignera la


densité de l'échantillon .

Un test entre deux hypothèses simples se traduit par:

Supposons l'erreur de première espèce connu. On a vu que l'on peut relier à une région de
l'espace par:

On cherche par ailleurs le test le plus puissant, donc celui qui maximise:

La solution est donnée par le théorème de Neyman et Pearson.

Théorème: La région critique optimale est définie par l'ensemble des points x de tels que:

En conséquence de ce théorème, on peut montrer:

(le test est alors dit sans biais).

si alors (le test est convergent).

Test de la moyenne d'une loi normale d'écart-type connu


Soit une v.a. normale de moyenne et d'écart-type connu. Au vu d'un échantillon de

réalisations indépendantes , on désire savoir si la moyenne est égale à ou à , ce qui


se résume par:

92 Jean-Michel Jolion2006 LD
Les fonctions de vraisemblance, ou densité, de l'échantillon sont:

La région critique est définie par le ratio de ces deux fonctions. En passant par un opérateur
logarithme, on obtient facilement:

En posant: , on obtient:

Si , on aboutit à:

La région critique est donc définie par l'inégalité qu'il faut maintenant déterminer.

Pour cela, nous introduisons l'erreur . Cette erreur est définie par: . Nous

décidons si , donc où est la v.a. dont est une


réalisation. étant une v.a. normale, la distribution de est également normale de

moyenne et d'écart-type .

93 Jean-Michel Jolion2006 LD
On a alors (la condition étant vraie)

avec .

La quantité suit une loi normale centrée réduite donc:

avec .

Si la valeur de est fixée, on peut par lecture dans une table de la loi normale, trouver la

valeur de et donc celle de .

La règle de décision du test est donc:

Par un raisonnement équivalent, on peut évaluer l'erreur de deuxième espèce et donc la


puissance du test.

avec v.a. normale centrée réduite.

Test de la moyenne d'une loi normale d'écart-type inconnu


Le raisonnement précédent s'applique jusqu'à la détermination de .

où désigne l'estimation de l'écart-type inconnu .

94 Jean-Michel Jolion2006 LD
La quantité ne suit plus une loi normale centrée réduite car le dénominateur n'est
plus une constante mais une réalisation de l'estimateur de la variance de la variable . est
obtenue par

Par construction, suit une loi du . est donc une v.a. suivant une loi de Student à
degrés de liberté. Ce qui nous donne:

avec : Student(n-1).

Là encore, il est possible grâce à une table de la loi de Student de trouver la valeur du seuil et
donc celle de . La règle de décision est toujours la même.

De même, par un raisonnement analogue, on accède à l'erreur de deuxième espèce et à la


puissance du test.

avec v.a. de Student à degrés de liberté.

Test d'une variance de loi normale, la moyenne étant connue


Soit une v.a. normale de moyenne connue. On suppose que l'écart-type inconnu ne peut

prendre que deux valeurs et . Au vu d'un échantillon de réalisations indépendantes , on

désire savoir si la variance est égale à ou à , ce qui se résume par:

L'estimateur de la variance sera

95 Jean-Michel Jolion2006 LD
(On utilise et non pas car la moyenne est connue.)

Les fonctions de vraisemblance, ou densité, de l'échantillon sont:

La région critique est définie par le ratio de ces deux fonctions. En passant par un opérateur
logarithme, on obtient facilement:

Dans le cas , on obtient

La valeur de est déterminée à partir de l'erreur de première espèce. La quantité suit

une loi du à degrés de liberté. La valeur seuil sera donc lue dans une table du .

Test d'une variance de loi normale, la moyenne étant inconnue


Ce cas est plus fréquent que le précédent. Toujours grâce au raisonnement induit par le théorème de
Neyman et Pearson, on aboutit aux résultats suivants:

La variable de décision est qui est telle que suit une loi du

à degrés de liberté. La région critique est définie par et est déterminé


par

96 Jean-Michel Jolion2006 LD
La règle de décision du test est donc:

Test d'une proportion

Soit une population très grande où la proportion d'individus possédant le caractère est égale à .

On pense que cette proportion ne peut avoir que deux valeurs ou . Au vu d'un échantillon de
taille , on désire prendre une décision quant à la valeur de cette proportion, avec une signification
.

A partir de l'échantillon, l'estimateur de la proportion théorique sera la fréquence empirique

où est le nombre d'individus possédant le caractère dans l'échantillon.

Les hypothèses sont donc

La règle de décision est donnée par

où désigne la région critique.

est une réalisation d'une v.a. dont la loi de probabilité peut être déterminée grâce au
théorème central limite. Si la taille de l'échantillon est suffisamment grande (en pratique,

), on admet que la loi de tend vers une loi normale de moyenne et d'écart-type

. Ce qui nous conduit à

97 Jean-Michel Jolion2006 LD
avec .

Sous l'hypothèse , on obtient

où est une v.a. normale centrée réduite.

La valeur du seuil critique est lue dans une table de la loi normale.

L'erreur de seconde espèce et la puissance du test sont données par:

où est une v.a. normale centrée réduite.

Test entre hypothèses composées

Subsections

 Tests UMP
 Test d'une moyenne de loi normale, l'écart-type étant connu
 Test d'une moyenne de loi normale, l'écart-type étant inconnu
 Test d'une variance de loi normale, la moyenne étant connue
 Test d'une variance de loi normale, la moyenne étant inconnue
 Test d'une proportion

98 Jean-Michel Jolion2006 LD
Tests UMP
Dans un premier temps, considérons que la formulation générale reste la même pour l'hypothèse
principale:

Par contre, l'hypothèse est formée d'un ensemble d'hypothèse simples.

Les exemples les plus courants sont:

tests unilatéraux.

test bilatéral.

L'erreur de première espèce étant fixée, on pourra déterminer une région critique

associée à chaque valeur de , et une valeur de l'erreur de seconde espèce. La courbe

pour toutes les valeurs de est appelée courbe d'efficacité.

Le test est dit uniformément le plus puissant (Uniformely Most Powerful) ou UMP si les

régions critiques ne dépendent pas des valeurs de .

Théorème: S'il existe un test UMP, la puissance de ce test est supérieure à la puissance
associée à tout autre test.

Plus généralement, peut elle-même être composée. dépend alors de selon les valeurs

de . On devra donc exiger donné.

Le théorème de Lehmann assure l'existence de tests UMP dans les cas suivants:

et

99 Jean-Michel Jolion2006 LD
Par contre, il n'existe pas de tests UMP pour les cas : contre

ou , et a fortiori, contre .

Nous allons maintenant introduire quelques exemples. Pour une liste plus exhaustive,
reportez-vous à la bibliographie.

Les règles de décision ne changent pas dans le principe. Il s'agit toujours de trouver une

valeur seuil et de décider au delà du seuil et en deça du seuil.

Test d'une moyenne de loi normale, l'écart-type étant connu


Test unilatéral

Soit une v.a. normale de moyenne et de variance connue. Au vu d'un échantillon de

réalisations indépendantes , on veut choisir entre les deux hypothèses:

Comme toujours, l'erreur de première espèce est fixée. Par ailleurs, la moyenne sera
estimée par la moyenne arithmétique . La construction du test est similaire à ce que nous
avons vu pour le cas du test simple d'une moyenne. On aboutit à:

avec : .

On remarque que la valeur du seuil de décision est indépendante de la valeur de sous

l'hypothèse . Il s'ensuit que le test est uniformément le plus puissant.

La variable suit une loi normale (en effet est connue et joue donc le rôle d'une
constante) centrée et réduite. La valeur du seuil sera donc déduite d'une table de la loi normale.
Il en est de même pour l'erreur de deuxième espèce et pour la puissance du test.

Test bilatéral

100 Jean-Michel Jolion2006 LD


Soit une v.a. normale de moyenne et de variance connue. Au vu d'un échantillon de

réalisations indépendantes , on veut choisir entre les deux hypothèses:

Comme toujours, l'erreur de première espèce est fixée. Par ailleurs, la moyenne sera
estimée par la moyenne arithmétique . La construction du test est obtenue en remarquant

que l'hypothèse peut se décomposer en deux hypothèses élémentaires:

A chacune de ces deux hypothèses sera associé un seuil de décision et . On peut


conclure que le test ne sera pas UMP puisque le seuil de décision dépend du sens de
l'inégalité.

La détermination des seuils est simple puisque les deux hypothèses et sont disjointes.
On a

Il en résulte une infinité de valeurs possibles pour et . Cependant, la loi de étant

symétrique (loi normale), on prend généralement ce qui conduit naturellement

à des valeurs de symétriques par rapport à . Chaque cas est en fait une application du
test précédent mais pour une valeur moindre de .

avec : .

La valeur du seuil est donc déduite d'une table de la loi normale. Il en est de même pour
l'erreur de deuxième espèce et pour la puissance du test.

101 Jean-Michel Jolion2006 LD


Test d'une moyenne de loi normale, l'écart-type étant inconnu
Les deux tests, bilatéral et unilatéral, se construisent selon le même procédé. Les valeurs de décision

seront lues dans des tables de Student à degrés de liberté.

Test d'une variance de loi normale, la moyenne étant connue


Les deux tests, bilatéral et unilatéral, se construisent selon le même procédé. Les valeurs de décision

seront lues dans des tables du à degrés de liberté.

Test d'une variance de loi normale, la moyenne étant inconnue


Les deux tests, bilatéral et unilatéral, se construisent selon le même procédé. Les valeurs de décision

seront lues dans des tables du à degrés de liberté.

Test d'une proportion


Les deux tests, bilatéral et unilatéral, se construisent selon le même procédé. Les valeurs de décision
seront lues dans des tables de loi normale.

Dans le cas du test bilatéral, on s'appuie sur le fait que la proportion empirique suit

approximativement une loi normale de moyenne , la proportion théorique, et d'écart-type

. La région critique du test est alors:

où est lu dans une table de la loi normale .

102 Jean-Michel Jolion2006 LD


Exemple: Sur un échantillon de 200 individus d'une commune, sont favorables à
l'implantation d'un centre commercial. Ceci contredit-il l'hypothèse selon laquelle un habitant
sur trois y est favorable ?

Cet ennoncé conduit à la construction d'un test bilatéral d'hypothèses de proportion:

avec , on lit d'où la région d'acceptation:

soit .

Comme , on ne peut pas rejeter au seuil .

Test de comparaison

Soient et deux variables aléatoires définies sur deux populations mères comparables

(éventuellement égales). La loi de (resp. ) dépend d'un paramètre inconnu (resp. ).


On souhaite tester l'hypothèse "ces deux paramètres sont égaux" contre l'hypothèse
complémentaire "ces deux paramètres son différents", soit

: contre :

Pour effectuer ce test, on dispose d'un échantillon de taille (resp. ) de (resp. )

permettant une estimation ponctuelle (resp. ) de (resp. ). On suppose de plus

que les v.a. et sont normales ou approximativement normales.

En supposant vraie, on détermine un risque de première espèce , une zone de rejet

associée à deux valeurs critiques et telles que

103 Jean-Michel Jolion2006 LD


où est une fonction de et .

Si appartient à la zone de rejet, on rejette sinon, on accepte au risque .

Subsections

 Comparaison de deux moyennes


 Comparaison de deux variances
 Comparaison de deux proportions

Comparaison de deux moyennes

Soient et deux lois normales de moyennes et , et d'écart types et . On teste

: contre : au risque

On utilise le test de Student (dans sa version la plus générale).

On dispose de deux échantillons de tailles et sur lesquels on peut faire des estimations

de moyennes et et de d'écart types et .

Si les écart types et sont connus, on calcule

On rejette au risque si où la valeur est lue dans la table de


la loi normale centrée réduite.

Si les écart types et sont inconnus, il faut tenir compte de la taille des échantillons

a) Si et sont tous les deux supérieurs à , on calcule

104 Jean-Michel Jolion2006 LD


On rejette au risque si où la valeur est lue dans la table de
la loi normale centrée réduite.

b) Si ou est inférieur à et on calcule

On rejette au risque si où la valeur

est lue dans la table de Student à degrés de liberté.

c) Si ou est inférieur à et on calcule

On rejette au risque si où la valeur est lue dans la


table de Student à degrés de liberté; est l'entier le plus proche de

Le test de Student est assez robuste mais si l'on s'éloigne trop des conditions de normalité, il
est préférable d'utiliser un test non paramétrique.

105 Jean-Michel Jolion2006 LD


Comparaison de deux variances
Avec les mêmes notations que précédemment, on teste

: contre : au risque

On calcule , et .

On rejette au risque si où la

valeur est lue dans la table de Fisher-Snédécor à et degrés de liberté.

Remarque :

Comparaison de deux proportions

Soit (respectivement ) la proportion d'individus d'une certaine modalité dans la

population mère (resp. ). On extrait un échantillon de taille (resp. ) dans la

population (resp. ). On teste à partir de ces échantillons, on dispose d'une estimation

(resp. ) de (resp. ) qui suit une loi (resp. ).

: contre : au risque .

On suppose que et suivent approximativement des lois normales. On calcule

puis

On rejette au risque si où la valeur est lue dans la table de la loi


normale centrée réduite.

106 Jean-Michel Jolion2006 LD


Test du rapport des vraisemblances maximales
Ce test est fort utile là où les méthodes précédentes ont echoué.

Test de contre où est un paramètre vectoriel de dimension .

On construit la quantité suivante:

On a donc . est intuitivement une statistique convenable pour un test car plus il

est fort, plus l'hypothèse est vraisemblable. Cela revient à remplacer dans par son
estimation par la méthode du maximum de vraisemblance. La région critique du test sera

donnée par : .

Théorème: La distribution de est asymptotiquement celle d'un dans l'hypothèse

De ce théorème, on déduira le procédé d'estimation de la région critique.

On peut étendre cette approche au test entre deux hypothèses composées. Il suffit de former la
quantité suivante:

pour laquelle le théorème précédent est toujours valable.

Test d'adéquation

Dans cette partie, on suppose que la loi de probabilité de la variable aléatoire , dont on
dispose d'un échantillon, est inconnue. Une première remarque s'impose: les tests
d'adéquation ne permettent pas de trouver la loi d'une v.a., mais seulement d'accepter
ou de rejeter une hypothèse simple émise a priori.

107 Jean-Michel Jolion2006 LD


Ainsi, il est nécessaire de faire une étude sommaire préalable de l'échantillon afin de formuler
des hypothèses plausibles quant à la loi de probabilité de : la v.a. est-elle discrète ou

continue? Est-elle définie pout tout , ou seulement pour ? L'histogramme en


fréquence obtenu est-il symétrique par rapport à la valeur moyenne? Existe-t-il une relation
simple entre moyenne estimée et variance estimée? Les réponses à ces différentes questions,
de même que la nature de la variable représentée par permettent dans la plupart des cas
d'émettre une hypothèse plausible.

Subsections

 Test du
 Test de Kolmogorov
 Test de Cramer-Von Mises

Test du

Soit un échantillon de réalisations indépendantes de la v.a. . Soit la loi de

distribution inconnue de . L'hypothèse de départ sera que la loi de distribution est . Ceci
permet de formuler le test:

Les paramètres de seront soient connus soit estimés.

A partir de l'échantillon, on construit un histogramme en fréquence de classes . On note

le nombre d'observations de faites dans la classe (avec bien sûr ). Si la

v.a. suit la loi alors l'effectif théorique de la classe est donné par: où

est la probabilité pour que la v.a. suivant la loi prenne une valeur sur le domaine

définissant la classe .

108 Jean-Michel Jolion2006 LD


L'écart entre la réalité issue de l'échantillon et la théorie issue de l'hypothèse est mesurée
par l'indicateur

Sous l'hypothèse , on peut considérer que l'écart entre distribution théorique et


distribution empirique est distribué normalement. Dans ces conditions, tend vers une loi du

à degrés de liberté ( = nombre de classes - 1 - nombre de paramètres nécessaires à la

spécification complète de ).

La région d'acceptation du test est l'intervalle tel que la probabilité d'une variable

du à degrés de liberté prenne une valeur dans cet intervalle soit égale à ( étant
l'erreur de première espèce relative au test). Si la valeur de l'indicateur est supérieure à

, alors on décide l'hypothèse .

Il n'est guère possible de déterminer l'erreur de deuxième espèce (et donc la puissance du test),

la loi de probabilité de n'étant pas spécifiée sous l'hypothèse . On ne peut donc pas
déterminer la loi de probabilité de l'indicateur sous cette hypothèse.

Pour que la loi (sous l'hypothèse ) de l'indicateur d'écart tende effectivement vers une loi

du , il est nécessaire que l'effectif d'une classe soit en pratique supérieur à 5.


Dans le cas contraire, il faudra procéder à un regroupement des classes jusqu'à ce que cette
contrainte soit satisfaite.

Test de Kolmogorov

Soit un échantillon de réalisations indépendantes de la v.a. . Soit la loi de

distribution inconnue de . L'hypothèse de départ sera que la loi de distribution est . Ceci
permet de formuler le test:

109 Jean-Michel Jolion2006 LD


On suppose que tous les paramètres de la loi sont connus.

Soit la fonction de répartition empirique aléatoire à partir de l'échantillon. qui est


l'histogramme cumulé peut être considéré comme une estimation de la fonction de répartition

de notée . L'indicateur d'écart de ce test est la valeur absolue de la distance

maximum entre et :

La valeur de étant fixée, on acceptera l'hypothèse si . Les valeurs

sont lues sur les tables de Kolmogorov (il existe aussi des procédures numériques
pour les estimer).

Test de Cramer-Von Mises

Soit un échantillon de réalisations indépendantes de la v.a. de fonction de

répartition inconnue. L'hypothèse de départ sera que la fonction de répartition est . Ceci
permet de formuler le test:

On suppose que tous les paramètres de la fonction sont connus.

L'indicateur d'écart de ce test est:

La distribution de cet indicateur a été tabulée. On démontre que

où les valeurs de l'échantillon sont ordonnées en ordre croissant.

110 Jean-Michel Jolion2006 LD


On rejette si la valeur de cet indicateur est supérieure à une valeur que la v.a. a une
probabilité de dépasser.

Le test de Cramer-Von Mises a les mêmes applications que le test de Kolmogorov. La


différence entre ces deux tests réside dans le fait que pour le test de Kolmogorov seul l'écart
maximum entre la distribution empirique et la distribution d'ajustement entre en considérarion
alors que l'indicateur d'écart du test de Cramer-Von Mises prend mieux en compte l'ensemble
des données en ce sens que la somme des écarts intervient. Le test de Kolmogorov est donc
beaucoup plus sensible à l'existence de points abérents dans un échantillon que le test de
Cramer-Von Mises. On pense généralement que ce dernier test est plus puissant, mais cela n'a
pas été démontré théoriquement.

Test d'indépendance
Dans la plupart des tests que nous venons de présenter, on suppose toujours les valeurs de
l'échantillon indépendantes. C'est une condition nécessaire. Il est donc souvent utile de vérifier cette
hypothèse par un test.

Subsections

 Test des différences premières


 Test de Spearman

Test des différences premières

Soit un échantillon de valeurs successives d'une v.a. . On désire tester l'indépendance des

réalisations . Cette indépendance constitue l'hypothèse principale .

Le principe de ce test consiste à calculer les différences successives , puis à

compter le nombre de différences positives et négatives. Si est vraie alors il doit y avoir
autant de différences positives que de différences négatives.

On construit donc la v.a. par

111 Jean-Michel Jolion2006 LD


A priori, on suppose qu'il n'y a pas de différences nulles. On note le nombre de
différences premières positives.

Sous l'hypothèse , . L'espérance mathématique de la v.a.

est donc et l'on peut montrer que sa variance vaut . Pour

suffisamment grand (en pratique, on fixe ), la quantité est


approximativement une loi normale centrée réduite.

Pour une erreur de première espèce , on accepte l'hypothèse si la quantité

est inférieure à la valeur lue dans une table de la loi normale.

Test de Spearman

Soit une réalisation de la v.a. . Nous désirons savoir si les peuvent être considérés comme
des réalisations indépendantes les unes des autres. Pour cela, Spearman propose le raisonnement
suivant: si les réalisations sont indépendantes, l'échantillon ne présente pas de structure, i.e. d'ordre
privilégié. On testera donc la présence de dépendance en comparant l'ordre de l'échantillon recueilli
avec celui issu d'une procédure de tri. Cette comparaison se fait grâce au coefficient de corrélation.

Sous l'hypothèse d'indépendance, le coefficient de corrélation doit être nul. Ce test est souvent
utilisé comme test de tendance de séries chronologiques.

Soit le rang occupé par la réalisations dans la série ordonnée des (le rang initial

étant bien sur ). On note le coefficient de corrélation de Spearman, donné par

où .

112 Jean-Michel Jolion2006 LD


Soit la valeur prise par pour l'échantillon considéré. La distribution de sous

l'hypothèse est tabulée. Cependant, pour un échantillon de grande taille ( ) on

peut considérer que la quantité est approximativement distribuée selon une loi
normale centrée réduite.

Si la quantité est inférieure au quantile du coefficient de corrélation de Spearman,

alors on accepte l'hypothèse , sinon il y a rejet.

Si , on peut se servir des valeurs d'une table de la loi normale centrée réduite.

Test de comparaison d'échantillons


Toujours en considérant la propriété d'indépendance, on va maintenant s'intéresser au cas de la
comparaison de deux échantillons, par le biais de paramètres estimés (le plus souvent la moyenne
et/ou la variance). L'hypothèse est : relativement à la variable étudiée, ces deux échantillons ont-ils
été prélevés indépendamment l'un de l'autre. Par soucis de simplicité de formulation des hypothèses,

on retiendra, pour , l'hypothèse négative qui se traduit par le fait que les variables observées ne
sont pas significativement différentes.

De plus, on supposera que les échantillons ont des tailles comparables. Des tests entre
populations de tailles très différentes peuvent être trouvés dans la littérature, et en particulier
dans l'ouvrage de B.Scherrer (cf Bibliographie).

Subsections

 Test des variances de Fisher-Snédécor


 Test de Student
 Test de Spearman

Test des variances de Fisher-Snédécor


Ce test ne s'applique qu'au cas de deux échantillons gaussiens:

113 Jean-Michel Jolion2006 LD


On choisit le plus souvent de tester les variances avant les moyennes. Ces dernières ne sont
testées que si le premier test retient l'hypothèse de non indépendance.

On construit les quantités où est l'estimateur de la variance de la variable aléatoire

. Cette quantité suit une loi du . Sous l'hypothèse d'égalité des variances

( ), la quantité

suit une loi de Fisher-Snédécor.

En pratique, on met toujours au numérateur la plus grande des deux quantités afin d'obtenir
une variable de décision dont la valeur est supérieure à . La région critique est de la forme

(avec donc ). La valeur de est reliée à l'erreur de première espèce et peut


être lue dans une table de Fisher-Snédécor.

Test de Student
Ce test s'applique à la comparaison de deux échantillons gaussiens de même variance. Il est donc
souvent la suite logique du test de Fisher-Snédécor. On dispose des données suivantes:

Les v.a. suivent une loi du à degrés de liberté.

La moyenne arithmétique (resp. ) est une réalisation d'une v.a. (resp. )

suivant une loi normale de moyenne (resp. ) et d'écart-type (resp. ).

La quantité suit une loi du à degrés de liberté.

La v.a. est une v.a. normale de moyenne et d'écart-type

.
114 Jean-Michel Jolion2006 LD
La variance étant inconnue, on construit une variable de Student définie par

d'où l'on peut faire disparaître le paramètre inconnu

Sous l'hypothèse , la région critique est de la forme . Comme habituellement, la


valeur seuil est reliée à l'erreur de première espèce et peut être trouvée dans une table de
Student.

Il faut noter pour finir que le test de Student est robuste car il s'applique également lorsque
l'hypothèse d'égalité des variances n'est plus valide. Il faut cependant pour cela que les tailles
des échantillons soient grandes (quelques dizaines d'observations pour chaque échantillon).

Test de Spearman
On peut ici réutiliser le coefficient de corrélation de Spearman qui va indiquer le degré de liaison
existant entre le classement des éléments d'un échantillon selon la variable et le classement des

mêmes éléments selon la variable . Une forte valeur du coefficient de corrélation de Spearman
indiquera une liaison entre les deux variables (puisqu'induisant des classements linéairement liés).
Cette approche n'a de sens que si les échantillons des v.a. et sont appariés.

Pour calculer le coefficient de corrélation de Spearman, il s'agit de calculer le rang de chaque

élément dans la série croissante de valeurs de et de puis de calculer la différence de

classement où dénote le -ème élément de l'échantillon. L'indicateur de Spearman est


donné par :

Il existe des versions plus sophistiquées de cet indicateur qui tiennent compte des ex-aequos
dans les classements (cette correction n'est nécessaire que si ce nombre d'ex aequos devient
important).

115 Jean-Michel Jolion2006 LD


Sous l'hypothèse d'indépendance entre les deux variables, on peut montrer que

où est la variable aléatoire associée à l'indicateur de Spearman. De plus, si l'effectif est grand

( ), cette vatiable aléatoire suit approximativement une loi normale. On peut donc
construire un test sur la variable

qui suit une loi normale centrée réduite. On retrouve un test équivalent à un test de moyenne de loi
normale. Dans le cas d'un test bilatéral, avec un risque de , la règle de décision est

Si alors sinon et où désigne la


loi normale centrée réduite.

Pour les petits échantillons, il est nécessaire d'avoir recours à une table spécifique de
Spearman.

Analyse de la variance
L'analyse de la variance est un ensemble de techniques permettant de comparer plusieurs
échantillons de données. Cette comparaison est le plus souvent limitée à celle des moyennes dans un
cas gaussien. On l'utilise également pour étudier l'effet d'un facteur qualitatif externe. Nous nous
limiterons ici à une présentation résumée dans le cas où il y a un seul facteur explicatif.

Subsections

 Les données de l'analyse


 Le test
 Analyse des contrastes

116 Jean-Michel Jolion2006 LD


Les données de l'analyse

Pour chaque réalisation ( ) d'un facteur explicatif , on dispose d'un échantillon

dont la moyenne est . La taille totale de la population est donc .

On considère que chaque échantillon est issu d'une v.a. suivant une loi . En
terme de test, nous avons donc

On pose où est une perturbation dont la variation obéit à une v.a. normale
centrée et d'écart-type . On peut aussi adopter un modèle similaire mais plus général de la

forme où est une valeur moyenne constante et l'effet du niveau du


facteur explicatif.

Dans le cas où l'hypothèse est rejetée, l'étude se poursuit par l'estimation des valeurs

moyennes (ou et selon le modèle utilisé).

Le test
On note la moyenne totale que l'on obtient par

La variance totale est estimée par

117 Jean-Michel Jolion2006 LD


On montre facilement que cette variance totale peut se décomposer en la somme de la

variance des moyennes, (aussi appelée variance inter-classes) plus la moyenne des

variances, (aussi appelée variance intra-classes).

La variance représente la variation du au facteur explicatif , la variance est elle


considérée comme la variabilité résiduelle.

On peut réécrire cette variance résiduelle en faisant intervenir les variances de chaque
échantillon

Chaque quantité suit une loi du à degrés de liberté. Donc la quantité

suit également une loi du à degrés de liberté.

Sous l'hypothèse , les v.a. sont de même loi donc on a également le fait que la quantité

suit une loi du à degrés de liberté, et , une loi du à degrés de


liberté.

On peut donc construire l'indicateur de notre test par

dont la loi est celle de Fisher-Snédécor.

Si la valeur de l'indicateur est supérieure à la valeur critique d'une variable de Fisher-Snédécor


(pour une erreur de première espèce ), alors on conclut à l'influence du facteur explicatif

, i.e. on rejete l'hypothèse .

118 Jean-Michel Jolion2006 LD


Analyse des contrastes

Le rejet de l'hypothèse ne signifie pas que toutes les moyennes sont différentes. Il est possible

qu'un seul couple ne valide pas l'hypothèse. On est alors intéressé par une analyse plus

fine des différences que l'on appele souvent contraste.

Une approche possible repose sur un résultat du à Scheffé: l'évènement

a lieu avec une probabilité donnée par

où est le carré moyen résiduel que l'on peut estimer par la quantité

On peut montrer que l'hypothèse a été rejetée si au moins un des contrastes est
significativement différent de .

Le test de chaque contraste est donc

sera estimé par

Attention, ce test est parallèle, il n'y a donc pas nécessairement de transitivité des résultats. On

peut donc tout à fait avoir la configuration et et .

119 Jean-Michel Jolion2006 LD


Le Contrôle Statistique de Process: SPC

Subsections

 Introduction
 Capabilité d'un processus
o Etude de la capabilité des processus
o Indicateurs généralisés
o Les cartes de contrôle

Introduction
La notion de qualité est bien sûr très importante dans la production et les statistiques y contribuent
en fournissant des outils de mesure mais aussi de décision les plus objectifs possibles. Si l'on suit
Montgomery, la qualité est inversement proportionnelle à la variabilité. L'accroissement de la qualité
s'obtient donc par la réduction de cette variabilité. Celle-ci s'exprime bien en termes statistiques par
le biais de la variance même si cela n'est pas suffisant. C'est pourquoi il existe de nombreux
indicateurs. Afin de les utiliser au mieux il est nécessaire d'en bien connaître et comprendre les
hypothèses sousjacentes.

Dans un système de production quel qu'il soit (production de produits manufacturiers, de


services ou d'information), la variabilité provient de l'absence de répétitivité parfaite. Les
causes principales en sont l'usure des machines et des matériaux, les opérateurs, les méthodes
de transformation et l'environnement. On considère le plus souvent deux classes de variabilité

 la variabilité inhérente au processus (et peu modifiable) qui induit la notion de distribution
des mesures (le plus souvent admise par les entreprises comme étant une distribution
normale);
 la variabilité externe qui induit le plus souvent un biais dans les distributions par rapport à
cette hypothèse de normalité.

Le contrôle statistique de process (SPC : Statistical Process Control) tente de modéliser ces
causes et leurs effets. Il s'agit plus d'une méthodologie que d'une simple liste d'outils. Cette
méthodologie est composée de trois objectifs:

1. Process control qui tente de maintenir le processus sur sa cible en termes de positionnement
nominal et de tolérances.
2. Process capability qui tente de déterminer la variabilité inhérente à un processus pour établir
des spécifications réalistes utilisables en particulier à des fins de comparaisons.
3. Process change qui induit des modifications du processus dans un but d'amélioration (c'est la
partie action du SPC).

120 Jean-Michel Jolion2006 LD


Le SPC est associé à une grande liste d'outils dont les plus connus sont:

 flowchart;
 run charts;
 pareto charts and analysis;
 cause and effect diagrams;
 frequency histograms;
 control charts;
 process capability studies;
 acceptance sampling plans;
 scatter diagrams.

Tous ces outils utilisent des données de type échantillon et propose une visualisation (le plus
souvent graphique) de la variabilité du processus étudié. Ce chapitre ne va évoquer que la
notion de capabilité. La bibliographie contient les références principales introduisant tous ces
outils.

Capabilité d'un processus


Le contrôle statistique de process permet de garantir par des outils statistiques que le processus est
sous contrôle. Il permet ainsi de garantir à tout moment des conditions de travail satisfaisantes. Il est
basé sur une connaissance et un suivi du processus. Un processus est sous contrôle s'il est
statistiquement stable. Pour une fabrication comportant différents process, l'étude porte sur chacun
des process pris séparemment, sur le principe d'éléments placés en série.

La mise en place de ce système de contrôle requiert au préalable:

1. Une étude de la capabilité des différents process sur lesquels se basent les contrôles.
2. La détermination de la loi de probabilité pour chaque processus.
3. La réalisation de cartes de contrôle pour un suivi de l'évolution du processus.
4. La détermination des réactions à adopter pour chacun des phénomènes défaillants mis en
évidence par les autocontrôles.
5. Une formation sur les autocontrôles pour les opérateurs directement concernés.
6. La mise en place définitive des autocontrôles dans les ateliers.

Subsections

 Etude de la capabilité des processus


 Indicateurs généralisés
 Les cartes de contrôle

121 Jean-Michel Jolion2006 LD


Etude de la capabilité des processus

Pour qu'un processus puisse être déclaré sous contrôle, il est indispensable de connaître sa
capabilité et que cette valeur soit acceptable. Cet indicateur permet de déterminer si le
processus est capable de produire dans l'intervalle de tolérance requis.

Les indicateurs de capabilité les plus courants sont:

 . Le CAP (coefficient d'aptitude process) est calculé à partir d'un film de


production traçant l'évolution de à valeurs mesurées de manière consécutive. Il
représente le rapport entre l'intervalle de tolérance ( = Upper Specification Limit et
= Lower Specification Limit) et fois l'écart type ( ) de l'échantillon.

 où est l'espérance mathématique de la distribution


sousjacente (i.e. la valeur théorique).

 où est la moyenne expérimentale et la valeur nominale (sauf

contrindication, on prendra ).

 .

Dans la pratique, la valeur nominale est le plus souvent la valeur de l'espérance

mathématique . Tous ces indicateurs ont été construits et tabulés sous l'hypothèse de la loi
normale pour la distribution sousjacente.

Par exemple, pour implanter un contrôle statistique, le coefficient doit être égal ou
supérieur à . Ce coefficient, très utilisé dans le monde industriel, est assujéti à des
hypothèses qui ne sont pas toujours vérifiées. Tout d'abord, on ne compare que des écarts à la
valeur moyenne sans tenir compte de la répartition de ces écarts. On fait donc une hypothèse
de symétrie de la distribution des mesures. Il faut donc, au moins par un tracé, s'assurer de la
validité de cette hypothèse. Ensuite, les valeurs de référence (cf. tableau ci-dessous) sont
obtenues dans le cas de la Loi normale et ne sont bien sûr valables que dans ce contexte.

Capabilité Classement

Très mauvaise
0.67

0.67 Très mauvaise

1 Mauvaise

122 Jean-Michel Jolion2006 LD


1.33 Très moyenne à moyenne

1.67 Moyenne à bonne

2 Bonne à très bonne

Excellente
2

L'amélioration de la capabilité peut donc être obtenue soit par une révision de l'intervalle de
tolérance dans le sens d'un élargissement, soit par la fiabilisation du process pour diminuer la
dispersion sur les valeurs mesurées.

L'importance des hypothèses peut être montrée sur le coefficient . Lorsque celui-ci est
faible, cela n'induit pas obligatoirement que la qualité du processus l'est également. En effet,
cela peut provenir de la non adéquation de l'hypothèse de normalité (ou au minimum de
l'hypothèse de symétrie). Le raisonnement est également valable pour les fortes valeurs de

. En particulier, ce coefficient n'est pas adapté à des distributions de type Gamma pourtant
fréquentes dans les cas réels (sauf si le coefficeint d'asymétrie est proche de 0, i.e. la valeur de
référence de la loi normale). Un test d'adéquation préalable à toute interprétation est donc
requis.

Indicateurs généralisés

Compte tenu des limitations des indicateurs classiques de capabilité, des indicateurs
généralisés ont été proposés. Ils permettent de prendre en compte la non normalité de la
distribution. Cependant, ils sont moins connus et donc moins bien acceptés par le milieu
professionnel.

Soit un échantillon de valeurs trié en ordre croissant. Les indicateurs de


Chang et Lu sont définis par

123 Jean-Michel Jolion2006 LD


avec

 , la médiane qui remplace la moyenne ( si est impair et

si est pair).

 et sont les valeurs correspondant aux quantiles de l'échantillon, c'est à


dire

avec et ( est l'opérateur partie


entière).

Ces indicateurs donnent les mêmes résultats que les précédents en présence de la loi normale
et une meilleure appréhension lorsque celle-ci n'est pas vérifiée. En effet, la valeur de

référence correspond au quantile mais uniquement dans le cas de la loi normale.


Ces indicateurs sont donc bien des généralisations.

Les cartes de contrôle


Deux types de cartes sont possibles.

Cartes de contrôle à valeurs individuelles Elles se composent de relevés des valeurs sous
forme de graphique. Ces cartes sont composées de trois zones: bon, surveillance, rejet (au delà
des valeurs extrèmes et ). La valeur cible est mise en évidence. L'objectif est de
se situer au plus proche de cette valeur. Dans la zone de surveillance, on accepte la production
mais on est plus attentif à des phénomènes tels que la stagnation dans la zone (plusieurs points

124 Jean-Michel Jolion2006 LD


consecutifs), une tendance vers le seuil rejet, ... L'outil graphique est un plus donnant les
moyens de régler au mieux le process en se basant sur un suivi.

Figure 5: Exemple de carte de contrôle où figurent les valeurs de référence ansi que le résultat de la
mesure m(x).

Cartes de contrôle par attribut On utilise un calibre. Elles sont à caractère qualitatif (bon,
mauvais par défaut, mauvais par excès). L'atout est de pouvoir suivre plusieurs
caractéristiques sur une même carte. 5B 1]

125 Jean-Michel Jolion2006 LD


Tables

Subsections

 Fonction de répartition de la loi normale centrée réduite


 Fractiles de la loi normale centrée réduite

 Fractiles de la loi du à degrés de liberté

 Valeurs de la variable de Fisher-Snédécor ayant la probabilité d'être


dépassées

 Valeurs de la variable de Fisher-Snédécor ayant la probabilité d'être


dépassées

 Valeurs de la variable de Fisher-Snédécor ayant la probabilité d'être


dépassées
 Table de distribution de (Loi de Student)
 Table du coefficient de corrélation des rangs de Spearman de deux variables aléatoires
indépendantes
 Fonction de répartition de la statistique de Cramer-Von Mises
 Table du test de Kolmogorov-Smirnov

Fonction de répartition de la loi normale centrée réduite

Probabilité de trouver une valeur inférieure à .

126 Jean-Michel Jolion2006 LD


127 Jean-Michel Jolion2006 LD
Fractiles de la loi normale centrée réduite

Valeur de telle que , est donnée.

128 Jean-Michel Jolion2006 LD


Fractiles de la loi du à degrés de liberté

Fractiles de la loi du à degrés de liberté (suite)

129 Jean-Michel Jolion2006 LD


130 Jean-Michel Jolion2006 LD
Valeurs de la variable de Fisher-Snédécor ayant la probabilité
d'être dépassées

131 Jean-Michel Jolion2006 LD


Valeurs de la variable de Fisher-Snédécor ayant la probabilité
d'être dépassées

Valeurs de la variable de Fisher-Snédécor ayant la probabilité d'être


dépassées (suite)

132 Jean-Michel Jolion2006 LD


133 Jean-Michel Jolion2006 LD
Valeurs de la variable de Fisher-Snédécor ayant la probabilité
d'être dépassées

Valeurs de la variable de Fisher-Snédécor ayant la probabilité d'être


dépassées (suite)

134 Jean-Michel Jolion2006 LD


Table de distribution de (Loi de Student)
Valeurs de ayant la probabilité d'être dépassées en valeur absolue.

135 Jean-Michel Jolion2006 LD


Table du coefficient de corrélation des rangs de Spearman de deux
variables aléatoires indépendantes

Valeurs de ayant une probabilité d'être dépassée en valeur absolue:

136 Jean-Michel Jolion2006 LD


Table du coefficient de corrélation des rangs de Spearman de deux variables aléatoires
indépendantes (suite)

Valeurs de ayant une probabilité d'être dépassée en valeur absolue:

137 Jean-Michel Jolion2006 LD


138 Jean-Michel Jolion2006 LD
Fonction de répartition de la statistique de Cramer-Von Mises

Valeurs de telles que .

139 Jean-Michel Jolion2006 LD


Table du test de Kolmogorov-Smirnov

Valeurs de telles que

Table du test de Kolmogorov-Smirnov (suite)

Valeurs de telles que

140 Jean-Michel Jolion2006 LD


141 Jean-Michel Jolion2006 LD
Exercices
Ce chapitre regroupe quelques excercices d'application des concepts illustrés dans les
chapitres de ce polycopié. Ils constituent une base pour vous permettre de tester vos
connaissances.

Subsections

 Probabilités
 Variables aléatoires
 Estimation
 Tests d'hypothèses
 SPC
 Sujets généraux
o Problème 1
o Problème 2
o Problème 3
o Problème 4

Probabilités

1- Trois personnes entrent dans une pièce où se trouvent 7 chaises différentes. De combien de
manières différentes peut-on placer les 3 personnes?

Réponse :

2- Quel est le nombre maximum d'immatriculations qu'il est possible de réaliser dans le cas
des immatriculations de véhicules français?

3- Un train de marchandises se compose de 14 wagons dont 6, 3, 4 et 1 sont à laisser


respectivement en 4 gares différentes, A, B, C, D. De combien de manières ces wagons
peuvent-ils être disposés pour que les wagons à retirer soient toujours en queue de train?

142 Jean-Michel Jolion2006 LD


4- Soient , et des évènements aléatoires définis sur une même épreuve. On considère

maintenant deux nouveaux évènements : et . (a)

Montrer que et sont incompatibles. (b) Que signifie l'évènement ? (c)

Calculer et sachant que , , ,

, , et .

5- Un circuit électronique est composé de blocs identiques en série, chacun de ces blocs
peut être formé d'un élément unique ou de deux éléments identiques en parallèle (dans ce cas
on supposera qu'il suffit qu'un des deux éléments fonctionne pour que le bloc fonctionne). On
admet que chaque élément a une probabilité égale à 0.02 de tomber en panne pendant les 5000
premières heures de fonctionnement et que les pannes des divers éléments sont des
évènements indépendants. Calculer les probabilités d'une panne de circuit pendant les 5000
premières heures de fonctionnement, si chaque bloc est formé d'un seul élément(a), si chaque
bloc est formé de deux éléments(b), si blocs sont fomés d'un seul élément(c). Combien
faut-il de blocs à éléments pour garantir une probabilité de panne du circuit inférieure à

(d).

Réponse : (a) 0.18 (b) 0.004 (c) (d) 5

6- On dispose de boules dont sont rouges. On tire (sans remise) boules. Quelle est la
probabilité de tirer boules rouges ?

Réponse :

7- La demande d'un produit pendant mois peut prendre les valeurs suivantes avec les

probabilités :

a) Pourquoi peut-on parler de probabilité ?

143 Jean-Michel Jolion2006 LD


b) De quel stock minimum doit-on disposer en début de mois pour que le risque de rupture de
stock soit inférieur ou égal à ?

8- On sait que les jumeaux peuvent être de vrais jumeaux, dans ce cas ils ont même sexe, ou
de faux jumeaux, et dans ce cas la probabilité pour qu'ils aient même sexe est . On

suppose connue la probabilité pour que deux jumeaux soient de vrais jumeaux. (a)

Déterminer en fonction de la probabilité pour que deux jumeaux soient de même sexe. (b)
Déterminer la probabilité pour que deux jumeaux soient de vrais jumeaux sachant qu'ils ont
même sexe.

Réponse : (a) ; (b)

9- Les clients d'une entreprise ont été répartis en plusieurs catégories en fonction du volume
d'affaires annuel traité avec eux et en fonction du fait que l'on a déjà eu pour eux ou non des
créances impayées. Les résultats de ce décompte sont donnés dans le tableau ci-dessous:

Volume d'affaire
annuel 0 à 10 000 ( ) 10 000 à 100 000 ( ) + de 100 000 ( )

Clients ayant déjà


100 25 10
eu des impayés ( )

Clients n'ayant
jamais eu d'impayés 1 200 350 150
( )

Déterminez pour un client choisi au hasard les probabilités suivantes: , ,

, , , , , , . Y a-t-il
dépendance entre le volume d'affaires et l'existence d'impayés ?

Réponse : , , , ,

, , , ,

. Il y a dépendance entre le volume d'affaires et l'existence d'impayés

d'après l'analyse des termes et .

144 Jean-Michel Jolion2006 LD


10- Pour juger de l'efficacité d'une campagne publicitaire ayant porté sur un produit , on a

sondé personnes, dans une région et dans une région . Seule la

région avait été concernée par la campagne. Les résultats sont les suivants:

Connaissent le Connaissent le Ne connaissent pas


produit et le produit et ne le le produit
consomment consomment pas

80 150 770
Région

50 130 320
Région

a) Déterminer pour chacune des régions: la probabilité qu'une personne connaisse le produit
, la probabilité qu'une personne consomme le produit et la probabilité qu'elle consomme
le produit sachant qu'elle le connait.

11- La probabilité pour qu'une ampoule électrique ait une durée de vie supérieure à ans est
de . Sachant qu'un lustre est formé de 5 ampoules, donnez la loi modélisant le phénomène
"il faut changer n ampoules en ans" et les probabilités correspondant aux valeurs et de
.

Réponse : L'évènement "une ampoule à changer" peut être modélisé par une loi .
La loi de l'évènement "il faut changer une ampoule en ans" est donc une loi binomiale (si

l'on suppose l'indépendance entre les ampoules). et

12- Soient deux urnes contenant respectivement 100 boules rouges et 100 boules noires. On
prend 32 boules rouges de la première urne pour les mettre dans la seconde, puis on mélange
et on reprend 32 boules de la 2ème urne pour les remettre dans la première. Quelle est la
probabilité qu'il y ait plus de boules rouges dans la première urne que dans la deuxième ?

13- Un lot de articles présente un mélange des produits de trois usines : articles de

l'usine , de l'usine et de l'usine . Pour les articles de l'usine , la

145 Jean-Michel Jolion2006 LD


probabilité de fonctionner sans défaillance pendant un temps est , pour l'usine et

pour l'usine . On tire au hasard un article, calculer la probabilité que l'article


fonctionnera sans défaillance pendant un temps .

14- On considère trois lots d'articles de même type, le premier compte articles défectueux

parmi les articles. De même, on compte (resp. ) articles défectueux parmi les

(resp. ) articles du deuxième (resp. troisième) lot d'articles. On choisit au hasard l'un des
lots pour en tirer au hasard deux articles. Le premier article est défecteux. Quelle est la
probabilité que le second article soit défecteux lui aussi ?

Réponse : Soient les états et indiquants que les premier et deuxième articles sont

défecteux. Ce que l'on cherche est donc .

En se servant de la formule de Bayes, on a

Les deux articles provenant d'un des trois lots, on introduit les lots par

donc

De la même manière, on estime les autres probabilités conditionnelles par

Les probabilités qui nous sont nécessaires sont

146 Jean-Michel Jolion2006 LD


donc

Le tout recombiné donne

15- Soient deux v.a. discrètes indépendantes de type ( ). (a)

Déterminez la loi de la v.a. . (b) Déterminez la loi de la v.a.

. (c) Déterminez la loi du couple . (d) Les v.a. et sont


elles indépendantes ?

Variables aléatoires

1- On admet que le nombre de défauts sur le verre d'une ampoule obéit à une loi de Poisson
de paramètre . Calculer les probabilités des évènements suivants: (a) Aucun défaut. (b)
Plus de 2 défauts. (c) Entre 3 et 7 défauts.

Réponse : (a) 0.018 (b) 0.762 (c) 0.711

2- Soit une loi uniforme continue définie sur l'intervalle symétrique . Quels sont
la moyenne et l'écart type de cette variable aléatoire. On procède à une accumulation

147 Jean-Michel Jolion2006 LD


d'expériences identiques ( réalisations indépendantes de la loi ). Que se passe-t-il quand

devient grand pour la variable ?

3- Dans une entreprise de 200 salariés, il se produit en moyenne 4 accidents du travail par
mois. On suppose que tous les salariés ont la même probabilité d'avoir un accident. Quelle loi
peut modéliser le nombre mensuel d'accidents du travail ?

4- Soit une v.a. (où ). Calculer . Donner une borne de cette


probabilité en utilisant l'inégalité de Bienaymé-Tchebyshev. Commentaire.

5- Montrer par le calcul que pour v.a. de Raleigh. (On rappelle que

.)

Réponse: Soit la v.a. suivant une loi de Raleigh

Posons

et

On en déduit

et

Donc

148 Jean-Michel Jolion2006 LD


La forme intégrale est égale à pour une loi normale de moyenne nulle et d'écart
type . Par symétrie de cette loi, cette probabilité vaut . Donc le résultat final est

6- Soit avec deux à deux indépendantes. Quelle est la loi de

? Donner les valeurs de et .

Réponse : Par définition, suit une loi du dont l'espérance mathématique est et la
variance .

7- On envisage l'achat d'une machine de valeur euros et dont la durée de vie est 2 ans.
Les dépenses de fonctionnement de ce matériel seraient de euros par an. On pourrait
fabriquer pièces par an. L'entrepreneur estime que chaque année, la probabilité
d'écouler cette production est de . Par contre, en cas de récession, l'une ou l'autre des
années, on ne pourra écouler plus de pièces. Le prix de vente d'une pièce (imposé par la
concurence) est de euros la première année. Pour la seconde année, il y a une probabilité

de pour qu'il se maintienne, une probabilité pour qu'il monte de et une

probabilité pour qu'il baisse de . Dans les questions suivantes, il vous est demandé
de formaliser chaque question en termes de v.a. avant de procéder aux calculs.

a) Calculer l'espérance mathématique et la variance du nombre de pièces écoulées pour


l'ensemble des deux années.

b) Calculer l'espérance mathématique du chiffre d'affaires réalisé la première année, puis la


seconde année (les quantités écoulées et le prix de vente sont supposés indépendants).

c) Quelle est l'espérance mathématique du gain procuré par cet investissement sur l'ensemble
des deux années ?

8- La demande d'un produit par mois à une entreprise suit une loi normale. Elle a une
probabilité d'être inférieure à unités, et une probabilité d'être supérieure à
.

149 Jean-Michel Jolion2006 LD


a) Déterminer les paramètres de la loi normale.

b) La marge sur coût variable unitaire est de euros. Les charges fixes mensuelles sont de
euros. Déterminer la loi de probabilité suivie par le résultat mensuel. En déduire la
probabilité que le seuil de rentabilité mensuel soit atteint.

c) Quelle est la loi de probabilité du résultat trimestriel ? Quelle est la probabilité que le seuil
de rentabilité trimestriel soit atteint ? Quelle commentaire peut-on faire en comparant les
probabilités mensuelles et trimestrielles ?

Réponse : (a) (b) Loi normale de paramètres

. Prob(seuil de rentabilité atteint) = 0.7389. (c) Loi normale de

paramètres . Prob(seuil de rentabilité atteint) = 0.8665. Il est plus


simple d'atteindre un objectif sur 3 mois que 3 fois sur 1 mois.

9- Au contrôle de la fabrication, une pièce est rejetée si une au moins de ses deux dimensions
ne répond pas aux normes tolérées, soit une variation de mm en plus ou en moins pour la
longueur , et mm en plus ou en moins pour la largeur . Les normes de fabrication
sont pour : cm et pour : cm. Les moyennes de et sur des échantillons de
pièces sont respectivement cm et cm. Les écarts types sont égaux à:

mm et mm. Quel pourcentage de rebus obtient-on à la sortie de


l'atelier de production ?

10- Donnez la valeur de sachant que est une variable aléatoire normale
de moyenne et d'écart-type .

Réponse : . Par centrage

réduction, on pose .

. Par lecture
dans la table de la loi normale (0,1), on obtient

11- Une usine produit unités d'un produit sur un intervalle de temps . Pour cette
même période, la demande, exprimée en milliers d'unités, concernant ce produit peut être
considérée comme une variable aléatoire suivant une loi exponentielle de paramètre .

150 Jean-Michel Jolion2006 LD


Quelle est la probabilité que la demande dépasse la production ? Quelle devrait être la

production pour que cette probabilité soit inférieure à ?

Réponse : . Pour descendre cette probabilité à , la


production doit être supérieure à unités.

12- Soient , V.A. continues, uniformes sur . On construit une

nouvelle variable par .

a) Calculez pour . Que se passe-t-il quand tend vers l'infini ?

b) Démontrer la nature de par une convergence en probabilité.

13- Une machine déréglée produit des pièces dont sont défectueuses. Donnez la loi qui
modélise le nombre de pièces défectueuses. Dans un lot de pièces fabriquées par cette
machine, calculez le nombre moyen de pièces défectueuses et la probabilité associée à ce
nombre.

Réponse : Une pièce est défectueuse ou non. Ce comportement peut tout à fait se modéliser

par une variable de type binaire de paramètre . Dans un lot, si on suppose


l'indépendance entre les évènements, l'apparition de pièces défectueuses s'apparente alors à
une somme de lois binaires indépendantes 2 à 2. On obtient une loi binomiale

. Le nombre moyen théorique de pièces défectueuses est donc

De même, la probabilité de ce nombre est donnée par

151 Jean-Michel Jolion2006 LD


14- Donnez la valeur de telle que sachant que est une variable
aléatoire de Student à degrés de liberté.

Réponse : La table de Student ne donne que . Cependant, comme la loi de


Student est symétrique, nous avons

d'où .

15- Montrez que la variance théorique d'une v.a. suivant une loi de Rayleigh de paramètre

est . (intégration par partie ).

Réponse: L'espérance mathématique d'une loi exponentielle est et sa densité de

probabilité est . La variance est définie par

On fait une intégration par partie

Ce qui nous donne

et

152 Jean-Michel Jolion2006 LD


Donc

16- Donnez la valeur de telle que sachant que est une variable
aléatoire de Student à degrés de liberté.

Réponse : Cette probabilité n'a de sens que si est négatif. En effet, la loi de Student est

symétrique autour de et donc . On a donc et par

symétrie, . Donc la valeur de est donc obtenue par la lecture de la

probabilité ce qui nous donne

17- Donnez la valeur de telle que sachant que est une


variable aléatoire normale de moyenne et d'écart-type .

Réponse :

où est une variable aléatoire normale centrée réduite.

153 Jean-Michel Jolion2006 LD


18- Donnez la valeur de telle que sachant que est une variable

aléatoire du à degrés de liberté.

Réponse : Lectude directe dans la table du à 25 ddl : .

19- Donnez la valeur de telle que sachant que est une variable

aléatoire de Fisher-Snédécor .

Réponse : Lecture directe dans la table de Fisher-Snédécor : .

20- On considère la fonction définie par

Déterminez de sorte que soit une densité de probabilité sur .

Réponse : Pour intégrer cette fonction, on va construire d'abord la solution d'une intégrale

double associée à un couple de variables indépendantes. Soit la fonction définie par

Définissons un domaine du plan par , et (un quart de


disque).

Calculons tout d'abord l'intégrale de sur ce domaine

154 Jean-Michel Jolion2006 LD


Faisons le changement de variables polaires dont le jacobien
est

L'intégrale devient donc

Afin de couvrir le plan, nous pouvons passer d'abord à la limite par

L'intégrale sur le plan entier est donc

Dans cette intégrale double, les deux variables sont indépendantes, donc cette intégrale double
est le carré de l'intégrale simple et nous avons

La fonction sera une densité de probabilité si cette intégrale est unité, d'où l'on déduit

155 Jean-Michel Jolion2006 LD


Dans le cas d'une loi normale, ce qui nous redonne bien

Estimation

1- Soit une loi normale d'espérance connue et de variance inconnue. Construisez


l'estimateur de cette variance par la méthode du maximum de vraisemblance. Quel est son
biais ?

2- Construisez l'estimateur du paramètre d'une loi de Poisson par la méthode du maximum


de vraisemblance.

3- Une machine fabrique des pièces à une cadence qui ne permet pas de faire un controle
qualité total. On procède donc à un prélèvement d'un échantillon de pièces qui sont testées.

Sur cet échantillon, , on constate un pourcentage de de pièces défectueuses.

L'entreprise ayant commandée ces pièces impose un pourcentage maximum de rebut de .


Que pouvez-vous conseiller au fabricant des pièces ?

4- Soit l'échantillon avec et

. Déterminer les paramètres

d'un modèle linéaire de la forme approximant au mieux ces données. Quelle est
la confiance dans ce modèle ?

5- On dispose d'un échantillon provenant d'une loi normale . On estime les

paramètres par et . Les valeurs obtenues sont,


et . Quelle est la probabilité pour que la valeur vraie de l'écart type soit
supérieure à ?

156 Jean-Michel Jolion2006 LD


6- On dispose d'un ensemble de 101 mesures provenant d'un échantillonnage que l'on associe

à une v.a. , et étant inconnus. La variance estimée est . Donner


l'intervalle de confiance sur pour .

7- A partir d'un échantillon de 10 réalisations, on estime la moyenne d'une variable aléatoire


normale. L'écart-type étant également inconnu, on l'estime. On obtient les valeurs pour la
moyenne et pour l'écart-type. Quel est l'intervalle de confiance ( ) autour de la
moyenne ?

Réponse :

8- A partir d'un échantillon de valeurs, on estime la moyenne d'une variable aléatoire


normale. L'écart-type étant inconnu, on l'estime également et on obtient les valeurs et
. Quelle est la confiance d'un intervalle de largeur 1 autour de la moyenne ?

Réponse :

9- Un quotidien publie tous les mois la cote du chef du gouvernement à partir d'un sondage
réalisé sur un échantillon représentatif de 1000 personnes. En janvier, la cote publiée était de

d'opinions favorables, en février de . Un journaliste commente alors ces valeurs


par "Le chef du gouvernement perd 2 points !!" Commentez ce commentaire.

Réponse: On construit un intervalle de confiance autour des proportions. Avec un seuil de

, on obtient respectivement et pour les valeurs et . Les


deux intervalles ayant une intersection non vide, on ne peut pas conclure qu'il y ait eu baisse
ou augmentation de la cote du chef de gouvernement. La largeur de l'intervalle de confiance

est donnée par avec pour un seuil de sonfiance de ,

et .

10- Le chiffre d'affaires mensuel de l'entreprise JET suit une loi normale de moyenne
inconnue mais dont l'écart type est connu et égal à Keuros. Sur les douze derniers mois, la

moyenne des chiffres d'affaires mensuels a été de Keuros. Donnez une estimation de
par intervalle de confiance au niveau .

157 Jean-Michel Jolion2006 LD


Réponse :

11- Dans une station service, on suppose que le montant des chèques essence suit une loi

normale de moyenne et d'écart type . On considère un échantillon de taille et on

obtient une moyenne de euros et un écart-type de euros. Donnez une estimation de


par intervalle de confiance au niveau .

Réponse : On doit procéder au calcul d'un intervalle de confiance sur une moyenne d'une loi
normale dont l'écart-type est inconnu et estimé. Cet intervalle est définit par

où (respectivement ) est la moyenne (respectivement l'écart-type) estimée et est lue dans

une table de la loi de Student à degrés de liberté.

Ce qui donne, et comme intervalle de confiance

12- Dans une production continue de pièces manufacturières, on fait un contrôle de qualité par
prélèvement avec un échantillon de 100 pièces.

1. Pour chaque pièce, on procède à un contrôle de poids. On admet que cette mesure peut être
modélisée par une variable aléatoire exponentielle de paramètre . Le paramètre de cette loi
étant inconnu, on estime les moments et l'on obtient respectivement, g et g pour la
moyenne expérimentale, , et l'écart-type, . Quelle est la confiance d'un intervalle de
largeur ?

Réponse: La variable aléatoire poids suit une loi exponentielle de paramètre qui est aussi sa
moyenne théorique. On accède à ce paramètre par l'estimation de la moyenne. L'on a donc à

déterminer un intervalle de confiance autour de la moyenne estimée, i.e. .


On est pas dans le cas d'une loi normale mais l'échantillon est de grande taille, on peut donc
appliquer la règle standard

La largeur de cet intervalle est donc


158 Jean-Michel Jolion2006 LD
Dans la table de la loi de Student à 99 ddl, on constate que pour des ddl de 80 et 120, il n'y
pas de changements notables et l'on repère

2. Sur cet échantillon, on estime à le taux de pièces défectueuses. Quel est l'intervalle de

confiance à autour de cette valeur ? Conclusion.

Réponse: Il s'agit de déterminer un intervalle de confiance d'une proportion qui est donné par

On utilisera l'approximation dans l'évaluation de la racine car la valeur expérimentale est


loin de . La valeur de est lue dans une table de la loi normale centrée réduite et correspond à

soit avec . La lecture donne


et l'on obtient l'intervalle de confiance suivant :

La fluctuation est très importante (du même ordre que l'estimation) et rend difficilement
interprétable la valeur obtenue pour la proportion. Il faut soit réduire la confiance, soit
augmenter la taille de l'échantillon. Ces remarques restent relatives aux attendus de
l'application.

3. Donnez la taille minimale de l'échantillon pour que la largeur de cet intervalle soit au plus

égale à .

Réponse: En reprenant les résultats de la question suivante, on a

159 Jean-Michel Jolion2006 LD


avec et . Donc on obtient

13- Sur un échantillon de 20 valeurs, on procède à une régression linéaire et on obtient les
valeurs suivantes pour les moyennes expérimentales : , , ,
et . Calculer les paramètres et de la droite de régression. Quelle
est la confiance dans le modèle ? Conclusion.

Réponse : D'après les formules, on a

La qualité du modèle estimée par le coefficient de corrélation est très faible, le modèle
linéaire n'est pas adapté.

14- Dans une production continue de pièces manufacturières, on fait un contrôle de qualité par
prélèvement avec un échantillon de 80 pièces.

1. Pour chaque pièce, on procède à un contrôle dimensionnel. On admet que cette mesure peut

être modélisée par une variable aléatoire normale . Les paramètres de cette loi étant
inconnus, on les estime et l'on obtient, respectivement, cm et cm pour la moyenne
expérimentale, , et l'écart-type, . Quelle est la confiance d'un intervalle de largeur
autour de la moyenne ?

Réponse: Il s'agit de déterminer un intervalle de confiance d'une moyenne d'une loi normale,
son écart-type étant inconnu. Donc cet intervalle est donné par
160 Jean-Michel Jolion2006 LD
avec d'où . On sait par ailleurs que t est à lire dans la table de la loi de
Student pour degrés de liberté. Compte tenu de la faible variation autour de on approxime la
lecture par celle de la ligne degrés de liberté. On obtient

et donc

La confiance de l'intervalle de largeur autour de la moyenne expérimentale est .

2. Sur cet échantillon, on estime à le taux de pièces défectueuses. Quel est l'intervalle de

confiance à autour de cette valeur ? Conclusion.

Réponse: Il s'agit de déterminer un intervalle de confiance d'une proportion qui est donné par

On utilisera l'approximation dans l'évaluation de la racine car la valeur expérimentale


est loin de . La valeur de est lue dans une table de la loi normale centrée réduite et

correspond à soit avec . La lecture

donne et l'on obtient l'intervalle de confiance suivant : .

La fluctuation est très importante (du même ordre que l'estimation) et rend difficilement
interprétable la valeur obtenue pour la proportion. Il faut soit réduire la confiance, soit
augmenter la taille de l'échantillon. Ces remarques restent relatives aux attendus de
l'application.

161 Jean-Michel Jolion2006 LD


3. Sur le même échantillon, quelle est la probabilité que la valeur vraie de soit supérieure à
cm ?

Réponse: Il s'agit de déterminer un intervalle de confiance d'une variance d'une loi normale.
Donc cet intervalle est donné par

où est la variance expérimentale avec biais donnée par

On sait que

donc

donc . La valeur est reportée dans la table de la loi du à


degrés de liberté.

et donc

La probabilité que l'écart-type vrai soit plus grand que est donc .

162 Jean-Michel Jolion2006 LD


Tests d'hypothèses

1- La répartition des durées de 670 vols Paris-Alger est donnée dans le tableau suivant:

Durée Nombre
cumulé

1.9-1.95 19 2.8 2.8

1.95-2. 19 2.9 5.7

2.-2.05 39 5.8 11.5

2.05-2.1 48 7.2 18.7

2.1-2.15 87 12.9 31.6

2.15-2.2 94 14.1 45.7

2.2-2.25 104 15.5 61.2

2.25-2.3 92 13.7 74.9

2.3-2.35 57 8.5 83.4

2.35-2.4 44 6.6 90.0

2.4-2.45 28 4.2 94.2

2.45-2.5 26 3.9 98.1

2.5-2.55 13 1.9 100

Cette distribution est-elle normale ?

2- Soit la suite de valeurs: .


Cette suite constitue-t-elle un échantillon formé de réalisations indépendantes ?

Réponse : On peut tout d'abord utiliser le test de Spearman. Pour cela, on construit la table
suivante
163 Jean-Michel Jolion2006 LD
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

SI 23 14 41 50 43 70 63 91 85 113 122 134 117 108 96

R 2 1 3 5 4 7 6 9 8 12 14 15 13 11 10

ST 14 23 41 43 50 63 70 85 91 96 108 113 117 122 134

où i est le rang initial des valeurs de la séquence initiale SI et R le rang final de la valeur de la
deuxième ligne dans séquence triée ST. L'indicateur de Spearman a donc pour valeur

. D'après la table de Spearman, on rejete l'hypothèse d'indépendance


quelque soit la valeur du risque.

On peut aussi utiliser le test des différences premières. On construit alors la table suivante

SI 23 14 41 50 43 70 63 91 85 113 122 134 117 108 96

- + + - + - + - + + + - - -

où les sont les signes des différences entre deux valeurs consécutives. L'indicateur des différences

premières est donc . On accepte donc l'hypothèse d'indépendance


quelque soit le risque.

Si les deux tests sont contradictoires, c'est qu'ils ne testent pas la même nature d'indépendance.

3- On dispose d'un échantillon de valeurs dont on veut savoir si il correspond à une

distribution de type loi normale. On procède à un test du et la valeur de l'indicateur est


. Sachant que l'on a constitué classes, déterminer si l'adéquation est acceptable.

Réponse : Le nombre de degrés de liberté du test est (on doit estimer les

deux paramètres de la loi normale). Par lecture dans la table du on obtient les valeurs
suivantes

164 Jean-Michel Jolion2006 LD


p v

0.99 29.141

p 30

0.995 31.319

Par une approximation locale, on a alors

L'hypothèse est donc acceptable jusqu'à un risque de ce qui est très faible.

4- On dispose de deux échantillons dont on sait qu'ils sont liés à deux variables aléatoires

et dont les lois sont, respectivement, et . Quel test proposez-vous


pour tester l'indépendance de ces deux échantillons ?

5- On introduit une modification sur une chaîne de production et l'on souhaite en mesurer
l'impact. Pour cela, on utilise un indicateur de performance lié au nombre de clients servis
dans les délais. On obtient les valeurs suivantes au cours de l'expérimentation:

Indicateur

Mesure avant après

1 148 165

2 155 155

3 144 132

4 129 152

5 154 133

6 144 145

165 Jean-Michel Jolion2006 LD


7 132 151

8 147 145

9 151 144

10 119 143

Commenter l'impact de la modification sur la chaîne de production.

6- On dispose d'un échantillon de matériels identiques et on note les durées de vie en

heures . On obtient les valeurs:

Tester le caractère exponentiel de la loi de fiabilité par les tests de Kolmogorov-Smirnov et


Cramer-Von Mises.

7- Le temps mis par une machine pour fabriquer une pièce suit une loi normale de

paramètres et . La machine tombant en panne, on fabrique la


même pièce avec une machine . On suppose que le temps de fabrication suit une loi
normale de même écart type. Pour un échantillon de pièces réalisées, on a obtenu un
temps moyen de fabrication, . La machine est-elle aussi performante que la
machine au risque ?

Réponse : On teste l'hypothèse : avec un test bilatéral ou unilatéral. Dans les


deux cas, la conclusion est que la machine est moins performante.

8- Après une enquète sur un échantillon de ménages, on a constaté que ménages

possèdaient une voiture. Au risque , cela contredit-il l'hypothèse que des ménages

possèdent une voiture ? Quel est l'intervalle de confiance au risque autour de la valeur
trouvée ?

Réponse : Il s'agit dans un premier temps de réaliser un test bilatéral sur un proportion.

L'hypothèse porte sur la valeur vraie ( contre ).

La région critique du test est donnée par

166 Jean-Michel Jolion2006 LD


où est lu dans la table de la loi .

Pour , on obtient et donc

Dans notre exemple, , donc , on peut donc accepter

l'hypothèse . Cependant, on se trouve au voisinage de la valeur seuil.

L'intervalle de confiance à autour de la valeur trouvée est définie par

où est lu dans la table de la loi . On trouve et donc l'intervalle

La valeur vraie est bien dans l'intervalle mais de justesse de même que pour le test
précédent. Il y a donc une sensibilité à envisager en fonction de la valeur du risque dans les
deux cas.

9- Une entreprise fait un test de conformité sur un produit qu'elle fabrique par une analyse de
sa chaîne de production. Une étude théorique permet de conduire à un pourcentage de

conformité . Compte tenu de la valeur marchande des pièces, on veut procéder à

un test bilatéral sur cette proportion par rapport à la valeur nominale au risque .
Commentez le choix de ce risque. On réalise le prélèvement d'un échantillon de taille

et on obtient . Doit-on rejeter la valeur théorique ?

Réponse : Le risque de est très très faible et conduira très vraisemblablement à une
acceptation systématique sans réelle signification. Ce risque peut cependant se justifier par la

167 Jean-Michel Jolion2006 LD


valeur marchande élevée des pièces qui pousse à ne pas les mettre au rebut sauf si on est sûr
de leur non conformité.

On construit le test suivant :

La région critique est donnée par

où la valeur de est lue dans une table de la loi normale .

Dans notre cas, on a et donc l'écart maximal entre


estimation et valeur théorique est

L'écart constaté sur l'échantillon est , on accepte donc

l'hypothèse sur la valeur théorique.

SPC

1- Sur une chaîne de production, on procède à une campagne de mesures ( ). Cet


échantillon est caractérisé par sa moyenne et son écart-type . Les

spécifications de cette production sont . Calculer


les 4 indicateurs de capabilité. Que pouvez-vous en déduire ? Interprétation.

Réponse : Les indicateurs sont

168 Jean-Michel Jolion2006 LD


1.67

1.33

1.18

0.94

est supérieur à , on peut donc envisager d'implanter un contrôle statistique. Mais les
trois autres indicateurs sont moins satisfaisant. Une campagne plus approfondie est nécessaire.

2- On souhaite construire une carte-contrôle pour une fabrication dans laquelle on considère

comme acceptable une proportion de pièces défectueuses .

(a) Sachant qu'on prélève un échantillon de taille , quelle est la loi de la v.a. , nombre de
pièces défectueuses contenue dans l'échantillon ?

(b) Déterminer les nombres et tels que

Prob( ) = 0.95

Prob( ) = 0.99

sachant que .

(c) Construisez la carte de contrôle. Indiquez en le mode d'emploi.

(d) En utilisant cette carte contrôle, quelle est la probabilité de laisser la fabrication se

poursuivre alors que la proportion de défecteux est en réalité ou ?


Qu'en pensez-vous ?

169 Jean-Michel Jolion2006 LD


Sujets généraux

Subsections

 Problème 1
 Problème 2
 Problème 3
 Problème 4

Problème 1

1- (8 pts) Une machine fabrique des pièces rectangulaires dont les deux côtés sont et .
Cette machine est sujette à des dérèglements qui induisent, indépendamment, des variations
dans les cotes théoriques qui rendent aléatoires les cotes mesurées. Une analyse systématique
des pièces a montré que ces erreurs sont faibles en valeur, symétriques et de même amplitude
et variation pour les deux cotes.

1.1 (1 pt) Proposer un modèle (loi) pour les deux variables et .

Compte tenu des hypothèses sur les erreurs, on peut faire une hypothèse de répartition selon

des lois normales. On posera et . Les amplitudes et


variations des deux variables étant les mêmes, on peut faire l'hypothèse d'égalité des variances.

A partir de ces deux variables, on construit deux nouvelles variables aléatoires d'erreur

et par et . Afin de simplifier le test de validité des

pièces, on impose une seule tolérance sur la norme de l'erreur, . On

supposera par la suite que .

1.2 (2 pts) Quelles sont les lois (avec moyennes et écarts types) des variables aléatoires

et ?

Par simple propriété de la loi normale, on obtient et .

170 Jean-Michel Jolion2006 LD


1.3 (2 pts) Quelle est la loi de la variable aléatoire ?

Compte tenu de l'hypothèse d'indépendance entre les variables et par définition, la variable
suit une loi de Raleigh.

1.4 (3 pts) On prélève un échantillon relatif à la variable aléatoire . Cependant, celui-ci


est perturbé par des données non significatives. On ne peut pas se fier au calcul de la

moyenne empirique ni à celui de la variance pour déterminer le paramètre de la loi.


Proposez une autre méthode pour estimer le paramètre de la loi.

La densité de probabilité de la loi de Raleigh est donnée par

La densité de Raleigh est une fonction unimodale (courbe de Gauss légèrement asymétrique).
Elle a donc un seul maximum qui est situé à la valeur qui annule sa dérivée donnée par

qui s'annule pour .

On peut donc, à partir de la densité empirique, repérer la valeur maximale, i.e., le mode, et en

déduire une estimation de et de fait de la moyenne empirique puisque celle-ci vaut .

2- (6 pts) On considère une unité de production organisée en îlots. Sur chacun, on résume la
qualité de la production par une mesure calibrée entre -1 et 1. On désire tester l'architecture
et particulièrement les effets de propagation des dysfonctionnements d'approvisionnement en
provenance du stock central. Sous l'hypothèse de répartition uniforme des dysfonctionnements,
on peut déterminer les valeurs théoriques de la moyenne et de la variance de l'indicateur de
qualité. Pour la configuration concernée, composée de 250 îlots, et sous cette hypothèse, on

obtient les valeurs vraies suivantes : , . Une série de mesures sur

les îlots conduit à l'estimation suivante : . Que pouvez-vous conclure ?

L'estimateur d'une moyenne peut être considéré comme une variable aléatoire de loi normale
(l'échantillon est de taille significative). Soit cet estimateur, on a donc

171 Jean-Michel Jolion2006 LD


Pour tester la valeur l'hypothèse, on va se ramener à un test sur la valeur de la moyenne
théorique, variance connue. On procède au test bilatéral suivant :

Nous choisissons un risque de .

La règle de décision fait intervenir avec loi normale centrée et


réduite. La table correspondante nous donne . La détermination du seuil de la
région critique du test donne

La règle de décision est donc

si alors sinon .

Donc dans notre cas, on conclut au rejet de l'hypothèse .

On peut aussi raisonner à l'envers en recherchant la valeur du risque associée à l'hypothèse

. Dans ce cas,

Par lecture dans la table de la loi normale, on obtient .

L'erreur de première espèce est donc très très faible (inférieure à ) ce qui revient à dire que l'on

est dans un cas où l'on serait amener à ne jamais rejeter l'hypothèse .

Ces deux approches donne donc un même raisonnement qui conduit à conclure que
l'hypothèse de distribution uniforme des dysfonctionnements n'est pas validée par les données
empiriques.

3- (3 pts) Une machine fabrique des pièces dont la longueur suit une loi normale de

paramètres et . On veut procéder à un test bilatéral sur la moyenne pour tester cette

172 Jean-Michel Jolion2006 LD


valeur par rapport à la valeur nominale qui est cm au risque . Pour cela, on réalise

un prélèvement d'un échantillon de taille et on obtient cm et cm.

Doit-on rejeter ?

On procède au test bilatéral suivant :

La règle de décision fait intervenir avec loi de Student à degrés


de liberté. La table correspondante nous donne . La détermination du seuil de la
région critique du test donne

La règle de décision est donc

si alors sinon .

Donc dans notre cas, on conclut au rejet de l'hypothèse .

5- (3 pts) Afin de tester l'adéquation d'une loi à la loi exponentielle à partir d'un échantillon

(de 50 valeurs), on procède à deux tests. Le test du (8 classes) accepte l'adéquation. Par
contre, sur le même échantillon, le test de Kolmogorov-Smirnov rejette l'hypothèse. Que
pouvez-vous conclure ?

On peut préférer le test du KS qui est plus contraignant car pour le test du , on a 8 classes
pour un échantillon de taille soit en moyenne valeurs par classes ce qui est peu.

Problème 2

1- (8 pts) Une machine fabrique des pièces rectangulaires dont les deux côtés sont et .
Cette machine est sujette à des dérèglements qui induisent, indépendamment, des variations
dans les cotes théoriques qui rendent aléatoires les cotes mesurées. Une analyse systématique
des pièces a montré que ces erreurs sont indépendantes, faibles en valeur, symétriques et de
même moyenne et variation pour les deux cotes.

173 Jean-Michel Jolion2006 LD


1.1 (2 pts) Proposer un modèle (loi) pour les deux variables et .

Compte tenu des hypothèses sur les erreurs, on peut faire une hypothèse de répartition selon

des lois normales. On posera et . Les amplitudes et


variations des deux variables étant les mêmes, on peut faire l'hypothèse d'égalité des variances.

A partir de ces deux variables, on construit une variable aléatoire d'erreur normalisée par

1.2 (3 pts) Quelle est la loi (avec moyenne et écarts type) de la variable aléatoire ?

On obtient une loi Gamma de paramètres . Par définition, nous avons

La densité de probabilité est donnée par

1.3 (3 pts) On prélève un échantillon relatif à la variable aléatoire dont on souhaite


vérifier la loi. Cependant, celui-ci est perturbé par des données non significatives. On ne peut
pas se fier au calcul de la moyenne empirique ni à celui de la variance pour valider
l'adéquation de la loi au modèle établit. Proposez, en la justifiant, une autre méthode.

Puisque l'on connait la loi théorique avec ses paramètres, on peut construire, pour chaque
valeur de l'échantillon, une mesure de validité pourt rejeter ou accepter cette valeur. Ensuite,

sur les données non perturbées, on pourra procéder à un test de type KS ou .

2- (6 pts) On considère une unité de production organisée en îlots. Sur chacun, on résume
la qualité de la production par une mesure. Une analyse a montré que cette mesure, sur

chaque îlots, suit une loi normale de paramètres et . Pour tester le comportement

global, on construit une mesure . On utilise le carré pour se ramener à une


mesure d'amplitude sans prendre en compte le signe.

2.1 (1 pt) Quelle est la loi de la variable ?

174 Jean-Michel Jolion2006 LD


Il n'y a pas de loi connue pour cette variable aléatoire.

2.2 (3 pts) Proposez, en le justifiant, une nouvelle mesure dont on pourrait exploiter la loi.

Si on procède à un centrage réduction des donnant ainsi les variables avant d'en faire la
somme, alors la nouvelle loi

suivrait une loi du à degrés de liberté. Cette opération peut se justifier si on veut compenser

des problèmes de calibrage entre les mesures .

2.3 (2 pts) Sur une campagne de mesures, on obtient une réalisation de cette variable

aléatoire, . Sachant qu'il y a îlots, donnez la valeur que cette nouvelle


variable prenne une valeur inférieure à cette mesure.

Pour une loi du à degrés de libertés, on a les valeurs suivantes :

Par approximation linéaire entre ces deux valeurs, on obtient

3- (3 pts) Une entreprise fait un test de validité sur un produit qu'elle fabrique. Une étude

théorique donne un pourcentage de rebuts . On veut procéder à un test bilatéral

sur cette proportion par rapport à la valeur nominale au risque . Pour cela, on réalise un

prélèvement d'un échantillon de taille et on obtient cm. Doit-on

rejeter ?

Le test d'hypothèse est donc :

175 Jean-Michel Jolion2006 LD


au risque .

La région critique du test est alors

où est lu dans la table de la loi normale centrée réduite. Pour , on lit

d'où la région critique . Comme

, on peut accepter au risque .

4- (3 pts) Afin de tester l'adéquation d'une loi à la loi binomiale à partir d'un échantillon (de

80 valeurs), on procède à deux tests. Le test du (10 classes) accepte l'adéquation. Par
contre, sur le même échantillon, le test de Kolmogorov-Smirnov rejette l'hypothèse. Que
pouvez-vous conclure ?

L'application du test du se fait dans de bonnes conditions puisque le nombre


d'échantillons et le nombre de classes sont significatifs. On peut donc accepter le résultat du
test. Le rejet du test du KS indique simplement qu'une approche plus restrictive donne un
résultat contraire. Une analyse de l'échantillon est donc nécessaire pour savoir si il n'a pas été
perturbé.

Problème 3

1- (6 pts) On souhaite établir un contrôle statistique de fabrication sur une unité de


production. Sur un échantillon de taille 100, on procède à une estimation de la mesure de
référence. On obtient une moyenne de et un écart type de .

1.1 (3 pts) Construisez l'intervalle de confiance à autour de l'estimation de l'écart type.

On doit tout d'abord faire une hypothèse sur la distribution des mesures. Afin de pouvoir faire
un intervalle de confiance sur la moyenne, on supposera que les données sont distribuées
selon une loi normale.
176 Jean-Michel Jolion2006 LD
Comme la moyenne est inconnue (et donc estimée), l'intervalle de confiance est donné par

avec et

D'après la table du on obtient

et donc l'intervalle de confiance sur l'écart type est

1.2 (1 pt) On définit la capabilité de l'unité de production par où est

l'estimation de l'écart-type. Quelles sont les valeurs extrèmes de cette capabilité à de


confiance ?

Les valeurs extrèmes sont données par

et

1.3 (2 pts) En vous référant à la table page V-3, qualifiez les capabilités obtenues.

En se référant à la table de la page V-3 du polycopié, on déduit que les capabilités min et max
sont entre mauvaises (1) et très moyennes (1.33). Il est donc difficile d'implanter un contrôle
statistique sur cette unité de production. Ce commentaire, interprétant la capabilité, est rendu
possible par l'hypothèse de loi normale formulée au début.

177 Jean-Michel Jolion2006 LD


2- (6 pts) Dans un processus de production, un système de surveillance arrète le processus si

un indicateur de sécurité atteint une valeur de référence. On estime à la probabilité que cet
indicateur atteigne la valeur de référence sur une unité de temps. Après chaque unité de
temps, l'indicateur est réinitialisé. Celui-ci est sans mémoire. On note la variable aléatoire
qui donne la durée de fonctionnement (en nombre d'unités de temps) du processus sans
interruption.

2.1 (2 pts) Quelle est la loi de la variable ?

La loi de est une loi géométrique de paramètre (loi du nombre d'essais pour faire

appraître un évènement de probabilité ).

2.2 (2 pts) On constate que . Sachant que est très petit,

proposez une estimation de .

La probabilité d'une loi géométrique de paramètre est

Pour très petit, on peut approximer cette probabilité par .


Donc

d'où

Par remplacement, on trouve aisément que la deuxième valeur constitue une erreur

d'approximation car ne redonnant pas la probabilité correcte ( ). C'est

donc l'approximation que l'on retiendra.

2.3 (2 pts) Quelle est la probabilité que le processus se déroule sans interruption sur 23
unités de temps ?

En application des résultats précédents, on trouve

178 Jean-Michel Jolion2006 LD


3- (3 pts) Une entreprise fait un test de conformité sur un produit qu'elle fabrique par une
analyse de sa chaîne de production. Une étude théorique permet de conduire à un

pourcentage de conformité . Compte tenu de la valeur marchande des pièces, on


veut procéder à un test bilatéral sur cette proportion par rapport à la valeur nominale au

risque . Commentez le choix de ce risque. On réalise le prélèvement d'un échantillon de

taille et on obtient . Doit-on rejeter la valeur théorique ?

Le risque de est très très faible et conduira très vraisemblablement à une acceptation
systématique sans réelle signification. Ce risque peut cependant se justifier par la valeur
marchande élevée des pièces qui pousse à ne pas les mettre au rebut sauf si on est sûr de leur
non conformité.

On construit le test suivant :

La région critique est donnée par

où la valeur de est lue dans une table de la loi normale .

Dans notre cas, on a et donc l'écart maximal entre


estimation et valeur théorique est

L'écart constaté sur l'échantillon est , on accepte donc

l'hypothèse sur la valeur théorique.

179 Jean-Michel Jolion2006 LD


4- (2 pts) Afin de tester l'adéquation d'une loi à la loi binomiale à partir d'un échantillon, on
dispose de 25 valeurs. Quel test préconisez-vous ? Pourquoi ?

Dans ce cas, avec un très faible échantillon, il n'est pas envisageable de réellement utiliser le

test du . On préfèrera donc un test de Kolmogorov-Smirnov. On peut aussi préférer le test

de Cramer-Von Mises qui est plus puissant (au sens de la puissance du test, ).

5- (3 pts) Démontrez que l'estimateur du maximum de vraisemblance du paramètre d'une


loi de Poisson est la moyenne expérimentale.

La fonction de vraisemblance de la loi de Poisson est donnée par

Soit en passant par le logarithme,

En dérivant par rapport au paramètre , on obtient

L'estimateur de au sens du maximum de vraisemblance est obtenu en annulant cette


expression, on retouve donc bien la formule de la moyenne expérimentale

Problème 4
1- (6 pts) Le merle à plastron est un oiseau qui en automne erre dans les bois clairs et les buissons des
montagnes. En 1968, une station ornithologique du Col de la Golèze située dans les Alpes françaises,
a capturé 48 merles à plastron au filet durant les 89 jours d'ouverture de la station. On note la
variable aléatoire qui donne le nombre de merles capturés en fonction du nombre de jours.

1.1 (2 pts) Quelle est la loi de la variable ?

180 Jean-Michel Jolion2006 LD


Réponse : Si la répartition dans le temps des captures de merles à plastron est aléatoire, la
distribution de probabilité obéit à une loi de Poisson. En effet, chaque épreuve consiste en la
capture d'un merle. Cette capture se produit ou non un jour J donné. La probabilité qu'elle se
produise le jour J est donc 1/89 = 0.011. Cette probabilité est faible et le nombre d'épreuves
est important (48). Si ces épreuves sont indépendantes (pas de phénomène d'habituation chez
les merles), on peut faire l'hypothèse de la loi de Poisson.

1.2 (2 pts) Quelle est la valeur du paramètre de cette loi ?

Réponse : Dans le cas de la loi de Poisson, le paramètre est obtenu par

1.3 (2 pts) Quelle est la probabilité de capturer 2 merles en une journée ?

Réponse : La valeur est donnée par

2- (4 pts) Une entreprise fait un test de conformité sur deux machines. Sur des échantillons de
tailles respectivement pour les deux machines, 75 et 55, les nombres de défauts sont,
respectivement pour les deux machines, 7 et 5. Les deux machines sont-elles aussi fiables au

risque ?

Réponse : On veut tester l'hypothèse d'égalité des proportions théoriques de défauts sur les
deux machines.

Pour cela, on construit l'indicateur

avec

Dans notre cas, on obtient

181 Jean-Michel Jolion2006 LD


et

La région d'acceptation est définie par

où est lue dans la table de la loi normale centrée réduite par

Sans ambiguïté ( ), les deux machines sont équivalentes.

3- (4 pts) Soit X, une variable représentant le résultat des étudiants à un examen de


mathématique. Sur les 500 étudiants, on en a choisi 50 au hasard (sans remise). Leurs points
sont les suivants : 40 élèves ont eu 60 points; 5 élèves ont eu 50 points et les autres 30 points.
Donner un intervalle de confiance pour la moyenne échantillon à un niveau de confiance de

Réponse: Comme on ne sait rien sur la variable, on ne peut pas faire d'hypothèse de loi
normale mais on a plus de 30 valeurs pour faire les estimations. Donc on peut procéder aux
estimations des moments.

On peut aussi utiliser un estimateur sans biais qui donne,

Pour la moyenne, cela donne et pour l'écart type, on a .

182 Jean-Michel Jolion2006 LD


On veut . On prend un intervalle symétrique de la forme

où est lue dans une table de la loi de Student à degrés de


libertés, soit environ ce qui nous donne finalement un intervalle de confiance de la
forme:

4- (3 pts) Déterminez la valeur de l'espérance mathématique de la loi Gamma. (On rappelle


que le domaine de définition de cette loi est .)

Réponse : La loi Gamma a pour densité de probabilité

Et son espérance mathématique est

On rappelle de plus que

On pose tout d'abord , avec . On obtient alors

La fonction est telle que

Donc

183 Jean-Michel Jolion2006 LD


On peut aussi obtenir ce résultat par intégration par partie, en posant

On obtient alors

Soit

Par récurrence, on obtient alors

5- (3 pts) Dans l'hôpital Hiks, la salle Igrec contient 30 patients contaminés par le virus Zed.
Le traitement que l'on fournit, guérit avec une probabilité de réussite de 4/7. Quelles sont les
probabilités de ne pas guérir 10 patients ? Et 25 patients ?

Réponse : On suppose que tous les patients sont équivalents en regard du traitement. Soit la
variable aléatoire , vrai/faux, associé à l'évènement "ne pas guérir un patient". On construit,
par répétition, une variable aléatoire de type binomiale. est donc associé à
l'évènement, "ne pas guérir n patients". On peut donc dire que

De même, on obtient

184 Jean-Michel Jolion2006 LD


Bibliography
Cha 94

P.Chang & K.Lu (1994) PCI Calculations for Any Shape of Distribution with Percentile, Quality
World-Technical Supplement, Sep., 110-114.

Deh 96

O.Deheuvels (1996) La probabilité, le hasard et la certitude, Presses Universitaires de France,


Que sais-je, 3.

Dio 97

E.Dion (1997) Invitation à la théorie de l'information, Edition du Seuil, Collection Point


Sciences.

Dud 73

R.O.Duda & P.E.Hart (1973) Pattern Classification and Scene Analysis, John Wiley & Sons,
New York.

Gho

D. Ghorbanzadeh (1998) Probabilités : Exercices corrigés, Editions Technip.

Gou 81

C.Goujet & C.Nicolas (1981) Mathématiques Appliquées: probabilités, initiation à la recherche


opérationnelle, Masson.

Iso 95

ISO Standard (1995) Statistical methods for Quality Control, 4th edition, ISO Standards
Handbook.

Joh 93

N.L.Johnson & S.Kotz (1993) Process Capability Indices, Chapman & Hall.

Kun 91

M.Kunt (1991) Techniques modernes de traitement numérique des signaux, Presses


polytechniques et universitaires romandes.

185 Jean-Michel Jolion2006 LD


Mon 96

D.C.Mongomery (1996) Introduction to Statistical Quality Control, 3rd edition, Wiley and sons,
Inc.

Per 00

G.Perrin (2000) Effects of non-normality on Cost of Quality, University of Nottingham,


Division of Manufacturing Engineering and Operations Management.

Pre86

W.H.Press, B..Flannery, S.A.Teukolsky & W.T.Vetterling, Numerical Recipes: The Art of


Scientific Computing, Cambridge University Press, 1986.

Rea96

J.P.Reau & G.Chauvat, Probabilités et statistiques. Excercices et corrigés, Armand Colin,


Collection cursus TD, série économie, 1996.

Sap 90

G.Saporta (1990) Probabilités, Analyse des données et statistique, Edition Technip.

Sch 84

D.Schwartz (1984) Méthodes statistiques à l'usage des médecins et des biologistes,


Flammarion, Médecine-Sciences, Collection Statistique en biologie et médecine.

Sch 80

J.J.Schwarz (1980) Combinatoire et Probabilités, Polycopié de cours, Département


Informatique, INSA Lyon.

Sch 80b

J.J.Schwarz (1980) Statistique: rappels de cours et exemples, Polycopié de cours,


Département Informatique, INSA Lyon.

Sch 88

B.Scherrer (1988) Biostatistique, Edition Gaetan Morin.

De même, les liens suivants (valides au moment du tirage du polycopié) sont quelques points
d'entrée sur le Web. Cette liste s'intensifiera si vous trouvez des liens intéressants et que vous
m'en faites part.

 http://www.statsoft.com/textbook/stathome.html : une bible en anglais de tout ce que vous


pouvez réver en statistique.
 http://www.fourmilab.com/rpkp/experiments/contents.html : pour ceux qui s'intéressent au
pouvoir de la pensée sur les nombres.

186 Jean-Michel Jolion2006 LD


 http://www.dagnelie.be : une introduction sur les livres de statistiques de Pierre Dagnelie.
 http://www.cons-dev.org/elearning/stat/St1.html : un cours très complet sur les tests.

Jean-Michel Jolion 2006-05-27

187 Jean-Michel Jolion2006 LD

Vous aimerez peut-être aussi