Vous êtes sur la page 1sur 71

duSCOL

Ressources pour le lyce gnral et technologique

Ressources pour la classe terminale


gnrale et technologique

Probabilits et statistique

Ces documents peuvent tre utiliss et modifis librement dans le cadre des activits
d'enseignement scolaire, hors exploitation commerciale.
Toute reproduction totale ou partielle dautres fins est soumise une autorisation
pralable du Directeur gnral de lenseignement scolaire.
La violation de ces dispositions est passible des sanctions dictes larticle L.335-2
du Code la proprit intellectuelle.

Fvrier 2012

MENJVA/DGESCO eduscol.education.fr/prog
Introduction
Le document ressource pour la partie du programme de la classe terminale Probabilits et
statistique donne des lments dtaills permettant aux professeurs de construire leur propre cours. Il
ne sagit pas dun modle reproductible tel quel mais dun support thorique sur les notions introduites
pour la premire fois dans les programmes du secondaire.
Ces notions sont enseignes dans diffrents cursus de lenseignement suprieur mais le point de vue
adopt dans le programme de la classe terminale est assez diffrent.
Les fondements de thorie des probabilits indispensables pour comprendre les notions de statistique
infrentielle prsentes dans le programme sont dvelopps aussi prcisment que possible ce niveau
denseignement.
La loi normale est introduite en terminale S comme loi-limite dune suite de variables alatoires grce
au thorme de Moivre-Laplace. Bien quadmis, ce thorme se visualise facilement grce des
animations avec un logiciel de gomtrie dynamique ou sur tableur et cest sous cette forme que la loi
normale doit tre introduite en terminale ES.
La notion dintervalle de fluctuation dune variable alatoire a t introduite en seconde et dveloppe
en premire dans le cadre de la loi binomiale laide de calculs sur tableur. Elle est enrichie par la
notion dintervalle de fluctuation asymptotique dune variable alatoire frquence qui prsente
lintrt de pouvoir se dterminer par un simple calcul.
La notion dintervalle de confiance pour une proportion est introduite grce lintervalle de
fluctuation asymptotique.

Tous les nouveaux items sont prsents avec des activits. Celles-ci sont souvent mises en uvre sur
calculatrices ou avec un algorithme. Des exemples dexercices sont galement proposs.
Un complment sur les lois uniforme et exponentielles est propos, leur approche ayant t modifie.

Lannexe 1 prsente un historique du thorme de Moivre-Laplace en montrant que le concept de


fluctuation dune variable alatoire autour de son esprance est apparu trs tt avec Jacques Bernoulli
et a gagn en prcision avec Moivre puis Laplace.
Lannexe 2 donne des complments sur les lois normales, en particulier sur la fonction de rpartition.
Cette dernire nest pas un attendu du programme mais est utilise par les calculatrices pour les calculs
de probabilits sur les lois normales.
Lannexe 3 propose une introduction la thorie des sondages et donne quelques mthodes
couramment utilises.
Lannexe 4 donne le descriptif des fichiers tableurs, des animations et des algorithmes crits dans
diffrents langages (Algobox, Scilab, R,...) figurant dans le document. Tous ces fichiers sont
tlchargeables. Une aide la prise en main du logiciel R est galement fournie.
Lannexe 5 donne une approche du calcul numrique dune intgrale par la mthode de Monte-Carlo.
Lannexe 6 fournit des lments de justification propos de la notion de diffrence significative et du
critre de disjonction des intervalles de confiance prsent dans le programme de la filire STI2D-
STL. Ces lments nont pas tre abords avec les lves.

Un document annexe propose une dmonstration du thorme de Moivre-Laplace, labore de telle


sorte que seuls des outils de terminale 1 y sont utiliss. Bien entendu cette dmonstration nest pas au
programme mais le thorme de Moivre-Laplace en tant le socle thorique fondamental pour la partie
probabilits, il a sembl intressant den faire une proposition de dmonstration.
Le thorme de Moivre-Laplace tant un cas particulier dun thorme gnral connu sous le nom de
thorme-limite central, une approche de ce thorme est propose partir de la loi des erreurs.

1
lexception dun changement de variable (linaire) incontournable....
Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Fvrier 2012
Mathmatiques Probabilits et statistique
http://eduscol.education.fr/prog
Tabledesmatires

Introduction ........................................................................................................................... 1

I. Variable centre rduite 4

A. Comment centrer et rduire ..................................................................................................... 4


B. Pourquoi centrer et rduire ? ................................................................................................... 4

II. La loi normale centre rduite 5

A. Activit : Introduction au thorme de Moivre-Laplace ......................................................... 5


B. Thorme de Moivre-Laplace ................................................................................................. 7
C. La loi normale centre rduite................................................................................................. 8
1. Premires proprits ......................................................................................................................... 8
2. Esprance dune loi normale centre rduite (uniquement en terminale S) .................................. 10

III. Lois normales 10

A. Gnralits............................................................................................................................. 10
B. Exemples dexercices ............................................................................................................ 12

IV. Intervalle de fluctuation 18

A. Cas binomial.......................................................................................................................... 18
B. Activit : recherche et utilisation dun intervalle de fluctuation laide dun algorithme .... 18
C. Intervalle de fluctuation asymptotique .................................................................................. 20
D. Exemples dutilisation ........................................................................................................... 22
1. Prise de dcision ............................................................................................................................. 22
2. Problme de la surrservation (surbooking)................................................................................... 23
3. Echantillon reprsentatif dune population pour un sondage......................................................... 24
E. Intervalle de fluctuation simplifie donn en seconde ............................................................ 25
Exemples dexercices ................................................................................................................................ 28

V. Intervalle de confiance 30

A. Introduction ........................................................................................................................... 30
Activit ...................................................................................................................................................... 31
B. Principe gnral de lintervalle de confiance ........................................................................ 33
C. Dfinition .............................................................................................................................. 33
D. Intervalle de fluctuation ou intervalle de confiance : lequel utiliser ?................................... 34
E. Autre intervalle de confiance................................................................................................. 35
F. tude de la longueur de lintervalle de fluctuation et consquence pour lintervalle de
confiance ........................................................................................................................................ 35
G. Dtermination de la taille minimale de lchantillon pour avoir une prcision donne ........ 36
H. Applications........................................................................................................................... 37
1. Exemple de dtermination dun intervalle de confiance ................................................................. 37
2. Simulations...................................................................................................................................... 37
Exemples dexercices ................................................................................................................................ 39
Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 2 sur 70
Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
VI. Complments sur les lois uniforme et exponentielle 42

A. Loi uniforme.......................................................................................................................... 42
B. Lois exponentielles................................................................................................................ 44

Annexe 1 Introduction au thorme de Moivre-Laplace 45

A. La loi des grands nombres de Jacques Bernoulli ................................................................... 45


B. La dmarche dAbraham de Moivre...................................................................................... 46
C. Une approche du rsultat de Moivre ...................................................................................... 47
D. Le thorme de Moivre-Laplace ........................................................................................... 48
E. Convergence en loi ................................................................................................................ 49

Annexe 2 Complments sur les lois normales 50

A. Loi normale centre rduite................................................................................................... 50


B. Lois normales ........................................................................................................................ 51

Annexe 3 Approche simplifie de la thorie des sondages 51

A. Qualits dun chantillon permettant de rpondre une question pose ................................. 51


B. Echantillonnage non-probabiliste ou non alatoire .................................................................. 52
C. Echantillonnage probabiliste .................................................................................................... 53

Annexe 4 Utilisation des Tice 54

A. Tableau des fichiers du document ressource Probabilits et Statistique du programme de


Terminale. ...................................................................................................................................... 54
B. Prise en main rapide du logiciel R............................................................................................ 57

Annexe 5 Mthode de Monte-Carlo 66

A. Mthode dite du rejet ....................................................................................................... 66


B. Mthode de lesprance......................................................................................................... 68

Annexe 6 Comparaison de deux frequences et difference significative 69

A. Une situation tres frquente en sciences experimentales et en economie ............................. 69


B. Comparaison de deux frequences.......................................................................................... 70
C. Intersection de deux intervalles de confiance........................................................................ 70

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 3 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
I. Variable centre rduite
A. Comment centrer et rduire
Une variable alatoire est dite centre et rduite si son esprance est nulle et si son cart type vaut 1.

Soit X une variable alatoire discrte desprance E(X) = m, de variance V(X) et dcart type
V( X ) non nul.
La variable alatoire ( X m) a une esprance nulle
X m
La variable alatoire Z a une esprance nulle et une variance

gale 1, donc un cart type gal 1.

Attention
Lcart-type dune variable alatoire suivant une loi binomiale ne fait pas partie des contenus
mentionns dans le programme des classes de premire ES et L. Il convient donc, avant daborder le
chapitre sur la loi normale en terminale, de lintroduire en lien avec lcart-type dune srie statistique
et den faire percevoir les effets dans le cadre dune activit de simulation.

Si une variable X prend ses valeurs entre 0 et n, ( X m) les prend entre m et n m donc
X m m nm
Z les prend entre et . Si la variable alatoire X est reprsente par un

diagramme en btons, on obtient la reprsentation de la variable ( X m) par translation de vecteur

m i de ce diagramme. Puis on obtient la reprsentation de la variable alatoire Z par rduction
du nouveau diagramme. Les abscisses sur lesquelles sont construits les btons sont les valeurs de
X m
et les hauteurs des btons sont les mmes que celles obtenues pour la variable X, cela conduit

une concentration si 1 . Sur le graphique ci-dessous, on a droite le diagramme en bton dune
variable X, gauche en clair le diagramme de ( X m) et en plus fonc celui de Z.

Figure 1 : Effet graphique du centrage et de la rduction


sur une variable X suivant une loi B (45 ; 0,65)
Document associ : centrer et rduire une binomiale.ggb

B. Pourquoi centrer et rduire ?


Lorsquon passe de X Z, on obtient une variable alatoire dont les paramtres (esprance et variance)
ne dpendent plus de ceux de X.

Rappel
Une variable alatoire qui suit la loi binomiale B (n, p) peut sinterprter comme un nombre de succs
lors de la rptition de n expriences de Bernoulli indpendantes.
Soit Xn une variable alatoire suivant la loi binomiale B (n, p) ; on a :

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 4 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
E(Xn) = np, V(Xn) = np(1 p), et (Xn) = np(1 p) .
X n np
La variable alatoire Z n a pour esprance 0 et pour variance 1, indpendantes de n et de p.
np(1 p)
X
La variable alatoire Fn n correspond la proportion de succs, son esprance est p et sa variance
n
p (1 p )
est .
n
On constate que Fn a une esprance qui ne dpend pas de n et une variance qui diminue quand n
augmente c'est--dire que les ralisations de Fn ont tendance se resserrer autour de p lorsque n
augmente. Cest cette concentration des valeurs les plus probables de Fn qui permettra damliorer la
prise de dcision partir des observations.

Figure 2 : Diagrammes en btons de Fn pour n = 25 et n = 60


Document associ : diagramme en btons de Fn.ggb
Xn
Sur les graphiques ci-dessus, on a reprsent le diagramme en btons dune variable Fn o Xn
n
suit la loi binomiale de paramtres 25 et 0,4 puis 60 et 0,4. Les valeurs prises par Fn sont entre 0 et 1
quel que soit n.
Le paragraphe suivant va permettre de constater que la variable Zn tend vers une variable
universelle indpendante de p. La connaissance de la loi de cette variable universelle permet de
X
prciser la fluctuation de n autour de son esprance p.
n
II. La loi normale centre rduite

A. Activit : Introduction au thorme de Moivre-Laplace


Dans la reprsentation de la figure 3, on considre une variable alatoire X n suivant une loi binomiale
B (n, p) et Z n est la variable centre rduite associe.
On prend deux valeurs a 1 et b 2 et on sintresse P ( 1 Z n 2) .
Pour le cas visualis ci-dessous, on a pris n 100 et p 0,5 .
Donc P ( 1 Z 100 2) P ( 45 X 100 60 ) .
k 50
Les valeurs prises par Z100 quand 1 Z 100 2 sont de la forme avec 45 < k < 60.
5
Lide est dassocier la loi (discrte) de Z100 des aires de rectangles, comme on le fait pour
lhistogramme dune variable continue.

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 5 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
chaque valeur de k on fait correspondre un rectangle vertical dont laire est gale
k 50 1
P( X 100 k ) P( Z100 ) et dont la base est un segment de laxe horizontal de longueur ,
5 5
k 50 1
centr sur ( tant lcart entre deux valeurs conscutives prises par Z). La hauteur de ce
5 5
rectangle est donc 5P( X k ) .
La runion des rectangles obtenue pour 45 < k < 60 a donc pour aire P ( 1 Z100 2) .

Figure 3 : Visualisation de P( a Z n b )
Document associ : binomiale et normale.ggb

Les bords suprieurs des rectangles font apparatre une courbe rgulire et symtrique dlimitant une
aire qui est voisine de celle de la runion des rectangles.
Le mathmaticien Abraham de Moivre, protestant franais migr en Angleterre aprs la rvocation de
ldit de Nantes (1685), a dcouvert que cette courbe est la courbe reprsentative de la fonction
x
1 2
x e . Le cours de terminale sur lintgration permet dcrire que laire situe sous cette
2
x
2 1 2
courbe vaut 1 2
e dx . Pour comparer laire de la runion des rectangles et celle sous la courbe,

on peut remplir le tableau suivant :

k 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
( X k ) 0,048 0,058 0,067 0,073 0,078 0,080 0,078 0,073 0,067 0,058 0,048 0,039 0,030 0,022 0,016 0,010

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 6 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
x
2 1 2
La somme des aires des rectangles vaut 0,85 102 prs et la valeur de 1 2
e dx , quon peut

obtenir avec une calculatrice, est 0,82 102 prs.

partir de lanimation propose, on constate que :

Lorsque n devient grand, p fix, la largeur des rectangles est de plus en plus petite car elle
1 1
vaut .
np(1 p)
Laire correspondant P ( Z n a, b ) se rapproche de laire entre a et b sous une courbe fixe,
x
1 2
qui est la courbe reprsentative de la fonction x e .
2

Exercice (TS)
x

Soit la fonction g dfinie par g ( x) e 2 .
1. Montrer que la fonction drive g ' est minimale pour x 1 .
2. Montrer que la fonction x x g ( x ) est croissante sur [0, [ .
3. En dduire que si 0 a b alors a b g (b ) g ( a ) 0 et que si a b 0 alors
0 g (b ) g ( a ) b a .
4. En dduire que pour tous rels a et b on a : g (b) g (a) b a .

B. Thorme de Moivre-Laplace
Le rsultat suivant est au programme de la classe de terminale S uniquement et il est admis.
Thorme
On suppose que, pour tout entier n, la variable alatoire X n suit une loi binomiale B (n, p).
X n np
On pose Z n , variable centre et rduite associe X n .
np(1 p)
x
b 1
Alors, pour tous rels a et b tels que a b , on a : lim ( a Z n b )
n
a 2
e 2 dx .

Voici ce que dit Laplace propos des travaux de Moivre :


Moivre a repris dans son ouvrage [The doctrine of Chances] le thorme de Jacques Bernoulli
sur la probabilit des rsultats dtermins par un grand nombre dobservations 2 .
Il ne se contente pas de faire voir, comme Bernoulli, que le rapport des vnements qui doivent
arriver approche sans cesse de celui de leurs possibilits respectives, il donne de plus une
expression lgante et simple de la probabilit que la diffrence de ces deux rapports soit contenue
dans des limites donnes.

2
Ce rsultat est la loi des grands nombres. En seconde, on a donn une forme simplifie de la loi des grands
nombres, savoir : la probabilit que la variable frquence scarte de p diminue quand le nombre
dobservations augmente.

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 7 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
Lannexe 1 donne des dveloppements sur ce thorme fondamental.

C. La loi normale centre rduite


Dfinition
Une variable alatoire X suit la loi normale centre rduite 3 note N (0,1) si, pour tous rels a et b
tels que a b, on a :
x
b b 1 2
(a X b) f ( x)dx = a e dx .
a 2
x
1 2
La fonction f dfinie sur IR par e est appele la fonction de densit de la loi N (0,1).
2

1. Premires proprits
f est continue sur IR .
Laire totale sous la courbe de f est gale 1, elle reprsente la probabilit P ( X , ).
La fonction f est paire ; sa courbe reprsentative est donc symtrique par rapport laxe des
ordonnes.
1
Laire sous la courbe sur [0, [ est gale .
2
Pour tout rel u, P(X u ) = 1 P(X u ) .

Sur la figure, o u 0 , les aires grises sont gales en raison de la symtrie de la courbe
reprsentative.

Figure 4: Reprsentation graphique de la fonction de densit de la loi normale centre rduite

Thorme (au programme de terminale S)


Si X est une variable alatoire suivant la loi normale N (0,1) alors, pour tout rel 0, 1 , il
existe un unique rel positif u tel que P ( u X u ) 1 .

Dmonstration (faisant partie des exigibles en terminale S).


Cette dmonstration est intressante car elle permet de rinvestir le cours sur les fonctions et
lintgration.

3
Cette loi est galement nomme "loi normale standard", en particulier dans les tableurs courants, mais cette
dnomination ne figure pas au programme.
Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 8 sur 70
Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
Daprs la symtrie de la courbe, on a pour tout rel u positif,
u
(u X u ) 2(0 X u ) 2 f ( x)dx = 2H(u),
0
o H est la primitive de f sur IR qui sannule en 0. La fonction H est donc continue et strictement
1
croissante sur 0, . On a lim H (u ) puisque cela correspond laire sous la courbe pour
u 2
u 0, , c'est--dire P( X 0) .
La fonction 2H admet donc le tableau de variations et la courbe reprsentative ci-dessous :

t 0
1
2H(t)

Figure 5 : courbe de la fonction 2H

Pour tout rel compris strictement entre 0 et 1, le rel (1 ) est galement compris strictement
entre 0 et 1 et donc, daprs le corollaire du thorme des valeurs intermdiaires, il existe un unique

rel u strictement positif tel que 2 H (u ) 1 c'est--dire tel que u X u 1 .

Il y a deux valeurs approches trs utilises quil faut connatre :


u0,05 1,96 et u0,01 2,58 ( 10-2 prs)

u0,05 est le rel pour lequel (u0.05 X u0.05 ) 0,95 et on a donc : ( 1, 96 X 1, 96) 0, 95
de mme, ( 2, 58 X 2, 58) 0, 99 .
Cela donne une ide de la rpartition des valeurs de X. Environ 95% des ralisations de X se trouvent
entre 1,96 et 1,96.

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 9 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
2. Esprance dune loi normale centre rduite (uniquement en terminale S)
Selon la dfinition donne dans le programme :
Si X suit la loi N (0,1), alors lesprance de X est dfinie par :
0 y
E(X) = lim
x x t f (t )dt + lim
y 0 t f (t )dt .

(on fera le lien avec ce qui est vu avec les lois uniformes et exponentielles).
Lesprance dune variable alatoire X suivant la loi N (0,1) est nulle. En effet :
y y 1
t
1 y
t
1
y

0
t f ( t )dt = 0
2
t e 2 dt =
2
0
t e 2 dt
2
1 e 2


0 1 x2
De mme, x
t f ( t )dt = e 1
2
Par passage la limite, on obtient E(X) = 0.

La variance de X est dfinie par lesprance du carr de lcart entre X et son esprance soit
E(( X E( X )) 2 ) et on admet quelle vaut 1.
On peut proposer le calcul de la variance en exercice, selon une mthode analogue celle utilise pour
le calcul de lesprance dune loi exponentielle.

III. Lois normales

A. Gnralits
On dispose dun chantillon de 50 000 tailles (en cm) dhommes adultes dont voici un rsum
statistique et un histogramme 4 :
Moyenne cart type Nombre Minimum Maximum Mdiane Interquartile
Tailles 175,0 8,0 50 000 145,1 208,5 175,0 10,8

Figure 6 : Rpartition des 50000 valeurs de la taille

Si on centre et rduit la variable taille , lhistogramme obtenu prsente une analogie vidente avec
la figure 3 5 ; cela motive la dfinition suivante.

4
Cet exemple est emprunt au document daccompagnement publi en 2002.
Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 10 sur 70
Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
X
Une variable alatoire X suit une loi N (, 2) si la variable alatoire suit la loi normale

N (0,1).

Lesprance de X vaut et sa variance vaut . La notation N (, 2) est justifie lannexe 2.

Remarque
Il sagit dune loi densit c'est--dire quil existe une fonction g dfinie sur IR telle que, pour tous
b
rels a et b vrifiant a b, on a P( a X b) a
g (t )dt . Lexpression de la fonction de densit de X
nest pas au programme.
6
On peut constater que est la fois lesprance et la mdiane de X.

Exemple
La masse en kg des nouveaux ns la naissance est une variable alatoire qui peut tre modlise par
une loi normale 7 de moyenne = 3,3 et dcart type = 0,5. La probabilit quun nouveau n pse
X 3,3
moins de 2,5 kg la naissance est donc : P(X < 2,5). La variable Z = suit la loi N (0,1).
0,5
2,5 3,3
On a alors : P(X < 2,5) = P(Z < ) = P(Z < 1,6) = 1 P(Z < 1,6) 0,055.
0,5
La probabilit cherche est donc gale 0,055 103 prs.
On peut aussi obtenir directement la valeur de P(X < 2,5).
On donne dans le paragraphe B la mthode pour obtenir cette valeur la calculatrice.

Les intervalles Un, deux, trois sigmas


Les rsultats suivants sont utiliss dans de nombreux contextes ; ils peuvent tre visualiss sur la
figure 7 ci-dessous :
P( X ) 0,68 ( 102 prs)
P( 2 X 2 ) 0,95 ( 102 prs)
P( 3 X 3 ) 0,997 ( 103 prs).

5
Il faut noter quil sagit ici dun histogramme car la variable taille est continue alors que sur la figure 3 les
rectangles ne sont pas ceux dun histogramme car la variable binomiale nest pas continue.
6
Un rel m est une mdiane dune variable alatoire si X m 0 , 5
7
Le poids dun nouveau n ne prend pas de valeurs ngatives mais on peut vrifier que P(X < 0) est ngligeable
de mme que P(X > 5).
Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 11 sur 70
Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
Reprsentations graphiques montrant limportance de la valeur de lcart type
Courbes reprsentatives des densits de la loi normale N (0,1/4) en rouge (maximum voisin de 0,8), de
la loi normale N (0,1) en bleu et de la loi normale N (0,4) en vert.

Figure 8: Influence de l'cart type

B. Exemples dexercices

1. Montrer que si X suit la loi N (0,1), alors X suit la mme loi.

2. La slection chez les vaches laitires de race Franaise Frisonne Pis Noir
La production laitire annuelle en litres des vaches laitires de la race FFPN peut tre modlise par
une variable alatoire densit X, de loi normale de moyenne = 6000 et dcart-type = 400. La
fonction g dsigne la fonction de densit de cette loi normale.

1 Afin de grer au plus prs son quota laitier (production maximale autorise), en dterminant la taille
optimale de son troupeau, un leveur faisant natre des vaches de cette race souhaite disposer de
certaines probabilits.
a) Calculer la probabilit qu'une vache quelconque de cette race produise moins de 5800 litres par an.
Solution

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 12 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
En utilisant calculatrices ou logiciels, on trouve : P(X < 5800) 0,3085. Certaines calculatrices et
logiciels de calcul numrique proposent une fonction ddie ce type de calcul (pnorm() dans R,
normalFRp chez Texas (normaFrp pour fonction de rpartition de la loi normale), menu Ncd chez
Casio (Ncd pour Normal cumulative density). Il y a un faux ami : P(X x) qui est la fonction de
rpartition, en franais est appel "distribution function" en anglais, alors que notre fonction de
distribution pour une variable discrte est classiquement P(X = x).

Attention !
Les calculatrices ne fournissent pas X x mais seulement a X b .
Pour le calcul de X x dans le cas o X suit une loi N (, 2), la rgle pratique est donc la
suivante :
Si x , on utilise X x 0,5 X x
Si x , on utilise X x 0,5 x X .
Pour entrer les paramtres, il faut saisir les valeurs de et de (et non ).
R TEXAS(83Plus) et + CASIO(35+) et +
rpartition normale rpartition normale pr programme rpartition normale pr
pr programme 0.5 - programme
pnorm(5800, mean = normalFRp(5800,6000,6000,400) menu stat dist NORM
6000, 0.3085375 Ncd Lower : 5800 ; Upper
sd = 400, lower.tail : 6000
= TRUE) ou : 400 ; : 6000.
Complment pour lenseignant :
ou pnorm(5800, 6000, intgration numrique aprs changement de
Normal C.D. prob = 0.19147
400) variable pour se ramener la loi normale .5 - .19147
[1] 0.3085375 centre rduite. .30853
intgrFonct(1/(2)*e^(- t/2), t,-5,(5800 -
ou 6000)/400) ou
Complment pour 0.3085373 Complment pour lenseignant :
lenseignant : intgration numrique aprs
intgration numrique de la changement de variable pour se
densit dune loi normale ramener la loi normale centre
de paramtres mu sigma. rduite
(-Inf signifie moins SET UP Integration : Simpson
l'infini et Inf plus menu RUN OPTN CALC dx(
l'infini. $value signifie 1/(2)*e^(- x/2), -5, (5800 -
que l'on ne prend que la 6000)/400)
valeur numrique de l'objet 0.3085372
rsultat de la fonction
integrate. La fonction
gauss est la densit d'une
loi de Gauss d'esprance mu
et d'cart type sygma, g en
est un cas particulier)
gauss <- function(x, mu =
moy, sigma = et){dnorm(x,
mu, sigma)}
moy <- 6000 ; et <- 400
integrate(gauss, -Inf,
5800)$value
[1] 0.3085375

b) Calculer la probabilit qu'une vache quelconque de cette race produise entre 5900 et 6100 litres de
lait par an.
Solution : P(5900 < X < 6100) 0,1974.

c) Calculer la probabilit qu'une vache quelconque de cette race produise plus de 6250 litres par an.
Solution : P(X > 6250) 0,2660.

2 Dans son futur troupeau, lleveur souhaite connatre :


a) la production maximale prvisible des 30% de vaches les moins productives du troupeau.
Il sagit de dterminer la valeur x de X telle que P(X < x) = 0,30.
Rponse : x 5790 litres de lait par an.

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 13 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
Certaines calculatrices et logiciels de calcul numrique proposent une fonction ddie ce type de
calcul (qnorm() dans R pour normal quantile, FracNormale chez Texas pour fractiles de la loi normale,
menu InN chez Casio pour loi normale inverse.

R TEXAS(83Plus) et + CASIO(35+) et +
rpartition normale rpartition normale rpartition normale
rciproque pr programme rciproque pr programme rciproque pr programme
qnorm(.30, 6000, 400) FracNormale(.30,6000,400) menu stat dist NORM
[1] 5790.24 5790.24 InvN Area :.3
: 400 ; : 6000.
Inverse Normal x = 5790.2

b) la production minimale prvisible des 20% des vaches les plus productives.
Il sagit de dterminer la valeur x de X telle que P(X > x) = 0,20.
Rponse : x 6336 litres de lait par an.
3. Processus industriel 8

Le schma ci-contre reprsente une pompe de direction assiste


dautomobile. Le processus industriel tudi est une presse
demmanchement de la poulie sur laxe de la pompe. Les
performances de la presse sont variables, cette variabilit ayant de
nombreuses causes possibles : main duvre, matriel, matire
premire.
Sur le schma ci-contre est spcifie par le constructeur une cote de
39,9 mm.

On a mesur cette cote sur 40 ensembles poulie-pompe issus du processus de fabrication en srie. Les
variations sont reprsentes sur le graphique suivant :

1. Ce type de processus industriel induit la modlisation de la variable alatoire cote par une
variable suivant une loi normale N (, 2) 9 .
Donner par lecture graphique une valeur estime 10 de lesprance et de lcart-type partir
de la srie des 40 valeurs. (Rponse : environ 39,9 et 0,05)

8
Cet exemple est emprunt la brochure IREM n 112: Enseigner la statistique au lyce.
9
On peut vrifier la validit dun tel modle par des tests de normalit, mais cest hors de propos ici.
Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 14 sur 70
Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
2. Lintervalle de tolrance pour cette cote est de 39,9 0,15.
Donner, laide des 40 mesures effectues, une valeur approche de la probabilit que la variable
cote soit dans cet intervalle. (Rponse : environ 0,997).

4. Masse d'alerte pour cartes de contrle


Une cooprative produit du beurre en microplaquettes de 12,5g pour des collectivits et des chanes
htelires. Les microplaquettes sont conditionnes dans des botes de 40.
La masse des microplaquettes peut tre modlise par une variable alatoire suivant une loi normale
desprance = 12,5 et de variance 2 = 0,22 et on admet que la variable alatoire X gale la masse
dune bote de 40 microplaquettes suit alors une loi normale desprance 500 et de variance
2 = 1,6 (les notions relatives la variance dune somme de variables ne sont pas au programme,
quelques notions sont abordes en annexe 2).

La bote est juge conforme si sa masse est comprise entre 496,2 g et 503,8 g (soit environ 500 3 ).

1. Calculer la probabilit quune bote prleve alatoirement en fin de chane de


conditionnement soit non conforme. (Rponse : 0,003 103 prs)
2. Pour contrler le rglage de la machine, on dtermine des poids d'alerte h et + h tels que
P( h < X < + h) = 0,99. Ces poids dalerte sont inscrits sur une carte de contrle et
correspondent une marge de scurit en lien avec des normes de conformit.
Calculer les poids d'alerte.

Solution
X 500
Notons Z = . Z suit une loi normale centre rduite donc nous savons que
1,6
P( 2,58 < Z < 2,58) 0,99. Il ne reste plus, pour trouver h et + h, qu' rsoudre
h 500 h 500
2,58 et 2,58 ce qui donne h 503,3 et h 496,7 .
1,6 1,6

Grce des chantillons prlevs en sortie de chaine ces masses dalerte permettent de dceler des
anomalies en temps rel.

5. Rglage d'une machine d'embouteillage dans une cooprative


Sur une chane d'embouteillage dans une brasserie, la quantit X (en cL) de liquide fournie par la
machine pour remplir chaque bouteille de contenance 110 cL peut tre modlise par une variable
alatoire de loi normale de moyenne et dcart-type = 2.
La lgislation impose qu'il y ait moins de 0,1% de bouteilles contenant moins d'un litre.
quelle valeur de la moyenne doit-on rgler la machine pour respecter cette lgislation?

Solution
Il sagit dterminer la valeur de telle que P(X < 100) < 0,001. On dtermine d'abord la valeur z (on
dit aussi quantile) de la loi normale centre rduite, telle que P(Z < z) = 0,001. On trouve (logiciels ou
calculettes) z 3,09. Comme Z = (X ) / 2, il ne reste plus, pour trouver , qu' rsoudre
3,09 = (100 ) / 2. On trouve 106,18 .

10
Il existe des mthodes destimation par intervalle de confiance de ces paramtres, mais ici il sagit simplement
dune valeur empirique.
Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 15 sur 70
Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
R TEXAS(83Plus) et + CASIO(35+) et +
qnorm(p) est la FracNormale() est la
fonction qui permet de fonction qui permet de InvN est le menu qui permet de
trouver t tel que trouver t tel que P(T<t)p, trouver t tel que P(T<t)p T
P(T<t)p, T tant de T tant de loi normale tant de loi normale (cest la
loi normale (cest la (cest la rpartition rpartition normale rciproque
rpartition normale normale rciproque pr pr programme)
rciproque pr programme) menu stat dist NORM InvN
programme) FracNormale(.001,0,1) Area :.001
qnorm(.001) -3.0902323 : 1 ; : 0.
[1] -3.090232 Inverse Normal x = -3.0902

2 La contenance des bouteilles tant de 110 cL, quelle est alors la probabilit qu'une bouteille dborde
lors du remplissage?
Solution : Avec 106,18, on obtient P(X > 110) 0,028.

4 Le directeur de la cooprative veut qu'il y ait moins de 1% de bouteilles qui dbordent au risque de
ne plus suivre la lgislation.
a) Quelle est alors la valeur de ?

Solution
Il sagit cette fois de dterminer tel que P(X > 110) < 0,01. On trouve 105,34 .
b) Quelle est dans les conditions de la question a) la probabilit que la bouteille contienne moins d'un
litre?

Solution
Avec cette valeur de , on obtient P(X < 100) 0,0038, ce qui est plus lev que dans le cas
prcdent.

c) Dterminer et afin quil y ait moins de 0,1% de bouteilles de moins d'un litre ET moins de 1%
de bouteilles qui dbordent.

Solution
On cherche donc dterminer les valeurs de et de de sorte que :
P(X < 100) < 0,001 et P(X > 110) < 0,01.
Les deux contraintes sur les probabilits fournissent les deux conditions suivantes.
On dtermine d'abord la valeur zsup de la loi normale centre rduite telle que P(Z > zsup ) = 0,01. On
trouve (logiciels ou calculettes) zsup 2,33.
On dtermine ensuite la valeur zinf telle que P(Z < zinf ) = 0,001. On trouve zinf 3,09.
Les deux contraintes se traduisent donc par les deux ingalits suivantes :
110 100
2,33 et 3,09 .

On obtient donc un domaine de solutions et une discussion pourra tre mene quant aux choix
pertinents que le directeur de cooprative pourrait faire.

6. Dure de vie dun appareil

La dure de vie d'un certain type dappareil est modlise par une variable alatoire suivant une loi
normale de moyenne et dcart-type inconnus. Les spcifications impliquent que 80 % de la
production des appareils ait une dure de vie entre 120 et 200 jours et que 5% de la production ait une
dure de vie infrieure 120 jours.
1. Quelles sont les valeurs de et 2 ?
Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 16 sur 70
Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
2. Quelle est la probabilit davoir un appareil dont la dure de vie soit comprise entre 200 jours
et 230 jours ?

Solution
1. On note X la variable dure de vie. Les spcifications se traduisent par :
P(120 X 200) 0,8 et P( X 120) 0,05 .

X
En notant toujours Z la variable centre rduite, on obtient :

120 200 120
P( Z ) 0,8 et P( Z ) 0,05

En utilisant logiciel ou calculatrice, on obtient : = 120 + 1,65 et = 200 1,04 .
La rsolution du systme donne : 169 et 884 .

2. 200 X 230 ( X 230) ( X 200) 0,13

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 17 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
IV. Intervalle de fluctuation

A. Cas binomial
Soit X une variable suivant une loi B (n, p) et un rel dans lintervalle ]0, 1[.
Dans un cadre gnral, tout intervalle a, b tel que : P ( X a, b ) 1 peut tre considr comme
un intervalle de fluctuation de X au seuil 1 .
Ainsi lintervalle 0, n est un intervalle de fluctuation vident au seuil 1 mais il est de toute vidence
sans intrt.
On peut chercher :
celui qui a lamplitude minimale (IF1)
le plus petit intervalle centr autour de lesprance np comme dans le thorme de Moivre-
Laplace (IF2)
celui qui symtrise les probabilits que X soit lextrieur, comme propos dans le
document ressource de premire (IF3)
Dans le programme de seconde, on donne un intervalle de fluctuation approch au seuil
X
Fn n
0,95, valable sous certaines conditions, de la variable frquence n :
1 1
p ,p
n n (IF4)
titre dexemple voici les intervalles obtenus pour n = 100 et p =0,3 au seuil 0,95.
IF (1) le plus petit : [22, 39] de probabilit 0,9502
IF (2) centr sur 30 : [21, 39] de probabilit 0,9625
IF(3) (premire) : [21, 39] avec une probabilit infrieure 0,025 que X soit gauche et
infrieure 0,025 que X soit droite de lintervalle.
IF(4) (seconde) : [20, 40] de probabilit 0,9710.
On peut vrifier que, pour une mme valeur de p, ces diffrents intervalles sont de plus en plus
proches lorsque n augmente.

B. Activit : recherche et utilisation dun intervalle de fluctuation laide dun


algorithme
Le responsable de la maintenance des machines sous d'un casino doit vrifier qu'un certain type
de machine est bien rgl sur une frquence de succs de 0,06. Pour cela il veut tablir un programme
qui lui fournira, en fonction de n (nombre de coups jous) et de p (probabilit de succs), un intervalle
de fluctuation, au seuil de 95%, de la frquence de succs. Cela lui permettra de prendre la dcision de
rgler chaque machine pour laquelle il aura observ, dans l'historique des jeux, une frquence de
succs se situant en dehors de cet intervalle de fluctuation.
1 Voici un exemple d'algorithme en Algobox et sa traduction dans le logiciel R permettant de
dterminer lintervalle de fluctuation dune variable binomiale selon la mthode expose dans le
document ressource de premire.
On cherche le plus petit entier a pour lequel P( X a ) est strictement suprieur 0,025 et
le plus petit entier b pour lequel P( X b) est suprieur ou gal 0,975.
tant donn que a devient a + 1 en fin de tant que , il faut faire afficher a 1, et de
mme pour b.
Avec Algobox, cet algorithme ne fonctionne que pour n < 70. Avec le logiciel R il n'y a
pas cette limite. Le programme R fournit la proposition de dcision en fonction de la
valeur observe (kobs) du nombre de succs.

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 18 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
2 Lors du contrle d'une machine, le technicien constate qu'elle a fourni 8 succs sur 65 jeux, soit
une frquence observe de succs d'environ 0,12. L'intervalle de fluctuation de la variable frquence
fourni par lun des deux programmes prcdents est [0,015 ; 0,123]. Bien que la frquence observe de
succs soit de 0,12, la rgle de dcision namne pas remettre en question le rglage de la machine.

Si le mme pourcentage de succs (0,12, kobs = 12) avait t observ sur 100 jeux, l'intervalle de
fluctuation aurait t de [0,02 ; 0,11], ce qui aurait conduit remettre en question le rglage de la
machine. Le technicien aurait pris la dcision de rgler la machine.

Algorithme Algobox : # Fontion R :


# IF binomial doc. ressour. 1re : IF symtrique
(quilibr) en proba
# n est la taille de l'chantillon, p est la
probabilit de succs
# kobs est le nombre de succs observ dans
l'chantillon
# proba est le seuil de probabilit de l'intervalle
de fluctuation
# a est le plus petit entier tel que P(X <= a) >
0,025
# b est le plus petit entier tel que P(X <= b) >=
0,975
IFexact2 = function(n = 65, p = .06, kobs = 8, proba
= .95){
a <- 0 ; b <- 0
reparti1 <- pbinom(0:n, n, p, lower.tail = T)
names(reparti1) <- 0:n
pinf <- 0
while(pinf <= (1 - proba) / 2){
pinf <- pbinom(a, n, p, lower.tail = T)
a <- a + 1 }
pinf <- 0
while(pinf < (1 - (1 - proba) / 2)){
pinf <- pbinom(b, n, p, lower.tail = T)
b <- b + 1 }
probaab <- sum(dbinom((a - 1):(b - 1), n, p))
if(kobs >= (a - 1) & kobs <= (b - 1)) {
hypothese <- "ACCEPTE" } else
{hypothese <-"REFUSE"}
#*******Affichage des rsultats et des
graphiques*******
cat("\nL'IF exact des comptages symtrique en proba
est :\n[",
a - 1,",",b - 1,"] de probabilit :", probaab,
"\n\nL'IF exact des proportions symtrique en
proba est :\n[",
(a - 1) / n,",",(b - 1) / n,"]\n\n",
"Hypothse p thorique = ", p,
": confronte f observ =",kobs / n, " : ",
hypothese,"\n")
}

#----------Application et rsultats:----
IFexact2(n = 50, p = 1/2, kobs = 19)
IFexact2(n = 65, p = .06, kobs = 8)
L'IF exact des comptages symtrique en proba
est :
[ 1 , 8 ] de probabilit : 0.9668145
L'IF exact des proportions symtrique en proba
est :
[ 0.01538462 , 0.1230769 ]
Hypothse p thorique = 0.06 : confronte
f observ = 0.1230769 : ACCEPTE

Document associ : intervalle de fluctuation premire.alg

Le thorme de Moivre-Laplace va permettre de donner un intervalle de fluctuation calculable


directement, sous rserve que n soit assez grand. Comme il est obtenu grce une convergence, on le
qualifie dintervalle de fluctuation asymptotique.

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 19 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
C. Intervalle de fluctuation asymptotique
Thorme
Si la variable alatoire X n suit la loi B (n, p), avec p dans lintervalle ]0, 1[, alors pour tout
rel dans lintervalle ]0, 1[ on a :

Xn p(1 p ) p(1 p)
lim P I n 1 , o I n dsigne lintervalle p u , p u
n
n n n

et u dsigne lunique rel tel que u Z u 1 o Z suit la loi normale N (0,1).

Dmonstration (exigible en terminale S)


Daprs le thorme de Moivre-Laplace, on a lim (u Z n u ) (u Z u )
n

X n np
o Z n .
np (1 p)

Or :
P(u Z n u ) P np u np(1 p) X n np u np(1 p)
p(1 p) Xn p (1 p )
= P p u p u .
n n n

Application
Quand on sait quune suite converge vers une limite L, on peut considrer que pour n assez grand le
terme de rang n constitue une approximation de L.
Ici, on inverse les rles. On connat la limite, mais pas les valeurs des termes de la suite.
On admet donc que, sous certaines conditions, on peut approcher le terme de rang n de la suite
X
n I n par sa limite 1 .
n
Ces conditions communment admises pour pratiquer lapproximation sont :
n 30, np 5, n (1 p ) 5 .

p (1 p ) p (1 p )
Lintervalle I n p u , p u est un intervalle de fluctuation
n n
Xn
approch de la variable frquence au seuil 1 .
n
Xn
La suite de terme gnral P( I n ) ntant pas monotone, on ne peut pas savoir si la probabilit de
n
lintervalle est suprieure ou infrieure la limite 1 (cf note 11 ). Cette situation peut tre illustre
1
laide dun tableur ou du logiciel R. Voici un exemple dans le cas o p et 0,05 . Pour les
2
X
valeurs de n entre 0 et 2000, on calcule la probabilit que la variable n appartienne lintervalle I n .
n

11
Dans la pratique on parle de seuil 1 , les carts par rapport cette limite tant minimes (voir fig 10).
Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 20 sur 70
Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
On peut constater que le nuage de points obtenu a un aspect symtrique autour de la droite dquation
y = 0,95 et que lorsque n est grand les points se rapprochent de cette droite.

Xn
Figure 9: visualisation de la probabilit P( In )
n
Lien vers : exploration intervalle de fluctuation asymptotique.xls

Dfinition
Xn
Un intervalle de fluctuation asymptotique de la variable alatoire Fn = au seuil 1 est un
n
intervalle dtermin partir de p et de n et qui contient Fn avec une probabilit dautant plus proche
de 1 que n est grand. Lintervalle In du thorme prcdent est donc un intervalle de fluctuation
asymptotique de Fn au seuil 1 .

Seul lintervalle de fluctuation asymptotique au seuil de 95% est au programme des classes de
terminale autre que la terminale S ; cest celui qui est mis en uvre dans lexemple 1 ci-dessous.
Remarque
Quand n 30, np 5, n (1 p ) 5 , il est courant de faire les calculs impliquant une variable
binomiale en la remplaant par une variable suivant une loi normale de mmes esprance et variance.
Seul le programme de STI2D-STL mentionne cette pratique, qui ne doit donc pas tre mise en uvre
dans les autres filires o tous les calculs de probabilits se font la calculatrice en utilisant la loi
exacte (au programme), quelle quelle soit.
Les calculs dintervalles de fluctuation et dintervalles de confiance se font avec les formules donnes
dans le programme.

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 21 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
D. Exemples dutilisation
Dans les exemples qui suivent, les tirages sont effectus sans remise. Toutefois, la taille des
chantillons considrs tant faible par rapport la taille de la population totale, on apparente les
tirages des tirages avec remise, correspondant alors un schma de Bernoulli et permettant
dappliquer les rsultats thoriques prcdents.
1. Prise de dcision
On admet que dans la population denfants de 11 14 ans dun dpartement franais le pourcentage
denfants ayant dj eu une crise dasthme dans leur vie est de 13%.
Un mdecin dune ville de ce dpartement est surpris du nombre important denfants le consultant
ayant des crises dasthme et en informe les services sanitaires. Ceuxci dcident dentreprendre une
tude et dvaluer la proportion denfants de 11 14 ans ayant dj eu des crises dasthme.
Ils slectionnent de manire alatoire 100 jeunes de 11 14 ans de la ville.
La rgle de dcision prise est la suivante : si la proportion observe est suprieure la borne
suprieure de lintervalle de fluctuation asymptotique au seuil de 95% alors une investigation plus
complte sera mise en place afin de rechercher les facteurs de risque pouvant expliquer cette
proportion leve.

1) Dterminer lintervalle de fluctuation asymptotique au seuil de 95% de la proportion de jeunes de


11 14 ans ayant eu une crise dasthme dans un chantillon de taille 100. (solution : [0,06 ; 0,20])
2) Ltude ralise auprs des 100 personnes a dnombr 19 jeunes ayant dj eu des crises dasthme.
Que pouvez-vous conclure ?
Solution : la valeur 0,19 est lintrieur de lintervalle de fluctuation asymptotique au seuil de 95%,
On en conclut que la rgle de dcision choisie ne prvoit pas de raliser une enqute supplmentaire.
3) Le mdecin nest pas convaincu par cette conclusion et dclare que le nombre de personnes
interroges tait insuffisant pour mettre en vidence quil y avait plus de jeunes ayant eu des crises
dasthme que dans le reste du dpartement.
Combien faudrait-il prendre de sujets pour quune proportion observe de 19% soit en dehors de
lintervalle de fluctuation asymptotique ?
Solution : il faut et il suffit que la borne suprieure de lintervalle asymptotique de fluctuation soit
0,13 0,87
infrieure 0,19 ce qui quivaut 0,13 1,96 0,19 , soit n 120 .
n
La taille doit donc tre de 121 sujets au minimum si on souhaite mettre en vidence une proportion
anormalement leve dans la ville tudie.
4) Reprsenter graphiquement la taille de lchantillon ncessaire en fonction de la valeur psup de la
borne suprieure de lintervalle de fluctuation au seuil de 95%.
Solution
1,962 0,13 0,87
Lexpression de n en fonction de p sup est n .
p sup 0,132

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 22 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
2000
1800
1600

1400
1200
effectif
1000
800
600
400
200
0
0,13 0,14 0,15 0,16 0,17 0,18 0,19 0,2
borne superieure

Figure 10 : Reprsentation de la taille ncessaire en fonction de la borne suprieure de


lintervalle de fluctuation asymptotique
2. Problme de la surrservation (surbooking)

Une compagnie arienne possde des A340 (longs courriers) dune capacit de 300 places.
Cette compagnie a vendu n billets pour le vol 2012.
La probabilit pour quun acheteur se prsente lembarquement est p et les comportements des acheteurs sont
indpendants les uns des autres.
On note X n la variable alatoire dsignant le nombre dacheteurs dun billet se prsentant
lembarquement.
La compagnie cherche optimiser le remplissage de lavion en vendant ventuellement plus de places
que la capacit totale de lavion (surrservation ou surbooking) soit ici n > 300.
Comme il y a videmment un risque que le nombre de passagers munis dun billet se prsentant
lembarquement excde 300, la compagnie veut matriser ce risque.
1. Dterminer la loi de X n .
Xn
2. On suppose que 0,5 p 0,95 . crire lintervalle de fluctuation asymptotique In de au
n
seuil de 0,95.
300
3. Montrer que si I n 0, alors la probabilit que le nombre de passagers se prsentant
n
lembarquement excde 300 est proche de 0,05.
4. On cherche dterminer la valeur de n maximale permettant de satisfaire la condition de
300
linclusion I n 0, .
n
300
a. Montrer que I n 0, pn 1,96 n p(1 p) 300 0.
n
b. On pose f ( x) px 1,96 x p(1 p) 300 .
Montrer quil existe un entier n0 unique tel que si n n0 alors f ( n) 0 et si n n0
alors f (n) 0 .
c. Tracer la courbe reprsentative de f pour les valeurs p = 0,85 ; p = 0,9 ; p = 0,95.
d. Dterminer la calculatrice les valeurs de n0 pour p = 0,85 ; p = 0,9 ; p = 0,95.

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 23 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
Solution
1. X n suit une loi binomiale de paramtres n et p.
2. Comme n 300 et 0, 5 p 0, 95 on a np 5 et n (1 p ) 5 on peut utiliser lintervalle
de fluctuation asymptotique au seuil de 0,95 :
p (1 p ) p (1 p )
I n p 1,96 , p 1,96 .
n n
300 X
3. Si I n 0, alors X n 300 n I n .
n n
X
Comme n I n 0, 05 alors on peut dire que X n 300 est proche galement de
n
0,05 voire infrieur (lvnement ( X n 300) tant inclus dans la partie droite du
complmentaire de I n on pourrait vrifier avec le tableur que sa probabilit est en fait
infrieure 0,05 pour n 300 et 0,5 p 0,95 ).

300 p (1 p) 300
4. a. I n 0, p 1,96 np 1,96 n p (1 p) 300 0
n n n
b. En posant y x , on se ramne une inquation du second degr que lon rsout pour
x 300 .
Les solutions de linquation f ( x ) 0 sont donc les rels de lintervalle 300, x0 o
2
1,96 p (1 p ) 1200 p 1, 96 p (1 p )
x0 .
2p

Lentier n0 cherch est la partie entire de x0 .
c. p 0,85 en bleu, p 0, 9 en rouge, p 0, 95 en vert.

d. Pour p =0,85 on trouve n0 337,


Pour p = 0,9 on trouve n0
Pour p = 0,95 on trouve n0 307.

3. Echantillon reprsentatif dune population pour un sondage

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 24 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
La premire partie de lactivit propose page 29 peut tre traite dans ce cadre.
En vue de conduire une enqute sur certaines caractristiques physiologiques dune population, un
chantillon de personnes a t slectionn et on souhaite en conforter la reprsentativit.

E. Intervalle de fluctuation simplifie donn en seconde

On reprend les notations du paragraphe C. Dans le cas o 0,05 , on a u 1,96 .


1 1
La fonction p p (1 p ) admet un maximum pour p = gal .
2 4
p(1 p) 1
On peut donc majorer u par .
n n
p(1 p ) p(1 p )
On en dduit que lintervalle J n p 1,96 , p 1,96 (approximation de
n n
1 1
lintervalle I n lie lapproximation de u 0, 05 par 1,96) est inclus dans lintervalle p ,p
n n
et donc on a :
X 1 X 1
P( n J n ) P( p n p )
n n n n
1 1
Cette ingalit prouve que lintervalle p ,p est un intervalle de fluctuation asymptotique
n n
un seuil au moins gal celui de lintervalle J n (proche de 0,95) et justifie le rsultat nonc en
seconde sous une forme simplifie, ne prenant pas en compte le caractre asymptotique.

1 1
Compte tenu du caractre asymptotique de lintervalle de fluctuation p ,p , il serait
n n
Xn
inexact daffirmer que la probabilit que la variable alatoire prenne ses valeurs dans cet
n
intervalle est suprieure 0,95 pour toute valeur de n, mme lorsque les conditions usuelles
dapproximation sont vrifies. Ce point a dj t clairement explicit dans le document ressource de
la classe de premire. Nous le reprenons ici.
Xn 1 1
On peut visualiser ci-dessous les valeurs des probabilits P( p p ) suivant les
n n n
valeurs de p et de n et constater que le rsultat nonc en classe de seconde, sil nest pas tout fait
exact, fournit nanmoins en gnral une probabilit trs proche de 0,95, ce qui justifie son utilisation
dans la pratique.

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 25 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
Figure 11 : Visualisation des probabilits de lintervalle de fluctuation de seconde pour p = 0,3
(figure de gauche) et p = 0,5 (figure de droite).
Document associ : intervalle de fluctuation seconde.r

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 26 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
On peut constater que :
1 Xn 1
pour p =0,3 P( p p ) 0,95 semble vrifie pour tout entier n,
n n n
1 Xn 1
pour p =0,5 P( p p ) 0,95 semble tre vrifie pour tout entier n 600 .
n n n

Cela conduit au rsultat suivant :

Thorme
Si la variable alatoire X n suit la loi B (n, p) alors, pour tout p dans ]0, 1[, il existe un entier
1 X 1
n0 tel que si n n0 alors P( p n p ) 0,95 .
n n n

Dmonstration
Pour une variable binomiale X n de paramtres n et p, le thorme de Moivre-Laplace prouve que, en
notant Zn la variable centre rduite associe X n , la limite de an (2 Z n 2) est gale
2 P ( Z 2) 1 o Z suit une loi N (0,1).
Or on a L 2 P( Z 2) 1 0,9544 .
Donc, pour 0, 004 , si on considre lintervalle ouvert L , L contenant L, il existe un
entier n0 tel que si n n0 , on a : a n L , L donc an 0,95 puisque L 0,9504 .
2 Xn 2
Or an p p(1 p) p
p(1 p) ce qui donne, en majorant p (1 p ) par
n n n
1/4, un intervalle de fluctuation plus large donc de probabilit suprieure ou gale an .
1 X 1
Donc pour tout entier n n0 , on a : p n p 0,95 .
n n n
Exemple dactivit
Selon la valeur de p, la valeur de n0 peut varier considrablement.
Il est dailleurs difficile de dterminer avec certitude cette valeur de n0 . On peut cependant donner des
valeurs de n0 grce un algorithme de calcul.
P 0,35 0,36 0,37 0,38 0,39 0,4 0,41 0,42 0,43 0,44 0,45 0,46 0,47 0,48 0,49 0,5

n0 31 30 36 64 56 81 90 120 143 209 271 288 304 399 399 529

On peut remarquer que la plus grande valeur de n0 est atteinte pour p 1 2 . Cest effectivement
pour cette valeur que la fluctuation est la plus importante puisque la variance est maximale pour cette
valeur de p.

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 27 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
Algorithme Algobox : Programme SCILAB :
Remarque : Cet algorithme ne permet dobtenir Remarque : La ligne 12 enlve 1 la premire
n0 que pour des valeurs de p entre 0 et 0,39 car valeur de n pour laquelle Fsup Finf < 0,95. Or, on
Algobox ne calcule pas de valeurs avec la loi cherche la plus petite valeur de n0 partir de
binomiale pour des valeurs de n suprieures laquelle FSup-Finf 95 donc on doit faire afficher
70. Or pour p 0, 4 la valeur de n0 est n+2.
suprieure 80. Pour le cas gnral il faut
utiliser les logiciels R ou Scilab par exemple.
Document associ : recherche du n0.alg Document associ : recherche du n0.sce

Exemples dexercices
1. Les enfants sont dits prmaturs lorsque la dure gestationnelle est infrieure ou gale 259 jours.
La proportion de ces naissances est de 6%. Des chercheurs suggrent que les femmes ayant eu un
travail pnible pendant leur grossesse sont plus susceptibles davoir un enfant prmatur que les
autres. Il est dcid de raliser une enqute auprs dun chantillon alatoire de 400 naissances
correspondant des femmes ayant eu pendant leur grossesse un travail pnible. Les chercheurs
dcident a priori que si la proportion denfants ns prmaturs dans cet chantillon est suprieure la
borne suprieure de lintervalle de fluctuation asymptotique au seuil de 0,95 alors leur hypothse sera
accepte. Finalement le nombre denfants prmaturs est de 50. Quelle est donc la conclusion ?

Solution : Sous lhypothse que la proportion de prmaturs dans lchantillon est la mme que dans la
population gnrale, on dtermine lintervalle de fluctuation asymptotique au seuil 0,95.
0 ,06 0,94 0 ,06 0 ,94
0 ,06 1,96 ; 0,06 1,96 0 ,037; 0,083
400 400
On calcule la valeur observe de proportion de prmaturs dans lchantillon et on obtient 0,125. Cette
valeur nappartient pas lintervalle de fluctuation asymptotique au seuil de 95%, donc avec la rgle
de dcision choisie, on rejette lhypothse pose. Les chercheurs concluent donc que la proportion
denfants prmaturs est plus leve chez les femmes ayant eu un travail pnible pendant leur
grossesse.
Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 28 sur 70
Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
2. 1) Vrifier que lintervalle [2,576 , 1,696] peut tre considr comme un intervalle de fluctuation
au seuil de 95% dune variable X suivant une loi N (0,1) (c'est--dire que P(X I) 0,95).
2) Montrer quil existe une valeur a minimale telle que lintervalle a, a soit un intervalle de
fluctuation au seuil de 95% de X. En donner une valeur approche 102 prs.
3) Montrer quil existe un unique rel b tel que ( 2 X 2 b ) 0, 95 .
Prouver que b a 2 o a est la valeur de la question 2).
Dterminer une valeur approche de b 102 prs.
4) Montrer quil nexiste aucun rel c tel que ( 1 X 1 c ) 0, 95 .

Solution
1. Avec une calculatrice : P(2,576 < X < 1,696) 0,95006 > 0,95
a
2. (a X a) 2 f (t )dt = F(a)
0
1
2 2 x
On tudie la fonction F. Sa drive est F '( x ) e 0
2
Donc F est strictement croissante de 0, vers 0,1 . Il existe donc un rel a unique tel que
F ( a ) 0, 95 .
Daprs ce qui a dj t vu, a vaut environ 1,96.
2 x
3. ( 2 X 2 x ) = f (t )dt H ( x) .
2
1
1 2 ( x 2)
Cette fonction est strictement croissante car sa drive est gale e .
2
2
Comme H (4) 2 f (t )dt F (1,96) , il existe b unique tel que H (b) 0, 95 .
a 2b 2 b a
On a 0, 95 H (b) f (t )dt 0,95 f (t )dt donc f (t )dt f (t )dt 0
2 a a 2
donc a 2 b .
A laide de la calculatrice, en utilisant la fonction qui x fait correspondre ( 2 X 2 x ) ,
on trouve 3,92 < b < 3,93.
On peut vrifier que lintervalle a, a est plus court que lintervalle 2,2 b .
1 c 0 1 c 0 1
4. 1 f (t )dt f (t )dt
1 0
f (t )dt f (t )dt
1 2
.
0 1 c
Or 1 f (t )dt 0,35 donc 1 f (t )dt 0,85 pour tout c.
Remarque
On peut dmontrer plus gnralement que lintervalle de fluctuation au seuil de 95% centr en 0
est celui damplitude minimale.

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 29 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
V. Intervalle de confiance

A. Introduction
Il est souvent difficile pour des raisons la fois financires et logistiques de pouvoir recueillir des
donnes sur la population toute entire. Le plus souvent, on se contente de travailler sur un
chantillon, cest dire une fraction ou sous-ensemble de cette population. Ceci prsente bien sr des
avantages en termes de faisabilit et de cot, mais impose des contraintes pour que linformation
recueillie au niveau de lchantillon (estimation) soit la plus proche possible de celle de la population
entire (paramtre). La dmarche pratique est donc la suivante :
on slectionne un chantillon de la population que lon tudie, on appelle cela
lchantillonnage.
On vrifie, selon les cas, partir dintervalles de fluctuation que lchantillon ainsi obtenu est
reprsentatif de la population pour des critres qui sont connus dans la population.

Echantillonnage : slectionner un chantillon de taille n par


1 tirage au sort de la population
Dterminer les intervalles de fluctuation partir des
informations connues dans la population ou fixes

Population Echantillon

1) On calcule la frquence de
femmes f.
On connait par exemple
- la proportion p de femmes Si f est dans lintervalle de
fluctuation de p, lchantillon
est dit reprsentatif de la
On ne connait pas
- la proportion pM de personnes ayant la population pour ce critre au
maladie M. seuil 1 .
2) On calcule la
frquence de
personnes ayant la
maladie M, note fM.

Estimation : partir des donnes de lchantillon on estime les


2 paramtres inconnus de la population par lintervalle de confiance
au niveau de confiance de 1 .

Figure 13 : Principe de lchantillonnage

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 30 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
La notion dchantillon reprsentatif est une question dlicate, en particulier lorsquelle concerne des
personnes dans le cadre dun sondage. Elle lest clairement moins lorsquil sagit dun chantillon de
pices dans une chaine de fabrication. Cette notion dchantillon reprsentatif est voque ici afin de
contextualiser un peu lactivit mais ne constitue en aucun cas un objectif du programme.
Il convient galement de souligner que, dans les sondages, les tirages sont pour la plupart effectus
sans remise mais peuvent sapparenter des tirages avec remise ds que la taille de lchantillon est
petite devant la taille de la population totale, ce qui est le cas dans les sondages classiques.
On peut dailleurs observer que dans le cas contraire, lintrt de ne questionner quun chantillon
diminue.
Lactivit qui suit propose une situation de sondage simplifie qui ne correspond pas exactement aux
techniques relles de sondage. Quelques complments dinformations sur les techniques de sondage et
les questions quelles soulvent figurent en annexe 3, titre informatif.

Activit
On souhaite estimer la prvalence du surpoids dans une ville V, c'est--dire la proportion de personnes
ayant une masse trop importante par rapport leur taille. Pour cela 460 personnes ont t slectionnes
de manire alatoire partir de la liste des logements connue par la municipalit, c'est--dire que le
fait davoir t slectionn pour participer ltude est uniquement d au hasard. On admet que cette
procdure permet dassimiler la slection des personnes interroges un schma de Bernoulli.
Un enquteur sest dplac au sein de chaque logement aprs avoir convenu dun rendez-vous afin de
recueillir les informations ncessaires lenqute.

1 Dans un premier temps, lenquteur va sassurer que lchantillon est reprsentatif de la population
quon tudie sur des informations quon peut vrifier et qui sont en lien avec le critre tudi. Dans le
cas prsent on peut connatre par exemple la proportion dhommes et de femmes dans la population de
la ville, ainsi que la rpartition selon lge en demandant la municipalit qui se rfrera aux
informations du recensement. Paralllement on peut comptabiliser le nombre dhommes et de femmes
dans lchantillon ainsi que la rpartition selon lge.

Homme Femme Total


Echantillon 200 260 460

< 60 ans > 60 ans Total


Echantillon 352 108 460

On sait que, dans la population, il y a 46% dhommes et 20% de personnes de plus de 60 ans.

a) Dterminer lintervalle de fluctuation asymptotique au seuil 0,95 de la variable alatoire


proportion de femmes dans un chantillon alatoire de taille 460 slectionn au sein de la
population de cette ville.
b) Calculer la proportion de femmes dans lchantillon et vrifier si cette valeur appartient
lintervalle de fluctuation.
c) Dterminer lintervalle de fluctuation asymptotique au seuil 0,95 de la variable alatoire
proportion de personnes ges de plus de 60 ans dans un chantillon alatoire de taille 460
slectionn au sein de la population de cette ville.
d) Calculer la proportion de personnes de plus de 60 ans dans lchantillon et vrifier si cette
valeur appartient lintervalle de fluctuation.
e) Si pour chacune des variables, genre et ge, lintervalle de fluctuation asymptotique au seuil de
95% contient la valeur de lchantillon on considre que lchantillon est reprsentatif de la
population pour cette information. Quelle est donc la conclusion pour le cas tudi ici ?
Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 31 sur 70
Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
2 La premire tape de ce travail a donc t de slectionner un chantillon qui soit accept comme
reprsentatif de la population. Ainsi les informations qui seront obtenues partir de cet chantillon
seront gnralisables, avec un certain nombre de prcautions, lensemble de la population dont il est
extrait. Dans le cas de ltude prsente ici, on souhaite estimer la proportion de personnes en
surpoids ; pour cela il est tout dabord important de dfinir le surpoids. La dfinition du surpoids
donne par lOMS (Organisation Mondiale de la Sant) est la suivante : une personne est considre
en surpoids si son IMC (Indice de masse corporelle) est suprieur 25. LIMC se calcule de la
manire suivante : masse en kg/(taille en m).
La proportion de personnes en surpoids dans lchantillon tudi est de 29,5%. Comme il sagit dun
calcul ralis partir des donnes dun chantillon on sait que cette valeur ne correspond pas
exactement la valeur de la prvalence dans la population, car si nous avions pris un autre chantillon
nous aurions obtenu une autre valeur. Pour cette raison il est ncessaire de communiquer un intervalle
qui sera obtenu partir des informations observes et pour lequel on puisse dire avec un niveau de
confiance suprieur 0,95 quil contient la vraie valeur de la prvalence du surpoids dans la ville. Si
f est la frquence observe dans lchantillon une expression de cet intervalle, qui sera appel
1 1
intervalle de confiance, est f ,f o n est la taille de lchantillon. Ce rsultat, voqu en
n n
classe de seconde, prend tout son sens en terminale et est dmontr en terminale S.

Dterminer un intervalle de confiance au niveau de confiance de 95%.

Solution :
1 a) Lintervalle de fluctuation asymptotique au seuil de 95% est dtermin par :
p (1 p) p (1 p)
p 1,96 ; p 1,96 0,49 ; 0,59 .
n n

b) La proportion de femmes dans lchantillon est gale 56,5%, cette valeur appartient lintervalle
de fluctuation calcul ci-dessus.

c) On obtient avec un calcul analogue celui de la question a) lintervalle 0,16 ; 0,24

d) La proportion de plus de 60 ans dans lchantillon est gale 23,4%, cette valeur appartient
lintervalle de fluctuation calcule ci-dessus.
e) On considre que lchantillon observ est reprsentatif de la population pour les deux critres
retenus (genre et ge).
La reprsentativit sur deux critres ne signifie videmment pas la reprsentativit sur tous les critres
et dans tous les cas, il est peu vraisemblable quun chantillon de 460 sujets soit reprsentatif pour
tous les critres. Les rsultats obtenus sur un chantillon ne peuvent pas remplacer les rsultats exacts
dun recensement. Cependant la vrification prcdente sur des critres importants permet de
considrer que lchantillon retenu est structur comme la population tudie, au regard de certains
critres.

2 Lintervalle de confiance calcul au niveau de confiance de 95% est donc :


1 1
0, 295 ;0, 295 0, 25;0,34
460 460
Cet intervalle fournit une estimation par intervalle de la prvalence du surpoids dans la ville tudie.

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 32 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
B. Principe gnral de lintervalle de confiance

tant donn un paramtre p, ici une proportion inconnue, dune population, la procdure destimation
consiste utiliser les informations recueillies dans un chantillon slectionn de manire alatoire
X
pour obtenir une valeur de la variable alatoire frquence Fn n destine fournir une estimation
n
de p. Mais on sait que cette estimation va varier dun chantillon lautre, de par la fluctuation
dchantillonnage, autour de p. Il est donc ncessaire dapprcier lincertitude en fournissant une
estimation par intervalle, appel intervalle de confiance de p. Cet intervalle est obtenu en fonction
dun coefficient li au niveau de confiance que lon accorde cette estimation.
1 1
Lorsque n 30 et np 5 et n(1p) 5, la formule p ,p fournit un intervalle de
n n
X
fluctuation de Fn n au seuil 0,95.
n
Supposons que p soit inconnu . On peut approcher p par la proportion f obtenue par les donnes de
lchantillon et dterminer un intervalle de confiance de p au niveau de confiance 0,95.
Selon le thorme du paragraphe IV-C, on sait que, pour n suffisamment grand, on a :
1 Xn 1
P( p p ) 0,95 .
n n n
1 1 1 1
Comme p Fn p quivaut Fn p Fn , on peut galement
n n n n
1 1
crire P( Fn p Fn ) 0,95 , ce qui peut se traduire en disant que :
n n
1 1
lintervalle alatoire Fn , Fn a une probabilit au moins gale 0,95 de contenir p.
n n
1 1
partir de lintervalle alatoire Fn , Fn on obtient, en effectuant le tirage dun
n n
chantillon, une ralisation de cet intervalle qui fournit alors un intervalle numrique de la forme
1 1
f ,f .
n n
Si lon fait un trs grand nombre de tirages, on sait que thoriquement on devrait 12 avoir pour au plus
5% dentre eux des intervalles ne contenant pas la proportion inconnue p.

C. Dfinition
Un intervalle de confiance pour une proportion p un niveau de confiance 1 est la ralisation,
partir dun chantillon, dun intervalle alatoire contenant la proportion p avec une probabilit
suprieure ou gale 1 . Cet intervalle alatoire est dtermin partir de la variable alatoire
Xn
Fn qui, tout chantillon de taille n, associe la frquence.
n

Le cas particulier o 1 = 0,95 est le seul au programme.

12
Il sagit toujours dun nombre fini de ralisations et il peut y avoir plus de 5% dentre elles qui ne contiennent
pas p.
Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 33 sur 70
Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
Remarque 1
En ralisant le tirage dun chantillon, on obtient un intervalle de confiance de la forme
1 1
f ,f de la proportion inconnue p un niveau de confiance de 0,95.
n n
Ainsi, chaque tirage dun chantillon, on obtient un intervalle de confiance diffrent.

Remarque 2
Un intervalle de confiance tant un intervalle numrique, il est incorrect de conclure la dtermination
1
dun intervalle de confiance par une phrase du type p a une probabilit de 0,95 dtre entre f
n
1
et f car il ny a plus dalatoire ce stade. Il est en revanche convenable dcrire :
n
1 1
Lintervalle f ,f est un intervalle de confiance de la proportion inconnue p au niveau
n n
de confiance 0,95 .

D. Intervalle de fluctuation ou intervalle de confiance : lequel utiliser ?


Rgle gnrale
On utilise un intervalle de fluctuation lorsque la proportion p dans la population est connue ou si lon
fait une hypothse sur sa valeur.
On utilise un intervalle de confiance lorsque lon veut estimer une proportion inconnue dans une
population.

Exemple 1
Test de conformit dune proportion : on veut dterminer si la proportion observe dans un
chantillon est conforme une valeur de rfrence connue dans la population.
Sous lhypothse que lchantillon est issu dun tirage alatoire correspondant un schma de
Bernoulli (tirage avec remise ou sy apparentant), la variable frquence Fn appartient un intervalle
de fluctuation avec une probabilit dtermine.
En fonction de lappartenance ou non de la frquence observe cet intervalle, on peut prendre une
dcision concernant la conformit de lchantillon.
Si les conditions dutilisation sont runies, on dtermine lintervalle de fluctuation asymptotique, sinon
on a recours un intervalle de fluctuation calcul avec la loi binomiale.

Exemple 2
Estimation dune proportion inconnue p grce un chantillon alatoire
On se place dans le cas o lchantillon comporte au moins 30 lments afin de pouvoir utiliser
lintervalle de confiance au programme.
Si la frquence observe f est telle que nf 5 et n(1 f ) 5 , on considre quon peut conclure quun
1 1
intervalle de confiance de p au niveau de confiance 0,95 est f ,f .
n n

Le tableau suivant rcapitule ce qui est au programme de chaque classe du lyce.

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 34 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
Intervalle de fluctuation Intervalle de confiance
p connue p inconnue
n 25 et 0, 2 p 0,8 , seuil 95%
SECONDE 1 1 Sensibilisation
p , p
n n
PREMIRE Avec la loi binomiale

n 30 et np 5 et n(1p) 5 Au niveau de confiance


95%
Asymptotique au seuil 1
TERMINALE 1 1
p (1 p ) p (1 p ) f ,f
I n p u , p u n n
n n
En terminale autre que S, 0,05 donc u 1,96 .

E. Autre intervalle de confiance


Il existe dautres manires de dterminer un intervalle de confiance dune proportion.
Dans les commentaires du programme, il est signal que dans dautres champs disciplinaires on utilise
f (1 f ) f (1 f )
lintervalle f 1,96 , f 1,96 .
n n
La justification de cet intervalle est hors programme.

Exemple
Pour un niveau de confiance de 0,95, on a u 1,96 . Si sur un chantillon de taille 100 on observe
une valeur de la frquence gale 0,44, lintervalle de confiance de p au niveau 0,95 obtenu avec la
formule prcdente est [0,343 ; 0,537].
1 1
Lintervalle f ,f donne [0,34 ; 0,54].
n n

F. tude de la longueur de lintervalle de fluctuation et consquence pour lintervalle


de confiance
p (1 p ) p (1 p )
Lintervalle de fluctuation asymptotique I n p u , p u a pour
n n
p(1 p)
longueur 2u . Donc pour et n fixs, la longueur de I n varie comme p(1 p) . Elle
n
1
est donc maximale quand p et dautant plus faible que p est proche de 0 ou de 1.
2
p(1 p)
Quelques valeurs de la longueur 2u pour n 1000 :
n
p = 0,1 p = 0,3 p = 0,4 p = 0,5
= 0,05 0,037 0,057 0,061 0,062
= 0,01 0,049 0,075 0,08 0,082

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 35 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
Consquence pour lintervalle de confiance
Si on cherche estimer par intervalle, au niveau de confiance 0,95, une valeur de p dont on sait quelle
est plutt proche de 0,5 (cas du second tour de llection prsidentielle), on a un intervalle de
confiance, appel dans ce cas fourchette de sondage, damplitude proche de 0,06.
Si on cherche estimer une valeur de p sans doute infrieure 0,1 (cas des petits candidats du premier
tour), on a une fourchette damplitude proche de 0,04.

On constate sur le tableau prcdent que, n tant fix, laugmentation du niveau de confiance
augmente simultanment la longueur de lintervalle de confiance, ce qui est un rsultat gnral facile
justifier (et concevoir).

G. Dtermination de la taille minimale de lchantillon pour avoir une prcision donne


On tudie dabord la taille minimale de lchantillon pour avoir une longueur donne a de lintervalle
de fluctuation pour un seuil ou un niveau de confiance fix.

1) Avec lintervalle asymptotique de seconde (donc 0,05 et pour tout p)


2 4
On cherche n tel que. a ce qui quivaut n 2 .
n a
Quelques valeurs :
Valeur de a 0,06 0,04 0,02 0,01
Valeur de n 1112 2500 10000 40000

Consquence pour la taille de lchantillon ncessaire pour obtenir une amplitude de lintervalle
de confiance fixe
1 X 1 X 1 X 1
On a : p n p 0,95 n p n 0,95
n n n n n n n
Lamplitude de lintervalle de fluctuation est videmment la mme que celle de lintervalle de
confiance.
Donc, avec un niveau de confiance de 0,95, pour obtenir un intervalle de confiance damplitude 0,06,
il faut un chantillon de taille 1112 au moins.

p (1 p ) p (1 p )
2) Avec lintervalle asymptotique I n p u , p u
n n
p(1 p) 4u2 p (1 p)
On cherche n tel que 2u a ce qui quivaut n .
n a2
Donnons quelques valeurs :
Pour p = 0,5

Valeur de a 0,06 0,04 0,02 0,01


Valeur de n si = 0,05 1067 2401 9604 38416
Valeur de n si = 0,01 1849 4161 16641 66664
Pour p = 0,1
Valeur de a 0,06 0,04 0,02 0,01
Valeur de n si = 0,05 385 865 3458 13830
Valeur de n si = 0,01 666 1498 5991 23964

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 36 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
H. Applications
1. Exemple de dtermination dun intervalle de confiance
Prenons un cas trs classique : un sondage politique prcdant le premier tour dune lection
prsidentielle.
Le 18 avril 2002, linstitut IPSOS 13 effectue un sondage dans la population en ge de voter.
On constitue un chantillon de 1000 personnes (inscrites sur les listes lectorales) que lon suppose
choisies ici de manire alatoire. Ce nest pas le cas en pratique (voir plus loin le paragraphe
sondages ) mais le principe reste le mme que dans cet exemple.
Les rsultats partiels en sont les suivants :
Sur les 1000 personnes
135 ont dclar vouloir voter pour Jean-Marie Le Pen
195 ont dclar vouloir voter pour Jacques Chirac
170 ont dclar vouloir voter pour Lionel Jospin.
On peut dterminer trois intervalles de confiance au niveau de confiance de 95% 14 :
Jean-Marie Le Pen [0,1350,032 ; 0,135+0,032] = [0,103 ; 0,167]
Jacques Chirac [0,1950,032 ; 0,195+0,032]=[0,163 ; 0,227]
Lionel Jospin [0,1700,032 ; 0,170+0,032]=[0,138 ; 0,202].
Donc la valeur unique en pourcentage donne par linstitut est entache dune imprcision de +/3
points. En examinant les trois intervalles trouvs, on peut a posteriori dire que le vrai rsultat
(16,9%,19,9%,16,2%) est compatible avec ceux-ci pour Jacques Chirac et Lionel Jospin car leurs
rsultats sont dans les intervalles correspondants. En revanche, le rsultat de Jean-Marie Le Pen est
lgrement suprieur la borne suprieure de son intervalle de confiance (mais linstitut CSA lui
donnait 14%, ce qui donne un intervalle [0,108 ; 0,172] qui contient son score rel).

2. Simulations
Le graphique ci-dessous donne 100 intervalles de confiance simuls au niveau de confiance 0,95
obtenus partir de 100 chantillons de 50 individus extraits de la mme population.

Figure 14
Document associ : intervalles de confiance simuls.r

13
On peut consulter le site www.ipsos.fr/faq pour des dtails sur les mthodes utilises par cet institut.
14
Pour chaque candidat, on applique la mthode prcdente pour dterminer un intervalle de confiance de la
proportion dlecteurs lui tant favorables.
Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 37 sur 70
Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
On peut constater sur la figure 14 une fluctuation importante des bornes des intervalles de confiance
numriques obtenus chaque simulation.
Remarque : Les chantillons tant de taille 50, il y a exactement 51 valeurs possibles de la frquence
ce qui explique que lon retrouve plusieurs fois les mmes intervalles de confiance ds quon fait plus
de 51 simulations.
La mme simulation (figure 15) avec 100 intervalles de confiance simuls au seuil 0,95 obtenus
partir de 100 chantillons de 1000 individus extraits de la mme population (la proportion inconnue
est choisie alatoirement chaque srie de 100 chantillons) fait apparatre une moindre fluctuation
des bornes des intervalles.

Figure 15

Simulation simple dun chantillon avec p inconnue.


Il sagit de simuler des tirages dchantillons dans une population o une proportion p est inconnue
pour dterminer des intervalles de confiance de p au niveau de confiance 0,95.
On cache donc la valeur de p (qui peut tre choisie au hasard) qui permet de faire ces simulations et on
fait afficher les intervalles de confiance trouvs.

Document associ : simulation sondage.xls


La cellule G1 contient alea() ou un nombre masqu choisi entre 0 et 1.
Les cellules G3 et H3 contiennent les bornes infrieures et suprieures de lintervalle de confiance.
Lappui sur F9 relance la simulation avec une nouvelle valeur de p.

Simulation de plusieurs chantillons avec la mme valeur de p inconnue.


On peut simuler sur tableur pour une proportion inconnue fixe un grand nombre de calculs
dintervalles de confiance un niveau de confiance que lon peut choisir.

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 38 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
Document associ : intervalles de confiance simuls-peignes.ods 15

Exemples dexercices
1. Diagnostic de la jaunisse
Un test de diagnostic rapide effectu sur des sujets ictriques (coloration jaune de la peau, des
muqueuses -couche de cellules de protection recouvrant les organes creux en contact avec lextrieur-
et du blanc de lil sclrotique-) doit permettre destimer si lictre est dorigine virale ou non, sans
avoir besoin de faire des analyses longues et compliques. Cependant il est important de pouvoir
sassurer que ce test est de bonne qualit c'est--dire quil doit pouvoir indiquer correctement si
lictre est viral ou non. Il doit tre capable didentifier correctement le type dictre : il est positif
chez les sujets dont lictre est viral et ngatif sinon.
Une tude est effectue sur 100 personnes ayant un ictre viral et 100 personnes ayant un ictre
dorigine non virale.

Les rsultats obtenus sont prsents dans le tableau ci-dessous


Hpatite virale Ictre d'origine non virale
Test positif 85 20
Test ngatif 15 80

15
Auteur du fichier : Stphane Keller, LEGTA Louis Pasteur
Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 39 sur 70
Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
a) Dterminer la proportion de sujets ayant un test positif parmi ceux ayant un ictre viral.
b) Dterminer un intervalle de confiance 95% de la proportion de tests positifs lorsque lictre est
viral. Cette proportion est appele sensibilit du test diagnostic, c'est--dire la probabilit quune
personne ayant un ictre viral ragisse au test. Un test diagnostic sera dautant meilleur que la
sensibilit est importante. (rponse : [0,75 ; 0,95]).
c) Dterminer la proportion de sujets ayant un test ngatif parmi celles ayant un ictre non viral.
d) Dterminer un intervalle de confiance 95% de la proportion de tests ngatifs lorsque lictre est
non viral. Cette proportion est appele spcificit du test diagnostic, c'est--dire la probabilit
quune personne ayant un ictre non viral ne ragisse pas au test. Un test diagnostic sera dautant
meilleur que la spcificit est importante.(rponse : [0,7 ; 0,9]).

2. Dpistage de la bronchiolite
Dans le but dvaluer la prise en charge de la bronchiolite du nourrisson dans un hpital de la rgion
Aquitaine, une tude rtrospective a t mise en place.

1) Il est recommand de coucher lenfant de manire trs incline (couchage en proclive) dans le
cadre de la prise en charge de la bronchiolite. On value cette pratique partir dun chantillon de
134 dossiers. 106 des enfants ont t couchs en proclive.
Dterminer un intervalle de confiance au niveau de confiance de 95% de la proportion denfants
dont le couchage respecte la recommandation.
Solution
106 1 106 1
134 ; 0,70 ;0,88
134 134 134
2) Une tude plus fine permet de comparer les pratiques entre les diffrents services ayant admis des
enfants (cf. tableau 1).
Tableau 1 : Rpartition des cas suivant le type de services et le respect de la recommandation de
couchage en proclive ; valuation de la prise en charge de la bronchiolite en Aquitaine, une anne
donne.
Couchage En service des En service
Total
proclive urgences hospitalier
Oui 45 52 97
Non 29 8 37
Total 74 60 134

a. Dterminer un intervalle de confiance au seuil de 95% de la proportion de couchage en proclive


pour chaque type de service.
Solution
En service des urgences
45 1 45 1
74 74 ; 74 74 0,492 ; 0,724

En service hospitalier
52 1 52 1
60 60 ; 60 60 0,738 ; 0,996 .

b. (AP) Peut-on conclure selon vous au seuil de 95% que la pratique de couchage nest pas
identique selon le service ?
Les deux intervalles de confiance nont pas dintersection commune, on en conclut que les
pratiques diffrent entre les deux services.

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 40 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
Il sagit l dune rgle assez rpandue, mme sil en existe dautres plus prcises.
3 Comparaison du taux de germination de semences de tomates de l'anne avec celles de l'anne
prcdente.
Un maracher achte un lot de semences de tomates pour produire ses plants de tomate. Il lui reste
des semences de l'anne passe, dont il doit contrler le taux de germination pour pouvoir les utiliser
avec les autres. En effet, des taux de germination trop diffrents provoquent des trous dans les plates
bandes de production, ce qui gnre un cot de manutention plus lev (il faut enlever les pots non
germs avant de les conditionner). Il faut donc comparer les taux de germination des semences des
deux annes.
Une stratgie (il en existe d'autres, hors programme, mais qui peuvent faire l'objet d'une recherche)
consiste calculer et comparer les intervalles de confiance des taux de germination (qui sont des
proportions) des plants de l'anne et de l'anne prcdente. Si les deux intervalles ne se recoupent pas,
on peut conclure une diffrence de taux de germination entre les semences des deux origines 16 . Il
faudra alors les semer sparment.
Pour faire cette comparaison, le maracher prlve, alatoirement dans les semences de l'anne, un
chantillon de 200 graines qu'il met germer. Il constate que 185 graines germent.
Il prlve ensuite, alatoirement dans les semences de l'anne prcdente, un chantillon de 200
graines qu'il met germer. Il constate que 150 graines germent.

1. Dterminer un intervalle de confiance, au niveau de confiance de 95%, du taux de germination pa


du lot de semences de l'anne.
Solution
IC95%= [185/200 1/ 200 ; 185/200 + 1/ 200 ] [0,925 0,071 ; 0,925 + 0,071 ]
0,85;0,99
2. Dterminer (par la mme mthode qu la question a)) un intervalle de confiance au niveau 95%,
du taux de germination pb du lot de semences de l'anne prcdente.
3. Conclure.
Solution
Les deux intervalles sont disjoints, on peut donc conclure une diffrence entre les taux de
germination pa et pb au niveau de confiance 0,95.

Il est intressant de noter que, sans connatre pa et pb, on dispose d'une mthode pour dcider au
niveau de confiance 95% que, si les intervalles de confiance sont disjoints, alors pa et pb sont
diffrents.
Il existe dautres mthodes destimation, mais quelle que soit la mthode utilise, si elle est issue
d'un chantillonnage alatoire, la dcision sera toujours entache d'un risque d'erreur. Les mthodes
utilises assurent seulement la matrise de certains risques de se tromper.

16
Ltude de cette problmatique est suggre en AP.
Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 41 sur 70
Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
VI. Complments sur les lois uniforme et exponentielle

A. Loi uniforme
Le nouveau programme propose de dfinir la loi uniforme sur un intervalle a, b quelconque.
Aprs avoir dfini la loi uniforme sur 0,1 partir, par exemple, du choix au hasard dun rel entre 0
et 1, on peut dfinir la loi uniforme sur a, b en remarquant que pour que laire sous la courbe soit
1
gale 1, il faut et il suffit que la valeur de la constante soit .
ba
Une variable alatoire X suit une loi uniforme sur lintervalle a, b si sa densit est la fonction f
1
dfinie sur a, b par : f (x) = .
ba

Esprance dune variable alatoire de loi uniforme sur a, b

Lesprance dune variable alatoire X suivant une loi uniforme sur a, b est donne par :
b b x ab
E(X) =
a
xf ( x)dx =
a ba
dx =
2
.

b
On peut observer que la dfinition de lesprance par la formule E(X) =
a
xf ( x)dx prolonge celle de
lesprance dune variable alatoire discrte.
En effet, le terme f (x)dx peut sinterprter comme laire dun rectangle de cts dx et f (x), fournissant
en quelque sorte la probabilit que la variable X prenne la valeur x. Dans ces conditions,
b
lintgrale xf ( x)dx correspond une somme de produits x f (x)dx.
a

La figure 1 ci-dessous prsente la situation dans le cas o a 0 et b 1.

Figure 16
Document associ : esprance d'une variable uniforme.ggb
1 k
On a reprsent les rectangles de base et de hauteur , avec k entier variant de 1 n.
n n

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 42 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
n
k1
La somme Sn = n n des aires de ces rectangles peut sinterprter comme lesprance dune variable
k 1
k
discrte quirpartie prenant les n valeurs , pour k variant de 1 n.
n
n(n 1) 1
Elle vaut 2
et a pour limite .
2n 2
Quand n tend vers linfini, la somme des aires des rectangles tend vers laire situe sous la droite
1 1
0
dquation y x . On retrouve ainsi lgalit xf ( x)dx = .
2

Exemples dexercices
1. A partir de 7 heures le matin, les bus passent toutes les quinze minutes un arrt prcis. Un usager
se prsente cet arrt entre 7h et 7h30. On fait lhypothse que lheure exacte de son arrive cet
arrt, reprsente par le nombre de minutes aprs 7h, est la variable alatoire uniformment rpartie
sur lintervalle [0, 30].
1) Quelle est la probabilit que lusager attende moins de cinq minutes le prochain bus ?
2) Quelle est la probabilit quil attende plus de dix minutes ?

2. Partie A
Olivier vient tous les matins entre 7h et 7h 45 chez Karine prendre un caf.
1) Sachant quOlivier ne vient jamais en dehors de la plage horaire indique et quil peut arriver
tout instant avec les mmes chances, quelle densit peut-on attribuer la variable alatoire
heure darrive dOlivier ?
2) Calculer la probabilit quOlivier sonne chez Karine :
Aprs 7h30 Avant 7h10 Entre 7h20 et 7h22 A 7h30 exactement.

2. Partie B
Olivier et Karine dcident de se retrouver au caf de lHtel de Ville entre 7h et 8h. Les instants
darrive dOlivier et Karine sont assimils des variables alatoires de loi uniforme sur 0,1 .
Chacun attend un quart dheure mais jamais au-del de 8h. Quelle est la probabilit quils se
rencontrent ?
lments de solution
Pour la partie B, si on note O la variable alatoire instant darrive dOlivier et K celle de Karine.
1
La probabilit cherche est P( O K ) ; en utilisant une reprsentation graphique, cette probabilit
4
est laire de la zone grise ci-dessous, ensemble des points de coordonnes (x, y) du carr tels que
7
x y 0,25 . (On trouve ).
16

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 43 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
B. Lois exponentielles

Une variable alatoire densit X suit la loi exponentielle de paramtre > 0 si sa densit est la
fonction f dfinie sur 0, par : f ( x) e x .
d
Pour tout intervalle c, d 17
, on obtient : P( X c, d ) e t dt e c e d .
c

En particulier, on obtient P( X a) 1 e a .
x t 1
Lesprance de X est la limite quand x tend vers de 0 t e dt , on obtient E ( X )

.

Pour effectuer le calcul de cette intgrale, on peut :


t
chercher une primitive de la fonction t t e t sous la forme (at b)e et dterminer
ensuite a et b
calculer la drive de la fonction g dfinie sur 0, par g (t ) te
t
et en utilisant le fait
x x

t
que
0
g (t )dt g ( x) , obtenir la valeur de lintgrale 0 te dt

Expliquer ventuellement sur cet exemple le principe de lintgration par parties, bien quil ne
soit plus dans les capacits exigibles du programme.

On dmontre quune variable alatoire X suivant une loi exponentielle vrifie la proprit de dure de
vie sans vieillissement, c'est--dire que, pour tous rels t et h positifs, X t X t h X h .
La rciproque de cette proprit nest pas au programme.

17
Cette notation dsigne ici tous les types intervalles dextrmits c et d o c d .
Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 44 sur 70
Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
Annexe 1 Introduction au thorme de Moivre-Laplace
Lobjet de cette annexe 1 est de situer le thorme de Moivre-Laplace dans une perspective historique.
Celle-ci permet de montrer lvolution de la pense probabiliste depuis Jacques BERNOULLI jusqu
Pierre-Simon de LAPLACE qui donnera la preuve complte de ce thorme avec la rigueur possible
son poque.

La motivation commune Bernoulli, Moivre et Laplace est de dterminer le plus finement possible la
fluctuation 18 des valeurs prises par une variable alatoire suivant une loi binomiale autour de son
esprance. Il sagissait ensuite dutiliser lintervalle de fluctuation obtenu pour estimer une probabilit
inconnue, ce qui est la problmatique moderne de lintervalle de confiance.

Les noncs des thormes sont donns avec la formulation actuelle.

A. La loi des grands nombres de Jacques Bernoulli


Thorme de Bernoulli
Xn
On considre une variable alatoire X n suivant une loi binomiale B (n, p). On pose Fn .
n
p(1 p )

Alors pour tout > 0 on a : Fn p n
.

Ce thorme est invoqu pour justifier lapproche frquentiste de la notion de probabilit.


En effet, ce rsultat liant frquence et probabilit permet de donner une justification aux
axiomes de la thorie gnrale (dite de Kolmogorov) par analogie avec les proprits vues en
statistiques.
La dmonstration originale de Bernoulli, donne dans son ouvrage Ars conjectandi publi Ble en
1713, fait appel avec beaucoup dingniosit la formule du binme et aux proprits des nombres
n
. Bernoulli est parfaitement conscient de la porte de son thorme comme le montre cet extrait de
k
son ouvrage 19 :
Mais pour que cela ne soit pas compris autrement quil ne convient, il faut bien noter ce qui
suit ; je voudrais que le rapport entre les nombres de cas, que nous entreprenons de dterminer
exprimentalement, ne ft pas pris de faon nette et sans partage (car ainsi cest tout le contraire qui
arriverait et il deviendrait dautant moins probable de dcouvrir le vrai rapport quon ferait de plus
nombreuses observations), mais je voudrais que le rapport ft admis avec une certaine latitude, cest--
dire compris entre une paire de limites, pouvant tre prises aussi rapproches quon voudra.

On voit que le concept dintervalle de confiance dduit dun intervalle de fluctuation est
dj prsent dans luvre de Bernoulli.
Le thorme de Bernoulli est gnralis au dix-neuvime sicle par lingalit de Bienaym-
Tchebychev, aprs que les notions desprance et de variance auront t dgages.

Ingalit de Bienaym-Tchebychev
Soit ( , P) un univers probabilis et X une variable alatoire dfinie sur possdant une
variance V(X). On note E(X) son esprance. Alors pour tout > 0 on a :

18
Les termes en italiques ntaient pas utiliss par les mathmaticiens de cette poque.
19
Jacques Bernoulli , Ars Conjectandi, traduction de Robert Meunier, Irem de Rouen, 1987.
Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 45 sur 70
Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
V( X )
X E( X ) .

Cette ingalit est intressante pour donner tout son sens la notion de variance dans un cadre plus
gnral que celui du thorme de Bernoulli. Daprs cette ingalit il apparat clairement que plus la
variance est petite, plus les fluctuations de X autour de son esprance sont faibles.

Remarque
Fondamentale du point de vue thorique, cette ingalit est insuffisante du point de vue des
applications numriques car linformation sur la probabilit que Fn appartienne lintervalle de
fluctuation p , p est peu prcise.

Exemple
p 0, 5 0,1 n 100 donnent un majorant de ( Fn p 0,1) gal 0,25.
1 1
Or on sait que Fn 0,5 ; 0,5 est voisin de 0,95 c'est--dire que
100 100
( Fn p 0,1) est voisin de 0,05.
Cest la recherche dune meilleure prcision qui a motiv le travail de Moivre puis de Laplace.

B. La dmarche dAbraham de Moivre


Abraham de Moivre est un protestant franais, qui sest exil en Angleterre aprs la rvocation en
1685 de ldit de Nantes. Il y rencontre James Stirling qui lui communique une prcision importante
sur la formule dite de Stirling, en ralit dj prsente dans les travaux de Moivre.
Dans son ouvrage The Doctrine of chances (1718), il met le calcul infinitsimal au service des
probabilits. Cet ouvrage a t rcemment traduit par les auteurs dun document sur le thorme de
Moivre-Laplace 20 .
n 1 n 1
Le but dA. de Moivre est dvaluer P n Xn n o X n suit une loi B (n, 1/2).
2 2 2 2
Il trouve 0,682688 comme valeur approche en considrant n infini .
Or la limite de cette probabilit existe et vaut 0,682689492 environ.
n n
De Moivre cherche ensuite valuer P n X n n . Il lui faut alors affiner sa technique
2 2
2 x

et il utilise lintgrale (au sens dune aire) de la fonction x e n apparue lors de lvaluation de la
n 1 n 1
somme des probabilits ( X n k) quand nk n.
2 2 2 2
Il parvient la valeur approche 0,95428 que lon retrouvera plus loin.
La mthode de Moivre est un peu difficile suivre, mais elle est esquisse dans la partie C avec une
rdaction moderne.
En gnralisant sans dmonstration les rsultats prcdents au cas dune loi B (n, p), il donne les
lments pour dterminer la probabilit dun intervalle de fluctuation.
Il est intressant de voir comment Moivre exploite son rsultat.
En lutilisant dans le sens direct, il en dduit que les fluctuations dues au hasard sont trs limites :

20
La loi des grands nombres, le thorme de De Moivre-Laplace, D.Lanier, D.Trotoux,.
http://www.math.ens.fr/culturemath/histoire%20des%20maths/pdf/LoidesGrandsNombres.pdf
Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 46 sur 70
Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
bien que le Hasard produise des Irrgularits, cependant les Rapports de Probabilits seront
infiniment grands, et que avec lavancement du Temps, ces Irrgularits nauront aucune proportion
avec le retour de lOrdre qui rsulte naturellement du DESSEIN ORIGINEL.
En sens inverse, il retrouve le concept dintervalle de confiance dj esquiss par Bernoulli :
inversement, si partir dObservations innombrables, nous trouvons que le Rapport des Evnements
converge vers une quantit dtermine, comme le Rapport de P Q ; alors nous concluons que ce
Rapport exprime la Loi dtermine suivant laquelle lEvnement se produit.
Et enfin comme souvent cette poque, il dduit de ce rsultat mathmatique une conviction
religieuse :
Et ainsi, si nous ne nous aveuglons pas nous-mmes avec de la poussire mtaphysique, nous seront
conduits, dune manire rapide et vidente, la reconnaissance du grand CREATEUR et MAITRE de
toutes choses ; Lui-mme toute sagesse, toute puissance et bont.

C. Une approche du rsultat de Moivre

On peut assez facilement comprendre comment apparat la fameuse fonction dont la courbe a une
forme de cloche . On a juste besoin de la formule dite de Stirling .
n
1 n 1
Prenons le cas o p et donc P( X n k ) , pour tout entier k compris entre 0 et n.
2 k 2
n
Xn
On pose Z n 2 et on cherche le comportement de Z x quand n est grand, x tant fix.
n
1
n
2
1 n
On a : ( Z n x) P ( X n x n ).
2 2
1 n
Comme X n ne prend que des valeurs entires, k x n doit tre entier.
2 2
On fixe x entier et on sintresse la suite extraite de la suite Z n x correspondant aux entiers n
1
de la forme n (2m) . On a alors k x 2m 2m xm 2m qui est bien entier pour tout entier m.
2
n n!
On a et quand m on a k et n k .
k !(n k )!
k
1
n
Daprs la formule de Stirling, quand n est grand, n! est quivalent n 2 e n 2 ce qui signifie que
n!
le quotient de 1
a pour limite 1 lorsque n tend vers +.
n
n 2 en 2
n, k et n k tant grands, on peut considrer que :
1
n
1 n 2 1
( Z n x) ~
2 n 1
x n n 1 x n n 1 2n
n x 2 x 2
1 1
2 n n

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 47 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
x n
x 2
1
~ 2 1 1 n
n 1 x n
n 2
x 2 x 2
1 1
n n

n 1 x n x n
x2 x2 x2
x 2 x 2 x 2
Or : 1 e 2
1 e 2
1 e 2
n n n n n n

do finalement lquivalent suivant :


x
2 1
( Z n x) ~ e 2
n 2
valable pour x entier et n carr pair.

Remarque 1
Dans le cas de la suite extraite, on peut constater que Z n x tend vers 0 quand n tend vers linfini.
Il reste justifier que le rsultat est valable pour tout x et pour la suite complte.
Remarque 2
2
Deux valeurs conscutives de Z n sont distantes de donc sur un intervalle de cette longueur ne se
n
x
1
trouve quune valeur prise par Z n . Si on pose f ( x) e , lquivalent trouv peut scrire
2
2
f ( x ) x et donc sinterprter gomtriquement comme laire dun petit rectangle de base x et de
longueur f ( x) . Cela illustre la notion de densit.

Remarque 3
Numriquement pour n 100 et x 1 , on obtient k 55 .
Z100 1 0,04847 et lquivalent vaut environ 0,04839.

Remarque 4
Laide apporte Moivre par Stirling est la valeur de la constante gale 2 dans lquivalent de n !.

D. Le thorme de Moivre-Laplace

Pierre-Simon de Laplace a t le premier crire un ouvrage exposant ltat des connaissances dans le
domaine des probabilits. Il sagit de la thorie analytique des probabilits 21 (1812). Dans ce texte,
Laplace expose dabord une srie de rsultats danalyse (fonctions gnratrices, transforme de
Laplace...) qui lui permettent de dmontrer des rsultats de probabilits, et en particulier le thorme
de Moivre-Laplace.
Laplace a des ides trs prcises sur les probabilits. Contrairement Moivre, il ne cherche pas
prouver lexistence dun Grand crateur, mais il cherche approcher au mieux les lois qui rgissent le
monde dans lequel nous vivons. Il dveloppe une vision trs dterministe :

21
Texte intgral disponible ladresse
http://books.google.fr/books?id=6MRLAAAAMAAJ&printsec=frontcover&dq=Th%E9orie+analytique+des+pr
obabilit%E9s+Laplace#v=onepage&q&f=false
Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 48 sur 70
Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
Nous devons donc envisager ltat prsent de lunivers comme leffet de son tat antrieur, et
comme la cause de celui qui va suivre. Une intelligence qui pour un instant donn connatrait toutes
les forces dont la nature est anime et la situation respective des tres qui la composent, si dailleurs
elle tait assez vaste pour soumettre ses donnes lanalyse , embrasserait dans la mme formule les
mouvements des plus grands corps de lunivers et ceux du plus lger atome : rien ne serait incertain
pour elle, et lavenir comme le pass, serait prsent ses yeux.

Ce nest quau cours du vingtime sicle que cette vision dterministe sera remise en cause, en
particulier par la physique quantique.
Concernant le thorme de Bernoulli, voici ce quil crit :
Ce thorme indiqu par le bon sens tait difficile dmontrer par lAnalyse. Aussi lillustre
gomtre Jacques Bernoulli, qui sen est occup le premier, attachait-il une grande importance la
dmonstration quil en a donne. Le calcul des fonctions gnratrices appliqu cet objet, non
seulement dmontre avec fiabilit ce thorme, mais de plus il donne la probabilit que le rapport des
vnements observs ne scarte que dans certaines limites du vrai rapport de leurs possibilits
respectives.
Moivre a repris dans son ouvrage [The Doctrine of Chances] le thorme de Bernoulli sur la
probabilit des rsultats dtermins par un grand nombre dobservations. Il ne se contente pas de
faire voir, comme Bernoulli, que le rapport des vnements qui doivent arriver approche sans cesse de
leurs possibilits respectives, il donne de plus une expression lgante et simple de la probabilit que
la diffrence de ces deux rapports est contenues dans des limites donnes.

E. Convergence en loi
Ce paragraphe peut tre rserv une seconde lecture, son contenu dpassant nettement le niveau de la
classe terminale.
Dfinition
Soient une suite de variables alatoires relles (Xn) et une variable alatoire relle X.
On note FX (respectivement FX n ) la fonction dfinie sur IR par FX (x) = P(X < x) (respectivement
FX n ( x) P( X n x) ) appele fonction de rpartition de X (respectivement de Xn).
La suite (Xn) converge en loi vers X si, pour tout rel x o FX est continue, on a :
lim FX n ( x) FX ( x) .
n

La convergence en loi nest pas la convergence des nombres X n ( ) vers X ( ) mais la


convergence des lois, et plus prcisment la convergence simple, aux points de continuit de FX, de
la suite de fonctions FX vers la fonction FX . Lexpression la suite ( X n ) converge est donc un
n

abus de langage, mais il est universellement pratiqu. En fait, si la suite ( X n ) converge en loi vers X,
alors elle converge en loi vers nimporte quelle variable alatoire ayant la mme loi que X.

Cas particulier
Dans le cas o toutes les variables sont valeurs dans IN, la convergence en loi sexprime par :
k IN , lim P( X n k ) P( X k ) .
n

Exemple
On considre une suite de variables alatoires ( X n ) suivant une loi binomiale B (n, 1/n).
k nk
n 1 1 1
On dmontre que : k IN , lim P( X n k ) lim 1 e 1 .
n n k n n k!

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 49 sur 70
Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
La loi limite est appele loi de Poisson 22 de paramtre 1.
Comme pour la loi normale centre rduite, cette loi est apparue comme loi limite.
Elle a ensuite t utilise comme modle dans divers domaines ; elle est appele galement loi des
vnements rares.
Annexe 2 Complments sur les lois normales
A. Loi normale centre rduite
Thorme
Laire situe entre la courbe reprsentative de la fonction f sur IR dfinie
t
1
par f ( t ) e 2 et laxe des abscisses est gale 1.
2

On dit quune variable alatoire X suit une loi normale centre rduite N (0,1) si sa densit est la
t2
1
fonction f (t ) e 2 .
2
On note sa fonction de rpartition c'est--dire la fonction dfinie sur IR par :
x
( x ) P( X x )

f (t )dt .

Reprsentations graphiques :

t
1 x
Figure 1 : f ( t )
2
e 2 Figure 2 : ( x ) ( X x ) f (t )dt
Remarque : Il faut noter que la fonction f na pas de primitive explicite , cest dire quil est
impossible de lexprimer algbriquement avec les fonctions usuelles (polynmes, exponentielle,
logarithme...). Pour cette raison, il a t tabli des tables numriques (comme les tables de
logarithmes). Avec les calculatrices, ces tables ont aujourdhui perdu leur intrt.

Quelques proprits

P1. ( x ) 1 ( x ) .

Visible graphiquement sur la figure 4 on peut aussi dmontrer cette formule par changement de
variable.

22
Simon-Denis Poisson (1781-1840) Recherches sur la probabilit des jugements en matire criminelle et en
matire civile
Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 50 sur 70
Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
1
On en dduit que (0) ( X 0) ( X 0) .
2
Une variable suivant la loi N (0,1) a donc 0 pour mdiane.

P2. ' f .
0 x 1 x
Il suffit dcrire ( x) f (t )dt 0 f (t )dt
2 0
f (t )dt pour constater que est de classe

C1 sur IR et que sa drive est f.


P3. est une bijection strictement croissante de IR dans ]0,1[.
La stricte croissance et la continuit sont immdiates.
Les limites aux bornes sont 0 et 1 23 et elles ne sont pas atteintes du fait que est strictement
croissante.

B. Lois normales
X
Une variable alatoire X suit une loi N (, 2) si suit la loi normale N (0,1).

Proprit de stabilit par addition et multiplication par un rel


Cette proprit est bien sr hors programme en terminale puisque la somme de variables alatoires ny
est pas aborde, ni la notion de variables indpendantes. Elle est cependant dune trs grande
importance et justifie en particulier la notation N (, 2).
Proprit
Si X suit une loi N (a,b) et que Y suit une loi N (c,d) et quelles sont indpendantes, alors
leur somme X + Y suit galement une loi normale de paramtres a + c et b2 + d 2.
Cest cette proprit qui justifie la notation N (, 2), savoir que les variances sadditionnent (si les
variables sont indpendantes) mais pas les carts types.

Annexe 3 Approche simplifie de la thorie des sondages


Dans la plupart des situations il est impossible dinterroger ou de recueillir des informations sur
lensemble de la population ; pour cette raison on se contente le plus souvent dun chantillon. Un
chantillon correspond un sous-ensemble de la population qui intresse le responsable de ltude.
Pour que les informations recueillies auprs de lchantillon puissent permettre destimer des
caractristiques de la population il est important dtre rigoureux et dutiliser des mthodes
dchantillonnage appropries. Ces diffrentes mthodes sont prsentes succinctement ci-dessous.

A. Qualits dun chantillon permettant de rpondre une question pose

Lobservation dun chantillon ne permet pas de dcrire avec certitude une population mais seulement
destimer par intervalles de confiance les valeurs de certaines caractristiques que lon souhaite
connatre dans cette population.

23
En utilisant la dfinition dune intgrale gnralise convergente.
Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 51 sur 70
Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
Voir invoquer la reprsentativit dans un rapport denqute pour justifier de la qualit dun
sondage peut presque coup sr laisser souponner que ltude a t ralise dans une
mconnaissance totale de la thorie de lchantillonnage. Le concept de reprsentativit est
aujourdhui ce point galvaud quil est dsormais porteur de nombreuses ambivalences. Cette
notion, dordre essentiellement intuitif, est non seulement sommaire mais encore fausse et, bien des
gards, invalide par la thorie 24

La premire chose prciser cest quavec un chantillon on ne peut pas tre reprsentatif de
lensemble de la population sur toutes les caractristiques, il est donc important de dfinir les
caractristiques qui intressent les responsables de lenqute.
Pour un statisticien, lchantillon sera dit reprsentatif si on peut correctement estimer les paramtres
dintrt de la population partir de lchantillon. Dans le cas contraire on parlera de biais
dchantillonnage. Pour pouvoir correctement estimer les paramtres, le statisticien na pas
ncessairement besoin que lchantillon soit une reproduction miniature de la population, par contre il
a besoin que tous les profils de la population importants pour lobjectif de lenqute soient reprsents
dans lchantillon. Cela signifie donc que le plan dchantillonnage utilis dpendra de lobjectif de
ltude mme si la population est la mme.
La reprsentativit dun chantillon ncessite que la procdure dchantillonnage permette la
constitution dun sous-groupe recouvrant les caractristiques qui peuvent influencer la valeur des
paramtres que lon veut estimer. La non-reprsentativit dun chantillon peut par exemple tre due
la slection dans une base de sondage ne couvrant pas correctement la population.
Par exemple, supposons quon souhaite raliser une enqute de prvalence dune maladie A dans la
population gnrale et quon slectionne un chantillon partir de la liste tlphonique (lenqute
devant se drouler par appel tlphonique). Dans ce cas lchantillon ne couvre pas correctement la
population il y a un biais dchantillonnage car les personnes qui rpondront lenqute auront un
tlphone et seront prsentes leur domicile, pour cette raison toutes les personnes qui seront
hospitalises la date de lenqute ne seront pas interroges. Si les personnes atteintes de la maladie
tudie sont plus susceptibles de se rendre lhpital, on risque de sous-estimer la prvalence de la
maladie ou proportion de malades, en ralisant un chantillon comme propos ci-dessus.
Dans tous les cas de figures on souhaite enquter sur un nombre suffisant de sujets afin de pouvoir
estimer correctement le paramtre de la population.
En principe la taille de lchantillon est indpendante de la taille de la population que lon veut tudier.
Il faut interroger autant de personnes pour estimer avec la mme prcision le rsultat de llection
prsidentielle en France, que llection du maire de Bordeaux.
La taille est en revanche fonction de la marge derreur (amplitude de lintervalle de confiance) que
lon accepte de prendre et qui rsulte inluctablement du fait que lestimation est issue dun
chantillon.
Un sondage peut tre effectu de multiples faons que lon regroupe en deux grandes familles : les
sondages alatoires, dits aussi probabilistes, et les sondages non alatoires, dits aussi empiriques ou
informels.

B. Echantillonnage non-probabiliste ou non alatoire

Pour ce type de sondage la slection des individus nobit plus au hasard mais est dfinie selon
des critres de faisabilit, de ressemblance la population et de critres subjectifs dpendant du choix
des enquteurs.
Les types de sondage satisfaisant aux critres de faisabilit ou de simplicit sont par exemple les
chantillons de sujets volontaires (par exemple les enqutes publiques pralables la dclaration

24
Y. Till (2001), Thorie des sondages : chantillonnage et estimation en populations finies : cours et exercices, 284 pages, Paris,
Dunod

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 52 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
dutilit publique : les personnes qui le souhaitent prennent connaissance du projet et consignent leurs
observations sur un registre d'enqute ouvert en mairie) ou les chantillons de convenance (par
exemple on effectuera une enqute auprs de toutes les personnes qui viennent la poste centrale de la
ville V le mardi 4 septembre 2012).
Les types de sondage satisfaisant aux critres de ressemblance la population sont appels
chantillonnage par choix raisonn. La mthode des quotas, qui est la mthode la plus utilise parmi
les sondages non alatoires et dans les sondages dopinion, fait partie de cette catgorie de sondage.
Les enquteurs doivent inclure un nombre donn d'individus prsentant telle ou telle caractristique
dans des proportions voisines de celles de la population. Du moment que le quota est respect, le mode
de slection des individus est laiss au libre choix de l'enquteur. La mthode des quotas consiste
construire un chantillon qui soit une maquette, un modle rduit de la population tudie, en
conservant les mmes proportions. La plupart des sondages politiques effectus en France utilisent
cette mthode.

La date cruciale pour lhistoire de lchantillonnage est le mardi 3 novembre 1936, jour de la
publication des rsultats de llection prsidentielle aux tats-Unis. Le journal Literary Digest
avait ralis des sondages pr-lectoraux, comme leur habitude, par consultation individuelle
dlecteurs (appels votes de paille cette poque). Cette mthode ne fait appel aucune notion de
reprsentativit, mais est ralise sur un nombre important dlecteurs et jusquen 1936 elle donne des
rsultats tout fait satisfaisants. Ce journal comme bien dautres prdit alors llection de Lanton,
mais finalement F.D. Roosevelt est lu. Seuls trois sondages lavaient donn gagnant, tous raliss par
une mthode empirique appele la mthode des quotas. Ce fut le dbut des grandes structures de
sondages telles que la socit de sondage Gallup aux Etats-Unis.

C. Echantillonnage probabiliste

Dans un plan dchantillonnage alatoire, tous les individus de la population ont une probabilit
connue et non nulle d'tre slectionns pour faire partie de lchantillon. La slection des individus
constituant lchantillon seffectue par un plan dchantillonnage un ou plusieurs degrs et chaque
degr une procdure de tirage au sort est spcifie ; il peut sagir dune procdure de sondage alatoire
simple, ou systmatique, ou dune procdure stratifie, avec slection quiprobable ou probabilit
proportionnelle la taille. Logiquement seuls les sondages alatoires permettent de fournir des
estimations avec une prcision donne, cest- -dire avec un intervalle de confiance.

Les slections alatoires partir dune liste dindividus peuvent seffectuer de diffrentes faons.
Prenons lexemple dune enqute que linspection acadmique souhaiterait raliser auprs des lves
des lyces dun dpartement afin dtudier les difficults scolaires rencontres par ceux-ci. Il est
impossible dinterroger la totalit des lves et le souhait est de pouvoir obtenir des informations sur
un chantillon reprsentatif de 500 lves. Pour cette dernire raison il est dcid de slectionner
alatoirement les lves, mais plusieurs mthodes peuvent tre proposes.
1) si la liste de tous les lves est accessible de manire lectronique on peut slectionner 500
lves dans la liste en utilisant par exemple un tableur, il y a plusieurs mthodes pour cela :
a. crer pour chaque lve un nombre alatoire suivant une loi uniforme, puis choisir de
trier la liste en fonction de ce nombre alatoire cr, cela revient mlanger de faon
alatoire la liste. On slectionne finalement les 500 premiers noms qui sont dans la
liste trie. Cette mthode permet de raliser une slection simple sans remise.
b. Numroter tous les lves de la liste, puis utiliser la fonction alatoire du tableur pour
slectionner uniquement 500 nombres, les lves correspondant ces nombres seront
slectionns. En appliquant cette mthode un nombre peut tre slectionn plusieurs
fois. Cela revient donc raliser un chantillon avec remise.
c. On peut aussi utiliser la mthode de slection systmatique, c'est--dire que si le
nombre dlves est gale N on tire au sort un nombre, not d, entre 1 et N puis on

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 53 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
N
slectionne de manire rgulire sur la liste le d nime lves, si ce nombre
500
dpasse le rang du dernier lve on reprend la liste au dbut.
Les trois mthodes prsentes ci-dessus sont des slections que lon peut considrer quiprobables car
chaque sujet a la mme probabilit dtre slectionn.

2) On peut souhaiter effectuer une enqute en face face, c'est--dire quun enquteur doit se
dplacer pour interroger llve, il est donc important dessayer de grer le nombre de
dplacements. Dans les mthodes proposes prcdemment rien nest contrl et lenquteur
peut devoir traverser le dpartement pour interroger un et un seul lve. Afin damliorer cela
on peut dcider de slectionner un certain nombre dtablissements et de slectionner un
certain nombre dlves dans chaque tablissement. On parlera alors de sondage plusieurs
degrs. Dans ce cas la slection nest pas toujours quiprobable.
Exemple : supposons que 10 des 70 lyces soient slectionns et dans chaque lyce
slectionn on slectionne 30 lves. Dans ce cas la probabilit que llve A soit
slectionn est environ gale 10/70 * 30/(nb dlves du lyce dappartenance de llve
A) , on remarque que cette probabilit dpend de la taille du lyce et donc non
quiprobable.

3) On peut vouloir construire un chantillon reprsentant les lyces gnraux et professionnels.


Dans ce cas et afin de forcer cette reprsentativit, on commence par partager en deux paquets
la liste : liste des lyces professionnels et liste des lyces gnraux et on effectue un
chantillon dans chacune des deux listes. On parle alors de sondage stratifi.

Annexe 4 Utilisation des Tice


A. Tableau des fichiers du document ressource Probabilits et Statistique du programme de
Terminale.
Les textes en italique ou en italique vert concernent des fichiers non rfrencs de certaines figures du
document principal ou des fichiers d'activits complmentaires n'apparaissant pas dans le document
principal.

DOCU- FICHIERS FONCTIONS, PARAMTRES D'ANIMATION OU DE FONCTION ET


MENTS DESCRIPTION
DE n (10 ; 60 ; 1 ; curs) signifie que l'on peut faire varier le paramtre n de 10
SYNTHS 60 avec des pas de 1, l'aide d'un curseur. curs peut tre remplac par
E bouton ( cliquer).
Annexe 4 InitiationR1.r Dmarrage rapide en R : installation et quelques exemples comments,
bibliographie.
VI Figure esprance d'une Animation GeoGebra illustrant l'aire de n (0 ; 40 ; curs) rectangles de base
16 variable 1/n, de hauteur k/n avec 1 k n. Convergence de la somme de l'aire de tous
uniforme.ggb les rectangles vers l'aire sous la droite y = x.
I Figure 1 centrer et Animation GeoGebra: superposition des diagrammes en barre de X v.a.
rduire une binomiale de paramtres n (10 ; 60 ; 1 ; curs) et p (0 ; 1 ; 0,01 ; curs), de X
binomiale.ggb np, variable centre et de Z = (X np) / racine(n p (1 p)), variable
centre et rduite.
I Figure 2 diagramme en Animation GeoGebra : diagramme en bton de la variable frquence
btons de Fn.ggb Fn = (Xn - p) / (p(1 p) / n), pour n (10 ; 60 ; 1 ; curs) et
p (0 ; 1 ; 0,01 ; curs).

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 54 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
DOCU- FICHIERS FONCTIONS, PARAMTRES D'ANIMATION OU DE FONCTION ET
MENTS DESCRIPTION
DE n (10 ; 60 ; 1 ; curs) signifie que l'on peut faire varier le paramtre n de 10
SYNTHS 60 avec des pas de 1, l'aide d'un curseur. curs peut tre remplac par
E bouton ( cliquer).
II Figure 3 binomiale et Animation GeoGebra: illustration du thorme de Moivre-Laplace :
normale.ggb convergence de la suite de variables centres rduites Zn, avec n
(10 ; 300 ; 1 ; curs) et p (0 ; 1 ; 0,01 ; curs) vers la loi normale centre
rduite.
III Figure visualisation Animation GeoGebra : illustration des calculs de probabilit (calcul intgral
7 probas d'aires) P(a < x < b), avec les lois normales de moyenne m (0 ; 5 ; 0,1 ; curs)
normales.ggb et d'cart type (0 ; 5 ; 0,1 ; curs), avec a (-5 ; 5 ; 0,1 ; curs) et b (-
5 ; 5 ; 0,1 ; curs).
On peut donc faire la reprsentation graphique de la fonction de densit de la
loi normale centre rduite.
Et visualiser les probabilits des intervalles mu sigma (m ), mu 2sigma
(m 2), mu 3sigma (m 3).
III Figure TaillesHommes.r tailleshommes(n = 50000, mu = 175, sigma = 8)
6 Fonction en R : Simulation d'un chantillon (une srie statistique) de n
(50 000) tailles d'hommes tirs d'une distribution normale de moyenne mu et
d'cart type sigma. L'histogramme est trac, quelques paramtres de la srie
sont calculs. On obtient d'autres sries que celle illustre dans le document. n,
mu et sigma sont des paramtres que l'on peut changer volont.
III Figure influence de mu Animation GeoGebra : Influence de la moyenne et de l'cart type sur la forme
8 et sigma.ggb de la courbe reprsentative de la densit de la loi normale de moyenne
m (0 ; 7 ; 0,1 ; curs) et d'cart type (0,3 ; 3 ; 0,1 ; curs).
IV-B intervalle de Algorithme-programme Algobox de calcul des deux bornes de l'intervalle de
fluctuation fluctuation binomial exact, selon une mthode du document ressource de 1re.
premire.alg : Queues symtriques (quilibres) en probabilit
n est la taille de l'chantillon, p est la probabilit de succs, a et b sont les deux
bornes de l'IF.
Attention : limit n<70
IVB intervalle de IFexact2(n = 65, p = .06, kobs = 8, proba = .95)
fluctuation Fonction en R : IF binomial exact, selon une mthode du document ressource
premire.r de 1re : Queues symtriques (quilibres) en probabilit
n est la taille de l'chantillon, p est la probabilit de succs, kobs est le nombre
de succs observ dans l'chantillon
proba est le seuil de l'intervalle de fluctuation.
a est le plus petit entier tel que P(X <= a) > 0,025 ; b est le plus petit entier tel
que P(X <= b) >= 0,975
Une conclusion est propose quant l'hypothse teste.
IV-B IF_BinomialExa IFexact1(n = 65, p = .06, kobs = 8, proba = .95)
ct1.r Fonction en R : IF binomial exact, selon une mthode du document ressource
AutresAlgo
de 1re : Queues symtriques (quilibres) en probabilit
DuDoc.pdf
n est la taille de l'chantillon, p est la probabilit de succs, kobs est le nombre
de succs observ dans l'chantillon
proba est le seuil de confiance de l'intervalle de fluctuation.
a est le plus grand entier tel que P(X < a) 0,025 ; b est le plus petit entier tel
que P(X > b) 0,025
Une conclusion est propose quant l'hypothse teste.
IV C exploration de pIFasy2_1(n = 400, p= .5, proba = .95)
l'intervalle de Fonction en R : illustration de l'volution de la probabilit binomiale de
fluctuation l'intervalle de fluctuation asymptotique IF2 : (p uprobaracine(p(1 p) / n))
asymptotique.r en fonction de n et p.
n est la taille de l'chantillon, p est la probabilit de succs, proba est la valeur
seuil de la probabilit de l'IF.

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 55 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
DOCU- FICHIERS FONCTIONS, PARAMTRES D'ANIMATION OU DE FONCTION ET
MENTS DESCRIPTION
DE n (10 ; 60 ; 1 ; curs) signifie que l'on peut faire varier le paramtre n de 10
SYNTHS 60 avec des pas de 1, l'aide d'un curseur. curs peut tre remplac par
E bouton ( cliquer).
IV C exploration Feuille de calcul tableur permettant une visualisation des probabilits des
intervalle de intervalles de fluctuation asymptotiques de seconde et de terminale.
Figure 9
fluctuation p est la probabilit de succs. Pour celui de seconde, on peut conjecturer
asymptotique.od lexistence du seuil n0 du paragraphe V-C-7.
s
IV C intervalle de pIFasy1_1(n = 700, p = .5, proba = .95)
fluctuation Fonction en R : illustration de l'volution de la probabilit binomiale de
Figure 11
seconde.r l'intervalle de fluctuation asymptotique IF1 : (p 1 / racine(n)) en fonction de
n et p.
n est la taille de l'chantillon, p est la probabilit de succs, proba est la valeur
seuil de la probabilit de l'IF.
IV E recherche du Algorithme-programme Algobox de recherche, pour un p donn, de la plus
n0.alg petite valeur n0 de n telle que la probabilit exacte que X appartienne l'IF1
(p 1 / racine(n)) soit au moins gale 0,95. Valeurs de n au plus gales 70,
application numrique restreinte.
IV E recherche du Programme Scilab de recherche, pour un p donn, la plus petite valeur n0 de
n0.sce n telle que la probabilit exacte que X appartienne l'IF1 (p 1/racine(n))
soit au moins gale 0,95.
AutresAlgo nIFasy1_1.r nIFasy1_1(nsup = 1000, probinf = .95)
DuDoc.pdf Fonction en R : Pour les valeurs de p de 0,05 0,95, de 0,01 en 0,01,
recherche la plus petite valeur n0 de n telle que la probabilit exacte que X
appartienne l'IF1 (p 1 / racine(n)) soit au moins gale probinf. Tableau
des valeurs de n0 et graphique de n0 en fonction de p.
V intervalles de simICdoc(n = 50, nbsim = 100, nbclass = 20)
confiance Fonction en R : Simulations d'un peigne d'IC au niveau de confiance nominal
Figures 14
simuls.r de 0,95. nbclass est le nombre de classes de l'histogramme. La proportion de p
et 15
dans la population est gnre alatoirement dans ]0 ; 1[. Elle est affiche dans
la console R.
SimulICPropSim simIC(n = 50, nbsim = 100, nbclass = 20, moustache = 1.5)
pl.r Fonction de R : Simulation d'un peigne d'IC. nbclass est le nombre de classes
de l'histogramme, moustache dtermine la longueur des moustaches des boites.
La proportion de p dans la population est gnre alatoirement dans ]0 ; 1[.
Le peigne est suivi de l'histogramme et de la boite moustache de la
distribution simule.
V simulation Simulation tableur d'un intervalle de confiance d'une proportion p inconnue,
sondage.xls calcul partir d'un chantillon de taille 1000. F9 pour refaire une autre
simulation. On peut dvoiler p en mettant une couleur de police visible.
V intervalles de Simulation tableur d'un peigne de 100 intervalles de confiance gaussiens
confiance d'une proportion p (0% ; 100% ; 1% ; boutons) au niveau de confiance c
simuls- (0% ; 100% ; 1% ; boutons). Pour chacun des 100 chantillons simuls, la
peignes.ods feuille affiche f observ, l'intervalle de confiance (fourchette), VRAI si l'IC
contient p, FAUX sinon, le pourcentage d'IC contenant p, et la reprsentation
graphique de l'IC, en barre horizontale. On peut cacher ou faire afficher p. F9
pour lancer une nouvelle simulation de 100 chantillon de taille n = 100.
VI C monte carlo.alg Calcul approch par la mthode du rejet de l'intgrale de 0 1 de F1(x) (
saisir). Le nombre n de tirages est saisi en entre.
Figure 17
Graphique indiquant la surface atteinte par les tirages.
VI C monte Carlo Calcul approch par la mthode de lesprance de l'intgrale de 0 1 de
bis.alg F1(x) . Le nombre n de tirages est saisi en entre.
commandes R.pdf Liste de commandes R.

Carte de Fonctions vitales, outils de programmation sous R.


rfrence R.pdf

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 56 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
B. Prise en main rapide du logiciel R
QUELQUES EXEMPLES COMMENTS POUR DMARRER AVEC R
PROBABILITS, SIMULATIONS ET EXPLORATION DES SRIES SIMULES
I - INSTALLATION MISE EN ROUTE
1 Installation
R est un logiciel libre et gratuit tlchargeable http://cran.univ-lyon1.fr, (site miroir) le site
parent tant www.r-project.org. Il est multiplateforme, c'est dire qu'il existe des versions qui
tournent sous linux, mac et windows.
Il existe quelques ouvrages et un grand nombre de sites en franais, d'IUT, d'universits,
d'organismes de recherche et d'coles d'ingnieurs, traitant de l'utilisation de R (voir bibliographie).
L'installation se fait trs rapidement et simplement partir du fichier excutable tlcharg. Ce
"package" de base est complet et permet d'effectuer tous les traitements statistiques courants
(description, analyse exploratoire des donnes, probabilits, simulation, tests statistiques).
L'utilisation de R peut se faire en ligne de commande, l'installation de base y suffit. On peut aussi
utiliser certaines fonctionnalits de R sous forme classique de menus cliquables en franais, il faut
alors installer le package "Rcmdr". Les commandes R correspondant chaque menu sont affiches,
ce qui facilite une premire prise en main. La rdaction et la lecture des lignes de commande R sont
grandement facilites par l'utilisation d'un diteur spcifique, "Tinn-R" (tlchargeable
http://sourceforge.net/projects/tinn-r) qui identifie toutes les commandes R et leurs paramtres et
les colorie de faon diffrencie pour en faciliter l'identification et l'utilisation.
Dans les fichiers mis disposition, figurent deux "Reference card" ("Rrefcard2.pdf" et
"ShortRefCard.pdf") qui contiennent les principales commandes R classes par thme.
La communaut des utilisateurs de R dveloppent, pour les besoins des structures dans lesquelles
ils travaillent ou des recherches engages, des "packages" "agrs" par une "R-core-team", qu'ils
mettent disposition sur les sites et qui peuvent s'installer automatiquement. Il en existe plusieurs
centaines. Deux sont mentionns dans certains fichiers annexs au document ressource, qui sont
"lattice" (graphismes avancs) et "Hmisc" (prsentation avance de rsums numriques). De mme
il existe un package (et un ouvrage en franais) ddis l'analyse des donnes la franaise,
"FactoMineR", dvelopp par trois enseignants chercheurs de l'AgroCampus de Rennes.
2 Utilisation de l'interface avec menus cliquer en franais : "Rcmdr"
On peut utiliser R en mode menus cliquer en franais. Le code de chaque commande sollicite
par les menus apparat dans la "Fentre de script" est excute dans la "Fentre de sortie", qui affiche
aussi les rsultats. Cet affichage des commandes correspondant aux menus cliqus permet
l'apprentissage progressif des codes des commandes R. C'est aussi un bon outil pour initier les lves.
Il faut pour cela installer le package Rcmdr : Aprs avoir lanc R (RGui) et tre connect
internet, c'est automatique via le menu "Package Installer le package"). Pour l'excuter il faut cliquer
le menu Package Charger le package" ou taper require(Rcmdr) dans la console R.
Voici un exemple simple de simulation d'une srie de nombres tirs d'une loi normale centre
rduite, que l'on dcrit ensuite par un tiges et feuille et un histogramme.

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 57 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
Chargement et excution de Rcmdr

L'interface des menus cliquer en franais est


lance.

Utilisation directe : simulation de 100 nombres distribus selon la loi normale centr rduite et on
fait afficher les 10 premires valeurs de la srie simule "EchantillonsNormaux".

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 58 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
Description de la srie simule, diagrammes en tiges et feuilles et histogramme :

3 Cration et excution des lignes de commandes


Pour enchaner les traitements ou programmer des fonctions R, il faut passer par les lignes de
commande. On peut le faire directement dans la "console R", mais il est plus facile d'utiliser
l'diteur Tinn-R car il permet de saisir, d'enregistrer et d'utiliser les lignes de code que l'on

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 59 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
cre pour un traitement ou une fonction.
On peut saisir et excuter directement les lignes de commandes dans la console R (R
Console).
Pour accder la console R, il faut cliquer sur l'icne R cre lors de l'installation. Un fentre
RGui (Graphic user interface) s'ouvre, qui contient, par dfaut la console R, dans laquelle
s'crivent et s'excutent les commandes et les fonctions R. La console R s'utilisera de
prfrence lorsque chaque ligne de commande est excute au fur et mesure du traitement
prvu. On excute une ligne de commande en appuyant sur la touche entre (valider). Une
ligne peut comporter plusieurs commande spares par des ";". Une commande peut s'crire
sur plusieurs lignes, des + apparaissent alors en dbut de ligne.
UTILISATION DIRECTE DE LA CONSOLE R
SAISIE DES LIGNES DE COMMANDE(S) -----> AFFICHAGE DU RSULTAT

Lignes de commandes saisies dans Tinn-R et excutes dans la console R.


Lorsque l'on veut faire des traitement par lots (excuter plusieurs lignes de commandes
groupes) ou programmer des fonctions, l'utilisation de l'diteur Tinn-R facilitera grandement
l'criture, la vrification et l'excution des procdures ainsi cres.
La procdure classique consiste suivre les tapes suivantes :

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 60 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
a criture du code dans Tinn-R.

b Lancer la console R (Rgui pour Graphic User Interface) partir des menus Tinn-R.

c Copier coller les lignes de commande de Tinn-R dans la console R. Les lignes de commandes sont
excutes automatiquement et les rsultats affichs, dans la console pour les rsultats numriques,
dans une ou plusieurs fentres graphiques, pour les graphiques.

3 Utilisation de fichiers contenant les lignes de commande ou les fonctions excuter


Pour utiliser les exemples fournis dans des fichiers, plusieurs cas peuvent se prsenter.
S'il s'agit de lignes de commandes fournies dans le texte d'un fichier texte, il suffit alors de
slectionner les lignes concernes et de les copier-coller dans la console R o elles seront
automatiquement excutes (sauf peut-tre la dernire qu'il faudra valider) et les rsultats seront
affichs. Si on veut les modifier pour les adapter il faut soit les modifier dans le traitement de

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 61 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
texte ou bien passer par Tinn-R.
Par contre si c'est un fichier du type pdf il risque d'y avoir des problmes causs par le fait que
les fins de ligne sont transforms en fin de paragraphe. Il vaut mieux donc viter, au moins dans
la priode d'apprentissage.
Il peut arriver, rarement, que la console R interprte mal certains caractres du traitement de
texte, ayant un aspect visuel "normal". L'erreur est alors difficilement dcelable, sauf en passant
par Tinn-R.
S'il s'agit de lignes de commandes constituant une fonction, fournies dans le texte d'un
fichier texte, on procde comme prcdemment en prenant bien soin de s'assurer que la dernire
ligne a bien t valide (dans le cas contraire un + apparat en dbut de ligne). La fonction vient
d'tre introduite en mmoire. Pour l'utiliser il suffit de saisir son nom, suivi sans espace de ().
Ce nom figure obligatoirement en dbut du code. Dans ce cas, ce sont les valeurs des paramtre
par dfaut, indiques dans la premire ligne du code de la fonction, qui seront prises en compte.
Pour utiliser d'autres valeurs, il suffit de les indiquer l'intrieur des (). Exemple : pileface()
ralise 2000 simulations du jet de deux pices quilibres (cf. le II). Pour en raliser 6000, je
saisis pileface(6000) ou pileface(nbsim = 6000).
Une bonne solution consiste disposer des fichiers texte au format Tinn-R (extension .r)
contenant les lignes de codes voulues. Un fichier Tinn-R est un simple fichier texte basique. Il
peut contenir les lignes de code de une ou plusieurs procdures, les lignes de code de une ou
plusieurs fonctions ou un mlange de lignes de procdures et de ligne de fonctions, comme par
exemple dans le fichier "InitiationR1.r" qui contient les lignes de code des procdures et les
lignes de codes des fonctions prsentes dans les tableaux du II.
Il suffit alors de copier-coller les lignes de code que l'on veut excuter.
Une autre solution pertinente lorsqu'il s'agit d'utiliser une fonction, consiste la faire lire et
charger directement depuis le fichier source sur le disque dur. Prenons l'exemple de la fonction
IFexact1(), dont les lignes de code sont dans le fichier IF_BinomialExact1.r. Il peut d'abord
indiquer R le dossier par dfaut dans lequel se trouve le fichier charger, en utilisant le menu
FichierChanger le rpertoire courant . Puis taper dans la console R, la commande
source("IF_BinomialExact1.r"). Pour excuter la fonction, il suffit ensuite de taper Ifexact1()
ou, par exemple, IFexact1(n = 150, p = .2, kobs = 25, proba = .95).

II - QUELQUES EXEMPLES SIMPLES COMMENTS


Convention typographique : Les lignes en orange contiennent les lignes de commande R. Les
lignes en italique vert sont des parties de rponses de R ( ne pas coller dans la console). Les textes en
turquoise ou bleu clair contiennent le code des fonctions R. Les # commentaires sont en noir,
prcds de #. Les mots en rouge sombre sont les mots rservs aux commandes et fonctions internes
de R.

#**LIGNES DE COMMANDE pile ou face pas forcment quiprobable ** <- est la commande d'affectation. C()
piece1 <- sample(c("Pile", "Face"), size = 1000, cr un vecteur (au sens informatique).
prob = c(.4, .6), replace = TRUE) sample tire size(1000) fois avec remise
(distpiece1 <- table(piece1)) dans l'ensemble {"Pile", "Face"}, avec
barplot(distpiece1 / 1000) une probabilit de 0,4 pour "Pile" et de
sum(piece1 == "Pile") / 1000 0,6 pour "Face". Les n(1000) rsultats
obtenus sont mis dans le vecteur piece1.
table(piece1) effectue le tri plat
(tableau des effectifs) de la srie
obtenue.
barplot effectue le diagramme en barre.
sum(piece1 == "Pile") compte le nombre
de "Pile".
#**LIGNES DE COMMANDE pile ou face avec 2 pices diffrentes **
piece1 <- sample(c("Pile", "Face"), size = 1000, La pice 1 est dsquilibre, la pice 2
prob = c(.4, .6), replace = T) non.
piece2 <- sample(c("Pile", "Face"), size = 1000,
prob = c(.5, .5), replace = T) paste runi deux deux chacun des 1000
deuxpieces <- paste(piece1,piece2, sep = "") rsultats de piece1 et piece2, par
table(deuxpieces) exemple PileFace ...
barplot(table(deuxpieces) / 1000)

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 62 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
#**FONCTION jet simultan de 2 pices identiques quilibres** Fonction effectuant nbsim (2000) lancers
pileface <- function(nbsim = 2000){ de deux pices.
resultats <- rep(NA, 3) Paramtres et valeurs par dfaut,dbut
names(resultats) <- c("deuxpils", "deuxfaces", "autre") du corps de fonction
for(i in 1:nbsim){ Initialisation d'un "vecteur" 3
pieceA <- sample(c("Pile", "Face"), 1) composantes
pieceB <- sample(c("Pile", "Face"), 1) nommer les 3 composantes du vecteur
if(pieceA == "Pile" & pieceB == "Pile") { dbut de la boucle des nbsim lancers
resultats[1] <- resultats[1] + 1} else { pieceA quilibre
if(pieceA == "Face" & pieceB == "Face") { pieceB quilibre
resultats[2] <- resultats[2] + 1} else { comptage des "Pile Pile"
resultats[3] <- resultats[3] + 1 } comptage des "Face Face"
} comptage des autres rsultats.
} Fin des tests et
print(resultats) des boucles
print(resultats / nbsim) Affichage des rsultats.
barplot(resultats / nbsim)
}
Fin du corps de fonction.

#Le problme historique du grand duc de Toscane (Somme de 3 ds)


#****LIGNES DE COMMANDE Simulation GrandDuc****
de1 <- sample(c(1:6), 1000, replace = TRUE) 1000 jets d'un d quilibr, la srie
(distde1 <- table(de1)) des 1000 rsultats est mise dans le
barplot(distde1 / 1000) vecteur de1
de2 <- sample(c(1:6), 1000, replace = T) tableau des effectifs de la srie
(distde2 <- table(de2)) obtenus
dev.new() diagramme en barres
barplot(distde2 / 1000)
de3 <- sample(c(1:6), 1000, replace = T) ouvre une nouvelle fentre graphique
(distde3 <- table(de3)) mme chose avec un autre d quilibr,
dev.new() la srie des 1000 rsultats est mise
barplot(distde3 / 1000) dans le vecteur de2
de <- de1 + de2 + de3
(distde <- table(de)) mme chose avec un autre d quilibr,
dev.new() la srie des 1000 rsultats est mise
barplot(distde / 1000) dans le vecteur de3
nbneuf <- sum(de == 9)
nbdix <- sum(de == 10) somme, composante composante des 3
cat("Frquence des neuf =", nbneuf / 1000, "\n") vecteurs, les 1000 rsultats sont mis
cat("Frquence des dix =", nbdix / 1000, "\n") dans le vecteur de.
barplot(distde, xlab = "Somme des numros des 3 faces",
ylab = "Effectifs simuls", Tableau des effectifs de la srie de,
main = paste("Diagramme en barre de 1000 simulations\n du jet diagramme en barres
de 3 ds quilibrs")) comptage du nombre de neuf et du nombre
de 10.

affichage des rsultats.


#****FONCTION simulation Grand Duc********
simgrandduc <- function(nbsim=1000){
de1 <- sample(c(1:6), nbsim, replace = TRUE) La fonction effectue nbsim lancers de 3
de2 <- sample(c(1:6), nbsim, replace = TRUE) ds. On additionne les rsultats obtenus
de3 <- sample(c(1:6), nbsim, replace = TRUE)
de <- de1 + de2 + de3 tableau des effectifs des 1000 sommes
distde <- table(de) obtenues et leur diagramme en barres.
print(distde)
barplot(distde / nbsim)
}

#**LIGNES DE COMMANDE probabilit Grand Duc********


#**Somme des valeurs des faces obtenues en jetant 3 ds**
#***Calculer avec le modle mathmatique "exact"****
#****Construire l'univers correspondant cette exprience***
serieS3de <- array(data = NA, dim = c(6, 6, 6)) Initialisation d'un tableau de
for(i in 1:6){ dimension3
for(j in 1:6){
for(k in 1:6){ boucles imbriques pour parcourir tous
serieS3de[i, j, k] <- i + j + k les triplets possibles et gnrer
} l'univers des rsultats possibles : les
} 216 valeurs obtenues sont mises dans le
} vecteur serieS3de.
serieS3de
(distS3de <- table(serieS3de))
nbneuf <- sum(serieS3de == 9) Tableau des effectifs
nbdix <- sum(serieS3de == 10)
cat("Probabilit de neuf =",nbneuf / 216,"\n") Comptage du nombre de 9 et de10
cat("Probabilit de dix =",nbdix / 216,"\n") calcul de la probabilit.
dev.new()
barplot(distS3de)
graphics.off()

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 63 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
#**Fonction probabilit Grand Duc********
probgranduc <- function(){
serieS3de <- array(data = NA, dim = c(6, 6, 6))
for(i in 1:6){
for(j in 1:6){
for(k in 1:6){ Mme chose sous la forme d'une fonction.
serieS3de[i, j, k] <- i + j + k
}
}
}
serieS3de
distS3de <- table(serieS3de)
nbneuf <- sum(serieS3de == 9)
nbdix <- sum(serieS3de == 10)
cat("Probabilit de neuf =",nbneuf / 216,"\n")
cat("Probabilit de dix =",nbdix / 216,"\n")
print(distS3de)
barplot(distS3de / 216)
}
######LIGNES DE COMMANDES-- CALCULS DE PROBABILITS ##########
#-------------- Loi binomiale ---------------
# Calcul de P(A <= X <= B), X tant une v.a. de distribution
# binomiale
# de paramtres n=100 et p=0,52.
# Les exemples choisis peuvent servir de base une rflexion
# sur les diffrentes faons de dterminer un intervalle de
# fluctuation, partir
# de l'exemple 1 (Monsieur Z du document d'inspection).
# P(42<=X<=62): 42:62 gnre la suite des entiers de 42
sum(dbinom(42:62, 100, .52)) 62
# P(43<=X<=62): dbinom gnre un vecteur des
sum(dbinom(43:62, 100, .52)) probabilits binomiales de P(X=42)
# P(42<=X<=61): P(X=62). sum en fait la somme
sum(dbinom(42:61, 100, .52))
# P(X<=41) ; P(X<=42) ; P(X<=43):
pbinom(41:43, 100, .52)
#----- Combinaisons et loi hypergomtrique --------
# Calcul de P(X=3) ; x=3 ; X de loi hypergomtrique de
paramtres choose calcule les combinaisons
# m = 3, n = 5, k = 4,
(proba <- choose(3, 3) * choose(5, 4-3) / choose(3+5, 4)) dhyper calcule les probabilits
# Pour vrification : hypergomtriques.
(proba <- dhyper(x = 3, m = 3, n = 5, k = 4))

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 64 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
# **LIGNES DE COMMANDES ****** SIMULATIONS NUMRIQUES *****
# Illustration graphique de la loi des grands nombres :
# Lorsque n augmente, on observe les suites de distributions
# Les frquences tendent vers une valeur limite : la probabilit
# Les carts cette valeur limite sont de plus en plus faibles On gnre les tailles d'chantillons
# comme suit :
nechant <- rep(c(10, 20, 50, 100, 500, 1000), 20 rptitions du nombre 10, 20
c(20, 20, 20, 20, 20, 20)) rptitions du nombre 20, .., 20
simfreqar <- c(rbinom(20, 10, .3)/10, rptitions du nombre 1000, mise dans
rbinom(20, 20, .3)/20, rbinom(20, 50, .3)/50, nechant qui constituerons les abscisses
rbinom(20, 100, .3)/100, rbinom(20, 500, .3)/500, des points tracer.
rbinom(20, 1000, .3)/1000) 20 nombres au hasard sont tirs dans une
dev.off() distribution binomiale(10, 0,3), 20
plot(nechant, simfreqar, xaxp = c(0, 1000, 10), nombres au hasard sont tirs dans une
main = "Distributions des frquences des succs") distribution binomiale(20, 0,3), , 20
dev.new() nombres au hasard sont tirs dans une
plot(as.factor(nechant), simfreqar, distribution binomiale(1000, 0,3), Les
xlab = "chantillons par tailles", frquences sont calcules en mme temps.
ylab = "Frquence des succs", Nuage de points des frquences en
main = "Rsum des distributions") fonction des tailles d'chantillons.
Rsum des sries de 20 valeurs
(binomiales) sous formes de boites
moustaches.

Pour s'entrainer : Raliser cette simulation sous forme d'une


fonction paramtrable...

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 65 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
Annexe 5 Mthode de Monte-Carlo 25
La mthode de Monte-Carlo est une mthode probabiliste permettant le calcul approch dintgrales
(simples ou multiples) de fonctions quelle que soit leur rgularit. Cest cette proprit qui explique
son intrt par rapport aux mthodes dterministes classiques.
1
Pour simplifier cette prsentation, on suppose que lon cherche calculer p = 0
f ( x)dx pour une
fonction continue sur [0,1] valeurs dans [0,1].

A. Mthode dite du rejet


Comme p est donc laire du domaine D ( x, y ) [0,1] / y f ( x) , une premire mthode possible
est de tirer alatoirement un grand nombre de points du carr [0,1] et de faire le quotient entre le
nombre de points situs dans le domaine D et le nombre total de points.

Exemple
On peut voir sur la figure 17 ci-dessous le rsultat graphique dans le cas de la fonction
2
f ( x) ( x3 x 1) .
3
1
Avec N 10000 points, une excution de lalgorithme donne une valeur approche de 0
f ( x)dx
gale 0,6056.
11
La valeur exacte est 0,6111 .
18

Figure 17 : tirage de 10000 points de [0,1]

25
Ce paragraphe peut tre rserv une seconde lecture : son contenu nest pas au programme mais peut tre
trait dans le cadre de laccompagnement personnalis en TS.
Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 66 sur 70
Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
Voici ce que donne lalgorithme pour la fonction
f ( x) Ent (10 x) / 10 o Ent dsigne la partie entire.
On voit que la mthode fonctionne mme avec des fonctions
prsentant des discontinuits. Cest son avantage sur les
mthodes de calcul approch classiques (trapzes,
Simpson,...).
Document associ : monte carlo.alg

Justification
On considre deux variables indpendantes X et Y suivant la loi uniforme sur [0,1].
On admet que Y f ( X ) p . Lexemple ci-dessous permet de vrifier cette proprit sur un cas
particulier.
Si on considre X1 , Y1 ,......, X n , Yn n couples de variables alatoires indpendantes suivant la loi
uniforme sur [0,1], on a Yk f ( X k ) p pour tout k 1,.., n .
Si S n reprsente le nombre de couples X k , Yk tels que Yk f ( X k ) , alors S n suit une loi binomiale
S
de paramtres n et p. La loi des grands nombres 26 permet daffirmer que la suite n converge en
n
S
probabilit vers p c'est--dire que pour tout 0 , n p 0 quand n tend vers linfini.
n
Si on gnre avec un ordinateur un grand nombre de couples alatoires X k ,Yk , la proportion f de
ces couples pour lesquels Yk f ( X k ) fournit donc une valeur approche de p.
1 1
De plus si n 30 et nf 5 et n(1 f ) 5 alors lintervalle f ,f est un intervalle de
n n
confiance de p au niveau 0,95.
Avec n 10000 on obtient une prcision de 0,01 avec une confiance de 0,95.
Exemple
On prend ici la fonction f dfinie par f ( x) x et on pose Z f ( X ) Y X Y o les deux
variables indpendantes X et Y suivent la loi uniforme sur [0,1].
On a p Y X Z 0 .
g ( x) x 1 si x 1,0
On admet que la densit de Z est la fonction g dfinie sur [-1,1] par
g ( x) 1 x si x 0,1
1 1
Alors Z 0
0
g ( x)dx
3
.

26
Voir annexe 1.
Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 67 sur 70
Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
B. Mthode de lesprance
On admet le rsultat suivant :
Si X est une variable alatoire suivant une loi uniforme sur [0,1] et si f est une fonction continue sur
1
[0,1] alors la variable alatoire Y f ( X ) possde une esprance gale p 0
f ( x)dx . 27

Lexemple ci-dessous donne une approche de ce rsultat.


Si on considre n variables indpendantes X 1 ,....., X n suivant une loi uniforme sur [0,1], alors la
n

f (X
k 1
k)
variable converge en probabilit vers p.
n

Exemple
On prend ici la fonction f dfinie par f ( x) ln(1 x) pour x [0,1[ et on pose
Y f ( X ) ln(1 X ) o X suit une loi uniforme sur [0,1].


On a Y x X 1 e x 1 e x pour x [0, [ .

Donc Y suit une loi exponentielle de paramtre 1. On sait alors que (Y ) 1 .


1
Le calcul de lintgrale ln(1 x)dx est un exercice classique danalyse.
0

2 3
Avec N=10000 et la fonction f ( x ) ( x x 1) , une excution
3
de lalgorithme donne une valeur approche de 0,6101.
Il peut tre intressant de comparer lefficacit des deux mthodes.
On peut constater que la mthode de lesprance est en gnral un
peu plus prcise.

Document associ : monte Carlo bis.alg

Remarque
La mthode de Monte-Carlo est couramment utilise pour calculer des aires ou des volumes. Elle est
plus aise mettre en uvre que des mthodes dterministes.

27
Cest un cas particulier dun thorme de probabilit connu sous le nom de thorme du transfert .
Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 68 sur 70
Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
Annexe 6 Comparaison de deux frequences et difference significative

A. Une situation tres frquente en sciences experimentales et en economie

Une situation trs frquente dans les dmarches exprimentales est davoir comparer deux sries de
mesures, ou deux frquences, pour tudier par exemple linfluence dun facteur. On peut alors utiliser
un test de comparaison (mais il sagit alors dune bote noire dont on ne peut que difficilement
justifier le fonctionnement au niveau des classes de terminales) ou, ce qui est souvent pratiqu dans les
autres disciplines, comparer deux intervalles de confiance ou barres derreurs .

Exemple 1 : erreurs de mesure


Un document traitant de lestimation des incertitudes sur les erreurs de mesure (Universit de
Strasbourg Sciences physiques) indique quon peut comparer des valeurs de faon trs simple, par
comparaison des segments dincertitude (il sagit gnralement dintervalles de confiance 95 %).
Les segments doivent avoir une partie commune ; dans le cas contraire, soit lincertitude est trop
faible (mauvaise valuation de lerreur), soit il y a un rsultat erron. Cette mthode est intressante
pour une comparaison globale de rsultats exprimentaux, provenant par exemple dexpriences
diffrentes.

Exemple 2 : prvalence du chikungunya Mayotte

Deux intervalles de confiance non disjoints : pas de diffrence significative.

Le paragraphe qui suit, bien que sappuyant sur un certain nombre de rsultats admis, a pour objectifs
de donner des lments de justification du critre retenu en terminale STI2D-STL pour juger dune
diffrence significative de deux proportions.

Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 69 sur 70


Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog
B. Comparaison de deux frequences

On souhaite comparer les proportions p1 et p2 d'un mme caractre, dans deux populations distinctes,
partir de lobservation des frquences f1 et f2 observes sur un chantillon de chacune des deux
populations. La question pose est de savoir si la diffrence f1 f2 est significative.

On suppose que les proportions des deux populations sont les mmes : p1 p2.
Sous cette hypothse dgalit des proportions des deux populations, la variable alatoire F1 F2, qui
chaque paire d'chantillons de taille n1 et n2, respectivement issus de chacune des deux populations,
associe la diffrence f1 f2 des frquences observes, suit approximativement pour n1 et n2 assez
f (1 f1 ) f 2 (1 f 2 )
grands, la loi normale N (0, 1 ).
n1 n2

Remarque
Lesprance de la variable F F2 gale la diffrence p 1 p 2 est nulle compte tenu de lhypothse.
La variance de la variable F F2 est gale la somme des variances car les variances s'ajoutent si l'on
suppose les variables F1 et F2 indpendantes.

Dans ces conditions, on peut dterminer lintervalle de fluctuation de la variable F1 F2 au seuil de


5%, do :
f (1 f 1) f 2 (1 f 2 ) f (1 f 1) f 2 (1 f 2 )
P( 1,96 1 F1 F2 1,96 1 ) = 0,95.
n1 n2 n1 n2

On conclut en disant que lobservation dune diffrence f1 f2, obtenue partir des frquences
f (1 f1 ) f 2 (1 f 2 )
observes, vrifiant f1 f 2 1,96 1 remet en question lhypothse p1 p2
n1 n2
puisque avec lhypothse p1 p2 cette situation na que 5% de chances de se produire.

C. Intersection de deux intervalles de confiance

Conformment aux notions prsentes en classe de terminale, on peut dterminer partir de


lobservation f1, un intervalle de confiance pour la proportion p1 au niveau de confiance de 95% :
f1 (1 f1 ) f (1 f1 )
f1 1,96 , f1 1,96 1 .
n1 n1
De mme, on peut dterminer, partir de lobservation f2, un intervalle de confiance pour la proportion
p2 au niveau de confiance de 95 % :
f 2 (1 f 2 ) f (1 f 2 )
f 2 1,96 , f 2 1,96 2 .
n2 n2
On peut alors dcider quil existe une diffrence significative entre f1 et f2 lorsque les
intervalles de confiance prcdents sont disjoints, cest--dire lorsque :
f1 (1 f1 ) f 2 (1 f 2 )
f1 f 2 1,96
n1 n2

Si lon compare ce critre de diffrence significative au prcdent, on constate quil est
plus svre puisque :
f1 (1 f1 ) f 2 (1 f 2 ) f1 (1 f1 ) f 2 (1 f 2 )
.
n1 n2 n1 n2
Ministre de lducation nationale, de la jeunesse et de la vie associative (DGESCO) Page 70 sur 70
Mathmatiques - Probabilits et statistique
http://eduscol.education.fr/prog