Académique Documents
Professionnel Documents
Culture Documents
PROBABILITÉS
ET
STATISTIQUES
Sommaire
Chapitre 1 Statistique descriptive 4
1 La statistique et les statistiques 4
2 Généralités sur les distributions statistiques 4
2.1 Population et échantillon
2.2 Variables statistiques
2.2.1 Variables quantitatives
2.2.2 Variables qualitatives ou catégorielles.
3 Distribution statistique d’une variable 5
3.1 Données brutes
3.2 Suites ordonnées
3.3 Distribution d’effectifs.
3.4 Intervalles de classe - bornes - centre de classe
3.5 Représentation des données
4 Indices de Position – Indices de dispersion. 8
4.1 Indices de position (moyenne, médiane, mode)
4.2 Indices de dispersion (étendue, valeurs extrêmes, quantiles, variance, écart-type)
5 Somme de deux variables 10
Chapitre 2 Principales distributions de probabilité 13
1 Notion de variable aléatoire 13
2 Loi de probabilité d’une variable aléatoire discrète 13
2.1 Loi Binomiale ou distribution de Bernoulli
2.2 Loi de Poisson :
3 Loi de probabilité d’une variable aléatoire continue 14
3.1 Loi de Laplace –Gauss (ou loi normale) 14
3.1.1 Définition de la loi normale
1 Le chi-deux d’indépendance 39
2 Le chi-deux d’ajustement 41
3 Table de chi-deux 42
Chapitre 10 Tests non paramétriques 45
1 Principes des tests non paramétriques 45
2 Tests non paramétriques avec échantillons indépendants 45
3 Table de U - pour le test de Mann et Whitney 47
4 Tests non paramétriques avec échantillons appariés 47
48
Références
Chapitre 1
Statistique Descriptive
1. La statistique et les statistiques
La statistique est une « méthode de raisonnement permettant d’interpréter le genre de données très
particulières, qu’on rencontre notamment dans les sciences de la vie, dont le caractère essentiel est
la variabilité « D. Schwartz ».
Les statistiques ensemble des données relatives à un groupe d’individus ou d’unités.
La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une
population donnée, sans tirer de conclusion pour une population plus grande.
Population : ensemble de tous les individus qui relèvent d’une définition donnée.
La population est plus ou moins vaste, selon sa définition (parfois, des milliers de sujets).
Les variables nominales : Il n’existe pas d’ordre naturel. Chaque classe désigne une
catégorie (elle la nomme). Par exemple, pour la couleur des yeux : noir / marron / vert /bleu.
3.3. Distribution d’effectifs. Après avoir ordonné les données, on découpe l’étendue en classes (ou
catégories) et on dénombre toutes les mesures qui tombent à l’intérieur d’une même classe. A
chaque classe on associe l’effectif (et la fréquence).
Elle dépend du type de la variable étudiée. Il existe des formes de présentation différentes pour les
variables quantitatives et catégorielles.
Le tableau
Le tableau est utilisable quelle que soit la nature des données. Il permet de présenter de façon
complète et précise les données
Quelques principes :
Par convention, le titre du tableau figure au dessus du tableau. Il doit être informatif.
Dans un bandeau de titre, on indique la nature des informations, avec un trait plein au dessus et au
dessous du bandeau.
Les chiffres sont alignés par colonne et le même nombre de décimale est donné.
Le graphique
Probabilités et Statistiques PAES 2011 L FOUCAN
7
Effectif
ou fréquence
Age (ans)
Figure : Distribution de l’âge
Chez 180 hommes.
Ils permettent de présenter de manière synthétique les données observées dans l’échantillon.
Propriétés de la moyenne
On peut réaliser un changement d’origine et/ou d’échelle pour simplifier les calculs
Changement d’origine : (méthode de la moyenne provisoire)
Soit la variable X’ = X – x0
On démontre que X ' = X – x0 X = X ' + x0
On a intérêt à choisir x0 de manière à obtenir une simplification des calculs et donc des
valeurs très petites de X’. Il faut choisir de préférence le mode.
Changement d’échelle :
X X
X’ = X' = X = h X'
h h
Changement d’origine et Changement d’échelle
X x0 X x0
X’ = X' = X = h X ' + x0
h h
Autre propriété : la somme algébrique des écarts à la moyenne est nulle.
4.1.2 La médiane
La médiane est la valeur centrale de la distribution, qui divise l’échantillon en deux moitiés de taille
égale (même effectif). . L’une à toutes les valeurs supérieures à la médiane, l’autre a toutes les
valeurs qui lui sont inférieures.
- Si n est un nombre pair, on considère que la médiane est à mi-chemin entre les deux valeurs du
milieu.
16, 17, 19, 20, 23, 24
médiane = (19 + 20)/2 = 19, 5 ans.
4.2.2 Etendue : L’étendue d’une série correspond à la différence entre les valeurs extrêmes.
-Premier quartile : valeur de la série qui a 25% (n/4) de la distribution au dessous et 75% au
dessus.
-Deuxième quartile, correspond à la médiane a 50% (n/2) au dessous et 50% au dessus.
-Troisième quartile, valeur de la série qui a 75% (3n/4) de la distribution au dessous et 25% au
dessus.
Déciles : partagent la distribution en 10 parties égales
Centiles: partagent la distribution en 100 parties égales
4.2.4 Variance
Définition de la variance
La variance est égale à la somme des carrés des écarts à la moyenne divisée par l’effectif total.
Si x = (x1, x2, ……xn)
La variance est notée var (x), σ2, ou s2 pour l’échantillon.
n
x X
2
s2 (X) = i 1 x X
n 2
N i 1
La variance a l’unité de la variable au carré: si x est par exemple une longueur exprimée en cm, la
variance est exprimée en cm2
Si on développe le numérateur, on obtient
2 xi2 xi 2
n
x X
N
i 1
On peut écrire la formule de la variance sous la forme suivante.
s2 (X) = T2 T1 / N avec
2 N N
N
T1 = x
i 1
i
et T2 = x c’est la formule la plus utile pour
i 1
i
2
5. Somme de 2 variables
Pour la moyenne
Soit Y et Z deux variables quantitatives (ou plus généralement 2 variables aléatoires)
et soit X = Y + Z
On démontre que X Y Z
L’espérance d’une somme algébrique de variables aléatoires est la somme algébrique des
espérances de ces variables.
IL en résulte que :
y Y z Z
N 2
i i
i 1
s2 (X) =
N
En développant, on trouve
y y
N N
y z
2 2 Y zi Z Y zi Z
2 Y Z i i
s (X) = 2 i 1
cov Y , Z i 1
i i
N N N N
s2 (Y + Z) = s2 (Y ) + s2 ( Z) + 2 cov (Y, Z)
La relation entre les variances se simplifie si les 2 variables Y et Z résultent de 2 tirages
indépendants dans une population. Mais
La covariance de deux variables aléatoires indépendantes est nulle.
Cov (Y, Z) = 0 et donc
s2 (Y + Z) = s2 (Y ) + s2 ( Z)
Remarque si X = Y – Z
De la même façon :
X Y Z
s2 (Y - Z) = s2 (Y ) + s2 ( Z) - 2 cov (Y, Z)
et on retrouve si Y et Z sont indépendants
s2 (Y - Z) = s2 (Y ) + s2 ( Z)
Exercice
On dose une enzyme chez 100 individus normaux avec les résultats suivants (les dosages sont exprimés
en unités arbitraires :U)
Classe Effectif
[4à6 U[ 25
[6à8 U[ 40
[ 8 à 10 U [ 20
[10 à 12 U[ 10
[12 à 14 U[ 5
(Pour les classes : borne inférieure comprise, borne supérieure exclue)
1.1 - Quelle est la classe modale de cette distribution ? Donner sa définition.
1.2 – On admet que X est le centre de classe.
Après un changement d’origine : Y = X – 9, on obtient :
- la somme des valeurs de Y niyi = - 140
- la somme des carrés des valeurs de Y niyi2 = 680
Calculer la moyenne et la variance du taux de cette enzyme.
1.3 – Quels sont les pourcentages de sujets ayant :
a) une valeur inférieure à 8
b) une valeur supérieure ou égale à 10
1.4 – Tracer l’histogramme correspondant à cette distribution
Corrigé
1.1 : Classe modale 6 à 8
Sa définition : c’est la classe des valeurs de cette variable la plus souvent rencontrée (ou encore ayant
l’effectif le plus élevé).
1.2 : Calcul de la moyenne et de l’écart-type
- Y = X – x0 mx = my + x0
- my =
niyi -1,4 U mx = - 1,4 + 9 mx = 7,6 U
N
T2 T12 N
- s2 y = s2y = 4,84
N
s2y = s2x s2x= 4,84 U2
Chapitre 2
Principales distributions de probabilité
En général, on ne connaît pas les distributions des variables que l’on étudie dans une population et
on essaie de rattacher ces distributions à certaines lois théoriques qui constituent des modèles.
La variable x est dite discontinue si elle ne peut prendre que certaines valeurs x1, x2, xi..xn. On
parle aussi de variable discrète.
On peut associer à chaque valeur de xi une probabilité pi telle que : pi= Pr (X=xi).
Les lois principales sont :
- la loi binomiale
- la loi de Poisson
Une variable est dite continue si elle peut prendre toutes les valeurs sur un certain intervalle fini ou
infini.
La principale loi de probabilité est la loi de Laplace-Gauss dite encore loi Normale.
C’est donc une loi discontinue qui ne dépend que d’un seul paramètre a.
De nombreux phénomènes suivent une loi de Poisson. Elle permet de représenter la survenue
d’évènements qui se produisent au hasard dans le temps ou dans l’espace.
Exemple : en pharmacovigilance, la loi de Poisson permet d’estimer la fréquence des évènements
adverses à partir des rares cas signalés.
Exemple : le nombre d’éléments (bactéries, hématies…etc.) d’une solution très diluée observée
dans le champ d’un appareil appelé hématimètre.
Cet appareil comporte un certain nombre de carrés et on compte le nombre d’éléments par carré. Si
la préparation est homogène, la distribution observée doit suivre une loi de Poisson. Dans le cas
contraire, la préparation n’est pas homogène.
Désignons la variable réduite par le symbole U (elle est parfois nommée ε). On montre qu’on peut
passer d’une variable normale quelconque X à une variable réduite U par un changement de
variable linéaire de la forme :
X
X = + U Soit U =
Propriétés de la loi normale réduite
La moyenne E(U) = 0, la variance Var (U) = 1
U = N (0,1) C’est la variable normale centrée réduite (encore appelée variable réduite) ;
-u 0 +u
Règle : Pour obtenir une variable normale réduite U à partir d’une variable normale X de
moyenne et d’écart-type , il suffit de lui retrancher sa moyenne et de la diviser par son écart-
X
type. U = .
Toute question posée sur X sera transformée en question posée sur U.
On déduit facilement la probabilité pour qu'une variable suivant une loi normale quelconque X(μ, σ)
de moyenne μ et d'écart-type σ, soit comprise dans un intervalle donné [x1, x2] :
x1 x2
Pr (x1 < X <x2) = Pr ( <U< )
3.1.4 Table de l’écart –réduit P (u) est associée à cette loi normale : elle donne pour chaque valeur
de U la probabilité que U soit à l’extérieur de l’intervalle (-u ; +u)
P (u) = Pr (U < -u ou U > u)
Ou = Pr (| U| > u)
P(u ) -u 0 +u P(u )
2 2
1 – P(u)
P(u) est représenté par la zone hachurée.
On en déduit que
1 – P(u) = Pr (-u ≤ U ≤ u)ou ≤
P(u )
a) Pr1(u) = Pr (U > u) Pr1(u) =
2
P(u )
b) Pr2(u) = Pr (U < u) Pr2(u) = 1 -
2
1 P( u ) P(u )
c) Pr3 (u) = (0 < U < u) Pr3 (u) = (ou encore 0,5 – )
2 2
Exercices
Exercice 1.
Soit une variable aléatoire X distribuée selon une loi normale centrée réduite
Quelle est la valeur de la limite y pour que les expressions suivantes soient vérifiées ?
a) Pr (x > y) = 0,70
b) Pr (x > y) = 0,40
Exercice 2.
Dans une population, on admet que la valeur X du taux de cholestérol sanguin obéit à une loi normale
de moyenne = 2,2 g/l et d’écart-type = 0,5 g/l.
2.1 – De quel type de variable s’agit-il ?
2.2 - Quelles sont les probabilités pour qu’un sujet tiré au hasard ait un taux de cholestérol
a) – supérieur à 1,2g/l
b) – compris entre 1,2g/l et 2,7g/l
__________________________
Corrigé exercice 1
X est une variable aléatoire distribuée selon une loi normale centrée réduite
La valeur de la limite y pour que les expressions suivantes soient vérifiées
a)Pr (x > y) = 0,70
y<0
1- = 0,70 0,60 y = - 0,524
2
b)Pr (x > y) = 0,40 = 0,40 0,80 y = 0,253
2
Corrigé exercice 2
2.1 – Le taux de cholestérol sanguin est une variable quantitative
Chapitre 3
PROBABILITÉS CONDITIONNELLES
INDÉPENDANCE ENTRE ÉVENEMENTS - THÉORÈME DE BAYES.
1.Généralités
On appelle évènements élémentaires, l’ensemble des éventualités possibles résultant d’une
expérience ou d’une observation.
Exemple : en jetant un dé, les événements élémentaires sont constitués par l’apparition de l’une des 6
faces.
L’évènement est un sous-ensemble A d’un ensemble E (constitué par toutes les éventualités
possibles).
2. Probabilités conditionnelles
Dans un ensemble E des évènements possibles, considérons deux évènements A et B.
A est le complémentaire de A
B est le complémentaire de B
Il est possible de calculer la probabilité de l’évènement A si l’évènement B s’est déjà produit.
Il s’agit d’une probabilité conditionnelle
Pr( A B)
Pr (A si B) ou Pr A sachant B ou Pr (A|B) Pr (A|B) =
Pr(B)
Soit le rapport de Pr ( A et B) sur Pr (B)
Cette formule est valide si Pr(B) > 0 : B n’est pas un évènement impossible.
Réversibilité de la formule
(A et B) est le même évènement que (B et A) ; Ils correspondent tous les deux à l’ensemble des
évènements appartenant à la fois à A et à B.
On peut écrire de manière équivalente Pr (A B) = Pr (A).Pr (B|A)
Pr (B A) = Pr (B) . Pr (A| B)
Pr (A B) = Pr (B A)
Au total : Pr (A) . Pr (B|A) = Pr (B) . Pr (A| B)
3. Indépendance en Probabilité
On dit que deux évènements A et B sont indépendants si la connaissance de l’un ne modifie pas la
probabilité de l’autre.
Alors si A et B sont indépendants,
Pr (A) = Pr (A|B). La réalisation de B n’a aucune influence sur celle de A
Pr (B) = Pr (B|A) La réalisation de A n’a aucune influence sur celle de B.
Selon la probabilité conditionnelle Pr (A B) = Pr (A) . Pr (B|A)
Pr (A B) = Pr (A) . Pr (B)
4.Théorème de Bayes
On s’intéresse à la modification des probabilités d’évènements suite à la connaissance des faits.
Il s’agit d’exprimer Pr (A|B), probabilités de A à posteriori (connaissant B) en fonction de probabilité
de A à priori.
Pr( A B)
Pr (A|B) =
Pr(B)
En changeant la formulation du numérateur
Pr(B A). Pr( A)
Pr (A|B) =
Pr(B)
En général, on ne connait pas B. On peut l’exprimer en fonction de A
Pr (B) = Pr (A B) + Pr ( A B)
Les évènements (A B) et ( A B) sont incompatibles. La probabilité d’avoir l’un et l’autre est
la somme des probabilités.
Pr (B) = Pr (B|A) . Pr (A) + Pr (B| A ) . Pr ( A ).
Le théorème de Bayes
Pr (A|B) = Pr( A B) Pr( B A). Pr( A)
Pr( B) Pr(B A). Pr( A) Pr( B A). Pr( A)
____________________________________________
Exercices
Exercice 1
Considérons 2 évènements :
A : tirer une face paire au jeu de dés
B : tirer un multiple de 3.
Donner les valeurs des proabilités suivantes : Pr(A), Pr(B) et Pr (A B)
Exercice 2
Soixante pout cent des individus atteints d’une maladie (M) sont des femmes. Elles proviennent d’une
population ou il y a 50% de femmes et 50% d’hommes. Dans cette population, la fréquence de la
maladie est de 2%. Quelle est la fréquence de la maladie chez les femmes.
Corrigés
exercice 1 : Tirer une face paire et tirer un multiple de 3 sont deux évènements indépendants en probabilité.
3 2
Pr (A) = Pr (B) =
6 6
1
Pr (A B) = probabilité de tirer une face paire multiple de 3 (c’est à la dire la face 6) =
6
3 2 6 1
On trouve un résultat identique avec le calcul de Pr (A B) = Pr (A) . Pr (B) = .
6 6 36 6
exercice 2
En fonction des probabilités conditionnelles, on peut écrire Pr (F). Pr (M|F) = Pr (M). Pr (F| M)
Pr (F| M)= 0,60 Pr (F) = 0,50 Pr (M) = 0,02
Pr(F M ). Pr(M )
La fréquence de la maladie chez les femmes. Pr (M|F)=
Pr(F )
0,60.0,02
Pr (M|F)= 0.024 La fréquence de la maladie chez les femmes. Pr (M|F) = 2,4%
0,50
Chapitre 4
Fluctuation d’échantillonnage
1 Population des Echantillons issus d’une population d’individu
Le calcul d’un intervalle de fluctuation est donc une autre manière de représenter la dispersion
d’une variable.
N N
On ne peut définir un intervalle de pari pour un risque qui lui est associé (risque d’erreur
consenti).
La fréquence observée est susceptible de se trouver dans un intervalle défini par un écart autour de
P.
Conditions d’application Si N.P et NQ > 5
P.Q
Ip au risque : f [ P + U ] avec Q = 1 – P.
N
** Grand échantillon pour variable qualitative : N.P et NQ > 5 (ou > 10 pour certains
auteurs).
Dans le domaine médical, les paramètres étudiés suivent souvent (de manière approchée) une loi
normale
Ainsi on peut démontrer, qu’une moyenne ou une fréquence observée suivent approximativement
une loi normale dès que la taille de l’échantillon est assez grande.
Ce résultat est approché lorsque l’effectif de l’échantillon est « grand » est exact si la distribution de
la variable X est elle même normale.
___________________
Exercice 1
Dans une population, la fréquence d’un facteur est de 12%.
On tire au hasard un échantillon de 100 sujets.
Calculer l’intervalle de pari à 95% et à 99% de la fréquence de ce facteur
Corrigé 1
P = 0,12 et n=100
Les conditions d’applications sont vérifiées pour le calcul de l’intervalle de pari d’un pourcentage puisque :
np =12 et Nq = 88 sont > 5
L’intervalle de fluctuation à 95% ( = 0,05 U = 1,96)
f 0,12 + 1,96 0,12 * 0,88.
100
0,12 + 0,064
Exercice 2
Dans une population, le poids de naissance des nouveau-nés a une moyenne = 3300g et une
variance = 250 000 g2. Considérons des échantillons de 400 nouveaux nés tirés au sort dans cette
population. Calculer l’intervalle de pari à 95% et à 99% de la moyenne du poids de naissance.
N > 30
1. Intervalle de fluctuation ( pari) à 95% de la moyenne m des poids de naissance observés sur ces
échantillons est
3300 + 1,96 250000 3300 + 49
400
m [3251 ; 3349] g
Chapitre 5
1.Estimation ponctuelle
Définitions et notations
L’estimation consiste à attribuer une valeur au paramètre étudié à partir des observations faites sur l’échantillon.
Cette valeur numérique = estimation
Il est préférable, de noter différemment la valeur vraie (valeur théorique) du paramètre dans la
population, et la valeur estimée sur un échantillon.
Les notations des estimations des paramètres les plus couramment utilisées :
Estimateur, définition
La formule ou procédure mathématique utilisée pour « estimer » s’appelle l’estimateur
Les qualités d’un estimateur dépendent de la formule utilisée pour le calculer et de la façon dont a été choisi
l’échantillon.
Les échantillons représentatifs de la population (en pratique, tirés au sort) permettent d’éviter la plupart
des erreurs dues au choix de l’échantillon.
Pour qu’un estimateur convienne, il faut vérifier qu’il présente 2 qualités principales : absence de biais
et variance faible.
Estimateur sans biais : un estimateur sans biais donne en moyenne la bonne valeur du
paramètre.
Une variance faible indique que les estimations sont peu dispersées et qu’il y a donc peu d’écarts
entre les valeurs issues de 2 échantillons distincts
L’absence de biais signifie que les estimations obtenues sur des échantillons successifs ne s’écartent
pas de la vraie valeur de manière systématique.
Un estimateur est donc d’autant meilleur qu’il est sans biais et a une variance minimum.
La moyenne des fréquences observées f sur des échantillons tirés au sort était égale à la fréquence P
théorique dans la population de la variable qualitative étudiée
E (f) = P f estime P
La moyenne des moyennes observées m sur des échantillons tirés au sort était égale à la moyenne
théorique dans la population de la variable quantitative étudiée
E (m) = m estime
La fréquence et la moyenne observées (sur des échantillons tirés au sort) sont des estimateurs sans
biais des moyennes et fréquences théoriques.
La variance
Soit E un échantillon, d’effectif N, correctement extrait de P. On s’intéresse à une variable quantitative
X dans cette population.
Soit 2 la variance théorique et inconnue d’une variable quantitative X dans une population P.
m et s2 étant respectivement la moyenne et la variance de X observées dans l’échantillon E .
N
x m
2
i
2 i 1
s (X) =
N
On démontre que s2 est un estimateur biaisé pour 2 .
1 1
L’estimateur de 2 comprend un facteur (et non )
N 1 N
Soit P une population dans laquelle la variable quantitative X a une moyenne inconnue (ou la
variable qualitative Y a une fréquence théorique p inconnue).
L’intervalle de confiance d’un paramètre inconnu est l’intervalle dans lequel le paramètre inconnu
qu’on cherche à estimer a une probabilité (1 - α) de se trouver et α de ne pas se trouver.
2.1 Variable quantitative – estimation d’une moyenne par intervalle de confiance (Ic)
Pour un risque α donné, la précision du renseignement est donnée par l’intervalle de confiance.
Elle d’autant plus grande que l’intervalle est petit.
s
Uα. est la précision de l’estimation de la moyenne.
N 1
f (1 f )
Uα. est la précision de l’estimation du pourcentage.
N
Il est possible de déterminer le nombre minimum de sujets nécessaire pour un sondage, à condition :
de fixer i (la précision désirée) et
de connaître P. P étant inconnu, on peut utiliser une valeur approximative par ex f obtenue au
préalable sur un petit échantillon.
Si on veut obtenir une précision fixée à l’avance, c'est-à-dire un intervalle de confiance déterminé par
± i, on doit avoir, pour un risque α donné
f (1 f )
i = Uα.
N
U f (1 f )
2
et donc n=
i2
______________________
Exercice 1
Dans une population P , on s’intéresse au taux de cholestérol sanguin (g/l).
On tire au hasard un échantillon de 32 femmes . La moyenne et l’écart-type du taux de cholestérol de
l’échantillon sont égal à 2,2 et 0,52.
Calculer l’intervalle de confiance à 99% pour le taux moyen de cholestérol de la population totale des
femmes.
Corrigé de l’exercice 1
Taux de cholestérol sanguin en g/l = variable quantitative
N est grand > 30
Ic à 99% = 0,01 U = 2,57
s 0,52
m + U 2, 2 + 2,57 2, 2 + 2,57 0,09
N 1 31
Ic 99% [1,96 ; 2,44] g/l
Exercice 2
Dans un centre anti-cancéreux, on examine après tirage au sort un échantillon de 100 femmes pour
lesquelles on suspecte un cancer utérin.. En fait 25% de ces femmes présentent un cancer utérin. Quel est
l’intervalle de confiance au risque 5 % de la fréquence du K utérin dans la population féminine suspecte
reçue au centre anti-cancéreux.
Corrigé de l’exercice 2
L’Ic au risque 5% de la fréquence du K utérin dans la population féminine suspecte au centre anti-cancéreux.
N =100 f =0,25. On suppose que l’échantillon est grand. Les conditions d’application (npi , nqi, nps, nqs > 5
seront vérifiées à portériori).
0,25 0,75
P [0,25+ 2 ] Ic95% P [0,16 ; 0,34]
100
Conditions vérifiées : npi, nqi, nps, nqs > 5
___________________________________________________________
Chapitre 6
Comparaison d’une caractéristique observée à une caractéristique
théorique. Les tests statistiques.
La question posée dans le cas d’une moyenne, dans le cas d’une moyenne : la moyenne observée
m diffère t’elle de moyenne théorique (connue) ?
L’échantillon E est-il représentatif de P ?
En fait, on veut savoir si la différence observée est attribuable aux fluctuations d’échantillonnage ou
si elle correspond à une différence réelle.
Le test statistique permet de répondre à cette question. Il est basé sur l’estimation de l’écart-réduit.
a) = risque de première espèce. Risque d’erreur, est le risque de rejeter l’hypothèse nulle alors
qu’en fait elle est exacte.
b) = risque de deuxième espèce ou manque de puissance, est le risque de ne pas rejeter l’hypothèse
nulle alors qu’en fait elle est fausse. C’est la probabilité de ne pas mettre en évidence une
différence qui existe réellement.
On choisit le plus souvent un risque de 5%. Ce risque fixé est appelé seuil de signification,
c) 1 - :puissance du test. C’est la probabilité de mettre en évidence une différence qui existe
réellement.
Synthèse
Réalité Décision
On ne rejette pas H0 Rejet de H0
H0 vraie 1-
H0 fausse 1-
Exemples
Exercice 1
On suppose que la moyenne de la taille normale des nouveaux -nés à terme est 50cm et l’écart-type 3.
Sur un échantillon de 50 nouveaux –nés représentatifs des prématurés (enfant nés avant terme) on
observe une moyenne de taille égale à 45 cm.
La différence est-elle significative ? C’est à dire peut-on affirmer que les prématurés naissent plus
petits que les nouveaux nés à terme ?
Corrigé de l’exercice 1
Dans la population P, 50cm et 3cm . Pour l’échantillon m= 45 cm
Il s’agit de comparer une moyenne observée à une moyenne théorique.
1 . Hypothèse nulle Ho
Il n’y a pas de différence significative entre la taille des prématurés et celle des nouveaux nés à terme
2 Sous l’hypothèse nulle Ho
N étant > 30.
m
U= qui est N (0, 1)
N
3 Le seuil = 0,05 (dans la table de l’écart-réduit, = 0,05 U = 1,96.
4 La zone de rejet (hachurée) _________________________________
-1,96 0 + 1,96
5) Calcul de la valeur numérique de U
45 50 5
U cal = = - . 50 = - 11,7
3 3
50
5) Décision U calculé tombe dans la zone de rejet. Je rejette H0 avec un risque de première espèce
0,05 et même à 10-4 . Il y a une différence significative entre les 2 moyennes
La taille des prématurés est significativement plus petite que celle des nouveaux nés à terme.
Exercice 2
Sur les 10 000 enfants nés de 1968 à 1973, on a compté 5300 filles.
On demande si la proportion de filles est compatible avec l’hypothèse d’équiprobabilité d’une fille et
d’un garçon au risque 1%?
Corrigé de l’exercice 2
On utilise le test de comparaison d’une fréquence observée à une fréquence théorique p = 0,5
1) L’hypothèse nulle : équiprobabilité des naissances d’une fille ou d’un garçon.
2) Sous H0
f p
np et n(1-p) > 5 U= Np et N(1-p) > 5)
p (1 p)
n
3) Seuil = 0,01 U = 2,567
4) Zone de rejet hachurée ___________________________
-2,57 0 + 2,57
5) calcul de U
0,53 0,50
Ucal = =6
0,50 * 0,50
10000
6) je rejette H0 avec un risque de 1ère espèce = 0,01 (et même < 10-8)
Il n’y a pas d’équiprobabilité de naissance d’une fille ou d’un garçon.
Chapitre 7
COMPARAISON de DEUX VARIANCES
Pour comparer les distributions d’une variable dans deux populations, on peut être amené à
comparer les variances.
La comparaison des variances permet aussi de vérifier les conditions d’application de tests
statistiques (exemple : test de Student).
1 Le Test de Fisher
Nous présentons la comparaison de deux variances observées, par leur rapport.
Soit deux échantillons d’effectifs n1 et n2 tirés au sort dans 2 populations.
Notons s1 et s2 les variances d’une variable X observées dans les deux échantillons.
On souhaite comparer les variances observées
Si le seuil choisi est = 0,05. Il faut utiliser la table desoit = 0,025 et le rapport est
2
ainsi comparé à la valeur de F donnée par la table (point 2,5%) à l’intersection de la colonne
(n1 – 1) et de la ligne (n2 – 1)
F
4ème Calcul de F0 On calcule celui des deux rapports qui est supérieur à 1.
5ème Décision
-Si F0 ne tombe pas dans la zone de rejet : on ne rejette pas H0 (l’hypothèse d’égalité des variances
est vérifiée). Les deux variances ne diffèrent pas significativement à 5%.
- Si F0 dépasse la valeur seuil (correspondant à dans la table de Fisher aux ddl appropriés), on
2
rejette H0 et on conclut à une différence significative entre les variances au risque .
2 . La table de Fisher (en annexe table de F point 2,5% et table avec 0,05, 0,025, 0,01, 0,001)
La table de Fisher FKk12 donne la valeur de Fα telle que = Pr ( FKk12 > Fα).
________________________________
Exercice :
On compare les variances d’une variable X estimée dans deux échantillons de taille n 1 = 6 et n2 = 15.
s12
On trouve F = 2 = 3. La variable X est distribuée normalement. Les deux variances sont-elles différentes au
s2
seuil = 5 %.
Corrigé de l’exercice:
H0 : 12 = 22 .
Le seuil n’est pas précisé dans l’énoncé, donc = 5 %.
Fnn2111 on cherche la valeur de F pour k1 (n1-1) et k2 (n2-1) ddl dans la table de Fisher pour la
ligne / 2 = 2,5 %. (ou dans la table de Fisher 2,5%).
Chapitre 8
Comparaison entre deux caractéristiques observées.
1. Comparaison de 2 moyennes observées
De manière plus générale, soit 2 échantillons d’effectifs n1 et n2 tirés au sort dans chacune des 2
populations que l’on compare.
Ces échantillons sont définis par
n1 m1 s1
n2 m2 s2
Problème: les moyennes m1 et m2 diffèrent-elles significativement ou non ?
22
et m2 suit approximativement une distribution normale est N ( 2 , )
n2
La différence m 1 -m 2 suit approximativement une loi normale de moyenne 1 - 2 et de variance
12 22
+ si les deux échantillons sont indépendants.
n1 n2
s12 s2
on démontre que m est N (0, 2 )
N1 N 2
Si les échantillons sont grands et indépendants,
L’hypothèse nulle Ho (m1 = m2) 1 = 2 ou 1 - 2 = 0
L’hypothèse alternative H1 1 ≠ 2 test bilatéral
2) Statistique de test
m1 m2
Sous H0, U= est N (0, 1)
s12 s2
2
N1 N2
3) Choix du seuil
4) Déterminer la zone de rejet
5) Calcul de U
6) Décision
* si U calculé tombe dans la zone de rejet
- on rejette H0 avec un risque de première espèce <
- la différence entre m1 et m2 est significative
si U calculé ne tombe pas dans la zone de rejet
- les données ne permettent pas de rejeter l’hypothèse d’égalité des
moyennes
- ou on accepte H0 avec un risque de 2ème espèce
Exercice :
On a appliqué à deux lots de souris deux traitements A ou B après tirage au sort. Les résultats sont
présentés dans le tableau suivant :
n M en jours de survie s2
Traitement A 50 16 16
Traitement B 50 18 14
Le délai moyen diffère t-il entre les deux groupes
Corrigé :
- il s’agit de la comparaison de 2 moyennes observées pour 2 échantillons indépendants
- H0 : il n’y a pas de différence entre A = B
m A mB
U= est N (0, 1)
s A2 s B2
nA nB
-Au seuil = 0,05, U = 1,96
-Définition de la zone de rejet de Ho (zone hachurée)
________|_______________________|_________
-1,96 0 + 1,96
16 18 2
-Calcul Ucalculé = = = - 2,6
16 14 0,6
50 50
-Décision :
On rejette H0 avec un risque < 0,05 et même < 10-5
Les délais moyens de survie sont significativement différents dans le sens d’une guérison
plus longue avec B (18 jours) ou plus courte avec A (16 jours).
Pour la condition 1 : la distribution peut-être normale compte tenu de la nature même de la variable
étudiée
Pour la condition 2, quand les échantillons sont petits, les estimations s12 et s 22 de σ12 et σ22
peuvent s’écarter beaucoup des vraies valeurs. On aborde le problème de la manière suivante :
On peut d’abord réaliser le test d’égalité des variances.
Si on suppose que σ12 = σ22, on calcule sur l’ensemble des échantillons une variance commune
s2, obtenue à partir des deux échantillons.
avec s2 = (n1 1) s1 (n2 1) s2
2 2
n1 n2 2
Cette variance commune, prend en compte la taille de chaque groupe.
m1 m2
Le paramètre T = suit une loi de Student à (n 1 + n 2 - 2) ddl
1 1
s
n1 n2
Si | t | < à la valeur de t lue dans la table, au risque α pour n1+n2-1 ddl, on ne rejette pas H0. La
différence n’est pas significative.
Dans le cas contraire (si t > t n1+n2-2) au seuil risque α on rejette H0. En fonction des valeurs
observées, m1 > m2 ou m2 > m1
On recherche, dans la table, le degré de signification p ; c’est la plus petite valeur telle que t > t
n1+n2-2
L’utilisation du test t reste possible dans le cas des grands échantillons
La table de la loi de Student indique, pour un nombre de ddl allant de 1 à 120, la probabilité
d’obtenir une valeur de T à l’extérieur de l’intervalle [- t , +t ] .
La table :
Indique donc la valeur telle que = Pr[T > t ]
La première colonne de la table correspond au nombre de degrés de liberté,
La première ligne donne des valeurs de
L’intersection d’une ligne et d’une colonne indique la valeur de t .
De manière générale, pour comparer les moyennes de deux séries appariées, on forme pour chaque
paire la différence des deux mesures et on compare l moyenne des n différences à 0.
di
La moyenne de ces différences md n couples (observations appariées)
n
Condition d’application : n ≥ 30
2 d i md 2
sd = variance des différences
N
Sous l’hypothèse nulle
md
Le paramètre U=
sd n 1
Si | U | < Uα (ex : < 1,96 si α = 5%), je ne rejette pas H0, les moyennes ne diffèrent pas
significativement.
| U | ≥ Uα (ex : ≥ 1,96 si α = 5%), je rejette H0 au risque correspondant à U (lu dans la table de
l’écart-réduit).
Si | t | < tα lu dans la table de t pour (n -1) ddl, et un risque α donné, je ne rejette pas H0, les
moyennes ne diffèrent pas significativement.
Si | t | ≥ tα lu dans la table de t pour (n -1) ddl,, je rejette H0 au risque correspondant à t (lu dans la
table de t). Les moyennes diffèrent significativement.
NB : Nous verrons dans un autre chapitre que l’on peut utiliser les test de pour comparer 2
fréquences
Sous H0 (ou f1 = f2), la différence (f1 – f2) est distribuée selon une
1 1
loi N (0, p.q.( ) )
n1 n2
n1. f1 n2 . f 2
- on estime la fréquence théorique par p = et q = 1-p
n1 n2
p et q désignent des proportions évaluées sur l’ensemble des deux échantillons.
Chapitre 9
Le test de chi-deux
Il est fréquent d’avoir à comparer 2 pourcentages. En effet, la maladie est souvent caractérisée par
une variable dichotomique (malade / non malade).
Par exemple, si on veut savoir si le taux de guérison est ou non amélioré par un traitement, on sera
amené à comparer des pourcentages de malades (ceux guéris sans traitement, ceux guéris sous
traitement).
Le plus souvent, on compare des pourcentages (ou des distributions) observés dans deux
échantillons (ou plus) mais on est parfois aussi amené à comparer un pourcentage à une valeur de
référence.
On utilise
2
d’ajustement : pour la comparaison d’une distribution observée sur un échantillon à une
distribution théorique
2 d’homogénéité ou d’indépendance : pour la comparaison de deux distributions observées.
1. Le 2 d’indépendance
Problème général :
On cherche à rejeter, ou non, l’indépendance entre deux variables qualitatives (exemple Traitement
(oui/non) – Guérison (oui/non)).
Notons que P1 et P2 sont les pourcentages vrais dans les populations d’où sont issus les
échantillons.
Ex : Des patients atteints de la même maladie ont été traités par 2 traitements différents. Parmi
les 70 qui ont reçu le traitement A , 22 ont guéri et parmi les 50 qui ont reçu le traitement B, 25
ont guéri. Le taux de guérison est-il différent entre les 2 traitements.
Principe du test :
Sous H0
On pose le tableau de contingence observé
Dans les différentes cases de ce tableau, nous allons nous intéresser aux effectifs observés plutôt
qu’aux pourcentages pour une maladie (malade M+ – non malade M-) et une exposition au tabac
(Fumeurs T+ et non Fumeurs T-).
Malade M+ M-
Fumeur T+ eo11 eo12 n1
T- eo21 eo22 n2
m1 m2 N
e
Les pourcentages observés de malades po1 = o11 parmi les fumeurs
n1
e o 21
et de malades po2 = parmi les non fumeurs
n2
On calcule le tableau de contingence théorique
M+ M-
T+ et 11 et 12 n1
T- et 21 et 22 n2
m1 m2 N
En effet, si H0 est vraie, les effectifs observés fluctuent autour de ces effectifs théoriques (calculés).
Commençons par la première case du tableau qui correspond aux sujets malades M+ de
l’échantillon T+
pour la 1ère case : le nombre théorique de malade dans l’échantillon T+ est
m .n
e t 11 = 1 1
N
Explication Si H0 est vraie, le pourcentage de malades est le même dans les deux populations d’où sont issus les
échantillons T+ et T- : P1 =P2.
La meilleure estimation de ce pourcentage est p = m1 /N, p obtenu par la réunion de 2 échantillons. La valeur
théorique du nombre de malades attendus pour T+ est n1.p = n1 . m1/n
Il en est de même pour les autres cases.
L’effectif calculé d’une case est obtenu en multipliant les effectifs des marges correspondant à
cette case et en divisant le résultat par le total général.
Test
Si H0 est vraie, les effectifs observés, eoij fluctuent autour des effectifs calculés etij et on montre que
si la taille de l’échantillon est assez grande, et si l’hypothèse d’indépendance est vérifiée, la quantité
(e o e t ) 2
e suit une loi de 2 à (L-1) (C-1) ddl . L étant le nombre de lignes du tableau
t
C étant le nombre de colonnes du tableau
( e e ) 2
2 =
e o t
t
Le test consiste à calculer à partir des observations faites sur les échantillons
Conditions d’application du test, les effectifs théoriques ou calculés doivent être > 5
Conclusion
Dans le cas d’un test bilatéral, on rejette H0 au risque , si 2 ≥ 2
* Si 2 > 22 tombe dans la zone de rejet), on rejette H0 avec un risque d’erreur de 1ère
espèce <
Si 2 < 22 ne tombe pas dans la zone de rejet), on ne rejette pas H0.
(ou on accepte H0 avec un risque d’erreur de 2ème espèce
Dans le cas d’un test unilatéral distinguer les cas selon la formulation de H1.
Si H1 s’écrit p1> p2, on rejette H0 au risque , si 2 > 22et si p1> p2
Si H1 s’écrit p1 < p2, on rejette H0 au risque , si 2 > 22et si p1< p2
Pour calculer le 2
, nous avons utilisés la formule e
2
n1n2 m1m2
Cette formule est plus simple à calculer
Il ne faut pas oublier les CA d’application portent toujours surs les etij
2. Le 2 d’ajustement
Problème général :
- On compare une distribution observée à une distribution théorique ou encore un pourcentage
observé à un pourcentage théorique
On cherche à savoir si la différence observée peut être attribuée aux fluctuations
d’échantillonnage ou si elle correspond à une différence réelle.
Malade M+ M+ M-
Effectifs observés eo1 eo2 n
Effectifs théoriques et1 = nPt Et2 = nQt n
Qt = 1 - Pt
2.1.2 Calcul du 2
CA : tous les effectifs théoriques sont > 5
(e o e t ) 2
2
= e suit une loi de 2 à (K – 1) ddl (K étant le nombre
t
de modalités de la variable).
3. La table de la loi de 2
La table de la loi de 2 donne la valeur de 2α telle que = Pr ( 2 ≥ 2α) .
La première colonne de la table indique le nombre de degrés de liberté
La première ligne indique la valeur de α
L’intersection d’une ligne et d’une colonne donne la valeur de 2α = 9,49.
Exemple
Pour un nombre de ddl égal à 4, et pour une valeur de α égale à 5 %, 2α = 9,49
Interprétation : la probabilité qu’une variable 2 (à 4ddl) prenne une valeur supérieure ou égale
à 9,49 est égale à 5%.
Exercice 1.
Un groupe de 300 malades est réparti par tirage au sort, entre 3 chirurgiens, pour une intervention.
La fréquence des complications est présentée dans le tableau suivant :
Chirurgiens
1 2 3
Nombre de complications 10 4 6
Nombre de malades 100 100 100
Les performances de trois chirurgiens diffèrent-elles dans leur ensemble ?
Corrigé exercice 1.
Chirurgiens
Complications 1 2 3
OUI
10 4 6 20
6,7 6,7 6,7
NON 90 96 94 280
93,3 93,3 93,3
Malades 100 100 100 300
_____________________
0
Calcul de 2
2 = (10 6,7) (4 6,7) (6 6,7) (90 93,3) (96 93,3) (94 93,3) 3
2 2 2 2 2 2
Exercice 2
Lors d’une enquête réalisée sur un échantillon de taille 400, représentatif des décès enregistrés dans
une région, on a observé que 140 décès (35%) étaient dus à une maladie cardio -vasculaire. Ce
pourcentage diffère-t-il de la valeur de référence (40 %) donnée par les statistiques nationales ?
Corrigé exercice 1.
On cherche donc à savoir si le pourcentage observé de maladie cardio-vasculaire est différent de la valeur
de référence
Test de 2 d’ajustement.
_____________________
0
Calcul de 2
(140 160) 2 (260 240) 2
2= 4,16
160 240
Conclusion : 2 > 22 tombe dans la zone de rejet), je rejette H0 avec un risque de première espèce
Il existe une différence significative entre les pourcentages de décès par maladie cardiovasculaire
dans la région et dans l’ensemble du pays. Le pourcentage est plus faible dans la région.
Chapitre 10
Le test de Mann-Whitney est un test non paramétrique portant sur deux échantillons
indépendants issus de variables numériques ou ordinales.
Ce test non paramétrique permet aussi de comparer deux échantillons indépendants de petite taille.
Il porte sur le fait que deux séries de valeurs numériques (ou ordinales) sont issues d'une même
distribution.
Il est non paramétrique, c'est à dire qu'il ne fait aucune hypothèse sur les formes analytiques
des distributions F1(x) et F2(x) des populations P1 et P2. Il teste donc l'hypothèse :
H0 : "F1 = F2"
Il utilise les RANGS, c’est-à-dire l’ordre dans lequel apparaissent les observations des deux
échantillons réunis dans un même ensemble. Par conséquent, il est valide sur des données
quantitatives ou ordinales.
NB1 : Il est quelquefois appelé « test de Wilcoxon ». Mais à ne pas confondre avec le lest des
rangs de Wilcoxon…
NB2 : Si les populations sont supposées normales et de même variance, le test t aura la
préférence.
GA 7 8 10 13 16 18 TA = 54 9
GB 4 5 7 9 10 11 12 14 TB= 51 6,4
na 0 0 1 1 0 1 0 0 1 0 1 1
nb 1 1 1 0 1 1 1 1 0 1 0 0
na +nb 1 1 2 1 1 2 1 1 1 1 1 1
rang 1 2 3 ,5 5 6 7,5 9 10 11 12 13 14
nA=6, nB=8
On fait pour chaque groupe la somme des rangs qui le compose.
TA= ni (A) . ri = (1x3,5) + (1x5) + (1x7,5) + (1x11) + (1x13) + (1x14) = 54
TB= ni (B) . ri = (1x1) + (1x2) + (1x3,5) + (1x6) + (1x7,5) +(1x9) + (1x10) + (1x12) = 51
On vérifie que TA + TB est égale à la somme des rangs des groupes A et B = 105. Cela permet de
vérifier qu’il n’y a pas d’erreur sur les calculs de TA etTB
Le test de Mann et Whitney définit la variable U telle que
UA = nA . nB + [ nA (nA+1) / 2 ] - TA
UB = nA . nB + [ nB (nB+1) / 2 ] - TB
3.La table de U présentée ci-dessous donne la limite inférieure de U telle que Pr(U<Uα) pour
deux échantillons d’effectifs n1 et n2 avec n1< n2
REFERENCES
Dalmay F, Preux PM, Druet-Cabanac M. Qu’est-ce qu’un test non paramétrique. Rev Mal Resp
2003 ; 20.955-8.
ème
Falissard B. Comprendre et utiliser les statistiques dans les sciences de la vie. 2 édition.
Masson, Paris 1998. 332 pages (Abrégés).
ISBN 2225850305
Valleron AJ.
Probabilités et statistiques.
Médecine, Pharmacie, Deug SVT.
Masson; Paris 2001. 230 pages (Abrégés).
ISBN 2-225-85701-6