Académique Documents
Professionnel Documents
Culture Documents
1 Statistique descriptive 1
1.1 Quelques dénitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Statistique à une variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Tableau statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.2 Fréquences absolue, relative, et cumulée . . . . . . . . . . . . . . . 4
1.2.3 Représentations graphiques des données-Variable discète . . . . . . 4
1.2.4 Représentations graphiques des données-Variable continue . . . . . 5
1.3 Paramètres de position . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.1 La moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.2 Le mode : Mo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.3 La médiane : Me . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.4 Les fractiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.1 Les mesures de dispersion absolue . . . . . . . . . . . . . . . . . . . 8
1.4.2 Mesures de dispersion relative . . . . . . . . . . . . . . . . . . . . . 9
1.5 Mesures de forme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5.1 Coecients d'asymétrie. . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5.2 Coecients d'applatissement . . . . . . . . . . . . . . . . . . . . . . 10
1.6 Exercices d'application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.7 Statistique bivariée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.7.1 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.7.2 Variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.7.2.1 Données observées-Tableau de contingence . . . . . . . . . 13
1.7.2.2 Tableau des fréquences . . . . . . . . . . . . . . . . . . . . 14
1.7.3 Variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7.3.1 Paramètres de position et de dispersion . . . . . . . . . . . 17
1.7.3.2 Paramètres de position et de dispersion . . . . . . . . . . . 17
1.7.3.3 Corrélation linéaire . . . . . . . . . . . . . . . . . . . . . . 19
1.7.3.4 Ajustement linéaire . . . . . . . . . . . . . . . . . . . . . . 19
1.7.3.5 Ajustement linéaire au sens des moindres carrés . . . . . . 20
i
2 Notions de Probabilité 24
2.1 Notions de base de la théorie des probabilités . . . . . . . . . . . . . . . . 24
2.1.1 Dénitions et notations . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2 Variables aléatoires réelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Quelques lois usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.1 Lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.2 Lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3.3 Théorème de la limite centrale . . . . . . . . . . . . . . . . . . . . . 31
3 Estimation 35
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Généralités sur les estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3.1 Estimation d'une proportion . . . . . . . . . . . . . . . . . . . . . . 37
3.4 Estimation par intervalle de conance . . . . . . . . . . . . . . . . . . . . . 38
3.5 Estimation par intervalle de conance . . . . . . . . . . . . . . . . . . . . . 38
3.5.1 Intervalle de conance (Ic ) pour une moyenne . . . . . . . . . . . . 38
3.5.2 Intervalle de conance (Ic ) pour une variance . . . . . . . . . . . . 39
3.5.3 Intervalle de conance (Ic ) pour une proportion . . . . . . . . . . . 39
4 Tests statistiques 43
4.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2 Tests d'hypothèse à un échantillon . . . . . . . . . . . . . . . . . . . . . . 45
4.2.1 Test sur une moyenne . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2.2 Test sur une variance d'une variable gaussienne . . . . . . . . . . . 47
4.2.3 Test sur une proportion . . . . . . . . . . . . . . . . . . . . . . . . 47
4.3 Comparaison de deux échantillons . . . . . . . . . . . . . . . . . . . . . . . 48
4.3.1 Test de comparaison de deux moyennes : populations indépendantes 48
4.3.2 Test de comparaison de deux moyennes : populations appariées . . . 50
4.3.3 Test de comparaison de deux variances : populations indépendantes 51
4.3.4 Test de comparaison de deux proportions : populations indépendantes 52
4.4 Test du Khi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.4.1 Comparaison de deux distributions statistiques . . . . . . . . . . . . 52
ii
Chapitre 1
Statistique descriptive
1
Dénition 1.1.4 Le caractère ou la variable.
C'est une caractéristique, dénie sur la population et observée sur l'échantillon.
Exemple 1.1.2 âge des patients recevant un traitement à l'hôpital.
sexe des patients recevant un traitement à l'hôpital.
maladie des patients reçus à l'hôpital.
traitement des patients reçus à l'hôpital.
réussite du traitement des patients reçus à l'hôpital.
couleur, poids, taille, marque, prix, surface, etc.
Une ou plusieurs variables peuvent être associées sur un individu et les variables peuvent
être de nature variée :
Variables qualitatives et quantitatives.
Variables indépendantes et variables dépendantes.
Variables contrôlées et non contrôlées.
Dénition 1.1.5 Variable qualitative. Une variable statistique est dite de nature qua-
litative si ses modalités ne sont pas mesurables. Aurement dit c'est une variable statistique
dont les valeurs s'expriment de façon littérale (ou par un codage) sur lequel les opérations
arithmétiques comme le calcul de la moyenne n'ont pas de sens.
Exemple 1.1.3 mortalité dans une population de cellules, par la coloration au
bleu trypan.
sexe des patients recevant un traitement à l'hôpital.
la couleur, la profession, l'état matrimonial....
Remarque 1.1.2 La qualité de la variable peut être exprimée par un codage.
Exemple 1.1.4 1. cellule morte : M cellule vivante : V
2. cellule morte : 1 cellule vivante : 0
− Un codage chiré en transforme pas une variable qualitative en variable quantitative.
− Un chire n'est pas forcément un nombre. ex : sudoku
Dénition 1.1.6 Variable quantitative. Une variable statistique est dite de nature
quantitative si ses modalités sont mesurables. Les modalités d'une variable quantitative
sont des nombres liés à l'unité choisie, qui doit toujours être précisée.
Il existe deux types de variables quantitatives : variables discrètes et variables conti-
nues.
Exemple 1.1.5 concentration calcique cytosolique d'une cellule
âge des patients recevant un traitement à l'hôpital
dose d'un traitement administré à des patients
2
Dénition 1.1.7 Variable quantitative discrète. Lorsque les modalités sont des va-
leurs numériques isolées.
Exemple 1.1.6 Nombre d'enfants par ménage.
Dénition 1.1.8 Variable quantitative continue.
On parle de variable continue lorsque la variable peut prendre toutes les valeurs d'un
intervalle, ces valeurs peuvent alors être regroupées en classes.
Exemple 1.1.7 Concentration calcique cytosolique d'une cellule
Age, salaire, poids, taux, taille, etc.
Remarque 1.1.3 On peut transformer une variable quantitative en variable qualitative,
avec une perte d'information. Ex. une dose d'un traitement administré à des patients en
fonction de la dose, classement en catégories : très faible dose, faible dose, dose normale,
forte dose, très forte dose.
Dénition 1.1.9 Variable indépendante.
C'est une variable statistique dont les valeurs sont indépendantes des autres variables
étudiées.
Dénition 1.1.10 Variable dépendante.
C'est une variable statistique dont les valeurs sont dépendantes des autres variables étu-
diées.
Exemple 1.1.8 Nous étudions l'eet de deux substances potentiellement cytotoxiques sur
des cellules cancéreuses en culture, et on mesure la survie des cellules en fonction de la
substance administrée.
variable dépendante : survie de la cellule
variable indépendante : substances cytotoxiques
Dénition 1.1.11 Variable contrôlée.
C'est une variable statistique dont les valeurs sont imposées par l'expérimentateur. Dans
les études d'expérimentation, les variables indépendantes sont contrôlées.
Exemple 1.1.9 L'eet de l'adrénaline sur la fréquence cardiaque.
Dénition 1.1.12 Variable non contrôlée.
C'est une variable statistique dont les valeurs dépendent pas de l'expérimentateur.Dans
les études d'observations, les variables indépendantes ne sont pas contrôlées.
Exemple 1.1.10 La fréquence des cancers de la thyroïde après l'accident de Tchernobyl,
dans une zone géographique donnée.
3
1.2 Statistique à une variable
1.2.1 Tableau statistique
On regroupe toutes les données de la série statistique dans un tableau indiquant la
répartition des individus selon le caractère étudié.
Si le caractère est qualitatif ou discontinu, un groupe contient tous les individus
ayant la même modalitée (nombre ou catégorie) du caractère, il est symbolisé par
son modalitée.
Si le caractère est continu, un groupe contient tous les individus ayant les modali-
tées dans un intervalle, cet intervalle s'appelle une classe.
Pour construire ces intervalles, on doit avoir :
1. Le nombre de classes (de préférence compris entre 6 et 12).
2. Les amplitudes des classes doivent être égales.
3. Chaque classe (sauf la dernière) contient sa borne inférieure mais pas sa borne
supérieure.
Une classe sera représentée par son centre, qui est le milieu de l'intervalle. Une fois la
classe constituée, on considère les individus répartis uniformément entre les deux bornes.
La répartition en classes des données nécessite de dénir a priori le nombre de classes
J et donc l'amplitude de chaque classe. Cependant, il existent des formules qui nous
permettent d'établir le nombre de classes et l'intervalle de classe (l'amplitude) pour une
série statistique de N observations :
La règle de Sturge : J = 1√+ (3.33 log10 (N )).
La règlede Yule : J = 2.5 4 N .
L'intervalle de classe est obtenu de la manière suivante : longueur de l'intervalle
xmax − xmin
L= ,
J
où xmax (resp. xmin ) est la plus grande (resp. la plus petite) valeur observée.
4
2. Le polygone : Dans le cas du graphe des fréquences relatives (resp. fréquences ab-
solues ou eectifs), en joignant les sommets des bâtons, nous obtenons le polygône
des fréquences relatives (resp. fréquences absolues ou eectifs).
3. La courbe cumulative : La courbe cumulative est la représentation graphique des
fréquences absolues et relatives cumulées. C'est une courbe en escalier, dont les
paliers horizontaux ont pour coordonnées (xi , Fi ).
1.3.1 La moyenne
La moyenne arithmétique :
La moyenne arithmétique est la somme de toutes les données observées divisées par le
nombre des individus de l'échantillon :
N
1 X
X̄ = xi .
N i=1
5
Si les données sont présentées dans un tableau statistique dans le quel chaque modalité est
associée à fréquence absolue ou relative alors on calcule la moyenne arithmétique pondérée
ainsi :
k
1 X
X̄ = n i xi .
N i=1
La moyenne géométrique :
La moyenne géométrique d'une série statistique brute est dénie ainsi :
v
uN
uY
N
Ḡ = t xi .
i=1
Pour des données groupées la moyenne géométrique pondérée est calculée ainsi :
v
u k
uY
N
Ḡ = t xni i .
i=1
La moyenne harmonique :
La moyenne harmonique est la moyenne de l'inverse de la variable X, ou bien l'inverse de
la moyenne arithmétique, elle est calculée ainsi pour des données brutes :
v
uN
uY 1
N
H̄ = t .
i=1
x i
La moyenne quadratique :
La moyenne quadratique permet de calculer la moyenne des carrés des caractères, pour
une série de données brute elle est calculée ainsi :
N
1 X 2
Q̄ = x.
N i=1 i
6
1.3.2 Le mode : Mo
Le mode d'une série statistique est la valeur qui a la fréquence (absolue ou relative) la
plus élevée. Lorsque la distribution a plus d'un mode, on parle d'une distribution 'multi-
modale' (bimodale, trimodale,....). Par contre, si l'on est en présence de données groupées
en classes, le mode se rapportera à la classe comportant le plus grand nombre d'individus :
on parlera alors de classe modale. Cependant, il peut y arriver que l'on s'intéresse à avoir
la valeur approchée ou exacte de ce mode. Par conséquent, il est recommandé d'appliquer
la démarche suivante :
- Pour avoir une valeur approximative du mode, on calcule la moyenne de la classe qui
a la fréquence la plus élevée ;
- Pour avoir une valeur exacte, le mode se calcule de la manière suivante
α1
Mo = ei + ai ,
α1 + α2
avec ei : la borneinférieure de la classe modale ;
ai : l'amplitude de la classe modale ;
α1 : écart d'eectif entre la classe modale et la classe précédente.
α1 : écart d'eectif entre la classe modale et la classe suivante.
1.3.3 La médiane : Me
On distingue deux cas :
Cas d'une variable discrète :
On désigne par n le nombre d'observations.
− Si la série possède un nombre pair de valeurs, soit 2n valeurs, la médiane sera donnée
comme suit :
7
− Lorsque la série est à valeurs répétivies, la valeur de la médiane est la valeur de la
variable statistique qui correspond à N2 des eectifs cumulés croissants ou décroissants,
ou 0.5 des fréquences relatives cumulées croissantes ou décroissantes.
!
N
− N i %
Me = ei + ai 2 ,
ni
ei : la borne inférieure de la classe médiane ;
ai : l'amplitude de la classe médiane ;
ni : eectif de la classe médiane ;
Ni : eectif cumulé croissant ;
N : Nombre total d'observation taille.
La médiane peut s'écrire aussi sous la forme :
0.5 − Fi %
Me = ei + ai ,
fi
fi : fréquence relative de la classe médiane ;
Fi : fréquence relative cumulée croissante ;
8
L'écart-type : p
σ= V (X).
Si s = 0, il y a symétrie ;
Si s > 0, il y a étalement à droite (oblique à gauche) ;
Si s < 0, il y a étalement à gauche (oblique à droite).
Le choix de la lettre s vient de skewness qui est le terme anglais pour désigner l'asymétrie.
Rappelons que Q2 n'est autre que la médiane.
− Le coecient de Pearson (mathématicien britannique, 1857-1936) s'écrit :
x̄ − Me
Ap = ,
σ
avec −1 ≤ Ap ≤ −1.
Si Ap = 0, il y a symétrie ;
Si Ap > 0, il y a étalement à droite (oblique à gauche) ;
Si Ap < 0, il y a étalement à gauche (oblique à droite).
9
1.5.2 Coecients d'applatissement
Une distribution est plus ou moins aplatie selon que les fréquences des valeurs voisines
des valeurs centrales dièrent peu ou beaucoup les une par rapport aux autres.
Le coecient est mesuré par le coecient d'aplatissement de Pearson
µ4
a = 4,
σ
n
X
avec µ4 = 1
n
(xi − x̄)4 ou le coecient d'aplatissement de Fisher
i=1
µ4
b=a−3= − 3.
σ4
b = 0 (a = 3) pour une distribution qui suit une loi normale centrée réduite.
Si b > 0 (a > 3), la concentration des valeurs de la série autour de la moyenne est
forte : la distribution n'est pas aplatie
Si b < 0 (b < 3), la concentration des valeurs autour de la moyenne est faible : la
distribution est aplatie
La variance :
n
1X 3 × 32 + 3 × 32 + ... + 1 × 92
V (X) = ni x2i − x̄2 = − 6.322 = 1.59
n i=1 90
10
L'écart-type : p
σX = V (X) = 1.26
La médiane :
!
N
− N (ei ) %
2 94 − 89
Me = ei + ai = 35 + 5 = 35.47
ni 53
4. La médiane graphiquement :
11
5. La moyenne :
ans
n
1X 14 × 20 + 32 × 27.5 + ... + 19 × 47.5 6595
x̄ = n i ci = = = 35.07
n i=1 188 188
6. La variance :
n
1X 2 14 × 202 + 32 × 27.52 + ... + 19 × 47.52
V (X) = ni ci − x̄2 = − 35.072 = 54.07
n i=1 188
L'écart-type : p
σX = V (X) = 7.35
12
• Les deux variables sont qualitatives.
• Les deux variables sont quantitatives.
Exemples de relations possibles entre deux charactères : Taille et poids des individus,
Eet et dosage, tabagisme et cancers du poumon, rendement et quantité d'engrais utilisée,
......
13
k p
X X
ni· = n·j = N = n·· .
i=1 j=1
Fréquences conditionnelles :
La fréquence conditionnelle de la variable X par rapport à Yj , j = 1, ..., p est donnée
par :
nij
fij = , j = 1, ...p,
n·j
La fréquence conditionnelle de la variable Y par rapport à Xi , i = 1, ..., k est donnée par :
nij
fji = , i = 1, ...k,
ni·
14
Relations entre fréquences marginales et fréquences conditionnelles :
Exercice 3 On considère une population de 10000 individus pour lesquels on étudie les
groupes sanguins, A, B, AB, O et le rhésus (Rh+) et (Rh-). Les résultats observés sont
présentés dans le tableau suivant :
A B AB O Total
Rh+ 3380 710 315 3700 8105
Rh- 620 290 85 900 1895
Total 4000 1000 400 4600 10000
15
1. Donner la fréquence marginale des personnes dont le sang est de rhésus positif
(resp. rhésus négatif).
2. Donner la fréquence marginale des personnes des personnes du groupe sanguin A
(resp. B).
3. Donner la fréquence conditionnelle des personnes dont le sang est de rhésus positif
parmi les personnes du groupe sanguin A.
4. Donner la fréquence conditionnelle des personnes dont le sang est de rhésus négatif
parmi les personnes du groupe sanguin O.
5. Donner la fréquence conditionnelle des personnes du groupe sanguin A parmi les
personnes dont le sang est de rhésus +.
6. Donner la fréquence conditionnelle des personnes du groupe sanguin AB parmi les
personnes dont le sang est de rhésus -.
Solution 1.7.1 1. La fréquence marginale des personnes dont le sang est de rhésus posi-
tif : n 8105
1·
f1· = = = 0.8105.
n·· 10000
2. La fréquence marginale des personnes dont le sang est de rhésus - :
n2· 1895
f2· = = = 0.185.
n·· 10000
3. La fréquence marginale des personnes du groupe sanguin A :
n·1 4000
f·1 = = = 0.4
n·· 10000
(40% des personnes intérogées sont de groupe sanguin A).
4. La fréquence marginale des personnes du groupe sanguin B :
n·2 1000
f·2 = = = 0.1
n·· 10000
(10% des personnes intérogées sont de groupe sanguin B).
5. La fréquence conditionnelle des personnes dont le sang est de rhésus positif parmi
les personnes du groupe sanguin A :
3380
f11 = = 0.845.
4000
6. La fréquence conditionnelle des personnes dont le sang est de rhésus négatif parmi
les personnes du groupe sanguin O :
900
f23 = = 0.19.
4600
16
7. La fréquence conditionnelle des personnes du groupe sanguin A parmi les personnes
dont le sang est de rhésus + : 3380
f11 = = 0.41.
8. La fréquence conditionnelle des personnes du groupe sanguin AB parmi les personnes
8105
17
Propriétés :
• Une covariance peut être positive, négative ou nulle.
• Cov(X, Y ) = Cov(Y, X)
• Cov(aX, Y ) = aCov(X, Y ) = acov(Y, X)
• Cov(X, X) = V ar(X)
• V ar(X + Y ) = V ar(X) + V ar(Y ) + 2cov(X, Y ).
Exemple. Le Tableau suivant présente la répartition d'un ensemble de consommateurs
selon leurs revenus et leurs dépenses :
X/ Y 25 30 35 40 Total
20 4 2 1 0 7
25 5 1 0 0 6
30 3 2 1 1 7
Total 12 5 2 1 20
X représente les revenus, et Y, les dépenses de consommation.
Les revenus moyens :
7 × 20 + 6 × 25 + 7 × 30
x̄¯ = = 25.
20
La variance des revenus :
1
V (X) = (7 × 202 + 6 × 252 + 7 × 302 ) − 252 = 17.5.
20
Les dépenses de consommation qu'eectuent en moyenne chacun des consommateurs :
12 × 25 + 5 × 30 + 2 × 35 + 1 × 40
ȳ¯ = = 28.
20
La variance des dépenses de consommation :
1
V (Y ) = (12 × 252 + 5 × 302 + 2 × 352 + 1 × 402 ) − 282 = 18.5.
20
La covariance de X et Y.
p
k X
X
X/ Y 25 30 35 40 Total nij xi yj
i=1 j=1
20 4 2 1 0 7 3900
25 5 1 0 0 6 3875
30 3 2 1 1 7 6300
Total 12 5 2 1 20 14075
14075
Cov(X, Y ) = − 25 × 28 = 3.75.
20
18
1.7.3.3 Corrélation linéaire
En statistique, le terme de corrélation est utilisé an de désigner la laison entre deux
variables quantitatives (le plus souvent continues).
Coecient de corrélation :
Le coecient de corrélation permet de mesurer la dépendance linéaire entre deux
variables quantitatives X et Y.
Cov(X, Y )
ρXY = ∈ [−1, 1].
σX σY
Coecient de détermination : Le coecient de détermination est le carré du co-
ecient de corrélation :
Cov 2 (X, Y )
ρ2XY = .
V (X)V (Y )
Remarques :
• X et Y sont indépendantes, alors ρ = 0. La réciproque est fausse, sauf cas particulier ;
si X et Y sont distribuées normalement.
• Si ρ > 0, les valeurs prises par Y ont tendance à croître quand les valeurs de X
augmentent.
• Si ρ < 0, les valeurs prises par Y ont tendance à décroître quand les valeurs de X
augmentent.
• Un coecient de corrélation nul ne signie pas l'absence de toute relation entre les
deux variables. Il peut exister une relation non linéaire entre elles.
Quelques exemples de corrélation
Les données (xi , yi ), i = 1, ..., n peuvent être représentées par un nuage de n points
dans le plan (x, y).
19
1.7.3.5 Ajustement linéaire au sens des moindres carrés
Selon l'allure du nuage, on a envie de remplacer ce nuage par le graphe d'une fonction
f. Cette opération s'appelle un ajustement. La nature de l'ajustement dépend de la forme
du nuage de points.
Nous étudions l'ajustement linéaire par la méthode des moindres carrés.
On considère les données {y1 , y2 , ..., yn } comme étant des réalisations d'une variable
aléatoire Y et les données {x1 , x2 , ..., xn } les réalisations d'une variable aléatoire X.
• La variable X est une variable, aléatoire ou contrôlée, dite explicative.
• Y est une variable aléatoire dite à expliquer.
20
− Le problème de l'ajustement linéaire par la méthode des moindres carrés consiste à
rechercher une relation ane entre les variables X et Y, ceci revient à trouver une droite
qui s'ajuste le mieux possible à ce nuage de points.
Parmi toutes les droites possibles, on retient celle qui rend minimale la somme des
carrés des écarts des valeurs observées yi à la droite yi0 = axi + b.
Si les coecients a et b étaient connus, on pourrait calculer les résidus de la régression
dénis par :
ei = yi − axi − b.
Le résidu ei est l'erreur que l'on commet en utilisant la droite de régression pour prédire
yi à partir de xi . Les résidus peuvent être positifs ou négatifs.
21
On a n
X
∂ε
∂b
=0⇔ (−2)(yi − axi − b) = 0
i=1
n
X
⇔ (yi − axi − b) = 0
i=1
n
X n
X
⇔ yi − a xi − nb = 0
i=1 i=1
⇔ ny − anx − nb = 0
⇔ y − ax − b = 0
⇔ b = y − ax.
Et n
X
∂ε
∂a
=0⇔ (−2xi )(yi − axi − b) = 0
i=1
n
X
⇔ xi (yi − axi − b) = 0
i=1
Xn n
X n
X
⇔ xi y i − a x2i − bxi = 0
i=1 i=1 i=1
⇔ nxy − anx2 − bnx = 0
⇔ xy − ax2 − (y − ax)x = 0
⇔ xy − ax2 − yx + ax2 = 0
⇔ xy − yx = a(x2 − x2 )
xy − yx
⇔a=
(x2 − x2 )
Cov(X,Y )
⇔a= V (X)
.
D'où la droite de régression de Y par rapport à X, est :
y = ax + b,
avec Pn
Cov(X, Y ) (x − x)(yi − y)
a= = Pn i
i=1
2
,
V (X) i=1 (xi − x)
et
b = y − ax.
22
Remarque La droite de régression de X par rapport à Y est :
x = a0 y + b 0 ,
avec
Cov(X, Y )
a0 = et b0 = x̄ − a0 ȳ.
V (Y )
En pratique, on estime que la régression est acceptable lorsque |ρXY | ≥ 0.85.
4. Le coecient de corrélation :
Cov(X, Y )
ρXY = p = 0.88.
V ar(X)V ar(Y )
5. La droite de régression de Y en X :
Cov(X, Y )
a= = 1.15
V (X)
b = y − ax = −122.43.
D'où
y = ax + b = 1.15x − 122.43
23
Chapitre 2
Notions de Probabilité
La théorie des probabilités permet de modéliser des phénomènes dont il n'est pas
en général possible de prédire avec certitude leur évolution ou les conséquences qu'ils
peuvent engendrer ; elle décrit le comportement de phénomènes dont le résulat est soumis
au hasard.
Exemples : l'enfant à naître sera une lle, le dé va faire un nombre pair,...
Ā = {ω ∈ Ω, ω ∈
/ A}
24
de l'expérience :
A ∪ B = {ω ∈ Ω, ω ∈ A ou ω ∈ B}.
Intersection de deux évènements − Intersection de A et B : évènement constitué
des résultats élémentaires de Ω qui appartiennent à la fois à A et à B. Soit ω le résultat
de l'expérience :
A ∩ B = {ω ∈ Ω, ω ∈ A et ω ∈ B}.
Système complet d'évènements Soient A1 , A2 , ..., An n évènements. On dit que
(A1 , A2 , ..., An ) constituent un système complet d'évènements s'ils forment une partition
de Ω :
1. ∀i ∈ {1, ..., n}; Ai 6= ∅,
2. Ils sont deux à deux disjoints : ∀i 6= j; Ai ∩ Aj = ∅,
3. Leur réunion est l'évènement certain Ω : A1 ∪ A2 ∪ ... ∪ An = Ω
Tribu d'évènements de Ω, espace probabilisable − Soit A une famille de parties
de Ω. On dit que A est une tribu ou σ− algèbre sur Ω si elle vérie :
1. ∅ ∈ A , Ω ∈ A ,
2. A est stable par union dénombrable, c'est-à-dire que pour toute famille dénombrable
(An )n∈N d'éléments de Ω, on a ∪n∈N An ∈ Ω.
3. A est stable par intersection dénombrable, c'est-à-dire que pour toute famille dé-
nombrable (An )n∈N d'éléments de Ω, on a ∩n∈N An ∈ Ω.
4. A est stable par passage au complémentaire, c'est-à-dire que pour tout A ∈ A , on
a Ā ∈ A .
− (Ω, A ) est dit un espace probabilisable.
Probabilité. Soit (Ω, A ) est dit un espace probabilisable. Une probabilité sur (Ω, A )
est une application P : A → [0, 1] telle que :
0 ≤ P(A) ≤ 1, ∀A ∈ A ;
P(Ω) = 1; P
P(∪i∈N Ai ) = i∈N P(Ai ), ∀(Ai )i∈N ensemble d'énombrable d'évènements disjoints.
Propriétés élémentaires d'une probabilité. 1. 0 ≤ P(Ai ) ≤ 1, P(Ā) = 1 − P(A),
2. P(∅) = 0,
3. A ⊂ B ⇒ P(A) ≤ P(B),
4. P(A ∪ B)P= P(A) + P(B) − P(A ∩ B),
P(∩i Ai ) ≤ i P(Ai ).
Univers équiprobable. Univers équiprobable est un ensembe Ω dont tous les évène-
ments élémentaires ont la même probabilité.
Si Ω contient N éléments, alors :
1
p1 = p2 = ... = pN = .
N
Si A ⊂ Ω et si A contient n éventualités, alors :
25
Probabilité conditionnelle. Soit A et B deux événements tels que P(B) 6= 0. La
probabilité conditionnelle de A par rapport à B, est donnée par :
P(A ∩ B)
P(A|B) = .
P(B)
Formule des probabilités totales Si les événements B1 , B2 , ..., Bn forment une partition
de Ω
P(A) = P(B1 )P(A|B1 ) + P(B2 )P(A|B2 ) + ... + P(Bn )P(A|Bn )
Xn
= P(Bi )P(A|Bi )
i=1
P(Ai )P(B|Ai )
P(Ai |B) = Pn .
i=1 P(Ai )P(B|Ai )
Indépendance de A et B. Deux événements A et B sont dits indépendants (A q B)
si et seulement si
P(A ∩ B) = P(A)P(B).
touti ∈ 1, ..., N
pi = P(X = xi ).
N
Propriétés.
X
pi = 1.
i=1
X
∀A ⊂ Ω, P(A) = pi .
i,xi ∈A
26
Dénition 2.2.4 Soit X une variable aléatoire continue. On appelle densité de probabilité
la fonction f (x) dénie par :
P(X ∈ [x; x + ])
f (x) = lim .
→0
Propriétés. f (x) ≥ 0, ∀x ∈ R
Z +∞
f (x) = 1
−∞
Dénition 2.2.6 1. L'espérance E(X) d'une variable aléatoire X est dénie par :
a. Cas discret
X N
:
E(X) = xi p i .
b. Cas continu
Z
i=1
:
+∞
E(X) = xf (x)dx.
2. La variance V ar(X) d'une variable aléatoire X est dénie par :
−∞
27
2.3 Quelques lois usuelles
2.3.1 Lois discrètes
Loi de Bernoulli. La loi de Bernoulli est la loi d'une variable aléatoire discrète X
qui prend la valeur 1 avec probabilité p et la valeur 0 avec probabilité 1 − p. Elle est notée
par B (p).
La fonction de probabilité est donnée par
x=1 ;
p,
P(X = x) = 1 − p, x=0 ;
0, sinon.
Loi Binomiale La loi binomiale est une loi de probabilité discrète qui décrit le nombre de
réussites parmi un ensemble d'expériences aléatoires et indépendantes. Elle est notée par
B (n, p) avec n le nombre d'expériences et p la probabilité de réussite à chaque expérience.
où nk = Cnk = k!(n−k)!
k!
.
L'espérance de la loi Binomiale :
E(X) = np.
loi de Poisson La loi de Poisson (introduite en 1838 par Siméon Denis Poisson, 1781-
1840) est une loi de probabilité discrète qui décrit le comportement du nombre d'éve-
nements aléatoires et indépendants se produisant dans le même intervalle de temps ou
d'espace. Elle est notée par P (λ) avec λ l'espérance et la variance de la loi. Si le nombre
28
moyen d'occurrences dans un intervalle de temps xé est λ, alors la probabilité qu'il existe
exactement k occurrences (k étant un entier naturel, k = 0,1,2,...) est
λk −λ
P(X = k) = e , k = 1, ...n.
k!
L'espérance de la loi de Poisson :
E(X) = np.
La variance de la loi de Poisson :
1 1 2
f (t) = √ e− 2 t .
2π
Propriété :
29
Figure 2.1 Allure de la densité normale
• P(X = a) = 0.
• P(X < a) = P (X ≤ a).
• P(X > a) = 1 − P (X ≤ a).
• P(X ≤ −a) = P (X ≥ a) = 1 − P(X < a).
• P(−a ≤ X ≤ a) = P(|X| ≤ a) = 2P(X ≤ a) − 1.
Allure de la densité normale centrée réduite.
Etape 1 :Reexprimer les probabilités qu'on veut calculer avec la v.a. centrée réduite
Z = X−µ
σ
.
30
Etape 2 :En utilisant les propriétés citées ci-dessus, on se ramene à des probabilités
du type P(Z ≤ z) pour certains z ≥ 0.
31
Théorème 2.3.1 Théorème central limite.Soit X , ..., X n variables aléatoires indépen-
dantes et identiquement distribuées d'espérance µ et de variance σ :
1 n
2
n
X
1
n n
Xi − µ
X L i=1 L
Y = Xi N (nµ, nσ 2 ) ⇔ p N (0, 1).
i=1 σ 2 /n
Loi du Chi-deux
Dénition 2.3.1 Soient X , ..., X n variables aléatoires indépendantes et identiquement
distribuées de loi normale centrée réduite. La variable aléatoire Y = X + ... + X suit la
1 n
2 2
n
X
Y := Xi2 χ2n .
i=1
32
suit une loi continue dite loi de Student à n degrés de liberté, notée T .n
Y1 /n1
Z=
Y2 /n2
33
La variance de la variable de Fisher-Snédécor Z : V (Z) =
2
n2 2(n1 +n2 −2)
n2 −2 n1 (n2 −4)
, n2 > 4.
34
Chapitre 3
Estimation
3.1 Introduction
L'estimation statistique a pour but d'évaluer certaines caractéristiques associées à une
population à partir d'observations faites sur un échantillon. Bien souvent, ces caractéris-
tiques sont des moyennes, des variances et des proportions.
Exemple :
• Quelle est la glycémie moyenne d'un patient ?
Deux types de réponses sont apportées à cette question.
A partir d'un échantillon :
1. On cherche une valeur qui semble être la meilleure possible : Estimation ponctuelle.
2. On cherche un intervalle de valeurs possibles : Estimation par intervalle de conance.
T : Rn → R
(X1 , ..., Xn ) 7→ T (X1 , ..., Xn )
T − θ = T − E(T ) + E(t) − θ.
Dénition 3.2.4 Pour qu'un estimateur asymptotiquement sans biais soit convergent il
sut que
lim V ar(T ) = 0.
n→∞
Propriétés d'un bon estimateur. Un estimateur est dit ecace s'il est convergent,
sans biais et de variance minimale.
Remarque. Si deux estimateurs T1 et T2 d'un paramètre θ sont convergents et sans
biais, on choisira l'estimateur qui a la variance la plus petite.
Généralités sur les estimateurs.
Quelques estimateurs usuels :
• La moyenne empirique :
n
1X
X̄ = Xi
n i=1
• La variance empirique :
n n
2 1X 1X 2
S = (Xi − X̄)2 = X − X̄ 2
n i=1 n i=1 i
36
3.3 Estimation ponctuelle
Soit X une variable aléatoire telle que E[X] = µ et V ar(X) = σ 2 .
Estimation d'une moyenne. La variable aléatoire X̄ dénie par
n
1X
X̄ = Xi
n i=1
σ2
E(X̄) = µ, V ar(X̄) = .
n
Estimation d'une variance : µ connue : La variable aléatoire T 2 dénie par
n
2 1X
T = (Xi − µ)2
n i=1
K
F = .
n
Il est convergent et sans biais.
37
3.4 Estimation par intervalle de conance
Dénition 3.4.1 L'estimation par intervalle de conance de θ consiste à associer à un
éechantillon un intervalle aléatoire [I , I ] qui contient la valeur de θ avec une certaine
probabilité. Cet intervalle est appelé intervalle de conance de θ.
1 2
2.2. σ 2 inconnue :
s0 s0
Ic = x̄ − z1− α2 √ , x̄ + z1− α2 √ .
n n
38
3.5.2 Intervalle de conance (Ic) pour une variance
Soit (X1 , ..., Xn ) un n-échantillon de variables aléatoires réelles de loi N (µ, σ 2 ).
1. µ connue :
n
X
T 2 = n1 (Xi − µ)2 est le meilleur estimateur de la variance σ 2 lorsque la moyenne µ
i=1
est connue.
nT 2
σ2
suit une loi du Khi-deux à n degrés de liberté :
nt2 nt2
Ic = , ,
χ2n (1 − α2 ) χ2n ( α2 )
où t2 est la réalisation de T 2 sur l'échantillon et χ2n (1 − α2 ) et χ2n ( α2 ) sont des quantiles
d'ordres 1 − α2 et α2 de la loi du χ2 à n dergrès de liberté.
2. µ inconnue :
X n
S 02 = n−1
1
(Xi − X̄)2 est le meilleur estimateur de la variance σ 2 lorsque la moyenne
i=1
µ est inconnue.
(n−1)S 02
σ2
suit une loi du Khi-deux à (n-1) degrés de liberté :
(n − 1)s02 (n − 1)s02
Ic = , ,
χ2n−1 (1 − α2 ) χ2n−1 ( α2 )
où s02 est la réalisation de S 02 sur l'échantillon et χ2n−1 (1− α2 ) et χ2n−1 ( α2 ) sont des quantiles
d'ordres 1 − α2 et α2 de la loi du χ2 à n-1 dergrès de liberté.
Exercice 6 (Exercice : Les plantes marines [8]) Un biologiste étudie un type d'algue
qui attaque les plantes marines. La toxine contenue dans cette algue est obtenue sous
forme d'une solution organique. Il mesure la quantité de toxine par gramme de solution.
Il a obtenu les neuf mesures suivantes, exprimées en milligrammes :
1.2; 0.8; 0.6; 1.1; 1.2; 0.9; 1.5; 0.9; 1.0
Nous supposons que ces mesures sont les réalisations de variables aléatoires indépendantes
et identiquement distribuées suivant une loi N (µ, σ ). 2
39
1. Donner une estimation ponctuelle de la moyenne de la quantité de toxine par
gramme de solution.
2. Donner une estimation ponctuelle de la variance de la quantité de toxine par gramme
de solution.
3. Donner un intervalle de conance à 95% pour la moyenne de la quantité de toxine
par gramme de solution.
4. Donner un intervalle de conance à 95% pour la variance de la quantité de toxine
par gramme de solution.
Solution 3.5.1 1. L'estimation ponctuelle de la moyenne :
X n
1
x̄ = n
xi
i=1
= 19 (1.2 + 0.8 + 0.6 + 1.1 + 1.2 + 0.9 + 1.5 + 0.9 + 1.0) = 1.022 mg.
2. L'estimation ponctuelle de la variance :
s02 = n
n−1
s2 !
n
X
= n
n−1
1
n
x2i − x̄2
9 1
i=1
(1.22 + 0.82 + ... + 1.02 ) − 1.0222 = 0.06995 mg .
2
σ étant inconnue :
2
s0 s0
Ic = x̄ − t8 (0.975) √ , x̄ + t8 (0.975) √ .
n n
8 × 0.06995 8 × 0.06995
Ic = , = [0.0319, 0.2566].
17.535 2.180
Exercice 7 (La bactérie Brucella abortus [8]) . Dans le cas d'une contamination
d'un grand cheptel bovin par la bactérie Brucella abortus, un vétérinaire observe 53 avor-
tements pour 134 vaches gestantes.
1. Donner l'estimation ponctuelle de la proportion d'avortements.
2. Donner l'intervalle de conance asymptotique à 95% pour la proportion d'avorte-
ments
Solution 3.5.2 1. L'estimation ponctuelle de la proportion d'avortements :
53
f= = 0.3955.
134
41
2. L'intervalle de conance asymptotique à 95% pour la proportion d'avortements
s'écrit : " r r #
f (1 − f ) f (1 − f )
Ic = f − z0.975 , f + z0.975 .
n n
On cherche z dans la table de la loi N (0, 1); on trouve z (
= 1.96. 1 − α = 0.95 ⇒
α = 0.05).
0.975 0.975
D'où
q q
0.3955(1−0.3955) 0.3955(1−0.3955)
Ic = 0.3955 − 1.96 134
, 0.3955 + 1.96 134
= [0.3128, 0.47828].
42
Chapitre 4
Tests statistiques
4.1 Généralités
Dénition 4.1.1 Un test statistique a pour but d'eectuer un choix entre deux hypo-
thèses statistiques concernant une ou plusieurs populations, à partir d'un ou plusieurs
échantillons.
Dénition 4.1.2 Hypothèses.
− L'hypothèse nulle, notée H est celle qui est supposée vraie à priori.
− L'hypothèse alternative, notée H est l'hypothèse complémentaire de H .
0
1 0
43
H1 : θ 6= θ0 , test bilatéral.
H1 : θ > θ0 , test unilatéral à droite.
H1 : θ < θ0 , test unilatéral à gauche.
W = [z0.975 , +∞[.
W =] − ∞, −z0.975 ].
44
Démarche générale d'un test 1. Choisir les hypothèses à tester H0 et de H1 .
2. Fixer le risque α.
3. Déterminer la statistique (la variable de décision) de test.
4. Calculer la région de rejet en fonction de α et H0 .
5. Calculer la valeur observée de la statistique de test.
6. Conclure : rejet ou acceptation de H0 .
H0 : µ = µ0 ;
H1 : µ 6= µ0 .
45
X̄ − µ0
Z= √ N (0, 1).
σ/ n
L'intervalle d'acceptation (région d'acceptation) est de la forme
W = [−z1− α2 , z1− α2 ].
L'intervalle de rejet est de la forme :
W =] − ∞, −z1− α2 [∪]z1− α2 , +∞[,
où z1− α2 est le quantile d'ordre 1 − α
2
de la loi normale centrée et réduite.
Si z ∈ W , on ne rejette pas H0 , où z est la valeur observée de la variable aléatoire Z
(valeur calculée).
1.2. σ 2 inconnue : Sous H0 , la variable de décision (la statistique)
X̄ − µ0
T = √ Tn−1 .
S 0/ n
L'intervalle d'acceptation est de la forme
h α α i
W = −tn−1 (1 − ), tn−1 (1 − ) .
2 2
L'intervalle de rejet est de la forme :
i α h i α h
W = −∞, −tn−1 (1 − ) ∪ tn−1 (1 − ), +∞ ,
2 2
où tn−1 (1 − 2 ) est le quantile d'ordre 1 − 2 de la loi de Student à (n − 1) degrés de liberté.
α α
Si t ∈ W , on ne rejette pas H0 .
2. On suppose qu'on est en présence d'un échantillon non gaussien de grande taille
(n ≥ 30) :
2.1. σ 2 connue : Sous H0 , la variable de décision
X̄ − µ0
Z= √ N (0, 1).
σ/ n
L'intervalle d'acceptation est de la forme
W = [−z1− α2 , z1− α2 ].
2.2. σ 2 inconnue : Sous H0 , la variable de décision
X̄ − µ0
Z= √ N (0, 1).
S 0/ n
L'intervalle d'acceptation est de la forme
W = [−z1− α2 , z1− α2 ].
Pour les deux cas ; σ 2 connue ou σ 2 inconnue, si z ∈ W , on ne rejette pas H0 ,
46
4.2.2 Test sur une variance d'une variable gaussienne
On suppose que X N (µ, σ 2 ). On désire faire le test d'hypothèse suivant :
H0 : σ 2 = σ02 ;
H1 : σ 2 6= σ02 .
nT 2
V = χ2n .
σ02
L'intervalle de rejet est de la forme :
h α h i α h
W = 0, χ2n ( ) ∪ χ2n (1 − ), +∞ ,
2 2
où χ2n ( α2 ) et χ2n (1 − α2 ) sont les quantiles d'ordre α2 et 1 − α
2
de la loi du Khi-deux à n
degrés de liberté.
Si v ∈ W , on rejette H0 .
2. µ inconnue : Sous H0 , la variable de décision :
(n − 1)S 02
V = χ2n−1 .
σ02
L'intervalle de rejet est de la forme :
h α h i α h
W = 0, χ2n−1 ( ) ∪ χ2n−1 (1 − ), +∞ ,
2 2
où χ2n−1 ( α2 ) et χ2n−1 ( 1−α
2
) sont les quantiles d'ordre α
2
et 1 − α
2
de la loi du Khi-deux à
n − 1 degrés de liberté.
Si v ∈ W, on rejette H0 .
H0 : π = π0 ;
H1 : π 6= π0 .
F − π0
Z=q N (0, 1).
π0 (1−π0 )
n
47
L'intervalle d'acceptation est de la forme
W = [−z1− α2 , z1− α2 ].
L'intervalle de rejet est de la forme :
H1 : µ1 6= µ2 .
1. n1 et/ou n2 < 30 et X1 N (µ1 , σ12 ), X2 N (µ2 , σ22 ).
1.1. σ12 , σ22 connues :
Sous H0 , la variable de décision
X̄1 − X̄2
Z=q 2 N (0, 1).
σ1 σ2
n1
+ n22
L'intervalle d'acceptation est de la forme
W = [−z1− α2 , z1− α2 ],
où z1− α2 est le quantile d'ordre 1 − α
2
de la loi normale centrée et réduite.
Si z ∈ W , on ne rejette pas H0 .
1.2. σ12 , σ22 inconnues et σ12 = σ22 .
Sous H0 , la variable de décision
48
X̄1 − X̄2
T = q T (n1 + n2 − 2),
σ̂ n11 + n12
avec
s
(n1 − 1)Ś12 + (n2 − 1)Ś22
σ̂ =
n1 + n2 − 2
L'intervalle d'acceptation est de la forme
α α
W = [−tn1 +n2 −1 (1 − ), tn1 +n2 −1 (1 − )],
2 2
où tn1 +n2 −1 (1 − α2 ) est le quantile d'ordre 1 − α2 de la loi de Student à (n1 + n2 − 1) degrés
de liberté.
Si t ∈ W , on ne rejette pas H0 .
Remarque : Ce test est connu sous le nom de test T ou test de Student.
1.3. σ12 , σ22 inconnues et σ12 6= σ22 .
Sous H0 , la variable de décision
X̄1 − X̄2
T =q 2 T (m),
Ś1 Ś 2
n1
+ n22
est l'entier le plus proche de
2
ś21 ś22
n21
+ n22
ś41 ś42
.
n21 (n1 −1)
+ n22 (n2 −1)
X̄1 − X̄2
Z=q 2 N (0, 1).
Ś1 Ś 2
n1
+ n22
L'intervalle d'acceptation est de la forme
W = [−z1− α2 , z1− α2 ],
49
où z1− α2 est le quantile d'ordre 1 − α
2
de la loi normale centrée et réduite.
Si z ∈ W , on ne rejette pas H0 .
2.2. σ12 , σ22 connues :
Sous H0 , la variable de décision
X̄1 − X̄2
Z=q 2 N (0, 1).
σ1 σ2
n1
+ n22
L'intervalle d'acceptation est de la forme
W = [−z1− α2 , z1− α2 ],
Si z ∈ W , on ne rejette pas H0 .
H0 : µD = 0 ;
H1 : µD 6= 0.
Soit D̄ la moyenne empirique de D : D̄ =Pn1 ni=1 Di .
P
n
Soit SD 2
La variance de D : SD
2 1
= n−1 2
i=1 (Di − D̄ ).
1. Pour n < 30, Sous H0 , la variable de décision
D̄
T = √ T (n − 1)
SD / n
avec n
1 X
D̄ = X̄1 − X̄2 et 2
SD = (Di − D̄2 ).
n − 1 i=1
L'intervalle d'acceptation est de la forme
α α
W = [−tn−1 (1 − ), tn−1 (1 − )],
2 2
où tn−1 (1 − α2 ) est le quantile d'ordre 1 − α2 de la loi de Student à (n − 1) degrés de liberté.
Si t ∈ W , on ne rejette pas H0 .
2. Pour n ≥ 30, et loi quelconque (X non gaussienne), sous H0 , la variable de décision
50
D̄
Z= √ N (0, 1).
SD / n
L'intervalle d'acceptation est de la forme
W = [−z1− α2 , z1− α2 ],
où z1− α2 est le quantile d'ordre 1 − α
2
de la loi normale centrée et réduite.
Si z ∈ W , on ne rejette pas H0 .
H1 : σ12 6= σ22 .
Sous H0 , la variable de décision :
Ś12
Z= Fn1 −1,n2 −1 ,
Ś22
L'intervalle d'acceptation est de la forme
α α
W = [fn1 −1,n2 −1 ( ), fn1 −1,n2 −1 (1 − )],
2 2
où fn1 −1,n2 −1 ( α2 ) et fn1 −1,n2 −1 (1 − α2 ) sont les quantile d'ordre α
2
et 1 − α
2
de la loi de
Fisher Snédécor à (n1 − 1, n2 − 1) ddl.
Si z ∈ W on conserve H0 .
Remarque importantes :
ś2
− En calculant le rapport z = ś21 , on doit mettre la plus grande variance au numérateur.
2
− Le test de comparaison étant bilatéral, on rejette H0 au seuil de risque α dans les
deux cas suivants :
α α
z ≤ fn1 −1,n2 −1 ( ) ou z ≥ fn1 −1,n2 −1 (1 − ).
2 2
51
4.3.4 Test de comparaison de deux proportions : populations in-
dépendantes
On désire comparer deux proportions inconnues π1 et π2 :
H0 : π1 = π2 ;
H1 : π1 6= π2 .
F1 − F2
Z=q N (0, 1),
F̂ (1 − F̂ )( n11 + 1
n2
)
où
n1 F1 + n2 F2
F̂ = .
n1 + n2
L'intervalle d'acceptation est de la forme
W = [−z1− α2 , z1− α2 ],
où z1− α2 est le quantile d'ordre 1 − α
2
de la loi normale centrée et réduite.
Si z ∈ W , on ne rejette pas H0 .
52
où χ2k−1 (1 − α) correspond au quantile d'ordre (1 − α) de la loi du χ2 à (k-1) degrés de
liberté.
− Si z ≤ χ2k−1 (1 − α), alors on conserve (H0 ).
− Si z > χ2k−1 (1 − α) alors on rejette (H0 ).
− La valeur seuil χ2k−1 (1 − α) est lue sur la table du χ2 pour k − 1 ddl et pour un
risque d'erreur α xé.
On souahite tester l'indépendance de deux caractères statistiques X1 et X2 d'une
population. On pose :
H0 : les deux caractères sont indépendants.
Sous H0 , la variable de décision :
k1 Xk2
X (Oij − thij )2
Z= ∼ χ2(k1 −1)(k2 −1) ,
i=1 j=1
thij
53
Annexe
54
55
56
57
58
59
Bibliographie
[1] N. Akakpo, Tests statistiques, notes de cours issues du module 4M018 statistique
appliquée, 2017
[2] K. Balar, Statistique bivariée, Université Hassan II, Casablanca, 2019
[3] M. Bailly-Bechet, Biostatistiques Licence 2 BIO2006L, Université Claude Bernard
Lyon I France
[4] I. Gannaz, Introduction à la statistique, INSA de Lyon.
[5] M. Genin, Corrélation-Régression linéaire, Université de Lille 2, 2015
[6] M. Genin, Théorie de l'estimation, Université de Lille 2 EA 2694- Santé Publique :
Epidémiologie et Qualité des soins.
[7] M. Genin, Tests statistiques, Université de Lille 2
[8] M. Maumy-Bertrand, Statistique : étude de cas. Intervalles de conance, IRMA,
UMR 7501, Université de Strasbourg, 2017
[9] R. Rakotomalala, Comparaison de populations Tests paramétriques Version 1.2, Uni-
versité Lumière Lyon 2, 2013.
[10] S. A. Some, Statistique, les distributions à deux caractères, Série Documents De
Travail Dt-Capes N 2005-26, 2005
[11] Y. Tillé, Résumé du cours de statistique descriptive, 2005
[12] Axiomes du calcul des probabilités, L2 Eco-Gestion, option AEM.
60