Académique Documents
Professionnel Documents
Culture Documents
EEIGM 2A
Cours
Sandie FERRIGNO
Chapitre 1
Présentation de R
1.1 Introduction
R est un langage de programmation et un environnement mathématique utilisés pour
le traitement des données. Les intérêts d’utilisation de ce logiciel sont multiples : analyses
statistiques (modèles linéaires, non linéaires, tests d’hypothèse, modélisation de séries chro-
nologiques, classification,...) et nombreuses fonctions graphiques de qualité professionnelle.
C’est par ailleurs un langage disponible pour Windows, Mac et Unix. Il est le clone
gratuit du logiciel statistique Splus. Il peut se télécharger gratuitement en ligne à l’adresse
suivante : http ://www.r-project.org/. D’autres logiciels de statistique sont sur le marché :
SAS, Splus, Spad, SPSS,....
Environnement Windows : La fenêtre R Console est la fenêtre principale. Les com-
mandes et les sorties (résultats) sont en mode texte. Il est possible d’ajouter des fenêtres
facultatives : graphique, information (historique, aide,...).
1
1.1 Introduction 2
donnent la définition spatiale des fenêtres et l’accès à l’aide en ligne et aux manuels de
références du logiciel R.
Qu’est ce qu’un Package ? C’est une compilation d’outils. Certains sont présents dans l’ins-
tallation de base de R (dossier library par défaut qui comprend les packages de base de R).
D’autres packages utiles pour vos analyses statistiques seront à télécharger puis à installer.
Exemple : Pour une fonction dont le nom est fonction1, vous pouvez consulter une fiche de
documentation en tapant la commande ?fonction1 ou help(fonction1).
1.1 Introduction 3
1.1.4 Scripts.
Il est souvent plus pratique de composer le code R dans une fenêtre spécifique du logiciel :
la fenêtre de script. Les entrées Nouveau script ou Ouvrir un script permettent de créer un
nouveau scripts de commandes de R ou d’accéder à un ancien script sauvegardé lors d’une
session précédente. Pour sauvegarder un script, il suffit de sélectionner l’entrée ”Sauver”
du menu ”Fichier”. Les scripts s’écrivent avec un éditeur de texte (par exemple : Wordpad,
Open Office,...). Pour exécuter des scripts, deux solutions :
– Soit vous utilisez le copier-coller sur la fenêtre R Console.
– Soit vous le lisez avec la commande : Ctrl+R.
Avantages d’écrire des scripts :
– Gain de temps car vous pouvez facilement les réutiliser en adaptant si nécessaire des
lignes de commandes déjà tapées.
– Si vous avez beaucoup de lignes de commandes à écrire, c’est beaucoup plus simple de
les manipuler et les modifier comme dans un éditeur de texte classique.
– Il n’y a pas de message d’alerte sous R. Vous pouvez donc perdre des données facile-
ment.
– Ce qui est entré par l’utilisateur figure en rouge et la réponse de R est en bleu.
– R utilise le système anglo-saxon pour les nombres décimaux, c’est à dire les décimales
sont séparées par un point et non par une virgule comme en France.
– Attention à l’utilisation du point virgule. Sous R, il sert souvent à séparer deux ins-
tructions.
– Vous pouvez rappeler les commandes déjà exécutées en utilisant la touche ”Flèche vers
le haut”.
1.2 Objets avec le logiciel R 4
– Vous pouvez parcourir la ligne de commande que vous êtes entrain d’écrire en ap-
puyant sur les touches ”Flèche vers la gauche” et ”Flèche vers la droite”.
– R pour les débutants : polycopié d’Emmanuel Paradis (sur Arche). Disponible en ligne
en version anglaise également.
1. Si vous mélangez dans un même vecteur des caractères et des valeurs numériques, les
valeurs numériques sont automatiquement converties en chaı̂nes de caractères.
2. Quand les éléments du vecteur sont des chaı̂nes de caractères, il est obligatoire de les
déclarer entre guillements, sinon R ne reconnat pas les coordonnées du vecteur.
Exemple : > vecteur2 < −c(bleu, vert, rouge) renvoie le message : Erreur : objet
”bleu” introuvable.
1.2 Objets avec le logiciel R 6
[1] 1 5 7
– Utiliser un vecteur formé de valeurs logiques.
Exemple : Considérons le vecteur suivant :
> vecteur1 < −c(1, 3, 5, 7, 9)
> vecteur1
[1] 1 3 5 7 9
alors la commande
> vecteur1[vecteur1 > 3]
renvoie
[1] 5 7 9
Remarque : Si vous possédez deux vecteurs x et y qui ont la même longueur, vous
pouvez extraire du vecteur x par exemple les éléments correspondants aux valeurs
de y supérieures à une certaine valeur a. Il suffit pour cela de taper :
> x[y > a]
– Calculs sur les coordonnées d’un vecteur ou sur des vecteurs.
Exemples : considérons les vecteurs
> x < −c(1, 2, 3, 4)
> y < −c(5, 6, 7, 8)
alors
> 2 ∗ x + 1 renvoie [1] 3 5 7 9
> (x + y)/2 renvoie [1] 3 4 5 6
Remarque : Lorsque les deux vecteurs ne sont pas de même longueur, le plus court est
recyclé autant de fois que nécessaire pour atteindre la longueur du plus grand.
> z < −c(1, 2)
>x+z
[1] 2 4 4 6
– Remplacer les coordonnées d’un vecteur par d’autres coordonnées.
Supposons que l’on travaille avec la suite de nombres de 1 à 10 suivante :
> x < −1 : 10
>x
[1] 1 2 3 4 5 6 7 8 9 10
alors, les commandes
> x[3] < −32
1.2 Objets avec le logiciel R 9
>x
renvoient
[1] 1 2 32 4 5 6 7 8 9 10
> x[x == 1] < −23
>x
renvoient
[1] 23 2 32 4 5 6 7 8 9 10
> x[x > 10] < −20
>x
renvoient
[1] 20 2 20 4 5 6 7 8 9 10
– Répéter les coordonnées d’un vecteur.
La commande rep possède deux arguments notés x et times par R et crée un vecteur
où x est répété times fois.
Exemple :
> donnees < −c(1, 2, 3)
> donnees
[1] 1 2 3
rep(x = donnees, times = 2)
rep(donnees, 2)
[1] 1 2 3 1 2 3
Autres exemples :
rep(1, 50) crée un vecteur contenant 50 fois la valeur 1.
rep(”eeigm”, 4) crée un vecteur contenant quatre fois la chane de caractères ”eeigm”.
– Nommer les coordonnées d’un vecteur.
Exemples :
> note1 < −c(Anglais = 12, M aths = 14, Biologie = 13)
> matiere < −c(”Anglais”, ”M aths”, ”Biologie”)
> note2 < −c(12, 14, 13)
> names(note2) < −matiere
> note2
les vecteurs note1 et note2 renvoient le même résultat :
Anglais M aths Biologie
12 14 13
1.2 Objets avec le logiciel R 10
Remarque : pour supprimer les noms dans le vecteur note2, utiliser les commandes :
> names(note2) < −N U LL
> note2
– Trier les coordonnées d’un vecteur.
Exemples :
> note2
Anglais M aths Biologie
12 14 13
> sort(note2)
Anglais Biologie M aths
12 13 14
> rev(sort(note2))
M aths Biologie Anglais
14 13 12
– Les valeurs manquantes.
Lors d’une étude statistique, il peut arriver que certaines données ne soient pas dis-
ponibles : ces données sont alors considérées comme des données manquantes. Pour
saisir une donnée manquante vous utiliserez sous R le symbole N A (Not Avaible) et
ce quelque soit la nature de l’objet : numérique, caractère ou logique.
Exemple :
> x < −c(12, 34, N A, 52, 23)
>x
[1] 12 34 N A 52 23
la troisième valeur est laissée manquante.
> mode(x)
[1] ”N umeric”
la présence d’une valeur manquante n’affecte pas la nature des éléments qui composent
le vecteur. x est ainsi composé d’éléments numériques.
> is.na(x)
[1] F ALSE F ALSE T RU E F ALSE F ALSE
F ALSE indique l’absence d’une valeur manquante tandis que T RU E indique la
présence d’une valeur manquante. x possède donc une valeur manquante.
1.2 Objets avec le logiciel R 11
Exemple :
> matrice2[ , −1]
renvoie
[ ,1] [ ,2]
[1, ] 2 3
[2, ] 5 6
[3, ] 8 9
[4, ] 11 12
– Opérations sur les lignes et les colonnes.
La commande nrow(nommatrice) renvoie le nombre de lignes de la matrice sur laquelle
vous travaillez.
> nrow(matrice2)
[1] 4
La commande ncol(nommatrice) renvoie le nombre de colonnes de la matrice sur
laquelle vous travaillez.
> ncol(matrice2)
[1] 3
Remarque : vous pouvez obtenir ces deux informations en vous servant de la commande
dim.
> dim(matrice2)
[1] 4 3
Vous pouvez rajouter des lignes ou des colonnes à la matrice initiale avec respective-
ment les commandes rbind et cbind.
> rbind(matrice2, c(13 : 15))
[ ,1] [ ,2] [ ,3]
[1, ] 1 2 3
[2, ] 4 5 6
[3, ] 7 8 9
[4, ] 10 11 12
[5, ] 13 14 15
> cbind(matrice2, c(13 : 16))
[ ,1] [ ,2] [ ,3] [ ,4]
[1, ] 1 2 3 13
[2, ] 4 5 6 14
[3, ] 7 8 9 15
[4, ] 10 11 12 16
1.2 Objets avec le logiciel R 14
Principales commandes utiles pour effectuer des calculs sur les matrices :
– t(nommatrice) : transpose la matrice sur laquelle vous travaillez.
– det(nommatrice) : calcule le déterminant de la matrice sur laquelle vous travaillez.
– solve(nommatrice) : inverse la matrice sur laquelle vous travaillez.
– eigen(nommatrice) : diagonalise la matrice sur laquelle vous travaillez.
Pour créer un tableau de données sous R, il faut utiliser la fonction data.frame. Elle
permet de concaténer des vecteurs de même longueur et de modes différents.
Exemple :
> mat < −c(19.6, 12.3, 17.4, 13.8)
> phy < −c(13.2, 14.3, 11.9, 13.5)
> res < −data.f rame(mat, phy)
> res
mat phy
1 19.6 13.2
2 12.3 14.3
3 17.4 11.9
4 13.8 13.5
Remarque : Il est possible de donner des noms aux lignes du tableau de données avec
l’option row.names qui doit fournir un vecteur de mode caractère et de longueur égale
au nombre de lignes du tableau de données.
> res2 < −data.f rame(mat, phy, row.names = c(”Julie”, ”T homas”, ”P aul”, ”Isabelle”))
> res2
mat phy
Julie 19.6 13.2
T homas 12.3 14.3
P aul 17.4 11.9
Isabelle 13.8 13.5
Remarque : Les fonctions cbind et rbind introduites dans le partie sur les matrices
peuvent être utilisées avec les tableaux de données. Les fonctions ncol et nrow, qui ren-
voient respectivement le nombre de colonnes et le nombre de lignes peuvent également
être utilisées.
– Lire des données contenues dans un fichier.
Quand les données sont trop volumineuses, il n’est pas conseillé d’utiliser R comme
outil de saisie. Vous utiliserez dans ce cas un éditeur de texte ou un tableur puis vous
importerez votre fichier sous R.
Il faut indiquer à R l’endroit o vous aurez stocké les fichiers de données. La commande :
> getwd()
fait afficher au logiciel le répertoire de travail par défaut, par exemple :
[1] ”C/U sers/F errigno/Documents”
Pour changer ce répertoire donné par défaut et proposer à R d’aller récupérer les
données dans le répertoire Data de C, il faut utiliser la commande setwd :
> setwd(”C : /Data”)
1.2 Objets avec le logiciel R 17
Statistique descriptive
2.1 Vocabulaire
– La Statistique : C’est à la fois un ensemble de données et les activités consistant à
collecter ces données, à les traiter et à les interpréter. Le mot ”Statistique” vient de
l’Allemand ”Statistik” qui désigne l’analyse des données utiles à l’état au milieu du
17ème siècle.
21
2.1 Vocabulaire 22
Exemple : On interroge 2000 français sur leur intention de vote à la prochaine élection
présidentielle dans le but de prédire les résultats de cette élection.
– Les observations : ce sont les divers relevés effectués sur les individus d’un échantillon
de la population.
– Les variables ou caractères : ce sont les caractéristiques étudiées sur les individus
2.2 Variables qualitatives 23
Remarques :
– Il est important de bien faire la distinction entre ces deux types de caractères car
les méthodes statistiques pour en faire l’étude diffèrent selon le type de variable
étudiée.
– Un caractère ou une variable de type qualitatif peut être tranformé en variable de
type quantitatif par codage. Mais ce codage est conventionnel et n’a pas de sens
quantitatif. Par exemple, vous ne pouvez pas calculer la moyenne sur la couleur des
yeux d’une personne.
– Certaines variables de type qualitatif s’expriment à l’aide de nombres. C’est le cas
par exemple du numéro de téléphone. Mais elles n’ont pas de sens quantitatif puisque
parler par exemple de numéro de téléphone moyen n’est pas pertinent.
Exemples :
– La variable ”couleur des yeux” est une variable de type qualitatif nominale. En effet,
les modalités ”bleu”, ”vert”, ”marron”, ....ne sont pas ordonnées.
– La variable ”mention pour le diplôme d’ingénieur” est une variable de type qualitatif
ordinale. En effet, les modalités ”Excellent”, ”Très-bien”, ”Bien”, ....sont ordonnées.
Remarques :
– Le nombre de modalités d’une variable de type qualitatif est plus ou moins fixé conven-
tionnellement selon le type de caractère étudié.
– Chaque individu doit appartenir à une modalité car tous les cas doivent avoir été
prévus (exhaustivité).
– Un individu ne peut pas appartenir à deux modalités ou plus (incompatibilité).
– Une variable de type qualitatif est dite binaire si elle ne comporte que deux modalités.
Par exemples, les variables ”Sexe”, ”Santé” (malade ou sain) et ”Maladie” (présence
ou absence) sont binaires. Il est possible de les coder en 0 et 1.
– donner les effectifs ni de chaque modalité, c’est à dire le nombre de fois que chaque
P
modalité est attribuée. L’effectif cumulé est égal à pi=1 ni .
– calculer les fréquences fi associées à chacune des modalités. Elles correspondent à
l’effectif de la modalité divisé par l’effectif total, soit ∀i = 1, . . . , p,
ni
fi = Pp .
i=1 ni
Exemple sous R :
Le fichier ”Mesures”, issu du package ”BioStatR”, contient des données concernant les
haricots ramassés par un jardinier sur son terrain. Ils ont été ramassés sur quatres espèces
différentes de plantes. Le jardinier a relevé la masse, la taille et l’espèce de chaque haricot.
2.2 Variables qualitatives 25
L’ensemble des haricots de son jardin constitue la population. Il en a ramassé 252, ce qui
constitue l’échantillon. Les variables étudiées sont la masse, la taille et l’espèce. Les deux
premières sont de type quantitatif, la troisième de type qualitatif.
Les commandes suivantes permettent de charger en mémoire les fonctions et jeux de
données de la bibliothèque ”BioStatR” et d’afficher le jeu de données ”Mesures” contenu
dans cette bibliothèque :
> library(BioStatR)
> M esures
Vous pouvez par exemple demander à R d’afficher les 6 premières lignes de ce fichier :
> head(M esures)
masse taille espece
1 28.6 19.1 glycineblanche
2 20.6 14.8 glycineblanche
3 29.2 19.7 glycineblanche
4 32.0 21.1 glycineblanche
5 24.5 19.4 glycineblanche
6 29.0 19.5 glycineblanche
Remarque : la commande > tail(M esures) permet d’afficher les six dernières lignes du jeu
de données Mesures.
Nous nous intéressons ici à la variable espèce qui comporte quatre modalités : ”bignone”,
”glycine blanche”, ”glycine violette” et ”laurier rose”. Pour retrouver ces modalités sous
R:
– Le diagramme à barres verticales des effectifs ou des fréquences est une représentation
graphique de la distribution d’une série statistique qualitative par un ensemble de rec-
tangles. L’axe des abscisses correspond aux différentes modalités du caractère série
étudiée et l’axe des ordonnées aux effectifs ou fréquences associés. Ce type de dia-
gramme peut également être horizontal, les différentes modalités de la variable expli-
cative se trouvant sur l’axe des ordonnées et les effectifs ou fréquences sur l’axe des
abscisses.
– Le diagramme à points vertical des effectifs ou des fréquences est une représentation
graphique de la distribution d’une série statistique qualitative par un ensemble de
points. L’axe des abscisses correspond aux différentes modalités du caractère série
étudiée et l’axe des ordonnées aux effectifs ou fréquences associés. Ce type de dia-
gramme peut également être horizontal, les différentes modalités de la variable expli-
cative se trouvant sur l’axe des ordonnées et les effectifs ou fréquences sur l’axe des
abscisses.
– Le diagramme circulaire (ou camembert) est une représentation graphique de la
2.2 Variables qualitatives 27
Exemple avec R :
– Diagramme en bâtons :
> plot(table(M esures$espece), type = ”h”, lwd = 4, col = ”red”, xlab = ”Especes”, ylab =
”Ef f ectif s”)
– L’option type permet de choisir le type de graphique souhaité. Ici, le h signifie que
l’on souhaite un graphe de type histogramme.
– L’option lwd pour line width donne la largeur des barres verticales, ici 4.
– L’option col permet de choisir la couleur des barres, ici rouge.
– Les options xlab et ylab permettent respectivement d’afficher un titre respectivement
sous l’axe de abscisses et des ordonnées.
– Diagramme circulaire :
> pie(table(M esures$espece),
labels = c(”bignone”, ”glycineblanche”, ”glycineviolette”, ”laurierrose”), col = rainbow(7))
Exemples :
– La variable ”Poids d’un individu” est une variable de type quantitatif simple.
– La variable ”Relevé de températures pour une ville pendant un an” est une variable
de type quantitatif multiple.
Soit X une variable de type quantitatif discret ou continu. Supposons que X prenne les
valeurs x1 , . . . , xn . Notons par ni , i = 1, . . . , n, les effectifs de chacune de ces modalités.
Alors, donner la distribution de la variable X revient à :
– donner les effectifs ni de chaque modalité, c’est à dire le nombre de fois que la valeur
P
xi est prise. L’effectif cumulé en xi est égal à ij=1 nj .
– calculer, pour tout i = 1, . . . , n les fréquences fi associées à chacune des valeurs xi .
Elles correspondent à l’effectif ni divisé par l’effectif total, soit ∀i = 1, . . . , n,
ni
fi = Pn .
i=1 ni
Remarques :
– La suite de couples ((xi , ni ))i=1,...,n ou ((xi , fi ))i=1,...,n est appelée distribution statis-
tique de la variable X.
2.3 Variables quantitatives 30
Soit X une variable de type quantitatif discret ou continu. Lorsque X prend un nombre
trop important de valeurs, il est préférable de regrouper ces valeurs en intervalles appelés
classes pour rendre la statistique plus lisible. L’ensemble des valeurs prises par X est alors
partagé en classes de la forme ]ai ; ai+1 ] avec ai < ai+1 pour tout i = 1, . . . , n. Alors, donner
la distribution de X revient à :
ni
fi = Pn .
i=1 ni
Remarque : La donnée du couple (]ai ; ai+1 ], ni )i=1,...,n ou (]ai ; ai+1 ], fi )i=1,...,n représente
la distribution statistique de la variable X.
Exemple sous R : Nous nous intéressons toujours au jeu de données Mesures et cette fois à la
variable masse (des haricots). Cette variable est de type quantitatif continu. Nous pouvons
l’étudier soit en considérant l’ensemble de ses valeurs soit en faisant des regroupements en
classes. C’est cette deuxième alternative que nous choisissons car le nombre de valeurs est
trop important.
[1] 0 5 10 15 20 25 30 35 40 45 50
Remarque : Vous pouvez vérifier que la somme des fréquences vaut 1 en utilisant la
commande > sum(f requences).
– Le diagramme à barres verticales des effectifs (ou des fréquences) est une représentation
graphique de la distribution d’une série statistique quantitative discrète par une suite
de segments verticaux d’abscisse xi (avec i = 1, . . . , n) dont la longueur est propor-
tionnelle à l’effectif (ou à la fréquence) des xi .
– Le polygone des effectifs (ou des fréquences) de la distribution d’une série statistique
quantitative discrète est obtenu à partir du diagramme à barres des effectifs (ou des
fréquences) en joignant par un segment le sommet des btons.
– En remplaçant dans la définition précédente le mot effectifs (ou fréquences) par effectifs
cumulés (ou fréquences cumulées) vous obtenez le polygone des effectifs cumulés (ou
des fréquences cumulées).
tique quantitative pour laquelle des classes ont été crées. Deux cas se distinguent :
1. dans le cas où les amplitudes des classes sont égales, cet histogramme est un
ensemble de rectangles de largeur l’amplitude a de la classe. La hauteur de chaque
rectangle est égale à K (une constante arbitraire) multipliée par l’effectif de la
classe de sorte que l’aire totale sous l’histogramme soit égale à K × N × a où N
est l’effectif total.
– Le polygone des effectifs (ou des fréquences) de la distribution d’une série statistique
quantitative regroupée en classes est obtenu en joignant dans l’histogramme de cette
distribution les milieux des côtés horizontaux supérieurs.
Exemple avec R :
– Histogramme :
> hist(M esures$masse, main = ”Histogramme des masses”, xlab = ”M asse”, ylab =
”Ef f ectif s”)
n n
1 X X
µ̂n = xi n i = xi f i
N i=1 i=1
Remarques :
– Pour une distribution qui aurait été regroupée en classes de la forme (]ai ; ai+1 ])i=1,...,n ,
la moyenne arithmétique se calcule par :
n
1 X
µ̂n = ci ni
N i=1
ai +ai+1
où ci est le centre de la classe ]ai ; ai+1 ] et vaut, pour i = 1, . . . , n, ci = 2
.
– La moyenne est cependant sensible aux valeurs extrêmes.
– Lorsque la distribution présente de fortes ou faibles valeurs isolées, il vaut mieux se
tourner vers le calcul de la médiane.
1. Si l’on classe les n valeurs de la série par ordre croissant et qu’elles sont en nombre
impair, la médiane correspond alors à :
M = x (n+1)
2
2. Si l’on classe les n valeurs de la série par ordre croissant et qu’elles sont en nombre
pair, la médiane correspond alors à :
x (n) + x (n+2)
2 2
M=
2
Exemples :
1223467
122346
2+3
Elles sont en nombre pair et la médiane vaut M = 2
= 2.5.
Remarques :
– Les quartiles : ce sont des valeurs de la distribution qui permettent de séparer celle-ci
en deux parties :
Remarques :
– Soit α ∈ [0; 1]. D’une manière générale, le quantile Qα est tel que α × 100% des
observations de la distribution se trouvent à gauche de Qα et (1 − α) × 100% des
observations de la distribution se trouvent à droite de Qα .
– On s’intéresse souvent à l’intervalle inter-quartiles à savoir [Q0.25 ; Q0.75 ] qui permet
de retrouver 50% de la distribution.
– Il arrive que les premier et troisième quartiles et la médiane (deuxième quartile)
2.4 Calculs numériques sur les variables quantitatives 36
Exemple :
1 11 15 19 20 24 28 34 37 47 50 57
– L’étendue : c’est la différence entre la plus grande valeur et la plus petite valeur de
la série statistique étudiée. Soit X, le caractère étudié. Alors :
– La variance : c’est le nombre réel positif qui donne la moyenne des carrés des écarts
à la moyenne arithmétique.
Dans le cas d’une distribution statistique quantitative discrète ou continue d’une va-
riable X, prenant les valeurs x1 , . . . , xn avec les effectifs ni , i = 1, . . . n,
Xn n
1 X
V (X) = S 2 (X) = (xi − µ)2 fi = (xi − µ)2 ni
i=1
N i=1
Xn n
2 2 a2 1 X a2
V (X) = S (X) = (xi − µ) fi − = (xi − µ)2 ni −
i=1
12 N i=1 12
ni
avec les fréquences fi pour i = 1, . . . , n de la distribution définies par fi = N
où N est
l’effectif total.
Remarque :
La formule de Huyens : S 2 (X) = µ(X 2 ) − µ2 (X) où µ(X 2 ) est la moyenne du carré des
valeurs de la distribution est souvent préférée et conseillée car elle ne fait intervenir qu’une
seule fois le calcul de la moyenne qui est souvent arrondi et non une valeur exacte dans le
calcul de la variance. Cela implique donc moins d’erreurs de calcul.
n
2 1 X N
σ (X) = (xi − µ)2 ni = S 2 (X).
N − 1 i=1 N −1
Remarques :
– Nous reparlerons de cette variance dans le cours sur l’estimation et les intervalles de
confiance.
2.4 Calculs numériques sur les variables quantitatives 38
p
σ(X) = V ar(X).
Remarque :
Ce coefficient n’a pas d’unité. Il permet de comparer des séries statistiques entre elles
qui n’ont pas les mêmes unités. Par exemple, lorsqu’on veut comparer les températures de
différents pays, il est utilisé puisque plusieurs unités coexistent. Nous en reparlerons au
second semestre lorsque nous étudierons la régression linéaire.
n
X
mr (X) = (xi − µ)r fi
i=1
m3 (x)
γ1 (x) =
.
S 3 (x)
– Le coefficient d’asymétrie de Pearson d’une série statistique est la quantité :
(m3 (x))2
β1 (x) = = γ12 (x).
(S 3 (x))2
2.5 Applications avec le logiciel R 39
m4 (x)
γ2 (x) = − 3.
(S(x))4
– Le coefficient d’aplatissement de Pearson d’une série statistique est la quantité :
m4 (x)
β2 (x) = .
(S(x))4
Remarques :
– Le coefficient d’asymétrie (ou skewness) mesure l’asymétrie de la distribution d’une
variable quantitative.
– Le coefficient d’aplatissement (ou kurtosis) mesure l’aplatissement de la distribution
d’une variable quantitative.
Remarque : Nous verrons une autre méthode pour effectuer ce calcul lorsque nous verrons
comment calculer avec R les quantiles d’une distribution.
Remarques :
2. L’écart-type calculé par R est l’écart-type corrigé c’est à dire la racine carrée de la
variance corrigée.
> library(BioStatR)
> cvar(M esures$masse)
2.5 Applications avec le logiciel R 41
[1] 80.87253
> library(agricolae)
> skewness(M esures$masse)
[1] 1.639849
Le résultat signifie que 50% des observations de la distribution de la variable masse sont
plus petites que 8.4 et les 50% restantes sont plus grandes que 8.4.
Le quantile d’ordre α de la variable masse du jeu de données Mesures s’obtient donc avec
les commandes :
Remarque :
Nous avons vu que la fonction summary permet d’afficher simultanément les premier,
deuxième et troisième quartiles d’une distribution. Elle affiche également le minimum,
le maximum et la moyenne de la distribution. Nous l’utiliserons souvent afin d’avoir un
aperçu général des divers paramètres de la distribution.
Exemples :
Pour obtenir les trois quartiles de la variable masse du jeu de données Mesures simul-
tanément :
> quantile(M esures$masse, c(0.25, 0.5, 0.75))
[1] 4.5 8.4 14.6
– La médiane (qui est aussi le deuxième quartile ou Q2 ) est représentée par un trait
horizontal au sein de la boı̂te.
– Les valeurs atypiques sont représentées soit par un cercle (sous R) soit par une étoile.
– Les moustaches inférieures et supérieures sont représentées par des pointillés (sous R)
ou des traits pleins verticaux de chaque côté de la boı̂te qui se terminent par des traits
horizontaux.
Remarques : Une boı̂te utilisant la deuxième convention est appelée ”boı̂te à pattes”. La
dernière convention est beaucoup moins utilisée que les deux précédentes.
Nous pouvons également obtenir plusieurs boı̂tes à moustaches en parallèle selon les
modalités d’une variable qualitative, par exemple ici les boı̂tes à moustache de la variable
masse du jeu de données Mesures en fonction des différentes especes :
Pour obtenir quelques statistiques concernant la boı̂te à moustaches ainsi que les valeurs
2.5 Applications avec le logiciel R 44
$stats
[1] 1.0 4.5 8.4 14.6 29.6
$n
[1] 252
$conf
[1] 7.39474 9.40526
$out
[1] 32.0 35.5 32.5 40.0 49.2 46.0 42.2 48.4 31.7 33.7
– $stats donne l’extrêmité inférieure de la moustache inférieure, le 1er quartile, la médiane,
le troisième quartile et l’extrémité supérieure de la moustache supérieure.
– Les boı̂tes à moustaches, même si elles sont moins précises qu’un histogramme, sont
des résumés graphiques efficaces des données car elles ne nécessitent pas d’effectuer des
regroupements en classes.
– Il ne faut pas confondre valeur atypique avec valeur aberrante. Une valeur aberrante
est une valeur qu’il est impossible d’avoir observé pendant l’expérience car elle entre
en contradiction avec vos connaissances et le contexte expérimental. Elle peut être due
à une erreur de mesure, de relevé ou de saisie.
3.1 Introduction
Buts de ce chapitre :
Quelques définitions :
– Une variable aléatoire : Dans la plupart des phénomènes aléatoires, le résultat d’une
épreuve peut se traduire par une grandeur mathématique, très souvent représentée par
un nombre. La notion mathématique qui représente efficacement ce genre de situation
concrète est celle de variable aléatoire (ou va) notée X. C’est donc une fonction définie
sur l’ensemble des résultats possibles d’une expérience aléatoire, telle qu’il soit possible
de déterminer la probabilité pour qu’elle prenne une valeur donnée ou qu’elle prenne une
valeur dans un intervalle donné.
47
3.1 Introduction 48
Exemples :
– Si l’on considère une fratrie de deux enfants, l’ensemble des résultats possibles est :
{GG, GF, F G, F F }
Les valeurs possibles prises par la variable aleatoire X, nombres de filles dans la famille,
sont :
{0, 1, 2}
– Si l’on considère la variable aléatoire X qui est le résultat du lancer d’un dé (non
truqué) les valeurs possibles prises par cette variable sont :
{1, 2, 3, 4, 5, 6}
∀x ∈ R, FX (x) = P (X ≤ x).
Remarques :
Variable aléatoire discrète : une variable aléatoire discrète X est une variable telle que
l’ensemble de ses valeurs est au plus dénombrable. La loi de probabilité d’une telle variable
est la donnée de l’ensemble des probabilité
P (X = k) = pX (k)
avec k qui parcourt l’ensemble des valeurs prises par la variable aléatoire.
1. ∀k, pX (k) ≥ 0.
P
2. k pX (k) = 1.
P P
3. pour tout réel x, FX (x) = P (X ≤ x) = k≤x pX (k) = k≤x P (X = k).
Exemple : Revenons à l’exemple du lancer du dé (non truqué). Soit X la variable aléatoire
”résultat du lancer du dé”. Nous avons vu qu’elle peut prendre les valeurs de 1 à 6. Cet
ensemble de valeurs est dénombrable donc il s’agit d’une variable aléatoire discrète. Nous
avons par ailleurs :
1. ∀t ∈ R, fX (t) ≥ 0.
R
2. R fX (t)dt = 1.
Rx
3. pour tout réel x, FX (x) = P (X ≤ x) = −∞
fX (t)dt.
Exemple : Les variables suivantes sont des variables continues.
– Un relevé de température.
– La taille ou le poids d’un individu.
– En général, toutes les variables relevant d’une mesure sont continues.
– Le temps d’attente à une caisse d’un supermarché.
– La longueur d’un train.
Exemple 1 :
3.2 Lois de probabilité discrètes 50
Exemple 2 :
Exemple 3 :
Illustration de P (a < X ≤ b)
Exemple : Un exemple simple est celui de la pièce de monnaie. Si celle-ci n’est pas
truquée, lorsque vous lancez une telle pièce, il y a deux résultats possibles : pile ou
face avec comme probabilités respectives p = 0.5 et q = 0.5.
– Loi Binomiale de paramètres n et p, notée B(n; p). Une variable aléatoire X suit
une loi Binomiale de paramètres n et p si elle prend la valeur k avec la probabilité
P (X = k) = Cnk pn (1 − p)n−k .
Exemple : Revenons à l’exemple de la pièce de monnaie. Si celle-ci n’est pas truquée,
lorsque vous lancez une telle pièce, il y a deux résultats possibles : pile ou face avec comme
probabilités respectives p = 0.5 et q = 0.5. Si cette expérience du lancer de la pièce est
renouvelée n fois, la variable X, ”nombre de fois où la pièce est tombe sur la face pile lors
du lancer des n pièces”, suit alors une loi Binomiale de paramètres n et p = 0.5.
3.2 Lois de probabilité discrètes 52
Remarques :
2. La loi binomiale modélise toutes les situations qui s’apparentent à un tirage avec
remise.
3. L’espérance (moyenne) d’une variable aléatoire suivant une loi Binomiale de pa-
ramètres n et p est np et sa variance vaut np(1 − p).
4. Une table statistique permet de lire directement les probabilités associées à cette loi
en fonction des valeurs de n et de p ce qui facilite les calculs.
– Loi Uniforme discrète. Une variable aléatoire X suit une loi Uniforme discrète si elle
prend n valeurs possibles k1 , k2 , . . . , kn avec la probabilité égale à n1 pour n’importe
quelle valeur ki . En particulier, une variable aléatoire X suit une loi uniforme discrète
sur [a; b] avec a, b ∈ Z et a ≤ b si X prend comme valeurs possibles {a, a + 1, . . . , b}
3.2 Lois de probabilité discrètes 53
1
avec la probabilité égale à b−a+1
pour n’importe laquelle de ces valeurs.
Exemple : Revenons à l’exemple du lancer du dé (non truqué). Soit X la variable aléatoire
”résultat du lancer du dé”. Alors X peut prendre les valeurs 1,2,3,4,5 et 6 avec les proba-
bilités toutes égales à 16 . X suit donc une loi uniforme discrète.
Remarques :
Si X suit une loi uniforme discrète sur [a; b] alors l’espérance (moyenne) de X vaut
a+b
E(X) =
2
et la variance de X vaut
(b − a)(b − a + 2)
V ar(X) = .
12
– Loi de Poisson de paramètre λ, notée P(λ). Une variable aléatoire X suit une loi de
Poisson de paramètre λ si elle prend la valeur k avec la probabilité
3.3 Lois de probabilité continues 54
λk
P (X = k) = exp(−λ) .
k!
E(X) = λ
et la variance de X vaut
V ar(X) = λ.
Remarques :
1. La loi de Poisson est utilisée pour décrire divers phénomènes comme par exemple le
nombre d’appels reus par un standard téléphonique pendant une période donnée.
2. La loi de Poisson peut également être utilisée lorsqu’on étudie l’apparition de certains
phénomènes rares.
3. Une table statistique permet de lire directement les probabilités associées à cette loi
en fonction des valeurs de λ ce qui facilite les calculs.
2
1 t
fX (t) = √ exp − .
2π 2
Une telle variable aléatoire est alors dite variable gaussienne. On la note habituellement
par N(0; 1).
La loi Normale est une des principales distributions de probabilité introduite par le
mathématicien de Moivre en 1733. Cette loi a été mise en évidence par Gauss au XIXe
siècle et permet de modéliser de nombreuses études biométriques.
Remarques :
– Le graphe de la densité de probabilité fX d’une variable aléatoire suivant une loi de
Gauss centrée réduite a l’allure d’une courbe en cloche assez aplatie.
– La fonction de répartition d’une variable aléatoire suivant une loi Normale centrée
réduite vaut, pour tout x ∈ R,
Z x
1 t2
Φ(x) = P (X ≤ x) = √ exp − dt.
2π −∞ 2
– Soit X une variable aléatoire qui suit une loi Normale N(0; 1). Alors son espérance
(moyenne) est égale à 0 et sa variance est égale à 1. C’est pour cela qu’on dit qu’elle
est centrée réduite.
– Le coefficient d’asymétrie (skewness) d’une loi Normale centrée réduite vaut 0 et
son coefficient d’aplatissement (kurtosis) vaut 3. Ce sont généralement des valeurs
de références pour d’autres distributions.
– Une table statistique permet de lire directement les probabilités associées à cette loi
ce qui facilite les calculs.
– C’est une loi de probabilité symétrique autour de 0.
3.3 Lois de probabilité continues 56
– Loi Normale de paramètre µ et σ. Une variable aléatoire réelle X suit une loi Normale
(ou loi de Laplace-Gauss) de paramètres µ et σ si elle admet pour densité de probabilité
la fonction fX définie, pour tout nombre réel t, par :
2 !
1 1 t−µ
fX (t) = √ exp − .
2πσ 2 2 σ
Une telle variable aléatoire est alors dite variable gaussienne. On la note habituellement
par N(µ; σ) ou N(µ; σ 2 ).
Remarques :
– La fonction de répartition d’une variable aléatoire suivant une loi Normale centrée
réduite vaut, pour tout x ∈ R,
x−µ
F (x) = P (X ≤ x) = Φ
σ
3.3 Lois de probabilité continues 57
avec Φ la fonction de répartition d’une variable suivant une loi Normale centrée réduite.
– Soit X une variable aléatoire qui suit une loi Normale N(µ; σ). Alors son espérance
(moyenne) est égale à µ et sa variance est égale à σ 2 .
– On utilise la table statistique de la loi N (0; 1) pour lire directement les probabilités
associées à cette loi ce qui facilite les calculs.
– C’est une loi de probabilité symétrique.
3.3 Lois de probabilité continues 58
1 t p
fX (t) = p p exp − t 2 −1 si t ≥ 0, 0 si t < 0
2 2 Γ( 2 ) 2
R +∞
où Γ(r) = 0
tr−1 exp(−t)dt est la fonction gamma d’Euler.
On la note habituellement par χ2 (p).
Remarques :
– La fonction de répartition ne s’explicite pas. Il existe une table statistique pour lire
ses valeurs et on peut la tracer via un logiciel de Statistique.
– Contrairement à la loi Normale, la densité d’une loi du Khi-deux n’est pas symétrique !
– Soit X une variable aléatoire qui suit une loi du Khi-deux à p degrés de liberté. Alors
3.3 Lois de probabilité continues 59
– Loi de Student à n degrés de liberté. Soit n un entier positif. Une variable aléatoire
réelle X suit une loi de Student à n degrés de liberté si elle admet pour densité de
probabilité la fonction fX définie, pour tout nombre réel t, par :
1 Γ( n+1
2
) 1
fX (t) = √
nπ Γ( 2 ) 1 + t2 n+1
n
2
n
R +∞
où Γ(r) = 0
tr−1 exp(−t)dt est la fonction gamma d’Euler.
On la note habituellement par T (n).
3.3 Lois de probabilité continues 60
Remarques :
– La fonction de répartition ne s’explicite pas. Il existe une table statistique pour lire
ses valeurs et on peut la tracer via un logiciel de Statistique.
– Comme la loi Normale, la densité d’une loi de Student est symétrique ! Son allure est
similaire avec un étalement un peu plus fort.
– Soit X une variable aléatoire qui suit une loi de Student à n degrés de liberté. Alors
n
son espérance (moyenne) est égale à 0 si n ≥ 2 et sa variance est égale à n−2 si n ≥ 3.
– Soit U une variable aléatoire de loi N (0; 1) et X qui suit, indépendamment de U une
loi du Khi-deux à n degrés de liberté. Alors la variable √UX suit la loi de Student à n
n
degrés de liberté.
– Nous utiliserons cette loi pour construire des intervalles de confiance et des tests sta-
tistiques.
de liberté si elle admet pour densité de probabilité la fonction fX définie, pour tout
nombre réel t, par :
n2 n−2
Γ( n+p ) n t 2
fX (t) = n 2 p n+p pour t ≥ 0, 0 sinon
Γ( 2 )Γ( 2 ) p n 2
1+ p
t
R +∞
où Γ(r) = 0
tr−1 exp(−t)dt est la fonction gamma d’Euler.
On la note habituellement par F (n, p).
Remarques :
– La fonction de répartition ne s’explicite pas. Il existe une table statistique pour lire
ses valeurs et on peut la tracer via un logiciel de Statistique.
– Comme la loi du Khi-deux, la densité d’une loi de Fisher-Snédécor n’est pas symétrique !
– Soit X une variable aléatoire qui suit une loi de Fisher-Snédécor à n et p degrés de
p
liberté. Alors son espérance (moyenne) est égale à p−2 si p ≥ 3 et sa variance est égale
2p2 (n+p−2)
à n(p−2)2 (p−4)
si p ≥ 5.
– Soit X une variable aléatoire de loi du Khi-deux à n degrés de liberté et Y qui suit,
X
indépendamment de X une loi du Khi-deux à p degrés de liberté. Alors la variable Yn
p
suit la loi de Fisher-Snédécor à n et p degrés de liberté.
– Nous utiliserons cette loi pour construire des tests statistiques.
3.3 Lois de probabilité continues 62
– Il est souvent préférable de travailler avec la fonction de survie qui est définie par
r(x) = 1 − F (x) = exp(−λx).
– Soit X une variable aléatoire qui suit une loi exponentielle de paramètre λ. Alors son
espérance (moyenne) est égale à λ1 et sa variance est égale à λ12 .
3.4 Approximations
– Approximation de la loi Binomiale par la loi de Poisson.
3.5 Utilisation des diverses lois sous R 64
En pratique, la loi Binomiale B(n; p) peut-être approchée par une loi de Poisson P(np)
lorsque :
1. p ≤ 0.1
2. n ≥ 30
3. np < 15
– Approximation de la loi Binomiale par la loi Normale.
p
En pratique, la loi Binomiale B(n; p) peut-être approchée par une loi Normale N (np; np(1 − p))
lorsque :
1. n ≥ 30
2. np ≥ 15
3. np(1 − p) > 5
8. unif (min, max) fait appel à la loi Uniforme sur l’intervalle [min, max].
Remarques :
pnomdist permet d’obtenir la fonction de répartition F (x) que ce soit pour une variable
de type continue ou discrète.
Pour tracer par exemple la fonction de répartition d’une loi Normale centrée réduite :
4.1 Introduction
Buts de ce chapitre :
– Soit en proposant ou calculant un seul nombre et dans ce cas l’estimation sera dite
ponctuelle.
n
1X
µ̂n = Xi .
n i=1
67
4.2 Estimation d’un paramètre 68
Exemple : Nous travaillons avec le jeu de données Mesures du package BioStatR qui com-
porte 252 observations sur par exemple la taille et le poids de haricots d’espèces différentes.
Si nous nous intéressons à un échantillon particulier qui comporte 54 observations et cor-
respond à l’espèce ”glycine blanche” et que nous voulons calculer une estimation de la
moyenne de la variable taille,
n
1X
Sn2 = (Xi − µ̂n )2 .
n i=1
n
2 1 X n
Sn,c = (Xi − µ̂n )2 = S2.
n − 1 i=1 n−1 n
2
Il est sans biais ce qui signifie que E(Sn,c ) = σ2.
Exemple : Nous travaillons avec le jeu de données Mesures du package BioStatR qui com-
porte 252 observations sur par exemple la taille et le poids de haricots d’espèces différentes.
Si nous nous intéressons à un échantillon particulier qui comporte 54 observations et corres-
pond à l’espèce ”glycine blanche” et que nous voulons calculer une estimation de la variance
de la variable taille,
4.2 Estimation d’un paramètre 69
nA
π̂n,A =
n
où nA est le nombre d’individus de l’échantillon de taille n qui possèdent la caractéristique
A.
Exemple : Nous travaillons avec le jeu de données Mesures5 du package BioStatR qui com-
porte 252 observations sur par exemple la taille et le poids de haricots d’espèces différentes.
Si nous nous intéressons à un échantillon particulier qui comporte 54 observations et cor-
respond à l’espèce ”glycine blanche” et que nous voulons calculer une estimation de la
proportion de gousses de glycine blanche qui ont moins de trois graines,
> 37/54
> 0.6851852
2. par intervalle ]θ1 ; θ2 [ dit de confiance qui est une estimation ensembliste de θ.
Alors,
1
Pn
– µ̂n = n i=1 Xi est le ”meilleur” estimateur de µ.
– µ̂n suit la loi Normale N µ; √σ .
n
µ1 < µ < µ 2
avec
µ1 = µ̂n − u1− α2 √σn
Alors,
– µ̂n estime µ.
µ̂n −µ
– √Sn
suit la loi de Student à n − 1 degrés de liberté, T (n − 1).
n−1
µ1 < µ < µ 2
avec
µ1 = µ̂n − tn−1;1− α2 √Sn−1
n
α
où tn−1;1− α2 est le quantile d’ordre 1 − 2
de la loi de Student à n − 1 degrés de liberté.
Remarque : Le cas où σ 2 est connu est rare en pratique car c’est en général un paramètre
inconnu.
Alors,
n
1X
σ̂n2 = (Xi − µ)2
n i=1
nσˆn 2
– suit la loi du Khi-deux à n degrés de liberté, χ2 (n).
σ2
L’intervalle de confiance pour σ 2 au niveau de confiance (1 − α) est égal à :
avec
nσˆn 2
σ12 =
k2
nσˆn 2
σ22 =
k1
où k1 est le quantile d’ordre α2 de la loi du Khi-deux à n degrés de liberté et k2 est le
quantile d’ordre 1 − α2 de la loi du Khi-deux à n degrés de liberté
Alors,
n
1X
Sn2 = (Xi − µ̂n )2
n i=1
nSn2
– suit la loi du Khi-deux à n − 1 degrés de liberté, χ2 (n − 1).
σ2
L’intervalle de confiance pour σ 2 au niveau de confiance (1 − α) est égal à :
avec
nSn2
σ12 =
k2
nSn2
σ22 =
k1
où k1 est le quantile d’ordre α2 de la loi du Khi-deux à n − 1 degrés de liberté et k2 est
le quantile d’ordre 1 − α2 de la loi du Khi-deux à n − 1 degrés de liberté
nA
Pour estimer πA il suffit d’utiliser π̂A = n
.
4.3 Estimation par intervalle de confiance 74
Remarque : on suppose un tirage aléatoire avec remise ce qui correspond à une population
infinie.
Remarque : Celle à privilégier est celle du score. On rencontre dans de nombreux bou-
quins celle de Wald qui malheureusement ne permet pas d’obtenir des résultats de qualité
convenable.
Méthode du score ou de Wilson :
π1 < πA < π2
avec
r
u21− α
1 2 π̂A (1−π̂A )
π̂A + u
2n 1− α
− u1− α2 × n
+ 4n2
2
2
π1 =
1 + n1 u21− α
2
et
r
u21− α
1 2 π̂A (1−π̂A )
π̂A + u
2n 1− α
+ u1− α2 × n
+ 4n2
2
2
π2 =
1 + n1 u21− α
2
4.4 Applications avec le logiciel R 75
Exemple : 1 − α sera souvent fixé à 95% et par conséquent, u1− α2 vaudra approximative-
ment 1.96. Pour obtenir la valeur exacte :
> qnorm(0.975)
[1] 1.959964
Exemple : Nous travaillons avec le jeu de données Mesures du package BioStatR qui com-
porte 252 observations sur par exemple la taille et le poids de haricots d’espèces différentes.
Si nous nous intéressons à un échantillon particulier qui comporte 54 observations et cor-
respond à l’espèce ”glycine blanche” et que nous voulons calculer un intervalle de confiance
de la moyenne µ de la variable taille,
Borne supérieure :
Remarques :
1. Il faut au préalable vérifier que les données qui forment l’échantillon proviennent d’une
loi Normale de paramètres µ et σ, tous deux inconnus. Pour cela, il faut réaliser un
test de normalité, ce que nous verrons en détail dans un prochain chapitre.
2. Il y a une fonction de R qui permet d’obtenir directement les deux bornes de l’intervalle
de confiance en une ligne de commande :
> t.test(glycine.blanche$taille)
Le résultat apparait en sortie sur la ligne ”95 percent confidence interval”. Cependant,
comme nous n’avons pas encore abordé le chapitre sur les tests statistiques, nous
détaillerons cette fonction ultérieurement (ou en TP).
Exemple : Nous travaillons avec le jeu de données Mesures du package BioStatR qui com-
porte 252 observations sur par exemple la taille et le poids de haricots d’espèces différentes.
Si nous nous intéressons à un échantillon particulier qui comporte 54 observations et cor-
respond à l’espèce ”glycine blanche” et que nous voulons calculer un intervalle de confiance
de la variance σ 2 de la variable taille,
Borne supérieure :
[1] 16.63339
Chapitre 5
Tests statistiques
Questions :
Soit H0 et H1 deux hypothèses, dont une et une seule est vraie. L’hypothèse H0
a souvent un rôle prédominant par rapport à l’hypothèse alternative H1 . C’est la
79
5.2 Introduction à la notion de test statistique 80
conséquence du fait que l’hypothèse nulle H0 est l’hypothèse de référence et que toute
la démarche du test s’effectue en considérant cette hypothèse comme vraie.
– Exemples :
Un deuxième exemple serait d’avoir l’hypothèse nulle H0 , σ 2 = σ02 et dans ce cas, une
hypothèse alternative pourrait être H1 : σ 2 6= σ02 .
La décision d’un test consiste à choisir entre H0 et H1 . Il y a donc quatre cas possibles :
– L’erreur de deuxième espèce est le fait de décider que l’hypothèse nulle H0 est
vraie alors qu’en fait, en réalité, c’est l’hypothèse alternative H1 qui est vraie.
Le risque d’erreur associé à cette décision est noté généralement β. Il s’agit donc de
la probabilité de décider à tort que l’hypothèse nulle H0 est vraie.
probabilité de rejeter l’hypothèse nulle à raison. Elle doit généralement être au moins
égale à 0.80 pour être considérée comme satisfaisante.
– Un test bilatéral s’applique lorsque vous cherchez une différence entre deux pa-
ramètres ou entre un paramètre et une valeur donnée sans se préoccuper du signe ou
du sens de la différence. Dans ce cas, la zone de rejet de l’hypothèse principale se fait
de part et d’autre de la distribution de référence.
– Définition : lorsque le risque de première espèce α est fixé, il faut choisir une variable
de décision encore appelée statistique de test. Cette variable est construite afin
d’apporter de l’information sur le problème posé, à savoir le choix entre les deux
hypothèses. Sa loi doit être parfaitement déterminée dans au moins une des deux
hypothèses (le plus souvent dans H0 ) afin de ne pas introduire de nouvelles inconnues
dans le problème.
– Définition : la région critique notée W ou encore appelée zone de rejet est égale
à l’ensemble des valeurs de la variable de décision qui conduisent à écarter H0 au
profit de H1 . La région critique correspond donc aux intervalles dans lesquels les
différences sont trop grandes pour être le fruit du hasard d’échantillonnage.
Démarche à suivre pour la mise en place d’un test ou comment réaliser un test et conclure
à l’aide d’une région critique :
6. Conclusion du test.
– Plusieurs tests de conception différente sont souvent disponibles pour soumettre à une
épreuve de vérité une hypothèse.
– Le test le plus puissant est celui qui fournit l’erreur β la plus petite pour une même
valeur de α ou encore la plus grande valeur de la puissance 1 − β.
– Les tests peu puissants augmentent la probabilité de commettre une erreur de deuxième
espèce. Or, cette erreur peut s’avérer particulièrement grave (par exemple en médecine,
si on considère une analyse qui permet de décider si un patient est sain ou malade).
– Pour évaluer la puissance d’un test vous pouvez être amené à utiliser des courbes de
puissance ou encore abaques.
Soit X une variable aléatoire qui suit une loi Normale de moyenne µ et de variance σ 2
qui elle, est connue.
Test unilatéral :
Hypothèses du test :
H0 : µ = µ0
contre
H1 : µ > µ0 ou µ < µ0
Conditions d’application du test :
5.3 Tests de comparaison à une valeur 83
Statistique du test :
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire
µ̂n − µ0
Z= √
σ/ n
suit la loi normale N (0; 1).
La valeur critique du test, notée cα est lue dans une table de la loi normale centrée
réduite.
Si la valeur de la statistique calculée sur l’échantillon, notée zobs , est supérieure ou égale
à cα (ou inférieure ou égale à cα ) alors le test est significatif. Vous rejetez H0 et vous décidez
que H1 est vraie avec un risque de première espèce α.
Si la valeur de la statistique calculée sur l’échantillon, notée zobs , est strictement inférieure
à cα (ou strictement supérieure à cα ), le test n’est pas significatif. Vous conservez H0 avec
un risque de deuxième espèce β.
Test bilatéral :
Hypothèses du test :
H0 : µ = µ0
contre
H1 : µ 6= µ0
Conditions d’application du test :
Il faut que l’échantillon X1 , . . . , Xn soit des copies indépendantes et identiquement dis-
tribuées de la variable X qui suit une loi Normale de moyenne µ et de variance σ 2 qui est
connue, N (µ; σ 2 ).
Statistique du test :
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire
µ̂n − µ0
Z= √
σ/ n
5.3 Tests de comparaison à une valeur 84
Si la valeur absolue de la statistique calculée sur l’échantillon, notée zobs , est supérieure
ou égale à c1− α2 alors le test est significatif. Vous rejetez H0 et vous décidez que H1 est vraie
avec un risque de première espèce α.
Si la valeur absolue de la statistique calculée sur l’échantillon, notée zobs , est strictement
inférieure à c1− α2 , le test n’est pas significatif. Vous conservez H0 avec un risque de deuxième
espèce β.
– Test de l’espérance d’une loi Normale de variance inconnue : le test de Student.
Soit X une variable aléatoire qui suit une loi Normale de moyenne µ et de variance σ 2
inconnues.
H0 : µ = µ0
contre
H1 : µ 6= µ0
Statistique du test :
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire
µ̂n − µ0
T(n−1) = √
Sn,c / n
suit la loi de student T (n − 1).
La valeur critique du test, notée c1− α2 est lue dans une table de la loi de Student.
Si la valeur absolue de la statistique calculée sur l’échantillon, notée tn−1,obs , est stric-
tement inférieure à c1− α2 , le test n’est pas significatif. Vous conservez H0 avec un risque
de deuxième espèce β.
Soit X une variable aléatoire qui suit une loi Normale de moyenne µ connue et de
variance σ 2 inconnue.
H0 : σ 2 = σ02
contre
H1 : σ 2 6= σ02
Statistique du test :
nσ̂n2
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire suit la loi du Khi-
σ02
deux, χ2 (n).
Les valeurs critiques du test, notées c α2 et c1− α2 sont lues dans une table de la loi du
Khi-deux.
Si la valeur de la statistique calculée sur l’échantillon, notée χ2obs (n), est supérieure ou
égale à c1− α2 ou inférieure ou égale à c α2 alors le test est significatif. Vous rejetez H0 et
vous décidez que H1 est vraie avec un risque de première espèce α.
Si la valeur de la statistique calculée sur l’échantillon, notée χ2obs (n), est strictement
inférieure à c1− α2 ou strictement supérieure à c α2 , le test n’est pas significatif. Vous
conservez H0 avec un risque de deuxième espèce β.
Soit X une variable aléatoire qui suit une loi Normale de moyenne µ et de variance σ 2
5.3 Tests de comparaison à une valeur 86
inconnues.
H0 : σ 2 = σ02
contre
H1 : σ 2 6= σ02
Statistique du test :
2
(n − 1)Sn,c
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire suit la loi du
σ02
Khi-deux, χ2 (n − 1).
Les valeurs critiques du test, notées c α2 et c1− α2 sont lues dans une table de la loi du
Khi-deux.
Si la valeur de la statistique calculée sur l’échantillon, notée χ2obs (n − 1), est supérieure
ou égale à c1− α2 ou inférieure ou égale à c α2 alors le test est significatif. Vous rejetez
H0 et vous décidez que H1 est vraie avec un risque de première espèce α.
Si la valeur de la statistique calculée sur l’échantillon, notée χ2obs (n−1), est strictement
inférieure à c1− α2 ou strictement supérieure à c α2 , le test n’est pas significatif. Vous
conservez H0 avec un risque de deuxième espèce β.
H0 : πA = π0
contre
5.4 Tests de comparaison entre deux populations indépendantes 87
H1 : πA 6= π0
Statistique du test :
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire nπ̂n,A = nA suit la loi
Binomiale, B(n; π0 ).
La valeur critique du test, notée c1− α2 est lue dans une table de la Normale (approxi-
mation de la loi Binomiale).
Soit X une variable aléatoire qui suit une loi Normale de moyenne µ1 et de variance
σ12 qui elle est connue et Y une variable aléatoire qui suit une loi Normale de moyenne
µ2 et de variance σ22 qui elle est connue.
H0 : µ1 = µ2
contre
H1 : µ1 6= µ2
5.4 Tests de comparaison entre deux populations indépendantes 88
Statistique du test :
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire
µ̂1 − µ̂2
Z=q 2
σ1 σ22
n1
+ n2
La valeur critique du test, notée c1− α2 est lue dans une table de la loi normale centrée
réduite.
Si la valeur absolue de la statistique calculée sur l’échantillon, notée zobs , est supérieure
ou égale à c1− α2 alors le test est significatif. Vous rejetez H0 et vous décidez que H1 est
vraie avec un risque de première espèce α.
Si la valeur absolue de la statistique calculée sur l’échantillon, notée zobs , est strictement
inférieure à c1− α2 , le test n’est pas significatif. Vous conservez H0 avec un risque de
deuxième espèce β.
Soit X une variable aléatoire qui suit une loi Normale de moyenne µ1 et de variance
σ12 inconnues et Y une variable aléatoire qui suit une loi Normale de moyenne µ2 et
de variance σ22 inconnues.
H0 : µ1 = µ2
contre
H1 : µ1 6= µ2
5.4 Tests de comparaison entre deux populations indépendantes 89
Statistique du test :
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire
µ̂1 − µ̂2
Tn1 +n2 −2 = q
σ̂ n11 + n12
n1 Sn21 + n2 Sn22
suit la loi de student T (n1 + n2 − 2) avec σ̂ 2 = .
n1 + n2 − 2
La valeur critique du test, notée c1− α2 est lue dans une table de la loi de Student.
Si la valeur absolue de la statistique calculée sur l’échantillon, notée tn1 +n2 −2,obs , est
supérieure ou égale à c1− α2 alors le test est significatif. Vous rejetez H0 et vous décidez
que H1 est vraie avec un risque de première espèce α.
Si la valeur absolue de la statistique calculée sur l’échantillon, notée tn1 +n2 −2,obs , est
strictement inférieure à c1− α2 , le test n’est pas significatif. Vous conservez H0 avec un
risque de deuxième espèce β.
Statistique du test :
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire
µ̂1 − µ̂2
Tν = q 2 2
Sn Sn
1
n1 −1
+ 2
n2 −1
!2
Sn2 S2
1 + n2
n1 −1 n2 −1
suit la loi de student T (ν) avec ν l’entier le plus proche de 4
Sn 4
Sn
.
1 + 2
(n1 −1)n2
1 (n 2 −1)n 2
2
La valeur critique du test, notée c1− α2 est lue dans une table de la loi de Student.
5.4 Tests de comparaison entre deux populations indépendantes 90
Si la valeur absolue de la statistique calculée sur l’échantillon, notée tν,obs , est supérieure
ou égale à c1− α2 alors le test est significatif. Vous rejetez H0 et vous décidez que H1 est
vraie avec un risque de première espèce α.
Si la valeur absolue de la statistique calculée sur l’échantillon, notée tν,obs , est stricte-
ment inférieure à c1− α2 , le test n’est pas significatif. Vous conservez H0 avec un risque
de deuxième espèce β.
Soit X une variable aléatoire qui suit une loi de moyenne µ1 et de variance σ12 et Y
une variable aléatoire qui suit une loi de moyenne µ2 et de variance σ22 .
Test bilatéral : (le test unilatéral se déduit aisément de celui-ci)
Hypothèses du test :
H0 : µ1 = µ2
contre
H1 : µ1 6= µ2
Statistique du test :
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire
µ̂1 − µ̂2
Z=q 2 2
Sn Sn
1
n1 −1
+ 2
n2 −1
La valeur critique du test, notée c1− α2 est lue dans une table de la loi Normale centrée
réduite.
Si la valeur absolue de la statistique calculée sur l’échantillon, notée zobs , est supérieure
ou égale à c1− α2 alors le test est significatif. Vous rejetez H0 et vous décidez que H1 est
vraie avec un risque de première espèce α.
5.4 Tests de comparaison entre deux populations indépendantes 91
Si la valeur absolue de la statistique calculée sur l’échantillon, notée zobs , est strictement
inférieure à c1− α2 , le test n’est pas significatif. Vous conservez H0 avec un risque de
deuxième espèce β.
Soit X une variable aléatoire qui suit une loi Normale de moyenne µ1 et de variance
σ12 et Y une variable aléatoire qui suit une loi Normale de moyenne µ2 et de variance
σ22 .
H0 : σ12 = σ22
contre
H1 : σ12 6= σ22
Statistique du test :
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire
Sn21 ,c
F =
Sn22 ,c
n1 Sn21 n2 Sn22
suit la loi de Fisher F (n1 − 1; n2 − 1) avec Sn21 ,c = et Sn22 ,c = .
n1 − 1 n2 − 1
Les valeurs critiques du test, notées c α2 et c1− α2 sont lues dans une table de la loi de
Fisher.
Exemple : Recherche d’un pourcentage de graisse dans un certain type d’aliment avec deux
méthodes différentes.
H0 : µ1 = µ2 ou µD = µ1 − µ2 = 0
contre
H1 : µ1 6= µ2 ou µD = µ1 − µ2 6= 0
Statistique du test :
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire
µ̂D
Tn−1 = √
SD,c / n
P Pn
suit la loi de Student T (n − 1) avec µ̂D = n1 ni=1 Di et SD,c
2
= 1
n−1 i=1 (Di − µ̂D )2 .
La valeur critique du test, notée c1− α2 est lue dans une table de la loi de Student.
5.6 Applications sous R 93
Si la valeur absolue de la statistique calculée sur l’échantillon, notée tn−1;obs , est supérieure
ou égale à c1− α2 alors le test est significatif. Vous rejetez H0 et vous décidez que H1 est vraie
avec un risque de première espèce α.
Si la valeur absolue de la statistique calculée sur l’échantillon, notée tn−1;obs , est stricte-
ment inférieure à c1− α2 , le test n’est pas significatif. Vous conservez H0 avec un risque de
deuxième espèce β.
Dans l’atmosphère, le taux d’un gaz nocif, pour un volume donné, suit la loi Normale de
moyenne µ et de variance σ 2 égale à 100. Nous avons effectués 30 prélèvements de ce gaz
et les valeurs relevées sont les suivantes :
52; 60.2; 68.8; 46.8; 62.2; 53.5; 50.9; 44.9; 73.2; 60.4
61.9; 67.8; 30.5; 52.5; 40.4; 29.6; 58.3; 62.6; 53.6; 64.6
54.4; 53.8; 49.8; 57.4; 63.1; 53.4; 59.4; 48.6; 40.7; 51.9
Pouvez-vous conclure, avec un risque de 5% que l’espérance µ est inférieure à 50 qui est
le seuil tolérable admis ?
H0 : µ = 50
contre
H1 : µ > 50
> qnorm(0.95)
[1] 1.644854
Conclusion : comme 2.322344 est supérieur à 1.644854, le test est significatif. On rejette
H0 avec un risque de 5%. L’espérance est donc supérieure à 50 qui est le seuil de tolérance
admis.
Exemple 2 :
Le jardinier aimerait savoir si les glycines blanches qu’il a plantées sur son terrain suivent
bien les spécificités de la notice qu’il a reçue lorsqu’il a commandé ses graines sur internet. Il
était indiqué sur la notice que chaque gousse de glycines blanches à maturité doit mesurer
15cm de long. Comment peut-il s’assurer que les gousses qu’il a dans son jardin suivent
bien cette spécificité ?
Nous allons faire un test de Student sur les données puisque nous n’avons aucune infor-
mation sur la variance.
H0 : µ = 15
contre
H1 : µ 6= 15
Il existe une commande sous R, t.test, que nous avons utilisée pour le calcul des inter-
valles de confiance, qui permet d’obtenir les résultats du test :
Remarque : par défaut, si l’option mu = 15 n’est pas précisée, le logiciel testera l’hy-
pothèse mu = 0.
Sorties obtenues avec R :
sample estimates :
mean of x
14.77222
Conclusion : comme −0.5057 est supérieur à −2.005746, le test n’est pas significatif. On
ne peut rejeter H0 .
Exemple 3 :
Vous venez d’acquérir dans votre laboratoire une nouvelle balance et vous souhaitez
comparer la régularité du travail de cette dernière pour de très petites pesées à la norme
habituelle du descriptif pour laquelle la variance est égale à 4. Vous prélevez un échantillon
d’effectif égal à 30 dont les valeurs sont données ci-dessous :
2.53, 1.51, 1.52, 1.44, 4.32, 2.36, 2.41, 2.06, 1.57, 1.68
3.09, 0.54, 2.32, 0.19, 2.66, 2.20, 1.04, 1.02, 0.74, 1.01
0.35, 2.42, 2.66, 1.11, 0.56, 1.75, 1.51, 3.80, 2.22, 2.28
Pouvez-vous conclure, avec un risque de 5%, que la variance de l’échantillon est conforme
à la norme souhaitée ?
H0 : σ 2 = 4
contre
H1 : σ 2 6= 4
Conclusion : comme 6.91 est inférieur à 16.04707, le test est significatif. On rejette H0
avec un risque de 5%. La variance est donc différente de 4 qui est la norme habituelle.
Exemple 4 :
Dans le ”Ouest-France” du samedi 23 janvier 2010, vous pouvez lire : ”Plus de garçons
que de filles ! Avec 507 bébés mâles comptabilisés à Saint-Lô en 2009, contre 481 fillettes,
les naissances masculines sont toujours plus nombreuses.”
Pouvez-vous conclure, avec un risque de 5%, que les garçons sont significativement plus
nombreux que les filles ?
H0 : πG = πF
contre
H1 : πG 6= πF
Conclusion : comme la pvalue est supérieure à 0.05, le test n’est pas significatif. Vous
conservez donc H0 . Vous en déduisez donc que le journaliste, en déclarant que les naissances
masculines sont toujours très nombreuses, considère comme significative une différence entre
les naissances de garçons et de filles qui peut aussi, au seuils de 5%, être simplement
attribuée aux fluctuations d’échantillonnage.
Exemple 5 :
Chez un groupe de 10 sujets, les effets d’un traitement destiné à diminuer la pression
artérielle ont été expérimentés. Les résultats (valeur de la tension artérielle systolique en
cmHg) ont été relevés sur les 10 sujets et sont présentés ci-dessous :
Sujet 1 2 3 4 5 6 7 8 9 10
Avant traitement 15 18 17 20 21 18 17 15 19 16
Après traitement 12 16 17 18 17 15 18 14 16 18
Pouvez-vous conclure, avec un risque de 5%, que le traitement a une action significative ?
H0 : µD = 0
contre
H1 : µD 6= 0
Nous rentrons d’abord les observations dans deux vecteurs nommés respectivement avant
et apres et nous construisons le vecteur difference :
> avant < −c(15, 18, 17, 20, 21, 18, 17, 15, 19, 16)
> apres < −c(12, 16, 17, 18, 17, 15, 18, 14, 16, 18)
> dif f erence < −apres − avant
> dif f erence
[1] − 3 − 2 0 − 2 − 4 − 3 1 − 1 − 3 2
> qt(0.975, 9)
[1] 2.262157
Conclusion : comme −2.4227 est inférieur à −2.262157, le test est significatif. On rejette
H0 avec un risque de 5%. Le traitement a donc une action significative.
Chapitre 6
Tests du Khi-carré
6.1 Introduction
Buts de ce chapitre :
Questions :
– Est-ce qu’il existe un lien entre la couleur des yeux et la couleur des cheveux ?
– Est-ce le fait de fumer une plus ou moins importante quantité de cigarettes par jour a
un effet sur la gravité d’une certaine maladie ?
– Est-ce que le dé utilisé dans un jeu de hasard est truqué ?
– Est-ce que le caractère étudié sur la population suit une loi Normale de paramètres µ
et σ 2 (utile pour les intervalles de confiance par exemple) ?
– Est-ce que les caractères ”facteurs rhésus” et ”groupes sanguins” sont indépendants ?
99
6.2 Test d’indépendance 100
– Exemple : soit X, la couleur des yeux et Y , la couleur des cheveux. Est-ce qu’il y a un
lien entre ces deux variables ou sont-elles indépendantes ?
Soit p et q deux entiers non nuls strictement positifs.
Hypothèses du test :
contre
Le principe du test du χ2 consiste à comparer les effectifs (tels qu’ils ont été observés) à
la répartition obtenue lorsqu’on suppose que les variables X et Y sont indépendantes.
Statistique du test :
La valeur critique du test, notée cα est lue dans une table de la loi du Khi-deux à
(p − 1) × (q − 1) degrés de liberté.
Si la valeur de la statistique calculée sur l’échantillon, notée χ2obs , est supérieure ou égale
à cα alors le test est significatif. Vous rejetez H0 et vous décidez que H1 est vraie avec un
risque de première espèce α.
Si la valeur de la statistique calculée sur l’échantillon, notée χ2obs , est strictement inférieure
à cα , le test n’est pas significatif. Vous conservez H0 avec un risque de deuxième espèce β.
Remarques :
– Si les conditions d’application du test ne sont pas remplies, il existe des corrections
comme par exemple la correction de Yates :
p q
X X (|ni,j − ci,j | − 21 )2
χ2obs =
i=1 j=1
ci,j
– Il existe également le test exact de Fisher dans le cas de deux variables qualitatives
à deux modalités. Si vous avez plus de deux modalités, vous pouvez essayer d’en
regrouper si cela est possible (c’est à dire si cela a un sens).
– Sous R, une option permet de s’affranchir des conditions mais cela n’est quand mme
pas recommandé !
6.2 Test d’indépendance 102
Hypothèses du test :
contre
39.87199 > 7.814728, le test est significatif. Nous rejetons donc H0 au risque 5%. Les deux
caractères, groupe sanguin et facteur Rhésus sont donc liés.
– Le test présenté dans les transparents suivants doit être utilisé pour vérifier l’adéquation
des données à par exemple la loi Normale lorsqu’on veut ensuite donner des intervalles
de confiance ou encore utiliser des tests.
Soit X, le caractère étudié sur une certaine population. Les hypothèses à tester sont les
suivantes :
contre
Les conditions d’utilisation de l’approximation par la loi du khi-deux sont les suivantes :
ck ≥ 5 et n• ≥ 50.
Statistique du test :
6.3 Test d’adéquation à une loi donnée 104
Si l’hypothèse nulle H0 est vérifiée et que les conditions d’application sont vérifiées, alors
la variable aléatoire
XK
2 (mk − ck )2
χobs =
k=1
ck
suit approximativement la loi du Khi-deux à K −1 degrés de liberté, avec les mk les effectifs
observés et les ck les effectifs théoriques.
La valeur critique du test, notée cα est lue dans une table de la loi du Khi-deux à K − 1
degrés de liberté.
Si la valeur de la statistique calculée sur l’échantillon, notée χ2obs , est supérieure ou égale
à cα alors le test est significatif. Vous rejetez H0 et vous décidez que H1 est vraie avec un
risque de première espèce α.
Si la valeur de la statistique calculée sur l’échantillon, notée χ2obs , est strictement inférieure
à cα , le test n’est pas significatif. Vous conservez H0 avec un risque de deuxième espèce β.
Exemple1 : Est-ce que la distribution du nombre de filles observées dans 320 fratries de
5 enfants suit une loi binomiale de paramètres 5 et 0.5, B(5, 0.5) ?
X : Nombre de filles 0 1 2 3 4 5
Nombre de fratries observées 18 56 110 88 40 8
Soit X, le nombre de filles dans chaque fratrie. Si X suit la loi binomiale de paramètres
5 et 0.5, nous avons :
P (X = 0) = 0.03125
P (X = 1) = 0.15625
P (X = 2) = 0.3125
P (X = 3) = 0.3125
P (X = 4) = 0.15625
P (X = 5) = 0.03125
Les effectifs théoriques sont donc :
c1 = 320 × 0.03125 = 10
c2 = 320 × 0.15625 = 50
c3 = 320 × 0.3125 = 100
c4 = 320 × 0.3125 = 100
6.3 Test d’adéquation à une loi donnée 105
c5 = 320 × 0.15625 = 50
c6 = 320 × 0.03125 = 10
Les hypothèses à tester sont les suivantes :
contre
Comme 11.96 > 11.0705, nous en déduisons que le test est significatif. Nous rejetons H0
au risque 5%. La distribution des filles au sein des 320 fratries ne suit pas la loi binomiale
de paramètres 5 et 0.5.
Exemple 2 : Est-ce que le nombre de cas graves traités chaque jour par un vétérinaire
sur une période de 200 jours suit une loi de Poisson de paramètre 1.5 ?
X : Nombre de cas graves 0 1 2 3 4 5 et plus
Nombre de jours 50 74 50 21 4 1
Soit X, le nombre de cas graves. Si X suit la loi de poisson de paramètre 1.5, nous avons :
6.3 Test d’adéquation à une loi donnée 106
P (X = 0) = 0.2231302
P (X = 1) = 0.3346952
P (X = 2) = 0.2510214
P (X = 3) = 0.1255107
P (X = 4) = 0.04706652
P (X ≥ 5) = 0.01857594
L’effectif théorique c6 est plus petit que 5, nous devons donc regrouper les deux dernières
catégories en la catégorie X ≥ 4. Le nombre de jours observés correspondant sera alors de
5 et P (X ≥ 4) = 0.0656. De là, on en déduit le nouveau c5 = 200 × 0.0656 = 13.12.
contre
Statistique du test :
6.4 Test exact de Fisher 107
Comme 7.08864 < 9.49, nous en déduisons que le test n’est pas significatif. Nous conser-
vons H0 . La distribution étudiée semble suivre une loi de poisson de paramètre 1.5.
H0 : p1 = p2
contre
H1 : p1 > p2 ou p1 < p2
avec
– Ce test est une alternative au test du Khi-deux lorsque les échantillons sont petits ou
que le degré de liberté associé au test vaut 1.
– Le terme exact vient du fait qu’aucune approximation n’est faite pour calculer la
statistique de test.
– Ce test s’applique également lorsque vous avez plus de deux modalités pour chaque
variable X ou Y et si vous avez peu d’observations.
Le test exact de Fisher est basée sur le calcul (exact) de la probabilité d’obtenir des
échantillons aussi ou encore plus différents entre eux que ceux observés alors qu’il n’existe
pas de différence en réalité. Cela nécessite de construire tous les tableaux de contingence
présentant les mêmes totaux marginaux que ceux observés et affichant des différences encore
plus marquées entre les échantillons (dans le même sens que celui observé).
nouveau traitement A soit un traitement classique B. Les résultats sont présentés dans le
tableau suivant :
H0 : p1 = p2
contre
H1 : p1 > p2
avec
p1 la proportion de guérisons rapides avec le traitement A
p2 la proportion de guérisons rapides avec le traitement B
Cas1 A B Total
GR 6 3 9
GN 2 8 10
Total 8 11 19
Cas2 A B Total
GR 7 2 9
GN 1 9 10
Total 8 11 19
Cas3 A B Total
GR 8 1 9
GN 0 10 10
Total 8 11 19
– La probabilité d’obtenir le cas 1 est donnée par :
9!10!8!11!
α1 = = 0.05
19!6!3!2!8!
– La probabilité d’obtenir le cas 2 est donnée par :
6.4 Test exact de Fisher 110
9!10!8!11!
α2 = = 0.0048
19!7!2!1!9!
– La probabilité d’obtenir le cas 3 est donnée par :
9!10!8!11!
α3 = = 0.0001
19!8!1!0!10!
La probabilité cherchée vaut donc :
Remarque :
Le test exact de Fisher s’étend au cas où les deux variables ont un nombre fini quelconque,
mais supérieur à deux, de modalités.
Formulaire
Intervalles de confiance et Tests statistiques
σ σ
µ̂n − u1− α2 √ < µ < µ̂n + u1− α2 √ .
n n
Sn Sn
µ̂n − tn−1;1− α2 √ < µ < µ̂n + tn−1;1− α2 √ .
n−1 n−1
nσˆn 2 2 nσˆn 2
<σ < .
k2 k1
nSn2 2 nSn2
<σ < .
k2 k1
µ̂n − µ0
Z= √ suit la loi normale N (0; 1).
σ/ n
µ̂n − µ0
T(n−1) = √ suit la loi de student T (n − 1).
Sn,c / n
nσ̂n2
2
suit la loi du Khi-deux χ2 (n).
σ0
2
(n − 1)Sn,c
2
suit la loi du Khi-deux χ2 (n − 1).
σ0
µ̂1 − µ̂2
Z=q 2 suit la loi normale N (0; 1).
σ1 σ22
n1
+ n2
µ̂1 − µ̂2
Tn1 +n2 −2 = q suit la loi de student T (n1 + n2 − 2).
σ̂ n11 + n12
µ̂1 − µ̂2
Tν = q 2 2
suit la loi de student T (ν).
Sn Sn
1
n1 −1
+ 2
n2 −1
µ̂1 − µ̂2
Z=q 2 2
suit la loi de Normale N (0; 1).
Sn Sn
1
n1 −1
+ 2
n2 −1
1
Sn21 ,c
F = 2 suit la loi de Fisher F (n1 − 1; n2 − 1).
Sn2 ,c
µ̂D
Tn−1 = √ suit la loi de Student T (n − 1).
SD,c / n
p q
X X (ni,j − ci,j )2
χ2obs = suit la loi du Khi-deux χ2 ((p − 1) × (q − 1)).
i=1 j=1
ci,j
K
X (mk − ck )2
χ2obs = suit la loi du Khi-deux χ2 (K − 1).
k=1
ck
2
Tables Statistiques usuelles
Table 1
Loi Binomiale
P ( X = k ) = C nk p k (1 − p) n − k
(k le nombre d’occurrences parmi n)
Loi Binomiale (suite)
P ( X = k ) = C nk p k (1 − p) n − k
(k le nombre d’occurrences parmi n)
Loi Binomiale (suite)
P ( X = k ) = C nk p k (1 − p) n − k
(k le nombre d’occurrences parmi n)
Table 2
Loi de Poisson
µk
P( X = k ) = e − µ
k!
Loi de Student
Table 5
Loi du χ 2
P ( χν2 ≥ χν2,α ) = α
Pour ν > 30, La loi du χ2 peut –être approximée par la loi normale N(ν , ν )
Table 6
Loi de Fisher F
P ( Fν 1 ,ν 2 < fν 1 ,ν 2 ,α ) = α
Loi de Fisher F (suite)
P ( Fν 1 ,ν 2 < fν 1 ,ν 2 ,α ) = α