Vous êtes sur la page 1sur 123

UNIVERSITE DE LORRAINE

EEIGM 2A

Statistique descriptive et inférentielle

Cours

Sandie FERRIGNO
Chapitre 1

Présentation de R

1.1 Introduction
R est un langage de programmation et un environnement mathématique utilisés pour
le traitement des données. Les intérêts d’utilisation de ce logiciel sont multiples : analyses
statistiques (modèles linéaires, non linéaires, tests d’hypothèse, modélisation de séries chro-
nologiques, classification,...) et nombreuses fonctions graphiques de qualité professionnelle.
C’est par ailleurs un langage disponible pour Windows, Mac et Unix. Il est le clone
gratuit du logiciel statistique Splus. Il peut se télécharger gratuitement en ligne à l’adresse
suivante : http ://www.r-project.org/. D’autres logiciels de statistique sont sur le marché :
SAS, Splus, Spad, SPSS,....
Environnement Windows : La fenêtre R Console est la fenêtre principale. Les com-
mandes et les sorties (résultats) sont en mode texte. Il est possible d’ajouter des fenêtres
facultatives : graphique, information (historique, aide,...).

Le menu Fichier renferme outils nécessaires à la gestion de l’espace de travail (sélection


répertoire par défaut, chargement de fichiers sources, sauvegarde,....). Le menu Edition
contient les commandes copier-coller et de personnalisation de l’interface. Le menu Voir
permet d’afficher ou de masquer la barre d’outils ou la barre de statut. Le menu Packages
permet la gestion et le suivi des bibliothèques de fonctions. Les menus Fenêtre et Aide

1
1.1 Introduction 2

donnent la définition spatiale des fenêtres et l’accès à l’aide en ligne et aux manuels de
références du logiciel R.
Qu’est ce qu’un Package ? C’est une compilation d’outils. Certains sont présents dans l’ins-
tallation de base de R (dossier library par défaut qui comprend les packages de base de R).
D’autres packages utiles pour vos analyses statistiques seront à télécharger puis à installer.

1.1.1 Premières lignes de commandes avec R.


Le symbole > en rouge apparaı̂t dans la fenêtre R console lorsque vous lancez le logiciel. R
est prêt à être utilisé. Vous pouvez alors taper vos commandes.
Par exemple : > 2 + 3 puis si vous tapez entrée R vous renverra [1] 5.
Pour quitter R, taper q() (ou aller sur Fichier puis Sortir). Le logiciel va alors vous poser la
question : Save workspace image ? [y/n/c]. Taper y pour oui, n pour non et c pour annuler.
Remarques :
– Si vous tapez y, les commandes exécutées et les objets enregistrés en mémoire pendant
la session pourront être réutilisés.
– Si vous tapez n, tout le travail effectué sera perdu.
– Si vous tapez c, la procédure de fin de session sous R est annulée.

1.1.2 Sauvegarder sous R.


Si vous quittez R en ayant choisi de sauvegarder votre travail, deux fichiers sont alors
créés :

1. le fichier .Rdata contient des informations sur les variables utilisées.


2. le fichier .Rhistory contient l’ensemble des commandes utilisées.

1.1.3 Consulter l’aide de R. Il y a quatre sources principales :


1. les fichiers d’aide.
2. les manuels.
3. les archives R-help.
4. R-help lui-même.

Exemple : Pour une fonction dont le nom est fonction1, vous pouvez consulter une fiche de
documentation en tapant la commande ?fonction1 ou help(fonction1).
1.1 Introduction 3

1.1.4 Scripts.
Il est souvent plus pratique de composer le code R dans une fenêtre spécifique du logiciel :
la fenêtre de script. Les entrées Nouveau script ou Ouvrir un script permettent de créer un
nouveau scripts de commandes de R ou d’accéder à un ancien script sauvegardé lors d’une
session précédente. Pour sauvegarder un script, il suffit de sélectionner l’entrée ”Sauver”
du menu ”Fichier”. Les scripts s’écrivent avec un éditeur de texte (par exemple : Wordpad,
Open Office,...). Pour exécuter des scripts, deux solutions :
– Soit vous utilisez le copier-coller sur la fenêtre R Console.
– Soit vous le lisez avec la commande : Ctrl+R.
Avantages d’écrire des scripts :
– Gain de temps car vous pouvez facilement les réutiliser en adaptant si nécessaire des
lignes de commandes déjà tapées.

– Si vous avez beaucoup de lignes de commandes à écrire, c’est beaucoup plus simple de
les manipuler et les modifier comme dans un éditeur de texte classique.

– C’est un outil de collaboration puissant. Il est pratique de pouvoir transmettre en


fichier attaché dans un mail le script à un collègue sachant qu’il n’a qu’à utiliser la
fonction source sur votre code pour effectuer votre analyse sur sa machine.

– Il n’y a pas de message d’alerte sous R. Vous pouvez donc perdre des données facile-
ment.

1.1.5 Remarques générales sur R.


– Le symbole # est le symbole des commentaires sous R. Tout ce qui suit un # est
ignoré. Un élément clef de la bonne écriture d’un script est la présence abondante de
commentaires.

– Ce qui est entré par l’utilisateur figure en rouge et la réponse de R est en bleu.

– R utilise le système anglo-saxon pour les nombres décimaux, c’est à dire les décimales
sont séparées par un point et non par une virgule comme en France.

– R distingue les majuscules et les minuscules.

– Attention à l’utilisation du point virgule. Sous R, il sert souvent à séparer deux ins-
tructions.

– Vous pouvez rappeler les commandes déjà exécutées en utilisant la touche ”Flèche vers
le haut”.
1.2 Objets avec le logiciel R 4

– Vous pouvez parcourir la ligne de commande que vous êtes entrain d’écrire en ap-
puyant sur les touches ”Flèche vers la gauche” et ”Flèche vers la droite”.

– R pour les débutants : polycopié d’Emmanuel Paradis (sur Arche). Disponible en ligne
en version anglaise également.

1.2 Objets avec le logiciel R


1.2.1 Quelques définitions.
Un objet est un espace dans lequel vous pouvez stocker tout ce qui vous intéresse.
Un vecteur est un objet d’un même mode pour toutes les valeurs qui le constituent. Il
existe des vecteurs soit numériques, de caractères, logiques ou vides.
Une matrice est un objet d’un même mode pour toutes les valeurs qui la constituent.
Comme pour les vecteurs, il existe des matrices numériques, de caractères, de logiques ou
vides. Chaque élément de la matrice est repéré par son numéro de ligne et de colonne.
Toutes les lignes d’une matrice ont la même longueur. Il en va de même pour les colonnes.
Par contre le nombre de ligne n’est pas forcément égal au nombre de colonnes.
Une liste est un objet permettant de stocker des objets qui peuvent être hétérogènes c’est
à dire n’ayant pas tous le même mode ou la même longueur.

1.2.2 Quelques manipulations élémentaires.


Affecter : n < −28 ou n = 28 signifie ”mettre la valeur 28 dans l’objet nommé n”.
Afficher : n et entrée retourne la ligne de résultat : [1] 28.
Les objets créés peuvent être utilisés dans des calculs. Par exemple si vous tapez n + 2 et
entrée, le logiciel vous retourne : [1] 30.
Vous pouvez utiliser autant d’objets que vous le souhaitez. Ils peuvent contenir non seule-
ment des nombres mais aussi des chanes de caractères (indiquées par des guillements) et
d’autres choses encore.
Supprimer : par défaut R conserve tous les objets créés le temps d’une session. La com-
mande ls() ou objects() permet d’afficher l’ensemble des objets créés lors de la session en
cours. Pour supprimer l’objet n, utilisez la commande remove rm(n). Vous pouvez suppri-
mer plusieurs objets à la fois : rm(objet1, objet2). Enfin, vous pouvez supprimer l’ensemble
des objets créés avec la commande rm(list = ls()).
1.2 Objets avec le logiciel R 5

1.2.3 Les vecteurs


Pour créer des vecteurs, diverses commandes sont disponibles : la commande seq, la
commande rep, la commande c (comme collection) et l’opérateur ” : ”.

1.2.3.1 Les vecteurs numériques


Exemples :
> vecteur1 < −c(1, 3, 5, 7)
> vecteur1
renvoie
[1] 1 3 5 7
Remarque : si vous tapez directement > c(1, 3, 5, 7), le logiciel R affiche directement [1] 1 3 5 7.
La commande > mode(vecteur1) renvoie [1] ”numeric” ce qui signifie que les éléments du
vecteur vecteur1 sont des nombres réels.
La commande > class(vecteur1) renvoie [1] ”numeric” ce qui signifie que l’objet vecteur1
est un vecteur contenant des nombres réels.
Remarque : attention aux deux sens différents du résultat ”numeric” lorsqu’il est obtenu
avec la commande class ou la commande mode.

1.2.3.2 Les vecteurs de chaı̂nes des caractères


Exemple :
> vecteur2 < −c(”bleu”, ”vert”, ”rouge”)
> vecteur2
renvoie
[1] ”bleu” ”vert” ”rouge”
> mode(vecteur2) renvoie alors :
[1] ”character”.
Remarques :

1. Si vous mélangez dans un même vecteur des caractères et des valeurs numériques, les
valeurs numériques sont automatiquement converties en chaı̂nes de caractères.

2. Quand les éléments du vecteur sont des chaı̂nes de caractères, il est obligatoire de les
déclarer entre guillements, sinon R ne reconnat pas les coordonnées du vecteur.
Exemple : > vecteur2 < −c(bleu, vert, rouge) renvoie le message : Erreur : objet
”bleu” introuvable.
1.2 Objets avec le logiciel R 6

1.2.3.3 Les vecteurs logiques


Exemple :
> vecteur3 < −c(T, T, F, F, T )
> vecteur3
renvoie
[1] T RU E T RU E F ALSE F ALSE T RU E
> mode(vecteur3)
renvoie
[1] ”logical”
Nous en déduisons que les éléments du vecteur ”vecteur3” sont des valeurs logiques.

1.2.3.4 Opérations sur les vecteurs.


– Afficher une ou plusieurs coordonnées d’un vecteur. Il est possible d’afficher une (ou
plusieurs) coordonnée(s) d’un vecteur en spécifiant entre [ ], en plus du nom du vecteur,
l’indice de la coordonnée correspondante.
Exemples :
> vecteur1[3]
renvoie la troisième coordonnée du vecteur1 à savoir
[1] 5.
> vecteur1[3 : 4]
renvoie la troisième et la quatrième coordonnée du vecteur1 à savoir
[1] 5 7.
> head(vecteur1, n = 2)
renvoie les deux premières coordonnées du vecteur1 à savoir
[1] 1 3.
> tail(vecteur1, n = 2)
renvoie les deux dernières coordonnées du vecteur1 à savoir
[1] 5 7.
Remarque : par défaut (c’est à dire si n n’est pas précisé), les commandes head et tail
renvoie respectivement les 6 premiers ou 6 derniers éléments du vecteur.
– Concaténer des vecteurs.
Il est possible de concaténer deux vecteurs et même plus, formés de variables de même
1.2 Objets avec le logiciel R 7

type, pour en former un nouveau.


Exemple : Soient les vecteurs x et y tels que
> x < −c(1, 2, 3, 4)
> y < −c(5, 6, 7, 8)
Alors, le vecteur z, concaténation des vecteurs x et y s’obtient :
> z < −c(x, y)
>z
ce qui renvoie comme résultat :
[1] 1 2 3 4 5 6 7 8
Remarque :
Si les vecteurs que vous voulez concaténer ne sont pas du même mode, R va essayer
de convertir l’un des deux types au type de l’autre. Par exemple, si vous combinez un
vecteur de caractères et un vecteur numérique, R transformera le vecteur numérique
en un vecteur de caractères.
– Extraire des coordonnées d’un vecteur.
Il est possible d’extraire des coordonnées à partir d’un vecteur selon trois façons :
– Utiliser un vecteur pour préciser le numéro d’ordre des coordonnées à extraire.
Exemple : Considérons le vecteur suivant :
> vecteur1 < −c(1, 3, 5, 7, 9)
> vecteur1
[1] 1 3 5 7 9
alors la commande
> vecteur1[c(2, 5)]
renvoie
[1] 3 9
– L’utilisation du signe tiret permet de supprimer des coordonnées.
Exemple : Considérons le vecteur suivant :
> vecteur1 < −c(1, 3, 5, 7, 9)
> vecteur1
[1] 1 3 5 7 9
alors la commande
> vecteur1[−c(2, 5)]
renvoie
1.2 Objets avec le logiciel R 8

[1] 1 5 7
– Utiliser un vecteur formé de valeurs logiques.
Exemple : Considérons le vecteur suivant :
> vecteur1 < −c(1, 3, 5, 7, 9)
> vecteur1
[1] 1 3 5 7 9
alors la commande
> vecteur1[vecteur1 > 3]
renvoie
[1] 5 7 9
Remarque : Si vous possédez deux vecteurs x et y qui ont la même longueur, vous
pouvez extraire du vecteur x par exemple les éléments correspondants aux valeurs
de y supérieures à une certaine valeur a. Il suffit pour cela de taper :
> x[y > a]
– Calculs sur les coordonnées d’un vecteur ou sur des vecteurs.
Exemples : considérons les vecteurs
> x < −c(1, 2, 3, 4)
> y < −c(5, 6, 7, 8)
alors
> 2 ∗ x + 1 renvoie [1] 3 5 7 9
> (x + y)/2 renvoie [1] 3 4 5 6
Remarque : Lorsque les deux vecteurs ne sont pas de même longueur, le plus court est
recyclé autant de fois que nécessaire pour atteindre la longueur du plus grand.
> z < −c(1, 2)
>x+z
[1] 2 4 4 6
– Remplacer les coordonnées d’un vecteur par d’autres coordonnées.
Supposons que l’on travaille avec la suite de nombres de 1 à 10 suivante :
> x < −1 : 10
>x
[1] 1 2 3 4 5 6 7 8 9 10
alors, les commandes
> x[3] < −32
1.2 Objets avec le logiciel R 9

>x
renvoient
[1] 1 2 32 4 5 6 7 8 9 10
> x[x == 1] < −23
>x
renvoient
[1] 23 2 32 4 5 6 7 8 9 10
> x[x > 10] < −20
>x
renvoient
[1] 20 2 20 4 5 6 7 8 9 10
– Répéter les coordonnées d’un vecteur.
La commande rep possède deux arguments notés x et times par R et crée un vecteur
où x est répété times fois.
Exemple :
> donnees < −c(1, 2, 3)
> donnees
[1] 1 2 3
rep(x = donnees, times = 2)
rep(donnees, 2)
[1] 1 2 3 1 2 3
Autres exemples :
rep(1, 50) crée un vecteur contenant 50 fois la valeur 1.
rep(”eeigm”, 4) crée un vecteur contenant quatre fois la chane de caractères ”eeigm”.
– Nommer les coordonnées d’un vecteur.
Exemples :
> note1 < −c(Anglais = 12, M aths = 14, Biologie = 13)
> matiere < −c(”Anglais”, ”M aths”, ”Biologie”)
> note2 < −c(12, 14, 13)
> names(note2) < −matiere
> note2
les vecteurs note1 et note2 renvoient le même résultat :
Anglais M aths Biologie
12 14 13
1.2 Objets avec le logiciel R 10

Remarque : pour supprimer les noms dans le vecteur note2, utiliser les commandes :
> names(note2) < −N U LL
> note2
– Trier les coordonnées d’un vecteur.
Exemples :
> note2
Anglais M aths Biologie
12 14 13
> sort(note2)
Anglais Biologie M aths
12 13 14
> rev(sort(note2))
M aths Biologie Anglais
14 13 12
– Les valeurs manquantes.
Lors d’une étude statistique, il peut arriver que certaines données ne soient pas dis-
ponibles : ces données sont alors considérées comme des données manquantes. Pour
saisir une donnée manquante vous utiliserez sous R le symbole N A (Not Avaible) et
ce quelque soit la nature de l’objet : numérique, caractère ou logique.
Exemple :
> x < −c(12, 34, N A, 52, 23)
>x
[1] 12 34 N A 52 23
la troisième valeur est laissée manquante.
> mode(x)
[1] ”N umeric”
la présence d’une valeur manquante n’affecte pas la nature des éléments qui composent
le vecteur. x est ainsi composé d’éléments numériques.
> is.na(x)
[1] F ALSE F ALSE T RU E F ALSE F ALSE
F ALSE indique l’absence d’une valeur manquante tandis que T RU E indique la
présence d’une valeur manquante. x possède donc une valeur manquante.
1.2 Objets avec le logiciel R 11

1.2.4 Les matrices


– Créer des matrices.
La commande matrix, qui possède deux arguments, permet de créer une matrice.
Les arguments sont le vecteur d’éléments et le nombre de lignes et de colonnes de la
matrice.
Exemple :
> matrice1 < −matrix(1 : 12, ncol = 3)
> matrice1
renvoie
[ ,1] [ ,2] [ ,3]
[1, ] 1 5 9
[2, ] 2 6 10
[3, ] 3 7 11
[4, ] 4 8 12
Remarque : par défaut, R a rangé les éléments dans la matrice1 par colonne. Pour les
ranger ligne par ligne, il suffit d’utiliser l’argument byrow = T RU E ou byrow = T .
> matrice2 < −matrix(1 : 12, ncol = 3, byrow = T )
> matrice2
renvoie
[ ,1] [ ,2] [ ,3]
[1, ] 1 2 3
[2, ] 4 5 6
[3, ] 7 8 9
[4, ] 10 11 12
Quelques informations générales sur la matrice :
> class(matrice2)
[1] ”matrix”
Donc matrice2 est une matrice.
> length(matrice2)
[1] 12
Length indique le nombre d’éléments qui composent la matrice2. Ici il y en a 12.
> dim(matrice2)
[1] 4 3
Dim renvoie le nombre de lignes et de colonnes qui forment la matrice, c’est à dire ici
4 lignes et 3 colonnes.
1.2 Objets avec le logiciel R 12

– Afficher des éléments ou une partie de la matrice.


Comme pour les vecteurs il est possible de sélectionner des éléments de la matrice et
de les afficher ainsi qu’une partie de la matrice.
Pour sélectionner l’élément (i, j) de la matrice ”nommatrice”, vous devez utiliser la
ligne de commande > nommatrice[i, j].
Exemple : rappelons que matrice2 est de la forme
[ ,1] [ ,2] [ ,3]
[1, ] 1 2 3
[2, ] 4 5 6
[3, ] 7 8 9
[4, ] 10 11 12
> matrice2[2, 3]
[1] 6
> matrice2[2, ]
[1] 4 5 6
> matrice2[ , 3]
[1] 3 6 9 12
Remarque : R renvoie toujours le résultat sous la forme d’un vecteur par défaut même si
vous avez demandé à extraire une colonne ou une ligne. Pour que le résultat apparaisse
sous la forme d’une matrice à une ligne ou une colonne vous devez ajouter l’argument
drop=F à la ligne de commande.
> matrice2[ , 3, drop = F ]
renvoie
[ ,1]
[1, ] 3
[2, ] 6
[3, ] 9
[4, ] 12
Vous pouvez aussi sélectionner plusieurs lignes ou colonnes à la fois.
> matrice3 < −matrice2[, c(1, 3)]
[ ,1] [ ,2]
[1, ] 1 3
renvoie [2, ] 4 6
[3, ] 7 9
[4, ] 10 12
Vous pouvez également supprimer une ligne ou une colonne d’une matrice avec les
commandes nommatrice[−i, ] ou nommatrice[ , −j].
1.2 Objets avec le logiciel R 13

Exemple :
> matrice2[ , −1]
renvoie
[ ,1] [ ,2]
[1, ] 2 3
[2, ] 5 6
[3, ] 8 9
[4, ] 11 12
– Opérations sur les lignes et les colonnes.
La commande nrow(nommatrice) renvoie le nombre de lignes de la matrice sur laquelle
vous travaillez.
> nrow(matrice2)
[1] 4
La commande ncol(nommatrice) renvoie le nombre de colonnes de la matrice sur
laquelle vous travaillez.
> ncol(matrice2)
[1] 3
Remarque : vous pouvez obtenir ces deux informations en vous servant de la commande
dim.
> dim(matrice2)
[1] 4 3
Vous pouvez rajouter des lignes ou des colonnes à la matrice initiale avec respective-
ment les commandes rbind et cbind.
> rbind(matrice2, c(13 : 15))
[ ,1] [ ,2] [ ,3]
[1, ] 1 2 3
[2, ] 4 5 6
[3, ] 7 8 9
[4, ] 10 11 12
[5, ] 13 14 15
> cbind(matrice2, c(13 : 16))
[ ,1] [ ,2] [ ,3] [ ,4]
[1, ] 1 2 3 13
[2, ] 4 5 6 14
[3, ] 7 8 9 15
[4, ] 10 11 12 16
1.2 Objets avec le logiciel R 14

– Calculs sur les matrices.


R sait faire la somme, le produit de matrices ainsi que la transposée, le calcul d’inverse,
le calcul de déterminant, diagonaliser une matrice, le tout en respectant les conditions
d’existence mathématique de ces opérations.
Pour le produit, vous utiliserez la commande % ∗ %.
Exemple :
> matrice4 < −matrix(1 : 6, ncol = 3)
> matrice4
[ ,1] [ ,2] [ ,3]
[1, ] 1 3 5
[2, ] 2 4 6
> matrice5 < −matrix(1 : 12, ncol = 4)
> matrice5
[ ,1] [ ,2] [ ,3] [ ,4]
[1, ] 1 4 7 10
[2, ] 2 5 8 11
[3, ] 3 6 9 12
> matrice6 < −matrice4% ∗ %matrice5
> matrice6
[ ,1] [ ,2] [ ,3] [ ,4]
[1, ] 22 49 76 103
[2, ] 28 64 100 136
Remarque : Ne pas confondre le produit matriciel avec le produit terme à terme !
> matrice7 < −matrix(1 : 6, ncol = 3)
> matrice7
[ ,1] [ ,2] [ ,3]
[1, ] 1 3 5
[2, ] 2 4 6
> matrice8 < −matrix(7 : 12, ncol = 3)
> matrice8
[ ,1] [ ,2] [ ,3]
[1, ] 7 9 11
[2, ] 8 10 12
> matrice9 < −matrice7 ∗ matrice8
> matrice9
[ ,1] [ ,2] [ ,3]
[1, ] 7 27 55
[2, ] 16 40 72
1.2 Objets avec le logiciel R 15

Principales commandes utiles pour effectuer des calculs sur les matrices :
– t(nommatrice) : transpose la matrice sur laquelle vous travaillez.
– det(nommatrice) : calcule le déterminant de la matrice sur laquelle vous travaillez.
– solve(nommatrice) : inverse la matrice sur laquelle vous travaillez.
– eigen(nommatrice) : diagonalise la matrice sur laquelle vous travaillez.

1.2.5 Les données sous R


– Saisir des données sous R.
Pour saisir les données, nous avons vu les fonctions seq et c. Il existe une autre com-
mande utile : la fonction scan.
Exemple :
> jeu1 < −scan()
R vous redonne alors la main et vous pouvez taper directement les valeurs du jeu de
données.
1 : 1.2
2 : 36
3 : 5.33
4 : −26.5
5:
> jeu1
[1] 1.2 36 5.33 − 26.5
Exemple : La fonction scan est particulièrement utile pour saisir une matrice :
> matrix(scan(), nrow = 2, byrow = T )
1:134
4:521
7:
[ ,1] [ ,2] [ ,3]
[1, ] 1 3 4
[2, ] 5 2 1
Les fonctions seq, c et scan vous permettent donc de créer un vecteur ou une matrice
sous R.
– Créer un tableau de données sous R.
Un tableau de données est une collection de vecteurs de même longueur. La nature
des vecteurs peut cependant être différente. Ils peuvent être de nature quantitative ou
qualitative.
1.2 Objets avec le logiciel R 16

Pour créer un tableau de données sous R, il faut utiliser la fonction data.frame. Elle
permet de concaténer des vecteurs de même longueur et de modes différents.
Exemple :
> mat < −c(19.6, 12.3, 17.4, 13.8)
> phy < −c(13.2, 14.3, 11.9, 13.5)
> res < −data.f rame(mat, phy)
> res
mat phy
1 19.6 13.2
2 12.3 14.3
3 17.4 11.9
4 13.8 13.5
Remarque : Il est possible de donner des noms aux lignes du tableau de données avec
l’option row.names qui doit fournir un vecteur de mode caractère et de longueur égale
au nombre de lignes du tableau de données.
> res2 < −data.f rame(mat, phy, row.names = c(”Julie”, ”T homas”, ”P aul”, ”Isabelle”))
> res2
mat phy
Julie 19.6 13.2
T homas 12.3 14.3
P aul 17.4 11.9
Isabelle 13.8 13.5
Remarque : Les fonctions cbind et rbind introduites dans le partie sur les matrices
peuvent être utilisées avec les tableaux de données. Les fonctions ncol et nrow, qui ren-
voient respectivement le nombre de colonnes et le nombre de lignes peuvent également
être utilisées.
– Lire des données contenues dans un fichier.
Quand les données sont trop volumineuses, il n’est pas conseillé d’utiliser R comme
outil de saisie. Vous utiliserez dans ce cas un éditeur de texte ou un tableur puis vous
importerez votre fichier sous R.
Il faut indiquer à R l’endroit o vous aurez stocké les fichiers de données. La commande :
> getwd()
fait afficher au logiciel le répertoire de travail par défaut, par exemple :
[1] ”C/U sers/F errigno/Documents”
Pour changer ce répertoire donné par défaut et proposer à R d’aller récupérer les
données dans le répertoire Data de C, il faut utiliser la commande setwd :
> setwd(”C : /Data”)
1.2 Objets avec le logiciel R 17

– Lire et écrire des objets au format R.


Les fonctions load et save servent à charger en mémoire ou à sauvegarder des objets
au format utilisé par R.
> vecteur1 < −c(1, 2, 3, 4)
> vecteur1
[1] 1 2 3 4
Pour sauvegarder dans R cet objet :
> save(vecteur1, f ile = ”f ichiervecteur1.RData”)
L’objet vecteur1 est alors sauvegardé dans le répertoire de travail. L’extension .Rdata
est celle habituellement utilisée pour les fichiers sauvegardés de R. Pour supprimer cet
objet :
> rm(vecteur1)
Pour récupérer l’objet que l’on vient de supprimer, il suffit d’utiliser la fonction load :
> load(”F ichiervecteur1.RData”)
> vecteur1
[1] 1 2 3 4
– Lire et écrire un fichier au format texte.
Supposons que le fichier table1.txt, contenu dans votre répertoire de travail, soit le
suivant :
53.5 56.9
34.8 23.9
12.7 35.8
34.7 66.8
Alors, pour lire ce fichier, vous utiliserez la commande read.table :
> read.table(”table1.txt”)
V1 V2
1 53.5 56.9
2 34.8 23.9
3 12.7 35.8
4 34.7 66.8
Quelques commandes utiles :
– > table1 < −read.table(”table1.txt”) permet de conserver le tableau de données
comme un objet.
– > table1$V 1 permet d’afficher uniquement la première colonne de table1.
– > table[1, 1] permet d’afficher l’élément de la première colonne et la première ligne
1.3 Les packages 18

de table1, ici 53.5.


– > table1[c(1), c(1)] affiche également l’élément 53.5.
– > table1[1 : 2, 1] permet d’afficher les éléments des deux premières lignes et de la
première colonne de table1 à savoir 53.5 et 34.8.
– > table1[1 : 2, 1 : 2] fournit également les éléments des deux premières lignes et des
deux premières colonnes de table1.
– Si le nom des variables est spécifié dans le fichier texte que vous souhaitez convertir
en jeu de données R, il faut ajouter header=T dans la commande read.table : >
read.table(”table2.txt”, header = T ).
– Si les décimales du fichier texte sont notées par des virgules, il faut le spécifier lors
de la création de la table de données : > read.table(”table3.txt”, dec = ”, ”).
– Si les colonnes du fichier texte sont séparées par un autre caractère que l’espace, il
faut le spécifier lors de la création de la table de données :
> read.table(”table4.txt”, sep = ”; ”).
– Lire et écrire un fichier au format csv ou excel.
Un fichier csv peut-être de deux types : anglo-saxon (un point comme séparateur
décimal et une virgule comme séparateur de colonne) ou français (une virgule comme
séparateur décimal et un point-virgule comme séparateur de colonne). Ils s’importent
alors respectivement sous R avec les commandes :
> read.csv(”table5.csv”)
> read.csv2(”table6.csv”)
Pour lire un fichier de données de type excel sous R, il faut d’abord télécharger la
bibliothèque xlsReadWrite :
> library(xlsReadW rite)
puis utiliser la fonction read.xls :
> read.xls(table7.xls)

1.3 Les packages


Qu’est ce qu’un package ? Un package est un paquet ou une bibliothèque de programmes
externes.C’est un ensemble de programmes permettant de compléter et d’augmenter les
fonctionnalités de R. Un package est généralement associé à une méthode particulière ou à
un domaine d’applications. Plus de 6685 packages existent (référence de mai 2015). Certains,
indispensables, sont fournis avec R. D’autres constituent des avancées récentes en statistique
et sont à télécharger.
Comment installer un package ? Les packages sont disponibles à l’adresse du CRAN :
1.3 Les packages 19

http ://cran.r-project.org/ De nombreux miroirs (copies exactes du site du CRAN) sont


disponibles dont cinq en France. Pour installer un package disponible sur le site du CRAN :
Packages, Installer Packages. Ensuite, choisir le site mirroir le plus proche et sélectionner
le package à installer. Enfin, charger le package sélectionné : Packages, Charger le package.
Certains packages sont en constante évolution avec de nouvelles versions régulièrement
disponibles. Pour la mise à jour, exécuter : > update.packages(). Pour utiliser un package, il
suffit de l’appeler, une fois qu’il a été installé avec la commande : > library(nomdupackage).
Chapitre 2

Statistique descriptive

2.1 Vocabulaire
– La Statistique : C’est à la fois un ensemble de données et les activités consistant à
collecter ces données, à les traiter et à les interpréter. Le mot ”Statistique” vient de
l’Allemand ”Statistik” qui désigne l’analyse des données utiles à l’état au milieu du
17ème siècle.

– Les Statistiques : C’est un ensemble de données numériques. Les Statistiques in-


terviennent pratiquement dans tous les domaines d’activité : sciences expérimentales,
gestion financière, démographie, contrôles de qualité,....

– La Statistique descriptive : Il s’agit du traitement des données collectées sur un


ensemble d’individus qui permet de dégager un certain nombre de renseignements de
type qualitatif ou quantitatif à des fins de comparaison.

– La Statistique inférentielle : Lorsqu’on ne peut pas étudier complètement une


population, il s’agit d’extrapoler, à partir d’un échantillon de cette population, sur le
comportement de la population dans son ensemble.

– Population et individus : L’ensemble sur lequel porte l’activité statistique s’appelle


la population. Les éléments qui constituent la population sont les individus ou unités
statistiques.
Remarques : Le terme de population n’est pas associé qu’à des êtres humains. Il peut
aussi être assimilé à un ensemble d’objets inanimés. Les individus peuvent être de
natures très diverses.
– Echantillon (”sample” en anglais) : C’est une partie de la population prélevée soit

21
2.1 Vocabulaire 22

de manière aléatoire soit de manière déterministe.

Exemple : On interroge 2000 français sur leur intention de vote à la prochaine élection
présidentielle dans le but de prédire les résultats de cette élection.

– La population est l’ensemble des Français disposant du droit de vote.


– Un individu est une personne Française disposant du droit de vote.
– Un échantillon est constitué de 2000 personnes françaises disposant du droit de
vote et soumises à l’enquête.
Remarque : Attention à la façon de constituer l’échantillon ! Ici, il doit être représentatif
de la population française disposant du droit de vote.

Autre exemple : On prélève 20 poulets dans un élevage et on mesure le taux de dioxine


contenu dans leur viande afin d’estimer le taux moyen pour tout l’élevage.

– La population est l’ensemble des poulet de l’élevage tout entier.


– Un individu est un poulet de l’élevage.
– Un échantillon est constitué de 20 poulets prélevés dans l’élevage.
Remarque : Attention à la façon de constituer l’échantillon ! Il peut être différent
selon s’il est constitué avec remise ou sans remise.

– Les observations : ce sont les divers relevés effectués sur les individus d’un échantillon
de la population.
– Les variables ou caractères : ce sont les caractéristiques étudiées sur les individus
2.2 Variables qualitatives 23

d’une population. Ils sont de deux types :


– quantitatifs : leur détermination produit un nombre ou une suite de nombres. Il
s’agit par exemple de la taille, du poids, du salaire, d’un relevé de notes, de la
température,....
– qualitatifs : il peut s’agir par exemple du sexe, de la couleur des yeux, d’une profes-
sion, de la marque d’une voiture,.....

Remarques :

– Il est important de bien faire la distinction entre ces deux types de caractères car
les méthodes statistiques pour en faire l’étude diffèrent selon le type de variable
étudiée.
– Un caractère ou une variable de type qualitatif peut être tranformé en variable de
type quantitatif par codage. Mais ce codage est conventionnel et n’a pas de sens
quantitatif. Par exemple, vous ne pouvez pas calculer la moyenne sur la couleur des
yeux d’une personne.
– Certaines variables de type qualitatif s’expriment à l’aide de nombres. C’est le cas
par exemple du numéro de téléphone. Mais elles n’ont pas de sens quantitatif puisque
parler par exemple de numéro de téléphone moyen n’est pas pertinent.

2.2 Variables qualitatives


Définition : Une variable de type qualitatif est une variable pour laquelle la valeur me-
surée sur chaque individu ne représente pas une quantité. Elle n’est donc pas numérique
contrairement aux variables de type quantitatif. Les différentes valeurs que peut prendre
cette variable sont appelées les catégories, modalités ou niveaux.
Exemples :
– Considérons la variable qualitative ”Essence d’un arbre dans un peuplement”. Les
différentes modalités de cette variable sont : chêne, hêtre, sapin,...
– Considérons la variable ”Sexe”. Les deux modalités de cette variable sont : masculin
et féminin.
Une variable de type qualitatif peut être de deux types :

– nominale : les modalités ne sont pas ordonnées.


– ordinale : les modalités sont ordonnées.
2.2 Variables qualitatives 24

Exemples :

– La variable ”couleur des yeux” est une variable de type qualitatif nominale. En effet,
les modalités ”bleu”, ”vert”, ”marron”, ....ne sont pas ordonnées.
– La variable ”mention pour le diplôme d’ingénieur” est une variable de type qualitatif
ordinale. En effet, les modalités ”Excellent”, ”Très-bien”, ”Bien”, ....sont ordonnées.

Remarques :

– Le nombre de modalités d’une variable de type qualitatif est plus ou moins fixé conven-
tionnellement selon le type de caractère étudié.
– Chaque individu doit appartenir à une modalité car tous les cas doivent avoir été
prévus (exhaustivité).
– Un individu ne peut pas appartenir à deux modalités ou plus (incompatibilité).
– Une variable de type qualitatif est dite binaire si elle ne comporte que deux modalités.
Par exemples, les variables ”Sexe”, ”Santé” (malade ou sain) et ”Maladie” (présence
ou absence) sont binaires. Il est possible de les coder en 0 et 1.

Distribution d’une variable qualitative.

Soit X une variable de type qualitatif présentant p modalités. Notons par ni , i = 1, . . . , p,


les effectifs de chacune de ces modalités. Alors, donner la distribution de la variable X
revient à :

– donner les effectifs ni de chaque modalité, c’est à dire le nombre de fois que chaque
P
modalité est attribuée. L’effectif cumulé est égal à pi=1 ni .
– calculer les fréquences fi associées à chacune des modalités. Elles correspondent à
l’effectif de la modalité divisé par l’effectif total, soit ∀i = 1, . . . , p,

ni
fi = Pp .
i=1 ni

Elles sont souvent exprimées en pourcentages. La fréquence cumulée à la modalité i


P
est égale à ij=1 fj .

Exemple sous R :

Le fichier ”Mesures”, issu du package ”BioStatR”, contient des données concernant les
haricots ramassés par un jardinier sur son terrain. Ils ont été ramassés sur quatres espèces
différentes de plantes. Le jardinier a relevé la masse, la taille et l’espèce de chaque haricot.
2.2 Variables qualitatives 25

L’ensemble des haricots de son jardin constitue la population. Il en a ramassé 252, ce qui
constitue l’échantillon. Les variables étudiées sont la masse, la taille et l’espèce. Les deux
premières sont de type quantitatif, la troisième de type qualitatif.
Les commandes suivantes permettent de charger en mémoire les fonctions et jeux de
données de la bibliothèque ”BioStatR” et d’afficher le jeu de données ”Mesures” contenu
dans cette bibliothèque :
> library(BioStatR)
> M esures
Vous pouvez par exemple demander à R d’afficher les 6 premières lignes de ce fichier :
> head(M esures)
masse taille espece
1 28.6 19.1 glycineblanche
2 20.6 14.8 glycineblanche
3 29.2 19.7 glycineblanche
4 32.0 21.1 glycineblanche
5 24.5 19.4 glycineblanche
6 29.0 19.5 glycineblanche
Remarque : la commande > tail(M esures) permet d’afficher les six dernières lignes du jeu
de données Mesures.
Nous nous intéressons ici à la variable espèce qui comporte quatre modalités : ”bignone”,
”glycine blanche”, ”glycine violette” et ”laurier rose”. Pour retrouver ces modalités sous
R:

> levels(M esures$especes)


[1] ”bignone” ”glycineblanche” ”glycineviolette” ”laurierrose”

Pour obtenir le tableau des effectifs de la variable espece sous R :

> table(M esures$espece)


bignone glycineblanche glycineviolette laurierrose
70 54 56 72
Pour obtenir le tableau des effectifs cumulés de la variable espece sous R :

> cumsum(M esures$espece)


1 2 3 4
70 124 180 252

Pour obtenir le tableau des fréquences de la variable espece sous R :


2.2 Variables qualitatives 26

> table(M esures$espece)/sum(table(M esures$espece))


1 2 3 4
0.28 0.21 0.22 0.29
Autre méthode pour obtenir le tableau des fréquences de la variable espece sous R :

> prop.table(table(M esures$espece))


1 2 3 4
0.28 0.21 0.22 0.29

Pour obtenir le tableau des fréquences cumulées de la variable espece sous R :

> cumsum(table(M esures$espece)/sum(table(M esures$espece)))


1 2 3 4
0.28 0.49 0.71 1.00
Autre méthode pour obtenir le tableau des fréquences cumulées de la variable espece
sous R :

> cumsum(prop.table(table(M esures$espece)))


1 2 3 4
0.28 0.49 0.71 1.00
Représentation graphique de la distribution d’une variable qualitative.

– Le diagramme à barres verticales des effectifs ou des fréquences est une représentation
graphique de la distribution d’une série statistique qualitative par un ensemble de rec-
tangles. L’axe des abscisses correspond aux différentes modalités du caractère série
étudiée et l’axe des ordonnées aux effectifs ou fréquences associés. Ce type de dia-
gramme peut également être horizontal, les différentes modalités de la variable expli-
cative se trouvant sur l’axe des ordonnées et les effectifs ou fréquences sur l’axe des
abscisses.
– Le diagramme à points vertical des effectifs ou des fréquences est une représentation
graphique de la distribution d’une série statistique qualitative par un ensemble de
points. L’axe des abscisses correspond aux différentes modalités du caractère série
étudiée et l’axe des ordonnées aux effectifs ou fréquences associés. Ce type de dia-
gramme peut également être horizontal, les différentes modalités de la variable expli-
cative se trouvant sur l’axe des ordonnées et les effectifs ou fréquences sur l’axe des
abscisses.
– Le diagramme circulaire (ou camembert) est une représentation graphique de la
2.2 Variables qualitatives 27

distribution d’une série statistique qualitative. à chacune des modalités du caractère


est associée une portion circulaire du diagramme proportionnelle à sa fréquence.

Exemple avec R :

– Diagramme en bâtons :
> plot(table(M esures$espece), type = ”h”, lwd = 4, col = ”red”, xlab = ”Especes”, ylab =
”Ef f ectif s”)
– L’option type permet de choisir le type de graphique souhaité. Ici, le h signifie que
l’on souhaite un graphe de type histogramme.
– L’option lwd pour line width donne la largeur des barres verticales, ici 4.
– L’option col permet de choisir la couleur des barres, ici rouge.
– Les options xlab et ylab permettent respectivement d’afficher un titre respectivement
sous l’axe de abscisses et des ordonnées.

– Polygone des effectifs cumulés :


> plot(cumsum(table(M esures$espece)), type = ”h”, lwd = 4, col = ”red”, xlab =
”Especes”, ylab = ”Ef f ectif s”)
> lines(cumsum(table(M esures$espece)), lwd = 4)
2.3 Variables quantitatives 28

– Diagramme circulaire :
> pie(table(M esures$espece),
labels = c(”bignone”, ”glycineblanche”, ”glycineviolette”, ”laurierrose”), col = rainbow(7))

2.3 Variables quantitatives


Définition : Une variable de type quantitatif est une variable pour laquelle la valeur me-
surée sur chaque individu représente une quantité. Elle est donc de type numérique contrai-
rement aux variables de type qualitatif. Lorsque la variable prend des valeurs isolées, on dit
qu’elle est de type quantitatif discret. Lorsqu’en revanche celle-ci prend toutes les valeurs
2.3 Variables quantitatives 29

d’un intervalle, on dit qu’elle est de type quantitatif continu.


Exemples :
– Les variables ”nombre de personnes dans la famille”, ”nombre de visites au centre
commercial dans le mois”, ”nombre d’arbres par placette” sont des variables de type
quantitatif discret.
– Les variables ”température”, ”poids”, ”taille” sont des variables de type quantitatif
continu.

Une variable de type quantitatif peut être de deux types :

– simple ou univariée : la mesure sur un individu produit un seul nombre.


– multiple : la mesure sur un individu produit une suite finie de nombres.

Exemples :

– La variable ”Poids d’un individu” est une variable de type quantitatif simple.
– La variable ”Relevé de températures pour une ville pendant un an” est une variable
de type quantitatif multiple.

Distribution d’une variable quantitative.

Soit X une variable de type quantitatif discret ou continu. Supposons que X prenne les
valeurs x1 , . . . , xn . Notons par ni , i = 1, . . . , n, les effectifs de chacune de ces modalités.
Alors, donner la distribution de la variable X revient à :

– donner les effectifs ni de chaque modalité, c’est à dire le nombre de fois que la valeur
P
xi est prise. L’effectif cumulé en xi est égal à ij=1 nj .
– calculer, pour tout i = 1, . . . , n les fréquences fi associées à chacune des valeurs xi .
Elles correspondent à l’effectif ni divisé par l’effectif total, soit ∀i = 1, . . . , n,

ni
fi = Pn .
i=1 ni

Elles sont souvent exprimées en pourcentages. La fréquence cumulée en xi est égale à


Pi
j=1 fj .

Remarques :

– La suite de couples ((xi , ni ))i=1,...,n ou ((xi , fi ))i=1,...,n est appelée distribution statis-
tique de la variable X.
2.3 Variables quantitatives 30

– Par définition, la somme des effectifs est égale à l’effectif total.


– Par définition, la somme des fréquences est égale à 1.

Soit X une variable de type quantitatif discret ou continu. Lorsque X prend un nombre
trop important de valeurs, il est préférable de regrouper ces valeurs en intervalles appelés
classes pour rendre la statistique plus lisible. L’ensemble des valeurs prises par X est alors
partagé en classes de la forme ]ai ; ai+1 ] avec ai < ai+1 pour tout i = 1, . . . , n. Alors, donner
la distribution de X revient à :

– donner les effectifs ni de chaque classe pour i = 1, . . . , n, c’est à dire le nombre de


valeurs prises par le caractère dans l’intervalle ]ai ; ai+1 ]. L’effectif cumulé en ai est le
nombre de valeurs prises dans l’intervalle ] − ∞; ai ].
– calculer, pour tout i = 1, . . . , n, les fréquences fi associées à la classe ]ai ; ai+1 ]. Elles
correspondent à l’effectif ni divisé par l’effectif total, soit ∀i = 1, . . . , n,

ni
fi = Pn .
i=1 ni

Elles sont souvent exprimées en pourcentages. La fréquence cumulée en ai est égale à


Pi
j=1 fj .

Remarque : La donnée du couple (]ai ; ai+1 ], ni )i=1,...,n ou (]ai ; ai+1 ], fi )i=1,...,n représente
la distribution statistique de la variable X.

Exemple sous R : Nous nous intéressons toujours au jeu de données Mesures et cette fois à la
variable masse (des haricots). Cette variable est de type quantitatif continu. Nous pouvons
l’étudier soit en considérant l’ensemble de ses valeurs soit en faisant des regroupements en
classes. C’est cette deuxième alternative que nous choisissons car le nombre de valeurs est
trop important.

Pour obtenir la plage de valeurs de la variable masse :


> minmax < −c(min(M esures$masse), max(M esures$masse))
> minmax
[1] 1.0 49.2

Pour créer des classes :


> histo < −hist(M esure$masse)
> classes < −histo$breaks
> classes
2.3 Variables quantitatives 31

[1] 0 5 10 15 20 25 30 35 40 45 50

Pour obtenir les effectifs correspondants aux dix classes :


> ef f ectif s < −histo$counts
> ef f ectif s
[1] 82 58 51 23 16 12 4 2 1 3

Pour obtenir les effectifs cumulés :


> cumsum(ef f ectif s)
[1] 82 140 191 214 230 242 246 248 249 252

Pour obtenir les fréquences :


> f requences < −ef f ectif s/sum(ef f ectif s)
> f requences
[1] 0.325 0.231 0.202 0.091 0.064 0.047 0.016 0.008 0.004 0.012

Pour obtenir les fréquences cumulées :


> cumsum(f requences)
> [1] 0.325 0.556 0.758 0.849 0.913 0.96 0.976 0.984 0.988 1

Remarque : Vous pouvez vérifier que la somme des fréquences vaut 1 en utilisant la
commande > sum(f requences).

Représentation graphique de la distribution d’une variable quantitative.

– Le diagramme à barres verticales des effectifs (ou des fréquences) est une représentation
graphique de la distribution d’une série statistique quantitative discrète par une suite
de segments verticaux d’abscisse xi (avec i = 1, . . . , n) dont la longueur est propor-
tionnelle à l’effectif (ou à la fréquence) des xi .

– Le polygone des effectifs (ou des fréquences) de la distribution d’une série statistique
quantitative discrète est obtenu à partir du diagramme à barres des effectifs (ou des
fréquences) en joignant par un segment le sommet des btons.

– En remplaçant dans la définition précédente le mot effectifs (ou fréquences) par effectifs
cumulés (ou fréquences cumulées) vous obtenez le polygone des effectifs cumulés (ou
des fréquences cumulées).

– L’histogramme est une représentation graphique de la distribution dune série statis-


2.3 Variables quantitatives 32

tique quantitative pour laquelle des classes ont été crées. Deux cas se distinguent :

1. dans le cas où les amplitudes des classes sont égales, cet histogramme est un
ensemble de rectangles de largeur l’amplitude a de la classe. La hauteur de chaque
rectangle est égale à K (une constante arbitraire) multipliée par l’effectif de la
classe de sorte que l’aire totale sous l’histogramme soit égale à K × N × a où N
est l’effectif total.

2. dans le cas de classes d’amplitudes kj × a inégales, on convient de prendre pour


hauteur du rectangle de la classe j le quotient (K × nk )/kj .

– Le polygone des effectifs (ou des fréquences) de la distribution d’une série statistique
quantitative regroupée en classes est obtenu en joignant dans l’histogramme de cette
distribution les milieux des côtés horizontaux supérieurs.

– Deux autres graphiques, la boı̂te à moustaches (box-plot) et le diagramme tige-


feuille (histogramme de Tukey), sont utilisés pour décrire la distribution d’une va-
riable de type quantitatif. Nous les étudierons plus tard.

Exemple avec R :

– Histogramme :
> hist(M esures$masse, main = ”Histogramme des masses”, xlab = ”M asse”, ylab =
”Ef f ectif s”)

– L’option main permet de donner un titre au graphique.

– Les options xlab et ylab permettent respectivement d’afficher un titre respectivement


sous l’axe de abscisses et des ordonnées.

– Les commandes successives


> histo < −hist(M esures$masse, plot = F ALSE)
> classes < −histo$breaks
> classes
permettent de récupérer les classes de l’histogramme.

– Les commandes successives


> ef f ectif s < −histo$counts
> ef f ectif s
2.4 Calculs numériques sur les variables quantitatives 33

permettent de récupérer les effectifs de chaque classe de l’histogramme.

2.4 Calculs numériques sur les variables quantitatives


La distribution d’une variable X possède un certain nombre d’indicateurs qui vont en
permettre l’étude plus approfondie :
– Les paramètres de position : moyenne, médiane, mode, classe modale et quartiles.

– Les paramètres de dispersion : étendue, variance et écart-type.

– Les paramètres de forme : skewness (coefficient d’asymétrie) et kurtosis (coefficient


d’applatissement).

2.4.1 Les paramètres de position


Un paramètre de position est une valeur centrale sur laquelle se répartissent les obser-
vations.

– La moyenne arithmétique : c’est l’indicateur de tendance centrale le plus utilisé


pour décrire une série statistique quantitative discrète ou continue. Elle est donnée
par :

n n
1 X X
µ̂n = xi n i = xi f i
N i=1 i=1

avec N l’effectif total, ni l’effectif de chaque valeur de la distribution xi .


2.4 Calculs numériques sur les variables quantitatives 34

Remarques :

– Pour une distribution qui aurait été regroupée en classes de la forme (]ai ; ai+1 ])i=1,...,n ,
la moyenne arithmétique se calcule par :

n
1 X
µ̂n = ci ni
N i=1

ai +ai+1
où ci est le centre de la classe ]ai ; ai+1 ] et vaut, pour i = 1, . . . , n, ci = 2
.
– La moyenne est cependant sensible aux valeurs extrêmes.
– Lorsque la distribution présente de fortes ou faibles valeurs isolées, il vaut mieux se
tourner vers le calcul de la médiane.

– La médiane : c’est le paramètre de position qui permet de séparer l’échantillon étudié


en deux parties égales. Elle se note généralement M ou Q0.5 . Elle est définie selon deux
cas :

1. Si l’on classe les n valeurs de la série par ordre croissant et qu’elles sont en nombre
impair, la médiane correspond alors à :

M = x (n+1)
2

où x( ) est la statistique d’ordre.

2. Si l’on classe les n valeurs de la série par ordre croissant et qu’elles sont en nombre
pair, la médiane correspond alors à :

x (n) + x (n+2)
2 2
M=
2

Exemples :

– Supposons que les données soient les suivantes :

1223467

Elles sont en nombre impair et la médiane vaut M = 3.


2.4 Calculs numériques sur les variables quantitatives 35

– Supposons que les données soient les suivantes :

122346

2+3
Elles sont en nombre pair et la médiane vaut M = 2
= 2.5.

Remarques :

– De part sa définition, la médiane est non sensible aux valeurs extrêmes.


– Elle se prête mal aux calculs c’est pourquoi on lui préfère en général le calcul de la
moyenne.
– Une distribution est dite symétrique si il existe une valeur autour de laquelle les
observations se répartissent symétriquement. Dans ce cas, cette valeur est alors
confondue avec la moyenne et la médiane, alors égales.
– La médiane correspond au deuxième quartile.

– Les quartiles : ce sont des valeurs de la distribution qui permettent de séparer celle-ci
en deux parties :

– La médiane ou Q0.5 permet de séparer la distribution en deux parties égales, c’est


à dire que 50% des observations de la distribution se trouvent à gauche de Q0.5 et
les 50% restants se trouvent à droite de Q0.5 .
– Le premier quartile ou Q0.25 est tel que 25% des observations de la distribution
se trouvent à gauche de Q0.25 et 75% des observations de la distribution se trouvent
à droite de Q0.25 .
– Le troisième quartile ou Q0.75 est tel que 75% des observations de la distribution
se trouvent à gauche de Q0.75 et 25% des observations de la distribution se trouvent
à droite de Q0.75 .

Remarques :

– Soit α ∈ [0; 1]. D’une manière générale, le quantile Qα est tel que α × 100% des
observations de la distribution se trouvent à gauche de Qα et (1 − α) × 100% des
observations de la distribution se trouvent à droite de Qα .
– On s’intéresse souvent à l’intervalle inter-quartiles à savoir [Q0.25 ; Q0.75 ] qui permet
de retrouver 50% de la distribution.
– Il arrive que les premier et troisième quartiles et la médiane (deuxième quartile)
2.4 Calculs numériques sur les variables quantitatives 36

soient respectivement notés Q1 , Q3 et Q2 .

Exemple :

Supposons que les données soient les suivantes :

1 11 15 19 20 24 28 34 37 47 50 57

– Le premier quartile Q1 ou Q0.25 vaut 15.


– Le deuxième quartile Q2 , Q0.5 ou médiane vaut 26.
– Le troisième quartile Q3 ou Q0.75 vaut 37.

– Le mode d’une distribution statistique x1 , . . . , xn est l’une de ses valeurs dont la


fréquence est maximale. Lorsque la distribution statistique est regroupée en classes,
on parle de classe modale c’est à dire de la classe dont le rapport fréquence/longueur
est maximal.
Exemple : supposons que les valeurs d’une distribution statistique discrète soient :
1 2 2 2 5 6 6 8. Alors, le mode de cette distribution est 2.
Remarque : Une distribution est dite unimodale si elle a un seul mode. Sinon, elle
est dite plurimodale.

2.4.2 Les paramètres de dispersion


Le mot ”dispersion” est fondamental en Statistique.

– L’étendue : c’est la différence entre la plus grande valeur et la plus petite valeur de
la série statistique étudiée. Soit X, le caractère étudié. Alors :

e(X) = max(X) − min(X).

Exemple : Soit la variable X prenant les valeurs 1 5 2 9 6. Alors, l’étendue de X est


9 − 1 = 8.
Remarque : C’est un indicateur instable car il est sensible aux valeurs extrêmes.

– L’étendue interquartiles est la différence entre le troisième quartile Q3 ou Q0.75 et


le premier quartile Q1 ou Q0.25 de la série statistique étudiée. L’intervalle interquartiles
[Q0.25 ; Q0.75 ] comporte 50% des observations.
2.4 Calculs numériques sur les variables quantitatives 37

Remarque : Nous retrouverons l’intervalle interquartiles lorsque nous étudierons les


boı̂tes à moustaches ou Box-plot.

– La variance : c’est le nombre réel positif qui donne la moyenne des carrés des écarts
à la moyenne arithmétique.

Dans le cas d’une distribution statistique quantitative discrète ou continue d’une va-
riable X, prenant les valeurs x1 , . . . , xn avec les effectifs ni , i = 1, . . . n,

Xn n
1 X
V (X) = S 2 (X) = (xi − µ)2 fi = (xi − µ)2 ni
i=1
N i=1

avec les fréquences fi pour i = 1, . . . , n de la distribution définies par fi = nNi où N


est l’effectif total.
Dans le cas d’une distribution statistique quantitative discrète ou continue, regroupée en
classes d’amplitudes égales à a, la variance se calcule en général en utilisant la correction
de Sheppard. Elle est égale au nombre réel positif :

Xn n
2 2 a2 1 X a2
V (X) = S (X) = (xi − µ) fi − = (xi − µ)2 ni −
i=1
12 N i=1 12
ni
avec les fréquences fi pour i = 1, . . . , n de la distribution définies par fi = N
où N est
l’effectif total.

Remarque :

La formule de Huyens : S 2 (X) = µ(X 2 ) − µ2 (X) où µ(X 2 ) est la moyenne du carré des
valeurs de la distribution est souvent préférée et conseillée car elle ne fait intervenir qu’une
seule fois le calcul de la moyenne qui est souvent arrondi et non une valeur exacte dans le
calcul de la variance. Cela implique donc moins d’erreurs de calcul.

Un autre type de variance est fréquemment utilisé en Statistique, il s’agit de la variance


corrigée, définie par :

n
2 1 X N
σ (X) = (xi − µ)2 ni = S 2 (X).
N − 1 i=1 N −1

Remarques :
– Nous reparlerons de cette variance dans le cours sur l’estimation et les intervalles de
confiance.
2.4 Calculs numériques sur les variables quantitatives 38

– Le passage de la variance à la variance corrigée se fait simplement en multipliant par


le coefficient NN−1 .
– Avec le logiciel R, c’est la variance corrigée qui est calculée.

L’écart-type : c’est la racine carrée de la variance d’une distribution statistique X,

p
σ(X) = V ar(X).

Remarque : Nous retrouverons l’écart-type dans de nombreuses formules du chapitre sur


l’estimation et les intervalles de confiance.

Le coefficient de variation : il est défini pour un caractère X positif. Il est égale au


rapport de l’écart-type σ(X) avec la moyenne arithmétique µ(X).

Remarque :

Ce coefficient n’a pas d’unité. Il permet de comparer des séries statistiques entre elles
qui n’ont pas les mêmes unités. Par exemple, lorsqu’on veut comparer les températures de
différents pays, il est utilisé puisque plusieurs unités coexistent. Nous en reparlerons au
second semestre lorsque nous étudierons la régression linéaire.

2.4.3 Les paramètres de forme


– Le moment centré d’ordre r d’une distribution statistique X quantitative discrète,
prenant les valeurs x1 , . . . , xn , est égal à :

n
X
mr (X) = (xi − µ)r fi
i=1

où les fi pour i = 1, . . . , n sont les fréquences associées à chaque observation xi .

– Le coefficient d’asymétrie de Fisher d’une série statistique est la quantité :

m3 (x)
γ1 (x) =
.
S 3 (x)
– Le coefficient d’asymétrie de Pearson d’une série statistique est la quantité :

(m3 (x))2
β1 (x) = = γ12 (x).
(S 3 (x))2
2.5 Applications avec le logiciel R 39

– Le coefficient d’aplatissement de Fisher d’une série statistique est la quantité :

m4 (x)
γ2 (x) = − 3.
(S(x))4
– Le coefficient d’aplatissement de Pearson d’une série statistique est la quantité :

m4 (x)
β2 (x) = .
(S(x))4

Remarques :
– Le coefficient d’asymétrie (ou skewness) mesure l’asymétrie de la distribution d’une
variable quantitative.
– Le coefficient d’aplatissement (ou kurtosis) mesure l’aplatissement de la distribution
d’une variable quantitative.

2.5 Applications avec le logiciel R


Pour illustrer les différents paramètres que nous venons d’énumérer, à savoir les pa-
ramètres de position, de dispersion et de forme, nous allons utiliser l’exemple dans lequel
nous nous intéressons à la masse d’haricots, qui est bien une variable quantitative.

– La moyenne arithmétique : elle s’obtient en utilisant la fonction mean sur la va-


riable masse du jeu de données Mesures :

> mean(M esures$masse)


[1] 11.13056

La moyenne arithmétique de la variable masse du jeu de données Mesures s’obtient


également en utilisant la fonction summary :

> summary(M esures$masse)


M in. 1stQu. M edian M ean 3rdQu. M ax
1.00 4.50 8.40 11.13 14.60 49.20
Remarque : La fonction summary permet d’afficher d’autres caractéristiques de la dis-
persion dont entre autres le minimum et le maximum des valeurs de la distribution de la
variable masse.

– Pour obtenir l’étendue de la distribution, deux méthodes sont possibles :


2.5 Applications avec le logiciel R 40

> max(M esures$masse) − min(M esures$masse)


[1] 48.2

> dif f (range(M esures$masse))


[1] 48.2

avec la fonction range qui permet d’obtenir le minimum et le maximum de la série.


Remarquons qu’il n’existe pas sous R de fonction permettant de calculer directement
l’étendue.

– L’étendue interquartile de la variable masse du jeu de données Mesures se calcule


avec :

> IQR(M esures$masse)


[1] 10.1

Remarque : Nous verrons une autre méthode pour effectuer ce calcul lorsque nous verrons
comment calculer avec R les quantiles d’une distribution.

– La variance de la variable masse du jeu de données Mesures est donnée par :

> var(M esures$masse)


[1] 81.0281
Remarque : R calcule la variance corrigée. Pour revenir au calcul de la variance normale,
il suffit de multiplier le résultat ci-dessus par NN−1 .

– L’écart-type de la variable masse du jeu de données Mesures est donné par :

> sd(M esures$masse)


[1] 9.001561

Remarques :

1. sd est l’abréviation de ”Standard Deviation”.

2. L’écart-type calculé par R est l’écart-type corrigé c’est à dire la racine carrée de la
variance corrigée.

– Le coefficient de variation de la variable masse du jeu de données Mesures est donné


par :

> library(BioStatR)
> cvar(M esures$masse)
2.5 Applications avec le logiciel R 41

[1] 80.87253

– Les caractéristiques de forme s’obtiennent à partir de la bibliothèque agricolae :

> library(agricolae)
> skewness(M esures$masse)
[1] 1.639849

> kurtosis(M esures$masse)


[1] 3.080963

– Les quantiles et en particulier les quartiles s’obtiennent à partir de la fonction


quantile : par exemple, pour obtenir le quantile d’ordre 50% (ou médiane) de la variable
masse du jeu de données Mesures :

> quantile(M esures$masse, 0.50)


[1] 8.4

Le résultat signifie que 50% des observations de la distribution de la variable masse sont
plus petites que 8.4 et les 50% restantes sont plus grandes que 8.4.

> median(M esures$masse)


[1] 8.4

Le quantile d’ordre α de la variable masse du jeu de données Mesures s’obtient donc avec
les commandes :

> quantile(M esures$masse, α)

Remarque :

Nous avons vu que la fonction summary permet d’afficher simultanément les premier,
deuxième et troisième quartiles d’une distribution. Elle affiche également le minimum,
le maximum et la moyenne de la distribution. Nous l’utiliserons souvent afin d’avoir un
aperçu général des divers paramètres de la distribution.

Exemples :

Pour obtenir le premier quartile de la variable masse du jeu de données Mesures :


> quantile(M esures$masse, 0.25)
[1] 4.5

Pour obtenir le troisième quartile de la variable masse du jeu de données Mesures :


2.5 Applications avec le logiciel R 42

> quantile(M esures$masse, 0.75)


[1] 14.6

Pour obtenir les trois quartiles de la variable masse du jeu de données Mesures simul-
tanément :
> quantile(M esures$masse, c(0.25, 0.5, 0.75))
[1] 4.5 8.4 14.6

– La boı̂te à moustaches ou box-plot est un graphique sur lequel sont représentées de


nombreuses caractéristiques de position et de dispersion. C’est en fait un moyen rapide
d’afficher le profil essentiel d’une variable quantitative. Vous verrez apparaı̂tre le premier
quartile, la médiane, le troisième quartile, l’étendue, l’étendue interquartile, la moyenne
(optionnel) et s’il y en a des valeurs atypiques par rapport au reste de la distribution.

Construction d’une telle boı̂te :

– Le premier quartile, noté Q1 , est le trait inférieur de la boı̂te.

– Le troisième quartile, noté Q3 , est le trait supérieur de la boı̂te.

– La médiane (qui est aussi le deuxième quartile ou Q2 ) est représentée par un trait
horizontal au sein de la boı̂te.

– Les valeurs atypiques sont représentées soit par un cercle (sous R) soit par une étoile.

– Les moustaches inférieures et supérieures sont représentées par des pointillés (sous R)
ou des traits pleins verticaux de chaque côté de la boı̂te qui se terminent par des traits
horizontaux.

Les moustaches sont construites de différentes manières :

– la moustache inférieure est la valeur de la série immédiatement supérieure à Q1 −


1.5 × (Q3 − Q1 ) (frontière basse) et la moustache supérieure est celle immédiatement
inférieure à Q3 + 1.5 × (Q3 − Q1 ) (frontière haute).
– la moustache inférieure est le premier décile (ou Q0.10 ) et la moustache supérieure est
le neuvième décile (ou Q0.90 ).
– la moustache inférieure est le minimum de la distribution et la moustache supérieure
est le maximum de la distribution.
2.5 Applications avec le logiciel R 43

Remarques : Une boı̂te utilisant la deuxième convention est appelée ”boı̂te à pattes”. La
dernière convention est beaucoup moins utilisée que les deux précédentes.

Sous R, nous obtenons la boı̂te à moustache de la variable masse du jeu de données


Mesures avec la fonction boxplot :

> boxplot(M esures$masse)


> title(”Boı̂te à moustaches de la variable masse”)

Nous pouvons également obtenir plusieurs boı̂tes à moustaches en parallèle selon les
modalités d’une variable qualitative, par exemple ici les boı̂tes à moustache de la variable
masse du jeu de données Mesures en fonction des différentes especes :

> boxplot(M esures$masse ˜M esures$espece, col = rainbow(4))

Pour obtenir quelques statistiques concernant la boı̂te à moustaches ainsi que les valeurs
2.5 Applications avec le logiciel R 44

atypiques de la distribution il faut utiliser la fonction boxplot.stats :

> boxplot.stats(M esures$masse)

$stats
[1] 1.0 4.5 8.4 14.6 29.6
$n
[1] 252
$conf
[1] 7.39474 9.40526
$out
[1] 32.0 35.5 32.5 40.0 49.2 46.0 42.2 48.4 31.7 33.7
– $stats donne l’extrêmité inférieure de la moustache inférieure, le 1er quartile, la médiane,
le troisième quartile et l’extrémité supérieure de la moustache supérieure.

– $n est la taille de l’échantillon représenté.

– $conf donne un intervalle de confiance approximatif pour la médiane. Nous verrons


plus tard ce qu’on appelle intervalle de confiance.

– $out donne les observations atypiques.


Remarques :

– Les boı̂tes à moustaches, même si elles sont moins précises qu’un histogramme, sont
des résumés graphiques efficaces des données car elles ne nécessitent pas d’effectuer des
regroupements en classes.

– Il ne faut pas confondre valeur atypique avec valeur aberrante. Une valeur aberrante
est une valeur qu’il est impossible d’avoir observé pendant l’expérience car elle entre
en contradiction avec vos connaissances et le contexte expérimental. Elle peut être due
à une erreur de mesure, de relevé ou de saisie.

– Il est possible avec R de faire apparaı̂tre la moyenne sur le graphe boxplot.

– Le diagramme tige-feuille appelé histogramme de Tukey fournit des informations


plus précises que celles d’un histogramme. En effet, il permet de montrer les fréquences de
certaines classes mais aussi de représenter les valeurs des données ce qui autorise le calcul
direct de la médiane, des premier et troisième quartiles, du minimum et du maximum de
l’échantillon étudié.

La fonction stem de la bibliothèque RCMDR permet de tracer un tel graphique de la


2.5 Applications avec le logiciel R 45

variable masse du jeu de données Mesures :

> stem(M esures$masse)

Remarque : Ce diagramme porte parfois le nom de ”stem and leaf”.


Chapitre 3

Lois de probabilité usuelles

3.1 Introduction
Buts de ce chapitre :

– Présentation des lois discrètes nécessaires à la modélisation de phénomènes naturels.

– Présentation de la loi fondamentale en Statistique à savoir la loi de Gauss ou loi


Normale.

– Présentation des lois continues utiles pour la construction d’intervalles de confiance


et pour la réalisation de tests statistiques.

– Présentation sous R des diverses commandes permettant d’obtenir les quantiles et


probabilités dans le cas discret et les densités et fonctions de répartition dans le cas
continu.

Quelques définitions :

– Une variable aléatoire : Dans la plupart des phénomènes aléatoires, le résultat d’une
épreuve peut se traduire par une grandeur mathématique, très souvent représentée par
un nombre. La notion mathématique qui représente efficacement ce genre de situation
concrète est celle de variable aléatoire (ou va) notée X. C’est donc une fonction définie
sur l’ensemble des résultats possibles d’une expérience aléatoire, telle qu’il soit possible
de déterminer la probabilité pour qu’elle prenne une valeur donnée ou qu’elle prenne une
valeur dans un intervalle donné.

Exemples de variables aléatoires :


– Temps de désintégration d’un atome radioactif.

47
3.1 Introduction 48

– Pourcentage de réponses oui à une question posée dans un sondage.


– Nombre d’enfants d’un couple.
– Résultat obtenu au lancer d’un dé.

Exemples :

– Si l’on considère une fratrie de deux enfants, l’ensemble des résultats possibles est :

{GG, GF, F G, F F }

Les valeurs possibles prises par la variable aleatoire X, nombres de filles dans la famille,
sont :
{0, 1, 2}

– Si l’on considère la variable aléatoire X qui est le résultat du lancer d’un dé (non
truqué) les valeurs possibles prises par cette variable sont :

{1, 2, 3, 4, 5, 6}

– Fonction de répartition : Considérons X une variable aléatoire. La fonction de


répartition de la variable aléatoire X est la fonction numérique réelle FX définie par :

∀x ∈ R, FX (x) = P (X ≤ x).

Remarques :

1. ∀x ∈ R, FX (x) ∈ [0; 1].

2. FX est une fonction croissante sur R.

3. Pour tous réels a et b, P (a < X ≤ b) = FX (b) − FX (a).

Variable aléatoire discrète : une variable aléatoire discrète X est une variable telle que
l’ensemble de ses valeurs est au plus dénombrable. La loi de probabilité d’une telle variable
est la donnée de l’ensemble des probabilité

P (X = k) = pX (k)

avec k qui parcourt l’ensemble des valeurs prises par la variable aléatoire.

Par ailleurs, les probabilités pX (k) vérifient, pour tout k :


3.1 Introduction 49

1. ∀k, pX (k) ≥ 0.
P
2. k pX (k) = 1.
P P
3. pour tout réel x, FX (x) = P (X ≤ x) = k≤x pX (k) = k≤x P (X = k).
Exemple : Revenons à l’exemple du lancer du dé (non truqué). Soit X la variable aléatoire
”résultat du lancer du dé”. Nous avons vu qu’elle peut prendre les valeurs de 1 à 6. Cet
ensemble de valeurs est dénombrable donc il s’agit d’une variable aléatoire discrète. Nous
avons par ailleurs :

1. ∀k ∈ {1, 2, 3, 4, 5, 6}, pX (k) = P (X = k) = 16 .


P6 P6 1 1
P6
2. la somme des probabilités est bien égale à 1 : k=1 pX (k) = k=1 6 = 6 k=1 1 = 1.
3
3. par exemple, FX (3) = P (X ≤ 3) = P (X = 1) + P (X = 2) + P (X = 3) = 6
= 12 .
– Variable aléatoire continue : une variable aléatoire continue X est une variable
telle que l’ensemble de ses valeurs est contenu dans R. La densité de probabilité de
X ou encore la densité de la loi de probabilité de X est donnée par l’existence d’une
fonction fX définie sur R telle que :

1. ∀t ∈ R, fX (t) ≥ 0.
R
2. R fX (t)dt = 1.
Rx
3. pour tout réel x, FX (x) = P (X ≤ x) = −∞
fX (t)dt.
Exemple : Les variables suivantes sont des variables continues.

– Un relevé de température.
– La taille ou le poids d’un individu.
– En général, toutes les variables relevant d’une mesure sont continues.
– Le temps d’attente à une caisse d’un supermarché.
– La longueur d’un train.

Illustration de la densité de probabilité d’une variable aléatoire continue.

Exemple 1 :
3.2 Lois de probabilité discrètes 50

Exemple 2 :

Exemple 3 :

Fonction de répartition : FX (a) = P (X ≤ a)

Illustration de P (a < X ≤ b)

3.2 Lois de probabilité discrètes


– Loi de Bernoulli de paramètre p, notée B(1; p). Une variable aléatoire X suit une loi
de Bernoulli de paramètre p si elle prend la valeur 1 avec la probabilité p et la valeur
0 avec la probabilité 1 − p = q.
3.2 Lois de probabilité discrètes 51

Exemple : Un exemple simple est celui de la pièce de monnaie. Si celle-ci n’est pas
truquée, lorsque vous lancez une telle pièce, il y a deux résultats possibles : pile ou
face avec comme probabilités respectives p = 0.5 et q = 0.5.

– Loi Binomiale de paramètres n et p, notée B(n; p). Une variable aléatoire X suit
une loi Binomiale de paramètres n et p si elle prend la valeur k avec la probabilité

P (X = k) = Cnk pn (1 − p)n−k .
Exemple : Revenons à l’exemple de la pièce de monnaie. Si celle-ci n’est pas truquée,
lorsque vous lancez une telle pièce, il y a deux résultats possibles : pile ou face avec comme
probabilités respectives p = 0.5 et q = 0.5. Si cette expérience du lancer de la pièce est
renouvelée n fois, la variable X, ”nombre de fois où la pièce est tombe sur la face pile lors
du lancer des n pièces”, suit alors une loi Binomiale de paramètres n et p = 0.5.
3.2 Lois de probabilité discrètes 52

Remarques :

1. Pour n = 1, on retrouve la loi de Bernoulli ce qui est normal puisque l’expérience


n’est répétée qu’une seule fois.

2. La loi binomiale modélise toutes les situations qui s’apparentent à un tirage avec
remise.

3. L’espérance (moyenne) d’une variable aléatoire suivant une loi Binomiale de pa-
ramètres n et p est np et sa variance vaut np(1 − p).

4. Une table statistique permet de lire directement les probabilités associées à cette loi
en fonction des valeurs de n et de p ce qui facilite les calculs.
– Loi Uniforme discrète. Une variable aléatoire X suit une loi Uniforme discrète si elle
prend n valeurs possibles k1 , k2 , . . . , kn avec la probabilité égale à n1 pour n’importe
quelle valeur ki . En particulier, une variable aléatoire X suit une loi uniforme discrète
sur [a; b] avec a, b ∈ Z et a ≤ b si X prend comme valeurs possibles {a, a + 1, . . . , b}
3.2 Lois de probabilité discrètes 53

1
avec la probabilité égale à b−a+1
pour n’importe laquelle de ces valeurs.

Exemple : Revenons à l’exemple du lancer du dé (non truqué). Soit X la variable aléatoire
”résultat du lancer du dé”. Alors X peut prendre les valeurs 1,2,3,4,5 et 6 avec les proba-
bilités toutes égales à 16 . X suit donc une loi uniforme discrète.

Remarques :

Si X suit une loi uniforme discrète sur [a; b] alors l’espérance (moyenne) de X vaut

a+b
E(X) =
2
et la variance de X vaut

(b − a)(b − a + 2)
V ar(X) = .
12
– Loi de Poisson de paramètre λ, notée P(λ). Une variable aléatoire X suit une loi de
Poisson de paramètre λ si elle prend la valeur k avec la probabilité
3.3 Lois de probabilité continues 54

λk
P (X = k) = exp(−λ) .
k!

Si X suit une loi de Poisson de paramètre λ, alors l’espérance (moyenne) de X vaut

E(X) = λ

et la variance de X vaut

V ar(X) = λ.

Remarques :

1. La loi de Poisson est utilisée pour décrire divers phénomènes comme par exemple le
nombre d’appels reus par un standard téléphonique pendant une période donnée.

2. La loi de Poisson peut également être utilisée lorsqu’on étudie l’apparition de certains
phénomènes rares.

3. Une table statistique permet de lire directement les probabilités associées à cette loi
en fonction des valeurs de λ ce qui facilite les calculs.

4. C’est une loi discrète qui a son espérance égale à sa variance.

3.3 Lois de probabilité continues


– Loi Normale centrée et réduite. Une variable aléatoire réelle X suit une loi Nor-
male (ou loi de Laplace-Gauss) centrée réduite, c’est à dire d’espérance (moyenne)
3.3 Lois de probabilité continues 55

nulle et d’écart-type 1 si elle admet pour densité de probabilité la fonction fX définie,


pour tout nombre réel t, par :

 2
1 t
fX (t) = √ exp − .
2π 2

Une telle variable aléatoire est alors dite variable gaussienne. On la note habituellement
par N(0; 1).
La loi Normale est une des principales distributions de probabilité introduite par le
mathématicien de Moivre en 1733. Cette loi a été mise en évidence par Gauss au XIXe
siècle et permet de modéliser de nombreuses études biométriques.

Remarques :
– Le graphe de la densité de probabilité fX d’une variable aléatoire suivant une loi de
Gauss centrée réduite a l’allure d’une courbe en cloche assez aplatie.
– La fonction de répartition d’une variable aléatoire suivant une loi Normale centrée
réduite vaut, pour tout x ∈ R,

Z x  
1 t2
Φ(x) = P (X ≤ x) = √ exp − dt.
2π −∞ 2

– Soit X une variable aléatoire qui suit une loi Normale N(0; 1). Alors son espérance
(moyenne) est égale à 0 et sa variance est égale à 1. C’est pour cela qu’on dit qu’elle
est centrée réduite.
– Le coefficient d’asymétrie (skewness) d’une loi Normale centrée réduite vaut 0 et
son coefficient d’aplatissement (kurtosis) vaut 3. Ce sont généralement des valeurs
de références pour d’autres distributions.
– Une table statistique permet de lire directement les probabilités associées à cette loi
ce qui facilite les calculs.
– C’est une loi de probabilité symétrique autour de 0.
3.3 Lois de probabilité continues 56

– Loi Normale de paramètre µ et σ. Une variable aléatoire réelle X suit une loi Normale
(ou loi de Laplace-Gauss) de paramètres µ et σ si elle admet pour densité de probabilité
la fonction fX définie, pour tout nombre réel t, par :

 2 !
1 1 t−µ
fX (t) = √ exp − .
2πσ 2 2 σ

Une telle variable aléatoire est alors dite variable gaussienne. On la note habituellement
par N(µ; σ) ou N(µ; σ 2 ).

Remarques :
– La fonction de répartition d’une variable aléatoire suivant une loi Normale centrée
réduite vaut, pour tout x ∈ R,

 
x−µ
F (x) = P (X ≤ x) = Φ
σ
3.3 Lois de probabilité continues 57

avec Φ la fonction de répartition d’une variable suivant une loi Normale centrée réduite.
– Soit X une variable aléatoire qui suit une loi Normale N(µ; σ). Alors son espérance
(moyenne) est égale à µ et sa variance est égale à σ 2 .
– On utilise la table statistique de la loi N (0; 1) pour lire directement les probabilités
associées à cette loi ce qui facilite les calculs.
– C’est une loi de probabilité symétrique.
3.3 Lois de probabilité continues 58

– Loi du Khi-deux à p degrés de liberté. Soit p un entier positif. Une variable


aléatoire réelle X suit une loi du Khi-deux à p degrés de liberté si elle admet pour
densité de probabilité la fonction fX définie, pour tout nombre réel t, par :

 
1 t p
fX (t) = p p exp − t 2 −1 si t ≥ 0, 0 si t < 0
2 2 Γ( 2 ) 2
R +∞
où Γ(r) = 0
tr−1 exp(−t)dt est la fonction gamma d’Euler.
On la note habituellement par χ2 (p).

Remarques :
– La fonction de répartition ne s’explicite pas. Il existe une table statistique pour lire
ses valeurs et on peut la tracer via un logiciel de Statistique.
– Contrairement à la loi Normale, la densité d’une loi du Khi-deux n’est pas symétrique !
– Soit X une variable aléatoire qui suit une loi du Khi-deux à p degrés de liberté. Alors
3.3 Lois de probabilité continues 59

son espérance (moyenne) est égale à p et sa variance est égale à 2p.


– Soit X1 , . . . , Xn une suite de variables aléatoires indépendantes et identiquement dis-
P
tribuées de loi N (0; 1). Alors la variable ni=1 Xi2 suit la loi du Khi-deux à n degrés
de liberté.
– Nous utiliserons cette loi pour construire des intervalles de confiance et des tests sta-
tistiques.

– Loi de Student à n degrés de liberté. Soit n un entier positif. Une variable aléatoire
réelle X suit une loi de Student à n degrés de liberté si elle admet pour densité de
probabilité la fonction fX définie, pour tout nombre réel t, par :

1 Γ( n+1
2
) 1
fX (t) = √
nπ Γ( 2 ) 1 + t2  n+1
n
2
n
R +∞
où Γ(r) = 0
tr−1 exp(−t)dt est la fonction gamma d’Euler.
On la note habituellement par T (n).
3.3 Lois de probabilité continues 60

Remarques :
– La fonction de répartition ne s’explicite pas. Il existe une table statistique pour lire
ses valeurs et on peut la tracer via un logiciel de Statistique.
– Comme la loi Normale, la densité d’une loi de Student est symétrique ! Son allure est
similaire avec un étalement un peu plus fort.
– Soit X une variable aléatoire qui suit une loi de Student à n degrés de liberté. Alors
n
son espérance (moyenne) est égale à 0 si n ≥ 2 et sa variance est égale à n−2 si n ≥ 3.
– Soit U une variable aléatoire de loi N (0; 1) et X qui suit, indépendamment de U une
loi du Khi-deux à n degrés de liberté. Alors la variable √UX suit la loi de Student à n
n
degrés de liberté.
– Nous utiliserons cette loi pour construire des intervalles de confiance et des tests sta-
tistiques.

– Loi de Fisher-Snedecor à n et p degrés de liberté. Soient n et p, deux entiers


positifs. Une variable aléatoire réelle X suit une loi de Fisher-Snedecor à n et p degrés
3.3 Lois de probabilité continues 61

de liberté si elle admet pour densité de probabilité la fonction fX définie, pour tout
nombre réel t, par :

  n2 n−2
Γ( n+p ) n t 2
fX (t) = n 2 p   n+p pour t ≥ 0, 0 sinon
Γ( 2 )Γ( 2 ) p n 2
1+ p
t
R +∞
où Γ(r) = 0
tr−1 exp(−t)dt est la fonction gamma d’Euler.
On la note habituellement par F (n, p).
Remarques :
– La fonction de répartition ne s’explicite pas. Il existe une table statistique pour lire
ses valeurs et on peut la tracer via un logiciel de Statistique.
– Comme la loi du Khi-deux, la densité d’une loi de Fisher-Snédécor n’est pas symétrique !
– Soit X une variable aléatoire qui suit une loi de Fisher-Snédécor à n et p degrés de
p
liberté. Alors son espérance (moyenne) est égale à p−2 si p ≥ 3 et sa variance est égale
2p2 (n+p−2)
à n(p−2)2 (p−4)
si p ≥ 5.
– Soit X une variable aléatoire de loi du Khi-deux à n degrés de liberté et Y qui suit,
X
indépendamment de X une loi du Khi-deux à p degrés de liberté. Alors la variable Yn
p
suit la loi de Fisher-Snédécor à n et p degrés de liberté.
– Nous utiliserons cette loi pour construire des tests statistiques.
3.3 Lois de probabilité continues 62

– Loi exponentielle de paramètre λ. Soit λ > 0. Une variable aléatoire réelle X


à valeurs dans [0; +∞[ suit une loi exponentielle de paramètre λ si elle admet pour
densité de probabilité la fonction fX définie, pour tout nombre réel t, par :

fX (t) = λ exp−λt si t ≥ 0, 0 si t < 0


3.4 Approximations 63

On la note habituellement par (λ).


Remarques :
– La fonction de répartition d’une variable X suivant une loi exponentielle de paramètre
λ est donnée par :

F (x) = 1 − exp(−λx) si x ≥ 0, 0 si x < 0

– Il est souvent préférable de travailler avec la fonction de survie qui est définie par
r(x) = 1 − F (x) = exp(−λx).
– Soit X une variable aléatoire qui suit une loi exponentielle de paramètre λ. Alors son
espérance (moyenne) est égale à λ1 et sa variance est égale à λ12 .

3.4 Approximations
– Approximation de la loi Binomiale par la loi de Poisson.
3.5 Utilisation des diverses lois sous R 64

En pratique, la loi Binomiale B(n; p) peut-être approchée par une loi de Poisson P(np)
lorsque :

1. p ≤ 0.1

2. n ≥ 30

3. np < 15
– Approximation de la loi Binomiale par la loi Normale.
p
En pratique, la loi Binomiale B(n; p) peut-être approchée par une loi Normale N (np; np(1 − p))
lorsque :

1. n ≥ 30

2. np ≥ 15

3. np(1 − p) > 5

3.5 Utilisation des diverses lois sous R


– Les diverses distributions.

1. binom(n, p) fait appel à la loi Binomiale de paramètres n et p.

2. exp( λ1 ) fait appel à la loi Exponentielle de paramètre λ.

3. f (n, p) fait appel à la loi de Fisher-Snédécor de degrés de liberté n et p.

4. chisq(n) fait appel à la loi du Khi-deux de degré de liberté n.

5. norm(µ, σ) fait appel à la loi Normale de moyenne µ et d’écart-type σ.

6. pois(λ) fait appel à la loi de Poisson de paramètre λ.

7. t(n) fait appel à la loi de Student de degré de liberté n.

8. unif (min, max) fait appel à la loi Uniforme sur l’intervalle [min, max].

Remarques :

– Par défaut, le loi Exponentielle sous R est de paramètre 1.


3.5 Utilisation des diverses lois sous R 65

– Par défaut, la loi Normale sous R est de paramètres 0 et 1 respectivement pour la


moyenne et l’écart-type.
– Par défaut, la loi Uniforme sous R est de paramètres 0 et 1.

– Quelques fonctions utiles.

dnomdist permet d’obtenir la fonction de densité fX (t) ou la fonction de probabilité


P (X = k) selon que la variable étudiée est de type continue ou discrète.
Pour tracer par exemple la densité d’une loi Normale centrée réduite :

x < −seq(−5, 5, 0.1)


curve(dnorm(x), −5, 5)

pnomdist permet d’obtenir la fonction de répartition F (x) que ce soit pour une variable
de type continue ou discrète.
Pour tracer par exemple la fonction de répartition d’une loi Normale centrée réduite :

x < −seq(−5, 5, 0.1)


curve(pnorm(x), −5, 5)
3.5 Utilisation des diverses lois sous R 66

qnomdist permet d’obtenir les quantiles de la distribution d’une variable X.


Pour calculer par exemple le premier quartile d’une distribution suivant une loi Normale
centrée réduite :
> qnorm(0.25, 0, 1)
[1] − 0.67
Valeurs de référence pour la loi Normale :
> qnorm(0.025, 0, 1)
[1] − 1.96
> qnorm(0.975, 0, 1)
[1] 1.96
Chapitre 4

Estimation et intervalles de confiance

4.1 Introduction
Buts de ce chapitre :

– Présenter les principaux estimateurs de certaines caractéristiques ou paramètres comme


la moyenne, la variance ou une proportion.

– Construire des intervalles de confiance pour la moyenne, la variance ou une proportion.

– Obtenir ces estimateurs et ces intervalles de confiance avec R.

4.2 Estimation d’un paramètre


Il y a deux façons d’estimer un paramètre :

– Soit en proposant ou calculant un seul nombre et dans ce cas l’estimation sera dite
ponctuelle.

– Soit en proposant un ensemble de valeurs plausibles et dans ce cas, cela s’appelle


donner une région de confiance de la valeur du paramètre.

Estimation de la moyenne µ d’une population.

Soit (X1 , . . . , Xn ) un échantillon aléatoire de loi parente la loi de X, d’espérance µ et de


variance σ 2 . Alors, l’estimateur µ̂n de µ est égal à :

n
1X
µ̂n = Xi .
n i=1

67
4.2 Estimation d’un paramètre 68

– C’est un estimateur sans biais de µ car E(µ̂n ) = µ.


2
– De plus, V ar(µ̂n ) = σn .

Exemple : Nous travaillons avec le jeu de données Mesures du package BioStatR qui com-
porte 252 observations sur par exemple la taille et le poids de haricots d’espèces différentes.
Si nous nous intéressons à un échantillon particulier qui comporte 54 observations et cor-
respond à l’espèce ”glycine blanche” et que nous voulons calculer une estimation de la
moyenne de la variable taille,

> glycine.blanche < −subset(M esures, subset = (M esures$espece == ”glycineblanche”))


> mean(glycine.blanche$taille)
[1] 14.77222

Estimation de la variance σ 2 d’une population.

Soit (X1 , . . . , Xn ) un échantillon aléatoire de loi parente la loi de X, d’espérance µ et de


variance σ 2 . Alors, l’estimateur Sn2 de σ 2 est égal à :

n
1X
Sn2 = (Xi − µ̂n )2 .
n i=1

– C’est un estimateur avec biais de σ 2 car E(Sn2 ) 6= σ 2 .


– Si la moyenne µ de la population de référence est connue, l’estimateur de la variance
sera : n
2 1X
σ̂n = (Xi − µ)2 .
n i=1

Un estimateur sans biais de la variance σ 2 d’une population est donné par :

n
2 1 X n
Sn,c = (Xi − µ̂n )2 = S2.
n − 1 i=1 n−1 n

2
Il est sans biais ce qui signifie que E(Sn,c ) = σ2.

Exemple : Nous travaillons avec le jeu de données Mesures du package BioStatR qui com-
porte 252 observations sur par exemple la taille et le poids de haricots d’espèces différentes.
Si nous nous intéressons à un échantillon particulier qui comporte 54 observations et corres-
pond à l’espèce ”glycine blanche” et que nous voulons calculer une estimation de la variance
de la variable taille,
4.2 Estimation d’un paramètre 69

> glycine.blanche < −subset(M esures, subset = (M esures$espece == ”glycineblanche”))


> var(glycine.blanche$taille)
[1] 10.91412

Remarque : la variance calculée par le logiciel R correspond à la variance corrigée c’est à


dire l’estimateur sans biais de la variance σ 2 de la population. Pour retrouver l’estimateur
classique de la variance σ 2 de la population :

> glycine.blanche < −subset(M esures, subset = (M esures$espece == ”glycineblanche”))


> n < −length(glycine.blanche$taille)
> (var(glycine.blanche$taille)) ∗ (n − 1)/n
[1] 10.71201

Estimation d’une proportion.

L’estimateur π̂n,A de πA est égal à :

nA
π̂n,A =
n
où nA est le nombre d’individus de l’échantillon de taille n qui possèdent la caractéristique
A.

C’est un estimateur sans biais de πA car E(π̂n,A ) = πA .

Exemple : Nous travaillons avec le jeu de données Mesures5 du package BioStatR qui com-
porte 252 observations sur par exemple la taille et le poids de haricots d’espèces différentes.
Si nous nous intéressons à un échantillon particulier qui comporte 54 observations et cor-
respond à l’espèce ”glycine blanche” et que nous voulons calculer une estimation de la
proportion de gousses de glycine blanche qui ont moins de trois graines,

> glycine.blanche < −subset(M esures, subset = (M esures$espece == ”glycineblanche”))


> ef f ectif.cumule < −cumsum(table(glycine.blanche$graines))
> ef f ectif.cumule
1 2 3 4 5 6 7
7 26 37 47 52 53 54
Une estimation de la proportion de gousses de glycine blanche qui ont moins de trois
graines est donc égale à 37/54 soit environ 69% puisque :
4.3 Estimation par intervalle de confiance 70

> 37/54
> 0.6851852

4.3 Estimation par intervalle de confiance


Introduction :

– La notion d’intervalles et l’estimation par intervalles sont souvent méconnues.

– Ce sont des objets programmés dans de nombreux logiciels de Statistique.

– But : proposer un ensemble de valeurs plausibles pour l’estimation d’un paramètre,


par région ou intervalle de confiance.

Soit le paramètre θ. Il existe deux façons d’estimer ce paramètre :

1. par estimation ponctuelle en proposant θ̂ estimateur de θ.

2. par intervalle ]θ1 ; θ2 [ dit de confiance qui est une estimation ensembliste de θ.

C’est la deuxième solution qui est privilégiée dans de nombreux domaines.

Intervalle pour la moyenne µ d’une population (variance connue).

Soit une population sur laquelle on étudie un ”caractère” X tel que :

– la moyenne µ est inconnue.

– la variance σ 2 est connue.

Soit X1 , . . . , Xn un échantillon aléatoire de réalisations de X avec X qui suit une loi


Normale de moyenne µ et de variance σ 2 , N (µ, σ 2 ).

Alors,
1
Pn
– µ̂n = n i=1 Xi est le ”meilleur” estimateur de µ.
 
– µ̂n suit la loi Normale N µ; √σ .
n

L’intervalle de confiance pour µ au niveau de confiance (1 − α) est égal à :


4.3 Estimation par intervalle de confiance 71

µ1 < µ < µ 2

avec
µ1 = µ̂n − u1− α2 √σn

µ2 = µ̂n + u1− α2 √σn


α
où u1− α2 est le quantile d’ordre 1 − 2
de la loi normale centrée réduite.

Cela signifie que le paramètre µ ∈]µ1 ; µ2 [ avec la probabilité 1 − α.

Intervalle pour la moyenne µ d’une population (variance inconnue).

Soit une population sur laquelle on étudie un ”caractère” X tel que :

– la moyenne µ est inconnue.

– la variance σ 2 est inconnue.

Soit X1 , . . . , Xn un échantillon aléatoire de réalisations de X avec X qui suit une loi


Normale de moyenne µ et de variance σ 2 , N (µ, σ 2 ).

Alors,

– µ̂n estime µ.

– Il faut estimer σ 2 puisqu’elle est inconnue par Sn2 .

µ̂n −µ
– √Sn
suit la loi de Student à n − 1 degrés de liberté, T (n − 1).
n−1

L’intervalle de confiance pour µ au niveau de confiance (1 − α) est égal à :

µ1 < µ < µ 2

avec
µ1 = µ̂n − tn−1;1− α2 √Sn−1
n

µ2 = µ̂n + tn−1;1− α2 √Sn−1


n

α
où tn−1;1− α2 est le quantile d’ordre 1 − 2
de la loi de Student à n − 1 degrés de liberté.

Cela signifie que le paramètre µ ∈]µ1 ; µ2 [ avec la probabilité 1 − α.


4.3 Estimation par intervalle de confiance 72

Remarque : Le cas où σ 2 est connu est rare en pratique car c’est en général un paramètre
inconnu.

Intervalle pour la variance σ 2 d’une population (moyenne connue).

Soit une population sur laquelle on étudie un ”caractère” X tel que :

– la moyenne µ est connue.

– la variance σ 2 est inconnue.

Soit X1 , . . . , Xn un échantillon aléatoire de réalisations de X avec X qui suit une loi


Normale de moyenne µ et de variance σ 2 , N (µ, σ 2 ).

Alors,

– σ 2 peut-être estimé par :

n
1X
σ̂n2 = (Xi − µ)2
n i=1

nσˆn 2
– suit la loi du Khi-deux à n degrés de liberté, χ2 (n).
σ2
L’intervalle de confiance pour σ 2 au niveau de confiance (1 − α) est égal à :

σ12 < σ 2 < σ22

avec
nσˆn 2
σ12 =
k2
nσˆn 2
σ22 =
k1
où k1 est le quantile d’ordre α2 de la loi du Khi-deux à n degrés de liberté et k2 est le
quantile d’ordre 1 − α2 de la loi du Khi-deux à n degrés de liberté

Cela signifie que le paramètre σ 2 ∈]σ12 ; σ22 [ avec la probabilité 1 − α.

Intervalle pour la variance σ 2 d’une population (moyenne inconnue).

Soit une population sur laquelle on étudie un ”caractère” X tel que :


4.3 Estimation par intervalle de confiance 73

– la moyenne µ est inconnue.

– la variance σ 2 est inconnue.

Soit X1 , . . . , Xn un échantillon aléatoire de réalisations de X avec X qui suit une loi


Normale de moyenne µ et de variance σ 2 , N (µ, σ 2 ).

Alors,

– σ 2 peut-être estimé par :

n
1X
Sn2 = (Xi − µ̂n )2
n i=1

nSn2
– suit la loi du Khi-deux à n − 1 degrés de liberté, χ2 (n − 1).
σ2
L’intervalle de confiance pour σ 2 au niveau de confiance (1 − α) est égal à :

σ12 < σ 2 < σ22

avec
nSn2
σ12 =
k2
nSn2
σ22 =
k1
où k1 est le quantile d’ordre α2 de la loi du Khi-deux à n − 1 degrés de liberté et k2 est
le quantile d’ordre 1 − α2 de la loi du Khi-deux à n − 1 degrés de liberté

Cela signifie que le paramètre σ 2 ∈]σ12 ; σ22 [ avec la probabilité 1 − α.

Intervalle pour une proportion.

Soit une population et au sein de celle-ci la proportion πA d’individus de la population


qui possèdent un certain caractère A.

A noter : πA est inconnue.

nA
Pour estimer πA il suffit d’utiliser π̂A = n
.
4.3 Estimation par intervalle de confiance 74

Remarque : on suppose un tirage aléatoire avec remise ce qui correspond à une population
infinie.

Nous avons le résultat suivant :

nπ̂A suit une loi B(n, πA )

Ce résultat permet de construire un intervalle de confiance pour πA inconnue. Pour cela,


nous avons trois méthodes à notre disposition :

1. méthode exacte ou de Clopper-Pearson

2. méthode du score ou de Wilson

3. méthode asymptotique ou de Wald

Remarque : Celle à privilégier est celle du score. On rencontre dans de nombreux bou-
quins celle de Wald qui malheureusement ne permet pas d’obtenir des résultats de qualité
convenable.
Méthode du score ou de Wilson :

L’intervalle de confiance pour la proportion πA au niveau de confiance (1 − α) est égal


à :

π1 < πA < π2
avec

r
u21− α
1 2 π̂A (1−π̂A )
π̂A + u
2n 1− α
− u1− α2 × n
+ 4n2
2
2
π1 =
1 + n1 u21− α
2

et

r
u21− α
1 2 π̂A (1−π̂A )
π̂A + u
2n 1− α
+ u1− α2 × n
+ 4n2
2
2
π2 =
1 + n1 u21− α
2
4.4 Applications avec le logiciel R 75

4.4 Applications avec le logiciel R


Remarque : Lorsque vous allez construire des intervalles de confiance, vous allez devoir
utiliser les quantiles d’ordre 1 − α2 pour les diverses lois qui interviennent dans le calcul de
ces intervalles notamment la loi Normale, celle de Student ou encore celle du Khi-deux.

Exemple : 1 − α sera souvent fixé à 95% et par conséquent, u1− α2 vaudra approximative-
ment 1.96. Pour obtenir la valeur exacte :

> qnorm(0.975)
[1] 1.959964

Exemple : Nous travaillons avec le jeu de données Mesures du package BioStatR qui com-
porte 252 observations sur par exemple la taille et le poids de haricots d’espèces différentes.
Si nous nous intéressons à un échantillon particulier qui comporte 54 observations et cor-
respond à l’espèce ”glycine blanche” et que nous voulons calculer un intervalle de confiance
de la moyenne µ de la variable taille,

> glycine.blanche < −subset(M esures, subset = (M esures$espece == ”glycineblanche”))


> moyenne < −mean(glycine.blanche$taille)
> moyenne
[1] 14.77222
> ecarttype < −sd(glycine.blanche$taille)
> ecarttype
[1] 3.303652

> quantile < −qt(0.975, 53)


> quantile
[1] 2.005746
Borne inférieure :

> moyenne − quantile ∗ (ecarttype/sqrt(length(glycine.blanche$taille)))


[1] 13.8705

Borne supérieure :

> moyenne + quantile ∗ (ecarttype/sqrt(length(glycine.blanche$taille)))


[1] 15.67395
4.4 Applications avec le logiciel R 76

Remarques :

1. Il faut au préalable vérifier que les données qui forment l’échantillon proviennent d’une
loi Normale de paramètres µ et σ, tous deux inconnus. Pour cela, il faut réaliser un
test de normalité, ce que nous verrons en détail dans un prochain chapitre.

2. Il y a une fonction de R qui permet d’obtenir directement les deux bornes de l’intervalle
de confiance en une ligne de commande :

> t.test(glycine.blanche$taille)

Le résultat apparait en sortie sur la ligne ”95 percent confidence interval”. Cependant,
comme nous n’avons pas encore abordé le chapitre sur les tests statistiques, nous
détaillerons cette fonction ultérieurement (ou en TP).
Exemple : Nous travaillons avec le jeu de données Mesures du package BioStatR qui com-
porte 252 observations sur par exemple la taille et le poids de haricots d’espèces différentes.
Si nous nous intéressons à un échantillon particulier qui comporte 54 observations et cor-
respond à l’espèce ”glycine blanche” et que nous voulons calculer un intervalle de confiance
de la variance σ 2 de la variable taille,

> glycine.blanche < −subset(M esures, subset = (M esures$espece == ”glycineblanche”))


> variance < −var(glycine.blanche$taille)
> variance
[1] 10.91412
> quantile1 < −qchisq(0.975, 53)
> quantile1
[1] 75.00186
> quantile2 < −qchisq(0.025, 53)
> quantile2
[1] 2.700389
Borne inférieure :

> ((length(glycine.blanche$taille) − 1) ∗ variance)/quantile1


[1] 7.712453

Borne supérieure :

> ((length(glycine.blanche$taille) − 1) ∗ variance)/quantile2


4.4 Applications avec le logiciel R 77

[1] 16.63339
Chapitre 5

Tests statistiques

5.1 Introduction générale


Buts de ce chapitre :

– Présenter la méthodologie des tests statistiques.

– Présenter divers tests statistiques.

– Comprendre la notion de puissance d’un test statistique.

– Applications avec le logiciel R.

Questions :

– Est-ce que le traitement A et le traitement B ont des effets différents quant à la


guérison des patients atteints d’une certaine pathologie ?
– Est-ce qu’en moyenne les teneurs en nitrate des eaux de sources des Vosges ne dépassent
pas les 25mg/l ?
– Est-ce que les hauteurs moyennes des arbres de deux types de hêtraies sont différentes ?

5.2 Introduction à la notion de test statistique


– Définition : un test d’hypothèse ou test statistique est un mécanisme qui permet
de trancher entre deux hypothèses à la vue des résultats d’un échantillon, en quantifiant
le risque associé à la décision prise.

Soit H0 et H1 deux hypothèses, dont une et une seule est vraie. L’hypothèse H0
a souvent un rôle prédominant par rapport à l’hypothèse alternative H1 . C’est la

79
5.2 Introduction à la notion de test statistique 80

conséquence du fait que l’hypothèse nulle H0 est l’hypothèse de référence et que toute
la démarche du test s’effectue en considérant cette hypothèse comme vraie.

– Exemples :

Un premier exemple serait d’avoir comme hypothèse nulle H0 , µ = µ0 et dans ce cas,


une hypothèse alternative pourrait être H1 : µ > µ0 .

Un deuxième exemple serait d’avoir l’hypothèse nulle H0 , σ 2 = σ02 et dans ce cas, une
hypothèse alternative pourrait être H1 : σ 2 6= σ02 .

La décision d’un test consiste à choisir entre H0 et H1 . Il y a donc quatre cas possibles :

1. H0 est décidée et H0 est vraie.

2. H0 est décidée et H1 est vraie.

3. H1 est décidée et H0 est vraie.

4. H1 est décidée et H1 est vraie.

– L’erreur de première espèce est le fait de décider que l’hypothèse alternative H1


est vraie alors qu’en fait, en réalité, c’est l’hypothèse nulle H0 qui est vraie.
Le risque d’erreur associé à cette décision est noté généralement α. Il s’agit donc
de la probabilité de décider à tort que l’hypothèse alternative H1 est vraie.

– L’erreur de deuxième espèce est le fait de décider que l’hypothèse nulle H0 est
vraie alors qu’en fait, en réalité, c’est l’hypothèse alternative H1 qui est vraie.
Le risque d’erreur associé à cette décision est noté généralement β. Il s’agit donc de
la probabilité de décider à tort que l’hypothèse nulle H0 est vraie.

Tableau résumant les différents risques :


H0 vraie H1 vraie
H0 décidée 1−α β
H1 décidée α 1−β
Remarque : La situation idéale serait que α et β soient nulles mais ce n’est pas possible.
En effet, ces erreurs sont antagonistes. Plus α est grand (respectivement petit), plus β
est petit (respectivement grand). Les valeurs les plus courantes pour α sont 10%, 5%
ou 1%.

– Définition : la puissance d’un test statistique est égale à 1 − β. Il s’agit de la


5.2 Introduction à la notion de test statistique 81

probabilité de rejeter l’hypothèse nulle à raison. Elle doit généralement être au moins
égale à 0.80 pour être considérée comme satisfaisante.

Remarque : Dans le package de base de R, vous trouverez de nombreuses fonction qui


permettent de calculer la puissance du test que vous utilisez. Le package pwr qui lui
devra être installé, propose d’autres fonctions qui permettront d’obtenir également la
puissance d’un test.

– Un test bilatéral s’applique lorsque vous cherchez une différence entre deux pa-
ramètres ou entre un paramètre et une valeur donnée sans se préoccuper du signe ou
du sens de la différence. Dans ce cas, la zone de rejet de l’hypothèse principale se fait
de part et d’autre de la distribution de référence.

– Un test unilatéral s’applique quand vous cherchez à savoir si un paramètre est


supérieur (ou inférieur) à un autre ou à une valeur donnée. La zone de rejet de l’hy-
pothèse principale est située d’un seul côté de la distribution de référence.

– Définition : lorsque le risque de première espèce α est fixé, il faut choisir une variable
de décision encore appelée statistique de test. Cette variable est construite afin
d’apporter de l’information sur le problème posé, à savoir le choix entre les deux
hypothèses. Sa loi doit être parfaitement déterminée dans au moins une des deux
hypothèses (le plus souvent dans H0 ) afin de ne pas introduire de nouvelles inconnues
dans le problème.

– Définition : la région critique notée W ou encore appelée zone de rejet est égale
à l’ensemble des valeurs de la variable de décision qui conduisent à écarter H0 au
profit de H1 . La région critique correspond donc aux intervalles dans lesquels les
différences sont trop grandes pour être le fruit du hasard d’échantillonnage.

– Définition : la région d’acceptation notée W̄ ou encore appelée zone d’acceptation


est la région complémentaire à la région critique W . Elle correspond à l’intervalle dans
lequel les différences observées entre les réalisations et la théorie sont attribuables aux
fluctuations d’échantillonnage.

Démarche à suivre pour la mise en place d’un test ou comment réaliser un test et conclure
à l’aide d’une région critique :

1. Choix des deux hypothèses H0 et H1 .

2. Détermination de la variable de décision.


5.3 Tests de comparaison à une valeur 82

3. Allure de la région critique en fonction de H1 : test bilatéral ou unilatéral.

4. Calcul de la région critique en fonction de α.

5. Calcul de la variable de décision observée sur l’échantillon.

6. Conclusion du test.

7. Calcul (facultatif) de la puissance du test.


Remarques diverses :

– Plusieurs tests de conception différente sont souvent disponibles pour soumettre à une
épreuve de vérité une hypothèse.
– Le test le plus puissant est celui qui fournit l’erreur β la plus petite pour une même
valeur de α ou encore la plus grande valeur de la puissance 1 − β.
– Les tests peu puissants augmentent la probabilité de commettre une erreur de deuxième
espèce. Or, cette erreur peut s’avérer particulièrement grave (par exemple en médecine,
si on considère une analyse qui permet de décider si un patient est sain ou malade).
– Pour évaluer la puissance d’un test vous pouvez être amené à utiliser des courbes de
puissance ou encore abaques.

5.3 Tests de comparaison à une valeur


– Test de l’espérance d’une loi Normale de variance connue.

Soit X une variable aléatoire qui suit une loi Normale de moyenne µ et de variance σ 2
qui elle, est connue.

Test unilatéral :
Hypothèses du test :

H0 : µ = µ0

contre

H1 : µ > µ0 ou µ < µ0
Conditions d’application du test :
5.3 Tests de comparaison à une valeur 83

Il faut que l’échantillon X1 , . . . , Xn soit des copies indépendantes et identiquement dis-


tribuées de la variable X qui suit une loi Normale de moyenne µ et de variance σ 2 qui est
connue, N (µ; σ 2 ).

Statistique du test :
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire
µ̂n − µ0
Z= √
σ/ n
suit la loi normale N (0; 1).
La valeur critique du test, notée cα est lue dans une table de la loi normale centrée
réduite.

Si la valeur de la statistique calculée sur l’échantillon, notée zobs , est supérieure ou égale
à cα (ou inférieure ou égale à cα ) alors le test est significatif. Vous rejetez H0 et vous décidez
que H1 est vraie avec un risque de première espèce α.

Si la valeur de la statistique calculée sur l’échantillon, notée zobs , est strictement inférieure
à cα (ou strictement supérieure à cα ), le test n’est pas significatif. Vous conservez H0 avec
un risque de deuxième espèce β.

Test bilatéral :
Hypothèses du test :

H0 : µ = µ0

contre

H1 : µ 6= µ0
Conditions d’application du test :
Il faut que l’échantillon X1 , . . . , Xn soit des copies indépendantes et identiquement dis-
tribuées de la variable X qui suit une loi Normale de moyenne µ et de variance σ 2 qui est
connue, N (µ; σ 2 ).

Statistique du test :
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire
µ̂n − µ0
Z= √
σ/ n
5.3 Tests de comparaison à une valeur 84

suit la loi normale N (0; 1).


La valeur critique du test, notée c1− α2 est lue dans une table de la loi normale centrée
réduite.

Si la valeur absolue de la statistique calculée sur l’échantillon, notée zobs , est supérieure
ou égale à c1− α2 alors le test est significatif. Vous rejetez H0 et vous décidez que H1 est vraie
avec un risque de première espèce α.

Si la valeur absolue de la statistique calculée sur l’échantillon, notée zobs , est strictement
inférieure à c1− α2 , le test n’est pas significatif. Vous conservez H0 avec un risque de deuxième
espèce β.
– Test de l’espérance d’une loi Normale de variance inconnue : le test de Student.

Soit X une variable aléatoire qui suit une loi Normale de moyenne µ et de variance σ 2
inconnues.

Test bilatéral : (le test unilatéral se déduit facilement de celui-ci).


Hypothèses du test :

H0 : µ = µ0
contre
H1 : µ 6= µ0

Conditions d’application du test :


Il faut que l’échantillon X1 , . . . , Xn soit des copies indépendantes et identiquement
distribuées de la variable X qui suit une loi Normale de moyenne µ et de variance σ 2 ,
N (µ; σ 2 ).

Statistique du test :
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire
µ̂n − µ0
T(n−1) = √
Sn,c / n
suit la loi de student T (n − 1).

La valeur critique du test, notée c1− α2 est lue dans une table de la loi de Student.

Si la valeur absolue de la statistique calculée sur l’échantillon, notée tn−1,obs , est


supérieure ou égale à c1− α2 alors le test est significatif. Vous rejetez H0 et vous décidez
que H1 est vraie avec un risque de première espèce α.
5.3 Tests de comparaison à une valeur 85

Si la valeur absolue de la statistique calculée sur l’échantillon, notée tn−1,obs , est stric-
tement inférieure à c1− α2 , le test n’est pas significatif. Vous conservez H0 avec un risque
de deuxième espèce β.

– Test d’une variance d’une loi Normale d’espérance connue.

Soit X une variable aléatoire qui suit une loi Normale de moyenne µ connue et de
variance σ 2 inconnue.

Test bilatéral : (le test unilatéral se déduit facilement de celui-ci).


Hypothèses du test :

H0 : σ 2 = σ02
contre
H1 : σ 2 6= σ02

Conditions d’application du test :


Il faut que l’échantillon X1 , . . . , Xn soit des copies indépendantes et identiquement
distribuées de la variable X qui suit une loi Normale de moyenne µ connue et de
variance σ 2 , N (µ; σ 2 ).

Statistique du test :
nσ̂n2
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire suit la loi du Khi-
σ02
deux, χ2 (n).

Les valeurs critiques du test, notées c α2 et c1− α2 sont lues dans une table de la loi du
Khi-deux.

Si la valeur de la statistique calculée sur l’échantillon, notée χ2obs (n), est supérieure ou
égale à c1− α2 ou inférieure ou égale à c α2 alors le test est significatif. Vous rejetez H0 et
vous décidez que H1 est vraie avec un risque de première espèce α.

Si la valeur de la statistique calculée sur l’échantillon, notée χ2obs (n), est strictement
inférieure à c1− α2 ou strictement supérieure à c α2 , le test n’est pas significatif. Vous
conservez H0 avec un risque de deuxième espèce β.

– Test d’une variance d’une loi Normale d’espérance inconnue.

Soit X une variable aléatoire qui suit une loi Normale de moyenne µ et de variance σ 2
5.3 Tests de comparaison à une valeur 86

inconnues.

Test bilatéral : (le test unilatéral se déduit facilement de celui-ci).


Hypothèses du test :

H0 : σ 2 = σ02
contre
H1 : σ 2 6= σ02

Conditions d’application du test :


Il faut que l’échantillon X1 , . . . , Xn soit des copies indépendantes et identiquement
distribuées de la variable X qui suit une loi Normale de moyenne µ et de variance σ 2 ,
N (µ; σ 2 ).

Statistique du test :
2
(n − 1)Sn,c
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire suit la loi du
σ02
Khi-deux, χ2 (n − 1).

Les valeurs critiques du test, notées c α2 et c1− α2 sont lues dans une table de la loi du
Khi-deux.

Si la valeur de la statistique calculée sur l’échantillon, notée χ2obs (n − 1), est supérieure
ou égale à c1− α2 ou inférieure ou égale à c α2 alors le test est significatif. Vous rejetez
H0 et vous décidez que H1 est vraie avec un risque de première espèce α.

Si la valeur de la statistique calculée sur l’échantillon, notée χ2obs (n−1), est strictement
inférieure à c1− α2 ou strictement supérieure à c α2 , le test n’est pas significatif. Vous
conservez H0 avec un risque de deuxième espèce β.

– Test d’une proportion.

Test bilatéral : (le test unilatéral se déduit facilement de celui-ci).


Hypothèses du test :

H0 : πA = π0

contre
5.4 Tests de comparaison entre deux populations indépendantes 87

H1 : πA 6= π0

Conditions d’application du test :


Il faut que l’échantillon X1 , . . . , Xn soit des copies indépendantes et identiquement
distribuées de la variable X qui suit une loi de Bernoulli, B(1; πA ).

Statistique du test :
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire nπ̂n,A = nA suit la loi
Binomiale, B(n; π0 ).

La valeur critique du test, notée c1− α2 est lue dans une table de la Normale (approxi-
mation de la loi Binomiale).

Si la valeur de la statistique calculée sur l’échantillon, notée uA (obs), est supérieure ou


égale à c1− α2 alors le test est significatif. Vous rejetez H0 et vous décidez que H1 est
vraie avec un risque de première espèce α.

Si la valeur de la statistique calculée sur l’échantillon, notée uA (obs), est strictement


inférieure à c1− α2 , le test n’est pas significatif. Vous conservez H0 avec un risque de
deuxième espèce β.

5.4 Tests de comparaison entre deux populations


indépendantes
– Comparaison de deux espérances de lois Normales de variances connues.

Soit X une variable aléatoire qui suit une loi Normale de moyenne µ1 et de variance
σ12 qui elle est connue et Y une variable aléatoire qui suit une loi Normale de moyenne
µ2 et de variance σ22 qui elle est connue.

Test bilatéral : (le test unilatéral se déduit aisément de celui-ci)


Hypothèses du test :

H0 : µ1 = µ2
contre
H1 : µ1 6= µ2
5.4 Tests de comparaison entre deux populations indépendantes 88

Conditions d’application du test :


Il faut que l’échantillon X1 , . . . , Xn1 soit des copies indépendantes et identiquement
distribuées de la variable X qui suit une loi Normale de moyenne µ1 et de variance σ12
qui est connue, N (µ1 ; σ12 ). Il faut également que l’échantillon Y1 , . . . , Yn2 soit des copies
indépendantes et identiquement distribuées de la variable Y qui suit une loi Normale
de moyenne µ2 et de variance σ22 qui est connue, N (µ2 ; σ22 ). De plus, les effectifs n1 et
n2 peuvent de pas être égaux.

Statistique du test :
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire
µ̂1 − µ̂2
Z=q 2
σ1 σ22
n1
+ n2

suit la loi normale N (0; 1).

La valeur critique du test, notée c1− α2 est lue dans une table de la loi normale centrée
réduite.

Si la valeur absolue de la statistique calculée sur l’échantillon, notée zobs , est supérieure
ou égale à c1− α2 alors le test est significatif. Vous rejetez H0 et vous décidez que H1 est
vraie avec un risque de première espèce α.

Si la valeur absolue de la statistique calculée sur l’échantillon, notée zobs , est strictement
inférieure à c1− α2 , le test n’est pas significatif. Vous conservez H0 avec un risque de
deuxième espèce β.

– Comparaison de deux espérances de lois Normales de variances inconnues.

Soit X une variable aléatoire qui suit une loi Normale de moyenne µ1 et de variance
σ12 inconnues et Y une variable aléatoire qui suit une loi Normale de moyenne µ2 et
de variance σ22 inconnues.

Test bilatéral : (le test unilatéral se déduit aisément de celui-ci)


Hypothèses du test :

H0 : µ1 = µ2
contre
H1 : µ1 6= µ2
5.4 Tests de comparaison entre deux populations indépendantes 89

Conditions d’application du test :


Il faut que l’échantillon X1 , . . . , Xn1 soit des copies indépendantes et identiquement
distribuées de la variable X qui suit une loi Normale de moyenne µ1 et de variance
σ12 inconnues, N (µ1 ; σ12 ). Il faut également que l’échantillon Y1 , . . . , Yn2 soit des copies
indépendantes et identiquement distribuées de la variable Y qui suit une loi Normale
de moyenne µ2 et de variance σ22 inconnues, N (µ2 ; σ22 ). De plus, les effectifs n1 et n2
peuvent de pas être égaux. Cependant, il faut distinguer deux cas : soit σ12 = σ22 , soit
σ12 6= σ22 .

1er cas : σ12 = σ22 = σ 2

Statistique du test :
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire
µ̂1 − µ̂2
Tn1 +n2 −2 = q
σ̂ n11 + n12

n1 Sn21 + n2 Sn22
suit la loi de student T (n1 + n2 − 2) avec σ̂ 2 = .
n1 + n2 − 2
La valeur critique du test, notée c1− α2 est lue dans une table de la loi de Student.

Si la valeur absolue de la statistique calculée sur l’échantillon, notée tn1 +n2 −2,obs , est
supérieure ou égale à c1− α2 alors le test est significatif. Vous rejetez H0 et vous décidez
que H1 est vraie avec un risque de première espèce α.

Si la valeur absolue de la statistique calculée sur l’échantillon, notée tn1 +n2 −2,obs , est
strictement inférieure à c1− α2 , le test n’est pas significatif. Vous conservez H0 avec un
risque de deuxième espèce β.

2ème cas : σ12 6= σ22

Statistique du test :
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire
µ̂1 − µ̂2
Tν = q 2 2
Sn Sn
1
n1 −1
+ 2
n2 −1
!2
Sn2 S2
1 + n2
n1 −1 n2 −1
suit la loi de student T (ν) avec ν l’entier le plus proche de 4
Sn 4
Sn
.
1 + 2
(n1 −1)n2
1 (n 2 −1)n 2
2

La valeur critique du test, notée c1− α2 est lue dans une table de la loi de Student.
5.4 Tests de comparaison entre deux populations indépendantes 90

Si la valeur absolue de la statistique calculée sur l’échantillon, notée tν,obs , est supérieure
ou égale à c1− α2 alors le test est significatif. Vous rejetez H0 et vous décidez que H1 est
vraie avec un risque de première espèce α.

Si la valeur absolue de la statistique calculée sur l’échantillon, notée tν,obs , est stricte-
ment inférieure à c1− α2 , le test n’est pas significatif. Vous conservez H0 avec un risque
de deuxième espèce β.

– Comparaison de deux espérances de lois quelconques et de variances inconnues.

Soit X une variable aléatoire qui suit une loi de moyenne µ1 et de variance σ12 et Y
une variable aléatoire qui suit une loi de moyenne µ2 et de variance σ22 .
Test bilatéral : (le test unilatéral se déduit aisément de celui-ci)
Hypothèses du test :

H0 : µ1 = µ2
contre
H1 : µ1 6= µ2

Conditions d’application du test :


Il faut que l’échantillon X1 , . . . , Xn1 soit des copies indépendantes et identiquement
distribuées de la variable X. Il faut également que l’échantillon Y1 , . . . , Yn2 soit des
copies indépendantes et identiquement distribuées de la variable Y . De plus, les effectifs
n1 et n2 doivent tous les deux être supérieurs à 30.

Statistique du test :
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire
µ̂1 − µ̂2
Z=q 2 2
Sn Sn
1
n1 −1
+ 2
n2 −1

suit approximativement la loi de Normale N (0; 1).

La valeur critique du test, notée c1− α2 est lue dans une table de la loi Normale centrée
réduite.

Si la valeur absolue de la statistique calculée sur l’échantillon, notée zobs , est supérieure
ou égale à c1− α2 alors le test est significatif. Vous rejetez H0 et vous décidez que H1 est
vraie avec un risque de première espèce α.
5.4 Tests de comparaison entre deux populations indépendantes 91

Si la valeur absolue de la statistique calculée sur l’échantillon, notée zobs , est strictement
inférieure à c1− α2 , le test n’est pas significatif. Vous conservez H0 avec un risque de
deuxième espèce β.

– Comparaison de deux variances de lois normales et d’espérances inconnues : le test de


Fisher-Snédécor.

Soit X une variable aléatoire qui suit une loi Normale de moyenne µ1 et de variance
σ12 et Y une variable aléatoire qui suit une loi Normale de moyenne µ2 et de variance
σ22 .

Test bilatéral : (le test unilatéral se déduit aisément de celui-ci)


Hypothèses du test :

H0 : σ12 = σ22
contre
H1 : σ12 6= σ22

Conditions d’application du test :


Il faut que l’échantillon X1 , . . . , Xn1 soit des copies indépendantes et identiquement
distribuées de la variable X qui suit la loi Normale de moyenne µ1 et de variance
σ12 . Il faut également que l’échantillon Y1 , . . . , Yn2 soit des copies indépendantes et
identiquement distribuées de la variable Y qui suit la loi Normale de moyenne µ2 et
de variance σ22 . De plus, les effectifs n1 et n2 peuvent ne pas être égaux.

Statistique du test :
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire
Sn21 ,c
F =
Sn22 ,c
n1 Sn21 n2 Sn22
suit la loi de Fisher F (n1 − 1; n2 − 1) avec Sn21 ,c = et Sn22 ,c = .
n1 − 1 n2 − 1
Les valeurs critiques du test, notées c α2 et c1− α2 sont lues dans une table de la loi de
Fisher.

Si la valeur de la statistique calculée sur l’échantillon, notée fobs , n’appartient pas à


l’intervalle ]c α2 ; c1− α2 [, alors le test est significatif. Vous rejetez H0 et vous décidez que
H1 est vraie avec un risque de première espèce α.
5.5 Tests de comparaison entre deux populations non indépendantes 92

Si la valeur de la statistique calculée sur l’échantillon, notée fobs , appartient à l’in-


tervalle ]c α2 ; c1− α2 [, le test n’est pas significatif. Vous conservez H0 avec un risque de
deuxième espèce β.

5.5 Tests de comparaison entre deux populations non


indépendantes
Définition : Deux populations sont appariées (associées par paires) lorsque pour l’étude
d’un caractère X, chaque valeur Xi,1 est associée à une valeur de Xi,2 .

Exemple : Recherche d’un pourcentage de graisse dans un certain type d’aliment avec deux
méthodes différentes.

Soit µ1 la moyenne pour X1 dans la première population et µ2 la moyenne pour X2


dans la deuxième population. Soit D la différence entre X1 et X2 qui suit la loi Normale
2
N (µD ; σD ). Il faut que l’échantillon D1 , . . . , Dn soit des copies indépendantes et identique-
ment distribuées de D.
Test bilatéral : (le test unilatéral se déduit aisément de celui-ci)
Hypothèses du test :

H0 : µ1 = µ2 ou µD = µ1 − µ2 = 0
contre
H1 : µ1 6= µ2 ou µD = µ1 − µ2 6= 0

Conditions d’application du test :


Il faut que l’échantillon D1 , . . . , Dn soit des copies indépendantes et identiquement dis-
2
tribuées de la variable D qui suit une loi Normale de moyenne µD et de variance σD ,
2
N (µD ; σD ).

Statistique du test :
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire
µ̂D
Tn−1 = √
SD,c / n
P Pn
suit la loi de Student T (n − 1) avec µ̂D = n1 ni=1 Di et SD,c
2
= 1
n−1 i=1 (Di − µ̂D )2 .

La valeur critique du test, notée c1− α2 est lue dans une table de la loi de Student.
5.6 Applications sous R 93

Si la valeur absolue de la statistique calculée sur l’échantillon, notée tn−1;obs , est supérieure
ou égale à c1− α2 alors le test est significatif. Vous rejetez H0 et vous décidez que H1 est vraie
avec un risque de première espèce α.

Si la valeur absolue de la statistique calculée sur l’échantillon, notée tn−1;obs , est stricte-
ment inférieure à c1− α2 , le test n’est pas significatif. Vous conservez H0 avec un risque de
deuxième espèce β.

5.6 Applications sous R


Exemple 1 :

Dans l’atmosphère, le taux d’un gaz nocif, pour un volume donné, suit la loi Normale de
moyenne µ et de variance σ 2 égale à 100. Nous avons effectués 30 prélèvements de ce gaz
et les valeurs relevées sont les suivantes :

52; 60.2; 68.8; 46.8; 62.2; 53.5; 50.9; 44.9; 73.2; 60.4
61.9; 67.8; 30.5; 52.5; 40.4; 29.6; 58.3; 62.6; 53.6; 64.6
54.4; 53.8; 49.8; 57.4; 63.1; 53.4; 59.4; 48.6; 40.7; 51.9

Pouvez-vous conclure, avec un risque de 5% que l’espérance µ est inférieure à 50 qui est
le seuil tolérable admis ?

Nous voulons tester :

H0 : µ = 50
contre
H1 : µ > 50

Nous rentrons d’abord les observations dans un vecteur nommé gaz :


> gaz < −c(52, 60.2, 68.8, 46.8, 62.2, 53.5, 50.9,
44.9, 73.2, 60.4, 61.9, 67.8, 30.5, 52.5, 40.4, 29.6, 58.3, 62.6, 53.6,
64.6, 54.4, 53.8, 49.8, 57.4, 63.1, 53.4, 59.4, 48.6, 40.7, 51.9)
> gaz

Calcul de la statistique de test :

> z < −(sqrt(30) ∗ (mean(gaz) − 50))/10


>z
[1] 2.322344
5.6 Applications sous R 94

Comparaison avec le quantile correspondant de la loi Normale centrée réduite :

> qnorm(0.95)
[1] 1.644854

Conclusion : comme 2.322344 est supérieur à 1.644854, le test est significatif. On rejette
H0 avec un risque de 5%. L’espérance est donc supérieure à 50 qui est le seuil de tolérance
admis.

Exemple 2 :

Le jardinier aimerait savoir si les glycines blanches qu’il a plantées sur son terrain suivent
bien les spécificités de la notice qu’il a reçue lorsqu’il a commandé ses graines sur internet. Il
était indiqué sur la notice que chaque gousse de glycines blanches à maturité doit mesurer
15cm de long. Comment peut-il s’assurer que les gousses qu’il a dans son jardin suivent
bien cette spécificité ?

Nous allons faire un test de Student sur les données puisque nous n’avons aucune infor-
mation sur la variance.

Nous voulons tester :

H0 : µ = 15
contre
H1 : µ 6= 15

Il existe une commande sous R, t.test, que nous avons utilisée pour le calcul des inter-
valles de confiance, qui permet d’obtenir les résultats du test :

> t.test(glycine$taille, mu = 15)

Remarque : par défaut, si l’option mu = 15 n’est pas précisée, le logiciel testera l’hy-
pothèse mu = 0.
Sorties obtenues avec R :

One sample t-test


data : glycine$taille
t = −0.5067, df = 53, p − value = 0.6145
alternative hypothesis : true mean is not equal to 15
95 percent confidence interval :
13.87050 15.67395
5.6 Applications sous R 95

sample estimates :
mean of x
14.77222

Comparaison avec le quantile correspondant de la loi de Student à 53 degrés de liberté


(risque de 5%) :

> qt(0.975, 53)


[1] 2.005746

Conclusion : comme −0.5057 est supérieur à −2.005746, le test n’est pas significatif. On
ne peut rejeter H0 .

Exemple 3 :

Vous venez d’acquérir dans votre laboratoire une nouvelle balance et vous souhaitez
comparer la régularité du travail de cette dernière pour de très petites pesées à la norme
habituelle du descriptif pour laquelle la variance est égale à 4. Vous prélevez un échantillon
d’effectif égal à 30 dont les valeurs sont données ci-dessous :

2.53, 1.51, 1.52, 1.44, 4.32, 2.36, 2.41, 2.06, 1.57, 1.68
3.09, 0.54, 2.32, 0.19, 2.66, 2.20, 1.04, 1.02, 0.74, 1.01
0.35, 2.42, 2.66, 1.11, 0.56, 1.75, 1.51, 3.80, 2.22, 2.28

Pouvez-vous conclure, avec un risque de 5%, que la variance de l’échantillon est conforme
à la norme souhaitée ?

Nous voulons tester :

H0 : σ 2 = 4
contre
H1 : σ 2 6= 4

Nous rentrons d’abord les observations dans un vecteur nommé pesee :


> pesee < −c(2.53, 1.51, 1.52, 1.44, 4.32, 2.36, 2.41, 2.06, 1.57, 1.68
3.09, 0.54, 2.32, 0.19, 2.66, 2.20, 1.04, 1.02, 0.74, 1.01
0.35, 2.42, 2.66, 1.11, 0.56, 1.75, 1.51, 3.80, 2.22, 2.28)
> pesee

Calcul de la statistique de test :


5.6 Applications sous R 96

> statdetest < −((length(pesee) − 1) ∗ var(pesee))/4


> statdetest
[1] 6.91

Comparaison avec les quantiles correspondants de la loi du Khi-deux à 29 degrés de liberté :

> qchisq(0.975, 29)


[1] 45.72229

> qchisq(0.025, 29)


[1] 16.04707

Conclusion : comme 6.91 est inférieur à 16.04707, le test est significatif. On rejette H0
avec un risque de 5%. La variance est donc différente de 4 qui est la norme habituelle.

Exemple 4 :

Dans le ”Ouest-France” du samedi 23 janvier 2010, vous pouvez lire : ”Plus de garçons
que de filles ! Avec 507 bébés mâles comptabilisés à Saint-Lô en 2009, contre 481 fillettes,
les naissances masculines sont toujours plus nombreuses.”

Pouvez-vous conclure, avec un risque de 5%, que les garçons sont significativement plus
nombreux que les filles ?

Nous voulons tester :

H0 : πG = πF
contre
H1 : πG 6= πF

Nous utilisons la commande R suivante :

> binom.test(507, 988, 0.5)

Sorties obtenues avec R :

Exact binomial test


data : 507 and 988
number of successes = 507, number of trials = 988
p − value = 0.4264
alternative hypothesis : true probability of success is not equal to 0.5
5.6 Applications sous R 97

95 percent confidence interval :


0.4814855 0.5447516
sample estimates :
probability of success
0.5131579

Conclusion : comme la pvalue est supérieure à 0.05, le test n’est pas significatif. Vous
conservez donc H0 . Vous en déduisez donc que le journaliste, en déclarant que les naissances
masculines sont toujours très nombreuses, considère comme significative une différence entre
les naissances de garçons et de filles qui peut aussi, au seuils de 5%, être simplement
attribuée aux fluctuations d’échantillonnage.

Exemple 5 :

Chez un groupe de 10 sujets, les effets d’un traitement destiné à diminuer la pression
artérielle ont été expérimentés. Les résultats (valeur de la tension artérielle systolique en
cmHg) ont été relevés sur les 10 sujets et sont présentés ci-dessous :
Sujet 1 2 3 4 5 6 7 8 9 10
Avant traitement 15 18 17 20 21 18 17 15 19 16
Après traitement 12 16 17 18 17 15 18 14 16 18
Pouvez-vous conclure, avec un risque de 5%, que le traitement a une action significative ?

Nous voulons tester :

H0 : µD = 0
contre
H1 : µD 6= 0

Nous rentrons d’abord les observations dans deux vecteurs nommés respectivement avant
et apres et nous construisons le vecteur difference :
> avant < −c(15, 18, 17, 20, 21, 18, 17, 15, 19, 16)
> apres < −c(12, 16, 17, 18, 17, 15, 18, 14, 16, 18)
> dif f erence < −apres − avant
> dif f erence
[1] − 3 − 2 0 − 2 − 4 − 3 1 − 1 − 3 2

Nous utilisons la commande R suivante :


> t.test(dif f erence)
5.6 Applications sous R 98

Sorties obtenues avec R :

One sample t-test


data : difference
t = −2.4227, df = 9, p − value = 0.03844
alternative hypothesis : true mean is not equal to 0
95 percent confidence interval :
−2.90059015 − 0.09940985
sample estimates :
mean of x
−1.5

Comparaison avec le quantile correspondant de la loi de Student à 9 degrés de liberté :

> qt(0.975, 9)
[1] 2.262157

Conclusion : comme −2.4227 est inférieur à −2.262157, le test est significatif. On rejette
H0 avec un risque de 5%. Le traitement a donc une action significative.
Chapitre 6

Tests du Khi-carré

6.1 Introduction
Buts de ce chapitre :

– Etudier les liens entre deux variables qualitatives.

– Etudier l’adéquation entre la distribution d’une variable au sein d’une population et


une distribution théorique.

– Présenter les tests du χ2 d’indépendance et d’adéquation.

– Présenter le test exact de Fisher.

Questions :

– Est-ce qu’il existe un lien entre la couleur des yeux et la couleur des cheveux ?
– Est-ce le fait de fumer une plus ou moins importante quantité de cigarettes par jour a
un effet sur la gravité d’une certaine maladie ?
– Est-ce que le dé utilisé dans un jeu de hasard est truqué ?
– Est-ce que le caractère étudié sur la population suit une loi Normale de paramètres µ
et σ 2 (utile pour les intervalles de confiance par exemple) ?
– Est-ce que les caractères ”facteurs rhésus” et ”groupes sanguins” sont indépendants ?

6.2 Test d’indépendance


Contexte :

– Nous travaillons ici avec deux variables aléatoires X et Y qualitatives.

99
6.2 Test d’indépendance 100

– But : étudier la relation entre X et Y .

– Exemple : soit X, la couleur des yeux et Y , la couleur des cheveux. Est-ce qu’il y a un
lien entre ces deux variables ou sont-elles indépendantes ?
Soit p et q deux entiers non nuls strictement positifs.

– x1 , . . . , xp sont les modalités prises par la variable X.


– y1 , . . . , yq sont les modalités prises par la variable Y .
Table de contingence ou tableau croisé des effectifs :
X|Y y1 . . . yj . . . yq Total
x1 n1,1 . . . n1,j . . . n1,q n1,•
.. .. .. .. ..
. . . . .
xi ni,1 . . . ni,j . . . ni,q ni,•
.. .. .. .. ..
. . . . .
xp np,1 . . . np,j . . . np,q np,•
Total n•,1 . . . n•,j . . . n•,q n•,•
Effectifs donnés dans la table de contingence :

– ni,j correspond au nombre d’individus observés dans l’échantillon (effectifs observés)


ayant la i-ème modalité xi pour X et la j-ème modalité yj pour Y .

– n•,• correspond à l’effectif total de l’échantillon.


P
– ni,• correspond à qj=1 ni,j . Il s’agit des marges lignes.
P
– n•,j correspond à pi=1 ni,j . Il s’agit des marges colonnes.

Hypothèses du test :

H0 : Les variables X et Y sont indépendantes

contre

H1 : Les variables X et Y ne sont pas indépendantes

Le principe du test du χ2 consiste à comparer les effectifs (tels qu’ils ont été observés) à
la répartition obtenue lorsqu’on suppose que les variables X et Y sont indépendantes.

Conditions d’application du test :


6.2 Test d’indépendance 101

– Il faut que l’échantillon {(X1 ; Y1 ), . . . , (Xn ; Yn )} soit constitué de couples de copies


indépendantes du couple aléatoire (X; Y ).

– Il faut que l’effectif total de l’échantillon soit supérieur ou égal à 50.

– Il faut que chacun des effectifs théoriques soit supérieur ou égal à 5.

Statistique du test :

Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire


p q
X X (ni,j − ci,j )2
χ2obs =
i=1 j=1
ci,j

suit la loi du Khi-deux à (p − 1) × (q − 1) degrés de liberté, avec


ni,• × n•,j
ci,j =
n•,•

La valeur critique du test, notée cα est lue dans une table de la loi du Khi-deux à
(p − 1) × (q − 1) degrés de liberté.

Si la valeur de la statistique calculée sur l’échantillon, notée χ2obs , est supérieure ou égale
à cα alors le test est significatif. Vous rejetez H0 et vous décidez que H1 est vraie avec un
risque de première espèce α.

Si la valeur de la statistique calculée sur l’échantillon, notée χ2obs , est strictement inférieure
à cα , le test n’est pas significatif. Vous conservez H0 avec un risque de deuxième espèce β.

Remarques :

– Si les conditions d’application du test ne sont pas remplies, il existe des corrections
comme par exemple la correction de Yates :
p q
X X (|ni,j − ci,j | − 21 )2
χ2obs =
i=1 j=1
ci,j

– Il existe également le test exact de Fisher dans le cas de deux variables qualitatives
à deux modalités. Si vous avez plus de deux modalités, vous pouvez essayer d’en
regrouper si cela est possible (c’est à dire si cela a un sens).
– Sous R, une option permet de s’affranchir des conditions mais cela n’est quand mme
pas recommandé !
6.2 Test d’indépendance 102

Exemple : Le tableau suivant donne la répartition de 10000 personnes en fonction de


leur groupe sanguin et de leur facteur Rhésus.
Rhésus|Groupe sanguin O A B AB Total
Rh+ 3535 3870 1000 158 8563
Rh− 665 630 100 42 1437
Total 4200 4500 1100 200 10000
Les deux caractères, groupe sanguin et facteur Rhésus sont-ils indépendants ?

Hypothèses du test :

H0 : Le groupe sanguin et le facteur Rhésus sont indépendants

contre

H1 : Le groupe sanguin et le facteur Rhésus sont liés

Les conditions d’application du test du Khi-deux sont vérifiées.

Sous l’hypothèse H0 , le tableau des effectifs théoriques est le suivant :


Rhésus|Groupe sanguin O A B AB Total
Rh+ 3596.6 3853.35 941.93 171.26 8500
Rh− 603.54 646.65 158.07 28.74 1500
Total 4200 4500 1100 200 10000
Statistique du test :

Sous l’hypothèse nulle H0 ,


X2 X 4
(ni,j − ci,j )2
χ2obs =
i=1 j=1
ci,j
(3535 − 3596.6)2 (3870 − 3853.35)2 (1000 − 941.93)2
= + +
3596.6 3853.35 941.93
(158 − 171.26)2 (665 − 603.54)2 (630 − 646.65)2
+ + +
171.26 603.54 646.65
(100 − 158.07)2 (42 − 28.74)2
+ +
158.07 28.74
= 39.87199

Sous H0 , la statistique de test suit la loi du Khi-deux à (2 − 1) × (4 − 1) = 3 degrés de


liberté. Le quantile associé à cette loi avec un risque à droite de 5% vaut 7.814728. Comme
6.3 Test d’adéquation à une loi donnée 103

39.87199 > 7.814728, le test est significatif. Nous rejetons donc H0 au risque 5%. Les deux
caractères, groupe sanguin et facteur Rhésus sont donc liés.

6.3 Test d’adéquation à une loi donnée


– But : montrer l’adéquation à une loi (loi Normale, Binomiale,.....) donnée.

– Le test présenté est adapté pour s’intéresser à la possibilité de l’adéquation de la


distribution d’un caractère X à une loi de probabilité donnée. Il est adapté pour
des lois de probabilité discrètes et peut-être également utilisé pour une loi continue
entièrement spécifiée.

– Le test présenté dans les transparents suivants doit être utilisé pour vérifier l’adéquation
des données à par exemple la loi Normale lorsqu’on veut ensuite donner des intervalles
de confiance ou encore utiliser des tests.

Soit X, le caractère étudié sur une certaine population. Les hypothèses à tester sont les
suivantes :

H0 : La variable X suit une loi de probabilité donnée

contre

H1 : La variable X ne suit pas cette loi de probabilité

Conditions d’application du test :

L’échantillon X1 , . . . , Xn doit être constitué de réalisation indépendantes du caractère X


étudié.

On note par ck les effectifs théoriques et par n• l’effectif de l’échantillon.

Les conditions d’utilisation de l’approximation par la loi du khi-deux sont les suivantes :

ck ≥ 5 et n• ≥ 50.

Statistique du test :
6.3 Test d’adéquation à une loi donnée 104

Si l’hypothèse nulle H0 est vérifiée et que les conditions d’application sont vérifiées, alors
la variable aléatoire
XK
2 (mk − ck )2
χobs =
k=1
ck
suit approximativement la loi du Khi-deux à K −1 degrés de liberté, avec les mk les effectifs
observés et les ck les effectifs théoriques.

La valeur critique du test, notée cα est lue dans une table de la loi du Khi-deux à K − 1
degrés de liberté.

Si la valeur de la statistique calculée sur l’échantillon, notée χ2obs , est supérieure ou égale
à cα alors le test est significatif. Vous rejetez H0 et vous décidez que H1 est vraie avec un
risque de première espèce α.

Si la valeur de la statistique calculée sur l’échantillon, notée χ2obs , est strictement inférieure
à cα , le test n’est pas significatif. Vous conservez H0 avec un risque de deuxième espèce β.

Exemple1 : Est-ce que la distribution du nombre de filles observées dans 320 fratries de
5 enfants suit une loi binomiale de paramètres 5 et 0.5, B(5, 0.5) ?
X : Nombre de filles 0 1 2 3 4 5
Nombre de fratries observées 18 56 110 88 40 8
Soit X, le nombre de filles dans chaque fratrie. Si X suit la loi binomiale de paramètres
5 et 0.5, nous avons :

P (X = 0) = 0.03125
P (X = 1) = 0.15625
P (X = 2) = 0.3125
P (X = 3) = 0.3125
P (X = 4) = 0.15625
P (X = 5) = 0.03125
Les effectifs théoriques sont donc :

c1 = 320 × 0.03125 = 10
c2 = 320 × 0.15625 = 50
c3 = 320 × 0.3125 = 100
c4 = 320 × 0.3125 = 100
6.3 Test d’adéquation à une loi donnée 105

c5 = 320 × 0.15625 = 50

c6 = 320 × 0.03125 = 10
Les hypothèses à tester sont les suivantes :

H0 : X suit une loi binomiale de paramètres 5 et 0.5

contre

H1 : X ne suit pas la loi binomiale deparamètres 5 et 0.5

Les conditions d’application du test sont vérifiées ici.


Statistique du test :

Sous l’hypothèse nulle,


6
X (mk − ck )2
χ2obs =
k=1
ck
(18 − 10)2 (56 − 50)2 (110 − 100)2
= + +
10 50 100
(88 − 100)2 (40 − 50)2 (8 − 10)2
+ + +
100 50 10
= 11.96

Sous l’hypothèse nulle, la statistique de test suit une loi du Khi-deux à K − 1 = 6 − 1 = 5


degrés de liberté.

Le quantile correspondant, en prenant un risque de 5% à droite est de 11.0705.

Comme 11.96 > 11.0705, nous en déduisons que le test est significatif. Nous rejetons H0
au risque 5%. La distribution des filles au sein des 320 fratries ne suit pas la loi binomiale
de paramètres 5 et 0.5.

Exemple 2 : Est-ce que le nombre de cas graves traités chaque jour par un vétérinaire
sur une période de 200 jours suit une loi de Poisson de paramètre 1.5 ?
X : Nombre de cas graves 0 1 2 3 4 5 et plus
Nombre de jours 50 74 50 21 4 1
Soit X, le nombre de cas graves. Si X suit la loi de poisson de paramètre 1.5, nous avons :
6.3 Test d’adéquation à une loi donnée 106

P (X = 0) = 0.2231302
P (X = 1) = 0.3346952
P (X = 2) = 0.2510214
P (X = 3) = 0.1255107
P (X = 4) = 0.04706652
P (X ≥ 5) = 0.01857594

Les effectifs théoriques sont donc :

c1 = 200 × 0.2231302 = 44.62604


c2 = 200 × 0.3346952 = 66.93904
c3 = 200 × 0.2510214 = 50.20428
c4 = 200 × 0.1255107 = 25.10214
c5 = 200 × 0.04706652 = 9.413304

c6 = 200 × 0.01857594 = 3.715188

L’effectif théorique c6 est plus petit que 5, nous devons donc regrouper les deux dernières
catégories en la catégorie X ≥ 4. Le nombre de jours observés correspondant sera alors de
5 et P (X ≥ 4) = 0.0656. De là, on en déduit le nouveau c5 = 200 × 0.0656 = 13.12.

Les hypothèses à tester sont les suivantes :

H0 : La variable X suit une loi de poisson de paramètre 1.5

contre

H1 : La variable X ne suit pas la loi de poisson de paramètre 1.5

Les conditions d’application du test sont vérifiées ici.

Statistique du test :
6.4 Test exact de Fisher 107

Sous l’hypothèse nulle,


6
X (mk − ck )2
χ2obs =
k=1
ck
(50 − 44.62604)2 (74 − 66.93904)2 (50 − 50.20428)2
= + +
44.62604 66.93904 50.20428
(21 − 25.10214)2 (5 − 13.12)2
+ +
25.10214 13.12
= 7.08864

Sous l’hypothèse nulle, la statistique de test suit une loi du Khi-deux à K − 1 = 5 − 1 = 4


degrés de liberté.

Le quantile correspondant, en prenant un risque de 5% à droite est de 9.49.

Comme 7.08864 < 9.49, nous en déduisons que le test n’est pas significatif. Nous conser-
vons H0 . La distribution étudiée semble suivre une loi de poisson de paramètre 1.5.

6.4 Test exact de Fisher


Pour commencer l’étude de ce test, nous considérons deux variables aléatoires X et Y
ayant chacune deux modalités. Le cas général avec plus de deux modalités par variable ne
sera pas traité ici mais le test peut s’adapter également à ce contexte.

Par exemple, la variable X peut représenter le fait de fumer ou pas et la variable Y le


fait d’avoir un cancer des poumons avancé ou pas.
Soit

– x1 , x2 sont les modalités prises par la variable X.


– y1 , y2 sont les modalités prises par la variable Y .
Table de contingence ou tableau croisé des effectifs :
X|Y y1 y2 Total
x1 a b a+b
x2 c d c+d
Total a + c b + d n
Effectifs donnés dans la table de contingence :

– pour i = 1, 2 et j = 1, 2, les valeurs a, b, c et d correspondent au nombre d’individus


observés dans l’échantillon (effectifs observés) ayant la i-ème modalité xi pour X
et la j-ème modalité yj pour Y .
6.4 Test exact de Fisher 108

– n correspond à l’effectif total de l’échantillon.

– a + b et c + d correspondent aux marges lignes.

– a + c et b + d correspondent aux marges colonnes.

Hypothèses du test (test unilatéral) :

H0 : p1 = p2

contre

H1 : p1 > p2 ou p1 < p2

avec

p1 la proportion d’observations avec la modalité x1 de X pour Y ayant la modalité y1 .


p2 la proportion d’observations avec la modalité x1 de X pour Y ayant la modalité y2 .

Conditions d’application du test :


– Il faut que l’échantillon {(X1 ; Y1 ), . . . , (Xn ; Yn )} soit constitué de couples de copies
indépendantes du couple aléatoire (X; Y ).

– Ce test est une alternative au test du Khi-deux lorsque les échantillons sont petits ou
que le degré de liberté associé au test vaut 1.

– Le terme exact vient du fait qu’aucune approximation n’est faite pour calculer la
statistique de test.

– Ce test s’applique également lorsque vous avez plus de deux modalités pour chaque
variable X ou Y et si vous avez peu d’observations.

Le test exact de Fisher est basée sur le calcul (exact) de la probabilité d’obtenir des
échantillons aussi ou encore plus différents entre eux que ceux observés alors qu’il n’existe
pas de différence en réalité. Cela nécessite de construire tous les tableaux de contingence
présentant les mêmes totaux marginaux que ceux observés et affichant des différences encore
plus marquées entre les échantillons (dans le même sens que celui observé).

Exemple : Un laboratoire veut développer un médicament destiné à soigner la grippe.


Les chercheurs se demandent si le nouveau traitement conduit à une guérison plus rapide
qu’avec le traitement classique. Un essai est conduit sur 19 patients qui reçoivent soit le
6.4 Test exact de Fisher 109

nouveau traitement A soit un traitement classique B. Les résultats sont présentés dans le
tableau suivant :

traitementA traitementB Total


guérisonrapide(GR) 6 3 9
guérisonnormale(GN ) 2 8 10
Total 8 11 19
Hypothèses du test :

H0 : p1 = p2

contre

H1 : p1 > p2

avec
p1 la proportion de guérisons rapides avec le traitement A
p2 la proportion de guérisons rapides avec le traitement B

Cas1 A B Total
GR 6 3 9
GN 2 8 10
Total 8 11 19
Cas2 A B Total
GR 7 2 9
GN 1 9 10
Total 8 11 19
Cas3 A B Total
GR 8 1 9
GN 0 10 10
Total 8 11 19
– La probabilité d’obtenir le cas 1 est donnée par :

9!10!8!11!
α1 = = 0.05
19!6!3!2!8!
– La probabilité d’obtenir le cas 2 est donnée par :
6.4 Test exact de Fisher 110

9!10!8!11!
α2 = = 0.0048
19!7!2!1!9!
– La probabilité d’obtenir le cas 3 est donnée par :

9!10!8!11!
α3 = = 0.0001
19!8!1!0!10!
La probabilité cherchée vaut donc :

p = 0.05 + 0.0048 + 0.0001 = 0.0549.


Comme p > 5%, on ne peut rejeter H0 à la limite du seuil critique.
Sous R, il faut utiliser la commande suivante :

> f isher.test(matrix(c(6, 3, 2, 8), ncol = 2, byrow = T RU E)

Fisher’s Exact Test for Count Data


data : matrix(c(6,3,2,8),ncol=2,byrow=TRUE),alternative=”greater”)
pvalue=0.0549
alternative hypothesis : true odds ration is greater than 1
95 percent confidence interval :
0.9606064 Inf
sample estimates :
odds ratio
7.027451
Comme la p-valeur est supérieure ou égale à 5%, le test n’est pas significatif. Vous ne
pouvez rejeter H0 . Donc il semblerait que le nouveau traitement ne soit pas plus efficace
que le classique.

Remarque :

Le test exact de Fisher s’étend au cas où les deux variables ont un nombre fini quelconque,
mais supérieur à deux, de modalités.
Formulaire
Intervalles de confiance et Tests statistiques

σ σ
µ̂n − u1− α2 √ < µ < µ̂n + u1− α2 √ .
n n
Sn Sn
µ̂n − tn−1;1− α2 √ < µ < µ̂n + tn−1;1− α2 √ .
n−1 n−1
nσˆn 2 2 nσˆn 2
<σ < .
k2 k1
nSn2 2 nSn2
<σ < .
k2 k1
µ̂n − µ0
Z= √ suit la loi normale N (0; 1).
σ/ n
µ̂n − µ0
T(n−1) = √ suit la loi de student T (n − 1).
Sn,c / n
nσ̂n2
2
suit la loi du Khi-deux χ2 (n).
σ0
2
(n − 1)Sn,c
2
suit la loi du Khi-deux χ2 (n − 1).
σ0

nπ̂n,A = nA suit la loi Binomiale B(n; π0 ).

µ̂1 − µ̂2
Z=q 2 suit la loi normale N (0; 1).
σ1 σ22
n1
+ n2
µ̂1 − µ̂2
Tn1 +n2 −2 = q suit la loi de student T (n1 + n2 − 2).
σ̂ n11 + n12

µ̂1 − µ̂2
Tν = q 2 2
suit la loi de student T (ν).
Sn Sn
1
n1 −1
+ 2
n2 −1

µ̂1 − µ̂2
Z=q 2 2
suit la loi de Normale N (0; 1).
Sn Sn
1
n1 −1
+ 2
n2 −1

1
Sn21 ,c
F = 2 suit la loi de Fisher F (n1 − 1; n2 − 1).
Sn2 ,c
µ̂D
Tn−1 = √ suit la loi de Student T (n − 1).
SD,c / n

p q
X X (ni,j − ci,j )2
χ2obs = suit la loi du Khi-deux χ2 ((p − 1) × (q − 1)).
i=1 j=1
ci,j

K
X (mk − ck )2
χ2obs = suit la loi du Khi-deux χ2 (K − 1).
k=1
ck

2
Tables Statistiques usuelles

Table 1

Loi Binomiale

P ( X = k ) = C nk p k (1 − p) n − k
(k le nombre d’occurrences parmi n)
Loi Binomiale (suite)

P ( X = k ) = C nk p k (1 − p) n − k
(k le nombre d’occurrences parmi n)
Loi Binomiale (suite)

P ( X = k ) = C nk p k (1 − p) n − k
(k le nombre d’occurrences parmi n)
Table 2

Loi de Poisson

µk
P( X = k ) = e − µ
k!

(µ le nombre d’occurrences moyen)


Table 3

Loi Normale Centrée Réduite

Fonction de répartition F(z)=P(Z<z)


Table 4

Loi de Student
Table 5

Loi du χ 2
P ( χν2 ≥ χν2,α ) = α

Pour ν > 30, La loi du χ2 peut –être approximée par la loi normale N(ν , ν )
Table 6

Loi de Fisher F

P ( Fν 1 ,ν 2 < fν 1 ,ν 2 ,α ) = α
Loi de Fisher F (suite)

P ( Fν 1 ,ν 2 < fν 1 ,ν 2 ,α ) = α

Vous aimerez peut-être aussi