2A Statistique Descriptive Cours Ferrigno

UNIVERSITE DE LORRAINE
EEIGM 2A
Statistique descriptive et inférentielle
Cours
Sandie FERRIGNO
Chapitre 1
Présentation de R
1.1 Introduction
R est un langage de programmation et un environnement mathématique utilisés pour
le traitement des données. Les intérêts d’utilisation de ce logiciel sont multiples : analyses
statistiques (modèles linéaires, non linéaires, tests d’hypothèse, modélisation de séries chro-
nologiques, classification,...) et nombreuses fonctions graphiques de qualité professionnelle.
C’est par ailleurs un langage disponible pour Windows, Mac et Unix. Il est le clone
gratuit du logiciel statistique Splus. Il peut se télécharger gratuitement en ligne à l’adresse
suivante : http ://www.r-project.org/. D’autres logiciels de statistique sont sur le marché :
SAS, Splus, Spad, SPSS,....
Environnement Windows : La fenêtre R Console est la fenêtre principale. Les com-
mandes et les sorties (résultats) sont en mode texte. Il est possible d’ajouter des fenêtres
facultatives : graphique, information (historique, aide,...).
Le menu Fichier renferme outils nécessaires à la gestion de l’espace de travail (sélection

répertoire par défaut, chargement de fichiers sources, sauvegarde,....). Le menu Edition
contient les commandes copier-coller et de personnalisation de l’interface. Le menu Voir
permet d’afficher ou de masquer la barre d’outils ou la barre de statut. Le menu Packages
permet la gestion et le suivi des bibliothèques de fonctions. Les menus Fenêtre et Aide
1
1.1 Introduction 2
donnent la définition spatiale des fenêtres et l’accès à l’aide en ligne et aux manuels de
références du logiciel R.
Qu’est ce qu’un Package ? C’est une compilation d’outils. Certains sont présents dans l’ins-
tallation de base de R (dossier library par défaut qui comprend les packages de base de R).
D’autres packages utiles pour vos analyses statistiques seront à télécharger puis à installer.
1.1.1 Premières lignes de commandes avec R.

Le symbole > en rouge apparaı̂t dans la fenêtre R console lorsque vous lancez le logiciel. R
est prêt à être utilisé. Vous pouvez alors taper vos commandes.
Par exemple : > 2 + 3 puis si vous tapez entrée R vous renverra [1] 5.
Pour quitter R, taper q() (ou aller sur Fichier puis Sortir). Le logiciel va alors vous poser la
question : Save workspace image ? [y/n/c]. Taper y pour oui, n pour non et c pour annuler.
Remarques :
– Si vous tapez y, les commandes exécutées et les objets enregistrés en mémoire pendant
la session pourront être réutilisés.
– Si vous tapez n, tout le travail effectué sera perdu.
– Si vous tapez c, la procédure de fin de session sous R est annulée.
1.1.2 Sauvegarder sous R.

Si vous quittez R en ayant choisi de sauvegarder votre travail, deux fichiers sont alors
créés :
1. le fichier .Rdata contient des informations sur les variables utilisées.

2. le fichier .Rhistory contient l’ensemble des commandes utilisées.
1.1.3 Consulter l’aide de R. Il y a quatre sources principales :

1. les fichiers d’aide.
2. les manuels.
3. les archives R-help.
4. R-help lui-même.
Exemple : Pour une fonction dont le nom est fonction1, vous pouvez consulter une fiche de
documentation en tapant la commande ?fonction1 ou help(fonction1).
1.1 Introduction 3
1.1.4 Scripts.
Il est souvent plus pratique de composer le code R dans une fenêtre spécifique du logiciel :
la fenêtre de script. Les entrées Nouveau script ou Ouvrir un script permettent de créer un
nouveau scripts de commandes de R ou d’accéder à un ancien script sauvegardé lors d’une
session précédente. Pour sauvegarder un script, il suffit de sélectionner l’entrée ”Sauver”
du menu ”Fichier”. Les scripts s’écrivent avec un éditeur de texte (par exemple : Wordpad,
Open Office,...). Pour exécuter des scripts, deux solutions :
– Soit vous utilisez le copier-coller sur la fenêtre R Console.
– Soit vous le lisez avec la commande : Ctrl+R.
Avantages d’écrire des scripts :
– Gain de temps car vous pouvez facilement les réutiliser en adaptant si nécessaire des
lignes de commandes déjà tapées.
– Si vous avez beaucoup de lignes de commandes à écrire, c’est beaucoup plus simple de
les manipuler et les modifier comme dans un éditeur de texte classique.
– C’est un outil de collaboration puissant. Il est pratique de pouvoir transmettre en

fichier attaché dans un mail le script à un collègue sachant qu’il n’a qu’à utiliser la
fonction source sur votre code pour effectuer votre analyse sur sa machine.
– Il n’y a pas de message d’alerte sous R. Vous pouvez donc perdre des données facile-
ment.
1.1.5 Remarques générales sur R.

– Le symbole # est le symbole des commentaires sous R. Tout ce qui suit un # est
ignoré. Un élément clef de la bonne écriture d’un script est la présence abondante de
commentaires.
– Ce qui est entré par l’utilisateur figure en rouge et la réponse de R est en bleu.
– R utilise le système anglo-saxon pour les nombres décimaux, c’est à dire les décimales
sont séparées par un point et non par une virgule comme en France.
– R distingue les majuscules et les minuscules.
– Attention à l’utilisation du point virgule. Sous R, il sert souvent à séparer deux ins-
tructions.
– Vous pouvez rappeler les commandes déjà exécutées en utilisant la touche ”Flèche vers
le haut”.
1.2 Objets avec le logiciel R 4
– Vous pouvez parcourir la ligne de commande que vous êtes entrain d’écrire en ap-
puyant sur les touches ”Flèche vers la gauche” et ”Flèche vers la droite”.
– R pour les débutants : polycopié d’Emmanuel Paradis (sur Arche). Disponible en ligne
en version anglaise également.
1.2 Objets avec le logiciel R

1.2.1 Quelques définitions.
Un objet est un espace dans lequel vous pouvez stocker tout ce qui vous intéresse.
Un vecteur est un objet d’un même mode pour toutes les valeurs qui le constituent. Il
existe des vecteurs soit numériques, de caractères, logiques ou vides.
Une matrice est un objet d’un même mode pour toutes les valeurs qui la constituent.
Comme pour les vecteurs, il existe des matrices numériques, de caractères, de logiques ou
vides. Chaque élément de la matrice est repéré par son numéro de ligne et de colonne.
Toutes les lignes d’une matrice ont la même longueur. Il en va de même pour les colonnes.
Par contre le nombre de ligne n’est pas forcément égal au nombre de colonnes.
Une liste est un objet permettant de stocker des objets qui peuvent être hétérogènes c’est
à dire n’ayant pas tous le même mode ou la même longueur.
1.2.2 Quelques manipulations élémentaires.

Affecter : n < −28 ou n = 28 signifie ”mettre la valeur 28 dans l’objet nommé n”.
Afficher : n et entrée retourne la ligne de résultat : [1] 28.
Les objets créés peuvent être utilisés dans des calculs. Par exemple si vous tapez n + 2 et
entrée, le logiciel vous retourne : [1] 30.
Vous pouvez utiliser autant d’objets que vous le souhaitez. Ils peuvent contenir non seule-
ment des nombres mais aussi des chanes de caractères (indiquées par des guillements) et
d’autres choses encore.
Supprimer : par défaut R conserve tous les objets créés le temps d’une session. La com-
mande ls() ou objects() permet d’afficher l’ensemble des objets créés lors de la session en
cours. Pour supprimer l’objet n, utilisez la commande remove rm(n). Vous pouvez suppri-
mer plusieurs objets à la fois : rm(objet1, objet2). Enfin, vous pouvez supprimer l’ensemble
des objets créés avec la commande rm(list = ls()).
1.2.3 Les vecteurs

Pour créer des vecteurs, diverses commandes sont disponibles : la commande seq, la
commande rep, la commande c (comme collection) et l’opérateur ” : ”.
1.2.3.1 Les vecteurs numériques

Exemples :
> vecteur1 < −c(1, 3, 5, 7)
> vecteur1
renvoie
[1] 1 3 5 7
Remarque : si vous tapez directement > c(1, 3, 5, 7), le logiciel R affiche directement [1] 1 3 5 7.
La commande > mode(vecteur1) renvoie [1] ”numeric” ce qui signifie que les éléments du
vecteur vecteur1 sont des nombres réels.
La commande > class(vecteur1) renvoie [1] ”numeric” ce qui signifie que l’objet vecteur1
est un vecteur contenant des nombres réels.
Remarque : attention aux deux sens différents du résultat ”numeric” lorsqu’il est obtenu
avec la commande class ou la commande mode.
1.2.3.2 Les vecteurs de chaı̂nes des caractères

Exemple :
> vecteur2 < −c(”bleu”, ”vert”, ”rouge”)
> vecteur2
renvoie
[1] ”bleu” ”vert” ”rouge”
> mode(vecteur2) renvoie alors :
[1] ”character”.
Remarques :
1. Si vous mélangez dans un même vecteur des caractères et des valeurs numériques, les
valeurs numériques sont automatiquement converties en chaı̂nes de caractères.
2. Quand les éléments du vecteur sont des chaı̂nes de caractères, il est obligatoire de les
déclarer entre guillements, sinon R ne reconnat pas les coordonnées du vecteur.
Exemple : > vecteur2 < −c(bleu, vert, rouge) renvoie le message : Erreur : objet
”bleu” introuvable.
1.2.3.3 Les vecteurs logiques

Exemple :
> vecteur3 < −c(T, T, F, F, T )
> vecteur3
renvoie
[1] T RU E T RU E F ALSE F ALSE T RU E
> mode(vecteur3)
renvoie
[1] ”logical”
Nous en déduisons que les éléments du vecteur ”vecteur3” sont des valeurs logiques.
1.2.3.4 Opérations sur les vecteurs.

– Afficher une ou plusieurs coordonnées d’un vecteur. Il est possible d’afficher une (ou
plusieurs) coordonnée(s) d’un vecteur en spécifiant entre [ ], en plus du nom du vecteur,
l’indice de la coordonnée correspondante.
Exemples :
> vecteur1[3]
renvoie la troisième coordonnée du vecteur1 à savoir
[1] 5.
> vecteur1[3 : 4]
renvoie la troisième et la quatrième coordonnée du vecteur1 à savoir
[1] 5 7.
> head(vecteur1, n = 2)
renvoie les deux premières coordonnées du vecteur1 à savoir
[1] 1 3.
> tail(vecteur1, n = 2)
renvoie les deux dernières coordonnées du vecteur1 à savoir
[1] 5 7.
Remarque : par défaut (c’est à dire si n n’est pas précisé), les commandes head et tail
renvoie respectivement les 6 premiers ou 6 derniers éléments du vecteur.
– Concaténer des vecteurs.
Il est possible de concaténer deux vecteurs et même plus, formés de variables de même
type, pour en former un nouveau.

Exemple : Soient les vecteurs x et y tels que
> x < −c(1, 2, 3, 4)
> y < −c(5, 6, 7, 8)
Alors, le vecteur z, concaténation des vecteurs x et y s’obtient :
> z < −c(x, y)
>z
ce qui renvoie comme résultat :
[1] 1 2 3 4 5 6 7 8
Remarque :
Si les vecteurs que vous voulez concaténer ne sont pas du même mode, R va essayer
de convertir l’un des deux types au type de l’autre. Par exemple, si vous combinez un
vecteur de caractères et un vecteur numérique, R transformera le vecteur numérique
en un vecteur de caractères.
– Extraire des coordonnées d’un vecteur.
Il est possible d’extraire des coordonnées à partir d’un vecteur selon trois façons :
– Utiliser un vecteur pour préciser le numéro d’ordre des coordonnées à extraire.
Exemple : Considérons le vecteur suivant :
> vecteur1 < −c(1, 3, 5, 7, 9)
> vecteur1
[1] 1 3 5 7 9
alors la commande
> vecteur1[c(2, 5)]
renvoie
[1] 3 9
– L’utilisation du signe tiret permet de supprimer des coordonnées.
> vecteur1 < −c(1, 3, 5, 7, 9)
> vecteur1
[1] 1 3 5 7 9
alors la commande
> vecteur1[−c(2, 5)]
renvoie
[1] 1 5 7
– Utiliser un vecteur formé de valeurs logiques.
> vecteur1 < −c(1, 3, 5, 7, 9)
> vecteur1
[1] 1 3 5 7 9
alors la commande
> vecteur1[vecteur1 > 3]
renvoie
[1] 5 7 9
Remarque : Si vous possédez deux vecteurs x et y qui ont la même longueur, vous
pouvez extraire du vecteur x par exemple les éléments correspondants aux valeurs
de y supérieures à une certaine valeur a. Il suffit pour cela de taper :
> x[y > a]
– Calculs sur les coordonnées d’un vecteur ou sur des vecteurs.
Exemples : considérons les vecteurs
> x < −c(1, 2, 3, 4)
> y < −c(5, 6, 7, 8)
alors
> 2 ∗ x + 1 renvoie [1] 3 5 7 9
> (x + y)/2 renvoie [1] 3 4 5 6
Remarque : Lorsque les deux vecteurs ne sont pas de même longueur, le plus court est
recyclé autant de fois que nécessaire pour atteindre la longueur du plus grand.
> z < −c(1, 2)
>x+z
[1] 2 4 4 6
– Remplacer les coordonnées d’un vecteur par d’autres coordonnées.
Supposons que l’on travaille avec la suite de nombres de 1 à 10 suivante :
> x < −1 : 10
>x
[1] 1 2 3 4 5 6 7 8 9 10
alors, les commandes
> x[3] < −32
>x
renvoient
[1] 1 2 32 4 5 6 7 8 9 10
> x[x == 1] < −23
>x
renvoient
[1] 23 2 32 4 5 6 7 8 9 10
> x[x > 10] < −20
>x
renvoient
[1] 20 2 20 4 5 6 7 8 9 10
– Répéter les coordonnées d’un vecteur.
La commande rep possède deux arguments notés x et times par R et crée un vecteur
où x est répété times fois.
Exemple :
> donnees < −c(1, 2, 3)
> donnees
[1] 1 2 3
rep(x = donnees, times = 2)
rep(donnees, 2)
[1] 1 2 3 1 2 3
Autres exemples :
rep(1, 50) crée un vecteur contenant 50 fois la valeur 1.
rep(”eeigm”, 4) crée un vecteur contenant quatre fois la chane de caractères ”eeigm”.
– Nommer les coordonnées d’un vecteur.
Exemples :
> note1 < −c(Anglais = 12, M aths = 14, Biologie = 13)
> matiere < −c(”Anglais”, ”M aths”, ”Biologie”)
> note2 < −c(12, 14, 13)
> names(note2) < −matiere
> note2
les vecteurs note1 et note2 renvoient le même résultat :
Anglais M aths Biologie
12 14 13
Remarque : pour supprimer les noms dans le vecteur note2, utiliser les commandes :
> names(note2) < −N U LL
> note2
– Trier les coordonnées d’un vecteur.
Exemples :
> note2
Anglais M aths Biologie
12 14 13
> sort(note2)
Anglais Biologie M aths
12 13 14
> rev(sort(note2))
M aths Biologie Anglais
14 13 12
– Les valeurs manquantes.
Lors d’une étude statistique, il peut arriver que certaines données ne soient pas dis-
ponibles : ces données sont alors considérées comme des données manquantes. Pour
saisir une donnée manquante vous utiliserez sous R le symbole N A (Not Avaible) et
ce quelque soit la nature de l’objet : numérique, caractère ou logique.
Exemple :
> x < −c(12, 34, N A, 52, 23)
>x
[1] 12 34 N A 52 23
la troisième valeur est laissée manquante.
> mode(x)
[1] ”N umeric”
la présence d’une valeur manquante n’affecte pas la nature des éléments qui composent
le vecteur. x est ainsi composé d’éléments numériques.
> is.na(x)
[1] F ALSE F ALSE T RU E F ALSE F ALSE
F ALSE indique l’absence d’une valeur manquante tandis que T RU E indique la
présence d’une valeur manquante. x possède donc une valeur manquante.
1.2.4 Les matrices

– Créer des matrices.
La commande matrix, qui possède deux arguments, permet de créer une matrice.
Les arguments sont le vecteur d’éléments et le nombre de lignes et de colonnes de la
matrice.
Exemple :
> matrice1 < −matrix(1 : 12, ncol = 3)
> matrice1
renvoie
[ ,1] [ ,2] [ ,3]
[1, ] 1 5 9
[2, ] 2 6 10
[3, ] 3 7 11
[4, ] 4 8 12
Remarque : par défaut, R a rangé les éléments dans la matrice1 par colonne. Pour les
ranger ligne par ligne, il suffit d’utiliser l’argument byrow = T RU E ou byrow = T .
> matrice2 < −matrix(1 : 12, ncol = 3, byrow = T )
> matrice2
renvoie
[ ,1] [ ,2] [ ,3]
[1, ] 1 2 3
[2, ] 4 5 6
[3, ] 7 8 9
[4, ] 10 11 12
Quelques informations générales sur la matrice :
> class(matrice2)
[1] ”matrix”
Donc matrice2 est une matrice.
> length(matrice2)
[1] 12
Length indique le nombre d’éléments qui composent la matrice2. Ici il y en a 12.
> dim(matrice2)
[1] 4 3
Dim renvoie le nombre de lignes et de colonnes qui forment la matrice, c’est à dire ici
4 lignes et 3 colonnes.
– Afficher des éléments ou une partie de la matrice.

Comme pour les vecteurs il est possible de sélectionner des éléments de la matrice et
de les afficher ainsi qu’une partie de la matrice.
Pour sélectionner l’élément (i, j) de la matrice ”nommatrice”, vous devez utiliser la
ligne de commande > nommatrice[i, j].
Exemple : rappelons que matrice2 est de la forme
[ ,1] [ ,2] [ ,3]
[1, ] 1 2 3
[2, ] 4 5 6
[3, ] 7 8 9
[4, ] 10 11 12
> matrice2[2, 3]
[1] 6
> matrice2[2, ]
[1] 4 5 6
> matrice2[ , 3]
[1] 3 6 9 12
Remarque : R renvoie toujours le résultat sous la forme d’un vecteur par défaut même si
vous avez demandé à extraire une colonne ou une ligne. Pour que le résultat apparaisse
sous la forme d’une matrice à une ligne ou une colonne vous devez ajouter l’argument
drop=F à la ligne de commande.
> matrice2[ , 3, drop = F ]
renvoie
[ ,1]
[1, ] 3
[2, ] 6
[3, ] 9
[4, ] 12
Vous pouvez aussi sélectionner plusieurs lignes ou colonnes à la fois.
> matrice3 < −matrice2[, c(1, 3)]
[ ,1] [ ,2]
[1, ] 1 3
renvoie [2, ] 4 6
[3, ] 7 9
[4, ] 10 12
Vous pouvez également supprimer une ligne ou une colonne d’une matrice avec les
commandes nommatrice[−i, ] ou nommatrice[ , −j].
Exemple :
> matrice2[ , −1]
renvoie
[ ,1] [ ,2]
[1, ] 2 3
[2, ] 5 6
[3, ] 8 9
[4, ] 11 12
– Opérations sur les lignes et les colonnes.
La commande nrow(nommatrice) renvoie le nombre de lignes de la matrice sur laquelle
vous travaillez.
> nrow(matrice2)
[1] 4
La commande ncol(nommatrice) renvoie le nombre de colonnes de la matrice sur
laquelle vous travaillez.
> ncol(matrice2)
[1] 3
Remarque : vous pouvez obtenir ces deux informations en vous servant de la commande
dim.
> dim(matrice2)
[1] 4 3
Vous pouvez rajouter des lignes ou des colonnes à la matrice initiale avec respective-
ment les commandes rbind et cbind.
> rbind(matrice2, c(13 : 15))
[ ,1] [ ,2] [ ,3]
[1, ] 1 2 3
[2, ] 4 5 6
[3, ] 7 8 9
[4, ] 10 11 12
[5, ] 13 14 15
> cbind(matrice2, c(13 : 16))
[ ,1] [ ,2] [ ,3] [ ,4]
[1, ] 1 2 3 13
[2, ] 4 5 6 14
[3, ] 7 8 9 15
[4, ] 10 11 12 16
– Calculs sur les matrices.

R sait faire la somme, le produit de matrices ainsi que la transposée, le calcul d’inverse,
le calcul de déterminant, diagonaliser une matrice, le tout en respectant les conditions
d’existence mathématique de ces opérations.
Pour le produit, vous utiliserez la commande % ∗ %.
Exemple :
> matrice4
[ ,1] [ ,2] [ ,3]
[1, ] 1 3 5
[2, ] 2 4 6
> matrice5
[ ,1] [ ,2] [ ,3] [ ,4]
[1, ] 1 4 7 10
[2, ] 2 5 8 11
[3, ] 3 6 9 12
> matrice6 < −matrice4% ∗ %matrice5
> matrice6
[ ,1] [ ,2] [ ,3] [ ,4]
[1, ] 22 49 76 103
[2, ] 28 64 100 136
Remarque : Ne pas confondre le produit matriciel avec le produit terme à terme !
> matrice7
[ ,1] [ ,2] [ ,3]
[1, ] 1 3 5
[2, ] 2 4 6
> matrice8
[ ,1] [ ,2] [ ,3]
[1, ] 7 9 11
[2, ] 8 10 12
> matrice9 < −matrice7 ∗ matrice8
> matrice9
[ ,1] [ ,2] [ ,3]
[1, ] 7 27 55
[2, ] 16 40 72
Principales commandes utiles pour effectuer des calculs sur les matrices :
– t(nommatrice) : transpose la matrice sur laquelle vous travaillez.
– det(nommatrice) : calcule le déterminant de la matrice sur laquelle vous travaillez.
– solve(nommatrice) : inverse la matrice sur laquelle vous travaillez.
– eigen(nommatrice) : diagonalise la matrice sur laquelle vous travaillez.
1.2.5 Les données sous R

– Saisir des données sous R.
Pour saisir les données, nous avons vu les fonctions seq et c. Il existe une autre com-
mande utile : la fonction scan.
Exemple :
> jeu1 < −scan()
R vous redonne alors la main et vous pouvez taper directement les valeurs du jeu de
données.
1 : 1.2
2 : 36
3 : 5.33
4 : −26.5
5:
> jeu1
[1] 1.2 36 5.33 − 26.5
Exemple : La fonction scan est particulièrement utile pour saisir une matrice :
> matrix(scan(), nrow = 2, byrow = T )
1:134
4:521
7:
[ ,1] [ ,2] [ ,3]
[1, ] 1 3 4
[2, ] 5 2 1
Les fonctions seq, c et scan vous permettent donc de créer un vecteur ou une matrice
sous R.
– Créer un tableau de données sous R.
Un tableau de données est une collection de vecteurs de même longueur. La nature
des vecteurs peut cependant être différente. Ils peuvent être de nature quantitative ou
qualitative.
Pour créer un tableau de données sous R, il faut utiliser la fonction data.frame. Elle
permet de concaténer des vecteurs de même longueur et de modes différents.
Exemple :
> mat < −c(19.6, 12.3, 17.4, 13.8)
> phy < −c(13.2, 14.3, 11.9, 13.5)
> res < −data.f rame(mat, phy)
> res
mat phy
1 19.6 13.2
2 12.3 14.3
3 17.4 11.9
4 13.8 13.5
Remarque : Il est possible de donner des noms aux lignes du tableau de données avec
l’option row.names qui doit fournir un vecteur de mode caractère et de longueur égale
au nombre de lignes du tableau de données.
> res2 < −data.f rame(mat, phy, row.names = c(”Julie”, ”T homas”, ”P aul”, ”Isabelle”))
> res2
mat phy
Julie 19.6 13.2
T homas 12.3 14.3
P aul 17.4 11.9
Isabelle 13.8 13.5
Remarque : Les fonctions cbind et rbind introduites dans le partie sur les matrices
peuvent être utilisées avec les tableaux de données. Les fonctions ncol et nrow, qui ren-
voient respectivement le nombre de colonnes et le nombre de lignes peuvent également
être utilisées.
– Lire des données contenues dans un fichier.
Quand les données sont trop volumineuses, il n’est pas conseillé d’utiliser R comme
outil de saisie. Vous utiliserez dans ce cas un éditeur de texte ou un tableur puis vous
importerez votre fichier sous R.
Il faut indiquer à R l’endroit o vous aurez stocké les fichiers de données. La commande :
> getwd()
fait afficher au logiciel le répertoire de travail par défaut, par exemple :
[1] ”C/U sers/F errigno/Documents”
Pour changer ce répertoire donné par défaut et proposer à R d’aller récupérer les
données dans le répertoire Data de C, il faut utiliser la commande setwd :
> setwd(”C : /Data”)
– Lire et écrire des objets au format R.

Les fonctions load et save servent à charger en mémoire ou à sauvegarder des objets
au format utilisé par R.
> vecteur1 < −c(1, 2, 3, 4)
> vecteur1
[1] 1 2 3 4
Pour sauvegarder dans R cet objet :
> save(vecteur1, f ile = ”f ichiervecteur1.RData”)
L’objet vecteur1 est alors sauvegardé dans le répertoire de travail. L’extension .Rdata
est celle habituellement utilisée pour les fichiers sauvegardés de R. Pour supprimer cet
objet :
> rm(vecteur1)
Pour récupérer l’objet que l’on vient de supprimer, il suffit d’utiliser la fonction load :
> load(”F ichiervecteur1.RData”)
> vecteur1
[1] 1 2 3 4
– Lire et écrire un fichier au format texte.
Supposons que le fichier table1.txt, contenu dans votre répertoire de travail, soit le
suivant :
53.5 56.9
34.8 23.9
12.7 35.8
34.7 66.8
Alors, pour lire ce fichier, vous utiliserez la commande read.table :
> read.table(”table1.txt”)
V1 V2
1 53.5 56.9
2 34.8 23.9
3 12.7 35.8
4 34.7 66.8
Quelques commandes utiles :
– > table1 < −read.table(”table1.txt”) permet de conserver le tableau de données
comme un objet.
– > table1$V 1 permet d’afficher uniquement la première colonne de table1.
– > table[1, 1] permet d’afficher l’élément de la première colonne et la première ligne
1.3 Les packages 18
de table1, ici 53.5.

– > table1[c(1), c(1)] affiche également l’élément 53.5.
– > table1[1 : 2, 1] permet d’afficher les éléments des deux premières lignes et de la
première colonne de table1 à savoir 53.5 et 34.8.
– > table1[1 : 2, 1 : 2] fournit également les éléments des deux premières lignes et des
deux premières colonnes de table1.
– Si le nom des variables est spécifié dans le fichier texte que vous souhaitez convertir
en jeu de données R, il faut ajouter header=T dans la commande read.table : >
read.table(”table2.txt”, header = T ).
– Si les décimales du fichier texte sont notées par des virgules, il faut le spécifier lors
de la création de la table de données : > read.table(”table3.txt”, dec = ”, ”).
– Si les colonnes du fichier texte sont séparées par un autre caractère que l’espace, il
faut le spécifier lors de la création de la table de données :
> read.table(”table4.txt”, sep = ”; ”).
– Lire et écrire un fichier au format csv ou excel.
Un fichier csv peut-être de deux types : anglo-saxon (un point comme séparateur
décimal et une virgule comme séparateur de colonne) ou français (une virgule comme
séparateur décimal et un point-virgule comme séparateur de colonne). Ils s’importent
alors respectivement sous R avec les commandes :
> read.csv(”table5.csv”)
> read.csv2(”table6.csv”)
Pour lire un fichier de données de type excel sous R, il faut d’abord télécharger la
bibliothèque xlsReadWrite :
> library(xlsReadW rite)
puis utiliser la fonction read.xls :
> read.xls(table7.xls)
1.3 Les packages

Qu’est ce qu’un package ? Un package est un paquet ou une bibliothèque de programmes
externes.C’est un ensemble de programmes permettant de compléter et d’augmenter les
fonctionnalités de R. Un package est généralement associé à une méthode particulière ou à
un domaine d’applications. Plus de 6685 packages existent (référence de mai 2015). Certains,
indispensables, sont fournis avec R. D’autres constituent des avancées récentes en statistique
et sont à télécharger.
Comment installer un package ? Les packages sont disponibles à l’adresse du CRAN :
1.3 Les packages 19
http ://cran.r-project.org/ De nombreux miroirs (copies exactes du site du CRAN) sont

disponibles dont cinq en France. Pour installer un package disponible sur le site du CRAN :
Packages, Installer Packages. Ensuite, choisir le site mirroir le plus proche et sélectionner
le package à installer. Enfin, charger le package sélectionné : Packages, Charger le package.
Certains packages sont en constante évolution avec de nouvelles versions régulièrement
disponibles. Pour la mise à jour, exécuter : > update.packages(). Pour utiliser un package, il
suffit de l’appeler, une fois qu’il a été installé avec la commande : > library(nomdupackage).
Chapitre 2
Statistique descriptive
2.1 Vocabulaire
– La Statistique : C’est à la fois un ensemble de données et les activités consistant à
collecter ces données, à les traiter et à les interpréter. Le mot ”Statistique” vient de
l’Allemand ”Statistik” qui désigne l’analyse des données utiles à l’état au milieu du
17ème siècle.
– Les Statistiques : C’est un ensemble de données numériques. Les Statistiques in-

terviennent pratiquement dans tous les domaines d’activité : sciences expérimentales,
gestion financière, démographie, contrôles de qualité,....
– La Statistique descriptive : Il s’agit du traitement des données collectées sur un

ensemble d’individus qui permet de dégager un certain nombre de renseignements de
type qualitatif ou quantitatif à des fins de comparaison.
– La Statistique inférentielle : Lorsqu’on ne peut pas étudier complètement une

population, il s’agit d’extrapoler, à partir d’un échantillon de cette population, sur le
comportement de la population dans son ensemble.
– Population et individus : L’ensemble sur lequel porte l’activité statistique s’appelle

la population. Les éléments qui constituent la population sont les individus ou unités
statistiques.
Remarques : Le terme de population n’est pas associé qu’à des êtres humains. Il peut
aussi être assimilé à un ensemble d’objets inanimés. Les individus peuvent être de
natures très diverses.
– Echantillon (”sample” en anglais) : C’est une partie de la population prélevée soit
21
2.1 Vocabulaire 22
de manière aléatoire soit de manière déterministe.
Exemple : On interroge 2000 français sur leur intention de vote à la prochaine élection
présidentielle dans le but de prédire les résultats de cette élection.
– La population est l’ensemble des Français disposant du droit de vote.

– Un individu est une personne Française disposant du droit de vote.
– Un échantillon est constitué de 2000 personnes françaises disposant du droit de
vote et soumises à l’enquête.
Remarque : Attention à la façon de constituer l’échantillon ! Ici, il doit être représentatif
de la population française disposant du droit de vote.
Autre exemple : On prélève 20 poulets dans un élevage et on mesure le taux de dioxine

contenu dans leur viande afin d’estimer le taux moyen pour tout l’élevage.
– La population est l’ensemble des poulet de l’élevage tout entier.

– Un individu est un poulet de l’élevage.
– Un échantillon est constitué de 20 poulets prélevés dans l’élevage.
Remarque : Attention à la façon de constituer l’échantillon ! Il peut être différent
selon s’il est constitué avec remise ou sans remise.
– Les observations : ce sont les divers relevés effectués sur les individus d’un échantillon
de la population.
– Les variables ou caractères : ce sont les caractéristiques étudiées sur les individus
2.2 Variables qualitatives 23
d’une population. Ils sont de deux types :

– quantitatifs : leur détermination produit un nombre ou une suite de nombres. Il
s’agit par exemple de la taille, du poids, du salaire, d’un relevé de notes, de la
température,....
– qualitatifs : il peut s’agir par exemple du sexe, de la couleur des yeux, d’une profes-
sion, de la marque d’une voiture,.....
Remarques :
– Il est important de bien faire la distinction entre ces deux types de caractères car
les méthodes statistiques pour en faire l’étude diffèrent selon le type de variable
étudiée.
– Un caractère ou une variable de type qualitatif peut être tranformé en variable de
type quantitatif par codage. Mais ce codage est conventionnel et n’a pas de sens
quantitatif. Par exemple, vous ne pouvez pas calculer la moyenne sur la couleur des
yeux d’une personne.
– Certaines variables de type qualitatif s’expriment à l’aide de nombres. C’est le cas
par exemple du numéro de téléphone. Mais elles n’ont pas de sens quantitatif puisque
parler par exemple de numéro de téléphone moyen n’est pas pertinent.
2.2 Variables qualitatives

Définition : Une variable de type qualitatif est une variable pour laquelle la valeur me-
surée sur chaque individu ne représente pas une quantité. Elle n’est donc pas numérique
contrairement aux variables de type quantitatif. Les différentes valeurs que peut prendre
cette variable sont appelées les catégories, modalités ou niveaux.
Exemples :
– Considérons la variable qualitative ”Essence d’un arbre dans un peuplement”. Les
différentes modalités de cette variable sont : chêne, hêtre, sapin,...
– Considérons la variable ”Sexe”. Les deux modalités de cette variable sont : masculin
et féminin.
Une variable de type qualitatif peut être de deux types :
– nominale : les modalités ne sont pas ordonnées.

– ordinale : les modalités sont ordonnées.
Exemples :
– La variable ”couleur des yeux” est une variable de type qualitatif nominale. En effet,
les modalités ”bleu”, ”vert”, ”marron”, ....ne sont pas ordonnées.
– La variable ”mention pour le diplôme d’ingénieur” est une variable de type qualitatif
ordinale. En effet, les modalités ”Excellent”, ”Très-bien”, ”Bien”, ....sont ordonnées.
Remarques :
– Le nombre de modalités d’une variable de type qualitatif est plus ou moins fixé conven-
tionnellement selon le type de caractère étudié.
– Chaque individu doit appartenir à une modalité car tous les cas doivent avoir été
prévus (exhaustivité).
– Un individu ne peut pas appartenir à deux modalités ou plus (incompatibilité).
– Une variable de type qualitatif est dite binaire si elle ne comporte que deux modalités.
Par exemples, les variables ”Sexe”, ”Santé” (malade ou sain) et ”Maladie” (présence
ou absence) sont binaires. Il est possible de les coder en 0 et 1.
Distribution d’une variable qualitative.
Soit X une variable de type qualitatif présentant p modalités. Notons par ni , i = 1, . . . , p,

les effectifs de chacune de ces modalités. Alors, donner la distribution de la variable X
revient à :
– donner les effectifs ni de chaque modalité, c’est à dire le nombre de fois que chaque
P
modalité est attribuée. L’effectif cumulé est égal à pi=1 ni .
– calculer les fréquences fi associées à chacune des modalités. Elles correspondent à
l’effectif de la modalité divisé par l’effectif total, soit ∀i = 1, . . . , p,
ni
fi = Pp .
i=1 ni
Elles sont souvent exprimées en pourcentages. La fréquence cumulée à la modalité i

P
est égale à ij=1 fj .
Exemple sous R :
Le fichier ”Mesures”, issu du package ”BioStatR”, contient des données concernant les
haricots ramassés par un jardinier sur son terrain. Ils ont été ramassés sur quatres espèces
différentes de plantes. Le jardinier a relevé la masse, la taille et l’espèce de chaque haricot.
L’ensemble des haricots de son jardin constitue la population. Il en a ramassé 252, ce qui
constitue l’échantillon. Les variables étudiées sont la masse, la taille et l’espèce. Les deux
premières sont de type quantitatif, la troisième de type qualitatif.
Les commandes suivantes permettent de charger en mémoire les fonctions et jeux de
données de la bibliothèque ”BioStatR” et d’afficher le jeu de données ”Mesures” contenu
dans cette bibliothèque :
> library(BioStatR)
> M esures
Vous pouvez par exemple demander à R d’afficher les 6 premières lignes de ce fichier :
> head(M esures)
masse taille espece
1 28.6 19.1 glycineblanche
Remarque : la commande > tail(M esures) permet d’afficher les six dernières lignes du jeu
de données Mesures.
Nous nous intéressons ici à la variable espèce qui comporte quatre modalités : ”bignone”,
”glycine blanche”, ”glycine violette” et ”laurier rose”. Pour retrouver ces modalités sous
R:
> levels(M esures$especes)

[1] ”bignone” ”glycineblanche” ”glycineviolette” ”laurierrose”
Pour obtenir le tableau des effectifs de la variable espece sous R :
> table(M esures$espece)

bignone glycineblanche glycineviolette laurierrose
70 54 56 72
Pour obtenir le tableau des effectifs cumulés de la variable espece sous R :
> cumsum(M esures$espece)

1 2 3 4
70 124 180 252
Pour obtenir le tableau des fréquences de la variable espece sous R :

> table(M esures$espece)/sum(table(M esures$espece))

1 2 3 4
0.28 0.21 0.22 0.29
Autre méthode pour obtenir le tableau des fréquences de la variable espece sous R :
> prop.table(table(M esures$espece))

1 2 3 4
0.28 0.21 0.22 0.29
Pour obtenir le tableau des fréquences cumulées de la variable espece sous R :
> cumsum(table(M esures$espece)/sum(table(M esures$espece)))

1 2 3 4
0.28 0.49 0.71 1.00
Autre méthode pour obtenir le tableau des fréquences cumulées de la variable espece
sous R :
> cumsum(prop.table(table(M esures$espece)))

1 2 3 4
0.28 0.49 0.71 1.00
Représentation graphique de la distribution d’une variable qualitative.
– Le diagramme à barres verticales des effectifs ou des fréquences est une représentation
graphique de la distribution d’une série statistique qualitative par un ensemble de rec-
tangles. L’axe des abscisses correspond aux différentes modalités du caractère série
étudiée et l’axe des ordonnées aux effectifs ou fréquences associés. Ce type de dia-
gramme peut également être horizontal, les différentes modalités de la variable expli-
cative se trouvant sur l’axe des ordonnées et les effectifs ou fréquences sur l’axe des
abscisses.
– Le diagramme à points vertical des effectifs ou des fréquences est une représentation
graphique de la distribution d’une série statistique qualitative par un ensemble de
points. L’axe des abscisses correspond aux différentes modalités du caractère série
étudiée et l’axe des ordonnées aux effectifs ou fréquences associés. Ce type de dia-
gramme peut également être horizontal, les différentes modalités de la variable expli-
cative se trouvant sur l’axe des ordonnées et les effectifs ou fréquences sur l’axe des
abscisses.
– Le diagramme circulaire (ou camembert) est une représentation graphique de la
distribution d’une série statistique qualitative. à chacune des modalités du caractère

est associée une portion circulaire du diagramme proportionnelle à sa fréquence.
Exemple avec R :
– Diagramme en bâtons :
> plot(table(M esures$espece), type = ”h”, lwd = 4, col = ”red”, xlab = ”Especes”, ylab =
”Ef f ectif s”)
– L’option type permet de choisir le type de graphique souhaité. Ici, le h signifie que
l’on souhaite un graphe de type histogramme.
– L’option lwd pour line width donne la largeur des barres verticales, ici 4.
– L’option col permet de choisir la couleur des barres, ici rouge.
– Les options xlab et ylab permettent respectivement d’afficher un titre respectivement
sous l’axe de abscisses et des ordonnées.
– Polygone des effectifs cumulés :

> plot(cumsum(table(M esures$espece)), type = ”h”, lwd = 4, col = ”red”, xlab =
”Especes”, ylab = ”Ef f ectif s”)
> lines(cumsum(table(M esures$espece)), lwd = 4)
2.3 Variables quantitatives 28
– Diagramme circulaire :
> pie(table(M esures$espece),
labels = c(”bignone”, ”glycineblanche”, ”glycineviolette”, ”laurierrose”), col = rainbow(7))
2.3 Variables quantitatives

Définition : Une variable de type quantitatif est une variable pour laquelle la valeur me-
surée sur chaque individu représente une quantité. Elle est donc de type numérique contrai-
rement aux variables de type qualitatif. Lorsque la variable prend des valeurs isolées, on dit
qu’elle est de type quantitatif discret. Lorsqu’en revanche celle-ci prend toutes les valeurs
d’un intervalle, on dit qu’elle est de type quantitatif continu.

Exemples :
– Les variables ”nombre de personnes dans la famille”, ”nombre de visites au centre
commercial dans le mois”, ”nombre d’arbres par placette” sont des variables de type
quantitatif discret.
– Les variables ”température”, ”poids”, ”taille” sont des variables de type quantitatif
continu.
Une variable de type quantitatif peut être de deux types :
– simple ou univariée : la mesure sur un individu produit un seul nombre.

– multiple : la mesure sur un individu produit une suite finie de nombres.
Exemples :
– La variable ”Poids d’un individu” est une variable de type quantitatif simple.
– La variable ”Relevé de températures pour une ville pendant un an” est une variable
de type quantitatif multiple.
Distribution d’une variable quantitative.
Soit X une variable de type quantitatif discret ou continu. Supposons que X prenne les
valeurs x1 , . . . , xn . Notons par ni , i = 1, . . . , n, les effectifs de chacune de ces modalités.
Alors, donner la distribution de la variable X revient à :
– donner les effectifs ni de chaque modalité, c’est à dire le nombre de fois que la valeur
P
xi est prise. L’effectif cumulé en xi est égal à ij=1 nj .
– calculer, pour tout i = 1, . . . , n les fréquences fi associées à chacune des valeurs xi .
Elles correspondent à l’effectif ni divisé par l’effectif total, soit ∀i = 1, . . . , n,
ni
fi = Pn .
i=1 ni
Elles sont souvent exprimées en pourcentages. La fréquence cumulée en xi est égale à

Pi
j=1 fj .
Remarques :
– La suite de couples ((xi , ni ))i=1,...,n ou ((xi , fi ))i=1,...,n est appelée distribution statis-
tique de la variable X.
– Par définition, la somme des effectifs est égale à l’effectif total.

– Par définition, la somme des fréquences est égale à 1.
Soit X une variable de type quantitatif discret ou continu. Lorsque X prend un nombre
trop important de valeurs, il est préférable de regrouper ces valeurs en intervalles appelés
classes pour rendre la statistique plus lisible. L’ensemble des valeurs prises par X est alors
partagé en classes de la forme ]ai ; ai+1 ] avec ai < ai+1 pour tout i = 1, . . . , n. Alors, donner
la distribution de X revient à :
– donner les effectifs ni de chaque classe pour i = 1, . . . , n, c’est à dire le nombre de

valeurs prises par le caractère dans l’intervalle ]ai ; ai+1 ]. L’effectif cumulé en ai est le
nombre de valeurs prises dans l’intervalle ] − ∞; ai ].
– calculer, pour tout i = 1, . . . , n, les fréquences fi associées à la classe ]ai ; ai+1 ]. Elles
correspondent à l’effectif ni divisé par l’effectif total, soit ∀i = 1, . . . , n,
ni
fi = Pn .
i=1 ni
Elles sont souvent exprimées en pourcentages. La fréquence cumulée en ai est égale à

Pi
j=1 fj .
Remarque : La donnée du couple (]ai ; ai+1 ], ni )i=1,...,n ou (]ai ; ai+1 ], fi )i=1,...,n représente
la distribution statistique de la variable X.
Exemple sous R : Nous nous intéressons toujours au jeu de données Mesures et cette fois à la
variable masse (des haricots). Cette variable est de type quantitatif continu. Nous pouvons
l’étudier soit en considérant l’ensemble de ses valeurs soit en faisant des regroupements en
classes. C’est cette deuxième alternative que nous choisissons car le nombre de valeurs est
trop important.
Pour obtenir la plage de valeurs de la variable masse :

> minmax < −c(min(M esures$masse), max(M esures$masse))
> minmax
[1] 1.0 49.2
Pour créer des classes :

> histo < −hist(M esure$masse)
> classes < −histo$breaks
> classes
[1] 0 5 10 15 20 25 30 35 40 45 50
Pour obtenir les effectifs correspondants aux dix classes :

> ef f ectif s < −histo$counts
> ef f ectif s
[1] 82 58 51 23 16 12 4 2 1 3
Pour obtenir les effectifs cumulés :

> cumsum(ef f ectif s)
[1] 82 140 191 214 230 242 246 248 249 252
Pour obtenir les fréquences :

> f requences < −ef f ectif s/sum(ef f ectif s)
> f requences
[1] 0.325 0.231 0.202 0.091 0.064 0.047 0.016 0.008 0.004 0.012
Pour obtenir les fréquences cumulées :

> cumsum(f requences)
> [1] 0.325 0.556 0.758 0.849 0.913 0.96 0.976 0.984 0.988 1
Remarque : Vous pouvez vérifier que la somme des fréquences vaut 1 en utilisant la
commande > sum(f requences).
Représentation graphique de la distribution d’une variable quantitative.
– Le diagramme à barres verticales des effectifs (ou des fréquences) est une représentation
graphique de la distribution d’une série statistique quantitative discrète par une suite
de segments verticaux d’abscisse xi (avec i = 1, . . . , n) dont la longueur est propor-
tionnelle à l’effectif (ou à la fréquence) des xi .
– Le polygone des effectifs (ou des fréquences) de la distribution d’une série statistique
quantitative discrète est obtenu à partir du diagramme à barres des effectifs (ou des
fréquences) en joignant par un segment le sommet des btons.
– En remplaçant dans la définition précédente le mot effectifs (ou fréquences) par effectifs
cumulés (ou fréquences cumulées) vous obtenez le polygone des effectifs cumulés (ou
des fréquences cumulées).
– L’histogramme est une représentation graphique de la distribution dune série statis-

tique quantitative pour laquelle des classes ont été crées. Deux cas se distinguent :
1. dans le cas où les amplitudes des classes sont égales, cet histogramme est un
ensemble de rectangles de largeur l’amplitude a de la classe. La hauteur de chaque
rectangle est égale à K (une constante arbitraire) multipliée par l’effectif de la
classe de sorte que l’aire totale sous l’histogramme soit égale à K × N × a où N
est l’effectif total.
2. dans le cas de classes d’amplitudes kj × a inégales, on convient de prendre pour

hauteur du rectangle de la classe j le quotient (K × nk )/kj .
– Le polygone des effectifs (ou des fréquences) de la distribution d’une série statistique
quantitative regroupée en classes est obtenu en joignant dans l’histogramme de cette
distribution les milieux des côtés horizontaux supérieurs.
– Deux autres graphiques, la boı̂te à moustaches (box-plot) et le diagramme tige-

feuille (histogramme de Tukey), sont utilisés pour décrire la distribution d’une va-
riable de type quantitatif. Nous les étudierons plus tard.
Exemple avec R :
– Histogramme :
> hist(M esures$masse, main = ”Histogramme des masses”, xlab = ”M asse”, ylab =
”Ef f ectif s”)
– L’option main permet de donner un titre au graphique.
– Les options xlab et ylab permettent respectivement d’afficher un titre respectivement

sous l’axe de abscisses et des ordonnées.
– Les commandes successives

> histo < −hist(M esures$masse, plot = F ALSE)
> classes < −histo$breaks
> classes
permettent de récupérer les classes de l’histogramme.
– Les commandes successives

> ef f ectif s < −histo$counts
> ef f ectif s
2.4 Calculs numériques sur les variables quantitatives 33
permettent de récupérer les effectifs de chaque classe de l’histogramme.
2.4 Calculs numériques sur les variables quantitatives

La distribution d’une variable X possède un certain nombre d’indicateurs qui vont en
permettre l’étude plus approfondie :
– Les paramètres de position : moyenne, médiane, mode, classe modale et quartiles.
– Les paramètres de dispersion : étendue, variance et écart-type.
– Les paramètres de forme : skewness (coefficient d’asymétrie) et kurtosis (coefficient

d’applatissement).
2.4.1 Les paramètres de position

Un paramètre de position est une valeur centrale sur laquelle se répartissent les obser-
vations.
– La moyenne arithmétique : c’est l’indicateur de tendance centrale le plus utilisé

pour décrire une série statistique quantitative discrète ou continue. Elle est donnée
par :
n n
1 X X
µ̂n = xi n i = xi f i
N i=1 i=1
avec N l’effectif total, ni l’effectif de chaque valeur de la distribution xi .

Remarques :
– Pour une distribution qui aurait été regroupée en classes de la forme (]ai ; ai+1 ])i=1,...,n ,
la moyenne arithmétique se calcule par :
n
1 X
µ̂n = ci ni
N i=1
ai +ai+1
où ci est le centre de la classe ]ai ; ai+1 ] et vaut, pour i = 1, . . . , n, ci = 2
.
– La moyenne est cependant sensible aux valeurs extrêmes.
– Lorsque la distribution présente de fortes ou faibles valeurs isolées, il vaut mieux se
tourner vers le calcul de la médiane.
– La médiane : c’est le paramètre de position qui permet de séparer l’échantillon étudié

en deux parties égales. Elle se note généralement M ou Q0.5 . Elle est définie selon deux
cas :
1. Si l’on classe les n valeurs de la série par ordre croissant et qu’elles sont en nombre
impair, la médiane correspond alors à :
M = x (n+1)
2
où x( ) est la statistique d’ordre.
2. Si l’on classe les n valeurs de la série par ordre croissant et qu’elles sont en nombre
pair, la médiane correspond alors à :
x (n) + x (n+2)
2 2
M=
2
Exemples :
– Supposons que les données soient les suivantes :
1223467
Elles sont en nombre impair et la médiane vaut M = 3.

– Supposons que les données soient les suivantes :
122346
2+3
Elles sont en nombre pair et la médiane vaut M = 2
= 2.5.
Remarques :
– De part sa définition, la médiane est non sensible aux valeurs extrêmes.

– Elle se prête mal aux calculs c’est pourquoi on lui préfère en général le calcul de la
moyenne.
– Une distribution est dite symétrique si il existe une valeur autour de laquelle les
observations se répartissent symétriquement. Dans ce cas, cette valeur est alors
confondue avec la moyenne et la médiane, alors égales.
– La médiane correspond au deuxième quartile.
– Les quartiles : ce sont des valeurs de la distribution qui permettent de séparer celle-ci
en deux parties :
– La médiane ou Q0.5 permet de séparer la distribution en deux parties égales, c’est

à dire que 50% des observations de la distribution se trouvent à gauche de Q0.5 et
les 50% restants se trouvent à droite de Q0.5 .
– Le premier quartile ou Q0.25 est tel que 25% des observations de la distribution
se trouvent à gauche de Q0.25 et 75% des observations de la distribution se trouvent
à droite de Q0.25 .
– Le troisième quartile ou Q0.75 est tel que 75% des observations de la distribution
se trouvent à gauche de Q0.75 et 25% des observations de la distribution se trouvent
à droite de Q0.75 .
Remarques :
– Soit α ∈ [0; 1]. D’une manière générale, le quantile Qα est tel que α × 100% des
observations de la distribution se trouvent à gauche de Qα et (1 − α) × 100% des
observations de la distribution se trouvent à droite de Qα .
– On s’intéresse souvent à l’intervalle inter-quartiles à savoir [Q0.25 ; Q0.75 ] qui permet
de retrouver 50% de la distribution.
– Il arrive que les premier et troisième quartiles et la médiane (deuxième quartile)
soient respectivement notés Q1 , Q3 et Q2 .
Exemple :
Supposons que les données soient les suivantes :
1 11 15 19 20 24 28 34 37 47 50 57
– Le premier quartile Q1 ou Q0.25 vaut 15.

– Le deuxième quartile Q2 , Q0.5 ou médiane vaut 26.
– Le troisième quartile Q3 ou Q0.75 vaut 37.
– Le mode d’une distribution statistique x1 , . . . , xn est l’une de ses valeurs dont la

fréquence est maximale. Lorsque la distribution statistique est regroupée en classes,
on parle de classe modale c’est à dire de la classe dont le rapport fréquence/longueur
est maximal.
Exemple : supposons que les valeurs d’une distribution statistique discrète soient :
1 2 2 2 5 6 6 8. Alors, le mode de cette distribution est 2.
Remarque : Une distribution est dite unimodale si elle a un seul mode. Sinon, elle
est dite plurimodale.
2.4.2 Les paramètres de dispersion

Le mot ”dispersion” est fondamental en Statistique.
– L’étendue : c’est la différence entre la plus grande valeur et la plus petite valeur de
la série statistique étudiée. Soit X, le caractère étudié. Alors :
e(X) = max(X) − min(X).
Exemple : Soit la variable X prenant les valeurs 1 5 2 9 6. Alors, l’étendue de X est

9 − 1 = 8.
Remarque : C’est un indicateur instable car il est sensible aux valeurs extrêmes.
– L’étendue interquartiles est la différence entre le troisième quartile Q3 ou Q0.75 et

le premier quartile Q1 ou Q0.25 de la série statistique étudiée. L’intervalle interquartiles
[Q0.25 ; Q0.75 ] comporte 50% des observations.
Remarque : Nous retrouverons l’intervalle interquartiles lorsque nous étudierons les

boı̂tes à moustaches ou Box-plot.
– La variance : c’est le nombre réel positif qui donne la moyenne des carrés des écarts
à la moyenne arithmétique.
Dans le cas d’une distribution statistique quantitative discrète ou continue d’une va-
riable X, prenant les valeurs x1 , . . . , xn avec les effectifs ni , i = 1, . . . n,
Xn n
1 X
V (X) = S 2 (X) = (xi − µ)2 fi = (xi − µ)2 ni
i=1
N i=1
avec les fréquences fi pour i = 1, . . . , n de la distribution définies par fi = nNi où N

est l’effectif total.
Dans le cas d’une distribution statistique quantitative discrète ou continue, regroupée en
classes d’amplitudes égales à a, la variance se calcule en général en utilisant la correction
de Sheppard. Elle est égale au nombre réel positif :
Xn n
2 2 a2 1 X a2
V (X) = S (X) = (xi − µ) fi − = (xi − µ)2 ni −
i=1
12 N i=1 12
ni
avec les fréquences fi pour i = 1, . . . , n de la distribution définies par fi = N
où N est
l’effectif total.
Remarque :
La formule de Huyens : S 2 (X) = µ(X 2 ) − µ2 (X) où µ(X 2 ) est la moyenne du carré des
valeurs de la distribution est souvent préférée et conseillée car elle ne fait intervenir qu’une
seule fois le calcul de la moyenne qui est souvent arrondi et non une valeur exacte dans le
calcul de la variance. Cela implique donc moins d’erreurs de calcul.
Un autre type de variance est fréquemment utilisé en Statistique, il s’agit de la variance

corrigée, définie par :
n
2 1 X N
σ (X) = (xi − µ)2 ni = S 2 (X).
N − 1 i=1 N −1
Remarques :
– Nous reparlerons de cette variance dans le cours sur l’estimation et les intervalles de
confiance.
– Le passage de la variance à la variance corrigée se fait simplement en multipliant par

le coefficient NN−1 .
– Avec le logiciel R, c’est la variance corrigée qui est calculée.
L’écart-type : c’est la racine carrée de la variance d’une distribution statistique X,
p
σ(X) = V ar(X).
Remarque : Nous retrouverons l’écart-type dans de nombreuses formules du chapitre sur

l’estimation et les intervalles de confiance.
Le coefficient de variation : il est défini pour un caractère X positif. Il est égale au

rapport de l’écart-type σ(X) avec la moyenne arithmétique µ(X).
Remarque :
Ce coefficient n’a pas d’unité. Il permet de comparer des séries statistiques entre elles
qui n’ont pas les mêmes unités. Par exemple, lorsqu’on veut comparer les températures de
différents pays, il est utilisé puisque plusieurs unités coexistent. Nous en reparlerons au
second semestre lorsque nous étudierons la régression linéaire.
2.4.3 Les paramètres de forme

– Le moment centré d’ordre r d’une distribution statistique X quantitative discrète,
prenant les valeurs x1 , . . . , xn , est égal à :
n
X
mr (X) = (xi − µ)r fi
i=1
où les fi pour i = 1, . . . , n sont les fréquences associées à chaque observation xi .
– Le coefficient d’asymétrie de Fisher d’une série statistique est la quantité :
m3 (x)
γ1 (x) =
.
S 3 (x)
– Le coefficient d’asymétrie de Pearson d’une série statistique est la quantité :
(m3 (x))2
β1 (x) = = γ12 (x).
(S 3 (x))2
2.5 Applications avec le logiciel R 39
– Le coefficient d’aplatissement de Fisher d’une série statistique est la quantité :
m4 (x)
γ2 (x) = − 3.
(S(x))4
– Le coefficient d’aplatissement de Pearson d’une série statistique est la quantité :
m4 (x)
β2 (x) = .
(S(x))4
Remarques :
– Le coefficient d’asymétrie (ou skewness) mesure l’asymétrie de la distribution d’une
variable quantitative.
– Le coefficient d’aplatissement (ou kurtosis) mesure l’aplatissement de la distribution
d’une variable quantitative.
2.5 Applications avec le logiciel R

Pour illustrer les différents paramètres que nous venons d’énumérer, à savoir les pa-
ramètres de position, de dispersion et de forme, nous allons utiliser l’exemple dans lequel
nous nous intéressons à la masse d’haricots, qui est bien une variable quantitative.
– La moyenne arithmétique : elle s’obtient en utilisant la fonction mean sur la va-

riable masse du jeu de données Mesures :
> mean(M esures$masse)

[1] 11.13056
La moyenne arithmétique de la variable masse du jeu de données Mesures s’obtient

également en utilisant la fonction summary :
> summary(M esures$masse)

M in. 1stQu. M edian M ean 3rdQu. M ax
1.00 4.50 8.40 11.13 14.60 49.20
Remarque : La fonction summary permet d’afficher d’autres caractéristiques de la dis-
persion dont entre autres le minimum et le maximum des valeurs de la distribution de la
variable masse.
– Pour obtenir l’étendue de la distribution, deux méthodes sont possibles :

> max(M esures$masse) − min(M esures$masse)

[1] 48.2
> dif f (range(M esures$masse))

[1] 48.2
avec la fonction range qui permet d’obtenir le minimum et le maximum de la série.

Remarquons qu’il n’existe pas sous R de fonction permettant de calculer directement
l’étendue.
– L’étendue interquartile de la variable masse du jeu de données Mesures se calcule

avec :
> IQR(M esures$masse)

[1] 10.1
Remarque : Nous verrons une autre méthode pour effectuer ce calcul lorsque nous verrons
comment calculer avec R les quantiles d’une distribution.
– La variance de la variable masse du jeu de données Mesures est donnée par :
> var(M esures$masse)

[1] 81.0281
Remarque : R calcule la variance corrigée. Pour revenir au calcul de la variance normale,
il suffit de multiplier le résultat ci-dessus par NN−1 .
– L’écart-type de la variable masse du jeu de données Mesures est donné par :
> sd(M esures$masse)

[1] 9.001561
Remarques :
1. sd est l’abréviation de ”Standard Deviation”.
2. L’écart-type calculé par R est l’écart-type corrigé c’est à dire la racine carrée de la
variance corrigée.
– Le coefficient de variation de la variable masse du jeu de données Mesures est donné

par :
> library(BioStatR)
> cvar(M esures$masse)
[1] 80.87253
– Les caractéristiques de forme s’obtiennent à partir de la bibliothèque agricolae :
> library(agricolae)
> skewness(M esures$masse)
[1] 1.639849
> kurtosis(M esures$masse)

[1] 3.080963
– Les quantiles et en particulier les quartiles s’obtiennent à partir de la fonction

quantile : par exemple, pour obtenir le quantile d’ordre 50% (ou médiane) de la variable
masse du jeu de données Mesures :
> quantile(M esures$masse, 0.50)

[1] 8.4
Le résultat signifie que 50% des observations de la distribution de la variable masse sont
plus petites que 8.4 et les 50% restantes sont plus grandes que 8.4.
> median(M esures$masse)

[1] 8.4
Le quantile d’ordre α de la variable masse du jeu de données Mesures s’obtient donc avec
les commandes :
> quantile(M esures$masse, α)
Remarque :
Nous avons vu que la fonction summary permet d’afficher simultanément les premier,
deuxième et troisième quartiles d’une distribution. Elle affiche également le minimum,
le maximum et la moyenne de la distribution. Nous l’utiliserons souvent afin d’avoir un
aperçu général des divers paramètres de la distribution.
Exemples :
Pour obtenir le premier quartile de la variable masse du jeu de données Mesures :

[1] 4.5
Pour obtenir le troisième quartile de la variable masse du jeu de données Mesures :


[1] 14.6
Pour obtenir les trois quartiles de la variable masse du jeu de données Mesures simul-
tanément :
> quantile(M esures$masse, c(0.25, 0.5, 0.75))
[1] 4.5 8.4 14.6
– La boı̂te à moustaches ou box-plot est un graphique sur lequel sont représentées de

nombreuses caractéristiques de position et de dispersion. C’est en fait un moyen rapide
d’afficher le profil essentiel d’une variable quantitative. Vous verrez apparaı̂tre le premier
quartile, la médiane, le troisième quartile, l’étendue, l’étendue interquartile, la moyenne
(optionnel) et s’il y en a des valeurs atypiques par rapport au reste de la distribution.
Construction d’une telle boı̂te :
– Le premier quartile, noté Q1 , est le trait inférieur de la boı̂te.
– Le troisième quartile, noté Q3 , est le trait supérieur de la boı̂te.
– La médiane (qui est aussi le deuxième quartile ou Q2 ) est représentée par un trait
horizontal au sein de la boı̂te.
– Les valeurs atypiques sont représentées soit par un cercle (sous R) soit par une étoile.
– Les moustaches inférieures et supérieures sont représentées par des pointillés (sous R)
ou des traits pleins verticaux de chaque côté de la boı̂te qui se terminent par des traits
horizontaux.
Les moustaches sont construites de différentes manières :
– la moustache inférieure est la valeur de la série immédiatement supérieure à Q1 −

1.5 × (Q3 − Q1 ) (frontière basse) et la moustache supérieure est celle immédiatement
inférieure à Q3 + 1.5 × (Q3 − Q1 ) (frontière haute).
– la moustache inférieure est le premier décile (ou Q0.10 ) et la moustache supérieure est
le neuvième décile (ou Q0.90 ).
– la moustache inférieure est le minimum de la distribution et la moustache supérieure
est le maximum de la distribution.
Remarques : Une boı̂te utilisant la deuxième convention est appelée ”boı̂te à pattes”. La
dernière convention est beaucoup moins utilisée que les deux précédentes.
Sous R, nous obtenons la boı̂te à moustache de la variable masse du jeu de données

Mesures avec la fonction boxplot :
> boxplot(M esures$masse)

> title(”Boı̂te à moustaches de la variable masse”)
Nous pouvons également obtenir plusieurs boı̂tes à moustaches en parallèle selon les
modalités d’une variable qualitative, par exemple ici les boı̂tes à moustache de la variable
masse du jeu de données Mesures en fonction des différentes especes :
> boxplot(M esures$masse ˜M esures$espece, col = rainbow(4))
Pour obtenir quelques statistiques concernant la boı̂te à moustaches ainsi que les valeurs
atypiques de la distribution il faut utiliser la fonction boxplot.stats :
> boxplot.stats(M esures$masse)
$stats
[1] 1.0 4.5 8.4 14.6 29.6
$n
[1] 252
$conf
[1] 7.39474 9.40526
$out
[1] 32.0 35.5 32.5 40.0 49.2 46.0 42.2 48.4 31.7 33.7
– $stats donne l’extrêmité inférieure de la moustache inférieure, le 1er quartile, la médiane,
le troisième quartile et l’extrémité supérieure de la moustache supérieure.
– $n est la taille de l’échantillon représenté.
– $conf donne un intervalle de confiance approximatif pour la médiane. Nous verrons

plus tard ce qu’on appelle intervalle de confiance.
– $out donne les observations atypiques.

Remarques :
– Les boı̂tes à moustaches, même si elles sont moins précises qu’un histogramme, sont
des résumés graphiques efficaces des données car elles ne nécessitent pas d’effectuer des
regroupements en classes.
– Il ne faut pas confondre valeur atypique avec valeur aberrante. Une valeur aberrante
est une valeur qu’il est impossible d’avoir observé pendant l’expérience car elle entre
en contradiction avec vos connaissances et le contexte expérimental. Elle peut être due
à une erreur de mesure, de relevé ou de saisie.
– Il est possible avec R de faire apparaı̂tre la moyenne sur le graphe boxplot.
– Le diagramme tige-feuille appelé histogramme de Tukey fournit des informations

plus précises que celles d’un histogramme. En effet, il permet de montrer les fréquences de
certaines classes mais aussi de représenter les valeurs des données ce qui autorise le calcul
direct de la médiane, des premier et troisième quartiles, du minimum et du maximum de
l’échantillon étudié.
La fonction stem de la bibliothèque RCMDR permet de tracer un tel graphique de la

variable masse du jeu de données Mesures :
> stem(M esures$masse)
Remarque : Ce diagramme porte parfois le nom de ”stem and leaf”.

Chapitre 3
Lois de probabilité usuelles
3.1 Introduction
Buts de ce chapitre :
– Présentation des lois discrètes nécessaires à la modélisation de phénomènes naturels.
– Présentation de la loi fondamentale en Statistique à savoir la loi de Gauss ou loi

Normale.
– Présentation des lois continues utiles pour la construction d’intervalles de confiance

et pour la réalisation de tests statistiques.
– Présentation sous R des diverses commandes permettant d’obtenir les quantiles et

probabilités dans le cas discret et les densités et fonctions de répartition dans le cas
continu.
Quelques définitions :
– Une variable aléatoire : Dans la plupart des phénomènes aléatoires, le résultat d’une
épreuve peut se traduire par une grandeur mathématique, très souvent représentée par
un nombre. La notion mathématique qui représente efficacement ce genre de situation
concrète est celle de variable aléatoire (ou va) notée X. C’est donc une fonction définie
sur l’ensemble des résultats possibles d’une expérience aléatoire, telle qu’il soit possible
de déterminer la probabilité pour qu’elle prenne une valeur donnée ou qu’elle prenne une
valeur dans un intervalle donné.
Exemples de variables aléatoires :

– Temps de désintégration d’un atome radioactif.
47
3.1 Introduction 48
– Pourcentage de réponses oui à une question posée dans un sondage.

– Nombre d’enfants d’un couple.
– Résultat obtenu au lancer d’un dé.
Exemples :
– Si l’on considère une fratrie de deux enfants, l’ensemble des résultats possibles est :
{GG, GF, F G, F F }
Les valeurs possibles prises par la variable aleatoire X, nombres de filles dans la famille,
sont :
{0, 1, 2}
– Si l’on considère la variable aléatoire X qui est le résultat du lancer d’un dé (non
truqué) les valeurs possibles prises par cette variable sont :
{1, 2, 3, 4, 5, 6}
– Fonction de répartition : Considérons X une variable aléatoire. La fonction de

répartition de la variable aléatoire X est la fonction numérique réelle FX définie par :
∀x ∈ R, FX (x) = P (X ≤ x).
Remarques :
1. ∀x ∈ R, FX (x) ∈ [0; 1].
2. FX est une fonction croissante sur R.
3. Pour tous réels a et b, P (a < X ≤ b) = FX (b) − FX (a).
Variable aléatoire discrète : une variable aléatoire discrète X est une variable telle que
l’ensemble de ses valeurs est au plus dénombrable. La loi de probabilité d’une telle variable
est la donnée de l’ensemble des probabilité
P (X = k) = pX (k)
avec k qui parcourt l’ensemble des valeurs prises par la variable aléatoire.
Par ailleurs, les probabilités pX (k) vérifient, pour tout k :

3.1 Introduction 49
1. ∀k, pX (k) ≥ 0.
P
2. k pX (k) = 1.
P P
3. pour tout réel x, FX (x) = P (X ≤ x) = k≤x pX (k) = k≤x P (X = k).
Exemple : Revenons à l’exemple du lancer du dé (non truqué). Soit X la variable aléatoire
”résultat du lancer du dé”. Nous avons vu qu’elle peut prendre les valeurs de 1 à 6. Cet
ensemble de valeurs est dénombrable donc il s’agit d’une variable aléatoire discrète. Nous
avons par ailleurs :
1. ∀k ∈ {1, 2, 3, 4, 5, 6}, pX (k) = P (X = k) = 16 .

P6 P6 1 1
P6
2. la somme des probabilités est bien égale à 1 : k=1 pX (k) = k=1 6 = 6 k=1 1 = 1.
3
3. par exemple, FX (3) = P (X ≤ 3) = P (X = 1) + P (X = 2) + P (X = 3) = 6
= 12 .
– Variable aléatoire continue : une variable aléatoire continue X est une variable
telle que l’ensemble de ses valeurs est contenu dans R. La densité de probabilité de
X ou encore la densité de la loi de probabilité de X est donnée par l’existence d’une
fonction fX définie sur R telle que :
1. ∀t ∈ R, fX (t) ≥ 0.
R
2. R fX (t)dt = 1.
Rx
3. pour tout réel x, FX (x) = P (X ≤ x) = −∞
fX (t)dt.
Exemple : Les variables suivantes sont des variables continues.
– Un relevé de température.
– La taille ou le poids d’un individu.
– En général, toutes les variables relevant d’une mesure sont continues.
– Le temps d’attente à une caisse d’un supermarché.
– La longueur d’un train.
Illustration de la densité de probabilité d’une variable aléatoire continue.
Exemple 1 :
3.2 Lois de probabilité discrètes 50
Exemple 2 :
Exemple 3 :
Fonction de répartition : FX (a) = P (X ≤ a)
Illustration de P (a < X ≤ b)
3.2 Lois de probabilité discrètes

– Loi de Bernoulli de paramètre p, notée B(1; p). Une variable aléatoire X suit une loi
de Bernoulli de paramètre p si elle prend la valeur 1 avec la probabilité p et la valeur
0 avec la probabilité 1 − p = q.
Exemple : Un exemple simple est celui de la pièce de monnaie. Si celle-ci n’est pas
truquée, lorsque vous lancez une telle pièce, il y a deux résultats possibles : pile ou
face avec comme probabilités respectives p = 0.5 et q = 0.5.
– Loi Binomiale de paramètres n et p, notée B(n; p). Une variable aléatoire X suit
une loi Binomiale de paramètres n et p si elle prend la valeur k avec la probabilité
P (X = k) = Cnk pn (1 − p)n−k .
Exemple : Revenons à l’exemple de la pièce de monnaie. Si celle-ci n’est pas truquée,
lorsque vous lancez une telle pièce, il y a deux résultats possibles : pile ou face avec comme
probabilités respectives p = 0.5 et q = 0.5. Si cette expérience du lancer de la pièce est
renouvelée n fois, la variable X, ”nombre de fois où la pièce est tombe sur la face pile lors
du lancer des n pièces”, suit alors une loi Binomiale de paramètres n et p = 0.5.
Remarques :
1. Pour n = 1, on retrouve la loi de Bernoulli ce qui est normal puisque l’expérience

n’est répétée qu’une seule fois.
2. La loi binomiale modélise toutes les situations qui s’apparentent à un tirage avec
remise.
3. L’espérance (moyenne) d’une variable aléatoire suivant une loi Binomiale de pa-
ramètres n et p est np et sa variance vaut np(1 − p).
4. Une table statistique permet de lire directement les probabilités associées à cette loi
en fonction des valeurs de n et de p ce qui facilite les calculs.
– Loi Uniforme discrète. Une variable aléatoire X suit une loi Uniforme discrète si elle
prend n valeurs possibles k1 , k2 , . . . , kn avec la probabilité égale à n1 pour n’importe
quelle valeur ki . En particulier, une variable aléatoire X suit une loi uniforme discrète
sur [a; b] avec a, b ∈ Z et a ≤ b si X prend comme valeurs possibles {a, a + 1, . . . , b}
1
avec la probabilité égale à b−a+1
pour n’importe laquelle de ces valeurs.
Exemple : Revenons à l’exemple du lancer du dé (non truqué). Soit X la variable aléatoire
”résultat du lancer du dé”. Alors X peut prendre les valeurs 1,2,3,4,5 et 6 avec les proba-
bilités toutes égales à 16 . X suit donc une loi uniforme discrète.
Remarques :
Si X suit une loi uniforme discrète sur [a; b] alors l’espérance (moyenne) de X vaut
a+b
E(X) =
2
et la variance de X vaut
(b − a)(b − a + 2)
V ar(X) = .
12
– Loi de Poisson de paramètre λ, notée P(λ). Une variable aléatoire X suit une loi de
Poisson de paramètre λ si elle prend la valeur k avec la probabilité
3.3 Lois de probabilité continues 54
λk
P (X = k) = exp(−λ) .
k!
Si X suit une loi de Poisson de paramètre λ, alors l’espérance (moyenne) de X vaut
E(X) = λ
et la variance de X vaut
V ar(X) = λ.
Remarques :
1. La loi de Poisson est utilisée pour décrire divers phénomènes comme par exemple le
nombre d’appels reus par un standard téléphonique pendant une période donnée.
2. La loi de Poisson peut également être utilisée lorsqu’on étudie l’apparition de certains
phénomènes rares.
3. Une table statistique permet de lire directement les probabilités associées à cette loi
en fonction des valeurs de λ ce qui facilite les calculs.
4. C’est une loi discrète qui a son espérance égale à sa variance.
3.3 Lois de probabilité continues

– Loi Normale centrée et réduite. Une variable aléatoire réelle X suit une loi Nor-
male (ou loi de Laplace-Gauss) centrée réduite, c’est à dire d’espérance (moyenne)
nulle et d’écart-type 1 si elle admet pour densité de probabilité la fonction fX définie,

pour tout nombre réel t, par :
2
1 t
fX (t) = √ exp − .
2π 2
Une telle variable aléatoire est alors dite variable gaussienne. On la note habituellement
par N(0; 1).
La loi Normale est une des principales distributions de probabilité introduite par le
mathématicien de Moivre en 1733. Cette loi a été mise en évidence par Gauss au XIXe
siècle et permet de modéliser de nombreuses études biométriques.
Remarques :
– Le graphe de la densité de probabilité fX d’une variable aléatoire suivant une loi de
Gauss centrée réduite a l’allure d’une courbe en cloche assez aplatie.
– La fonction de répartition d’une variable aléatoire suivant une loi Normale centrée
réduite vaut, pour tout x ∈ R,
Z x
1 t2
Φ(x) = P (X ≤ x) = √ exp − dt.
2π −∞ 2
– Soit X une variable aléatoire qui suit une loi Normale N(0; 1). Alors son espérance
(moyenne) est égale à 0 et sa variance est égale à 1. C’est pour cela qu’on dit qu’elle
est centrée réduite.
– Le coefficient d’asymétrie (skewness) d’une loi Normale centrée réduite vaut 0 et
son coefficient d’aplatissement (kurtosis) vaut 3. Ce sont généralement des valeurs
de références pour d’autres distributions.
– Une table statistique permet de lire directement les probabilités associées à cette loi
ce qui facilite les calculs.
– C’est une loi de probabilité symétrique autour de 0.
– Loi Normale de paramètre µ et σ. Une variable aléatoire réelle X suit une loi Normale
(ou loi de Laplace-Gauss) de paramètres µ et σ si elle admet pour densité de probabilité
la fonction fX définie, pour tout nombre réel t, par :
2 !
1 1 t−µ
fX (t) = √ exp − .
2πσ 2 2 σ
Une telle variable aléatoire est alors dite variable gaussienne. On la note habituellement
par N(µ; σ) ou N(µ; σ 2 ).
Remarques :
– La fonction de répartition d’une variable aléatoire suivant une loi Normale centrée
réduite vaut, pour tout x ∈ R,

x−µ
F (x) = P (X ≤ x) = Φ
σ
avec Φ la fonction de répartition d’une variable suivant une loi Normale centrée réduite.
– Soit X une variable aléatoire qui suit une loi Normale N(µ; σ). Alors son espérance
(moyenne) est égale à µ et sa variance est égale à σ 2 .
– On utilise la table statistique de la loi N (0; 1) pour lire directement les probabilités
associées à cette loi ce qui facilite les calculs.
– C’est une loi de probabilité symétrique.
– Loi du Khi-deux à p degrés de liberté. Soit p un entier positif. Une variable

aléatoire réelle X suit une loi du Khi-deux à p degrés de liberté si elle admet pour
densité de probabilité la fonction fX définie, pour tout nombre réel t, par :

1 t p
fX (t) = p p exp − t 2 −1 si t ≥ 0, 0 si t < 0
2 2 Γ( 2 ) 2
R +∞
où Γ(r) = 0
tr−1 exp(−t)dt est la fonction gamma d’Euler.
On la note habituellement par χ2 (p).
Remarques :
– La fonction de répartition ne s’explicite pas. Il existe une table statistique pour lire
ses valeurs et on peut la tracer via un logiciel de Statistique.
– Contrairement à la loi Normale, la densité d’une loi du Khi-deux n’est pas symétrique !
– Soit X une variable aléatoire qui suit une loi du Khi-deux à p degrés de liberté. Alors
son espérance (moyenne) est égale à p et sa variance est égale à 2p.

– Soit X1 , . . . , Xn une suite de variables aléatoires indépendantes et identiquement dis-
P
tribuées de loi N (0; 1). Alors la variable ni=1 Xi2 suit la loi du Khi-deux à n degrés
de liberté.
– Nous utiliserons cette loi pour construire des intervalles de confiance et des tests sta-
tistiques.
– Loi de Student à n degrés de liberté. Soit n un entier positif. Une variable aléatoire
réelle X suit une loi de Student à n degrés de liberté si elle admet pour densité de
probabilité la fonction fX définie, pour tout nombre réel t, par :
1 Γ( n+1
2
) 1
fX (t) = √
nπ Γ( 2 ) 1 + t2 n+1
n
2
n
R +∞
où Γ(r) = 0
On la note habituellement par T (n).
Remarques :
– Comme la loi Normale, la densité d’une loi de Student est symétrique ! Son allure est
similaire avec un étalement un peu plus fort.
– Soit X une variable aléatoire qui suit une loi de Student à n degrés de liberté. Alors
n
son espérance (moyenne) est égale à 0 si n ≥ 2 et sa variance est égale à n−2 si n ≥ 3.
– Soit U une variable aléatoire de loi N (0; 1) et X qui suit, indépendamment de U une
loi du Khi-deux à n degrés de liberté. Alors la variable √UX suit la loi de Student à n
n
degrés de liberté.
– Nous utiliserons cette loi pour construire des intervalles de confiance et des tests sta-
tistiques.
– Loi de Fisher-Snedecor à n et p degrés de liberté. Soient n et p, deux entiers

positifs. Une variable aléatoire réelle X suit une loi de Fisher-Snedecor à n et p degrés
de liberté si elle admet pour densité de probabilité la fonction fX définie, pour tout
nombre réel t, par :
n2 n−2
Γ( n+p ) n t 2
fX (t) = n 2 p n+p pour t ≥ 0, 0 sinon
Γ( 2 )Γ( 2 ) p n 2
1+ p
t
R +∞
où Γ(r) = 0
On la note habituellement par F (n, p).
Remarques :
– Comme la loi du Khi-deux, la densité d’une loi de Fisher-Snédécor n’est pas symétrique !
– Soit X une variable aléatoire qui suit une loi de Fisher-Snédécor à n et p degrés de
p
liberté. Alors son espérance (moyenne) est égale à p−2 si p ≥ 3 et sa variance est égale
2p2 (n+p−2)
à n(p−2)2 (p−4)
si p ≥ 5.
– Soit X une variable aléatoire de loi du Khi-deux à n degrés de liberté et Y qui suit,
X
indépendamment de X une loi du Khi-deux à p degrés de liberté. Alors la variable Yn
p
suit la loi de Fisher-Snédécor à n et p degrés de liberté.
– Nous utiliserons cette loi pour construire des tests statistiques.
– Loi exponentielle de paramètre λ. Soit λ > 0. Une variable aléatoire réelle X

à valeurs dans [0; +∞[ suit une loi exponentielle de paramètre λ si elle admet pour
densité de probabilité la fonction fX définie, pour tout nombre réel t, par :
fX (t) = λ exp−λt si t ≥ 0, 0 si t < 0

3.4 Approximations 63
On la note habituellement par (λ).

Remarques :
– La fonction de répartition d’une variable X suivant une loi exponentielle de paramètre
λ est donnée par :
F (x) = 1 − exp(−λx) si x ≥ 0, 0 si x < 0
– Il est souvent préférable de travailler avec la fonction de survie qui est définie par
r(x) = 1 − F (x) = exp(−λx).
– Soit X une variable aléatoire qui suit une loi exponentielle de paramètre λ. Alors son
espérance (moyenne) est égale à λ1 et sa variance est égale à λ12 .
3.4 Approximations
– Approximation de la loi Binomiale par la loi de Poisson.
3.5 Utilisation des diverses lois sous R 64
En pratique, la loi Binomiale B(n; p) peut-être approchée par une loi de Poisson P(np)
lorsque :
1. p ≤ 0.1
2. n ≥ 30
3. np < 15
– Approximation de la loi Binomiale par la loi Normale.
p
En pratique, la loi Binomiale B(n; p) peut-être approchée par une loi Normale N (np; np(1 − p))
lorsque :
1. n ≥ 30
2. np ≥ 15
3. np(1 − p) > 5
3.5 Utilisation des diverses lois sous R

– Les diverses distributions.
1. binom(n, p) fait appel à la loi Binomiale de paramètres n et p.
2. exp( λ1 ) fait appel à la loi Exponentielle de paramètre λ.
3. f (n, p) fait appel à la loi de Fisher-Snédécor de degrés de liberté n et p.
4. chisq(n) fait appel à la loi du Khi-deux de degré de liberté n.
5. norm(µ, σ) fait appel à la loi Normale de moyenne µ et d’écart-type σ.
6. pois(λ) fait appel à la loi de Poisson de paramètre λ.
7. t(n) fait appel à la loi de Student de degré de liberté n.
8. unif (min, max) fait appel à la loi Uniforme sur l’intervalle [min, max].
Remarques :
– Par défaut, le loi Exponentielle sous R est de paramètre 1.

– Par défaut, la loi Normale sous R est de paramètres 0 et 1 respectivement pour la

moyenne et l’écart-type.
– Par défaut, la loi Uniforme sous R est de paramètres 0 et 1.
– Quelques fonctions utiles.
dnomdist permet d’obtenir la fonction de densité fX (t) ou la fonction de probabilité

P (X = k) selon que la variable étudiée est de type continue ou discrète.
Pour tracer par exemple la densité d’une loi Normale centrée réduite :
x < −seq(−5, 5, 0.1)

curve(dnorm(x), −5, 5)
pnomdist permet d’obtenir la fonction de répartition F (x) que ce soit pour une variable
de type continue ou discrète.
Pour tracer par exemple la fonction de répartition d’une loi Normale centrée réduite :
x < −seq(−5, 5, 0.1)

curve(pnorm(x), −5, 5)
qnomdist permet d’obtenir les quantiles de la distribution d’une variable X.

Pour calculer par exemple le premier quartile d’une distribution suivant une loi Normale
centrée réduite :
> qnorm(0.25, 0, 1)
[1] − 0.67
Valeurs de référence pour la loi Normale :
> qnorm(0.025, 0, 1)
[1] − 1.96
> qnorm(0.975, 0, 1)
[1] 1.96
Chapitre 4
Estimation et intervalles de confiance
4.1 Introduction
– Présenter les principaux estimateurs de certaines caractéristiques ou paramètres comme

la moyenne, la variance ou une proportion.
– Construire des intervalles de confiance pour la moyenne, la variance ou une proportion.
– Obtenir ces estimateurs et ces intervalles de confiance avec R.
4.2 Estimation d’un paramètre

Il y a deux façons d’estimer un paramètre :
– Soit en proposant ou calculant un seul nombre et dans ce cas l’estimation sera dite
ponctuelle.
– Soit en proposant un ensemble de valeurs plausibles et dans ce cas, cela s’appelle

donner une région de confiance de la valeur du paramètre.
Estimation de la moyenne µ d’une population.
Soit (X1 , . . . , Xn ) un échantillon aléatoire de loi parente la loi de X, d’espérance µ et de

variance σ 2 . Alors, l’estimateur µ̂n de µ est égal à :
n
1X
µ̂n = Xi .
n i=1
67
4.2 Estimation d’un paramètre 68
– C’est un estimateur sans biais de µ car E(µ̂n ) = µ.

2
– De plus, V ar(µ̂n ) = σn .
Exemple : Nous travaillons avec le jeu de données Mesures du package BioStatR qui com-
porte 252 observations sur par exemple la taille et le poids de haricots d’espèces différentes.
Si nous nous intéressons à un échantillon particulier qui comporte 54 observations et cor-
respond à l’espèce ”glycine blanche” et que nous voulons calculer une estimation de la
moyenne de la variable taille,
> glycine.blanche < −subset(M esures, subset = (M esures$espece == ”glycineblanche”))

> mean(glycine.blanche$taille)
[1] 14.77222
Estimation de la variance σ 2 d’une population.
Soit (X1 , . . . , Xn ) un échantillon aléatoire de loi parente la loi de X, d’espérance µ et de

variance σ 2 . Alors, l’estimateur Sn2 de σ 2 est égal à :
n
1X
Sn2 = (Xi − µ̂n )2 .
n i=1
– C’est un estimateur avec biais de σ 2 car E(Sn2 ) 6= σ 2 .

– Si la moyenne µ de la population de référence est connue, l’estimateur de la variance
sera : n
2 1X
σ̂n = (Xi − µ)2 .
n i=1
Un estimateur sans biais de la variance σ 2 d’une population est donné par :
n
2 1 X n
Sn,c = (Xi − µ̂n )2 = S2.
n − 1 i=1 n−1 n
2
Il est sans biais ce qui signifie que E(Sn,c ) = σ2.
Si nous nous intéressons à un échantillon particulier qui comporte 54 observations et corres-
pond à l’espèce ”glycine blanche” et que nous voulons calculer une estimation de la variance
de la variable taille,
4.2 Estimation d’un paramètre 69

> var(glycine.blanche$taille)
[1] 10.91412
Remarque : la variance calculée par le logiciel R correspond à la variance corrigée c’est à

dire l’estimateur sans biais de la variance σ 2 de la population. Pour retrouver l’estimateur
classique de la variance σ 2 de la population :

> n < −length(glycine.blanche$taille)
> (var(glycine.blanche$taille)) ∗ (n − 1)/n
[1] 10.71201
Estimation d’une proportion.
L’estimateur π̂n,A de πA est égal à :
nA
π̂n,A =
n
où nA est le nombre d’individus de l’échantillon de taille n qui possèdent la caractéristique
A.
C’est un estimateur sans biais de πA car E(π̂n,A ) = πA .
Exemple : Nous travaillons avec le jeu de données Mesures5 du package BioStatR qui com-
respond à l’espèce ”glycine blanche” et que nous voulons calculer une estimation de la
proportion de gousses de glycine blanche qui ont moins de trois graines,

> ef f ectif.cumule < −cumsum(table(glycine.blanche$graines))
> ef f ectif.cumule
1 2 3 4 5 6 7
7 26 37 47 52 53 54
Une estimation de la proportion de gousses de glycine blanche qui ont moins de trois
graines est donc égale à 37/54 soit environ 69% puisque :
4.3 Estimation par intervalle de confiance 70
> 37/54
> 0.6851852
4.3 Estimation par intervalle de confiance

Introduction :
– La notion d’intervalles et l’estimation par intervalles sont souvent méconnues.
– Ce sont des objets programmés dans de nombreux logiciels de Statistique.
– But : proposer un ensemble de valeurs plausibles pour l’estimation d’un paramètre,

par région ou intervalle de confiance.
Soit le paramètre θ. Il existe deux façons d’estimer ce paramètre :
1. par estimation ponctuelle en proposant θ̂ estimateur de θ.
2. par intervalle ]θ1 ; θ2 [ dit de confiance qui est une estimation ensembliste de θ.
C’est la deuxième solution qui est privilégiée dans de nombreux domaines.
Intervalle pour la moyenne µ d’une population (variance connue).
Soit une population sur laquelle on étudie un ”caractère” X tel que :
– la moyenne µ est inconnue.
– la variance σ 2 est connue.
Soit X1 , . . . , Xn un échantillon aléatoire de réalisations de X avec X qui suit une loi

Normale de moyenne µ et de variance σ 2 , N (µ, σ 2 ).
Alors,
1
Pn
– µ̂n = n i=1 Xi est le ”meilleur” estimateur de µ.

– µ̂n suit la loi Normale N µ; √σ .
n
L’intervalle de confiance pour µ au niveau de confiance (1 − α) est égal à :

µ1 < µ < µ 2
avec
µ1 = µ̂n − u1− α2 √σn
µ2 = µ̂n + u1− α2 √σn

α
où u1− α2 est le quantile d’ordre 1 − 2
de la loi normale centrée réduite.
Cela signifie que le paramètre µ ∈]µ1 ; µ2 [ avec la probabilité 1 − α.
Intervalle pour la moyenne µ d’une population (variance inconnue).
– la variance σ 2 est inconnue.

Alors,
– µ̂n estime µ.
– Il faut estimer σ 2 puisqu’elle est inconnue par Sn2 .
µ̂n −µ
– √Sn
suit la loi de Student à n − 1 degrés de liberté, T (n − 1).
n−1
L’intervalle de confiance pour µ au niveau de confiance (1 − α) est égal à :
µ1 < µ < µ 2
avec
µ1 = µ̂n − tn−1;1− α2 √Sn−1
n
µ2 = µ̂n + tn−1;1− α2 √Sn−1

n
α
où tn−1;1− α2 est le quantile d’ordre 1 − 2
de la loi de Student à n − 1 degrés de liberté.
Cela signifie que le paramètre µ ∈]µ1 ; µ2 [ avec la probabilité 1 − α.

Remarque : Le cas où σ 2 est connu est rare en pratique car c’est en général un paramètre
inconnu.
Intervalle pour la variance σ 2 d’une population (moyenne connue).
– la moyenne µ est connue.

Alors,
– σ 2 peut-être estimé par :
n
1X
σ̂n2 = (Xi − µ)2
n i=1
nσˆn 2
– suit la loi du Khi-deux à n degrés de liberté, χ2 (n).
σ2
L’intervalle de confiance pour σ 2 au niveau de confiance (1 − α) est égal à :
σ12 < σ 2 < σ22
avec
nσˆn 2
σ12 =
k2
nσˆn 2
σ22 =
k1
où k1 est le quantile d’ordre α2 de la loi du Khi-deux à n degrés de liberté et k2 est le
quantile d’ordre 1 − α2 de la loi du Khi-deux à n degrés de liberté
Cela signifie que le paramètre σ 2 ∈]σ12 ; σ22 [ avec la probabilité 1 − α.
Intervalle pour la variance σ 2 d’une population (moyenne inconnue).


Alors,
– σ 2 peut-être estimé par :
n
1X
Sn2 = (Xi − µ̂n )2
n i=1
nSn2
– suit la loi du Khi-deux à n − 1 degrés de liberté, χ2 (n − 1).
σ2
L’intervalle de confiance pour σ 2 au niveau de confiance (1 − α) est égal à :
σ12 < σ 2 < σ22
avec
nSn2
σ12 =
k2
nSn2
σ22 =
k1
où k1 est le quantile d’ordre α2 de la loi du Khi-deux à n − 1 degrés de liberté et k2 est
le quantile d’ordre 1 − α2 de la loi du Khi-deux à n − 1 degrés de liberté
Cela signifie que le paramètre σ 2 ∈]σ12 ; σ22 [ avec la probabilité 1 − α.
Intervalle pour une proportion.
Soit une population et au sein de celle-ci la proportion πA d’individus de la population

qui possèdent un certain caractère A.
A noter : πA est inconnue.
nA
Pour estimer πA il suffit d’utiliser π̂A = n
.
Remarque : on suppose un tirage aléatoire avec remise ce qui correspond à une population
infinie.
Nous avons le résultat suivant :
nπ̂A suit une loi B(n, πA )
Ce résultat permet de construire un intervalle de confiance pour πA inconnue. Pour cela,

nous avons trois méthodes à notre disposition :
1. méthode exacte ou de Clopper-Pearson
2. méthode du score ou de Wilson
3. méthode asymptotique ou de Wald
Remarque : Celle à privilégier est celle du score. On rencontre dans de nombreux bou-
quins celle de Wald qui malheureusement ne permet pas d’obtenir des résultats de qualité
convenable.
Méthode du score ou de Wilson :
L’intervalle de confiance pour la proportion πA au niveau de confiance (1 − α) est égal

à :
π1 < πA < π2
avec
r
u21− α
1 2 π̂A (1−π̂A )
π̂A + u
2n 1− α
− u1− α2 × n
+ 4n2
2
2
π1 =
1 + n1 u21− α
2
et
r
u21− α
1 2 π̂A (1−π̂A )
π̂A + u
2n 1− α
+ u1− α2 × n
+ 4n2
2
2
π2 =
1 + n1 u21− α
2
4.4 Applications avec le logiciel R

Remarque : Lorsque vous allez construire des intervalles de confiance, vous allez devoir
utiliser les quantiles d’ordre 1 − α2 pour les diverses lois qui interviennent dans le calcul de
ces intervalles notamment la loi Normale, celle de Student ou encore celle du Khi-deux.
Exemple : 1 − α sera souvent fixé à 95% et par conséquent, u1− α2 vaudra approximative-
ment 1.96. Pour obtenir la valeur exacte :
> qnorm(0.975)
[1] 1.959964
respond à l’espèce ”glycine blanche” et que nous voulons calculer un intervalle de confiance
de la moyenne µ de la variable taille,

> moyenne < −mean(glycine.blanche$taille)
> moyenne
[1] 14.77222
> ecarttype < −sd(glycine.blanche$taille)
> ecarttype
[1] 3.303652
> quantile < −qt(0.975, 53)

> quantile
[1] 2.005746
Borne inférieure :
> moyenne − quantile ∗ (ecarttype/sqrt(length(glycine.blanche$taille)))

[1] 13.8705
Borne supérieure :
> moyenne + quantile ∗ (ecarttype/sqrt(length(glycine.blanche$taille)))

[1] 15.67395
Remarques :
1. Il faut au préalable vérifier que les données qui forment l’échantillon proviennent d’une
loi Normale de paramètres µ et σ, tous deux inconnus. Pour cela, il faut réaliser un
test de normalité, ce que nous verrons en détail dans un prochain chapitre.
2. Il y a une fonction de R qui permet d’obtenir directement les deux bornes de l’intervalle
de confiance en une ligne de commande :
> t.test(glycine.blanche$taille)
Le résultat apparait en sortie sur la ligne ”95 percent confidence interval”. Cependant,
comme nous n’avons pas encore abordé le chapitre sur les tests statistiques, nous
détaillerons cette fonction ultérieurement (ou en TP).
respond à l’espèce ”glycine blanche” et que nous voulons calculer un intervalle de confiance
de la variance σ 2 de la variable taille,

> variance < −var(glycine.blanche$taille)
> variance
[1] 10.91412
> quantile1 < −qchisq(0.975, 53)
> quantile1
[1] 75.00186
> quantile2 < −qchisq(0.025, 53)
> quantile2
[1] 2.700389
Borne inférieure :
> ((length(glycine.blanche$taille) − 1) ∗ variance)/quantile1

[1] 7.712453
Borne supérieure :
> ((length(glycine.blanche$taille) − 1) ∗ variance)/quantile2

[1] 16.63339
Chapitre 5
Tests statistiques
5.1 Introduction générale

– Présenter la méthodologie des tests statistiques.
– Présenter divers tests statistiques.
– Comprendre la notion de puissance d’un test statistique.
– Applications avec le logiciel R.
Questions :
– Est-ce que le traitement A et le traitement B ont des effets différents quant à la

guérison des patients atteints d’une certaine pathologie ?
– Est-ce qu’en moyenne les teneurs en nitrate des eaux de sources des Vosges ne dépassent
pas les 25mg/l ?
– Est-ce que les hauteurs moyennes des arbres de deux types de hêtraies sont différentes ?
5.2 Introduction à la notion de test statistique

– Définition : un test d’hypothèse ou test statistique est un mécanisme qui permet
de trancher entre deux hypothèses à la vue des résultats d’un échantillon, en quantifiant
le risque associé à la décision prise.
Soit H0 et H1 deux hypothèses, dont une et une seule est vraie. L’hypothèse H0
a souvent un rôle prédominant par rapport à l’hypothèse alternative H1 . C’est la
79
5.2 Introduction à la notion de test statistique 80
conséquence du fait que l’hypothèse nulle H0 est l’hypothèse de référence et que toute
la démarche du test s’effectue en considérant cette hypothèse comme vraie.
– Exemples :
Un premier exemple serait d’avoir comme hypothèse nulle H0 , µ = µ0 et dans ce cas,

une hypothèse alternative pourrait être H1 : µ > µ0 .
Un deuxième exemple serait d’avoir l’hypothèse nulle H0 , σ 2 = σ02 et dans ce cas, une
hypothèse alternative pourrait être H1 : σ 2 6= σ02 .
La décision d’un test consiste à choisir entre H0 et H1 . Il y a donc quatre cas possibles :
1. H0 est décidée et H0 est vraie.
– L’erreur de première espèce est le fait de décider que l’hypothèse alternative H1

est vraie alors qu’en fait, en réalité, c’est l’hypothèse nulle H0 qui est vraie.
Le risque d’erreur associé à cette décision est noté généralement α. Il s’agit donc
de la probabilité de décider à tort que l’hypothèse alternative H1 est vraie.
– L’erreur de deuxième espèce est le fait de décider que l’hypothèse nulle H0 est
vraie alors qu’en fait, en réalité, c’est l’hypothèse alternative H1 qui est vraie.
Le risque d’erreur associé à cette décision est noté généralement β. Il s’agit donc de
la probabilité de décider à tort que l’hypothèse nulle H0 est vraie.
Tableau résumant les différents risques :

H0 vraie H1 vraie
H0 décidée 1−α β
H1 décidée α 1−β
Remarque : La situation idéale serait que α et β soient nulles mais ce n’est pas possible.
En effet, ces erreurs sont antagonistes. Plus α est grand (respectivement petit), plus β
est petit (respectivement grand). Les valeurs les plus courantes pour α sont 10%, 5%
ou 1%.
– Définition : la puissance d’un test statistique est égale à 1 − β. Il s’agit de la

5.2 Introduction à la notion de test statistique 81
probabilité de rejeter l’hypothèse nulle à raison. Elle doit généralement être au moins
égale à 0.80 pour être considérée comme satisfaisante.
Remarque : Dans le package de base de R, vous trouverez de nombreuses fonction qui

permettent de calculer la puissance du test que vous utilisez. Le package pwr qui lui
devra être installé, propose d’autres fonctions qui permettront d’obtenir également la
puissance d’un test.
– Un test bilatéral s’applique lorsque vous cherchez une différence entre deux pa-
ramètres ou entre un paramètre et une valeur donnée sans se préoccuper du signe ou
du sens de la différence. Dans ce cas, la zone de rejet de l’hypothèse principale se fait
de part et d’autre de la distribution de référence.
– Un test unilatéral s’applique quand vous cherchez à savoir si un paramètre est

supérieur (ou inférieur) à un autre ou à une valeur donnée. La zone de rejet de l’hy-
pothèse principale est située d’un seul côté de la distribution de référence.
– Définition : lorsque le risque de première espèce α est fixé, il faut choisir une variable
de décision encore appelée statistique de test. Cette variable est construite afin
d’apporter de l’information sur le problème posé, à savoir le choix entre les deux
hypothèses. Sa loi doit être parfaitement déterminée dans au moins une des deux
hypothèses (le plus souvent dans H0 ) afin de ne pas introduire de nouvelles inconnues
dans le problème.
– Définition : la région critique notée W ou encore appelée zone de rejet est égale
à l’ensemble des valeurs de la variable de décision qui conduisent à écarter H0 au
profit de H1 . La région critique correspond donc aux intervalles dans lesquels les
différences sont trop grandes pour être le fruit du hasard d’échantillonnage.
– Définition : la région d’acceptation notée W̄ ou encore appelée zone d’acceptation

est la région complémentaire à la région critique W . Elle correspond à l’intervalle dans
lequel les différences observées entre les réalisations et la théorie sont attribuables aux
fluctuations d’échantillonnage.
Démarche à suivre pour la mise en place d’un test ou comment réaliser un test et conclure
à l’aide d’une région critique :
1. Choix des deux hypothèses H0 et H1 .
2. Détermination de la variable de décision.

5.3 Tests de comparaison à une valeur 82
3. Allure de la région critique en fonction de H1 : test bilatéral ou unilatéral.
4. Calcul de la région critique en fonction de α.
5. Calcul de la variable de décision observée sur l’échantillon.
6. Conclusion du test.
7. Calcul (facultatif) de la puissance du test.

Remarques diverses :
– Plusieurs tests de conception différente sont souvent disponibles pour soumettre à une
épreuve de vérité une hypothèse.
– Le test le plus puissant est celui qui fournit l’erreur β la plus petite pour une même
valeur de α ou encore la plus grande valeur de la puissance 1 − β.
– Les tests peu puissants augmentent la probabilité de commettre une erreur de deuxième
espèce. Or, cette erreur peut s’avérer particulièrement grave (par exemple en médecine,
si on considère une analyse qui permet de décider si un patient est sain ou malade).
– Pour évaluer la puissance d’un test vous pouvez être amené à utiliser des courbes de
puissance ou encore abaques.
5.3 Tests de comparaison à une valeur

– Test de l’espérance d’une loi Normale de variance connue.
Soit X une variable aléatoire qui suit une loi Normale de moyenne µ et de variance σ 2
qui elle, est connue.
Test unilatéral :
Hypothèses du test :
H0 : µ = µ0
contre
H1 : µ > µ0 ou µ < µ0
Conditions d’application du test :
Il faut que l’échantillon X1 , . . . , Xn soit des copies indépendantes et identiquement dis-

tribuées de la variable X qui suit une loi Normale de moyenne µ et de variance σ 2 qui est
connue, N (µ; σ 2 ).
Statistique du test :
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire
µ̂n − µ0
Z= √
σ/ n
suit la loi normale N (0; 1).
La valeur critique du test, notée cα est lue dans une table de la loi normale centrée
réduite.
Si la valeur de la statistique calculée sur l’échantillon, notée zobs , est supérieure ou égale
à cα (ou inférieure ou égale à cα ) alors le test est significatif. Vous rejetez H0 et vous décidez
que H1 est vraie avec un risque de première espèce α.
Si la valeur de la statistique calculée sur l’échantillon, notée zobs , est strictement inférieure
à cα (ou strictement supérieure à cα ), le test n’est pas significatif. Vous conservez H0 avec
un risque de deuxième espèce β.
Test bilatéral :
H0 : µ = µ0
contre
H1 : µ 6= µ0
Il faut que l’échantillon X1 , . . . , Xn soit des copies indépendantes et identiquement dis-
tribuées de la variable X qui suit une loi Normale de moyenne µ et de variance σ 2 qui est
connue, N (µ; σ 2 ).
µ̂n − µ0
Z= √
σ/ n

La valeur critique du test, notée c1− α2 est lue dans une table de la loi normale centrée
réduite.
Si la valeur absolue de la statistique calculée sur l’échantillon, notée zobs , est supérieure
ou égale à c1− α2 alors le test est significatif. Vous rejetez H0 et vous décidez que H1 est vraie
avec un risque de première espèce α.
Si la valeur absolue de la statistique calculée sur l’échantillon, notée zobs , est strictement
inférieure à c1− α2 , le test n’est pas significatif. Vous conservez H0 avec un risque de deuxième
espèce β.
– Test de l’espérance d’une loi Normale de variance inconnue : le test de Student.
inconnues.
Test bilatéral : (le test unilatéral se déduit facilement de celui-ci).

H0 : µ = µ0
contre
H1 : µ 6= µ0

Il faut que l’échantillon X1 , . . . , Xn soit des copies indépendantes et identiquement
distribuées de la variable X qui suit une loi Normale de moyenne µ et de variance σ 2 ,
N (µ; σ 2 ).
µ̂n − µ0
T(n−1) = √
Sn,c / n
suit la loi de student T (n − 1).
La valeur critique du test, notée c1− α2 est lue dans une table de la loi de Student.
Si la valeur absolue de la statistique calculée sur l’échantillon, notée tn−1,obs , est

supérieure ou égale à c1− α2 alors le test est significatif. Vous rejetez H0 et vous décidez
Si la valeur absolue de la statistique calculée sur l’échantillon, notée tn−1,obs , est stric-
tement inférieure à c1− α2 , le test n’est pas significatif. Vous conservez H0 avec un risque
de deuxième espèce β.
– Test d’une variance d’une loi Normale d’espérance connue.
Soit X une variable aléatoire qui suit une loi Normale de moyenne µ connue et de
variance σ 2 inconnue.

H0 : σ 2 = σ02
contre
H1 : σ 2 6= σ02

distribuées de la variable X qui suit une loi Normale de moyenne µ connue et de
variance σ 2 , N (µ; σ 2 ).
nσ̂n2
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire suit la loi du Khi-
σ02
deux, χ2 (n).
Les valeurs critiques du test, notées c α2 et c1− α2 sont lues dans une table de la loi du
Khi-deux.
Si la valeur de la statistique calculée sur l’échantillon, notée χ2obs (n), est supérieure ou
égale à c1− α2 ou inférieure ou égale à c α2 alors le test est significatif. Vous rejetez H0 et
vous décidez que H1 est vraie avec un risque de première espèce α.
Si la valeur de la statistique calculée sur l’échantillon, notée χ2obs (n), est strictement
inférieure à c1− α2 ou strictement supérieure à c α2 , le test n’est pas significatif. Vous
conservez H0 avec un risque de deuxième espèce β.
– Test d’une variance d’une loi Normale d’espérance inconnue.
inconnues.

H0 : σ 2 = σ02
contre
H1 : σ 2 6= σ02

distribuées de la variable X qui suit une loi Normale de moyenne µ et de variance σ 2 ,
N (µ; σ 2 ).
2
(n − 1)Sn,c
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire suit la loi du
σ02
Khi-deux, χ2 (n − 1).
Les valeurs critiques du test, notées c α2 et c1− α2 sont lues dans une table de la loi du
Khi-deux.
Si la valeur de la statistique calculée sur l’échantillon, notée χ2obs (n − 1), est supérieure
ou égale à c1− α2 ou inférieure ou égale à c α2 alors le test est significatif. Vous rejetez
H0 et vous décidez que H1 est vraie avec un risque de première espèce α.
Si la valeur de la statistique calculée sur l’échantillon, notée χ2obs (n−1), est strictement
inférieure à c1− α2 ou strictement supérieure à c α2 , le test n’est pas significatif. Vous
conservez H0 avec un risque de deuxième espèce β.
– Test d’une proportion.

H0 : πA = π0
contre
5.4 Tests de comparaison entre deux populations indépendantes 87
H1 : πA 6= π0

distribuées de la variable X qui suit une loi de Bernoulli, B(1; πA ).
Si l’hypothèse nulle H0 est vérifiée, alors la variable aléatoire nπ̂n,A = nA suit la loi
Binomiale, B(n; π0 ).
La valeur critique du test, notée c1− α2 est lue dans une table de la Normale (approxi-
mation de la loi Binomiale).
Si la valeur de la statistique calculée sur l’échantillon, notée uA (obs), est supérieure ou

égale à c1− α2 alors le test est significatif. Vous rejetez H0 et vous décidez que H1 est
vraie avec un risque de première espèce α.
Si la valeur de la statistique calculée sur l’échantillon, notée uA (obs), est strictement

inférieure à c1− α2 , le test n’est pas significatif. Vous conservez H0 avec un risque de
deuxième espèce β.
5.4 Tests de comparaison entre deux populations

indépendantes
– Comparaison de deux espérances de lois Normales de variances connues.
Soit X une variable aléatoire qui suit une loi Normale de moyenne µ1 et de variance
σ12 qui elle est connue et Y une variable aléatoire qui suit une loi Normale de moyenne
µ2 et de variance σ22 qui elle est connue.
Test bilatéral : (le test unilatéral se déduit aisément de celui-ci)

H0 : µ1 = µ2
contre
H1 : µ1 6= µ2

Il faut que l’échantillon X1 , . . . , Xn1 soit des copies indépendantes et identiquement
distribuées de la variable X qui suit une loi Normale de moyenne µ1 et de variance σ12
qui est connue, N (µ1 ; σ12 ). Il faut également que l’échantillon Y1 , . . . , Yn2 soit des copies
indépendantes et identiquement distribuées de la variable Y qui suit une loi Normale
de moyenne µ2 et de variance σ22 qui est connue, N (µ2 ; σ22 ). De plus, les effectifs n1 et
n2 peuvent de pas être égaux.
µ̂1 − µ̂2
Z=q 2
σ1 σ22
n1
+ n2
La valeur critique du test, notée c1− α2 est lue dans une table de la loi normale centrée
réduite.
ou égale à c1− α2 alors le test est significatif. Vous rejetez H0 et vous décidez que H1 est
– Comparaison de deux espérances de lois Normales de variances inconnues.
σ12 inconnues et Y une variable aléatoire qui suit une loi Normale de moyenne µ2 et
de variance σ22 inconnues.

H0 : µ1 = µ2
contre
H1 : µ1 6= µ2

distribuées de la variable X qui suit une loi Normale de moyenne µ1 et de variance
σ12 inconnues, N (µ1 ; σ12 ). Il faut également que l’échantillon Y1 , . . . , Yn2 soit des copies
indépendantes et identiquement distribuées de la variable Y qui suit une loi Normale
de moyenne µ2 et de variance σ22 inconnues, N (µ2 ; σ22 ). De plus, les effectifs n1 et n2
peuvent de pas être égaux. Cependant, il faut distinguer deux cas : soit σ12 = σ22 , soit
σ12 6= σ22 .
1er cas : σ12 = σ22 = σ 2
µ̂1 − µ̂2
Tn1 +n2 −2 = q
σ̂ n11 + n12
n1 Sn21 + n2 Sn22
suit la loi de student T (n1 + n2 − 2) avec σ̂ 2 = .
n1 + n2 − 2
Si la valeur absolue de la statistique calculée sur l’échantillon, notée tn1 +n2 −2,obs , est
supérieure ou égale à c1− α2 alors le test est significatif. Vous rejetez H0 et vous décidez
Si la valeur absolue de la statistique calculée sur l’échantillon, notée tn1 +n2 −2,obs , est
strictement inférieure à c1− α2 , le test n’est pas significatif. Vous conservez H0 avec un
risque de deuxième espèce β.
2ème cas : σ12 6= σ22
µ̂1 − µ̂2
Tν = q 2 2
Sn Sn
1
n1 −1
+ 2
n2 −1
!2
Sn2 S2
1 + n2
n1 −1 n2 −1
suit la loi de student T (ν) avec ν l’entier le plus proche de 4
Sn 4
Sn
.
1 + 2
(n1 −1)n2
1 (n 2 −1)n 2
2
Si la valeur absolue de la statistique calculée sur l’échantillon, notée tν,obs , est supérieure
Si la valeur absolue de la statistique calculée sur l’échantillon, notée tν,obs , est stricte-
ment inférieure à c1− α2 , le test n’est pas significatif. Vous conservez H0 avec un risque
de deuxième espèce β.
– Comparaison de deux espérances de lois quelconques et de variances inconnues.
Soit X une variable aléatoire qui suit une loi de moyenne µ1 et de variance σ12 et Y
une variable aléatoire qui suit une loi de moyenne µ2 et de variance σ22 .
H0 : µ1 = µ2
contre
H1 : µ1 6= µ2

distribuées de la variable X. Il faut également que l’échantillon Y1 , . . . , Yn2 soit des
copies indépendantes et identiquement distribuées de la variable Y . De plus, les effectifs
n1 et n2 doivent tous les deux être supérieurs à 30.
µ̂1 − µ̂2
Z=q 2 2
Sn Sn
1
n1 −1
+ 2
n2 −1
suit approximativement la loi de Normale N (0; 1).
La valeur critique du test, notée c1− α2 est lue dans une table de la loi Normale centrée
réduite.
– Comparaison de deux variances de lois normales et d’espérances inconnues : le test de

Fisher-Snédécor.
σ12 et Y une variable aléatoire qui suit une loi Normale de moyenne µ2 et de variance
σ22 .

H0 : σ12 = σ22
contre
H1 : σ12 6= σ22

distribuées de la variable X qui suit la loi Normale de moyenne µ1 et de variance
σ12 . Il faut également que l’échantillon Y1 , . . . , Yn2 soit des copies indépendantes et
identiquement distribuées de la variable Y qui suit la loi Normale de moyenne µ2 et
de variance σ22 . De plus, les effectifs n1 et n2 peuvent ne pas être égaux.
Sn21 ,c
F =
Sn22 ,c
n1 Sn21 n2 Sn22
suit la loi de Fisher F (n1 − 1; n2 − 1) avec Sn21 ,c = et Sn22 ,c = .
n1 − 1 n2 − 1
Les valeurs critiques du test, notées c α2 et c1− α2 sont lues dans une table de la loi de
Fisher.
Si la valeur de la statistique calculée sur l’échantillon, notée fobs , n’appartient pas à

l’intervalle ]c α2 ; c1− α2 [, alors le test est significatif. Vous rejetez H0 et vous décidez que
H1 est vraie avec un risque de première espèce α.
5.5 Tests de comparaison entre deux populations non indépendantes 92
Si la valeur de la statistique calculée sur l’échantillon, notée fobs , appartient à l’in-

tervalle ]c α2 ; c1− α2 [, le test n’est pas significatif. Vous conservez H0 avec un risque de
5.5 Tests de comparaison entre deux populations non

indépendantes
Définition : Deux populations sont appariées (associées par paires) lorsque pour l’étude
d’un caractère X, chaque valeur Xi,1 est associée à une valeur de Xi,2 .
Exemple : Recherche d’un pourcentage de graisse dans un certain type d’aliment avec deux
méthodes différentes.
Soit µ1 la moyenne pour X1 dans la première population et µ2 la moyenne pour X2

dans la deuxième population. Soit D la différence entre X1 et X2 qui suit la loi Normale
2
N (µD ; σD ). Il faut que l’échantillon D1 , . . . , Dn soit des copies indépendantes et identique-
ment distribuées de D.
H0 : µ1 = µ2 ou µD = µ1 − µ2 = 0
contre
H1 : µ1 6= µ2 ou µD = µ1 − µ2 6= 0

Il faut que l’échantillon D1 , . . . , Dn soit des copies indépendantes et identiquement dis-
2
tribuées de la variable D qui suit une loi Normale de moyenne µD et de variance σD ,
2
N (µD ; σD ).
µ̂D
Tn−1 = √
SD,c / n
P Pn
suit la loi de Student T (n − 1) avec µ̂D = n1 ni=1 Di et SD,c
2
= 1
n−1 i=1 (Di − µ̂D )2 .
5.6 Applications sous R 93
Si la valeur absolue de la statistique calculée sur l’échantillon, notée tn−1;obs , est supérieure
ou égale à c1− α2 alors le test est significatif. Vous rejetez H0 et vous décidez que H1 est vraie
avec un risque de première espèce α.
Si la valeur absolue de la statistique calculée sur l’échantillon, notée tn−1;obs , est stricte-
ment inférieure à c1− α2 , le test n’est pas significatif. Vous conservez H0 avec un risque de
5.6 Applications sous R

Exemple 1 :
Dans l’atmosphère, le taux d’un gaz nocif, pour un volume donné, suit la loi Normale de
moyenne µ et de variance σ 2 égale à 100. Nous avons effectués 30 prélèvements de ce gaz
et les valeurs relevées sont les suivantes :
52; 60.2; 68.8; 46.8; 62.2; 53.5; 50.9; 44.9; 73.2; 60.4
61.9; 67.8; 30.5; 52.5; 40.4; 29.6; 58.3; 62.6; 53.6; 64.6
54.4; 53.8; 49.8; 57.4; 63.1; 53.4; 59.4; 48.6; 40.7; 51.9
Pouvez-vous conclure, avec un risque de 5% que l’espérance µ est inférieure à 50 qui est
le seuil tolérable admis ?
Nous voulons tester :
H0 : µ = 50
contre
H1 : µ > 50
Nous rentrons d’abord les observations dans un vecteur nommé gaz :

> gaz < −c(52, 60.2, 68.8, 46.8, 62.2, 53.5, 50.9,
44.9, 73.2, 60.4, 61.9, 67.8, 30.5, 52.5, 40.4, 29.6, 58.3, 62.6, 53.6,
64.6, 54.4, 53.8, 49.8, 57.4, 63.1, 53.4, 59.4, 48.6, 40.7, 51.9)
> gaz
Calcul de la statistique de test :
> z < −(sqrt(30) ∗ (mean(gaz) − 50))/10

>z
[1] 2.322344
Comparaison avec le quantile correspondant de la loi Normale centrée réduite :
> qnorm(0.95)
[1] 1.644854
Conclusion : comme 2.322344 est supérieur à 1.644854, le test est significatif. On rejette
H0 avec un risque de 5%. L’espérance est donc supérieure à 50 qui est le seuil de tolérance
admis.
Exemple 2 :
Le jardinier aimerait savoir si les glycines blanches qu’il a plantées sur son terrain suivent
bien les spécificités de la notice qu’il a reçue lorsqu’il a commandé ses graines sur internet. Il
était indiqué sur la notice que chaque gousse de glycines blanches à maturité doit mesurer
15cm de long. Comment peut-il s’assurer que les gousses qu’il a dans son jardin suivent
bien cette spécificité ?
Nous allons faire un test de Student sur les données puisque nous n’avons aucune infor-
mation sur la variance.
H0 : µ = 15
contre
H1 : µ 6= 15
Il existe une commande sous R, t.test, que nous avons utilisée pour le calcul des inter-
valles de confiance, qui permet d’obtenir les résultats du test :
> t.test(glycine$taille, mu = 15)
Remarque : par défaut, si l’option mu = 15 n’est pas précisée, le logiciel testera l’hy-
pothèse mu = 0.
Sorties obtenues avec R :
One sample t-test

data : glycine$taille
t = −0.5067, df = 53, p − value = 0.6145
alternative hypothesis : true mean is not equal to 15
95 percent confidence interval :
13.87050 15.67395
sample estimates :
mean of x
14.77222
Comparaison avec le quantile correspondant de la loi de Student à 53 degrés de liberté

(risque de 5%) :
> qt(0.975, 53)

[1] 2.005746
Conclusion : comme −0.5057 est supérieur à −2.005746, le test n’est pas significatif. On
ne peut rejeter H0 .
Exemple 3 :
Vous venez d’acquérir dans votre laboratoire une nouvelle balance et vous souhaitez
comparer la régularité du travail de cette dernière pour de très petites pesées à la norme
habituelle du descriptif pour laquelle la variance est égale à 4. Vous prélevez un échantillon
d’effectif égal à 30 dont les valeurs sont données ci-dessous :
2.53, 1.51, 1.52, 1.44, 4.32, 2.36, 2.41, 2.06, 1.57, 1.68
3.09, 0.54, 2.32, 0.19, 2.66, 2.20, 1.04, 1.02, 0.74, 1.01
0.35, 2.42, 2.66, 1.11, 0.56, 1.75, 1.51, 3.80, 2.22, 2.28
Pouvez-vous conclure, avec un risque de 5%, que la variance de l’échantillon est conforme
à la norme souhaitée ?
H0 : σ 2 = 4
contre
H1 : σ 2 6= 4
Nous rentrons d’abord les observations dans un vecteur nommé pesee :

> pesee < −c(2.53, 1.51, 1.52, 1.44, 4.32, 2.36, 2.41, 2.06, 1.57, 1.68
3.09, 0.54, 2.32, 0.19, 2.66, 2.20, 1.04, 1.02, 0.74, 1.01
0.35, 2.42, 2.66, 1.11, 0.56, 1.75, 1.51, 3.80, 2.22, 2.28)
> pesee
Calcul de la statistique de test :

> statdetest < −((length(pesee) − 1) ∗ var(pesee))/4

> statdetest
[1] 6.91
Comparaison avec les quantiles correspondants de la loi du Khi-deux à 29 degrés de liberté :
> qchisq(0.975, 29)

[1] 45.72229
> qchisq(0.025, 29)

[1] 16.04707
Conclusion : comme 6.91 est inférieur à 16.04707, le test est significatif. On rejette H0
avec un risque de 5%. La variance est donc différente de 4 qui est la norme habituelle.
Exemple 4 :
Dans le ”Ouest-France” du samedi 23 janvier 2010, vous pouvez lire : ”Plus de garçons
que de filles ! Avec 507 bébés mâles comptabilisés à Saint-Lô en 2009, contre 481 fillettes,
les naissances masculines sont toujours plus nombreuses.”
Pouvez-vous conclure, avec un risque de 5%, que les garçons sont significativement plus
nombreux que les filles ?
H0 : πG = πF
contre
H1 : πG 6= πF
Nous utilisons la commande R suivante :
> binom.test(507, 988, 0.5)
Exact binomial test

data : 507 and 988
number of successes = 507, number of trials = 988
p − value = 0.4264
alternative hypothesis : true probability of success is not equal to 0.5

0.4814855 0.5447516
sample estimates :
probability of success
0.5131579
Conclusion : comme la pvalue est supérieure à 0.05, le test n’est pas significatif. Vous
conservez donc H0 . Vous en déduisez donc que le journaliste, en déclarant que les naissances
masculines sont toujours très nombreuses, considère comme significative une différence entre
les naissances de garçons et de filles qui peut aussi, au seuils de 5%, être simplement
attribuée aux fluctuations d’échantillonnage.
Exemple 5 :
Chez un groupe de 10 sujets, les effets d’un traitement destiné à diminuer la pression
artérielle ont été expérimentés. Les résultats (valeur de la tension artérielle systolique en
cmHg) ont été relevés sur les 10 sujets et sont présentés ci-dessous :
Sujet 1 2 3 4 5 6 7 8 9 10
Avant traitement 15 18 17 20 21 18 17 15 19 16
Après traitement 12 16 17 18 17 15 18 14 16 18
Pouvez-vous conclure, avec un risque de 5%, que le traitement a une action significative ?
H0 : µD = 0
contre
H1 : µD 6= 0
Nous rentrons d’abord les observations dans deux vecteurs nommés respectivement avant
et apres et nous construisons le vecteur difference :
> avant < −c(15, 18, 17, 20, 21, 18, 17, 15, 19, 16)
> apres < −c(12, 16, 17, 18, 17, 15, 18, 14, 16, 18)
> dif f erence < −apres − avant
> dif f erence
[1] − 3 − 2 0 − 2 − 4 − 3 1 − 1 − 3 2
Nous utilisons la commande R suivante :

> t.test(dif f erence)
One sample t-test

data : difference
t = −2.4227, df = 9, p − value = 0.03844
alternative hypothesis : true mean is not equal to 0
−2.90059015 − 0.09940985
sample estimates :
mean of x
−1.5
Comparaison avec le quantile correspondant de la loi de Student à 9 degrés de liberté :
> qt(0.975, 9)
[1] 2.262157
Conclusion : comme −2.4227 est inférieur à −2.262157, le test est significatif. On rejette
H0 avec un risque de 5%. Le traitement a donc une action significative.
Chapitre 6
Tests du Khi-carré
6.1 Introduction
– Etudier les liens entre deux variables qualitatives.
– Etudier l’adéquation entre la distribution d’une variable au sein d’une population et

une distribution théorique.
– Présenter les tests du χ2 d’indépendance et d’adéquation.
– Présenter le test exact de Fisher.
Questions :
– Est-ce qu’il existe un lien entre la couleur des yeux et la couleur des cheveux ?
– Est-ce le fait de fumer une plus ou moins importante quantité de cigarettes par jour a
un effet sur la gravité d’une certaine maladie ?
– Est-ce que le dé utilisé dans un jeu de hasard est truqué ?
– Est-ce que le caractère étudié sur la population suit une loi Normale de paramètres µ
et σ 2 (utile pour les intervalles de confiance par exemple) ?
– Est-ce que les caractères ”facteurs rhésus” et ”groupes sanguins” sont indépendants ?
6.2 Test d’indépendance

Contexte :
– Nous travaillons ici avec deux variables aléatoires X et Y qualitatives.
99
6.2 Test d’indépendance 100
– But : étudier la relation entre X et Y .
– Exemple : soit X, la couleur des yeux et Y , la couleur des cheveux. Est-ce qu’il y a un
lien entre ces deux variables ou sont-elles indépendantes ?
Soit p et q deux entiers non nuls strictement positifs.
– x1 , . . . , xp sont les modalités prises par la variable X.

– y1 , . . . , yq sont les modalités prises par la variable Y .
Table de contingence ou tableau croisé des effectifs :
X|Y y1 . . . yj . . . yq Total
x1 n1,1 . . . n1,j . . . n1,q n1,•
.. .. .. .. ..
. . . . .
xi ni,1 . . . ni,j . . . ni,q ni,•
.. .. .. .. ..
. . . . .
xp np,1 . . . np,j . . . np,q np,•
Total n•,1 . . . n•,j . . . n•,q n•,•
Effectifs donnés dans la table de contingence :
– ni,j correspond au nombre d’individus observés dans l’échantillon (effectifs observés)

ayant la i-ème modalité xi pour X et la j-ème modalité yj pour Y .
– n•,• correspond à l’effectif total de l’échantillon.

P
– ni,• correspond à qj=1 ni,j . Il s’agit des marges lignes.
P
– n•,j correspond à pi=1 ni,j . Il s’agit des marges colonnes.
H0 : Les variables X et Y sont indépendantes
contre
H1 : Les variables X et Y ne sont pas indépendantes
Le principe du test du χ2 consiste à comparer les effectifs (tels qu’ils ont été observés) à
la répartition obtenue lorsqu’on suppose que les variables X et Y sont indépendantes.

– Il faut que l’échantillon {(X1 ; Y1 ), . . . , (Xn ; Yn )} soit constitué de couples de copies

indépendantes du couple aléatoire (X; Y ).
– Il faut que l’effectif total de l’échantillon soit supérieur ou égal à 50.
– Il faut que chacun des effectifs théoriques soit supérieur ou égal à 5.

p q
X X (ni,j − ci,j )2
χ2obs =
i=1 j=1
ci,j
suit la loi du Khi-deux à (p − 1) × (q − 1) degrés de liberté, avec

ni,• × n•,j
ci,j =
n•,•
La valeur critique du test, notée cα est lue dans une table de la loi du Khi-deux à
(p − 1) × (q − 1) degrés de liberté.
Si la valeur de la statistique calculée sur l’échantillon, notée χ2obs , est supérieure ou égale
à cα alors le test est significatif. Vous rejetez H0 et vous décidez que H1 est vraie avec un
risque de première espèce α.
Si la valeur de la statistique calculée sur l’échantillon, notée χ2obs , est strictement inférieure
à cα , le test n’est pas significatif. Vous conservez H0 avec un risque de deuxième espèce β.
Remarques :
– Si les conditions d’application du test ne sont pas remplies, il existe des corrections
comme par exemple la correction de Yates :
p q
X X (|ni,j − ci,j | − 21 )2
χ2obs =
i=1 j=1
ci,j
– Il existe également le test exact de Fisher dans le cas de deux variables qualitatives
à deux modalités. Si vous avez plus de deux modalités, vous pouvez essayer d’en
regrouper si cela est possible (c’est à dire si cela a un sens).
– Sous R, une option permet de s’affranchir des conditions mais cela n’est quand mme
pas recommandé !
Exemple : Le tableau suivant donne la répartition de 10000 personnes en fonction de

leur groupe sanguin et de leur facteur Rhésus.
Rhésus|Groupe sanguin O A B AB Total
Rh+ 3535 3870 1000 158 8563
Rh− 665 630 100 42 1437
Total 4200 4500 1100 200 10000
Les deux caractères, groupe sanguin et facteur Rhésus sont-ils indépendants ?
H0 : Le groupe sanguin et le facteur Rhésus sont indépendants
contre
H1 : Le groupe sanguin et le facteur Rhésus sont liés
Les conditions d’application du test du Khi-deux sont vérifiées.
Sous l’hypothèse H0 , le tableau des effectifs théoriques est le suivant :

Rhésus|Groupe sanguin O A B AB Total
Rh+ 3596.6 3853.35 941.93 171.26 8500
Rh− 603.54 646.65 158.07 28.74 1500
Total 4200 4500 1100 200 10000
Sous l’hypothèse nulle H0 ,

X2 X 4
(ni,j − ci,j )2
χ2obs =
i=1 j=1
ci,j
(3535 − 3596.6)2 (3870 − 3853.35)2 (1000 − 941.93)2
= + +
3596.6 3853.35 941.93
(158 − 171.26)2 (665 − 603.54)2 (630 − 646.65)2
+ + +
171.26 603.54 646.65
(100 − 158.07)2 (42 − 28.74)2
+ +
158.07 28.74
= 39.87199
Sous H0 , la statistique de test suit la loi du Khi-deux à (2 − 1) × (4 − 1) = 3 degrés de

liberté. Le quantile associé à cette loi avec un risque à droite de 5% vaut 7.814728. Comme
6.3 Test d’adéquation à une loi donnée 103
39.87199 > 7.814728, le test est significatif. Nous rejetons donc H0 au risque 5%. Les deux
caractères, groupe sanguin et facteur Rhésus sont donc liés.
6.3 Test d’adéquation à une loi donnée

– But : montrer l’adéquation à une loi (loi Normale, Binomiale,.....) donnée.
– Le test présenté est adapté pour s’intéresser à la possibilité de l’adéquation de la

distribution d’un caractère X à une loi de probabilité donnée. Il est adapté pour
des lois de probabilité discrètes et peut-être également utilisé pour une loi continue
entièrement spécifiée.
– Le test présenté dans les transparents suivants doit être utilisé pour vérifier l’adéquation
des données à par exemple la loi Normale lorsqu’on veut ensuite donner des intervalles
de confiance ou encore utiliser des tests.
Soit X, le caractère étudié sur une certaine population. Les hypothèses à tester sont les
suivantes :
H0 : La variable X suit une loi de probabilité donnée
contre
H1 : La variable X ne suit pas cette loi de probabilité
L’échantillon X1 , . . . , Xn doit être constitué de réalisation indépendantes du caractère X

étudié.
On note par ck les effectifs théoriques et par n• l’effectif de l’échantillon.
Les conditions d’utilisation de l’approximation par la loi du khi-deux sont les suivantes :
ck ≥ 5 et n• ≥ 50.
Si l’hypothèse nulle H0 est vérifiée et que les conditions d’application sont vérifiées, alors
la variable aléatoire
XK
2 (mk − ck )2
χobs =
k=1
ck
suit approximativement la loi du Khi-deux à K −1 degrés de liberté, avec les mk les effectifs
observés et les ck les effectifs théoriques.
La valeur critique du test, notée cα est lue dans une table de la loi du Khi-deux à K − 1
Si la valeur de la statistique calculée sur l’échantillon, notée χ2obs , est supérieure ou égale
à cα alors le test est significatif. Vous rejetez H0 et vous décidez que H1 est vraie avec un
risque de première espèce α.
Si la valeur de la statistique calculée sur l’échantillon, notée χ2obs , est strictement inférieure
à cα , le test n’est pas significatif. Vous conservez H0 avec un risque de deuxième espèce β.
Exemple1 : Est-ce que la distribution du nombre de filles observées dans 320 fratries de
5 enfants suit une loi binomiale de paramètres 5 et 0.5, B(5, 0.5) ?
X : Nombre de filles 0 1 2 3 4 5
Nombre de fratries observées 18 56 110 88 40 8
Soit X, le nombre de filles dans chaque fratrie. Si X suit la loi binomiale de paramètres
5 et 0.5, nous avons :
P (X = 0) = 0.03125
P (X = 1) = 0.15625
P (X = 2) = 0.3125
P (X = 3) = 0.3125
P (X = 4) = 0.15625
P (X = 5) = 0.03125
Les effectifs théoriques sont donc :
c1 = 320 × 0.03125 = 10
c2 = 320 × 0.15625 = 50
c3 = 320 × 0.3125 = 100
c4 = 320 × 0.3125 = 100
c5 = 320 × 0.15625 = 50
c6 = 320 × 0.03125 = 10
Les hypothèses à tester sont les suivantes :
H0 : X suit une loi binomiale de paramètres 5 et 0.5
contre
H1 : X ne suit pas la loi binomiale deparamètres 5 et 0.5
Les conditions d’application du test sont vérifiées ici.

Sous l’hypothèse nulle,

6
X (mk − ck )2
χ2obs =
k=1
ck
(18 − 10)2 (56 − 50)2 (110 − 100)2
= + +
10 50 100
(88 − 100)2 (40 − 50)2 (8 − 10)2
+ + +
100 50 10
= 11.96
Sous l’hypothèse nulle, la statistique de test suit une loi du Khi-deux à K − 1 = 6 − 1 = 5

Le quantile correspondant, en prenant un risque de 5% à droite est de 11.0705.
Comme 11.96 > 11.0705, nous en déduisons que le test est significatif. Nous rejetons H0
au risque 5%. La distribution des filles au sein des 320 fratries ne suit pas la loi binomiale
de paramètres 5 et 0.5.
Exemple 2 : Est-ce que le nombre de cas graves traités chaque jour par un vétérinaire
sur une période de 200 jours suit une loi de Poisson de paramètre 1.5 ?
X : Nombre de cas graves 0 1 2 3 4 5 et plus
Nombre de jours 50 74 50 21 4 1
Soit X, le nombre de cas graves. Si X suit la loi de poisson de paramètre 1.5, nous avons :
P (X = 0) = 0.2231302
P (X = 1) = 0.3346952
P (X = 2) = 0.2510214
P (X = 3) = 0.1255107
P (X = 4) = 0.04706652
P (X ≥ 5) = 0.01857594
Les effectifs théoriques sont donc :
c1 = 200 × 0.2231302 = 44.62604

c2 = 200 × 0.3346952 = 66.93904
c3 = 200 × 0.2510214 = 50.20428
c4 = 200 × 0.1255107 = 25.10214
c5 = 200 × 0.04706652 = 9.413304
c6 = 200 × 0.01857594 = 3.715188
L’effectif théorique c6 est plus petit que 5, nous devons donc regrouper les deux dernières
catégories en la catégorie X ≥ 4. Le nombre de jours observés correspondant sera alors de
5 et P (X ≥ 4) = 0.0656. De là, on en déduit le nouveau c5 = 200 × 0.0656 = 13.12.
Les hypothèses à tester sont les suivantes :
H0 : La variable X suit une loi de poisson de paramètre 1.5
contre
H1 : La variable X ne suit pas la loi de poisson de paramètre 1.5
Les conditions d’application du test sont vérifiées ici.
6.4 Test exact de Fisher 107
Sous l’hypothèse nulle,

6
X (mk − ck )2
χ2obs =
k=1
ck
(50 − 44.62604)2 (74 − 66.93904)2 (50 − 50.20428)2
= + +
44.62604 66.93904 50.20428
(21 − 25.10214)2 (5 − 13.12)2
+ +
25.10214 13.12
= 7.08864
Sous l’hypothèse nulle, la statistique de test suit une loi du Khi-deux à K − 1 = 5 − 1 = 4

Le quantile correspondant, en prenant un risque de 5% à droite est de 9.49.
Comme 7.08864 < 9.49, nous en déduisons que le test n’est pas significatif. Nous conser-
vons H0 . La distribution étudiée semble suivre une loi de poisson de paramètre 1.5.
6.4 Test exact de Fisher

Pour commencer l’étude de ce test, nous considérons deux variables aléatoires X et Y
ayant chacune deux modalités. Le cas général avec plus de deux modalités par variable ne
sera pas traité ici mais le test peut s’adapter également à ce contexte.
Par exemple, la variable X peut représenter le fait de fumer ou pas et la variable Y le

fait d’avoir un cancer des poumons avancé ou pas.
Soit
– x1 , x2 sont les modalités prises par la variable X.

– y1 , y2 sont les modalités prises par la variable Y .
Table de contingence ou tableau croisé des effectifs :
X|Y y1 y2 Total
x1 a b a+b
x2 c d c+d
Total a + c b + d n
Effectifs donnés dans la table de contingence :
– pour i = 1, 2 et j = 1, 2, les valeurs a, b, c et d correspondent au nombre d’individus

observés dans l’échantillon (effectifs observés) ayant la i-ème modalité xi pour X
et la j-ème modalité yj pour Y .
– n correspond à l’effectif total de l’échantillon.
– a + b et c + d correspondent aux marges lignes.
– a + c et b + d correspondent aux marges colonnes.
Hypothèses du test (test unilatéral) :
H0 : p1 = p2
contre
H1 : p1 > p2 ou p1 < p2
avec
p1 la proportion d’observations avec la modalité x1 de X pour Y ayant la modalité y1 .

p2 la proportion d’observations avec la modalité x1 de X pour Y ayant la modalité y2 .

– Il faut que l’échantillon {(X1 ; Y1 ), . . . , (Xn ; Yn )} soit constitué de couples de copies
indépendantes du couple aléatoire (X; Y ).
– Ce test est une alternative au test du Khi-deux lorsque les échantillons sont petits ou
que le degré de liberté associé au test vaut 1.
– Le terme exact vient du fait qu’aucune approximation n’est faite pour calculer la
statistique de test.
– Ce test s’applique également lorsque vous avez plus de deux modalités pour chaque
variable X ou Y et si vous avez peu d’observations.
Le test exact de Fisher est basée sur le calcul (exact) de la probabilité d’obtenir des
échantillons aussi ou encore plus différents entre eux que ceux observés alors qu’il n’existe
pas de différence en réalité. Cela nécessite de construire tous les tableaux de contingence
présentant les mêmes totaux marginaux que ceux observés et affichant des différences encore
plus marquées entre les échantillons (dans le même sens que celui observé).
Exemple : Un laboratoire veut développer un médicament destiné à soigner la grippe.

Les chercheurs se demandent si le nouveau traitement conduit à une guérison plus rapide
qu’avec le traitement classique. Un essai est conduit sur 19 patients qui reçoivent soit le
nouveau traitement A soit un traitement classique B. Les résultats sont présentés dans le
tableau suivant :
traitementA traitementB Total

guérisonrapide(GR) 6 3 9
guérisonnormale(GN ) 2 8 10
Total 8 11 19
H0 : p1 = p2
contre
H1 : p1 > p2
avec
p1 la proportion de guérisons rapides avec le traitement A
p2 la proportion de guérisons rapides avec le traitement B
Cas1 A B Total
GR 6 3 9
GN 2 8 10
Total 8 11 19
Cas2 A B Total
GR 7 2 9
GN 1 9 10
Total 8 11 19
Cas3 A B Total
GR 8 1 9
GN 0 10 10
Total 8 11 19
– La probabilité d’obtenir le cas 1 est donnée par :
9!10!8!11!
α1 = = 0.05
19!6!3!2!8!
9!10!8!11!
α2 = = 0.0048
19!7!2!1!9!
9!10!8!11!
α3 = = 0.0001
19!8!1!0!10!
La probabilité cherchée vaut donc :
p = 0.05 + 0.0048 + 0.0001 = 0.0549.

Comme p > 5%, on ne peut rejeter H0 à la limite du seuil critique.
Sous R, il faut utiliser la commande suivante :
> f isher.test(matrix(c(6, 3, 2, 8), ncol = 2, byrow = T RU E)
Fisher’s Exact Test for Count Data

data : matrix(c(6,3,2,8),ncol=2,byrow=TRUE),alternative=”greater”)
pvalue=0.0549
alternative hypothesis : true odds ration is greater than 1
0.9606064 Inf
sample estimates :
odds ratio
7.027451
Comme la p-valeur est supérieure ou égale à 5%, le test n’est pas significatif. Vous ne
pouvez rejeter H0 . Donc il semblerait que le nouveau traitement ne soit pas plus efficace
que le classique.
Remarque :
Le test exact de Fisher s’étend au cas où les deux variables ont un nombre fini quelconque,
mais supérieur à deux, de modalités.
Formulaire
Intervalles de confiance et Tests statistiques
σ σ
µ̂n − u1− α2 √ < µ < µ̂n + u1− α2 √ .
n n
Sn Sn
µ̂n − tn−1;1− α2 √ < µ < µ̂n + tn−1;1− α2 √ .
n−1 n−1
nσˆn 2 2 nσˆn 2
<σ < .
k2 k1
nSn2 2 nSn2
<σ < .
k2 k1
µ̂n − µ0
Z= √ suit la loi normale N (0; 1).
σ/ n
µ̂n − µ0
T(n−1) = √ suit la loi de student T (n − 1).
Sn,c / n
nσ̂n2
2
suit la loi du Khi-deux χ2 (n).
σ0
2
(n − 1)Sn,c
2
suit la loi du Khi-deux χ2 (n − 1).
σ0
nπ̂n,A = nA suit la loi Binomiale B(n; π0 ).
µ̂1 − µ̂2
Z=q 2 suit la loi normale N (0; 1).
σ1 σ22
n1
+ n2
µ̂1 − µ̂2
Tn1 +n2 −2 = q suit la loi de student T (n1 + n2 − 2).
σ̂ n11 + n12
µ̂1 − µ̂2
Tν = q 2 2
suit la loi de student T (ν).
Sn Sn
1
n1 −1
+ 2
n2 −1
µ̂1 − µ̂2
Z=q 2 2
suit la loi de Normale N (0; 1).
Sn Sn
1
n1 −1
+ 2
n2 −1
1
Sn21 ,c
F = 2 suit la loi de Fisher F (n1 − 1; n2 − 1).
Sn2 ,c
µ̂D
Tn−1 = √ suit la loi de Student T (n − 1).
SD,c / n
p q
X X (ni,j − ci,j )2
χ2obs = suit la loi du Khi-deux χ2 ((p − 1) × (q − 1)).
i=1 j=1
ci,j
K
X (mk − ck )2
χ2obs = suit la loi du Khi-deux χ2 (K − 1).
k=1
ck
2
Tables Statistiques usuelles
Table 1
Loi Binomiale
P ( X = k ) = C nk p k (1 − p) n − k
(k le nombre d’occurrences parmi n)
Loi Binomiale (suite)
P ( X = k ) = C nk p k (1 − p) n − k
Loi Binomiale (suite)
P ( X = k ) = C nk p k (1 − p) n − k
Table 2
Loi de Poisson
µk
P( X = k ) = e − µ
k!
(µ le nombre d’occurrences moyen)

Table 3
Loi Normale Centrée Réduite
Fonction de répartition F(z)=P(Z<z)

Table 4
Loi de Student
Table 5
Loi du χ 2
P ( χν2 ≥ χν2,α ) = α
Pour ν > 30, La loi du χ2 peut –être approximée par la loi normale N(ν , ν )
Table 6
Loi de Fisher F
P ( Fν 1 ,ν 2 < fν 1 ,ν 2 ,α ) = α
Loi de Fisher F (suite)
P ( Fν 1 ,ν 2 < fν 1 ,ν 2 ,α ) = α

2A Statistique Descriptive Cours Ferrigno

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

2A Statistique Descriptive Cours Ferrigno

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSITE DE LORRAINE

Statistique descriptive et inférentielle

Le menu Fichier renferme outils nécessaires à la gestion de l’espace de travail (sélection

1.1.1 Premières lignes de commandes avec R.

1.1.2 Sauvegarder sous R.

1. le fichier .Rdata contient des informations sur les variables utilisées.

1.1.3 Consulter l’aide de R. Il y a quatre sources principales :

– C’est un outil de collaboration puissant. Il est pratique de pouvoir transmettre en

1.1.5 Remarques générales sur R.

– R distingue les majuscules et les minuscules.

1.2 Objets avec le logiciel R

1.2.2 Quelques manipulations élémentaires.

1.2.3 Les vecteurs

1.2.3.1 Les vecteurs numériques

1.2.3.2 Les vecteurs de chaı̂nes des caractères

1.2.3.3 Les vecteurs logiques

1.2.3.4 Opérations sur les vecteurs.

type, pour en former un nouveau.

1.2.4 Les matrices

– Afficher des éléments ou une partie de la matrice.

– Calculs sur les matrices.

1.2.5 Les données sous R

– Lire et écrire des objets au format R.

de table1, ici 53.5.

1.3 Les packages

http ://cran.r-project.org/ De nombreux miroirs (copies exactes du site du CRAN) sont

– Les Statistiques : C’est un ensemble de données numériques. Les Statistiques in-

– La Statistique descriptive : Il s’agit du traitement des données collectées sur un

– La Statistique inférentielle : Lorsqu’on ne peut pas étudier complètement une

– Population et individus : L’ensemble sur lequel porte l’activité statistique s’appelle

de manière aléatoire soit de manière déterministe.

– La population est l’ensemble des Français disposant du droit de vote.

Autre exemple : On prélève 20 poulets dans un élevage et on mesure le taux de dioxine

– La population est l’ensemble des poulet de l’élevage tout entier.

d’une population. Ils sont de deux types :

2.2 Variables qualitatives

– nominale : les modalités ne sont pas ordonnées.

Distribution d’une variable qualitative.

Soit X une variable de type qualitatif présentant p modalités. Notons par ni , i = 1, . . . , p,

Elles sont souvent exprimées en pourcentages. La fréquence cumulée à la modalité i

> levels(M esures$especes)

Pour obtenir le tableau des effectifs de la variable espece sous R :

> table(M esures$espece)

> cumsum(M esures$espece)

Pour obtenir le tableau des fréquences de la variable espece sous R :

> table(M esures$espece)/sum(table(M esures$espece))

> prop.table(table(M esures$espece))

Pour obtenir le tableau des fréquences cumulées de la variable espece sous R :

> cumsum(table(M esures$espece)/sum(table(M esures$espece)))

> cumsum(prop.table(table(M esures$espece)))

distribution d’une série statistique qualitative. à chacune des modalités du caractère

– Polygone des effectifs cumulés :

2.3 Variables quantitatives

d’un intervalle, on dit qu’elle est de type quantitatif continu.

Une variable de type quantitatif peut être de deux types :

– simple ou univariée : la mesure sur un individu produit un seul nombre.

Distribution d’une variable quantitative.

Elles sont souvent exprimées en pourcentages. La fréquence cumulée en xi est égale à

– Par définition, la somme des effectifs est égale à l’effectif total.

– donner les effectifs ni de chaque classe pour i = 1, . . . , n, c’est à dire le nombre de

Elles sont souvent exprimées en pourcentages. La fréquence cumulée en ai est égale à

Pour obtenir la plage de valeurs de la variable masse :

Pour créer des classes :

Pour obtenir les effectifs correspondants aux dix classes :