Vous êtes sur la page 1sur 28

Rappel de l’analyse descriptive

I- Objectifs de la statistique descriptive (ou exploratoire):


- Résumer, synthétiser l’information contenue dans la série statistique, mettre en
évidence ses propriétés.
- Suggérer des hypothèses relatives à la population dont est issu l’échantillon.
II- Vocabulaire
1. On appelle population un ensemble d’éléments homogènes auxquels on s’intéresse. Par exemple,
les étudiants d’une spécialité de master, les bovins élevées dans la wilaya de Sétif….
2. Les éléments de la population sont appelés les individus ou unités statistiques.
3. Des observations concernant un thème particulier ont été effectuées sur ces individus. La série de
ces observations forme ce que l’on appelle une variable statistique. Par exemple, les notes des
étudiants à l’examen de statistique, les Mentions qu’ils ont obtenues à leur Bac, leur Sexe, les
Couleurs de leurs Yeux.
Pour les vaches : la race, nombre de vêlage la production laitière, qualité du lait (matière grasse, taux
de protéine…).
4. Une variable statistique est dite :
4.1.1. Quantitative : lorsqu’elle est mesurée par un nombre (les notes des étudiants à l’examen de
Statistique, quantité du lait traites pour chaque vache…qualité de matière grasse et des protéines…
On distingue 2 types de variables quantitatives : les variables quantitatives discrètes et les variables
quantitatives continues.
-Les variables discrètes (ou discontinues) ne prennent que des valeurs isolées. Par exemple le
nombre vêlage par vache ne peut être que 0, ou 1, ou 2, ou 3, . . . ; il ne peut jamais prendre une valeur
strictement comprise entre 0 et 1, ou 1 et 2, ou 2 et 3, . . . .

-Les variables quantitatives continues peuvent prendre toute valeur dans un intervalle. Par exemple,
la quantité du lait traite peut être 25.2, 25.6, 27.4..
4.1.2. Qualitative : lorsque les modalités (ou les valeurs) qu’elle prend sont désignées par des
noms. Par exemples, les modalités de la variable sexe sont : Masculin et Féminin ; les modalités de
la variable Couleur des Yeux sont : Bleu, Marron, Noir et Vert ; les modalités de la variable
Mention au Bac sont : TB, B, AB et P.
On distingue deux types de variables qualitatives : les variables qualitatives ordinales et les
variables qualitatives nominales.
-Une variable qualitative est dite ordinale, lorsque ses modalités peuvent être classées dans un
certain ordre naturel (c’est par exemple le cas de la variable Mention au Bac) ;
-Une variable qualitative est dite nominale, lorsque ses modalités ne peuvent être classées de
façon naturelle (c’est par exemple le cas de la variable Couleur des Yeux ou encore de la variable
Sexe).
III- Outils utilisés :
- Tableaux (table des fréquences …)
- Graphiques (histogrammes, boite à moustache..)
- Indicateurs (moyenne, variance, écart-type..).

1
VI-Représentation graphique :

1-Histogramme :
L’histogramme est un moyen rapide pour étudier la répartition d’une variable (nombre, fréquence.
Moyenne)..Parfois on représente un histogramme qui indique la moyenne ± ET
Exemple : les poids des taureaux viandes âgés d’un an issus de l’insémination.

Poids (en g) 350-400 400-450 450-500


Effectif 4 10 6

• Les valeurs du caractère étudié (poids) se présentent sous forme d'intervalles.


• Les hauteurs des barres sont proportionnelles aux effectifs représentés.

- Diagramme en bâtons
Chaque variable est représentée par un bâton. Les hauteurs des bâtons sont proportionnelles aux
effectifs représentés.
Exple : des souris sont traités par 2 types de traitement. Représenter un diagramme en bâtons des
souris guéris avec traitement A et B

Nbre de prise de traitement/j Nbre souris traité avec TA Nbre souris traité avec TB
1 10 15
2 13 8
3 6 12
4 8 10

- Un diagramme circulaire : c’est une représentation graphique de données statistiques sous la


forme d'un disque partagé en secteurs.

Exple : ce tableau peut être représenté tel quel (en nombre) ou en pourcentage sur un graphique à
secteur.

2
- Couleurs de cheveux d'un groupe de personne (Représentation graphique par secteur)

- Les boites à moustaches :


Ce type de graphique représente de façon simplifiée la dispersion des données. Il permet d’avoir un
aperçu sur la distribution et la variabilité des données, et d’identifier les valeurs aberrantes.

Astérix : valeur aberrante

3
V. Indicateurs des variables ou des données
Nous avons défini certains indicateurs pour représenter un échantillon de valeurs issus
d’une variable aléatoires.
V.1. Paramètres de position
1- Moyenne : C’est l’indicateur de localisation le plus fréquemment utilisé. La
moyenne arithmétique est la somme des valeurs de la variable divisée par le nombre
d’individus.
Soit la série statistique définie dans le tableau suivant :

Valeur X1 X2 …. Xp
Effectif n1 n2 …. np
Fréquence f1 f2 …. fp

Effectif total : N=n1+n2+……np et f i= ni/N


𝑛1𝑥1+𝑛2𝑥2+⋯𝑛𝑝𝑥𝑝
La moyenne : 𝑋̅= ou en utilisant les fréquences : 𝑋̅ =f1x1+f2x2+….fpxp
𝑁
Exple : soit le poids des bébés sont:

Poids (Kg) 2.8 3 3.5 4


Effectif 2 3 5 2

𝑋̅= 2X2.8 + 3X3 +5X3.5 + 2X4= 3.34 Kg


12
2-Médiane : c’est la valeur qui partage l’échantillon en deux groupes de même effectif (50% 
médiane et 50%  médiane). Elle est plus robuste que la moyenne (pas influencée par les valeurs
extrêmes).
Méthode : Pour déterminer une médiane d’une série statistique, on commence par ranger ses valeurs
dans l’ordre croissant (ou décroissant).
- Si l’effectif total de la série est impair, la médiane est la valeur centrale de la série.
Exemple : Soit la série des 7 nombres classés dans l'ordre croissant : 8; 10; 12; 13; 14; 15; 18
La médiane de cette série est 13.
-Si l’effectif total de la série est pair, toute valeur comprise entre les deux valeurs centrales est une
médiane, mais on choisit en général la moyenne des deux valeurs centrales.
Exemple : Soit la série des 10 nombres classés dans l'ordre croissant : 1; 2; 5; 7; 9; 10; 11; 11; 16; 17
Une médiane de la série est toute valeur comprise entre 9 et 10.
En général, on choisit la moyenne de ces deux valeurs, soit : 9+10/2=9.5
3- Mode : Le mode est la valeur la plus fréquente dans un échantillon.
L’ensemble des données qui suit représente le nombre d’insémination artificielle fécondante réalisée
au cours de la saison d’été :
1, 2, 2, 3, 4, 3, 3, 2, 1, 1, 3
Ordre : 1,1,1, 2,2,2, 3,3,3,3, 4,4. Le mode est donc : 3 (la valeur la plus observée)
4-Quartiles
On appelle premier quartile la plus petite valeur de la série, notée Q1, telle qu’au moins 25 % des
valeurs de la série soient inférieures ou égales à Q1.
La médiane coïncide avec le deuxième quartile.
On appelle troisième quartile la plus petite valeur de la série, notée Q3, telle qu’au moins 75 % des
valeurs de la série soient inférieures ou égales à Q3.
La différence Q3 – Q1 s’appelle écart interquartile.

4
Méthode : Pour déterminer les quartiles d’une série statistique, on commence par ranger ses valeurs
dans l’ordre croissant.
- Cas ou l’effectif total de la série est divisible par 4. Exemple : Soit la série des 8 nombres classés
dans l’ordre croissant : 0; 5; 8; 10; 11; 14; 15; 20
1/4× 8 = 2, donc Q1 est la 2e valeur de la série : 5
3/4× 8 = 6, donc Q3 est la 6e valeur de la série : 14
- Cas où l’effectif total n'est pas divisible par 4
Exemple : Soit la série des 9 nombres classés dans l’ordre croissant : 5; 5; 8; 10; 11; 11; 14; 15; 17
1/4× 9 = 2,25 : on arrondit à la valeur entière par excès, donc Q1 est la 3e valeur de la série : Q1 = 8
3/4 x 9= 6,75 : on arrondit à la valeur entière par excès, donc Q3 est la 7e valeur de la série : Q3 = 14
Q3 – Q1 = 6, donc l’écart interquartile est égal à 6.
5- Minimum et maximum : la plus petite et la plus grande valeur.

V.2. Paramètres de dispersion

1-La variance : La variance est la moyenne des carrés des écarts à la moyenne.

̅) + n2(X2-X
V= 1 [n1(X1-X ̅) + n3(X1-X
̅)……. ni(Xi-X
̅)]2 = 1 ∑ni=1(xi − x̅)2
N N

2-L’écart-type : c’est la racine carrée de la variance.

ET= = √𝑉

5
Méthodes à suivre pour l’analyse des variables biologiques
Avant toute analyse, il est indispensable de :
- vérifier les valeurs obtenus dans une enquête, une expérimentation, un dosage (rechercher les
valeurs aberrantes),
- vérifier la normalité,
- vérifier l’homogénéité des variances
I-Identification des valeurs aberrantes
1-Définition et causes :
Une donnée aberrante est une observation qui se trouve « loin » des autres
observations. Cela peut être par exemple :
-un cas qui ne fait pas partie de la population que l’on étudie (un adulte parmi un jeu
de données concernant des enfants, des variables qui concernent une génisse et non
des vaches adultes),
- faute d’échantillonnage,
- une erreur de saisie ou de mesure,
- faute de calcul,
- faute de manipulation dans le laboratoire, dysfonctionnement momentané de
l'appareil de mesure.
Certaines données aberrantes peuvent être aisément identifiées.
2- Boite à moustache (Box & Whiskers Plot ou box-plot)

Les valeurs aberrantes sont les données inférieures à Q1 - 1.5 * EI ou Supérieures à


Q3 + 1.5 * EI.
Ecart-interquartile= EI = Q3 - Q1.

3-Test de Dixon
Le test de Dixon sera pratiqué si N < ou = 25 et ne permettra de détecter que si la valeur la plus
extrême (i.e. la plus éloignée de la moyenne de l'échantillon) est une valeur aberrante.

• Hypothèse nulle : "H0 = il n'existe aucune valeur aberrante"


• Hypothèse alternative : "H1 = la valeur testée est une valeur aberrante, ou la valeur testée
n'appartient pas à la population d'où est extrait l'échantillon étudié"

La formule utilisée varie en fonction du nombre de sujets à étudier, on calcule une valeur r qu’on
compare à une valeur limite issue de la table de Dixon :

6
Si cette valeur r dépasse la valeur limite pour x < 0.05, on rejette alors l'hypothèse H0 et on considère que
la valeur testée est une valeur aberrante.
Le test de Dixon exige que la distribution de l'échantillon auquel on a retiré la valeur aberrante soit
normale.
Exple :
Valeurs observées : 148, 151, 152, 153, 160
Nous avons 5 valeurs et la dernière semble anormalement élevée. On calcule
r=160-153 = 7 = 0.583
160-148 12
Pour n = 5 observations, la valeur critique lue dans la table est, au risque de 5 %, 0,642.
Puisque 0, 583 < 0, 642 il n'est pas justifié, au risque de 5 %, d'éliminer la valeur 160.

4- Cas de non élimination des valeurs extrêmes, aberrantes :


Il faut comprendre que parfois, il faut retenir la ou les données aberrantes. Si dans certains cas, il est
évident qu’il faille les écarter parce qu’elles résultent d’erreurs et/ou qu’elles entraînent des résultats
faussés, certaines autres données aberrantes doivent, quant à elles, être gardées.
-Si vous avez une donnée aberrante dont vous savez sans doute possible qu’elle ne résulte pas d’une erreur
et/ou qu’elle met en lumière un phénomène que vous soupçonniez, cette valeur-là ne doit en aucun cas
être mise de côté, si aberrante soit-elle ! Les essais scientifiques sont particulièrement sujets à ce genre de
données aberrantes - écarter ces données aboutirait à supprimer des données essentielles liées non pas à
une erreur, mais à une nouvelle tendance ou une nouvelle découverte.

• Par exemple, on veut mesurer l’impact de produits pour faire grossir les poissons d’une ferme
piscicole. Reprenons notre série précédente ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}). Cette
fois, chacune des valeurs représente le poids (en grammes) d’un poisson ayant absorbé ce produit
depuis sa naissance. Un premier produit a donné un poisson de 71 grammes, le second a donné un
poisson de 70 grammes, etc. Dans ce cas de figure, 300 est effectivement une importante donnée
aberrante, mais nous ne pouvons pas l’écarter, partant du constat que ce n’est pas une erreur : ça
veut simplement dire que ce produit-là a eu des effets extrêmement spectaculaires. Dans cet
exemple très précis, la valeur 300 est la plus importante et non la moins significative.

7
Figure 1 : la formule du test Dixon

8
Table 1 : table des valeurs critiques du test Dixon

9
II. Etude de la normalité d’une distribution
Introduction
En toute rigueur, il est indispensable de vérifier la normalité avant d'utiliser les tests. Cependant, la
condition de la normalité dépend du nombre de l’échantillon :
- Nbre échantillon de faible taille (<30) : rechercher la normalité
- Nbre échantillon de grande taille (n  30 ou 40) : la violation de l'hypothèse de normalité ne doit pas causer
des problèmes majeurs ; cela signifie que nous pouvons utiliser des procédures paramétriques même lorsque
les données ne sont pas normalement distribuées.
- Nbre échantillon = 100 observations, on peut ne pas tenir compte de la répartition des données (Asghar
Ghasemi, 2012)
1. Définition : La distribution normale, appelée aussi gaussienne, correspond à la distribution de probabilités
d'une variable aléatoire continue dont la courbe est :
- Parfaitement symétrique autour de µ,
- Forme de cloche.
Elle dépend de 2 paramètres : la moyenne (µ) et l’écart-type ().

1.1. Différents types de représentations graphiques :

10
2. Evaluation de la normalité de la distribution
Il existe deux méthodes, statistiques et graphiques, pour évaluer la normalité.
2.1. Méthodes statistiques
Si n < 50, le test statistique de Shapiro-Wilk qui devrait être utilisé
Si n  50, le test statistique de Kolmogorov-Smirnov qui devrait être appliqué ; c’est le test le plus souvent
utilisé
2.1.1. Test Kolmogorov-Smirnov
Le test est utilisé pour vérifier si la distribution de fréquences d’une variable x suit la distribution normale.
Soit : Frel (x) : la fonction de répartition de l’échantillon (la fonction empirique)
Frel th(x) la fonction de répartition théorique (Population avec la même moyenne et variance)
H0 : La distribution de la variable … suit une loi normale.

H1 : La distribution de la variable … ne suit pas la loi normale

Le test de Kolmogorov-Smirnov est calculé par Dobs

On lit la valeur critique Dα dans la table de la loi du de Kolmogorov-Smirnov.


Si Dobs > Dα, on accepte l'hypothèse, sinon, on la rejette.
Comme le calcule de Dobs est complexe, nous donnons des résultats obtenus par le logiciel SPSS
Si p≥ 0.05 : H0 acceptée, la distribution est normale
Si p < 0.05 : H0 rejetée, la distribution n’est pas normale

Exemple :
Soit le tableau suivant donnée par le logiciel SPSS pour le test de la normalité
Test de normalité
Kolmogorov-Smirnov Shapiro-Wilk
Statistique df Sig. Statistique df Sig.
Concentration 0.047 93 0.200 0.994 93 0.951
Progestérone
Concentration 0.246 93 0.000 0.606 93 0.000
Cortisol

-Pour la concentration de la progestérone, la probabilité du test K-S p=0.200  au degré de signification


(p<0.05) donc l’hypothèse H0 est acceptée : les concentrations de progestérone sont distribué
normalement.
-Pour la concentration du cortisol, la probabilité du test de normalité K-S < 0.001 donc <0.01 donc
l’hypothèse H0 est rejetée : les concentrations du cortisol ne suit pas la distribution normale.

11
2.1.2. Coefficient d’asymétrie (skewness) ou d’aplatissement (kurtosis)
Ces deux coefficients sont également utiles pour définir une loi normale.

-Coefficient d’aplatissement :

-Coefficient d’asymétrie :

n= nbre échantillon
 = écart-type
𝑋̅= Moyenne
Pour l’étude de la symétrie de la distribution, on dispose des indices d’asymétrie (skewness) et
d’aplatissement (kurtosis) fournies par le tableau de description (Explorer).
On sait effectivement que le coefficient de skewness=0 pour toute loi normale, tandis que le coefficient de
kurtosis= 3 (0 si normalisé)
- Asymétrie : Indice de symétrie (position du pic de distribution) variant au-dessus et au-dessous de zéro.
• Plus la valeur positive de l’indice est élevée, plus le pic est déplacé vers les valeurs basses (symétrie
positive, voir Section B dans la figure suivante).
• Plus la valeur négative de l’indice est élevée, plus le pic est déplacé vers les valeurs élevées (symétrie
négative, voir Section A).
• Une symétrie parfaite équivaut à un indice de 0.
- Aplatissement : Indice d’aplatissement de la distribution. Comparativement à la distribution normale
(Section C), un indice positif élevé indique que la distribution est en pic prononcé (Section E), tandis qu’un
indice négatif indique un aplatissement prononcé (Section D). Plus la valeur tend vers 0, plus la
distribution tend vers la normalité.

12
Conclusion :
-Si ces indicateurs sont suffisamment proches de la valeur 0, l'hypothèse de la compatibilité avec la loi
normale ne peut être rejetée.
- Aussi, s’il n’y a pas de problème majeur de symétrie ou d’aplatissement si le rapport entre ces valeurs et
leur erreur-type (c’est erreur- standard (SD)= √ donnée par SPSS) se situe entre -2 et +2.
N
Exemple : Soit Les coefficients de symétrie donnée par le SPSS sont : Skewness= 3.532, kurtosis= 15.614 ;
Est-ce que la distribution est symétrique (normale)
Les 2 valeurs sont suffisamment grandes que 0 donc les variables ne suivent pas la loi normale

SKewness Kurtosis
Statistic Std Error Statistic Std Error
-0.482 0.172 -0.750 0.342

SKewness : -0.482 = 2.802 <-2 et Kurtosis : -0.750 = - 2.192<2 donc la distribution n’est pas symétrique
0.172 0.342
Remarque pour moi (Lynda)
Par curiosité, nous reprenons ces mêmes indicateurs en incluant le point extrême (Figure 1.1), nous
constatons qu'elles prennent des valeurs sensiblement différentes, G1= 0.7476 et G2= 1.1296, confirmant, si
besoin est, qu'un individu s'écartant significativement de la population peut fausser les résultats
2.2. Méthodes graphiques : Ce sont des méthodes visuelles :
- Histogramme : Il est possible de visualiser la forme de la distribution des données à analyser en les
représentant sous forme d'histogramme puis de comparer la forme de cet histogramme avec une courbe
représentant une loi normale.

- Boite à moustache : elle permet de visualiser rapidement la symétrie de la distribution des données réelles
et la présence de valeurs atypiques.

13
- Graphe quantile-quantile : utilisé pour représenter la comparaison d'une fonction de répartition empirique
(distribution observée) avec une distribution normale. Plus la répartition empirique se rapproche de la
répartition d'une loi normale, plus les points apparaissent alignés le long d'une droite (droite de Henry).

3- Normalisation de la distribution
Lorsque les données ne sont pas distribuées normalement et que la normalité est requise pour un test
donné (exple test de Student), deux options s’offrent à nous :
• Utiliser des tests non-paramétriques (souvent moins puissantes),
• Transformer les données pour que ces dernières suivent une distribution normale (normaliser)
On refait ensuite un nouveau test de normalité afin de vérifier si la transformation est adéquate.
Si la variable transformée est normalement distribuée, nous pouvons la substituer dans notre analyse
statistique sachant qu’il faut présenter les variables d’origines dans les tableaux.
Trois transformations courantes sont souvent utilisées :
• la transformation logarithmique : ln x (données strictement positives), ou encore ln (x + 1) si la variable x
prend des valeurs positives ou nulles ;
• la transformation de la racine carrée : √x (données positives ou nulles), ou encore √(x+c) si x prend une ou
des valeurs négatives ;
• la transformation inverse :1/x.

14
4-Etude de l’homogénéité des variances
4.1. Test de Fisher-Snedecor
Pour savoir si les variances des deux échantillons à observer ne sont pas très différentes, on teste
l’hypothèse nulle H0 : "Variance (1er échantillon) = Variance(2ème échantillon)" contre l’hypothèse
alternative H1": Variance(1er échantillon) ≠ Variance(2ème échantillon)".
On calcule les deux variances, puis on fait le rapport de la plus grande sur la plus petite.
Ce rapport est appelé le F de Snedecor observé.
Le F de Snedecor théorique dépend du dll des deux distributions et du risque de probabilité d'erreur choisi.
Pour un seuil de risque choisi (α = 5%), on compare le F de Snedecor observé et te F de Snedecor théorique
(table de F de Snedecor).
Le degré de liberté qui correspond à la variance la plus élevée est porté au numérateur (colonnes de la
table F), celui qui correspond à la variance la plus faible, est porté au dénominateur (lignes de la table F).
Pour conserver l'hypothèse d'homogénéité des variances, le F de Snedecor observé doit être inférieur au F
de Snedecor théorique.
Exple : supposons que les données suivantes ont été obtenues dans une expérimentation portant sur deux
traitements A et B :
Traitement Taille de l’échantillon Variance de l’échantillon
A na = 10 = 15,28
B nb =8 = 28,20

Tester l’hypothèse nulle H0: " Variance(A) = Variance(B)

F de Snedecor = F=28,20/15,58 =1,81

Pour le degré de liberté, on note :

Pour tester l'homogénéité des variances dans l'exemple, Va = Vb ??


Nous avons Fobs = 28,20 / 15,28 = 1,81 pour na-1 ddl=9, nb-1 ddl=7.
La valeur critique de rejet de F 0,95(7,9) = 3,29 (voir Table de Fisher-Snedecor)
Comme Fobs n'excède pas cette valeur, l'hypothèse d'égalité des variances n'est pas contredite.

4.2. Test de Hartley

Test de l'homogénéité des variances dans le cas où le test concerne des variances d'échantillons calculées
sur des nombres identiques d'individus (n1=n2).
H0: les variances des échantillons sont homogènes
H1: au moins une des variances est fortement différente des autres

15
Dans le cas du test de Hartley le nombre d'échantillons n'est pas limité.

La valeur à calculer est : Hobservé = variance la plus grande = Smax²


variance la plus petite Smin²
Lire dans la table de Hartley la valeur Hthéorique pour p =0.05, Hthéorique (k, n-1).
• k est le nombre de groupes comparés
• n = nombre d'individus par échantillon.
Si Hobservé ≥ Hthéorique : refus de H0, les variances des échantillons ne sont pas homogènes.
Si Hobservé < Hthéorique : la conclusion = acceptation H0: les variances sont toutes homogènes.

4.3. Test de Levene (homogénéité des variances) :


Le test de Levene peut être utilisé pour comparer deux variances ou plus.
• H0 : s1² = s2² = … = sk²
• Ha : il existe au moins un couple (i, j) tel que si² ≠ sj²
Le logiciel SPSS utilise le test de Levene pour vérifier l’homogénéité des variances
Si le test de Levene est statistiquement significatif, l'hypothèse d'homogénéité des variances doit être
rejetée.

16
17
Table Hartley : valeurs critiques pour le test de Hartley, α=0.05

18
5- Choix du test approprié : Les tests affichés (voir la grille ci-dessous) sont les tests les plus
couramment utilisés en statistique par un biologiste.

Equivalents non-
Question Données Hypothèse nulle Tests paramétriques
paramétriques
Comparaison d'une moyenne Mesures sur 1
Moyenne observée = Test t pour un
observée avec une tendance échantillon ; moyenne
moyenne théorique échantillon
théorique théorique (1 chiffre)

Comparaison de deux Test t pour


Mesures sur 2 Les positions* sont
positions* observées échantillons Mann-Whitney
échantillons identiques
(échantillons indépendants) indépendants

Comparaison de plusieurs
Mesures sur plusieurs Les positions* sont
positions* observées ANOVA Kruskal-Wallis
échantillons identiques
(échantillons indépendants)

Comparaison de 2 variances
Mesures sur deux Variance(1) =
(peut être utilisé pour Test de Fisher
échantillons variance(2)
tester l’homogénéité)
Comparaison de plusieurs Variance(1) =
Mesures sur plusieurs
variances (peut être utilisé variance(2) = Test de Levene
échantillons
pour tester condition 3) variance(n)
Proportion(1) =
Comparaison de plusieurs Effectif de chaque
proportion(2) = khi²
proportions observées catégorie
proportion(n)

Variable 1 et
Test d'association entre khi² sur un tableau de Test exact de
Tableau de contingence variable 2 sont
deux variables qualitatives contingence Fisher
indépendantes

Mesures de deux Variable 1 et


Test d'association entre deux Corrélation de Corrélation
variables sur un variable 2 sont
variables quantitatives Pearson de Spearman
échantillon indépendantes
L'échantillon ne
comprend pas de
Tests pour les valeurs Mesures sur un
valeur extrême Test de Dixon Boxplot
extrêmes échantillon
(selon la distribution
normale)

Remarque : *Les positions sont les moyennes (tests paramétriques) ou les rangs moyens (équivalents non-
paramétriques)

19
III. TESTS PARAMETRIQUES

Avant de faire tout test paramétrique statistique, on doit, en toute rigueur, vérifier au préalable que :
- Pas d'effectifs théoriques inférieurs à 5 dans les cases du tableau.
- Chaque échantillon suit une distribution normale (assumer ou vérifier).
- Les échantillons ont des variances égales.

1- Comparaison de deux variances


Voir test Fisher-Snedecor
2-Tests de comparaison de moyennes.
2.1. Comparaison de deux moyennes.
Test de Student pour échantillons indépendants
Le test-t de Student pour échantillon indépendants est un test statistique utilisé pour comparer deux
moyennes observées de deux groupes d’échantillons. Il s’agit donc de savoir si les moyennes des deux
groupes sont significativement différentes au point de vue statistique.
- Soit deux groupes différents à comparer.
- Soit m1 et m2 la moyenne du groupe A et celui du groupe B, respectivement.
- Soit n1 et n2 la taille du groupe A et celle du groupe B, respectivement.
Le test est utilisé lorsque n < 30, la valeur t de Student est donnée par la formule suivante :

S2 est la variance commune aux deux groupes. Elle est calculée par la formule suivante :

Pour savoir si la différence est significative, il faut tout d’abord lire dans la table t de Student, la valeur
critique correspondant au risque alpha = 5% pour un degré de liberté : d.d.l=n1+n2−2
-Si |T| <T5%, ddl n1+n2-2, on rejette l’hypothèse H0 : la différence n’est pas significative
-Si |T| ≥ T5%, ddl n1+n2-2, on accepte l’hypothèse H0: Différence significative entre moyennes (m1 < m2 ou
m1  m2
Remarque : si les variances ne sont pas homogènes, on pratique le test non paramétrique Man-Whitney
Exercice :
Nous avons mesuré un marqueur biologique pour 2 groupes (sain et malade). les résultats obtenus sont
présentés dans le tableau :

20
n Moy Marqueur (g/l) Ecart-Type
Sujets sains 15 1.6 0.19
Sujets malades 12 1.4 0.21

H0 : Les 2 moyennes du marqueur sont identiques dans les deux sujets, sains et malades ?

S2=(15-1) 0.192 + (12-1) 0.212= 0.04


15+12-2
T= 1.6-1.4 = 2.60
0.2 1 + 1
15 12
ddl= 15+12-2= 25
Pour ddl=25, T5%= 2.06. T=2.60  2.06. On accepte donc H0 , les sujets malades présentent une valeur du
marqueur significativement différente de celles des sujets sains.
Exemple

Nous avons mesuré les dimensions d'une tumeur (cm) chez des souris traitées avec 2 substances
antitumorale différentes. La différence observée est-elle significative ?

Trait 1 5,40 3,50 2,90 4,00 3,20 2,60 3,90 4,20

Trait 2 8,30 5,60 7,40 4,40 7,30 7,50 8,20 6,30

Nous avons obtenu les résultats suivants :

Statistiques de groupe
Moyenne erreur
Groupes N Moyenne Ecart type standard
Dimension Témoin 8 3,7125 ,87902 ,31078
Traité 8 6,8750 1,34775 ,47650

Test des échantillons indépendants


Test de Levene sur Test t pour égalité des moyennes
l'égalité des variances
F Sig. t ddl Sig. (bilatéral)
Dimension Hypothèse de
variances 1,867 0,193 -5,559 14 0,00
égales
Hypothèse de
variances -5,559 12,043 0,00
inégales

21
D’après le tableau : la signification p du test Fisher (F) : p=0.193 p=0.05 : les deux variances sont
identiques, homogènes

La signification p du test de Student (T) : p=0.00 < p=0.05 donc il y’a une différence significative
entre la moyenne du groupe 1 et du groupe 2 ce qui explique le traitement 2 favorise mieux le trt
que le 2ème .

2.2.Comparaison de plusieurs moyennes (ANOVA à un seul facteur)

L'analyse de la variance a pour but la comparaison des moyennes sur plusieurs échantillons..

F= Variance intergroupe
Variance intragroupe
F= Carré Moyen intergroupe= CM intergroupe
Carré Moyen intragroupe CM intragroupe
Carré moyen = CM = SC = Somme des carrés
dl degré de liberté

SC total= SC intragroupe + SC intergroupe

SC total= (x- X )2 ; SC intragroupe =  (X1-X1)2 + (X2-X2)2+ (X3-X3)2 +….(Xn-Xn)2

Exemple :

Groupes 1 2 3
1 2 2
2 4 3
5 2 4
Moy 2.67 2.67 3

H0 : M1=M2=M3, H1 : au moins la moyenne d’un groupe est différente des autres moyennes.

Calcule des ddl :


- Calcule de ddl intergroupe= K-1= 3-1= 2
- Calcule de ddl intragroupe= N-K= 9-3= 6, N : nbre d’observation
- Calcule ddl total= ddl interg+ ddl intrag= 2+6= 8

Fcritique à α=0.05, ddl interg (ligne) et ddl intrag (colonne)

De la table d’ANOVA, Fcrit (2,6) = 5.14.

Calcul Moyenne pour chaque groupe, Moy 1= 2.67, Moy2=2.67, Moy3=3

Calcule Moy globale= 𝑥̅ = 25= 2.78


9
SC total=  (X- )2 = (1-2.78)2 + (2-2.78)2 + (5-2.78)2 + (2-2.78)2 + (4-2.78)2 + (2-2.78)2 + (2-
2.78) + (3-2.78) + (4-2.78)2 = 13.6
2 2

SC intragroupe =  (X1-X1)2 + (X2-X2)2+ (X3-X3)2 = (1-2.67) 2 +(2-2.67) 2+ (5-2.67) 2+ (2-2.67) 2 +


(4-2.67) 2 +(2 -2.67) 2 + ( 2-3)2+ (3-3)2+ (4- 3) 2= 13.34
22
SC intergroupe= SC total- SC intragroupe=13.6-13.34= 0.23

23
Carré Moyen intergroupe= CM intergroupe= SCintergroupe = 0.23 =0.12
ddl intergroupe 2
Carré Moyen intragroupe= CM intragroupe= SCintragroupe = 13.34 =2.22
ddl intragroupe 6
F= CM intergroupe = 0.12 = 0.05 donc Fcalc<F critiq : 0.05 < 5.14 donc je ne peux rejeter H0
CM intragroupe 2.22
Conclusion : les moyennes sont identiques

2.3.Test post-hoc (test de Dunnet et de Tukey)


Les tests post-hoc, ou « a posteriori », sont réalisé après avoir obtenu un test du F statistiquement
significatif dans l'ANOVA. Cependant, on souhaite identifier les moyennes qui ont contribué à
l'effet ; c'est-à-dire, connaître les groupes qui sont particulièrement différents les uns des autres
Ces tests reposent sur des comparaisons multiples appariées qui testent la différence entre les
moyennes appariées laquelle les astérisques (*), indiquent les moyennes de groupes
significativement différentes au niveau alpha 0.05.
-Dunnett: Test t de comparaisons multiples appariées comparant toutes les moyennes de groupes
expérimentaux à un groupe témoin (exple : un groupe témoin, groupe de sujets sains).
-Tukey : Utilise les statistiques de plages de Student pour comparer toutes les moyennes entre elles.

Exemple : Nous avons testé l’effet de 3 régimes alimentaires sur le poids des souris. Pour voir s’il
y’a eu effet de régime, nous utilisons ANOVA. Les résultats de SPSS sont :

N Moyenne Ecart type


1,00 3 11,0000 1,00000
2,00 3 16,3333 ,57735
3,00 3 11,6667 ,57735
Total 9 13,0000 2,59808

Test d'homogénéité des variances


Variable
Statistique de
Levene ddl1 ddl2 Sig.
,364 2 6 ,709

ANOVA
Variable
Somme des
carrés ddl Carré moyen F Sig.
Inter-groupes 50,667 2 25,333 45,600 ,000
Intragroupes 3,333 6 ,556

24
Total 54,000 8

Tests post hoc

Différence moyenne
(I) GpesCode (J) GpesCode (I-J) Erreur standard Sig.
*
Différence significative 1,00 2,00 -5,33333 ,60858 ,000
de Tukey 3,00 -,66667 ,60858 ,551
*
2,00 1,00 5,33333 ,60858 ,000
3,00 4,66667* ,60858 ,001
3,00 1,00 ,66667 ,60858 ,551
2,00 -4,66667* ,60858 ,001
*
Test t de Dunnett 2,00 1,00 5,33333 ,60858 ,000
b
(bilatéral) 3,00 1,00 ,66667 ,60858 ,485

-Selon le Test de Tukey, il y’a une différence significative entre les poids des groupes 1 et 2 et ceux
des groupes 2 et 3 (p<0.05) alors que les poids des groupes 1 et 3 sont identiques.
-Si on considère le groupe 1 est un groupe témoin, dans ce cas on utilise le test de Dunnet pour
comparer la moyenne du groupe 2 et 3 avec celui du groupe 1.
D’après le test de Dunnet, il y’a que les poids du 2ème groupe qui diffère significativement des poids
du 1er groupe (Témoin) alors que les poids du 3ème groupe sont identiques à ceux du 1er groupe.

25
3- Test d’association entre deux variables qualitatives (test Khi2 : table de contingence).
Le Khi deux sert à étudier la liaison entre deux variables qualitatives X et Y. De façon générale, le
test s'applique à tous les tableaux de contingence quel que soit le nombre de modalités des variables
qualitatives.
Il consiste à calculer pour chacune des cases du tableau de contingence l'écart quadratique: (O-T)²
T
et à en faire la somme:

O: effectif observé de la case


T: effectif théorique (ou calculé). Il s’agit du produit de la somme des colonnes par la somme des
rangées, divisé par la somme totale.
III. Degré de liberté (dl) : dl: (l-1) (c-1)
l: lignes = nombre de paramètres estimés
c: colonnes= nombre de catégories
III. Conditions d'application
Pour exécuter le test du khi deux, les effectifs calculés dans chaque case doivent être au moins
égaux à 5 (10 pour plus de rigueur). Cependant on peut tolérer le calcul du test si les 4/5 au moins
des effectifs théoriques sont supérieures à 5 et si aucun d'eux n'est plus petit que 1.
Comparaison du  calculé au  de la table
Si le  calculé est supérieur au  de la table : il existe une différence significative entre les critères
étudiés.
Si le  calculé est inférieur au  de la table : il n’existe pas de différence significative entre les
critères étudiés.
V. Exemple de calcul du test de Khi deux
Existe-t-il un lien entre la parité et le décès des bébés ?
- Calculer la somme des colonnes et des rangées :

Nbre de grossesses Nbre de grossesses


Age du décès Total lignes
inférieur à 3 supérieur à 3
Inférieur à 3 mois 18 6 24
Supérieur à 3 mois 17 19 36
Total colonnes 35 25 60

2- Calculer les fréquences théoriques :


Il s’agit du produit de la somme des colonnes par la somme des rangées, respectif, divisé par la
somme totale
Nombre de grossesses Nombre de grossesses
Age du décès
inférieur à 3 supérieur à 3
Inférieur à 3 mois 35 X 24 = 840/60 = 14 25 X 24 = 600/60 = 10
Supérieur à 3 mois 35 X 36 = 1260/60 = 21 25 X 36 = 900/60 = 15

26
3- Appliquer la formule :

- Calculer le degré de liberté


dl = (2-1) (2-1) =1
- Comparer le  calculé au  de la table
Dans notre exemple:  calculé = 4,57
 de la table pour un degré de liberté ddl = 1,  = 3,84 avec un un risque α=0.05 ( 95%)
Dans notre exemple, On note  = 4,57 avec p<0,05.
 calculé = 4,57 est supérieur au  de la table = 3,84
Donc il existe une association entre l’âge du décès du bébé et le nombre de grossesses.

4- Test de Corrélation (test de Pearson)


Si r= +1, la liaison entre X et Y est linéaire positive.
Si r= -1, la liaison entre X et Y est linéaire négative.
Le test de corrélation permet d’étudier l’association (ou dépendance) linéaire entre deux variables
(x et y). C’est une méthode dite paramétrique car elle dépend de la distribution des données. Cette
méthode n’est conseillée que lorsque les variables suivent une loi normale. Par exemple, lorsque
l’on souhaite savoir s’il y a une association entre les poids des enfants et de leurs pères.

Dans le cas contraire, il faudrait utiliser les tests de corrélation non-paramétriques, test de
Spearman. Le graphique de y = f(x) est appelé droite de régression.

La formule de la corrélation de Pearson r est :

r= n(∑XY)-(∑ X)(∑ Y) +,,


√ [n(∑ X2)-(∑X)2] [n(∑Y2)-(∑Y)2]

-1< r < +1

27
Corrélation négative Corrélation positive

Interprétation de r : test de corrélation de Pearson


r= ± 1 : corrélation linéaire parfaite (positive ou négative)
r= ± 0.7 : corrélation linéaire forte (positive ou négative)
r= ± 0.5 : corrélation linéaire modérée (positive ou négative)
r= ± 0.3 : corrélation linéaire faible(positive ou négative)
r= ± 0 : absence de relation linéaire

Exemple : On veut tester s’il y’a une corrélation entre l’âge et le taux de glucose dans le sang

Sujets Age (X) Glucose X*Y X2 Y2


mg/dl (Y)

1 43 99 4257 1849 9801


2 21 65 1365 441 4225
3 25 79 1975 625 6241
4 42 75 3150 1764 5625
5 57 87 4959 3249 7569
6 57 81 4779 3481 6561
∑ 247 486 20485 11409 40022
∑X ∑Y ∑X*Y ∑ X2 ∑ Y2

r= n(∑XY)-(∑ X) (∑ Y) = 6 (20485) – (247) (486) +


√ [n(∑ X2)-(∑X)2] [n(∑Y2) (∑Y)2] √[6(11409)-(247)2] [6(40022) (486)2]

= 2868 = 0.5298 ; il y’a une corrélation positive entre l’âge et le taux de glucose mais elle est
5413.21 faible.

28

Vous aimerez peut-être aussi