UE - Biostatistique M1

TRAITEMENTS
STATISTIQUES DES DONNEES
Dr Ignace KOUASSI
Maitre de Conférences
Université Nangui Abrogoua
kouadioignace@yahoo.fr
07 42 13 75
1
Statistique : de quoi parle-t-on?
La statistique peut être vue comme l'ensemble

des méthodes et techniques permettant de
traiter les données (informations chiffrées)
associées à une situation ou un phénomène.
2
Quelques domaines de la statistique
•Description d'une situation donnée :

statistique descriptive.
•Mettre en évidence certaines relations :
statistique corrélative.
•Faire des prévisions à propos de
phénomènes évoluant dans le temps : séries
temporelles, ou chronologiques.
•Tester une hypothèse : statistique
inférentielle.
3
Objectifs du cours
• Acquérir une culture de base en statistique.
• Posséder le sens critique nécessaire à la
compréhension de présentations ou travaux
basés sur des études statistiques.
• Maîtriser les outils et techniques de base.
4
Quelques notions essentielles
Population : ensemble généralement très grand,

voire infini, d’individus ou d’objets de
même nature.
Ex: Tous les étudiants de Côte d’Ivoire
constituent une population.
Echantillon : Il est, le plus souvent impossible,

d’apprécier toute une population ; on travaille
alors sur une partie de la population que l’on
appelle échantillon
5
Variable statistique (ou caractère) : Chaque

individu, ou unité statistique, appartenant à
une population est décrit par un ensemble de
caractéristiques appelées variables ou
caractères.
Deux types de variables : Quantitatives

(numériques) ou qualitatives (non numériques).
6
Variables quantitatives : continues (taille, poids)

ou discrètes (nombre d’enfants dans une
famille).
Variables qualitatives : variables catégorielles

(couleurs des yeux) ou ordinales (intensité
d’une douleur classée en nulle, faible, moyenne,
importante).
7
Observation : Une observation est la valeur

prise par la variable sur une unité statistique.
Données : Les données sont constituées par

l’ensemble des observations (tableaux,
fichiers, données primaires).
8
Statistique descriptive
9
Objectif : représenter des données dont on veut

connaître les principales caractéristiques
quantifiant leur variabilité.
Elle utilise à cet effet deux grands groupes de

paramètres : les paramètres de tendance
centrale et ceux de dispersion.
10
Paramètres de tendance centrale

Moyenne : somme de toutes les valeurs d’une
variable rapportée à l’effectif
Médiane : valeur pour laquelle la moitié
(50%) des observations (lorsque celles-ci
sont rangées) se situe au dessus de cette
valeur et l'autre moitié se situe en dessous.
Mode : valeur qui se produit avec la plus
grande fréquence.
11
Paramètres de dispersion
Etendue : L’étendue d’une variable s’obtient en
faisant la différence entre les valeurs
maximum et minimum de cette variable.
Ecart-type : Il mesure la dispersion ou
l’étalement d’une série de valeurs autour de
leur moyenne.
12
Variance : une mesure arbitraire servant à
caractériser la dispersion d’un échantillon ou
d’une population. La variance est toujours
positive ou nulle.
Erreur-type de la moyenne : l'écart-type

théorique de toutes les moyennes
d'échantillons de taille n extraites à partir
d'une population et dépend de la variance de
la population et de la taille d'échantillon (n).
13
Quantile : nombre xp tel qu'une proportion p
des valeurs de l’échantillon soit inférieure
ou égale à xp.
Ex : le quantile 0,25 (centile 25% ou 1er
quartile) d'une variable est une valeur (xp)
telle que 25% (p) des valeurs de la variable
se situent en dessous de cette valeur.
14
Boite à moustaches Atypique

Max = Q3 + 1,5 (Q3 – Q1)
Q3 : 3 ème quartile
Q2 : médiane
Q1 : 1er quartile
Min = Q1 - 1,5 (Q3 – Q1)

Atypique
15
Tests de comparaison
16
IMPORTANT
 Evaluer la variation d’un paramètre d’un

échantillon à un autre
 Formulation d’hypothèses
 Hypothèse nulle (H0)
 Hypothèse alternative (H1)
 Seuil de signification
  = 0,001 (hautement significatif)
  = 0,01 (très significatif)
  = 0,05 (significatif)
17
TESTS DE NORMALITE
 Le test de Shapiro–Wilk teste l'hypothèse nulle
H0 : les données suivent une distribution normale
H1 : les données ne suivent pas la loi normale
Test de normalité
P < 0.05 P > 0.05

Test significatif Test non significatif
Rejeter H0 Accepter H0
Accepter H1 Rejeter H1
(distribution pas normale) (distribution normale)
Script de Shapiro–Wilk
test de Normalité
shapiro.test(MGAB$variable)
COMPARAISON D’UNE POPULATION
A UNE REFERENCE
EGALITE DE VARIANCE
Basé sur la distribution 2 effectifs inférieurs à 30

• Le rejet de l’hypothèse nulle intervient quand pour
un test bilatéral de niveau de probabilité  :
P 
Pour des effectifs supérieurs à 30 test normal réduit
(U)
• On rejette Ho quand : P ≤ 
Script de Khi-deux
Basé sur la distribution 2

chisq.test (Ouattara1, sexe)
COMPARAISON DE MOYENNE
 Utilisation du test t de student
• Le rejet de l’hypothèse nulle intervient quand
P≤
• L’acceptation de l’hypothèse nulle intervient quand
P≥
Script t de student
t.test(valeur~facteur)
#test t de student pour donner non apparié
t.test(histamine~thon,paired=F)
#test t de student pour des données appariés
t.test(histamine~thon,paired=F)
COMPARAISON DE
DEUX POPULATIONS
EGALITE DE VARIANCE
 Cas des échantillons indépendants (Non Apparié)
 Test de Fischer (F)
P 
P≥
 Test Paramétriques (H0 acceptée – Egalité de
variance)
 Test t de Student (t)
P 
P≥
 Test Non Paramétriques (H0 rejetée – Pas
d’égalité de variance)
 le test des rangs, aussi appelé test de MANN et
WHITNEY
P 
P≥
EGALITE DE VARIANCE
 Cas des échantillons non indépendants (Apparié)
 Test t de student (t)
P 
P≥
variance)
 Test t de Student (t)
P 
P≥
 le test des rangs, aussi appelé test de WILCOXON

P 
P≥
Tests Non paramétriques
 le test des rangs, aussi appelé test de WILCOXON
wilcox.test(VALEUR~FACTEUR)
COMPARAISON DE PLUS DE
DEUX POPULATIONS
EGALITE DE VARIANCE
Test de BARTLETT s’applique indifféremment à des
échantillons d’effectifs égaux ou inégaux.
Test de HARTLEY ne s’applique qu’à des
échantillons de même effectif.
P 
P≥
Script Bartlett et Hartley
#égalité des variances pour les test

respectant la loi normale
bartlett.test(variable,facteur)
variance)
 Test ANOVA
P 
P≥
Script ANOVA
 Test ANOVA 1 et 2
# Test paramétrique (ANOVA1)
model1<-lm(variable~Facteur)
anova(model1)
# Test paramétrique (ANOVA2)

model2<-lm(variable~Facteur1*Facteur2)
anova(model2)
 Test de Kruskall-Wallis

P 
P≥
Script Kruskall-Wallis
#test non paramétrique de krusKall-Wallis

kruskal.test(variable~Facteur)
 Test de Friedman

P 
P≥
Synthèse des tests de comparaison
Non paramétrique Paramétrique
Variance égale
Variance différente
Wilcoxon Test t appariées ?
2 objets
Mann-Whitney Test t Test de Cochran
Friedman ? ?
> 2 objets
Kruskall-Wallis ANOVA ?
? : il est possible d’utiliser les tests non paramétriques 41

DEUX POPULATIONS
MANOVA
Analyse de la Variance Multivariée
 Tester les effets de VI sur l’ensemble des VD
 Généralisation de l’ANOVA à plusieurs VD
DEUX POPULATIONS
TEST POST ANOVA

Principes généraux
 Le rejet de l’hypothèse nulle intervient quand

P 
 Rejet une hypothèse d’égalité de plus de deux
moyennes relatives à un critère de classification
fixe, la question se pose généralement de savoir
quelles sont, parmi les moyennes considérées,
celles qui diffèrent significativement. Cette
question peut être résolue par différentes
méthodes de comparaisons multiples.
Principes généraux
Le problème peut se présenter sous différents

aspects auxquels correspondent différentes
méthodes d’analyse
Globalement, trois situations peuvent se présenter :

 Quand il s’agit de la comparaison de p
moyennes deux à deux, on peut utiliser :
 La méthode de la plus petite différence

significative
 La méthode de TUKEY
 La méthode de SCHEFFÉ
 La méthode de NEWMAN et KEULS
 La méthode de DUNCAN
 La méthode de la plus petite différence significative
s’applique en une seule étape et de ce fait est d’une
utilisation très facile: plus petite différence significative
ou ppds (LSD)
1 1
ppds  t1 / 2     CM r
 n1 n2 
 On considère ensuite tous les couples de moyennes et on

conclue que les moyennes dont les différences atteignent
ou dépassent cette limite en valeur absolue sont
significativement inégales.
La valeur t1-/2 est relative à la distribution t de STUDENT,
dont le DL est celui du CMr.
 Quand il s’agit de la comparaison de p – 1
moyennes à un témoin, on peut utiliser la
méthode de DUNNETT ;
Le principe du test de DUNNETT est de calculer, dans les

conditions normales d’emploi de l’ANOVA, la quantité
suivante, représentant la plus petite différence significative
par rapport au témoin (ppdsT) :
1 1 
ppdsT  d1 / 2     CM r
 nT n1 
Ensuite, on identifie les variantes dont la différence par

rapport au témoin dépasse cette limite en valeur absolue.
Pour la recherche des moyennes les plus élevées
la méthode de GUPTA peut être utilisée: test de
GUPTA
Cet objectif est atteint dans les conditions habituelles de
l’ANOVA en réunissant les valeurs qui sont telles que :
 1 1 
xi  xmax  d1 / 2     CM r
 nmax n1 
Le test de GUPTA peut être étendu, comme les précédents,
aux analyses de la variance à deux ou plus de deux critères
de classification. Il peut aussi être adapté aux effectifs
inégaux.
Script POST ANOVA
# Classification des objets
library(agricolae)
Paula<-HSD.test(model1, "facteur",group=T)
Paula
CORRELATION ET REGRESSION
 Objectif : mesurer la relation entre deux ou
plusieurs variables
 calcule d’un coefficient de corrélation
53
 Les coefficients de corrélation sont compris
dans l'intervalle -1,00 à +1,00.
 -1,00 : une parfaite corrélation négative
 +1,00 : une parfaite corrélation positive
 0,00 : une absence de corrélation ou une
indépendance entre les variables
54
 Méthode paramétrique
r de Pearson
 Méthodes non paramétriques
R de Spearman
Tau de Kendall
Gamma
tests de proportion
55
Corrélation r de Pearson
 Deux variables sont impliquées
 Détermine dans quelle mesure les valeurs des

deux variables sont ''proportionnelles'' les unes
aux autres.
 Le caractère proportionnel signifie une liaison

linéaire (corrélation forte si les points s’alignent
sur une droite de pente positive ou négative).
56
R de Spearman
Le rang R de Spearman peut être considéré

comme le coefficient de corrélation de Pearson (r
de Pearson) régulier
57
Tau de Kendall
 Le Tau de Kendall utilise les mêmes hypothèses
que le R de Spearman
 Mais le tau de Kendall et le R de Spearman

impliquent des interprétations différentes
 Par contre, le tau de Kendall représente une

probabilité c'est-à-dire qu'il s'agit de la différence
entre la probabilité que les deux variables aient le
même ordre dans les données observées contre la
probabilité que les deux variables aient un ordre
différent 58
Gamma
 La statistique Gamma est préférable au R de Spearman
ou au tau Kendall lorsque les données contiennent de
nombreuses observations ex-aequo.
 Gamma est également une probabilité ; il se calcule

comme la différence entre la probabilité que le rang de
deux variables soit identique et celle qu'il diffère,
rapportée au facteur1 moins la probabilité d'ex-aequo.
 C'est pourquoi, Gamma est en fait équivalent du tau de

Kendall, à la différence que les ex-aequo sont ici,
explicitement pris en compte
59
Script Corrélation
#Corrélation entre X et Y
cor.test(VariablesX,VariablesY)
Script Régression
##regression simple
regression<-lm(VariableX~VariableY)
summary(regression)
60
ANALYSES
MULTIVARIÉES
61
Deux grandes classes :
 les méthodes d'ordination, qui ordonnent les
objets selon des gradients,
 les méthodes de classification, qui classent
les objets dans des groupes
62
Méthode d’ordination
 Un fichier de données, que ce soit des
abondances d'espèces, des mesures chimiques
ou des mesures biométriques, est constitué
d'objets (les lignes) et de variables (les
colonnes)
Chaque variable est une dimension de l'espace

multivarié original dans lequel sont positionnés
les objets
63
 Le but des méthodes d'ordination est de

représenter les objets étudiés dans un nouvel
espace caractérisé par un nombre moindre de
dimensions orthogonales, et donc
indépendantes les unes des autres
 Ces nouvelles dimensions sont appelées axes

principaux, dont l'ordre est déterminé par
l'importance de l'information originale qu'ils
expliquent
64
Analyse en Composantes Principales (ACP)
 Cette analyse est particulièrement destinée à la
représentation de fichiers de variables
quantitatives
 L’ACP tient compte des doubles absences, c'est-à-
dire que l'absence d'une variable dans deux
relevés contribue à leur similitude.
 L’ACP est plutôt être réservée à des fichiers de
variables descriptives représentant des mesures
qu’au tableau de contingence 65
Analyse Factorielle des Correspondances (AFC)
 Cette analyse est spécifique à l'étude de la

structure de tableaux de contingence ou tableaux
de fréquence
 L’AFC cherche à mettre en relation les

descripteurs des lignes et des colonnes d'un
tableau
66
Méthode de classification
classification hiérarchique
 Les méthodes de classification visent à décrire
la structure générale d'un fichier de données en
appréciant la similarité entre les objets
 La première étape des méthodes de
groupement est la constitution d'une matrice de
similarité ou de distance
 Il existe une diversité d’indices de similarité ou

de distance
67
 On peut utiliser les indices binaires, de
JACCARD et de SØRENSEN pour les données
de présence\absence ou des données qui ne
contiennent que 1 et 0
Parce que tous ceux-ci ne tiennent pas compte des
doubles zéros pour établir la similarité
68
 Pour les données quantitatives telles que les
valeurs de pH, de température, la distance
euclidienne et les indices de GOWER, de
STEINHAUS et de KULCZINSKI sont plus
adaptés
69
 library(FactoMineR)
 # Le nom des observations est dans la colonne 1

 BiocApca<-read.table("BiochAgro.txt",h=T,
row.names=1)
 BiocApca
 attach(BiocApca)
 #Les résultats relatifs aux valeurs propres

 windows()
 res.pca <- PCA(BiocApca)
 res.pca$eig
70
 #Les résultats relatifs aux variables
 res.pca$var
 #Les résultats relatifs aux individus

 res.pca$ind
 #Les valeurs propres et vecteurs propres

 res.pca$svd
 #Les graphiques
 res.pca <- PCA(BiocApca)
 res.pca
71

UE - Biostatistique M1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

UE - Biostatistique M1

Transféré par

Droits d'auteur :

Formats disponibles

TRAITEMENTS

STATISTIQUES DES DONNEES

La statistique peut être vue comme l'ensemble

•Description d'une situation donnée :

• Acquérir une culture de base en statistique.

• Posséder le sens critique nécessaire à la

compréhension de présentations ou travaux

basés sur des études statistiques.

• Maîtriser les outils et techniques de base.

Population : ensemble généralement très grand,

Echantillon : Il est, le plus souvent impossible,

Variable statistique (ou caractère) : Chaque

Deux types de variables : Quantitatives

Variables quantitatives : continues (taille, poids)

Variables qualitatives : variables catégorielles

Observation : Une observation est la valeur

Données : Les données sont constituées par

Objectif : représenter des données dont on veut

Elle utilise à cet effet deux grands groupes de

Paramètres de tendance centrale

Erreur-type de la moyenne : l'écart-type

Boite à moustaches Atypique

Min = Q1 - 1,5 (Q3 – Q1)

 Evaluer la variation d’un paramètre d’un

P < 0.05 P > 0.05

Basé sur la distribution 2 effectifs inférieurs à 30

Basé sur la distribution 2

 Utilisation du test t de student

• Le rejet de l’hypothèse nulle intervient quand

• L’acceptation de l’hypothèse nulle intervient quand

• Le rejet de l’hypothèse nulle intervient quand

#égalité des variances pour les test

# Test paramétrique (ANOVA2)

• Le rejet de l’hypothèse nulle intervient quand

#test non paramétrique de krusKall-Wallis

• Le rejet de l’hypothèse nulle intervient quand

Wilcoxon Test t appariées ?

Mann-Whitney Test t Test de Cochran

? : il est possible d’utiliser les tests non paramétriques 41

TEST POST ANOVA

 Le rejet de l’hypothèse nulle intervient quand

Le problème peut se présenter sous différents

Globalement, trois situations peuvent se présenter :

 La méthode de la plus petite différence

 On considère ensuite tous les couples de moyennes et on

Le principe du test de DUNNETT est de calculer, dans les

Ensuite, on identifie les variantes dont la différence par

# Classification des objets

 calcule d’un coefficient de corrélation

 Deux variables sont impliquées

 Détermine dans quelle mesure les valeurs des

 Le caractère proportionnel signifie une liaison

Le rang R de Spearman peut être considéré

 Mais le tau de Kendall et le R de Spearman

 Par contre, le tau de Kendall représente une

 Gamma est également une probabilité ; il se calcule

 C'est pourquoi, Gamma est en fait équivalent du tau de

Chaque variable est une dimension de l'espace

 Le but des méthodes d'ordination est de

 Ces nouvelles dimensions sont appelées axes

Analyse Factorielle des Correspondances (AFC)

 Cette analyse est spécifique à l'étude de la

 L’AFC cherche à mettre en relation les