Académique Documents
Professionnel Documents
Culture Documents
Dr Ignace KOUASSI
Maitre de Conférences
Université Nangui Abrogoua
kouadioignace@yahoo.fr
07 42 13 75
1
Statistique : de quoi parle-t-on?
2
Quelques domaines de la statistique
4
Quelques notions essentielles
6
Quelques notions essentielles
8
Statistique descriptive
9
Statistique descriptive
10
Statistique descriptive
Paramètres de dispersion
Etendue : L’étendue d’une variable s’obtient en
faisant la différence entre les valeurs
maximum et minimum de cette variable.
Ecart-type : Il mesure la dispersion ou
l’étalement d’une série de valeurs autour de
leur moyenne.
12
Statistique descriptive
Paramètres de dispersion
Variance : une mesure arbitraire servant à
caractériser la dispersion d’un échantillon ou
d’une population. La variance est toujours
positive ou nulle.
Paramètres de dispersion
Quantile : nombre xp tel qu'une proportion p
des valeurs de l’échantillon soit inférieure
ou égale à xp.
Ex : le quantile 0,25 (centile 25% ou 1er
quartile) d'une variable est une valeur (xp)
telle que 25% (p) des valeurs de la variable
se situent en dessous de cette valeur.
14
Statistique descriptive
Q3 : 3 ème quartile
Q2 : médiane
Q1 : 1er quartile
16
IMPORTANT
Test de normalité
test de Normalité
shapiro.test(MGAB$variable)
COMPARAISON D’UNE POPULATION
A UNE REFERENCE
EGALITE DE VARIANCE
P
Pour des effectifs supérieurs à 30 test normal réduit
(U)
• On rejette Ho quand : P ≤
Script de Khi-deux
P≤
P≥
Script t de student
t.test(valeur~facteur)
#test t de student pour donner non apparié
t.test(histamine~thon,paired=F)
#test t de student pour des données appariés
t.test(histamine~thon,paired=F)
COMPARAISON DE
DEUX POPULATIONS
EGALITE DE VARIANCE
Cas des échantillons indépendants (Non Apparié)
Test de Fischer (F)
• Le rejet de l’hypothèse nulle intervient quand
P
• L’acceptation de l’hypothèse nulle intervient quand
P≥
COMPARAISON DE MOYENNE
Cas des échantillons indépendants (Non Apparié)
Test Paramétriques (H0 acceptée – Egalité de
variance)
Test t de Student (t)
• Le rejet de l’hypothèse nulle intervient quand
P
• L’acceptation de l’hypothèse nulle intervient quand
P≥
COMPARAISON DE MOYENNE
Cas des échantillons indépendants (Non Apparié)
Test Non Paramétriques (H0 rejetée – Pas
d’égalité de variance)
le test des rangs, aussi appelé test de MANN et
WHITNEY
• Le rejet de l’hypothèse nulle intervient quand
P
• L’acceptation de l’hypothèse nulle intervient quand
P≥
EGALITE DE VARIANCE
Cas des échantillons non indépendants (Apparié)
Test t de student (t)
• Le rejet de l’hypothèse nulle intervient quand
P
• L’acceptation de l’hypothèse nulle intervient quand
P≥
COMPARAISON DE MOYENNE
Cas des échantillons non indépendants (Apparié)
Test Paramétriques (H0 acceptée – Egalité de
variance)
Test t de Student (t)
• Le rejet de l’hypothèse nulle intervient quand
P
• L’acceptation de l’hypothèse nulle intervient quand
P≥
COMPARAISON DE MOYENNE
Cas des échantillons non indépendants (Apparié)
Test Non Paramétriques (H0 rejetée – Pas
d’égalité de variance)
le test des rangs, aussi appelé test de WILCOXON
P≥
Tests Non paramétriques
le test des rangs, aussi appelé test de WILCOXON
wilcox.test(VALEUR~FACTEUR)
COMPARAISON DE PLUS DE
DEUX POPULATIONS
EGALITE DE VARIANCE
Cas des échantillons indépendants (Non Apparié)
Test de BARTLETT s’applique indifféremment à des
échantillons d’effectifs égaux ou inégaux.
Test de HARTLEY ne s’applique qu’à des
échantillons de même effectif.
• Le rejet de l’hypothèse nulle intervient quand
P
• L’acceptation de l’hypothèse nulle intervient quand
P≥
Script Bartlett et Hartley
bartlett.test(variable,facteur)
COMPARAISON DE MOYENNE
Cas des échantillons indépendants (Non Apparié)
Test Paramétriques (H0 acceptée – Egalité de
variance)
Test ANOVA
• Le rejet de l’hypothèse nulle intervient quand
P
• L’acceptation de l’hypothèse nulle intervient quand
P≥
Script ANOVA
Test ANOVA 1 et 2
# Test paramétrique (ANOVA1)
model1<-lm(variable~Facteur)
anova(model1)
P≥
Script Kruskall-Wallis
P≥
Synthèse des tests de comparaison
Non paramétrique Paramétrique
Variance égale
Variance différente
2 objets
Friedman ? ?
> 2 objets
Kruskall-Wallis ANOVA ?
MANOVA
Analyse de la Variance Multivariée
Tester les effets de VI sur l’ensemble des VD
Généralisation de l’ANOVA à plusieurs VD
COMPARAISON DE PLUS DE
DEUX POPULATIONS
1 1
ppds t1 / 2 CM r
n1 n2
1 1
xi xmax d1 / 2 CM r
nmax n1
Le test de GUPTA peut être étendu, comme les précédents,
aux analyses de la variance à deux ou plus de deux critères
de classification. Il peut aussi être adapté aux effectifs
inégaux.
Script POST ANOVA
library(agricolae)
Paula<-HSD.test(model1, "facteur",group=T)
Paula
CORRELATION ET REGRESSION
Objectif : mesurer la relation entre deux ou
plusieurs variables
53
Les coefficients de corrélation sont compris
dans l'intervalle -1,00 à +1,00.
-1,00 : une parfaite corrélation négative
+1,00 : une parfaite corrélation positive
0,00 : une absence de corrélation ou une
indépendance entre les variables
54
Méthode paramétrique
r de Pearson
Méthodes non paramétriques
R de Spearman
Tau de Kendall
Gamma
tests de proportion
55
Corrélation r de Pearson
56
R de Spearman
57
Tau de Kendall
Le Tau de Kendall utilise les mêmes hypothèses
que le R de Spearman
#Corrélation entre X et Y
cor.test(VariablesX,VariablesY)
Script Régression
##regression simple
regression<-lm(VariableX~VariableY)
summary(regression)
60
ANALYSES
MULTIVARIÉES
61
Deux grandes classes :
les méthodes d'ordination, qui ordonnent les
objets selon des gradients,
les méthodes de classification, qui classent
les objets dans des groupes
62
Méthode d’ordination
Un fichier de données, que ce soit des
abondances d'espèces, des mesures chimiques
ou des mesures biométriques, est constitué
d'objets (les lignes) et de variables (les
colonnes)
63
Méthode d’ordination
66
Méthode de classification
classification hiérarchique
Les méthodes de classification visent à décrire
la structure générale d'un fichier de données en
appréciant la similarité entre les objets
La première étape des méthodes de
groupement est la constitution d'une matrice de
similarité ou de distance
classification hiérarchique
On peut utiliser les indices binaires, de
JACCARD et de SØRENSEN pour les données
de présence\absence ou des données qui ne
contiennent que 1 et 0
Parce que tous ceux-ci ne tiennent pas compte des
doubles zéros pour établir la similarité
68
Méthode de classification
classification hiérarchique
Pour les données quantitatives telles que les
valeurs de pH, de température, la distance
euclidienne et les indices de GOWER, de
STEINHAUS et de KULCZINSKI sont plus
adaptés
69
library(FactoMineR)
70
#Les résultats relatifs aux variables
res.pca$var
#Les graphiques
res.pca <- PCA(BiocApca)
res.pca
71