Vous êtes sur la page 1sur 71

TRAITEMENTS

STATISTIQUES DES DONNEES

Dr Ignace KOUASSI
Maitre de Conférences
Université Nangui Abrogoua
kouadioignace@yahoo.fr
07 42 13 75
1
Statistique : de quoi parle-t-on?

La statistique peut être vue comme l'ensemble


des méthodes et techniques permettant de
traiter les données (informations chiffrées)
associées à une situation ou un phénomène.

2
Quelques domaines de la statistique

•Description d'une situation donnée :


statistique descriptive.
•Mettre en évidence certaines relations :
statistique corrélative.
•Faire des prévisions à propos de
phénomènes évoluant dans le temps : séries
temporelles, ou chronologiques.
•Tester une hypothèse : statistique
inférentielle.
3
Objectifs du cours

• Acquérir une culture de base en statistique.

• Posséder le sens critique nécessaire à la

compréhension de présentations ou travaux

basés sur des études statistiques.

• Maîtriser les outils et techniques de base.

4
Quelques notions essentielles

Population : ensemble généralement très grand,


voire infini, d’individus ou d’objets de
même nature.
Ex: Tous les étudiants de Côte d’Ivoire
constituent une population.

Echantillon : Il est, le plus souvent impossible,


d’apprécier toute une population ; on travaille
alors sur une partie de la population que l’on
appelle échantillon
5
Quelques notions essentielles

Variable statistique (ou caractère) : Chaque


individu, ou unité statistique, appartenant à
une population est décrit par un ensemble de
caractéristiques appelées variables ou
caractères.

Deux types de variables : Quantitatives


(numériques) ou qualitatives (non numériques).

6
Quelques notions essentielles

Variables quantitatives : continues (taille, poids)


ou discrètes (nombre d’enfants dans une
famille).

Variables qualitatives : variables catégorielles


(couleurs des yeux) ou ordinales (intensité
d’une douleur classée en nulle, faible, moyenne,
importante).
7
Quelques notions essentielles

Observation : Une observation est la valeur


prise par la variable sur une unité statistique.

Données : Les données sont constituées par


l’ensemble des observations (tableaux,
fichiers, données primaires).

8
Statistique descriptive

9
Statistique descriptive

Objectif : représenter des données dont on veut


connaître les principales caractéristiques
quantifiant leur variabilité.

Elle utilise à cet effet deux grands groupes de


paramètres : les paramètres de tendance
centrale et ceux de dispersion.

10
Statistique descriptive

Paramètres de tendance centrale


Moyenne : somme de toutes les valeurs d’une
variable rapportée à l’effectif
Médiane : valeur pour laquelle la moitié
(50%) des observations (lorsque celles-ci
sont rangées) se situe au dessus de cette
valeur et l'autre moitié se situe en dessous.
Mode : valeur qui se produit avec la plus
grande fréquence.
11
Statistique descriptive

Paramètres de dispersion
Etendue : L’étendue d’une variable s’obtient en
faisant la différence entre les valeurs
maximum et minimum de cette variable.
Ecart-type : Il mesure la dispersion ou
l’étalement d’une série de valeurs autour de
leur moyenne.
12
Statistique descriptive

Paramètres de dispersion
Variance : une mesure arbitraire servant à
caractériser la dispersion d’un échantillon ou
d’une population. La variance est toujours
positive ou nulle.

Erreur-type de la moyenne : l'écart-type


théorique de toutes les moyennes
d'échantillons de taille n extraites à partir
d'une population et dépend de la variance de
la population et de la taille d'échantillon (n).
13
Statistique descriptive

Paramètres de dispersion
Quantile : nombre xp tel qu'une proportion p
des valeurs de l’échantillon soit inférieure
ou égale à xp.
Ex : le quantile 0,25 (centile 25% ou 1er
quartile) d'une variable est une valeur (xp)
telle que 25% (p) des valeurs de la variable
se situent en dessous de cette valeur.

14
Statistique descriptive

Boite à moustaches Atypique


Max = Q3 + 1,5 (Q3 – Q1)

Q3 : 3 ème quartile

Q2 : médiane

Q1 : 1er quartile

Min = Q1 - 1,5 (Q3 – Q1)


Atypique
15
Tests de comparaison

16
IMPORTANT

 Evaluer la variation d’un paramètre d’un


échantillon à un autre
 Formulation d’hypothèses
 Hypothèse nulle (H0)
 Hypothèse alternative (H1)
 Seuil de signification
  = 0,001 (hautement significatif)
  = 0,01 (très significatif)
  = 0,05 (significatif)
17
TESTS DE NORMALITE
 Le test de Shapiro–Wilk teste l'hypothèse nulle
H0 : les données suivent une distribution normale
H1 : les données ne suivent pas la loi normale

Test de normalité

P < 0.05 P > 0.05


Test significatif Test non significatif
Rejeter H0 Accepter H0
Accepter H1 Rejeter H1
(distribution pas normale) (distribution normale)
Script de Shapiro–Wilk

test de Normalité

shapiro.test(MGAB$variable)
COMPARAISON D’UNE POPULATION
A UNE REFERENCE
EGALITE DE VARIANCE

Basé sur la distribution 2 effectifs inférieurs à 30


• Le rejet de l’hypothèse nulle intervient quand pour
un test bilatéral de niveau de probabilité  :

P 
Pour des effectifs supérieurs à 30 test normal réduit
(U)

• On rejette Ho quand : P ≤ 
Script de Khi-deux

Basé sur la distribution 2


chisq.test (Ouattara1, sexe)
COMPARAISON DE MOYENNE

 Utilisation du test t de student

• Le rejet de l’hypothèse nulle intervient quand

P≤

• L’acceptation de l’hypothèse nulle intervient quand

P≥
Script t de student
t.test(valeur~facteur)
#test t de student pour donner non apparié
t.test(histamine~thon,paired=F)
#test t de student pour des données appariés
t.test(histamine~thon,paired=F)
COMPARAISON DE
DEUX POPULATIONS
EGALITE DE VARIANCE
 Cas des échantillons indépendants (Non Apparié)
 Test de Fischer (F)
• Le rejet de l’hypothèse nulle intervient quand

P 
• L’acceptation de l’hypothèse nulle intervient quand

P≥
COMPARAISON DE MOYENNE
 Cas des échantillons indépendants (Non Apparié)
 Test Paramétriques (H0 acceptée – Egalité de
variance)
 Test t de Student (t)
• Le rejet de l’hypothèse nulle intervient quand

P 
• L’acceptation de l’hypothèse nulle intervient quand

P≥
COMPARAISON DE MOYENNE
 Cas des échantillons indépendants (Non Apparié)
 Test Non Paramétriques (H0 rejetée – Pas
d’égalité de variance)
 le test des rangs, aussi appelé test de MANN et
WHITNEY
• Le rejet de l’hypothèse nulle intervient quand
P 
• L’acceptation de l’hypothèse nulle intervient quand

P≥
EGALITE DE VARIANCE
 Cas des échantillons non indépendants (Apparié)
 Test t de student (t)
• Le rejet de l’hypothèse nulle intervient quand

P 
• L’acceptation de l’hypothèse nulle intervient quand

P≥
COMPARAISON DE MOYENNE
 Cas des échantillons non indépendants (Apparié)
 Test Paramétriques (H0 acceptée – Egalité de
variance)
 Test t de Student (t)
• Le rejet de l’hypothèse nulle intervient quand

P 
• L’acceptation de l’hypothèse nulle intervient quand

P≥
COMPARAISON DE MOYENNE
 Cas des échantillons non indépendants (Apparié)
 Test Non Paramétriques (H0 rejetée – Pas
d’égalité de variance)
 le test des rangs, aussi appelé test de WILCOXON

• Le rejet de l’hypothèse nulle intervient quand


P 
• L’acceptation de l’hypothèse nulle intervient quand

P≥
Tests Non paramétriques
 le test des rangs, aussi appelé test de WILCOXON
wilcox.test(VALEUR~FACTEUR)
COMPARAISON DE PLUS DE
DEUX POPULATIONS
EGALITE DE VARIANCE
 Cas des échantillons indépendants (Non Apparié)
Test de BARTLETT s’applique indifféremment à des
échantillons d’effectifs égaux ou inégaux.
Test de HARTLEY ne s’applique qu’à des
échantillons de même effectif.
• Le rejet de l’hypothèse nulle intervient quand

P 
• L’acceptation de l’hypothèse nulle intervient quand
P≥
Script Bartlett et Hartley

#égalité des variances pour les test


respectant la loi normale

bartlett.test(variable,facteur)
COMPARAISON DE MOYENNE
 Cas des échantillons indépendants (Non Apparié)
 Test Paramétriques (H0 acceptée – Egalité de
variance)
 Test ANOVA
• Le rejet de l’hypothèse nulle intervient quand

P 
• L’acceptation de l’hypothèse nulle intervient quand

P≥
Script ANOVA
 Test ANOVA 1 et 2
# Test paramétrique (ANOVA1)
model1<-lm(variable~Facteur)
anova(model1)

# Test paramétrique (ANOVA2)


model2<-lm(variable~Facteur1*Facteur2)
anova(model2)
COMPARAISON DE MOYENNE
 Cas des échantillons indépendants (Non Apparié)
 Test Non Paramétriques (H0 rejetée – Pas
d’égalité de variance)
 Test de Kruskall-Wallis

• Le rejet de l’hypothèse nulle intervient quand


P 
• L’acceptation de l’hypothèse nulle intervient quand

P≥
Script Kruskall-Wallis

#test non paramétrique de krusKall-Wallis


kruskal.test(variable~Facteur)
COMPARAISON DE MOYENNE
 Cas des échantillons non indépendants (Apparié)
 Test Non Paramétriques (H0 rejetée – Pas
d’égalité de variance)
 Test de Friedman

• Le rejet de l’hypothèse nulle intervient quand


P 
• L’acceptation de l’hypothèse nulle intervient quand

P≥
Synthèse des tests de comparaison
Non paramétrique Paramétrique
Variance égale
Variance différente

Wilcoxon Test t appariées ?

2 objets

Mann-Whitney Test t Test de Cochran

Friedman ? ?

> 2 objets

Kruskall-Wallis ANOVA ?

? : il est possible d’utiliser les tests non paramétriques 41


COMPARAISON DE PLUS DE
DEUX POPULATIONS

MANOVA
Analyse de la Variance Multivariée
 Tester les effets de VI sur l’ensemble des VD
 Généralisation de l’ANOVA à plusieurs VD
COMPARAISON DE PLUS DE
DEUX POPULATIONS

TEST POST ANOVA


Principes généraux

 Le rejet de l’hypothèse nulle intervient quand


P 
 Rejet une hypothèse d’égalité de plus de deux
moyennes relatives à un critère de classification
fixe, la question se pose généralement de savoir
quelles sont, parmi les moyennes considérées,
celles qui diffèrent significativement. Cette
question peut être résolue par différentes
méthodes de comparaisons multiples.
Principes généraux

Le problème peut se présenter sous différents


aspects auxquels correspondent différentes
méthodes d’analyse

Globalement, trois situations peuvent se présenter :


 Quand il s’agit de la comparaison de p
moyennes deux à deux, on peut utiliser :

 La méthode de la plus petite différence


significative
 La méthode de TUKEY
 La méthode de SCHEFFÉ
 La méthode de NEWMAN et KEULS
 La méthode de DUNCAN
 La méthode de la plus petite différence significative
s’applique en une seule étape et de ce fait est d’une
utilisation très facile: plus petite différence significative
ou ppds (LSD)

1 1
ppds  t1 / 2     CM r
 n1 n2 

 On considère ensuite tous les couples de moyennes et on


conclue que les moyennes dont les différences atteignent
ou dépassent cette limite en valeur absolue sont
significativement inégales.
La valeur t1-/2 est relative à la distribution t de STUDENT,
dont le DL est celui du CMr.
 Quand il s’agit de la comparaison de p – 1
moyennes à un témoin, on peut utiliser la
méthode de DUNNETT ;

Le principe du test de DUNNETT est de calculer, dans les


conditions normales d’emploi de l’ANOVA, la quantité
suivante, représentant la plus petite différence significative
par rapport au témoin (ppdsT) :
1 1 
ppdsT  d1 / 2     CM r
 nT n1 

Ensuite, on identifie les variantes dont la différence par


rapport au témoin dépasse cette limite en valeur absolue.
Pour la recherche des moyennes les plus élevées
la méthode de GUPTA peut être utilisée: test de
GUPTA
Cet objectif est atteint dans les conditions habituelles de
l’ANOVA en réunissant les valeurs qui sont telles que :

 1 1 
xi  xmax  d1 / 2     CM r
 nmax n1 
Le test de GUPTA peut être étendu, comme les précédents,
aux analyses de la variance à deux ou plus de deux critères
de classification. Il peut aussi être adapté aux effectifs
inégaux.
Script POST ANOVA

# Classification des objets

library(agricolae)
Paula<-HSD.test(model1, "facteur",group=T)
Paula
CORRELATION ET REGRESSION
 Objectif : mesurer la relation entre deux ou
plusieurs variables

 calcule d’un coefficient de corrélation

53
 Les coefficients de corrélation sont compris
dans l'intervalle -1,00 à +1,00.
 -1,00 : une parfaite corrélation négative
 +1,00 : une parfaite corrélation positive
 0,00 : une absence de corrélation ou une
indépendance entre les variables

54
 Méthode paramétrique
r de Pearson
 Méthodes non paramétriques
R de Spearman
Tau de Kendall
Gamma
tests de proportion

55
Corrélation r de Pearson

 Deux variables sont impliquées

 Détermine dans quelle mesure les valeurs des


deux variables sont ''proportionnelles'' les unes
aux autres.

 Le caractère proportionnel signifie une liaison


linéaire (corrélation forte si les points s’alignent
sur une droite de pente positive ou négative).

56
R de Spearman

Le rang R de Spearman peut être considéré


comme le coefficient de corrélation de Pearson (r
de Pearson) régulier

57
Tau de Kendall
 Le Tau de Kendall utilise les mêmes hypothèses
que le R de Spearman

 Mais le tau de Kendall et le R de Spearman


impliquent des interprétations différentes

 Par contre, le tau de Kendall représente une


probabilité c'est-à-dire qu'il s'agit de la différence
entre la probabilité que les deux variables aient le
même ordre dans les données observées contre la
probabilité que les deux variables aient un ordre
différent 58
Gamma
 La statistique Gamma est préférable au R de Spearman
ou au tau Kendall lorsque les données contiennent de
nombreuses observations ex-aequo.

 Gamma est également une probabilité ; il se calcule


comme la différence entre la probabilité que le rang de
deux variables soit identique et celle qu'il diffère,
rapportée au facteur1 moins la probabilité d'ex-aequo.

 C'est pourquoi, Gamma est en fait équivalent du tau de


Kendall, à la différence que les ex-aequo sont ici,
explicitement pris en compte
59
Script Corrélation

#Corrélation entre X et Y
cor.test(VariablesX,VariablesY)

Script Régression

##regression simple

regression<-lm(VariableX~VariableY)
summary(regression)
60
ANALYSES
MULTIVARIÉES

61
Deux grandes classes :
 les méthodes d'ordination, qui ordonnent les
objets selon des gradients,
 les méthodes de classification, qui classent
les objets dans des groupes

62
Méthode d’ordination
 Un fichier de données, que ce soit des
abondances d'espèces, des mesures chimiques
ou des mesures biométriques, est constitué
d'objets (les lignes) et de variables (les
colonnes)

Chaque variable est une dimension de l'espace


multivarié original dans lequel sont positionnés
les objets

63
Méthode d’ordination

 Le but des méthodes d'ordination est de


représenter les objets étudiés dans un nouvel
espace caractérisé par un nombre moindre de
dimensions orthogonales, et donc
indépendantes les unes des autres

 Ces nouvelles dimensions sont appelées axes


principaux, dont l'ordre est déterminé par
l'importance de l'information originale qu'ils
expliquent
64
Méthode d’ordination
Analyse en Composantes Principales (ACP)
 Cette analyse est particulièrement destinée à la
représentation de fichiers de variables
quantitatives
 L’ACP tient compte des doubles absences, c'est-à-
dire que l'absence d'une variable dans deux
relevés contribue à leur similitude.
 L’ACP est plutôt être réservée à des fichiers de
variables descriptives représentant des mesures
qu’au tableau de contingence 65
Méthode d’ordination

Analyse Factorielle des Correspondances (AFC)

 Cette analyse est spécifique à l'étude de la


structure de tableaux de contingence ou tableaux
de fréquence

 L’AFC cherche à mettre en relation les


descripteurs des lignes et des colonnes d'un
tableau

66
Méthode de classification

classification hiérarchique
 Les méthodes de classification visent à décrire
la structure générale d'un fichier de données en
appréciant la similarité entre les objets
 La première étape des méthodes de
groupement est la constitution d'une matrice de
similarité ou de distance

 Il existe une diversité d’indices de similarité ou


de distance
67
Méthode de classification

classification hiérarchique
 On peut utiliser les indices binaires, de
JACCARD et de SØRENSEN pour les données
de présence\absence ou des données qui ne
contiennent que 1 et 0
Parce que tous ceux-ci ne tiennent pas compte des
doubles zéros pour établir la similarité

68
Méthode de classification

classification hiérarchique
 Pour les données quantitatives telles que les
valeurs de pH, de température, la distance
euclidienne et les indices de GOWER, de
STEINHAUS et de KULCZINSKI sont plus
adaptés

69
 library(FactoMineR)

 # Le nom des observations est dans la colonne 1


 BiocApca<-read.table("BiochAgro.txt",h=T,
row.names=1)
 BiocApca
 attach(BiocApca)

 #Les résultats relatifs aux valeurs propres


 windows()
 res.pca <- PCA(BiocApca)
 res.pca$eig

70
 #Les résultats relatifs aux variables
 res.pca$var

 #Les résultats relatifs aux individus


 res.pca$ind

 #Les valeurs propres et vecteurs propres


 res.pca$svd

 #Les graphiques
 res.pca <- PCA(BiocApca)
 res.pca

71

Vous aimerez peut-être aussi