Académique Documents
Professionnel Documents
Culture Documents
CUP
BIOMETRIE : TRAITEMENTS
STATISTIQUES DES DONNEES
2
Statistique : de quoi parle-t-on?
6
Importance de la statistique
Dualité monde réel – nombres Monde réel (biologie) Monde virtuel numérique
(mathématiques/statistiques)
Question:
le vaccin protège-t-il
Exemple 1 : expérience de Pasteur sur la contre la maladie?
vaccination de moutons contre la maladie du
charbon. Planification de
l’expérience
Réponse Vaccin Pas de vaccin
Expérience: Acquisition
(test) (témoin) 24 moutons vaccinés de données Tableau
24 moutons non vaccinés numérique
mort 0 24 tous inoculés (données brutes)
10
Utilité des statistiques
Les statistiques : outil permettant de répondre à de
nombreuses questions
Exemples :
Quelle est la fiabilité d'une mesure ou d‟une
observation ?
Les conditions expérimentales A sont-elles plus
efficaces que celles des conditions de B ?
Les effets de la variable A sont-ils différents de
ceux de la variable B ?
11
Rappels : terminologie de base
Variable : grandeur mesurée (X).
13
Types de variables
Variables qualitatives : variables à valeur non numérique et
codées
o Non ordonnées (nominales): sans ordre particulier, un
simple nom. Ex : couleur, forme
o Ordonnées (ordinales): avec un ordre, un peu,
beaucoup… Ex : couverture végétale
Variables quantitatives :
o Continues pouvant prendre un nombre infini de valeurs
Ex: la taille d'un individu
o Discrètes ne pouvant prendre qu'un nombre fini de
valeurs. Ex : nombre de jambes d‟un individu
14
Types de Statistiques
16
Données quantitatives Données qualitatives
Interpréter et discuter
les résultats
17
Statistiques descriptives
Tables
• Deux types de tables sont fréquemment utilisés
en statistiques descriptives
– 1.) Table des fréquences: Fréquence est le nombre
d‟observations correspondant à une catégorie
– 2.) Graphe en tige et feuille
19
Statistiques descriptives
Figures
• Boxplot (boîte à moustache) : la figure qui
communique le plus d‟informations sur les données :
centres, étendue des données, présence des extrêmes ...
• Histogramme
• Diagramme en bâton
• Polygone de fréquence
…. 20
Statistiques descriptives
50
max
(boxplot) permet de
représenter graphiquement 1.5 . IQR
40
maximum
cinq nombres résumant au
mieux les données. Q3
30
médiane IQR
Les valeurs extrêmes 20
interquartile depuis le
quartile le plus proche (bord min
de la boite).
21
Statistiques descriptives
Paramètres statistiques
Paramètres de dispersion
Etendue : L‟étendue d‟une variable s‟obtient en
faisant la différence entre les valeurs maximum
et minimum de cette variable.
Variance : une mesure arbitraire servant à
caractériser la dispersion d‟un échantillon ou
d‟une population. La variance est toujours
positive ou nulle. 24
Statistiques descriptives
Paramètres de dispersion
Ecart-type : Il mesure la dispersion ou l‟étalement
d‟une série de valeurs autour de leur moyenne.
C‟est la racine carrée de la variance
Paramètres de dispersion
Quantile : nombre xp tel qu'une proportion p des
valeurs de l‟échantillon soit inférieure ou égale à
xp.
Ex : le quantile 0,25 (centile 25% ou 1er quartile)
d'une variable est une valeur (xp) telle que 25%
(p) des valeurs de la variable se situent en dessous
de cette valeur. 26
Statistiques descriptives
Présentation graphique des données
Donnés Donnés
quantitatives qualitatives
Donnés Donnés
quantitatives qualitatives
Distribution Distribution
normale Non normale Mode
- Moyenne -Médiane
- Variance - Rang
-Ecart-type - Distribution
interquartile
28
Statistiques inférentielles
Test de comparaison
31
Tests de comparaison
32
Synthèse des tests de comparaison
Non paramétrique Paramétrique
Variance égale Variance différente
2 objets
Friedman ? ?
Kruskall-Wallis ANOVA ?
33
Analyses exploratoires / Analyses multivariées
34
Analyses multivariées
Méthode d‟ordination
Un fichier de données, que ce soit des abondances
d'espèces, des mesures chimiques ou des mesures
biométriques, est constitué d'objets (les lignes) et de
variables (les colonnes)
Chaque variable est une dimension de l'espace
multivarié original dans lequel sont positionnés les
objets 35
Analyses multivariées
Méthode d‟ordination
Le but : représenter les objets étudiés dans un nouvel
espace caractérisé par un nombre réduit de
dimensions orthogonales, et donc indépendantes les
unes des autres
37
Analyses multivariées : Méthodes d’ordination
Interprétation ACP
quelques règles pour l'interprétation :
Interprétation ACP
- Deux individus à une même extrémité d'un axe (i.e.
éloignés de l'origine) sont proches (i.e. se
ressemblent).
- Deux variables très corrélées positivement sont du
même côté sur un axe.
- Impossible d'interpréter la position d'un individu par
rapport à une seule variable, et réciproquement,
impossible d'interpréter la position d'une variable par
rapport à un seul individu. Les interprétations doivent
se faire de manière globale. 39
Analyses multivariées : Méthodes d’ordination
40
Analyses multivariées : Méthodes d’ordination
Interprétation AFC
Pour une bonne interprétation :
Interprétation AFC
42
Analyses multivariées : Méthode de classification
classification hiérarchique
Les méthodes de classification visent à décrire la
structure générale d'un fichier de données en
appréciant la similarité entre les objets
La première étape de ces méthodes : la constitution
d'une matrice de similarité ou de distance
classification hiérarchique
classification hiérarchique
45
Présentation de R
48
Pourquoi R?
la gratuité ;
l'utilisation de plus en plus répandue dans
l'enseignement supérieur et les organismes de
recherche ;
un langage de programmation interactif facile à
apprendre
une bibliothèque de fonctions très fournie,
rassemblées dans des “packages” 49
PASSONS À QUELQUES
CAS PRATIQUES
50
Statistiques descriptives / Graphes
1. Variables quantitatives
53
Statistiques descriptives / Graphes
54
Statistiques descriptives / Graphes
Variables discrètes
Quand la nature discrète de la variable étudiée ne fait pas de
doute, on utilise en général un diagramme en bâtons :
Exemple : Fichier cup1 illustrant les notes des étudiants
data=read.table(«cup1.txt", sep="\t", header=T)
attach(data)
names(data)
plot(table(note), main = paste("Notes de",
nrow(data),"Etudiants"),las = 1, xlab = "note", ylab =
"Nombre d'Etudiants")
55
Statistiques descriptives / Graphes
Variables discrètes
56
Statistiques descriptives / Graphes
Variables discrètes
Les paramètres graphiques lend (line end : n des lignes) et
lwd (line width : épaisseur des lignes) permettent de
contrôler l'aspect terminal des bâtons et l„épaisseur des
bâtons :
plot(table(note), main = paste("Notes de",
nrow(data),"Etudiants"),las = 1, xlab = "note", ylab =
"Nombre d'Etudiants", lwd = 5, lend = "square")
57
Statistiques descriptives / Graphes
Variables discrètes
58
Statistiques descriptives / Graphes
Variables continues
59
Statistiques descriptives / Graphes
Variables continues
data=read.table(«cup.txt", sep="\t", header=T)
attach(data)
names(data)
boxplot(Pulse, main = paste("Rythme cardiaque de",
nrow(data), "Etudiants"),ylab = "Pulsations/minutes", las =
1)
60
Statistiques descriptives / Graphes
Variables continues
61
Statistiques descriptives / Graphes
Variables continues
Les boîtes a moustaches permettent de comparer facilement
des groupes d'individus, par exemple ici les garçons et les
filles :
boxplot(Pulse~Sex, col = c("lightpink","lightblue"), main =
paste("Rythme cardiaque de", nrow(data), "etudiants"),
ylab = "Pulsations/minutes", las = 1)
62
Statistiques descriptives / Graphes
Variables continues
63
Statistiques descriptives / Graphes
Variables continues
64
Statistiques descriptives / Graphes
Variables continues
65
Statistiques descriptives / Graphes
66
Statistiques descriptives / Graphes
68
Statistiques descriptives / Graphes
69
Statistiques descriptives / Graphes
pie(classe) 71
Statistiques descriptives / Graphes
Diagramme de
Cleveland
73
Statistiques descriptives
Paramètres statistiques
74
Tests de comparaison
75
Tests de comparaison
76
Analyses multivariées
77
78