Académique Documents
Professionnel Documents
Culture Documents
Statistiques
descriptives
Avant propos
La méthode scientifique est une méthode de conjectures audacieuses
et de tentatives ingénieuses et sévères pour les réfuter.
(Karl Popper, La Connaissance objective, 1972)
Conjectures et réfutations
Le principe est donc de malmener des hypothèses/connaissances à l’aide de données
approche fréquentiste
- on part d’une hypothèse (souvent hypothèse d’égalité)
- soit on rejette cette hypothèse
- soit on ne peut pas la rejeter et on la conserve (pour le moment…)
approche bayésienne
- on dispose d’un a priori sur un phénomène
- la question est de savoir si (et comment) les données changent cet a priori
Une bonne partie du travail consiste donc à rendre intelligible les données
(en les organisant, en les décrivant,…)
1
04/09/2022
1. Des données?
Comment rendre
intelligible ces données ?
Comment résumer
l’information ?
Aperçu du fichier : dataL1.csv
2
04/09/2022
2. Un peu de terminologie
Dans ce tableau :
• Variable quantitative
Quand cela a un sens de dire qu’un résultat est plus grand qu’un autre,
qu’il est possible de faire la somme de 2 résultats, …
3
04/09/2022
Ce n’est pas parce que des variables sont des nombres qu’elles sont quantitatives!!
ex: la première colonne des codes patients (patientID)
Une variable codée 1/0 est souvent appelée variable indicatrice (dummy variable)
7
Le cahier de variables regroupe des informations détaillées sur les variables du jeu de données
8
4
04/09/2022
Paramètres numériques
Représentations graphiques
40
40 40
40
BB
20
20 20
20
AA
00 00
00 20
20 40
40 60
60 80
80 100
100 AA BB CC DD AA BB CC DD
Stripchart plot
Diagramme en bâton Boîte à moustache
A B
8
100
15
Nombre d'observations
Nombre d'observations
10
4
80
2 5
0 0
60
0 20 40 60 80 100 0 20 40 60 80 100
40
C D
10 15
Nombre d'observations
Nombre d'observations
8
20
10
6
4
5
0
0 0 1 2 3 4
0 20 40 60 80 100 0 20 40 60 80 100
5
04/09/2022
6
04/09/2022
1. Paramètres de position
Mesurent l’ordre de grandeur d’une variable (moyenne, médiane, mode,…)
2. Paramètres de dispersion
Estiment le niveau de variabilité (variance, intervalle inter-quartile, étendue,…)
o Mode
Paramètres de position
o Moyenne arithmétique
Soit une série de N mesures
d’une variable quantitative, la moyenne arithmétique est définie par:
14
7
04/09/2022
Paramètres de position
o Médiane Ex: n=7; {10,7,2,5,6,9,8}
valeur qui partage une série ordonnée 1 2 3 4 5 6 7
en 2 groupes d’effectif identique 2 5 6 7 8 9 10
p=3 p=3
Ø Série de valeurs impaires (n=2p+1 éléments) médiane
15
La médiane est plus robuste que la moyenne : sa valeur est moins affectée par les
valeurs extrêmes.
16
8
04/09/2022
Si la distribution d’une variable est asymétrique, il est Si la distribution des données est symétrique, la
probable que la moyenne et médiane ne soient pas égales moyenne et la médiane peuvent être confondues
Quartiles et box-plots
o Quartiles
valeurs qui partagent une série ordonnée en 4 groupes d’effectifs identiques
• On note Q1 et Q3 le premier et troisième quartile respectivement
• Q2 = médiane
9
04/09/2022
o Ecart-interquartile (IQR)
IQR=Q3-Q1
• L’IQR contient 50% des valeurs
o Quantiles
Par ex les centiles sont chacune des 99 valeurs qui divisent les données
triées en 100 parts égales
19
Paramètres de dispersion
o Etendue
Différence entre le max et le min
o Variance
Moyenne des carrés des écarts à la moyenne
Soit une population de N sujets pour lesquels les valeurs d'une variable X sont
La variance de X est
20
10
04/09/2022
Paramètres de dispersion
o Ecart-type (standard deviation)
Racine carrée de la variance, que l’on note .
o Coefficient de variation
CV est sans dimension
On l’exprime généralement en %
11
04/09/2022
Notion de moments
Un moment d’ordre r ( ) d’une variable aléatoire X est définit, s’il existe par:
23
Notion de moments
Moments théoriques d’une loi Normale
Ordre 1:
Ordre 2:
Ordre 2:
24
12
04/09/2022
Notion de moments
25
Notion de moments
Le moment centré d’ordre r ( ) de X est définit, s’il existe par:
Moments remarquables
Le coefficient d’asymétrie (Skewness) est un moment centré réduit d’ordre trois
Source: wikipedia
26
13
04/09/2022
Notion de moments
Moments remarquables (suite)
Le coefficient d’aplatissement (kurtosis) est dérivé d’un moment centré réduit
d’ordre quatre
On parle de distribution
• mésokurtique !" = 0 (distribution Normale)
• leptokurtique !" > 0
• platikurtique !" < 0
27
Source: https://stats.stackexchange.com
28
14
04/09/2022
29
15
04/09/2022
Eléments de correction…
Les Pressions Artérielles Systoliques (PAS) de ces 12
mêmes patients valent: 13, 17, 11, 14, 18, 14, 14, 12, 14,
13, 12, 14 (en cm de Hg)
Le coefficient d’aplatissement (kurtosis) vaut … suspense… Monsieur on y arrive pas L
J’aime pas faire les calculs à la mains, mais puisque vous avez l’air d’y tenir….
La formule du cours
Ça m’aide moyen – il faut que je la réécrive sous forme d’un truc qui découle d’un moment empirique
ne
ur être sûr de
-3 devant po e!!!!
La feinte du ns la som m
da
pas le mettre
16