Académique Documents
Professionnel Documents
Culture Documents
x1 n1 f1 ni correspond au nombre
d’observations (effectif) ayant
comme valeur xi
fi correspond à la fréquence
(pourcentage) d’observations
x2 n2 f2 ayant comme valeur xi : f
i
n
i
n
… … …
Distributions non groupées
• Données ordinales et xi ni fi Ni Fi
quantitatives
discontinues.
• x1 est la plus petite x1 n1 f1 N1 F1
valeur, xp la plus grande
des valeurs observées.
• Effectifs cumulés. x2 n2 f2 N2 F2
– N2 = n2+n1
• Fréquences cumulées.
– F2 = f2+f1 … … … …. …
xp np fp Np Fp
Distributions non groupées
Ni est l’effectif cumulé c’est dire le
xi ni fi Ni Fi nombre d’observations ayant des
valeurs inférieures ou égales à xi :
i
Ni n j
j1
x1 n1 f1 N 1 F1
Fi est la fréquence cumulée c’est à
dire la fréquence des
observations ayant des valeurs
x2 n2 f2 N 2 F2 inférieures ou égales à xi :
i
Fi f j
j1
… … … …. …
xp np fp Np Fp
Distributions groupées
• Les valeurs sont mises en classes.
• Toutes les distributions relatives à des
variables continues doivent être considérées
comme des distributions groupées, puisque
l'infinité de valeurs admissibles est
condensée en un nombre fini de mesures en
fonction de la précision de la méthode de
mesure utilisée.
A propos des classes
• Leurs valeurs extrêmes sont appelées bornes des
classes.
• Les classes sont mutuellement exclusives.
• L'amplitude de la classe ou intervalle ou module de
classe :
= borne supérieure - la borne inférieure.
• Le point central ou encore point médian est situé à mi
chemin entre les bornes.
– Ci = Binfi +i/2
• Dans certains cas la limite inférieure de la première
classe ou supérieure de la dernière classe n'est pas
précisée. On parle de classes ouvertes. A éviter !...
A propos des classes
• L'intervalle de classe est généralement constant,
toutefois, on utilise parfois une amplitude
variable notamment pour les classes des valeurs
extrêmes.
• En cas de classes d'amplitudes différentes, la
densité de fréquence ni/ i permet de comparer
les effectifs ou les fréquences d'une classe à
l'autre.
• la densité de fréquence est utilisée pour tracer
l’histogramme.
Données quantitatives
continues
• Remarques :
– Si l’on mesure le poids d’un nouveau né avec une
précision de 1g, l’enfant qui pèse 3500g a en fait
un poids compris entre [3499,5g et 3500,5g[.
3500g représente le centre de la classe.
– Si l’on mesure l’âge en années pleines des
individus, une personne de 20 ans a un âge
compris entre [20 ans (inclus) et 21 ans[ (exclu).
20 ans représente la borne inférieure de la classe.
Distribution groupée
• On remplace la colonne xi par une colonne qui
comprend soit les bornes de classes, soit le
centre de classe ou la borne inférieure de la
classe (données temporelles comme l’âge en
années pleines).
Exemple
Classe Ci ni fi Ni Fi
[140-160[ 150,0 10 0,05 10 0,05
[160-165[ 162,5 20 0,10 30 0,15 Pour les calculs, le centre
[165-170[ 167,5 30 0,15 60 0,30 de classe Ci est utilisé en
remplacement de xi sauf
[170-175[ 172,5 45 0,23 105 0,53 de façon usuelle pour
l’âge (données
[175-180[ 177,5 40 0,20 145 0,73 temporelles).
[180-185[ 182,5 35 0,18 180 0,90
[185-190[ 187,5 15 0,08 195 0,98
[190-200[ 195,0 5 0,03 200 1,00
Formules
ni
fi
n
n i 1 n i
p
p = nombre de valeurs différentes observées
p
f 1
i 1 i
(xi)
0 10 15
1 20
2 15 10
3 5
4 3 5
>4 0
0
0 1 2 3 4 >4
100,00%
90,00%
80,00%
70,00%
60,00%
50,00%
40,00%
30,00%
20,00%
10,00%
0,00%
Dos s ie r Dé la i d e la le ttre Ab s e n c e d ' u n e Doos ie r n e Dos s ie r Dos s ie rs n on
c om p orta n t d e s d e s ortie n oin p ié c e p e rm e tta n t p a s c om p orta n t d e s re trou vé s
p ié c e s n on re s p e c té ré g le m e n ta ire d e re trou ve r la p ié c e s s a n s
"s ig n é e s " d é m a rc h e id e n tific a tion d u
c lin iq u e p a tie n t
Les paramètres statistiques
• Paramètres de position Paramètres de l’échantillon
– Valeurs centrales
• Moyenne arithmétique E n
• Les autres moyennes s o
– géométrique
– harmonique t i
– quadratique i t
• Médiane
• Mode
Le + souvent m a
• Médiale a m
– Les fractiles t i
• Quartiles i t
• Percentiles
o s
• Paramètres de dispersion n E
– Amplitude ou étendue
– Ecart interquartiles
– Variance, Ecart type Paramètres de la population
– Coefficient de variation
• Paramètre d'aplatissement et de symétrie
Moyenne Arithmétique
Population m (mean) Echantillon x (average)
n = 6; T = 160+170+180+180+190+200 = 1080
1080
x 180 cm
6
Exemple
Le nombre de familles enquêtées
nombre nombre de est de 53.
d'enfants familles Le nombre total d’enfants est
(xi) (ni) ni*xi de 77.
0 10 0 La moyenne du nombre d’enfants
1 20 20 par famille est de 77/53 = 1,45.
2 15 30
Attention aux arrondis ici si on
3 5 15 arrondit à une décimale la
4 3 12 moyenne est de 1,5 enfants par
Total 53 77 famille.
Exemple
• Les étudiants de première année de L1 santé sont répartis
dans 3 amphithéâtres avec les données ci-dessous. Quelle est
la moyenne de l’âge en L1 santé ?
• Rappel :
– Dans les distributions en cloche, unimodales
symétriques, mode, médiane et moyenne sont
confondus.
Fractiles
• Quartiles
– Q1: xi tel que Fi = 0,25 => 1/4 des valeurs lui sont
inférieures, 3/4 lui sont supérieures.
– Q2 = Médiane.
– Q3 : xi tel que Fi = 0,75 => 3/4 des valeurs lui sont
inférieures, 1/4 lui sont supérieures.
• Détermination graphique.
• Interpolation linéaire (cf médiane).
• Percentiles
– 10ième percentile : xi tel que Fi = 0,10
Remarques
• On a :
– 50% des individus qui ont des valeurs en dehors de
l’intervalle Q1-Q3 et 50% à l’intérieur.
(x i x) 2
S2 i 1
n
• C'est par rapport à la moyenne que la somme des
carrés des écarts est la plus faible.
• La variance de l'échantillon est souvent notée S2.
• Ce n'est pas un bon estimateur de la variance de la
population souvent notée 2.
^2
• L’estimation de la variance est notée .
Variance et écart type
• Le numérateur de la variance est appelé somme des carrés
des écarts et noté SCE.
• L'écart type est la racine carré de la variance. On
l'appelle également déviation standard (standard
deviation). Il est dans l'unité de la variable.
• Variance et écart type sont indépendants des translations
(changement d ’origine) mais pas des multiplications
(changement d'unité).
– Si y = a * x + b, on a Sy = |a| * Sx
• Pour les distributions en cloche, la variance calculée à partir
des classes est surestimée, certain réalise la correction de
Sheppard.
Formules
p p
n
n ni fi i f i 1
i 1 n i 1
n p p
T x
i 1
i n x
i 1
i i n fi
i 1
n p
U x
i 1
2
i n xi 1
i
2
i
p
T
x
n
f x
i 1
i i
N
T2
SCE (x i x) U 2
i 1 n
SCE
S
n
SCE
σ̂
n 1
Ecart type de la moyenne
• Si l’on considère plusieurs échantillons indépendants,
issus d’une population, on obtient plusieurs
moyennes.
• La distribution des moyennes a un écart type appelé
écart type de la moyenne ou erreur standard de la
moyenne (ESM) (standard deviation of the mean –
SDM).
σ̂
ESM̂
n
Représentation en Box Plot
• Résume la distribution en terme de
paramètres de position et de dispersion.
Coefficient de variation
• CV est le rapport écart type divisé par la
moyenne.
• CV est un nombre pur, sans unités.
• CV est totalement indépendant des unités.
• Le CV permet de comparer la variabilité de
distributions de variables qui ne sont pas dans
les mêmes unités.
Moments centrés d’ordre k.
Symétrie et aplatissement
• Moments centrés d'ordre k
– moyenne arithmétique des écarts à la moyenne élevée à la puissance k.
– si k pair => paramètre de dispersion.
– si k impair => paramètre de symétrie.
• Coefficient de Pearson et de Fisher
– b1 pour caractériser la symétrie de la courbe; b2 pour caractériser
l'aplatissement.
– b1 = M32 / M23 : est voisin de 0 si la distribution est symétrique.
– b2 = M4 / M22 : est voisin de 3 si la distribution suit une loi normale (plus
aplatie qu'elle si b2 < 3).
– cf Loi Normale.
Statistique descriptive
à 2 dimensions
• Objectif : mettre en évidence les relations qui existent entre
deux séries d'observations.
– Nature des variables : les deux variables peuvent être quantitatives,
qualitatives ou l'une quantitative et l'autre qualitative.
– Deux variables mesurées chez le même individu par exemple poids et
taille; poids et couleur des yeux, présence d’un cancer et éthylisme...
• Situations :
– Séries appariées : même variable mesurée dans deux circonstances :
• Avant - Après traitement.
• Cas - Témoins on apparie un témoin dépourvu de la maladie que l'on veut étudier sur
différents points que l'on sait lier au phénomène étudié (par exemple pour une étude
de la mortalité on apparie sur âge, sexe, ...
– Séries non appariées :
• Même variable mesurée dans des groupes différents.
Tableaux à 2 dimensions
• Série, distribution de fréquences : tables de
contingence.
Sujet Poids Taille Poids
1 70 170 Taille 60 65 68 70 73 75 80 83 90 Tot.
2 80 180 162 1 1
3 65 165 165 1 1 2
4 75 175 170 1 12 13
5 90 182 175 10 10
6 73 170 180 4 15 1 2 22
7 60 162 182 1 1
8 68 165 Tot. 1 1 1 5 12 25 1 1 3 48
9 83 180
…. … …
Table de contingence
• Nombre de mesures totale n
• Total de chaque ligne = li
• Total de chaque colonne = cj
• Effectif d'une cas = nij
• Fréquences relatives: Cheveux
– nij / li : % en ligne Yeux Blonds Bruns Autres Tot. (li)
– nij / cj % en colonne Clairs 50 20 30 100
– nij / n % Foncés 60 80 60 200
– li / n Tot. (cj) 110 100 90 300
– cj / n
Attention
Cheveux
Yeux Blonds Bruns Autres Tot. (li)
Clairs 50 20 30 100
Foncés 60 80 60 200
Tot. (cj) 110 100 90 300
300 = Nombre total de mesures.
100 = Nombre d'individus ayant les yeux clairs.
110 = Nombre d'individus ayant les cheveux blonds.
50 / 300 = % d'individus ayant les cheveux blonds et les yeux clairs.
50 / 110 = % d'individus parmi les blonds ayant les yeux clairs.
50 / 100 = % d'individus parmi les yeux clairs ayant les cheveux blonds.
Représentation graphique 2
variables quantitatives
• Nuage de points
90
85
80
75
70
65
60
55
160 165 170 175 180 185
Covariance
Covariance
• Calcul
N Tx * T
x * y -
y
Cov (x,y) =
i=1 i i
N
N
N
Journées réalisées
Taux d' occupation
Nombre de lits * durée de la période
Journées réalisées
Lits occupés
Durée de la période
Effectifs,
Equivalents temps plein
• Les effectifs correspondent au nombre de
personnes employées par la structure.
• Les équivalents temps plein (ETP)
représentent la force de travail. Une personne
travaillant à temps partiel est comptabilisée
en fonction de son temps de travail.
• Par exemple un hospitalo-universitaire compte pour 0,5
ETP.