Statistique Descriptive

La Statistique Descriptive
Professeur François KOHLER

kohler@medecine.uhp-nancy.fr
Buts
• Ensembles de méthodes dont le but est de
présenter les données pour que l'on puisse en
prendre connaissance facilement.
• Cela peut concerner :
– une variable à la fois : statistique à une dimension,
– deux variables à la fois : statistique à deux dimensions,
– plus de deux variables à la fois : statistique
multidimensionnelle.
Statistique descriptive
• Ces méthodes comportent :
– Les tableaux : distributions de fréquences.
– Les diagrammes : graphiques.
– Les paramètres statistiques :
• Réduction des données à quelques valeurs
numériques caractéristiques.
Rappel
• 3 Types de données :
– Qualitatives (présence ou absence d’une
caractéristique)
• Binaires,
• Nominales.
– Quantitatives (compte ou mesure)
• Discontinues,
• Continues.
– Ordinales (rang)
Distributions de fréquences
• Concernent les 3 types de données avec des points communs
et des points spécifiques à chacun des types.
• Séries statistiques (tout type de données) :
– Enumération des résultats :
• Exemples :
– Couleurs des cheveux : blond, brun, blond, noir….
– Nombre d’enfants dans les familles : 1, 2, 1, 4, 0 ….
– Séries statistiques ordonnées :
• Ne concernent que les données quantitatives
et ordinales
• Enumération du plus petit au plus grand
– Exemple : Nombre d’enfants : 0, 1, 1, 2, 4 ….
• Le nombre total d’observations est l’effectif. Il est noté n
(certain le note N).
Distributions non groupées
• Données xi ni fi
– qualitatives,
– ordinales, x1 n1 f1
– quantitatives
discontinues
• Formellement, ces x2 n2 f2
tableaux ne concernent
pas les données
quantitatives continues. … … …
xp np fp
xi ni fi fi 
ni
n Chaque ligne correspond à
une valeur observée
différente. Il y a p valeurs
différentes observées.
x1 n1 f1 ni correspond au nombre
d’observations (effectif) ayant
comme valeur xi
fi correspond à la fréquence
(pourcentage) d’observations
x2 n2 f2 ayant comme valeur xi : f 
i
n
i
n
… … …
• Données ordinales et xi ni fi Ni Fi
quantitatives
discontinues.
• x1 est la plus petite x1 n1 f1 N1 F1
valeur, xp la plus grande
des valeurs observées.
• Effectifs cumulés. x2 n2 f2 N2 F2
– N2 = n2+n1
• Fréquences cumulées.
– F2 = f2+f1 … … … …. …
xp np fp Np Fp
Ni est l’effectif cumulé c’est dire le
xi ni fi Ni Fi nombre d’observations ayant des
valeurs inférieures ou égales à xi :
i
Ni   n j
j1
x1 n1 f1 N 1 F1
Fi est la fréquence cumulée c’est à
dire la fréquence des
observations ayant des valeurs
x2 n2 f2 N 2 F2 inférieures ou égales à xi :
i
Fi   f j
j1
… … … …. …
xp np fp Np Fp
Distributions groupées
• Les valeurs sont mises en classes.
• Toutes les distributions relatives à des
variables continues doivent être considérées
comme des distributions groupées, puisque
l'infinité de valeurs admissibles est
condensée en un nombre fini de mesures en
fonction de la précision de la méthode de
mesure utilisée.
A propos des classes
• Leurs valeurs extrêmes sont appelées bornes des
classes.
• Les classes sont mutuellement exclusives.
• L'amplitude de la classe ou intervalle ou module de
classe :
= borne supérieure - la borne inférieure.
• Le point central ou encore point médian est situé à mi
chemin entre les bornes.
– Ci = Binfi +i/2
• Dans certains cas la limite inférieure de la première
classe ou supérieure de la dernière classe n'est pas
précisée. On parle de classes ouvertes. A éviter !...
A propos des classes
• L'intervalle de classe est généralement constant,
toutefois, on utilise parfois une amplitude
variable notamment pour les classes des valeurs
extrêmes.
• En cas de classes d'amplitudes différentes, la
densité de fréquence ni/ i permet de comparer
les effectifs ou les fréquences d'une classe à
l'autre.
• la densité de fréquence est utilisée pour tracer
l’histogramme.
Données quantitatives
continues
• Remarques :
– Si l’on mesure le poids d’un nouveau né avec une
précision de 1g, l’enfant qui pèse 3500g a en fait
un poids compris entre [3499,5g et 3500,5g[.
3500g représente le centre de la classe.
– Si l’on mesure l’âge en années pleines des
individus, une personne de 20 ans a un âge
compris entre [20 ans (inclus) et 21 ans[ (exclu).
20 ans représente la borne inférieure de la classe.
Distribution groupée
• On remplace la colonne xi par une colonne qui
comprend soit les bornes de classes, soit le
centre de classe ou la borne inférieure de la
classe (données temporelles comme l’âge en
années pleines).
Exemple
Classe Ci ni fi Ni Fi
[140-160[ 150,0 10 0,05 10 0,05
[160-165[ 162,5 20 0,10 30 0,15 Pour les calculs, le centre
[165-170[ 167,5 30 0,15 60 0,30 de classe Ci est utilisé en
remplacement de xi sauf
[170-175[ 172,5 45 0,23 105 0,53 de façon usuelle pour
l’âge (données
[175-180[ 177,5 40 0,20 145 0,73 temporelles).
[180-185[ 182,5 35 0,18 180 0,90
[185-190[ 187,5 15 0,08 195 0,98
[190-200[ 195,0 5 0,03 200 1,00
Formules
ni
fi 
n
n  i 1 n i
p
p = nombre de valeurs différentes observées

p
f 1
i 1 i
Total des valeurs  i 1 x i  i 1 n i x i

n p
Total des carrés des valeurs  i 1 x  i 1 n i x i2

n 2 p
i
En pratique
• Pour les calculs des paramètres statistiques
usuels des données quantitatives et
uniquement de ce type de données.
• On complète la distribution par :
– Une colonne ni * xi pour calculer le total,
– Une colonne ni * xi2 pour calculer le total des carrés.
Les graphiques représentent
les distributions
• Distributions non cumulées
– Distributions non groupées
• Données qualitatives :
– Diagramme sectoriel
 Angle au centre proportionnel à ni (ou fi).
• Données quantitatives discrètes
– Diagramme en bâtons
 On trace parallèlement à l'axe des ordonnées, en regard des xi qui sont
portés en abscisse, un segment de longueur proportionnel à ni
– Polygone des fréquences
 Ligne brisée joignant les bâtons.
 Fréquences absolues / fréquences relatives.
Exemple : Données qualitatives
• Diagramme sectoriel
Groupes
sanguins ni fi
A 35 35%
B 9 9%
O 40 40%
AB 16 16%
100 100%
Exemple : Donnée quantitative
discontinue
nombre nombre de
25
d'enfants familles (ni) 20
(xi)
0 10 15
1 20
2 15 10
3 5
4 3 5
>4 0
0
0 1 2 3 4 >4
Polygone des fréquences

les distributions
• Distributions non cumulées
– Distributions groupées
• Données quantitatives
– Histogramme :
 Composé de rectangles ayant comme base
l'intervalle de classe et comme hauteur la
densité de fréquence (ni/i).
 La surface est proportionnelle à ni.
les distributions
• Distributions cumulées
– Uniquement pour des données
quantitatives
• Polygone des fréquences :
– Distributions non groupées = escalier.
– Distributions groupées = ligne brisée.
• Histogrammes.
Exemple : Histogramme
90
Densité 80
Classe ni (*10) 70
[140-160[ 10 5 60
[160-165[ 20 40 50
40
[165-170[ 30 60 30
[170-175[ 45 90 20
[175-180[ 40 80 10
[180-185[ 35 70 0
140 160 170 180 190 200
[185-190[ 15 30
[190-200[ 5 5
Aspects de la distribution
• Distribution non cumulée :
– en forme de : Cloche, J, U ;
– À une seule bosse, à plusieurs bosses ;
– …….
• Symétrie – Aplatissement.
Remarques
• Autres représentations :
– Diagramme de Pareto et courbe ABC ;
– Boite à moustache (Box-plot).
• Attention :
– Les tableurs comme Excel ou Calc ne permettent
pas facilement de faire des histogrammes.
Diagramme de Pareto
• Dans le domaine de la qualité, on étudie les
causes de dysfonctionnement d'un système.
• Quand il s'agit de variables qualitatives
binaires, on présente les résultats sous forme
de diagramme de Pareto et de courbe ABC.
• Objectif : Visualiser les causes les plus
fréquentes de défaut de qualité.
Exemple
• La tenue des dossiers médicaux fait l'objet de
textes règlementaires contraignants.
• l'évaluation de la qualité des dossiers fait
partie du processus de certification.
• Un dossiers peut avoir plusieurs anomalies.
• On a étudié les anomalies rencontrées sur 200
dossiers.
Résultats
Etude de la qualité du dossier du patient : anomalies Effectif % d'anomalies
rencontrées Dossier comportant des pièces
Nombre de dossiers analysés 200 non "signées" 180 39,74%
Effectif des Pourcentage Délai de la lettre de sortie non
anomalies de dossiers
respecté 150 33,11%
Dossiers non retrouvés 3 1,50%
Absence d'une pièce réglementaire 80 40,00%
Absence d'une pièce
Délai de la lettre de sortie non réglementaire 80 17,66%
respecté 150 75,00% Doosier ne permettant pas de
Dossier comportant des pièces non retrouver la démarche clinique 30 6,62%
"signées" 180 90,00% Dossier comportant des pièces
Dossier comportant des pièces sans sans identification du patient 10 2,21%
identification du patient 10 5,00%
Dossiers non retrouvés 3 0,66%
Doosier ne permettant pas de
retrouver la démarche clinique 30 15,00% Total 453 100,00%
On trie le tableau par ordre décroissant du

nombre d'anomalies et on calcule les
pourcentages par rapport au nombre total
d'anomalies
Digramme de Pareto
et courbe ABC
Effectif % de anomalies % Cumulé
Dossier comportant des pièces non "signées" 180 39,74% 39,74%
Délai de la lettre de sortie non respecté 150 33,11% 72,85%
Absence d'une pièce réglementaire 80 17,66% 90,51%
Doosier ne permettant pas de retrouver la démarche clinique
30 6,62% 97,13%
Dossier comportant des pièces sans identification du patient
10 2,21% 99,34%
Dossiers non retrouvés 3 0,66% 100,00%
Total 453 100,00%
100,00%
90,00%
80,00%
70,00%
60,00%
50,00%
40,00%
30,00%
20,00%
10,00%
0,00%
Dos s ie r Dé la i d e la le ttre Ab s e n c e d ' u n e Doos ie r n e Dos s ie r Dos s ie rs n on
c om p orta n t d e s d e s ortie n oin p ié c e p e rm e tta n t p a s c om p orta n t d e s re trou vé s
p ié c e s n on re s p e c té ré g le m e n ta ire d e re trou ve r la p ié c e s s a n s
"s ig n é e s " d é m a rc h e id e n tific a tion d u
c lin iq u e p a tie n t
Les paramètres statistiques
• Paramètres de position Paramètres de l’échantillon
– Valeurs centrales
• Moyenne arithmétique E n
• Les autres moyennes s o
– géométrique
– harmonique t i
– quadratique i t
• Médiane
• Mode
Le + souvent m a
• Médiale a m
– Les fractiles t i
• Quartiles i t
• Percentiles
o s
• Paramètres de dispersion n E
– Amplitude ou étendue
– Ecart interquartiles
– Variance, Ecart type Paramètres de la population
– Coefficient de variation
• Paramètre d'aplatissement et de symétrie
Moyenne Arithmétique
Population m (mean) Echantillon x (average)
• Appelée moyenne notée x

– Paramètre central qui concerne bien évidemment
uniquement des variables quantitatives.
– Dans l’unité de la variable.
– Calculable quelque soit la loi qui régit la distribution.
– Somme des valeurs (T) divisée par le nombre de mesures (n).
– Suivant la forme de présentation des observations, différentes
formules de calcul peuvent être employées.
Moyenne arithmétique
• On note : p p
ni
n : Nombre total de n   ni fi  f i 1
mesures.
p : Nombre de valeurs i 1 n i 1
différentes n p p
observées.
ni : Nombre
T   x i   n i x i  n fi x i
d’occurrences de la i 1 i 1 i 1
valeur observée i. p
T
fi : Fréquence
x    fi x i
(pourcentage) de la
valeur observée i.
n i 1
Moyenne arithmétique
• Propriétés :
– Centre de gravité de la distribution.
– La somme des écarts à la moyenne est nulle.
– Affectée par les changements de variable.
• Si y = ax + b; on a : y = ax + b
– La moyenne contrairement à la médiane est très sensible aux
valeurs extrêmes.
– La moyenne d'un groupe résultant de la fusion d'autres groupes
n'est égale à la moyenne des moyennes que si tous les groupes
ont le même effectif.
– Dans une distribution en cloche, unimodale et symétrique,
moyenne, mode et médiane sont confondus.
Distribution des moyennes de
plusieurs échantillons
• La moyenne de l'échantillon est le meilleur
estimateur de la moyenne de la population.
• La distribution des moyennes de petits
échantillons (n<30) indépendants tirés de la
même population suit une loi normale si la
distribution de la variable est normale.
• Au-delà de 30, la distribution des moyennes suit
une loi normale sans condition sur la distribution
de la variable.
Exemple
• Soit la série correspondant aux tailles en cm
de 6 étudiants : 160,170,180,180, 190, 200.
n = 6; T = 160+170+180+180+190+200 = 1080
1080
x  180 cm
6
Exemple
Le nombre de familles enquêtées
nombre nombre de est de 53.
d'enfants familles Le nombre total d’enfants est
(xi) (ni) ni*xi de 77.
0 10 0 La moyenne du nombre d’enfants
1 20 20 par famille est de 77/53 = 1,45.
2 15 30
Attention aux arrondis ici si on
3 5 15 arrondit à une décimale la
4 3 12 moyenne est de 1,5 enfants par
Total 53 77 famille.
Exemple
• Les étudiants de première année de L1 santé sont répartis
dans 3 amphithéâtres avec les données ci-dessous. Quelle est
la moyenne de l’âge en L1 santé ?
Moyenne Les effectifs étant différents dans les 3

de l'âge groupes, la moyenne recherchée n’est pas la
Effectifs en années moyenne des moyennes.
Amphi 1 1000 18,1
•On calcule le total de l’âge des 3 groupes
Amphi 2 500 19,5
réunis : T = 18,1*1000+ 500*19,5+ 18,3*1000
Amphi 3 1000 18,3 =46 150.
•L’effectif total est de 2 500.
•La moyenne recherchée est 46150/2500
=18,5 ans
Les autres moyennes
• Moyenne géométrique d'une série de valeurs
positives est la racine nième du produit des n
valeurs. Elle est toujours inférieure ou égale à la
moyenne arithmétique.
• Moyenne harmonique d'une série de valeurs
positives est égale à l'inverse de la moyenne des
inverses.
• Moyenne quadratique est la racine carré de la
moyenne arithmétique des carrés.
La médiane
• La médiane notée x (tilde) est telle que la moitié des
observations lui sont inférieure (ou égale) et la moitié
supérieure (ou égale) : xi tel que Fi = 0,5.
– Sur les distributions symétriques unimodales en cloche
(normales par exemple) la médiane est égale à la moyenne
et au mode.
– Paramètre peu sensible aux valeurs extrêmes.
– Peut être utilisée pour des données ordinales.
La médiane : calcul
• Sur une distribution non groupée :
– Si n impair, la médiane est l'observation de rang (N+1)/2
– Si n est pair, tout nombre entre xN/2 et xN/2+1
convient. On prend la moyenne (pondérée en cas d'ex-aequo)
entre ces deux valeurs.
• Sur une distribution groupée, la classe médiane est
celle qui contient la médiane.
– Détermination graphique.
– En admettant que les observations soient réparties uniformément
dans cette classe, on réalise une approximation linéaire.
Exemple
Classe ni Ni Fi • La classe qui contient la
[140-160[ 10 10 0,05 médiane est [170-[175.
• On pose les 2 équations :
[160-165[ 20 30 0,15
0,53 = a*175 +b
[165-170[ 30 60 0,30 0,30 = a*170+b
[170-175[ 45 105 0,53 • =>
[175-180[ 40 145 0,73 0,23 = a*(175-170)
[180-185[ 35 180 0,90 a = 0,046 et b= -7,52
• => y = 0,046x – 7,52
[185-190[ 15 195 0,98
[190-200[ 5 200 1,00 • Cherchons x tel que y = 0,5
Total 200 Médiane = 174,35
Mode
• Mode encore appelé valeur dominante :
– Correspond à la valeur la plus fréquente. xi
correspondant au ni (ou fi)maximum.
– Il peut y avoir un ou plusieurs modes.
• Rappel :
– Dans les distributions en cloche, unimodales
symétriques, mode, médiane et moyenne sont
confondus.
Fractiles
• Quartiles
– Q1: xi tel que Fi = 0,25 => 1/4 des valeurs lui sont
inférieures, 3/4 lui sont supérieures.
– Q2 = Médiane.
– Q3 : xi tel que Fi = 0,75 => 3/4 des valeurs lui sont
inférieures, 1/4 lui sont supérieures.
• Détermination graphique.
• Interpolation linéaire (cf médiane).
• Percentiles
– 10ième percentile : xi tel que Fi = 0,10
Remarques
• On a :
– 50% des individus qui ont des valeurs en dehors de
l’intervalle Q1-Q3 et 50% à l’intérieur.
– 25% des individus qui ont des valeurs comprises entre

Q1 et médiane.
– 25% des individus qui ont des valeurs comprises entre
médiane et Q3.
– 25% des individus qui ont des valeurs inférieure à Q1
– 25% des individus qui ont des valeurs supérieures à Q3
– Ceci permet rapidement de se rendre compte si la

distribution est symétrique ou non.
Paramètres de dispersion
• Amplitude ou étendue.
• Ecart interquartiles.
• Variance et écart type.
• Coefficient de variation.
Amplitude ou étendue
• Ecart entre la valeur de l'observation maximale et celle de
l'observation minimale.
• Non définie pour les distributions groupées (tolérance pour
les variables quantitatives continues de la précision de la
mesure).
• On montre que l'écart type est toujours inférieur ou égal à la
moitié de l'amplitude.
• Dans les distributions unimodales en cloche l'écart type est
égal :
– au tiers de l'amplitude pour n de l'ordre de 10,
– au quart de l'amplitude pour n entre 15 et 50,
– au cinquième pour des effectifs de 50 à 200,
– au sixième pour des effectifs de 200 à 1000.
Ecart interquartiles (EIQ)
• EIQ = Q3 -Q1.
• Englobe 50% des observations.
• On utilise parfois l'écart semi-interquartile
(Q3-Q1)/2.
Variance et écart type
• La variance (variance) d'une série ou d'une
distribution de fréquences est la moyenne
arithmétique des carrés des écarts à la moyenne
n
 (x i  x) 2
S2  i 1
n
• C'est par rapport à la moyenne que la somme des
carrés des écarts est la plus faible.
• La variance de l'échantillon est souvent notée S2.
• Ce n'est pas un bon estimateur de la variance de la
population souvent notée 2.
^2
• L’estimation de la variance est notée  .
Variance et écart type
• Le numérateur de la variance est appelé somme des carrés
des écarts et noté SCE.
• L'écart type est la racine carré de la variance. On
l'appelle également déviation standard (standard
deviation). Il est dans l'unité de la variable.
• Variance et écart type sont indépendants des translations
(changement d ’origine) mais pas des multiplications
(changement d'unité).
– Si y = a * x + b, on a Sy = |a| * Sx
• Pour les distributions en cloche, la variance calculée à partir
des classes est surestimée, certain réalise la correction de
Sheppard.
Formules
p p
n
n   ni fi  i f i 1
i 1 n i 1
n p p
T x
i 1
i  n x
i 1
i i  n fi
i 1
n p
U  x
i 1
2
i  n xi 1
i
2
i
p
T
x
n
 f x
i 1
i i
N
T2
SCE   (x i  x)  U  2
i 1 n
SCE
S
n
SCE
σ̂ 
n 1
Ecart type de la moyenne
• Si l’on considère plusieurs échantillons indépendants,
issus d’une population, on obtient plusieurs
moyennes.
• La distribution des moyennes a un écart type appelé
écart type de la moyenne ou erreur standard de la
moyenne (ESM) (standard deviation of the mean –
SDM).
σ̂
ESM̂ 
n
Représentation en Box Plot
• Résume la distribution en terme de
paramètres de position et de dispersion.
Coefficient de variation
• CV est le rapport écart type divisé par la
moyenne.
• CV est un nombre pur, sans unités.
• CV est totalement indépendant des unités.
• Le CV permet de comparer la variabilité de
distributions de variables qui ne sont pas dans
les mêmes unités.
Moments centrés d’ordre k.
Symétrie et aplatissement
• Moments centrés d'ordre k
– moyenne arithmétique des écarts à la moyenne élevée à la puissance k.
– si k pair => paramètre de dispersion.
– si k impair => paramètre de symétrie.
• Coefficient de Pearson et de Fisher
– b1 pour caractériser la symétrie de la courbe; b2 pour caractériser
l'aplatissement.
– b1 = M32 / M23 : est voisin de 0 si la distribution est symétrique.
– b2 = M4 / M22 : est voisin de 3 si la distribution suit une loi normale (plus
aplatie qu'elle si b2 < 3).
– cf Loi Normale.
Statistique descriptive
à 2 dimensions
• Objectif : mettre en évidence les relations qui existent entre
deux séries d'observations.
– Nature des variables : les deux variables peuvent être quantitatives,
qualitatives ou l'une quantitative et l'autre qualitative.
– Deux variables mesurées chez le même individu par exemple poids et
taille; poids et couleur des yeux, présence d’un cancer et éthylisme...
• Situations :
– Séries appariées : même variable mesurée dans deux circonstances :
• Avant - Après traitement.
• Cas - Témoins on apparie un témoin dépourvu de la maladie que l'on veut étudier sur
différents points que l'on sait lier au phénomène étudié (par exemple pour une étude
de la mortalité on apparie sur âge, sexe, ...
– Séries non appariées :
• Même variable mesurée dans des groupes différents.
Tableaux à 2 dimensions
• Série, distribution de fréquences : tables de
contingence.
Sujet Poids Taille Poids
1 70 170 Taille 60 65 68 70 73 75 80 83 90 Tot.
2 80 180 162 1 1
3 65 165 165 1 1 2
4 75 175 170 1 12 13
5 90 182 175 10 10
6 73 170 180 4 15 1 2 22
7 60 162 182 1 1
8 68 165 Tot. 1 1 1 5 12 25 1 1 3 48
9 83 180
…. … …
Table de contingence
• Nombre de mesures totale n
• Total de chaque ligne = li
• Total de chaque colonne = cj
• Effectif d'une cas = nij
• Fréquences relatives: Cheveux
– nij / li : % en ligne Yeux Blonds Bruns Autres Tot. (li)
– nij / cj % en colonne Clairs 50 20 30 100
– nij / n % Foncés 60 80 60 200
– li / n Tot. (cj) 110 100 90 300
– cj / n
Attention
Cheveux
Yeux Blonds Bruns Autres Tot. (li)
Clairs 50 20 30 100
Foncés 60 80 60 200
Tot. (cj) 110 100 90 300
300 = Nombre total de mesures.
100 = Nombre d'individus ayant les yeux clairs.
110 = Nombre d'individus ayant les cheveux blonds.
50 / 300 = % d'individus ayant les cheveux blonds et les yeux clairs.
50 / 110 = % d'individus parmi les blonds ayant les yeux clairs.
50 / 100 = % d'individus parmi les yeux clairs ayant les cheveux blonds.
Représentation graphique 2
variables quantitatives
• Nuage de points
90
85
80
75
70
65
60
55
160 165 170 175 180 185
Covariance
Covariance
• Calcul
N Tx * T
 x * y -
y
Cov (x,y) =
i=1 i i
N
N
N
 x i * yi = Txy = somme des produits

i=1
Table de contingence de 2
caractères binaires
• Très utilisées en santé :

– Recherche de facteur de risque : exemple
enquêtes exposés/non exposés.
– Evaluation d’un test diagnostic.
Recherche de facteurs de
risques : paramètres utilisés
Cancer du poumon Cancer + Cancer - Total

et éthylisme. 1 000
Ethylisme + 73 927
Fréquences relatives :
Risques : 1 000
- Cancer chez les Ethylisme - 37 963
éthyliques :
R1 = 73/1000 2 000
- Cancer chez les Total 110 1 890
non éthyliques:
R0 = 37/1000
Risque relatif et odds ratio
• RR est le rapport du risque chez les exposés (R1) sur le risque des
non exposés (R0).
– RR = R1/R0 = 0,073/0,037 =1,97
• Cote (Odds) (cf course de chevaux).

– Chez les éthyliques R1/(1-R1) = 0,79
– Chez les non éthyliques R0/(1-R0) = 0,038
• Odds ratio (OR) ou rapport de cotes.

– OR = 0,79/0,038 = 2,05
• L’OR est souvent utilisé en épidémiologie. Si la fréquence de la

maladie est faible, les valeurs de OR et de RR sont très proches.
Recherche de facteurs
de confusion
• On a montré que l’on avait 1,97 fois plus de chance
de faire un cancer du poumon si l’on boit que si l’on
ne boit pas… Mais ?
• Un facteur de confusion est simultanément facteur
de risque pour la maladie et est une variable
associée à l'exposition.
– Les facteurs de confusion potentiels sont le tabagisme
et le sexe.
• La première variable à considérer est le
« tabagisme ».
Table de contingence
à 3 variables
Cancer du Cancer du
poumon + poumon - Total
Ethylisme + 70 630 700

Tabagisme
+
Ethylisme - 30 270 300

Total 100 900 1 000
Ethylisme + 3 297 300

Tabagisme
-
Ethylisme - 7 693 700

Total 10 990 1 000
Total 110 1 890 2 000

Calcul des différents risques
Chez les fumeurs, la fréquence du cancer est de 100/1000 =
0,1 contre 10/1000 = 0,01; RR = 10
Cancer + Cancer - Total Le tabagisme est un facteur de risque pour le cancer du poumon,
Ethylisme
car les fumeurs ont 10 fois plus de risque de développer un
+ 70 630 700 cancer du poumon que les non-fumeurs.
Tabagisme + Ethylisme
- 30 270 300 Quel est le RR d'être alcoolique pour les fumeurs par rapport
aux non fumeurs ?
Total 100 900 1 000 RR = 700/1000 / 300/1000 = 2,3
Ethylisme
Il existe une association entre le tabagisme et l'éthylisme. Les
+ 3 297 300 fumeurs ont 2,3 fois plus de chance d'être alcooliques que les
non-fumeurs.
Tabagisme - Ethylisme
- 7 693 700
Le tabagisme est un facteur de confusion dans cette étude,
Total 10 990 1 000
les données doivent être analysées en tenant compte de
cette variable.
1 890
Total 110 2 000 Calculer le RR (éthylisme) dans chaque strate
Tabagisme+ RR = 70/700 / 30/300 = 1
Tabagisme - RR = 3/300 / 7/700 = 1
L'association entre éthylisme et cancer du poumon dans les
données brutes (RR = 1,97) est le produit d'un biais de
confusion. Car à l'intérieur des différentes strates du
"tabagisme" il n'existe aucune association entre éthylisme et
le cancer du poumon : RR = 1.
Quelques indicateurs utilisés
en statistiques hospitalières
• Lits.
• Entrées et Sorties.
• Durée moyenne de séjour : DMS.
• Coefficient (taux d’occupation) des lits, Lits
occupés.
• Effectifs et équivalents temps pleins.
Lits
• Comment compter les lits dans un hôpital ?
– Lits Installés au 1er janvier.
– Lits disponibles pendant un période :
• Comment comptabiliser l’indisponibilité ?
– Fermeture pour désinfection,
– Fermeture par manque d’effectifs soignants,
– Fermeture par manque de malades,
– …..
Entrées, sorties,
malades présents
• On parle d’entrées ou de sorties pendant une
période donnée.
Chaque trait représente
Date de début Date de fin un malade.
2 4 - 3 entrées
10 4 4 - 4 sorties
- 6 présents
3 1
3 Et pour les journées ?
- 21 j (entrants)
1 30 4 - 23 J (sortants)
- 52 J (présents)
Durée moyenne de séjours :
• Durée de séjour PMSI = DS-DE + 1 si décès.
• DMS :
Journées des entrants
DMS 
Entrées
Journées des sortants
DSM 
Sorties
Journées des présents
DMS 
Présents
Taux d’occupation des lits et
lits occupés
Journées réalisées
Taux d' occupation 
Nombre de lits * durée de la période
Journées réalisées
Lits occupés 
Durée de la période
Effectifs,
Equivalents temps plein
• Les effectifs correspondent au nombre de
personnes employées par la structure.
• Les équivalents temps plein (ETP)
représentent la force de travail. Une personne
travaillant à temps partiel est comptabilisée
en fonction de son temps de travail.
• Par exemple un hospitalo-universitaire compte pour 0,5
ETP.

Statistique Descriptive

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Statistique Descriptive

Transféré par

Droits d'auteur :

Formats disponibles

La Statistique Descriptive

Professeur François KOHLER

Total des valeurs  i 1 x i  i 1 n i x i

Total des carrés des valeurs  i 1 x  i 1 n i x i2

d'enfants familles (ni) 20

Polygone des fréquences

On trie le tableau par ordre décroissant du

• Appelée moyenne notée x

Moyenne Les effectifs étant différents dans les 3

– 25% des individus qui ont des valeurs comprises entre

– Ceci permet rapidement de se rendre compte si la

 x i * yi = Txy = somme des produits

• Très utilisées en santé :

Cancer du poumon Cancer + Cancer - Total

• Cote (Odds) (cf course de chevaux).

• Odds ratio (OR) ou rapport de cotes.

• L’OR est souvent utilisé en épidémiologie. Si la fréquence de la

Ethylisme + 70 630 700

Total 100 900 1 000

Ethylisme + 3 297 300

Total 10 990 1 000

Total 110 1 890 2 000

Vous aimerez peut-être aussi