Académique Documents
Professionnel Documents
Culture Documents
ni correspond au nombre
dobservations (effectif) ayant
x2 n2 f2 comme valeur xi
fi correspond la frquence
(pourcentage) dobservations
ayant comme valeur xi : f n
i
ni
xp np fp
S1 p n 1
Distributions non groupes
Donnes ordinales et xi ni fi Ni Fi
quantitatives
discontinues. x1 n 1 f 1 N1 F 1
x1 est la plus petite
valeur, xp la plus grande x2 n 2 f 2 N2 F 2
des valeurs observes.
Effectifs cumuls. .
N2 = n2+n1
Frquences cumules. xp n p f p Np F p
F2 = f2+f1
S1p n 1
Distributions non groupes
Ni est leffectif cumul cest dire le
xi ni fi Ni Fi nombre dobservations ayant des
valeurs infrieures ou gales xi :
i
x1 n 1 f 1 N1 F 1 Ni n j
j1
S1p n 1
Distributions groupes
Les valeurs sont mises en classes.
Toutes les distributions relatives des
variables continues doivent tre considres
comme des distributions groupes, puisque
l'infinit de valeurs admissibles est
condense en un nombre fini de mesures en
fonction de la prcision de la mthode de
mesure utilise.
A propos des classes
Leurs valeurs extrmes sont appeles bornes des
classes.
Les classes sont mutuellement exclusives.
L'amplitude de la classe ou intervalle ou module de
classe :
D= borne suprieure - la borne infrieure.
Le point central ou encore point mdian est situ mi
chemin entre les bornes.
Ci = Binfi +Di/2
Dans certains cas la limite infrieure de la premire
classe ou suprieure de la dernire classe n'est pas
prcise. On parle de classes ouvertes. A viter !...
A propos des classes
L'intervalle de classe est gnralement
constant, toutefois, on utilise parfois une
amplitude variable notamment pour les
classes des valeurs extrmes.
En cas de classes d'amplitudes diffrentes, la
densit de frquence ni/ Di permet de
comparer les effectifs ou les frquences d'une
classe l'autre.
la densit de frquence est utilise pour
tracer lhistogramme.
Donnes quantitatives
continues
Remarques :
Si lon mesure le poids dun nouveau n avec une
prcision de 1g, lenfant qui pse 3500g a en fait
un poids compris entre [3499,5g et 3500,5g[.
3500g reprsente le centre de la classe.
Si lon mesure lge en annes pleines des
individus, une personne de 20 ans a un ge
compris entre [20 ans (inclus) et 21 ans[ (exclu).
20 ans reprsente la borne infrieure de la classe.
Distribution groupe
On remplace la colonne xi par une colonne qui
comprend soit les bornes de classes, soit le
centre de classe ou la borne infrieure de la
classe (donnes temporelles comme lge en
annes pleines).
Exemple
Classe Ci ni fi Ni Fi
[140-160[ 150,0 10 0,05 10 0,05
[160-165[ 162,5 20 0,10 30 0,15 Pour les calculs, le
[165-170[ 167,5 30 0,15 60 0,30 centre de classe Ci est
utilis en remplacement
[170-175[ 172,5 45 0,23 105 0,53 de xi sauf de faon
usuelle pour lge
[175-180[ 177,5 40 0,20 145 0,73 (donnes temporelles).
[180-185[ 182,5 35 0,18 180 0,90
[185-190[ 187,5 15 0,08 195 0,98
[190-200[ 195,0 5 0,03 200 1,00
Formules
ni
fi
n
n i 1 n i
p
p = nombre de valeurs diffrentes observes
p
f 1
i 1 i
(xi)
0 10 15
1 20
2 15 10
3 5
4 3 5
>4 0
0
0 1 2 3 4 >4
.
30
20
Symtrie Aplatissement. 10
0
1 2 3 4 5 6 7 8 9 10
Remarques
Autres reprsentations :
Diagramme de Pareto et courbe ABC ;
Boite moustache (Box-plot).
Attention :
Les tableurs comme Excel ou Calc ne permettent
pas facilement de faire des histogrammes.
Diagramme de Pareto
Dans le domaine de la qualit, on tudie les
causes de dysfonctionnement d'un systme.
Quand il s'agit de variables qualitatives
binaires, on prsente les rsultats sous forme
de diagramme de Pareto et de courbe ABC.
Objectif : Visualiser les causes les plus
frquentes de dfaut de qualit.
Exemple
La tenue des dossiers mdicaux fait l'objet de
textes rglementaires contraignants.
l'valuation de la qualit des dossiers fait
partie du processus de certification.
Un dossiers peut avoir plusieurs anomalies.
On a tudi les anomalies rencontres sur 200
dossiers.
Rsultats
Etude de la qualit du dossier du patient : anomalies Effectif % d'anomalies
rencontres Dossier comportant des pices
Nombre de dossiers analyss 200 non "signes" 180 39,74%
Effectif des Pourcentage Dlai de la lettre de sortie non
anomalies de dossiers
respect 150 33,11%
Dossiers non retrouvs 3 1,50%
Absence d'une pice rglementaire 80 40,00%
Absence d'une pice
Dlai de la lettre de sortie non rglementaire 80 17,66%
respect 150 75,00% Doosier ne permettant pas de
Dossier comportant des pices non retrouver la dmarche clinique 30 6,62%
"signes" 180 90,00% Dossier comportant des pices
Dossier comportant des pices sans
sans identification du patient 10 2,21%
identification du patient 10 5,00%
Dossiers non retrouvs 3 0,66%
Doosier ne permettant pas de
retrouver la dmarche clinique 30 15,00% Total 453 100,00%
100,00%
90,00%
80,00%
70,00%
60,00%
50,00%
40,00%
30,00%
20,00%
10,00%
0,00%
Dos s ie r D la i d e la le ttre Ab s e n c e d ' u n e Doos ie r n e Dos s ie r Dos s ie rs n on
c om p orta n t d e s d e s ortie n oin p i c e p e rm e tta n t p a s c om p orta n t d e s re trou v s
p i c e s n on re s p e c t r g le m e n ta ire d e re trou ve r la p i c e s s a n s
"s ig n e s " d m a rc h e id e n tific a tion d u
c lin iq u e p a tie n t
Les paramtres statistiques
Paramtres de position Paramtres de lchantillon
Valeurs centrales
Moyenne arithmtique E n
Les autres moyennes s o
gomtrique
harmonique
t i
quadratique i t
Mdiane Le + souvent m a
Mode
Mdiale a m
Les fractiles t i
Quartiles i t
Percentiles
o s
Paramtres de dispersion n E
Amplitude ou tendue
Ecart interquartiles
Variance, Ecart type Paramtres de la population
Coefficient de variation
Paramtre d'aplatissement et de symtrie
Moyenne Arithmtique
Population m (mean) Echantillon x (average)
n = 6; T = 160+170+180+180+190+200 = 1080
1080
x 180 cm
6
Exemple
Le nombre de familles enqutes
nombre nombre de
est de 53.
d'enfants familles Le nombre total denfants est
(xi) (ni) ni*xi de 77.
0 10 0
La moyenne du nombre denfants
1 20 20 par famille est de 77/53 = 1,45.
2 15 30
3 5 15 Attention aux arrondis ici si on
arrondit une dcimale la
4 3 12 moyenne est de 1,5 enfants par
Total 53 77 famille.
Exemple
Les tudiants de premire anne de L1 sant sont rpartis
dans 3 amphithtres avec les donnes ci-dessous. Quelle est
la moyenne de lge en L1 sant ?
Rappel :
Dans les distributions en cloche, unimodales
symtriques, mode, mdiane et moyenne sont
confondus.
Fractiles
Quartiles
Q1: xi tel que Fi = 0,25 => 1/4 des valeurs lui sont
infrieures, 3/4 lui sont suprieures.
Q2 = Mdiane.
Q3 : xi tel que Fi = 0,75 => 3/4 des valeurs lui sont
infrieures, 1/4 lui sont suprieures.
Dtermination graphique.
Interpolation linaire (cf mdiane).
Percentiles
10ime percentile : xi tel que Fi = 0,10
Remarques
On a :
50% des individus qui ont des valeurs en dehors de
lintervalle Q1-Q3 et 50% lintrieur.
(x i x) 2
S2 i 1
n
C'est par rapport la moyenne que la somme des
carrs des carts est la plus faible.
La variance de l'chantillon est souvent note S2.
Ce n'est pas un bon estimateur de la variance de la
population souvent note s2.
Lestimation de la variance est note s
^ 2.
Variance et cart type
Le numrateur de la variance est appel somme des
carrs des carts et not SCE.
L'cart type est la racine carr de la variance. On
l'appelle galement dviation standard (standard
deviation). Il est dans l'unit de la variable.
Variance et cart type sont indpendants des
translations (changement d origine) mais pas des
multiplications (changement d'unit).
Si y = a * x + b, on a Sy = |a| * Sx
Pour les distributions en cloche, la variance calcule
partir des classes est surestime, certain ralise la
correction de Sheppard.
Formules
p p
n
n ni fi i f i 1
i 1 n i 1
n p p
T x
i 1
i n x
i 1
i i n fi
i 1
n p
U x
i 1
2
i n xi 1
i
2
i
p
T
x
n
f x
i 1
i i
N
T2
SCE (x i x) U 2
i 1 n
SCE
S
n
SCE
n 1
Ecart type de la moyenne
Si lon considre plusieurs chantillons indpendants,
issus dune population, on obtient plusieurs
moyennes.
La distribution des moyennes a un cart type appel
cart type de la moyenne ou erreur standard de la
moyenne (ESM) (standard deviation of the mean
SDM).
ES M
n
Reprsentation en Box Plot
Rsume la distribution en terme de
paramtres de position et de dispersion.
Coefficient de variation
CV est le rapport cart type divis par la
moyenne.
CV est un nombre pur, sans units.
CV est totalement indpendant des units.
Le CV permet de comparer la variabilit de
distributions de variables qui ne sont pas dans
les mmes units.
Moments centrs dordre k.
Symtrie et aplatissement
Moments centrs d'ordre k
moyenne arithmtique des carts la moyenne leve la
puissance k.
si k pair => paramtre de dispersion.
si k impair => paramtre de symtrie.
Coefficient de Pearson et de Fisher
b1 pour caractriser la symtrie de la courbe; b2 pour caractriser
l'aplatissement.
b1 = M32 / M23 : est voisin de 0 si la distribution est symtrique.
b2 = M4 / M22 : est voisin de 3 si la distribution suit une loi normale
(plus aplatie qu'elle si b2 < 3).
cf Loi Normale.
Statistique descriptive
2 dimensions
Objectif : mettre en vidence les relations qui existent
entre deux sries d'observations.
Nature des variables : les deux variables peuvent tre
quantitatives, qualitatives ou l'une quantitative et l'autre
qualitative.
Deux variables mesures chez le mme individu par exemple poids
et taille; poids et couleur des yeux, prsence dun cancer et
thylisme...
Situations :
Sries apparies : mme variable mesure dans deux
circonstances :
Avant - Aprs traitement.
Cas - Tmoins on apparie un tmoin dpourvu de la maladie que l'on veut
tudier sur diffrents points que l'on sait lier au phnomne tudi (par
exemple pour une tude de la mortalit on apparie sur ge, sexe, ...
Sries non apparies :
Mme variable mesure dans des groupes diffrents.
Tableaux 2 dimensions
Srie, distribution de frquences : tables de
contingence.
Sujet Poids Taille Poids
1 70 170 Taille 60 65 68 70 73 75 80 83 90 Tot.
2 80 180 162 1 1
3 65 165 165 1 1 2
4 75 175 170 1 12 13
5 90 182 175 10 10
6 73 170 180 4 15 1 2 22
7 60 162 182 1 1
Tot. 1 1 1 5 12 25 1 1 3 48
8 68 165
9 83 180
.
Table de contingence
Nombre de mesures totale n
Total de chaque ligne = li
Total de chaque colonne = cj
Effectif d'une cas = nij
Frquences relatives: Cheveux
nij / li : % en ligne Yeux Blonds Bruns Autres Tot. (li)
nij / cj % en colonne Clairs 50 20 30 100
nij / n % Foncs 60 80 60 200
li / n
Tot. (cj) 110 100 90 300
cj / n
Attention
Cheveux
Yeux Blonds Bruns Autres Tot. (li)
Clairs 50 20 30 100
Foncs 60 80 60 200
Tot. (cj) 110 100 90 300
300 = Nombre total de mesures.
100 = Nombre d'individus ayant les yeux clairs.
110 = Nombre d'individus ayant les cheveux blonds.
50 / 300 = % d'individus ayant les cheveux blonds et les yeux clairs.
50 / 110 = % d'individus parmi les blonds ayant les yeux clairs.
50 / 100 = % d'individus parmi les yeux clairs ayant les cheveux blonds.
Reprsentation graphique 2
variables quantitatives
Nuage de points
90
85
80
75
70
65
60
55
160 165 170 175 180 185
Covariance
Covariance
Calcul
N Tx * T
S x * y -
i
y
Cov (x,y) =
i=1 i N
N
N
S xi * y
i
= Txy = somme des produits
i=1
Table de contingence de 2
caractres binaires
Journes ralises
Taux d' occupation
Nombre de lits * dure de la priode
Journes ralises
Lits occups
Dure de la priode
Effectifs,
Equivalents temps plein
Les effectifs correspondent au nombre de
personnes employes par la structure.
Les quivalents temps plein (ETP)
reprsentent la force de travail. Une personne
travaillant temps partiel est comptabilise
en fonction de son temps de travail.
Par exemple un hospitalo-universitaire compte pour 0,5
ETP.