Vous êtes sur la page 1sur 105

Biostatistiques Descriptives

Dr Marc CUGGIA PCEM 1 Anne 2006/2007

http://www.med.univ-rennes1.fr

http://www.med.univ-rennes1.fr

http://www.med.univ-rennes1.fr

http://www.med.univ-rennes1.fr

http://www.med.univ-rennes1.fr

http://www.med.univ-rennes1.fr

http://www.med.univ-rennes1.fr

http://www.med.univ-rennes1.fr

http://www.med.univ-rennes1.fr

Dfinitions
La population cible est l'ensemble de tous les objets que l'on tudie. Un individu ou une unit statistique est un objet de cette population. Un chantillon est une partie choisie d'une population. Le nombre d'objets composant une population ou un chantillon est appel sa taille ou effectif. Caractre (variable) : caractristique ou proprit susceptible dtre possde ou non par les individus de la population tudie (ex : taille, glycmie, rythme cardiaque, etc..) Modalit : valeur que peut prendre un caractre (on peut les ordonner)

http://www.med.univ-rennes1.fr

Effectif : nombre total N dindividus de la population ou de lchantillon


n.b. : si ni = nombre dindividus correspondant la modalit xi, alors N=

ni

Frquence dun caractre :


nombre dindividus possdant le caractre normalis leffectif total fi = n i / N

http://www.med.univ-rennes1.fr

Dfinitions
Lorsque l'on veut connatre certaines caractristiques d'une population, on dit qu'on enqute sur la population. Une enqute peut tre ralise auprs de toute la population ou sur un chantillon.
Un recensement est une enqute ralise auprs de toute la population. Un sondage est une enqute ralise sur un chantillon.

http://www.med.univ-rennes1.fr

Exemples
tude portant sur la consommation de tabac chez les franais
la population est l'ensemble des franais et la caractristique est la consommation de tabac

tude portant sur la dure des ampoules lectriques produites dans l'usine X.
La population est constitue des ampoules lectriques produites l'usine X et la caractristique tudie est la dure des ampoules.

Une compagnie pharmaceutique veut vrifier un nouveau vaccin contre une certaine maladie.
On administre ce produit 50 patients atteints de la maladie. La population est forme de tous les gens atteints de la maladie, l'chantillon est form des 50 patients qui on a administr le mdicament et la caractristique tudie est la rponse au mdicament.

http://www.med.univ-rennes1.fr

Les cots levs et les dlais trop longs, relis un recensement, sont les principales raisons qui nous amnent utiliser un sondage puisque la taille d'un chantillon est beaucoup plus petite que celle de la population.

http://www.med.univ-rennes1.fr

Terminologie
Paramtre ou indicateur : dfinit une population statistique : estims des paramtres dune population par exemple: la moyenne de la population ()
versus

Population () chantillon

la moyenne dun chantillon (x )

x ou mx
http://www.med.univ-rennes1.fr

Proprits dune statistique


Exactitude: une statistique est exacte si la valeur moyenne du paramtre calcule pour tous les chantillons sapproche de la valeur relle de la population

Statistique moins exacte

X
chantillons Population

Statistique plus exacte

http://www.med.univ-rennes1.fr

Proprits dune statistique


Prcision: une statistique prcise variera peu parmi les chantillons pris dune mme population

Statistique peu prcise

chantillons Population

Statistique plus prcise

http://www.med.univ-rennes1.fr

Proprits dune statistique


Consistance: une statistique consistante approchera plus rapidement la valeur relle de la population avec laugmentation de la taille de lchantillon.

X
Moins consistante

chantillons Population

X
Plus consistante Taille de lchantillon (N)

http://www.med.univ-rennes1.fr

Variables
Dfinition : Caractristique ou facteur susceptible de prendre une valeur diffrente selon les individus (ou les units statistiques) tudies
Couleur de cheveux La taille La dure dincubation dune maladie

Diffrents types de variables


Quantitatives Qualitatives Temporelles

http://www.med.univ-rennes1.fr

Variables qualitatives
Non mesurables Leurs valeurs sont des qualits rparties en classes On dnombre les effectifs appartenant chacune des classes 3 types
Variables qualitatives ordinales Variables qualitatives nominales Variables qualitatives binaires

http://www.med.univ-rennes1.fr

Variables ordinales
Classes pouvant tre ordonnes selon une chelle de valeur Niveau dtude : primaire, secondaire,suprieur Score de Glasgow : 1 15 Complication dune maladie : Modre, Moyenne, Svre

pas de manipulation arithmtique Peu tre considres comme variables semi-quantitatives

http://www.med.univ-rennes1.fr

Variables qualitatives
Variables qualitatives nominales
Variables dont les classes ne peuvent tre hirarchises Elles sont nommes mais pas ordonnes Lordre de prsentation est arbitraire Groupe sanguin A B O AB tat civil Clibataire,mari,divorce Accident Voie Publique, sport, jeux

http://www.med.univ-rennes1.fr

Variables binaires
Cas particulier de variable nominales Prennent 2 valeurs Dichotomique, boolenes, bernouillies Etat de sant malade, sain Survie Vivant,dcd

http://www.med.univ-rennes1.fr

Variables quantitatives
Caractrises par des valeurs numriques
Exploitable arithmtiquement

Variables quantitatives continues


Prennent nimporte quelles valeurs numriques dans lintervalle dobservation Appartient lensemble des rels : toutes les valeurs sont possibles Poids 56,3 kg Taille 1,72 m Cholestrol 2,22 g/l Attention au nombre de dcimale Trs utilises en mdecine La prcision est limite par linstrument de mesure En fait variable pas vraiment continues : saut dintervalles TA : 12,5/82

http://www.med.univ-rennes1.fr

Variables quantitatives discrtes


Variables numriques discontinues. En gnral valeurs entires Souvent un dnombrement Rechute dune maladie 3 rechute par an Rappel de vaccin 4 injections Dentition 32 dents

Variables temporelles
Variables quantitatives particulires utilisant les units de temps

http://www.med.univ-rennes1.fr

http://www.med.univ-rennes1.fr

Variable continue Variable discrtes DISCRETISATION


On peut passer facilement dune variable quantitative une variable qualitative. On utilise une chelle de dpendance. Ex : grade en fonction de la taille
[0-5] [6-10] [11-20] grade 1 grade 2 grade 3

Perte dinformation car on suppose que des individus diffrents on le mme comportement dans un intervalle donn.

http://www.med.univ-rennes1.fr

Division en classes ou en intervalles Les classes sont contigus et ne se chevauchent pas.

http://www.med.univ-rennes1.fr

Prciser le domaine de classe

http://www.med.univ-rennes1.fr

http://www.med.univ-rennes1.fr

http://www.med.univ-rennes1.fr

Organisation des donnes


Objectif : dcrire lensemble des donnes recueillies de faon synthtique
Tri de donnes Regroupement en classe Discrtisation dune variable continue en variable discrte
Valeurs dun test biologique : Titrage avec seuil : test positif ou ngatif

Transformation dune variable quantitative discrte en variable qualitative ordinale


Poids : Maigre Normal - Obse

Construction dune chelle de classification en divisant la srie en classes Dfinition des bornes entre lesquelles on compte les individus
Perte dinformation

Choix des bornes (ex)


Par amplitude Par frquence Par convenance

Crer des groupes exclusifs (en bornant correctement les intervalles)


http://www.med.univ-rennes1.fr

Effectif et frquence

ni fi = N
i modalit ou classe Femme, homme Malade, sain ni effectif de la classe Ex : pop 1000, homme 450, femme 550 Freq homme, femme N : Le nombre total

http://www.med.univ-rennes1.fr

Effectifs et frquences cumules Utilises lorsque une variable est ordonne Ajout leffectif dune classe le total des effectifs des classes infrieures Frquence cumules = effectif cumul / total de la srie

http://www.med.univ-rennes1.fr

http://www.med.univ-rennes1.fr

Distribution

Constitue par lensemble des effectifs rparties dans les classes tudies Pour tudier une distribution, on examine les frquences des effectifs dans toutes les classes En statistique on regarde si une distribution OBSERVEE ressemble une distribution THEORIQUE Si cest le cas, on peut utiliser toutes les proprits mathmatique du modle thorique pour tudier la distribution observe.

http://www.med.univ-rennes1.fr

Description des donnes


3 procdes pour dcrire un ensemble de donnes statistique ou un distribution
Les tableaux Les diagrammes Le calcul de paramtre ou indicateurs

Tableaux brut de donnes

Individus en ligne les variables en colonnes Attention CNIL


http://www.med.univ-rennes1.fr

Tableaux de frquences

Combinaison de variables dans un tableau

Pas plus de 2 variables par tableau

http://www.med.univ-rennes1.fr

Donnes manquantes
Tenter de rcuprer le max de donnes manquantes Effectuer une double saisie par 2 oprateurs diffrents Prvoir un code spcial pour les donnes manquantes ou aberrantes Prvoir une rgle de dcision sur les donnes manquantes. Les reprsenter dans les tableaux
Stade T tumoral Frquence 283 115 383 17 798 6 804 Pour cent 35,2 14,3 47,6 2,1 99,3 ,7 100,0 Pourcentage valide 35,5 14,4 48,0 2,1 100,0 Pourcentage cumul 35,5 49,9 97,9 100,0

Valide

Manquante Total

1,00 2,00 3,00 4,00 Total Systme manquant

http://www.med.univ-rennes1.fr

Les graphiques
Les tableau reprsentent les donnes exactes Les graphique font ressortir une vision synthtique Conseils:
Pas de 3 d ni de camembert Pas de superposition de graphe Pas de colorisation abusive Simple Lgend (titre,axes,units) Honnte

http://www.med.univ-rennes1.fr

Diagramme en barre
Utilis pour reprsenter une variable qualitative nominale ou ordinale Hauteur de chaque colonne = nombre de sujet dans la catgorie correspondante

http://www.med.univ-rennes1.fr

Diagramme en barre
Si on divise chaque hauteur par le nombre de sujet total de la population ou de lchantillon, on conserve la mme allure La hauteur proportion de sujet dans la catgorie Lhistogramme reprsente alors graphiquement lensemble des probabilits des diffrentes catgories ou classe de la variable.

http://www.med.univ-rennes1.fr

Histogramme
Pour les variables quantitatives
Il faut le plus souvent regrouper en classe
Intervalle : 1 ans Intervalle : 5 ans

Intervalle : 10 ans

http://www.med.univ-rennes1.fr

Comment choisir les classes


En gnral : constituer des classes de largeurs gales en nombre assez grand pour reprsenter la rpartition des sujets Mais pas trop pour quil y est suffisamment de sujet dans les classes. Plus le nombre de classe est grand, plus lhistogramme se rapproche dune courbe continue

http://www.med.univ-rennes1.fr

Polygonne de frquence
Pour les variables quantitatives continues

L'avantage de cette reprsentation est qu'on peut avoir plusieurs polygones des frquences dans une mme fentre. Cela fait mieux ressortir les comparaisons lorsque les variables sont nombreuses.

http://www.med.univ-rennes1.fr

Pyramide des ages


Utilise pour montrer la distribution par age et par sexe dune pop. Utilis en dmographie

http://www.med.univ-rennes1.fr

Mesures en statistiques

http://www.med.univ-rennes1.fr

Problme gnral
Pour dcrire les donnes, on peut Frquence
tablir des tableaux Regrouper les donnes dans des classes Dessiner des diagrammes

Pour rsumer les donnes afin de les exprimer ou les comparer


On calcule des paramtres (ou indicateurs) De POSITION De DISPERSION

DISPERSION

POSITION

http://www.med.univ-rennes1.fr

Paramtres
2 types : Paramtres de POSITION Mdiane Quartiles, dciles, percentiles Mode Moyenne Frquences relatives Paramtres de Dispersion Extrmes (Minimum, Maximum) Entendue (Range) Intervalle interquartile Variance cart type Coefficient de variation
http://www.med.univ-rennes1.fr

Mesures en statistiques

Mdiane
Est la valeur qui partage la srie des individus en 2 groupes deffectifs gaux. La moiti des sujets prsentent une valeur infrieure la mdiane. Lautre moiti une valeur suprieure la mdiane. Calcul : ncessite de classer les sujets par ordre de valeur croissant. Si la srie est impaire, la mdiane = valeur observe chez le sujet mdian Si la srie est paire, mdiane = moyenne des valeurs qui sparent en 2 la srie

http://www.med.univ-rennes1.fr

Exemple : Calculez la mdiane des deux chantillon suivants : 5 4 4 5 6 8 8 0 1 On ordonne les valeurs
014455688 Srie impaire

On cherche la valeur sparant 50% des effectifs suprieurs et infrieurs


014455688 La mdiane est 5

http://www.med.univ-rennes1.fr

12 5 7 18 11 15 9 5 On ordonne les valeurs


5 5 7 9 11 12 15 18

Nombre pair de valeurs : on cherche la moyenne des 2 valeurs sparant 50% des effectifs
5 5 7 9 11 12 15 18 (9+11)/2 = 10

La mdiane est 10

http://www.med.univ-rennes1.fr

Cas o lon ne dispose que dun tableau de frquence

http://www.med.univ-rennes1.fr

Cas o lon ne dispose que dun tableau de frquence

La classe mdiane est la classe o est situe la mdiane.

http://www.med.univ-rennes1.fr

Cas o lon ne dispose que dun tableau de frquence

On cherche la classe pour laquelle les frquences cumules avant celle-ci sont plus petites ou gales 50% et aprs celle-ci plus grandes ou gales 50%. Avant la classe 100 - 110, il y a 38% de donnes et aprs, on en a accumul 79%. Donc la classe mdiane est la classe 100 - 110. Mdiane = Borne infrieure de la classe mdiane + longueur X Calculer X ?

http://www.med.univ-rennes1.fr

Cas o lon ne dispose que dun tableau de frquence


38 %

Calculer X 38 % des valeurs sont infrieurs un QI de 100

http://www.med.univ-rennes1.fr

Cas o lon ne dispose que dun tableau de frquence


38 % X 12%

50 %

50 %

Calculer X 38 % des valeurs sont infrieurs un QI de 100 La mdiane spare 50% des valeurs. La longueur X manquante 12% des donnes

http://www.med.univ-rennes1.fr

Cas o lon ne dispose que dun tableau de frquence


38 % X 12% 41,4 %

50 %

50 %

Calculer X 38 % des valeurs sont infrieurs un QI de 100 La mdiane spare 50% des valeurs. La longueur X manquante 12% des donnes Or, La classe 100 -110 est de longueur 10 (110 - 100) et contient 41,4% des donnes. quelle longueur X correspond 12% des donnes?

http://www.med.univ-rennes1.fr

Il faut utiliser une rgle de 3 pour faire le calcul : Longueur 10 X % 41,4% 12 %

X = 12 x 10 / 41,4 X = 2,9 Mdiane = classe mdiane + X Mdiane = 100 + 2,9 = 102,9

http://www.med.univ-rennes1.fr

Dtermination graphique de la mdiane

http://www.med.univ-rennes1.fr

Quartiles
Sont les 3 valeurs qui partagent la distribution en 4

25%

25% 25%

25%

http://www.med.univ-rennes1.fr

1er quartile : spare 25% des valeurs les plus faibles et 75% des valeurs les plus levs

25%

75%

http://www.med.univ-rennes1.fr

3 me quartile : spare 75% des valeurs les plus faibles et 25% des valeurs les plus levs

75%

25%

http://www.med.univ-rennes1.fr

Le deuxime quartile spare 50 % des valeurs les plus faible de 50% des valeurs les plus leves 2me quartile Mdiane !

50 %

50 %

http://www.med.univ-rennes1.fr

http://www.med.univ-rennes1.fr

N/4 = 100/4 = 25 Classe qui contient 1er quartile est celle immdiatement au dessus des 25% infrieurs cumuls ICI cest la classe [50-55]
http://www.med.univ-rennes1.fr

Q1= Borne infrieur de la classe Q1 + X X? Rgle de 3 :Longueur de classe


5 X 31% (25%-17%)

Do Q1 = 50 + (25-17).5/31= 51,29

http://www.med.univ-rennes1.fr

Dciles
Idem : 9 valeurs qui partagent la distribution en 10 groupes de tailles gales.

Percentiles
Sont les valeurs qui partagent la distribution en 100 groupes de tailles gales Le percentile 10% au 1er dcile Le percentile 25 % au 1er quartile Le percentile 50 % la mdiane

http://www.med.univ-rennes1.fr

MODE
Modes Dans une distribution comportant de nombreuses donnes, le mode est la valeur qui revient le plus souvent

But uniquement descriptif

http://www.med.univ-rennes1.fr

Moyenne
Moyenne Indicateur de tendance centrale servant rsumer une srie de donnes dune variable quantitative

Frquence

http://www.med.univ-rennes1.fr

Autre formule :

m=
Age(Xi) 2 5 6 8 fi 1 3 4 2 somme:10

fiXi
i =1 n

fi
i =1

m=(1x2+5x3+6x4+8x2)/10 m = 57/10 = 5,7 ans

http://www.med.univ-rennes1.fr

La somme des carts la moyenne = 0

( Xi m) = 0
i =1
Age(Xi) 2 5 6 8 fi 1 3 4 2 somme : 10 m=5,7 (2-5,7)+3x(5-5,7)+4x(6-5,7)+2x(8-5,7) -3,7 3x0,7 + 4x0,3 + 2x2,3 -3,7 2,1 + 1,2 + 4,6 -5,8 + 5,8 = 0

http://www.med.univ-rennes1.fr

Dispersion

http://www.med.univ-rennes1.fr

Dispersion
Paramtre centraux ne rsument pas compltement une distribution. Les paramtre mesurant la dispersion :
Min Max tendue (range) Espace interquartile (entre 1 et 3me) VARIANCE ECART TYPE

http://www.med.univ-rennes1.fr

Dispersion
Min Max :
Trs sensible aux valeurs extrmes Permet de dtecter les erreurs

tendue : Valeur Max Valeur min Espace interquartiles


Qi = Q3 Q1 contient 50% des valeurs de la srie

http://www.med.univ-rennes1.fr

Variance
Variance : Caractriser l'cart de l'ensemble des valeurs Pour une valeur xi, l'cart par rapport la moyenne est :

= (x )

les carts tant de signe + ou -, on considre le carr des carts 2

(x )

Est la moyenne de la somme des carrs des carts la moyenne

=
2

2 x ( )

2 = variance de la population (N)

http://www.med.univ-rennes1.fr

Variance

Variance dun chantillon :

(x m ) =
x

n 1

Si on considre une population on calcule Si on considre un chantillon on calcule S2

http://www.med.univ-rennes1.fr

=
2

2 x ( )

http://www.med.univ-rennes1.fr

Autre formule de la variance :

s =
2

( X

2 i

( Xi ) ) n 1 n

http://www.med.univ-rennes1.fr

cart type :
Dune population

Dun chantillon

cart type = mme grandeur que la moyenne.

ms

http://www.med.univ-rennes1.fr

http://www.med.univ-rennes1.fr

http://www.med.univ-rennes1.fr

0.8

C Des changements pour les valeurs de la moyenne et la variance entranent des changements dans la forme et la position de la distribution normale. A. = 4, = 1 B. = 8, = 1 C. = 8, = 0.5

0.6

frel
0.4 A

0.2 B 0 2 4 6 8 10 12

http://www.med.univ-rennes1.fr

http://www.med.univ-rennes1.fr

Variable qualitative 2 classes : Pour la population Proportion dune modalit K multiplie par 100 pour lexprimer en pourcentage. N : taille de la population

K P= N
Variance : Produit de la proportion par son complment 1

= P (1 P )

Ecart type : racine carre de la variance

= P(1 P )
http://www.med.univ-rennes1.fr

Variable qualitative 2 classes : Pour un chantillon Proportion dune modalit (k) . multiplie par 100 pour lexprimer en pourcentage. n=taille de lchantillon

k p= n

Variance : Produit de la proportion par son complment 1

s = p(1 p )
2

Ecart type : racine carre de la variance

s = s =
2

p(1 p )

http://www.med.univ-rennes1.fr

Exemple
On considre un chantillon de 60 sujets, il y a 20 malades, les autres sont sains. Calculer
les proportions de malades de non malades La variance S2 Lcart type S

Pmalades=20/60 = 0,33 Pnon malades = (1-Pmalades) = 1- 0,33 = 0,67 S2=Pmalades(1-Pmalades)= 0,33x0,67=0,221 S=0,47

http://www.med.univ-rennes1.fr

BOXPLOT ou Bote moustache

http://www.med.univ-rennes1.fr

Reprsentation simple mais puissante dun chantillon de donnes constitue


Dun rectangle (box) orient selon un systme de coordonns Lchelle de laxe est celle des donnes Les limites infrieures et suprieures correspondent au respectivement au 1er et 3me QUARTILE
Q1 Q3

10

http://www.med.univ-rennes1.fr

ainsi la bote contient 50 % des valeurs.

Q1 50 % des valeurs

Q3

10

http://www.med.univ-rennes1.fr

Le rectangle est partag en 2 par un trait horizontal au niveau de la mdiane

Q2 = mdiane Q1 Q3

10

http://www.med.univ-rennes1.fr

On dfinit un pas P=1,5xIQ On considre les donnes situe entre le sommet + 1 P

IQ : Espace interquartile

Q1

Q2 Q3

1xP

10

http://www.med.univ-rennes1.fr

On dfinit un pas P=1,5xIQ On considre les donnes situe entre le sommet + 1 P

IQ : Espace interquartile

Q1

Q2 Q3

1xP

10

http://www.med.univ-rennes1.fr

Un trait setend du milieu du sommet jusqu la limite suprieure

Q1

Q2 Q3

10

http://www.med.univ-rennes1.fr

De manire symtrique on trouve la limite infrieure.

1xP

Q1

Q2 Q3

10

http://www.med.univ-rennes1.fr

Les observations les plus loignes qui dpassent les limites sont marques individuellement O pour outliers

10

http://www.med.univ-rennes1.fr

Les observations les plus loignes qui dpassent les limites sont marques individuellement O pour outliers Cellent qui dpasse de 2 pas sont considres comme extrme et sont nots E ou x

10

http://www.med.univ-rennes1.fr

Intret dune boxplot


Cinq synthses numriques (mediane, quartiles, limites) sont reprsentes de faon visualiser les informations essentielles (position, dispersion, asymtrie) de lchantillon. La position est celle du box, en particulier. La dispersion est visualise par la longueur du box ainsi que par cart entre les limites. La position du trait transversal dans le box et la diffrence entre les moustaches nous renseignent sur le degr dasymtrie.
x

10

http://www.med.univ-rennes1.fr

Enfin, la frquence et la position des outliers indiquent si lchantillon est particulirement tal Les outliers sont souvent trs intressantes (cas exceptionnels, erreurs de mesure ou de codage, etc.).

10

http://www.med.univ-rennes1.fr

Plusieurs chantillons peuvent tre reprsents simultanment et compars par des box-plots les uns ct des autres.

http://www.med.univ-rennes1.fr

Rfrences
Statistiques Epidmiologique. T Ancelle (Maloine) Mthode Statistiques Mdecine Biologie. Jean Bouyer (ESTEM)

http://www.med.univ-rennes1.fr

Accder au rseau pdagogique

http://www.med.univ-rennes1.fr

http://www.fac.med.univ-rennes1.fr

http://www.med.univ-rennes1.fr

http://www.med.univ-rennes1.fr

http://www.med.univ-rennes1.fr

Vous aimerez peut-être aussi