Académique Documents
Professionnel Documents
Culture Documents
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
Dfinitions
La population cible est l'ensemble de tous les objets que l'on tudie. Un individu ou une unit statistique est un objet de cette population. Un chantillon est une partie choisie d'une population. Le nombre d'objets composant une population ou un chantillon est appel sa taille ou effectif. Caractre (variable) : caractristique ou proprit susceptible dtre possde ou non par les individus de la population tudie (ex : taille, glycmie, rythme cardiaque, etc..) Modalit : valeur que peut prendre un caractre (on peut les ordonner)
http://www.med.univ-rennes1.fr
ni
http://www.med.univ-rennes1.fr
Dfinitions
Lorsque l'on veut connatre certaines caractristiques d'une population, on dit qu'on enqute sur la population. Une enqute peut tre ralise auprs de toute la population ou sur un chantillon.
Un recensement est une enqute ralise auprs de toute la population. Un sondage est une enqute ralise sur un chantillon.
http://www.med.univ-rennes1.fr
Exemples
tude portant sur la consommation de tabac chez les franais
la population est l'ensemble des franais et la caractristique est la consommation de tabac
tude portant sur la dure des ampoules lectriques produites dans l'usine X.
La population est constitue des ampoules lectriques produites l'usine X et la caractristique tudie est la dure des ampoules.
Une compagnie pharmaceutique veut vrifier un nouveau vaccin contre une certaine maladie.
On administre ce produit 50 patients atteints de la maladie. La population est forme de tous les gens atteints de la maladie, l'chantillon est form des 50 patients qui on a administr le mdicament et la caractristique tudie est la rponse au mdicament.
http://www.med.univ-rennes1.fr
Les cots levs et les dlais trop longs, relis un recensement, sont les principales raisons qui nous amnent utiliser un sondage puisque la taille d'un chantillon est beaucoup plus petite que celle de la population.
http://www.med.univ-rennes1.fr
Terminologie
Paramtre ou indicateur : dfinit une population statistique : estims des paramtres dune population par exemple: la moyenne de la population ()
versus
Population () chantillon
x ou mx
http://www.med.univ-rennes1.fr
X
chantillons Population
http://www.med.univ-rennes1.fr
chantillons Population
http://www.med.univ-rennes1.fr
X
Moins consistante
chantillons Population
X
Plus consistante Taille de lchantillon (N)
http://www.med.univ-rennes1.fr
Variables
Dfinition : Caractristique ou facteur susceptible de prendre une valeur diffrente selon les individus (ou les units statistiques) tudies
Couleur de cheveux La taille La dure dincubation dune maladie
http://www.med.univ-rennes1.fr
Variables qualitatives
Non mesurables Leurs valeurs sont des qualits rparties en classes On dnombre les effectifs appartenant chacune des classes 3 types
Variables qualitatives ordinales Variables qualitatives nominales Variables qualitatives binaires
http://www.med.univ-rennes1.fr
Variables ordinales
Classes pouvant tre ordonnes selon une chelle de valeur Niveau dtude : primaire, secondaire,suprieur Score de Glasgow : 1 15 Complication dune maladie : Modre, Moyenne, Svre
http://www.med.univ-rennes1.fr
Variables qualitatives
Variables qualitatives nominales
Variables dont les classes ne peuvent tre hirarchises Elles sont nommes mais pas ordonnes Lordre de prsentation est arbitraire Groupe sanguin A B O AB tat civil Clibataire,mari,divorce Accident Voie Publique, sport, jeux
http://www.med.univ-rennes1.fr
Variables binaires
Cas particulier de variable nominales Prennent 2 valeurs Dichotomique, boolenes, bernouillies Etat de sant malade, sain Survie Vivant,dcd
http://www.med.univ-rennes1.fr
Variables quantitatives
Caractrises par des valeurs numriques
Exploitable arithmtiquement
http://www.med.univ-rennes1.fr
Variables temporelles
Variables quantitatives particulires utilisant les units de temps
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
Perte dinformation car on suppose que des individus diffrents on le mme comportement dans un intervalle donn.
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
Construction dune chelle de classification en divisant la srie en classes Dfinition des bornes entre lesquelles on compte les individus
Perte dinformation
Effectif et frquence
ni fi = N
i modalit ou classe Femme, homme Malade, sain ni effectif de la classe Ex : pop 1000, homme 450, femme 550 Freq homme, femme N : Le nombre total
http://www.med.univ-rennes1.fr
Effectifs et frquences cumules Utilises lorsque une variable est ordonne Ajout leffectif dune classe le total des effectifs des classes infrieures Frquence cumules = effectif cumul / total de la srie
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
Distribution
Constitue par lensemble des effectifs rparties dans les classes tudies Pour tudier une distribution, on examine les frquences des effectifs dans toutes les classes En statistique on regarde si une distribution OBSERVEE ressemble une distribution THEORIQUE Si cest le cas, on peut utiliser toutes les proprits mathmatique du modle thorique pour tudier la distribution observe.
http://www.med.univ-rennes1.fr
Tableaux de frquences
http://www.med.univ-rennes1.fr
Donnes manquantes
Tenter de rcuprer le max de donnes manquantes Effectuer une double saisie par 2 oprateurs diffrents Prvoir un code spcial pour les donnes manquantes ou aberrantes Prvoir une rgle de dcision sur les donnes manquantes. Les reprsenter dans les tableaux
Stade T tumoral Frquence 283 115 383 17 798 6 804 Pour cent 35,2 14,3 47,6 2,1 99,3 ,7 100,0 Pourcentage valide 35,5 14,4 48,0 2,1 100,0 Pourcentage cumul 35,5 49,9 97,9 100,0
Valide
Manquante Total
http://www.med.univ-rennes1.fr
Les graphiques
Les tableau reprsentent les donnes exactes Les graphique font ressortir une vision synthtique Conseils:
Pas de 3 d ni de camembert Pas de superposition de graphe Pas de colorisation abusive Simple Lgend (titre,axes,units) Honnte
http://www.med.univ-rennes1.fr
Diagramme en barre
Utilis pour reprsenter une variable qualitative nominale ou ordinale Hauteur de chaque colonne = nombre de sujet dans la catgorie correspondante
http://www.med.univ-rennes1.fr
Diagramme en barre
Si on divise chaque hauteur par le nombre de sujet total de la population ou de lchantillon, on conserve la mme allure La hauteur proportion de sujet dans la catgorie Lhistogramme reprsente alors graphiquement lensemble des probabilits des diffrentes catgories ou classe de la variable.
http://www.med.univ-rennes1.fr
Histogramme
Pour les variables quantitatives
Il faut le plus souvent regrouper en classe
Intervalle : 1 ans Intervalle : 5 ans
Intervalle : 10 ans
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
Polygonne de frquence
Pour les variables quantitatives continues
L'avantage de cette reprsentation est qu'on peut avoir plusieurs polygones des frquences dans une mme fentre. Cela fait mieux ressortir les comparaisons lorsque les variables sont nombreuses.
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
Mesures en statistiques
http://www.med.univ-rennes1.fr
Problme gnral
Pour dcrire les donnes, on peut Frquence
tablir des tableaux Regrouper les donnes dans des classes Dessiner des diagrammes
DISPERSION
POSITION
http://www.med.univ-rennes1.fr
Paramtres
2 types : Paramtres de POSITION Mdiane Quartiles, dciles, percentiles Mode Moyenne Frquences relatives Paramtres de Dispersion Extrmes (Minimum, Maximum) Entendue (Range) Intervalle interquartile Variance cart type Coefficient de variation
http://www.med.univ-rennes1.fr
Mesures en statistiques
Mdiane
Est la valeur qui partage la srie des individus en 2 groupes deffectifs gaux. La moiti des sujets prsentent une valeur infrieure la mdiane. Lautre moiti une valeur suprieure la mdiane. Calcul : ncessite de classer les sujets par ordre de valeur croissant. Si la srie est impaire, la mdiane = valeur observe chez le sujet mdian Si la srie est paire, mdiane = moyenne des valeurs qui sparent en 2 la srie
http://www.med.univ-rennes1.fr
Exemple : Calculez la mdiane des deux chantillon suivants : 5 4 4 5 6 8 8 0 1 On ordonne les valeurs
014455688 Srie impaire
http://www.med.univ-rennes1.fr
Nombre pair de valeurs : on cherche la moyenne des 2 valeurs sparant 50% des effectifs
5 5 7 9 11 12 15 18 (9+11)/2 = 10
La mdiane est 10
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
On cherche la classe pour laquelle les frquences cumules avant celle-ci sont plus petites ou gales 50% et aprs celle-ci plus grandes ou gales 50%. Avant la classe 100 - 110, il y a 38% de donnes et aprs, on en a accumul 79%. Donc la classe mdiane est la classe 100 - 110. Mdiane = Borne infrieure de la classe mdiane + longueur X Calculer X ?
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
50 %
50 %
Calculer X 38 % des valeurs sont infrieurs un QI de 100 La mdiane spare 50% des valeurs. La longueur X manquante 12% des donnes
http://www.med.univ-rennes1.fr
50 %
50 %
Calculer X 38 % des valeurs sont infrieurs un QI de 100 La mdiane spare 50% des valeurs. La longueur X manquante 12% des donnes Or, La classe 100 -110 est de longueur 10 (110 - 100) et contient 41,4% des donnes. quelle longueur X correspond 12% des donnes?
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
Quartiles
Sont les 3 valeurs qui partagent la distribution en 4
25%
25% 25%
25%
http://www.med.univ-rennes1.fr
1er quartile : spare 25% des valeurs les plus faibles et 75% des valeurs les plus levs
25%
75%
http://www.med.univ-rennes1.fr
3 me quartile : spare 75% des valeurs les plus faibles et 25% des valeurs les plus levs
75%
25%
http://www.med.univ-rennes1.fr
Le deuxime quartile spare 50 % des valeurs les plus faible de 50% des valeurs les plus leves 2me quartile Mdiane !
50 %
50 %
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
N/4 = 100/4 = 25 Classe qui contient 1er quartile est celle immdiatement au dessus des 25% infrieurs cumuls ICI cest la classe [50-55]
http://www.med.univ-rennes1.fr
Do Q1 = 50 + (25-17).5/31= 51,29
http://www.med.univ-rennes1.fr
Dciles
Idem : 9 valeurs qui partagent la distribution en 10 groupes de tailles gales.
Percentiles
Sont les valeurs qui partagent la distribution en 100 groupes de tailles gales Le percentile 10% au 1er dcile Le percentile 25 % au 1er quartile Le percentile 50 % la mdiane
http://www.med.univ-rennes1.fr
MODE
Modes Dans une distribution comportant de nombreuses donnes, le mode est la valeur qui revient le plus souvent
http://www.med.univ-rennes1.fr
Moyenne
Moyenne Indicateur de tendance centrale servant rsumer une srie de donnes dune variable quantitative
Frquence
http://www.med.univ-rennes1.fr
Autre formule :
m=
Age(Xi) 2 5 6 8 fi 1 3 4 2 somme:10
fiXi
i =1 n
fi
i =1
http://www.med.univ-rennes1.fr
( Xi m) = 0
i =1
Age(Xi) 2 5 6 8 fi 1 3 4 2 somme : 10 m=5,7 (2-5,7)+3x(5-5,7)+4x(6-5,7)+2x(8-5,7) -3,7 3x0,7 + 4x0,3 + 2x2,3 -3,7 2,1 + 1,2 + 4,6 -5,8 + 5,8 = 0
http://www.med.univ-rennes1.fr
Dispersion
http://www.med.univ-rennes1.fr
Dispersion
Paramtre centraux ne rsument pas compltement une distribution. Les paramtre mesurant la dispersion :
Min Max tendue (range) Espace interquartile (entre 1 et 3me) VARIANCE ECART TYPE
http://www.med.univ-rennes1.fr
Dispersion
Min Max :
Trs sensible aux valeurs extrmes Permet de dtecter les erreurs
http://www.med.univ-rennes1.fr
Variance
Variance : Caractriser l'cart de l'ensemble des valeurs Pour une valeur xi, l'cart par rapport la moyenne est :
= (x )
(x )
=
2
2 x ( )
http://www.med.univ-rennes1.fr
Variance
(x m ) =
x
n 1
http://www.med.univ-rennes1.fr
=
2
2 x ( )
http://www.med.univ-rennes1.fr
s =
2
( X
2 i
( Xi ) ) n 1 n
http://www.med.univ-rennes1.fr
cart type :
Dune population
Dun chantillon
ms
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
0.8
C Des changements pour les valeurs de la moyenne et la variance entranent des changements dans la forme et la position de la distribution normale. A. = 4, = 1 B. = 8, = 1 C. = 8, = 0.5
0.6
frel
0.4 A
0.2 B 0 2 4 6 8 10 12
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
Variable qualitative 2 classes : Pour la population Proportion dune modalit K multiplie par 100 pour lexprimer en pourcentage. N : taille de la population
K P= N
Variance : Produit de la proportion par son complment 1
= P (1 P )
= P(1 P )
http://www.med.univ-rennes1.fr
Variable qualitative 2 classes : Pour un chantillon Proportion dune modalit (k) . multiplie par 100 pour lexprimer en pourcentage. n=taille de lchantillon
k p= n
s = p(1 p )
2
s = s =
2
p(1 p )
http://www.med.univ-rennes1.fr
Exemple
On considre un chantillon de 60 sujets, il y a 20 malades, les autres sont sains. Calculer
les proportions de malades de non malades La variance S2 Lcart type S
Pmalades=20/60 = 0,33 Pnon malades = (1-Pmalades) = 1- 0,33 = 0,67 S2=Pmalades(1-Pmalades)= 0,33x0,67=0,221 S=0,47
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
10
http://www.med.univ-rennes1.fr
Q1 50 % des valeurs
Q3
10
http://www.med.univ-rennes1.fr
Q2 = mdiane Q1 Q3
10
http://www.med.univ-rennes1.fr
IQ : Espace interquartile
Q1
Q2 Q3
1xP
10
http://www.med.univ-rennes1.fr
IQ : Espace interquartile
Q1
Q2 Q3
1xP
10
http://www.med.univ-rennes1.fr
Q1
Q2 Q3
10
http://www.med.univ-rennes1.fr
1xP
Q1
Q2 Q3
10
http://www.med.univ-rennes1.fr
Les observations les plus loignes qui dpassent les limites sont marques individuellement O pour outliers
10
http://www.med.univ-rennes1.fr
Les observations les plus loignes qui dpassent les limites sont marques individuellement O pour outliers Cellent qui dpasse de 2 pas sont considres comme extrme et sont nots E ou x
10
http://www.med.univ-rennes1.fr
10
http://www.med.univ-rennes1.fr
Enfin, la frquence et la position des outliers indiquent si lchantillon est particulirement tal Les outliers sont souvent trs intressantes (cas exceptionnels, erreurs de mesure ou de codage, etc.).
10
http://www.med.univ-rennes1.fr
Plusieurs chantillons peuvent tre reprsents simultanment et compars par des box-plots les uns ct des autres.
http://www.med.univ-rennes1.fr
Rfrences
Statistiques Epidmiologique. T Ancelle (Maloine) Mthode Statistiques Mdecine Biologie. Jean Bouyer (ESTEM)
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.fac.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr
http://www.med.univ-rennes1.fr