Académique Documents
Professionnel Documents
Culture Documents
Statistique descriptive
Nino Silverio
Support de cours provisoire pour lunit de valeur Mathmatiques et statistiques destin aux classes du BTS Comptabilit-Gestion de lECG.
Introduction
STATISTIQUE
La statistique est un ensemble de mthodes scientifiques bases sur le recueil, lorganisation, la prsentation de donnes, ainsi que sur la modlisation et la construction de rsums numriques [3]. On parle de statistique descriptive lorsquon dcrit et analyse des donnes observes et quon tire des conclusions valables uniquement pour lensemble tudi. On dsigne par le mot population tout ensemble tudi par la statistique ; on le note gnralement . On notera N le nombre dlments de , cest--dire leffectif total de la population (nous supposerons toujours dans ce cours quune population est finie). Il faut que la population soit dfinie avec prcision ; ceci peut se faire de deux manires : en extension, cest--dire en dressant la liste explicite de tous les membres de la population en comprhension, laide dune proprit caractristique qui permet de dcider qui appartient ou non la population.
STATISTIQUE DESCRIPTIVE
POPULATION
Exemples : lensemble des tudiants du BTS de lECG les habitants domicilis Luxembourg-Ville
Introduction
CHANTILLON
Un chantillon dsigne un sous-ensemble dune population . Une unit statistique, un individu ou un membre est un lment constitutif dune population ou dun chantillon. Toute proprit des individus dune population est appelle caractre des individus. Si le caractre tudi admet des valeurs ou modalits non mesurables, on dit que le caractre est qualitatif. Exemples : la profession le sexe la nationalit
CARACTRE
CARACTRE QUALITATIF
CARACTRE QUANTITATIF
Lorsque les modalits dun caractre sont mesurables, on dit que ce caractre est quantitatif. Exemples : lge la surface dune habitation la vitesse la temprature
SRIE STATISTIQUE
On appelle srie statistique une liste de N observations faites pour un caractre dune population . Une srie statistique ordonne est appele une distribution statistique. Leffectif n i dune modalit x i est gal au nombre dindividus de la population qui possdent cette modalit x i . On a bien sr :
N = n 1 + n 2 + ... + n m =
i=1
ni
(1)
avec m tant le nombre de modalits possibles sur le caractre tudi. Exemple : voici une srie statistique sur la nationalit des habitants du Grand-Duch de Luxembourg en 2001 (source : Statec)
Statistique descriptive
Introduction
luxembourgeois
Nationalit
portugais
franais
italiens
belges
Effectif (x1000)
FRQUENCE
277.2
58.7
19
20
14.8
439.5
On appelle frquence dune modalit x i deffectif n i le rapport n f i = ---i . En multipliant f i par 100, nous obtenons le pourcentage de N la modalit x i . Exemple : pour la srie statistique prcdente, nous obtenons
luxembourgeois Nationalit portugais
franais
italiens
belges
19 0.04 4%
20 0.05 5%
14.8 0.03 3%
439.5 1 100%
La ralisation dune srie statistique peut vite devenir laborieuse. Cest pourquoi, de nos jours, il est prfrable dutiliser un outil informatique, comme un tableur(1).
Nous constatons que la somme des frquences vaut 1. Ceci nest pas un hasard, en effet :
1. En fait, bien que nous puissions utiliser nimporte quel tableur, dans le cadre de ce cours nous travaillons avec Excel.
Statistique descriptive
Total N
Total N
Introduction
fi =
i=1
Il est souvent prfrable de reprsenter graphiquement une srie statistique. Un graphique permet davoir une vue densemble, synthtique de toutes les donnes mesures. Ceci est dautant plus facile si on utilise loutil informatique. En Excel, ce type de diagramme est une variation du Chart type : line.
DIAGRAMME EN BTONS
DIAGRAMME EN BARRES
La largeur de la base des barres est identique pour toutes les barres, la base chacun des rectangles tant centre sur les points reprsents sur laxe des abscisses.
Statistique descriptive
Introduction
DIAGRAMME EN BANDEAUX
Ce diagramme est semblable un diagramme en barres, sauf que les effectifs sont placs sur laxe des abscisses.
DIAGRAMME EN SECTEURS
Chaque secteur reprsente une modalit et la taille de chaque secteur est proportionnelle leffectif (frquence) de la modalit.
Dans la pratique, lorsquon est en prsence dune distribution statistique, il est souvent intressant de connatre le nombre de valeurs infrieures ou gales une modalit x i . Il en est de mme pour le nombre de valeurs suprieures ou gales une modalit x i . cet effet, on calcule leffectif cumul croissant :
n 1 + n 2 + ... + n i =
nk
k=1
(2)
Statistique descriptive
Introduction
N ( n 1 + n 2 + ... + n i 1 ) = N
nk
(3)
k=1
Dune manire tout fait semblable, on peut calculer la frquence cumule croissante de la valeur x i de la distribution statistique X :
f 1 + f 2 + ... + f i =
fk
k=1
(4)
Cette somme dsigne la proportion dindividus dans la population pour lesquels X prend une valeur infrieure ou gale x i . Si on sintresse la proportion dindividus dans la population pour lesquels X prend une valeur suprieure ou gale x i , on calcule la frquence cumule dcroissante :
i1
1 ( f 1 + f 2 + ... + f i 1 ) = 1
fk
(5)
k=1
Exemple : voici une srie statistique sur la composition des mnages au Luxembourg en 1991. Dans cette liste Excel, seules les colonnes A et B contiennent les donnes fournies par le Statec. Les colonnes C G rsultent de calculs en appliquant les formules vues plus haut.
Statistique descriptive
Introduction
partir de ces donnes, on peut produire diffrents graphiques. Voici par exemple un diagramme en barres renseignant sur la composition des mnages privs selon le nombre de personnes en 1991 au GrandDuch de Luxembourg (source Statec).
Mais on peut aussi faire un graphique reprsentant les effectifs cumuls croissants et dcroissants :
De mme, nous pouvons faire un diagramme en barres sur les frquences cumules croissantes et dcroissantes :
Statistique descriptive
Dans la pratique, il est trs frquent pour une srie statistique (en prsence dun grand nombre de valeurs) de regrouper des valeurs proches les unes des autres. On appelle un tel groupement de donnes une catgorie ou une classe. Pour une classe ]a i 1, a i ] ou [ a i 1, a i [ :
a i 1 et a i sont les bornes ou limites de la classe ai 1 + ai le centre de la classe vaut --------------------2 lamplitude ou ltendue de la classe vaut a i a i 1 leffectif de la classe n i est gal la somme des effectifs des valeurs de la srie statistique appartenant la classe.
Statistique descriptive
Il nexiste pas de rgle claire quant au choix du nombre de classes. Il existe quelques rgles simples quon essaiera de suivre : leffectif dune classe ne doit pas tre infrieur cinq le nombre de classes ne doit pas tre trop faible il existe quelques formules empiriques pour dterminer le nombre
N ,c =
( 1 + 3,3log 10 N )
en gnral, nous essaierons davoir des classes de mme amplitude qui sera de prfrence une valeur simple comme un entier.
Pour reprsenter de telles sries, on utilise souvent lhistogramme des effectifs. Il sagit dun diagramme en barres comprenant une barre pour chaque classe et o la surface de la barre est proportionnelle leffectif de la classe.
On appelle mode dune srie statistique la modalit la plus frquente. Il peut ne pas exister et nest pas ncessairement unique. La moyenne arithmtique dune srie statistique quantitative vaut : n 1 x 1 + n 2 x 2 + ... + n m x m 1 m x = --------------------------------------------------------- = --- n i x i N n 1 + n 2 + ... + n m i=1
LA MOYENNE ARITHMTIQUE
(6)
xi
(7)
LA MDIANE
La mdiane dune srie statistique range en ordre croissant ou dcroissant est une valeur qui partage en deux parties gales leffectif total de cette srie. Si leffectif est un nombre pair, on prendra comme valeur mdiane la moyenne arithmtique des deux valeurs centrales.
Statistique descriptive
La moyenne arithmtique vaut 3.8, les modes sont 1 et 6, la mdiane est gale ( 3 + 5 ) = 4 . ---------------2 Dans le cas dune srie statistique numrique classe, on peut calculer une valeur approche de la moyenne en prenant pour x i les centres de classe, pour n i les effectifs de classe et m gal au nombre de classes.
On appelle tendue dune srie statistique la diffrence entre les deux valeurs extrmes de la srie. La variance dune srie statistique quantitative est la moyenne arithmtique des carrs des carts la moyenne arithmtique. On la note gnralement . 1 m 2 2 = --- ( x i x ) mi = 1
2
VARIANCE
(8)
CART-TYPE
Lcart-type est dfinie comme tant la racine carre positive de la variance. Lavantage de lcart-type par rapport la variance est que cest un nombre qui sexprime dans la mme unit que les valeurs observes. 1 m --- ( x i x ) 2 m
i=1
(9)
La signification de lcart-type et de la variance est simple : plus les valeurs observes sont homognes, plus ces deux nombres sont petits et inversement, plus les valeurs sont htrognes, plus ces deux nombres sont grands. En gnral, la formule de la variance scrit
10
Statistique descriptive
1 m 2 2 = --- n i ( x i x ) N
i=1
(10)
et lcart-type 1 m --- n i ( x i x ) 2 Ni = 1
(11)
En prsence dune srie statistique numrique classe, on peut calculer une valeur approche de lcart-type et de la variance en prenant pour x i les centres de classe, pour n i les effectifs de classe et m gal au nombre de classes. Pour les calculs pratiques, ces formules peuvent tre simplifies : 1 m 1 m 2 2 2 2 Ainsi = --- ( x i x ) = --- ( x i 2x i x + x ) m mi = 1
i=1
(12)
1 m --- n i ( x 2 2x i x + x 2 ) = i N
i=1 m
1 = --N
i=1
n i x i 2x n i x i + x
2 i=1
i=1
ni
Statistique descriptive
11
Cette dernire expression se simplifie laide des formules (1) et (6). 1 m 2 2 2 = --- n i x i 2xx + x N
i=1
1 m 2 2 2 2 2 = --- n i x i x = x x Ni = 1
(13)
Sur base des donnes suivantes, il faut effectuer des diagrammes en secteurs pour les annes 2000 et 2001 (uniquement les trois grandes catgories).
Ensuite, il faut calculer les taux dvolution de toutes les diffrentes catgories dinfractions entre 2000 et 2001 et les reprsenter graphiquement. Quelles conclusions pouvez vous en tirer ?
12
Statistique descriptive
2.
En vous basant sur les donnes suivantes (source Statec), il faut effectuer les travaux suivants :
A) Quel tait l'effectif total des mdecins en activit au Luxembourg en 1996 et en 2001 ? B) Faire un diagramme en barres commun de la distribution des effectifs par catgorie (gnralistes, spcialistes, dentistes) en 1996 et en 2001. C) Faire un diagramme en barres dans l'ordre des effectifs dcroissants par spcialit pour 2001. D) Calculer les pourcentages de mdecins par catgorie (gnralistes, spcialistes, dentistes) en 1996 et en 2001. Que constatez vous ? E) Quelle est la catgorie de mdecins en activit qui a crue le plus entre 1996 et 2001 ?
Statistique descriptive
13
3.
Voici un extrait des donnes du Statec concernant la Population totale par groupe d'ges et sexe, selon la situation par rapport la vie conomique au 1er mars 1991 et au 15 fvrier 2001 :
partir de ces donnes, il faut construire un diagramme en barres empil complet, ainsi quun diagramme en barres empil simplifi qui tient compte du regroupement des donnes en trois classes, savoir les chmeurs gs de moins de 25 ans, ceux gs entre 25 et 49 ans et les chmeurs gs de 50 ans et plus. Ensuite, il faut faire quatre diagrammes en bandeaux sur les distributions des frquences selon les trois classes dges pour les paires (Homme 1991, Homme 2001), (Femme 1991, Femme 2001), (Homme 1991, Femme 1991), (Homme 2001, Femme 2001). Quel est lge moyen dun chmeur (homme, femme) en 1991 ? Et en 2001 (On ne tiendra pas compte des 65 ans et plus de mme que ceux sans indication) ? Que constatez vous ? Calculez lcart-type pour ces quatre catgories ! 4. partir des donnes fournies dans le tableau ci-dessous, il faut crer lhistogramme des ges de la population luxembourgeoise tel quil est prsent dans la figure ci-dessous. Les donnes sont regrouper dans 10 classes d'amplitude 10. Quel est l'ge moyen (total, hommes, femmes) calcul sur base de la srie complte ? Quel est l'ge moyen (total, hommes, femmes) calcul sur base de la srie classe ? Quel est l'ge mdian (total, hommes, femmes) calcul sur base de la srie complte ?
14
Statistique descriptive
Quel est l'ge mdian (total, hommes, femmes) calcul sur base de la srie classe ? Ralisez la pyramide des ges suivante :
Statistique descriptive
15
Rfrences
63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95+
1951 2008 1832 1842 1801 1638 1592 1592 1535 1666 1599 1497 1398 1272 1049 874 736 697 538 563 468 339 271 219 200 189 154 134 101 55 40 18 55
2103 2142 2123 1920 1971 1905 1910 1834 1901 1984 1994 1939 1734 1762 1645 1533 1460 1414 1238 1152 1168 801 591 574 526 524 504 389 358 211 193 173 260
Rfrences
[1] Michel Janvier, Statistique descriptive avec ou sans tableur, Dunod, 1999 [2] Jean-Jacques Droesbeke, lments de statistique, ditions de luniversit de Bruxelles, 2001 [3] J.-L. Monino, J.-M. Kosianski, F. Le Cornu, Statistique descriptive, Dunod, 2000
16
Statistique descriptive