Vous êtes sur la page 1sur 16

18-1-2005

Statistique descriptive
Nino Silverio
Support de cours provisoire pour lunit de valeur Mathmatiques et statistiques destin aux classes du BTS Comptabilit-Gestion de lECG.

Introduction
STATISTIQUE

La statistique est un ensemble de mthodes scientifiques bases sur le recueil, lorganisation, la prsentation de donnes, ainsi que sur la modlisation et la construction de rsums numriques [3]. On parle de statistique descriptive lorsquon dcrit et analyse des donnes observes et quon tire des conclusions valables uniquement pour lensemble tudi. On dsigne par le mot population tout ensemble tudi par la statistique ; on le note gnralement . On notera N le nombre dlments de , cest--dire leffectif total de la population (nous supposerons toujours dans ce cours quune population est finie). Il faut que la population soit dfinie avec prcision ; ceci peut se faire de deux manires : en extension, cest--dire en dressant la liste explicite de tous les membres de la population en comprhension, laide dune proprit caractristique qui permet de dcider qui appartient ou non la population.

STATISTIQUE DESCRIPTIVE

POPULATION

Exemples : lensemble des tudiants du BTS de lECG les habitants domicilis Luxembourg-Ville

Introduction

CHANTILLON

Un chantillon dsigne un sous-ensemble dune population . Une unit statistique, un individu ou un membre est un lment constitutif dune population ou dun chantillon. Toute proprit des individus dune population est appelle caractre des individus. Si le caractre tudi admet des valeurs ou modalits non mesurables, on dit que le caractre est qualitatif. Exemples : la profession le sexe la nationalit

UNIT STATISTIQUE, INDIVIDU, MEMBRE

CARACTRE

CARACTRE QUALITATIF

CARACTRE QUANTITATIF

Lorsque les modalits dun caractre sont mesurables, on dit que ce caractre est quantitatif. Exemples : lge la surface dune habitation la vitesse la temprature

SRIE STATISTIQUE

On appelle srie statistique une liste de N observations faites pour un caractre dune population . Une srie statistique ordonne est appele une distribution statistique. Leffectif n i dune modalit x i est gal au nombre dindividus de la population qui possdent cette modalit x i . On a bien sr :

DISTRIBUTION STATISTIQUE EFFECTIF DUNE MODALIT

N = n 1 + n 2 + ... + n m =

i=1

ni

(1)

avec m tant le nombre de modalits possibles sur le caractre tudi. Exemple : voici une srie statistique sur la nationalit des habitants du Grand-Duch de Luxembourg en 2001 (source : Statec)

Statistique descriptive

Introduction

luxembourgeois

Nationalit

portugais

franais

italiens

belges

autres 49.8 autres 49.8 0.11 11%

Effectif (x1000)
FRQUENCE

277.2

58.7

19

20

14.8

439.5

On appelle frquence dune modalit x i deffectif n i le rapport n f i = ---i . En multipliant f i par 100, nous obtenons le pourcentage de N la modalit x i . Exemple : pour la srie statistique prcdente, nous obtenons
luxembourgeois Nationalit portugais

franais

italiens

belges

Effectif (x1000) Frquence Pourcentage

277.2 0.63 63%

58.7 0.13 13%

19 0.04 4%

20 0.05 5%

14.8 0.03 3%

439.5 1 100%

La ralisation dune srie statistique peut vite devenir laborieuse. Cest pourquoi, de nos jours, il est prfrable dutiliser un outil informatique, comme un tableur(1).

Nous constatons que la somme des frquences vaut 1. Ceci nest pas un hasard, en effet :

1. En fait, bien que nous puissions utiliser nimporte quel tableur, dans le cadre de ce cours nous travaillons avec Excel.

Statistique descriptive

Total N

Total N

Introduction

i=1 REPRSENTATIONS GRAPHIQUES

fi =

i=1

n 1 m 1 ---i = --- n i = --- N = 1 N N N


i=1

Il est souvent prfrable de reprsenter graphiquement une srie statistique. Un graphique permet davoir une vue densemble, synthtique de toutes les donnes mesures. Ceci est dautant plus facile si on utilise loutil informatique. En Excel, ce type de diagramme est une variation du Chart type : line.

DIAGRAMME EN BTONS

DIAGRAMME EN BARRES

La largeur de la base des barres est identique pour toutes les barres, la base chacun des rectangles tant centre sur les points reprsents sur laxe des abscisses.

Statistique descriptive

Introduction

DIAGRAMME EN BANDEAUX

Ce diagramme est semblable un diagramme en barres, sauf que les effectifs sont placs sur laxe des abscisses.

DIAGRAMME EN SECTEURS

Chaque secteur reprsente une modalit et la taille de chaque secteur est proportionnelle leffectif (frquence) de la modalit.

EFFECTIFS CUMULS CROISSANTS, DCROISSANTS

Dans la pratique, lorsquon est en prsence dune distribution statistique, il est souvent intressant de connatre le nombre de valeurs infrieures ou gales une modalit x i . Il en est de mme pour le nombre de valeurs suprieures ou gales une modalit x i . cet effet, on calcule leffectif cumul croissant :

n 1 + n 2 + ... + n i =

nk
k=1

(2)

Statistique descriptive

Introduction

ou leffectif cumul dcroissant :


i1

N ( n 1 + n 2 + ... + n i 1 ) = N

nk

(3)

k=1

FRQUENCES CUMULES CROISSANTES, DCROISSANTES

Dune manire tout fait semblable, on peut calculer la frquence cumule croissante de la valeur x i de la distribution statistique X :

f 1 + f 2 + ... + f i =

fk
k=1

(4)

Cette somme dsigne la proportion dindividus dans la population pour lesquels X prend une valeur infrieure ou gale x i . Si on sintresse la proportion dindividus dans la population pour lesquels X prend une valeur suprieure ou gale x i , on calcule la frquence cumule dcroissante :
i1

1 ( f 1 + f 2 + ... + f i 1 ) = 1

fk

(5)

k=1

Exemple : voici une srie statistique sur la composition des mnages au Luxembourg en 1991. Dans cette liste Excel, seules les colonnes A et B contiennent les donnes fournies par le Statec. Les colonnes C G rsultent de calculs en appliquant les formules vues plus haut.

Statistique descriptive

Introduction

partir de ces donnes, on peut produire diffrents graphiques. Voici par exemple un diagramme en barres renseignant sur la composition des mnages privs selon le nombre de personnes en 1991 au GrandDuch de Luxembourg (source Statec).

Mais on peut aussi faire un graphique reprsentant les effectifs cumuls croissants et dcroissants :

De mme, nous pouvons faire un diagramme en barres sur les frquences cumules croissantes et dcroissantes :

Statistique descriptive

Groupement de donnes en classes

Groupement de donnes en classes


CLASSE

Dans la pratique, il est trs frquent pour une srie statistique (en prsence dun grand nombre de valeurs) de regrouper des valeurs proches les unes des autres. On appelle un tel groupement de donnes une catgorie ou une classe. Pour une classe ]a i 1, a i ] ou [ a i 1, a i [ :

a i 1 et a i sont les bornes ou limites de la classe ai 1 + ai le centre de la classe vaut --------------------2 lamplitude ou ltendue de la classe vaut a i a i 1 leffectif de la classe n i est gal la somme des effectifs des valeurs de la srie statistique appartenant la classe.

Statistique descriptive

Les paramtres de position

Il nexiste pas de rgle claire quant au choix du nombre de classes. Il existe quelques rgles simples quon essaiera de suivre : leffectif dune classe ne doit pas tre infrieur cinq le nombre de classes ne doit pas tre trop faible il existe quelques formules empiriques pour dterminer le nombre

de classes c, par exemple : c =

N ,c =

( 1 + 3,3log 10 N )

en gnral, nous essaierons davoir des classes de mme amplitude qui sera de prfrence une valeur simple comme un entier.

HISTOGRAMME DES EFFECTIFS

Pour reprsenter de telles sries, on utilise souvent lhistogramme des effectifs. Il sagit dun diagramme en barres comprenant une barre pour chaque classe et o la surface de la barre est proportionnelle leffectif de la classe.

Les paramtres de position


LE MODE

On appelle mode dune srie statistique la modalit la plus frquente. Il peut ne pas exister et nest pas ncessairement unique. La moyenne arithmtique dune srie statistique quantitative vaut : n 1 x 1 + n 2 x 2 + ... + n m x m 1 m x = --------------------------------------------------------- = --- n i x i N n 1 + n 2 + ... + n m i=1

LA MOYENNE ARITHMTIQUE

(6)

LA MOYENNE ARITHMTIQUE SIMPLE

Cette formule se simplifie si n i = 1 pour i = 1m . En effet alors

i=1 1x 1 + 1x 2 + ... + 1x m 1 m x = ------------------------------------------------- = ------------ = --- x i mi = 1 1 + 1 + ... + 1 m 1 i=1

xi

(7)

LA MDIANE

La mdiane dune srie statistique range en ordre croissant ou dcroissant est une valeur qui partage en deux parties gales leffectif total de cette srie. Si leffectif est un nombre pair, on prendra comme valeur mdiane la moyenne arithmtique des deux valeurs centrales.

Statistique descriptive

Les paramtres de dispersion

Exemple : soit la srie statistique suivante 5 3 6 6 1 6 2 1 7 1

La moyenne arithmtique vaut 3.8, les modes sont 1 et 6, la mdiane est gale ( 3 + 5 ) = 4 . ---------------2 Dans le cas dune srie statistique numrique classe, on peut calculer une valeur approche de la moyenne en prenant pour x i les centres de classe, pour n i les effectifs de classe et m gal au nombre de classes.

Les paramtres de dispersion


TENDUE

On appelle tendue dune srie statistique la diffrence entre les deux valeurs extrmes de la srie. La variance dune srie statistique quantitative est la moyenne arithmtique des carrs des carts la moyenne arithmtique. On la note gnralement . 1 m 2 2 = --- ( x i x ) mi = 1
2

VARIANCE

(8)

CART-TYPE

Lcart-type est dfinie comme tant la racine carre positive de la variance. Lavantage de lcart-type par rapport la variance est que cest un nombre qui sexprime dans la mme unit que les valeurs observes. 1 m --- ( x i x ) 2 m
i=1

(9)

La signification de lcart-type et de la variance est simple : plus les valeurs observes sont homognes, plus ces deux nombres sont petits et inversement, plus les valeurs sont htrognes, plus ces deux nombres sont grands. En gnral, la formule de la variance scrit

10

Statistique descriptive

Les paramtres de dispersion

1 m 2 2 = --- n i ( x i x ) N
i=1

(10)

et lcart-type 1 m --- n i ( x i x ) 2 Ni = 1

(11)

En prsence dune srie statistique numrique classe, on peut calculer une valeur approche de lcart-type et de la variance en prenant pour x i les centres de classe, pour n i les effectifs de classe et m gal au nombre de classes. Pour les calculs pratiques, ces formules peuvent tre simplifies : 1 m 1 m 2 2 2 2 Ainsi = --- ( x i x ) = --- ( x i 2x i x + x ) m mi = 1
i=1

et la variance peut scrire


m 1 m 1 m --- x 2 2 x --- x i + x 2 = 1 x 2 2 x 2 + x 2 en utilisant (7) -i i m n m i=1 i=1 i=1

1 m 2 2 2 2 2 = --- x i x = x x mi = 1 1 m Dans le cas gnral : 2 = --- n i ( x i x ) 2 N


i=1

(12)

1 m --- n i ( x 2 2x i x + x 2 ) = i N
i=1 m

1 = --N

i=1

n i x i 2x n i x i + x
2 i=1

i=1

ni

Statistique descriptive

11

Exercices non rsolus

Cette dernire expression se simplifie laide des formules (1) et (6). 1 m 2 2 2 = --- n i x i 2xx + x N
i=1

1 m 2 2 2 2 2 = --- n i x i x = x x Ni = 1

(13)

Exercices non rsolus


1.

Sur base des donnes suivantes, il faut effectuer des diagrammes en secteurs pour les annes 2000 et 2001 (uniquement les trois grandes catgories).

Ensuite, il faut calculer les taux dvolution de toutes les diffrentes catgories dinfractions entre 2000 et 2001 et les reprsenter graphiquement. Quelles conclusions pouvez vous en tirer ?

12

Statistique descriptive

Exercices non rsolus

2.

En vous basant sur les donnes suivantes (source Statec), il faut effectuer les travaux suivants :

A) Quel tait l'effectif total des mdecins en activit au Luxembourg en 1996 et en 2001 ? B) Faire un diagramme en barres commun de la distribution des effectifs par catgorie (gnralistes, spcialistes, dentistes) en 1996 et en 2001. C) Faire un diagramme en barres dans l'ordre des effectifs dcroissants par spcialit pour 2001. D) Calculer les pourcentages de mdecins par catgorie (gnralistes, spcialistes, dentistes) en 1996 et en 2001. Que constatez vous ? E) Quelle est la catgorie de mdecins en activit qui a crue le plus entre 1996 et 2001 ?

Statistique descriptive

13

Exercices non rsolus

3.

Voici un extrait des donnes du Statec concernant la Population totale par groupe d'ges et sexe, selon la situation par rapport la vie conomique au 1er mars 1991 et au 15 fvrier 2001 :

partir de ces donnes, il faut construire un diagramme en barres empil complet, ainsi quun diagramme en barres empil simplifi qui tient compte du regroupement des donnes en trois classes, savoir les chmeurs gs de moins de 25 ans, ceux gs entre 25 et 49 ans et les chmeurs gs de 50 ans et plus. Ensuite, il faut faire quatre diagrammes en bandeaux sur les distributions des frquences selon les trois classes dges pour les paires (Homme 1991, Homme 2001), (Femme 1991, Femme 2001), (Homme 1991, Femme 1991), (Homme 2001, Femme 2001). Quel est lge moyen dun chmeur (homme, femme) en 1991 ? Et en 2001 (On ne tiendra pas compte des 65 ans et plus de mme que ceux sans indication) ? Que constatez vous ? Calculez lcart-type pour ces quatre catgories ! 4. partir des donnes fournies dans le tableau ci-dessous, il faut crer lhistogramme des ges de la population luxembourgeoise tel quil est prsent dans la figure ci-dessous. Les donnes sont regrouper dans 10 classes d'amplitude 10. Quel est l'ge moyen (total, hommes, femmes) calcul sur base de la srie complte ? Quel est l'ge moyen (total, hommes, femmes) calcul sur base de la srie classe ? Quel est l'ge mdian (total, hommes, femmes) calcul sur base de la srie complte ?

14

Statistique descriptive

Exercices non rsolus

Quel est l'ge mdian (total, hommes, femmes) calcul sur base de la srie classe ? Ralisez la pyramide des ges suivante :

Statistique descriptive

15

Rfrences

Quelles sont vos conclusions gnrales ? Source Statec : 30 3229 3208


Age 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Hommes 2802 2754 2877 3018 2972 2859 2927 3099 2981 2930 2965 2863 2837 2942 2773 2695 2616 2641 2565 2646 2572 2649 2787 2625 2627 2728 2918 3013 3127 3094 Femm es 2481 2582 2727 2849 2818 2693 2837 2855 2843 2926 2754 2804 2652 2710 2650 2679 2544 2532 2431 2470 2475 2543 2531 2508 2606 2795 2858 2867 3098 3211 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 3485 3692 3658 3817 3880 4072 3986 4048 4217 4009 3868 3756 3696 3712 3669 3564 3305 3244 3274 3133 3098 2927 2878 2880 2889 2767 2614 2253 2231 2235 2164 1945 3503 3653 3743 3765 3856 3918 4024 3904 3976 3823 3771 3708 3697 3514 3415 3432 3376 3173 3198 3022 3013 2673 2782 2686 2660 2602 2476 2211 2115 2199 2191 2019

63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95+

1951 2008 1832 1842 1801 1638 1592 1592 1535 1666 1599 1497 1398 1272 1049 874 736 697 538 563 468 339 271 219 200 189 154 134 101 55 40 18 55

2103 2142 2123 1920 1971 1905 1910 1834 1901 1984 1994 1939 1734 1762 1645 1533 1460 1414 1238 1152 1168 801 591 574 526 524 504 389 358 211 193 173 260

Rfrences
[1] Michel Janvier, Statistique descriptive avec ou sans tableur, Dunod, 1999 [2] Jean-Jacques Droesbeke, lments de statistique, ditions de luniversit de Bruxelles, 2001 [3] J.-L. Monino, J.-M. Kosianski, F. Le Cornu, Statistique descriptive, Dunod, 2000

16

Statistique descriptive

Vous aimerez peut-être aussi