Vous êtes sur la page 1sur 24

-1-

2. Statistique descriptive

2. Statistique descriptive
Citoyens ! Cessez de croire yeux ferms les statisticiens ! Apprenez jauger Les corrlations qui vous montrent que plus il y a de mdecins plus on meurt jeune !

2.1 Quelques erreurs courantes en statistique Des corrlations qui sentendent comme chvre et chou Si lon crit A = 2 B on a une relation fonctionnelle. La connaissance de B dtermine celle de A et rciproquement. Dans la pratique la liaison entre deux grandeurs est souvent moins troite, quand B augmente A augmente galement mais dune faon moins rgulire et avec des exceptions. Ainsi il existe une corrlation entre la consommation d'alcool des automobilistes et la proportion d'accidents quils provoquent. Dans ce cas, il sagit bien dune relation de cause effet et lon peut discerner la cause sans hsitation ; ce ne sont pas les accidents qui incitent les automobilistes boire ! Mais les choses ne sont pas toujours aussi videntes. Et parfois les deux grandeurs nont aucun rapport entre elles mais dpendent d'un troisime facteur. II en est souvent ainsi des sries chronologiques (lvolution de phnomnes dans le temps). Lexemple de la corrlation entre lesprance de vie et la consommation de viande est typique cet gard. La reprsentation graphique de cette corrlation montre trs bien que lesprance de vie croit en mme temps que la consommation de calories animales. Mais il n y a cependant pas de cause effet entre les deux phnomnes contrairement ce que fait croire la juxtaposition de ces chiffres pour la simple et bonne raison que le fait de ne manger que de la viande par exemple naccroit pas 1esprance de vie mais la rduit. Dans le cas prsent l'esprance de vie et la consommation de viande voluent de pair cause d'un troisime facteur qui est le niveau de dveloppement conomique des diffrents pays.
Alain Arnautovic, Francesco Franzosi http://math.aki.ch

-2Des classements d'entreprises ineptes Une entreprise achte l'extrieur des matires premires, nergie, produits semi-finis, etc. et les transforme en produits finis. Soit l'entreprise Stabex qui achte 30 millions de francs de produits l'extrieur pour une production (chiffre d'affaires ou montant des ventes) gale 100 millions. Sa contribution la production nationale ou valeur ajoute est gale 100 30 = 70 millions de francs. Soit une autre entreprise, appelons la Comex, dont les achats slvent 180 millions pour un chiffre d'affaires gale 200 millions (cela peut arriver si elle transforme peu les matires premires achetes). Sa valeur ajoute est gale 20 millions de francs. Le classement daprs la valeur ajoute, le seul rationnel pour apprcier limportance conomique des entreprises, donne les rsultats suivants : 1. Stabex 70 2. Comex 20 Mais si l'on considre le chiffre daffaires on aboutit au classement suivant : 1. Comex 200 2. Stabex 100

2. Statistique descriptive
200

Chiffres d'affaire (en millions de Frs.)

100

0 Stabex Comex

V.A. Valeur ajoute

C.I. Consommation intermdiaire (achats extrieurs)

Consquence avec un prix du ptrole lev les socits de raffinage ont des chiffres d'affaires flatteurs. Que le prix du ptrole quadruple soudain et elles s'envoleront dans le classement des entreprises sans que leur contribution l'conomie nationale augmente pour autant. Alors pourquoi classe-t-on les entreprises daprs leur chiffre daffaires et non daprs leur valeur ajoute ? Tout simplement parce que cette dernire est plus difficile connatre. C'est pour la mme raison que l'on classe les exploitations agricoles d'aprs leur surface alors quun hectare de pacage maigre nest nullement comparable un hectare de cultures florales sous serre ! Des graphiques vrais qui mentent comme des arracheurs de dents Rien de plus facile que de mentir avec des chiffres vrais. II suffit de construire des graphiques dont l'ordonne ne part pas de zro pour accentuer une tendance trop lgre. Ainsi, la lgre baisse de la consommation de bire par habitant en Suisse entre 1981 et 1984 peut tre interprte de manire fort diffrente selon l'impression qu'on recherche.

Alain Arnautovic, Francesco Franzosi

http://math.aki.ch

-3-

2. Statistique descriptive

Des taux de natalit et de mortalit qui se mordent la queue Grce des taux de natalit levs dans le pass la population des Pays-Bas est relativement jeune, plus que celle de la France. Elle compte de ce fait une assez bonne proportion de femmes en ge de procrer et une proportion relativement faible de personnes ges. Il en rsulte que le taux de natalit (12 ) dpasse le taux de mortalit (8 ) alors que le nombre denfants par femme, de l'ordre de 1,5 est trs inferieur celui qui serait ncessaire (2,1) pour assurer le renouvellement de la population dans le long terme. Les Pays Bas sont donc dj en dclin dmographique mais celui-ci est cach par des taux de natalit et de mortalit trompeurs, mme sils sont statistiquement vrais .
Il y a trois sortes de mensonges : les mensonges simples, les mensonges affreux et les statistiques! (Benjamin Disraeli1) Je ne crois aux statistiques que lorsque je les ai moi-mme falsifies. (Winston Churchill2) Les statistiques, c'est comme le bikini. Ce qu'elles rvlent est suggestif. Ce qu'elles dissimulent est essentiel. (Aaron Levenstein3)

2.2 Introduction
Statistiques, enqutes, sondages, moyennes, indices... sont diffuss longueur de colonnes dans les journaux crits et tlviss. Ces travaux sont souvent, mais pas toujours, scientifiquement rigoureux. Les mdias s'en font l'cho sous des formes trs discutables : les illustrations graphiques relvent parfois de la pure fantaisie. L'usage de la statistique devient abusif. Le grand public reste perplexe et en conclut: "on fait dire ce que l'on veut aux chiffres". Un peu de culture mathmatique permet d'viter les piges ds une interprtation htive de chiffres. La statistique est l'activit qui consiste recueillir, traiter et interprter un ensemble de donnes d'informations. Le traitement des donnes consiste produire des statistiques. Parmi les diffrentes branches que regroupe cette activit, il parat ncessaire d'en distinguer trois principales : La collecte des donnes. Le traitement des donnes collectes est aussi appel la statistique descriptive. L'interprtation des donnes, aussi appele l'infrence statistique, s'appuie sur la thorie des sondages et la statistique mathmatique. Cette distinction ne consiste pas dfinir plusieurs domaines tanches. En effet, le traitement et l'interprtation des donnes ne peuvent se faire que lorsque celles-ci ont t rcoltes. Rciproquement, la statistique mathmatique prcise les rgles et les mthodes sur la collecte des donnes, pour que celles-ci puissent tre correctement interprtes. Statistique descriptive Le but de la statistique est d'extraire des informations pertinentes d'une liste de nombres difficile interprter par une simple lecture. Nous allons traiter le sujet de la statistique descriptive. Descriptive signifie que l'on part de donnes existantes. La statistique descriptive a pour but de prsenter, en un petit nombre de rsultats, des donnes concernant une population trop nombreuse pour que la liste explicite de ses caractristiques soit comprhensible: quoi servirait en effet une liste alphabtique de tous les Suisses avec leur ge, leur profession et leur salaire ? La statistique descriptive proprement dite se propose de dterminer les caractristiques de ces grandeurs (ge, profession ou salaire), sans passer par la liste exhaustive, en se basant sur des procds de gnralisations fiables.
1 2

Premier ministre britannique 1804-1881 Premier ministre britannique 1874 -1965 3 Economiste amricain 1901 - 1986 Alain Arnautovic, Francesco Franzosi http://math.aki.ch

-4-

2. Statistique descriptive

L'utilit de ces caractristiques gnrales rside d'une part dans une mise en vidence d'une certaine ralit, et d'autre part dans la dtermination des donnes ncessaires aux calculs des probabilits, par exemple pour l'tablissement de prvisions, de conditions d'assurances ou pour la mise au point d'un systme expert (critres de dcision). Description intrinsque d'une distribution d'observations Sans aucun apriori sur la question que l'on se pose, quelques statistiques simples permettent de la dcrire: la variance v la moyenne x l'cart-type la mdiane x intervalle semi-quartile I le mode le maximum et le minimum Les trois premiers ( gauche) sont souvent nomm critres de position , et les autres entrent plutt dans la catgorie des critres de dispersion.

2.3 Collecte de l'information, dpouillement de l'information et vocabulaire


La collecte de linformation peut tre : directe: sondages indirecte: on utilise des donnes existantes (bilans, ...) Cette collecte doit tre objective avec suffisamment de donnes mais sans excs pour rester utilisable. Lensemble examin est appel la population (pas ncessairement des gens). Par exemple : des personnes, des objets, des lieux, des moments, Lindividu est un llment de la population. On sintresse alors son caractre qui est la proprit subjective qui nous intresse (ge, sexe, nombre denfants, taille, ) On distingue diffrents types de caractre : qualitatif (par exemple catgorie professionnelle, couleur d'un objet, parti politique) quantitatif discret4 (par exemple nombre d'enfants ou note trimestrielle) quantitatif continu5 (par exemple longueurs, vitesses des particules d'un gaz, ...) Dans le cas quantitatif, on parle aussi de variable statistique, plutt que de caractre. On reporte ensuite les caractres suivant une partition (partage d'un ensemble en sous-ensembles disjoints et exhaustifs). II est bien sr absolument indispensable que le caractre de chaque individu observ puisse tre report de faon claire et univoque dans un et un seul sous-ensemble de la partition. Exemples de partitions: sexe, ge (en annes), tranches de revenu etc. La population est donc l'ensemble des individus sur lesquels porte une tude. Ses individus sont classs selon un ou plusieurs caractres suivant des partitions qui sont des classes. Exemple 1 : La population est l'ensemble des vlos produits par CIPEDVELO en 2001. L'tude porte sur le type de vlos (VTT, ville, course, ....). Le caractre est le type de vlos et les classes sont : VTT, course, ville, ... Un individu est un vlo.

4 5

variable numrique il peut prendre toute valeur dans un certain intervalle rel. Alain Arnautovic, Francesco Franzosi http://math.aki.ch

-5-

2. Statistique descriptive

Exemple 2 : Lors d'une course de vitesse les 40 participants ont mis les temps suivants pour effectuer le parcours

Temps (Classes) [43-45[ [45-47[ [47-49[ [49-51[ [51-53[ [53-55[ [55-57[

Centre des classes xi 44 46 48 50 52 54 56

Effectifs de chaque classe ni 2 3 7 11 8 6 3

La population est : Un individu est : Le caractre quantitatif continu est : Les classes sont :

les 40 participants un coureur le temps (variable statistique continue) les intervalles des temps

Les variables statistiques continues sont les diffrents temps pris dans les diffrents intervalles. On considre ces variable sous la forme discrte en prenant le centre des classes, cela nous permettra de simplifier ltude : x1 = 44 , x2 = 46 , ... Et dans chaque cas on a leffectif de chaque classe : n1 = 2 , n2 = 3 , ...
On passe du cas continu un cas discret en utilisant les centres des classes Le centre de classe est gal la moyenne des extrmits de la classe.

2.4 Visualisation des donnes, effectifs et frquences


Il est possible de passer directement la partie calculatoire, mais il est nanmoins apprciable de visualiser ces donnes. La reprsentation graphique fait galement partie de la statistique descriptive. Les donnes brutes sont pralablement regroupes6 et mises sous forme de tableau tries en classes exhaustives (partition), d'amplitudes choix, dont on rpertorie l'effectif ou la frquence. Les deux types de graphiques les plus courants sont :
35.00%

Noirs; 12.50%
30.00% 25.00% 20.00% 15.00% 10.00% 5.00% 0.00% Bleus Verts Marrons Noisettes Noirs

Bleus; 12.50%

Noisettes; 19% Verts; 25.00%

Marrons; 31.25%

Diagramme bandes

Diagramme circulaire

Le fait qu'il y a un choix implique ncessairement une certaine subjectivit. Alain Arnautovic, Francesco Franzosi http://math.aki.ch

-6Dfinition : La frquence (relative) d'une classe est dfinie par : exprime gnralement en %.
f classe =

2. Statistique descriptive

Effectif _ de _ la _ classe Effectif _ total

Exercice 1 : 18 lves ont pass un examen. Voici, en vrac, leurs rsultats : 5 2 3 3 5 3 5 4 4 4 4 6 4 5 5 6 4 4

Ranger ces rsultats dans un tableau et les illustrer l'aide d'un diagramme bande.

Activit 1 : atelier informatique.


Remarque : Dans le cas o le caractre est quantitatif, on parle alors de variable statistique discrte ou continue, il est alors possible de caractriser linformation. Lide est de quantifier des impressions comme grand, plus, large, trouver des ''thermomtres" numriques qui correspondent aux proprits qualitatives structurelles d'un ensemble de donnes statistiques. On distingue deux types principaux : les mesures de centrage et les mesures de dispersion

2.5 Mesure de tendance centrale (critres de position) : moyenne, mdiane, mode,


Les graphiques donnent une bonne ide de la manire dont un caractre est distribu, mais on cherche souvent illustrer cette distribution de manire beaucoup plus succincte par quelques nombres caractristiques. Parmi ceux-ci les mesures de la tendance centrale jouent un rle essentiel. La plus connue de ces mesures est la moyenne. Mais on utilise dautres mesures encore comme : la mdiane, le mode,
Alain Arnautovic, Francesco Franzosi http://math.aki.ch

-7-

2. Statistique descriptive

Moyenne arithmtique : (vnements isols) C'est la somme des donnes divise par le nombre de ces donnes:
n

x + x + ... + xn x= 1 2 n

x=

x
i =1

Exercice 2 : Si les nombres suivants reprsentent des ges : Calculer l'ge moyen de ces personnes. x=

12

13

30

23

28

15

30

ans

Moyenne pondre : (vnements regroups ou pondrs) Si on a n1 fois la donne x1 , n2 fois la donne x2 , ... avec respectivement les frquences f1 , f 2 ,... et n = n1 + n2 + ... + nk , alors la moyenne est donne par :
k

n x + n x + ... + nk xk x= 1 1 2 2 n Exemple 1 : 25 lves ont pass un examen et on a relev : Note Effectif Note pondre xi ni ni xi 1 2 3 4 5 6 Sommes : 1 2 5 7 8 2
k

x=

n x
i =1

i i

Frquence fi
4% 8% 20 % 28 % 32 % 8%

1 4 15 28 40 12

n = 25

n x =100
i =1 i i

100 %

On a : x =
9 8 7

1 k 100 ni xi = =4 25 n i =1
35% 30% 25% Frquence 20% 15% 10% 5% 0%
1 2 3 4 5 6

6 Effectif 5 4 3 2 1 0 Notes d'un examen

Notes d'un examen

Alain Arnautovic, Francesco Franzosi

http://math.aki.ch

-8-

2. Statistique descriptive

Remarque importante : La moyenne est la plus familire et la plus utilise des mesures de tendance centrale. Elle est influence par toutes les valeurs de xi et ni observes et ce titre malheureusement trs sensible aux valeurs extrmes, au point den perdre parfois une bonne partie de sa reprsentativit, surtout dans les chantillons de petite taille. Exemple 2 : Voici six salaires mensuels : 3'500.4'200.4'600.-

5'000.-

6'200.-

36'500.-

La moyenne est : x = 10 '000. Frs. !!! Exemple 3 : Lors d'une course de vitesse les 40 participants ont mis les temps suivants pour effectuer le parcours Centre Effectif Temps pondr Frquence Temps xi ni ni xi fi (secondes)
[43-45[ [45-47[ [47-49[ [49-51[ [51-53[ [53-55[ [55-57[ 44 46 48 50 52 54 56 2 3 7 11 8 6 3
k

88 138 336 550 416 324 168

5% 7,5 % 17,5 % 27,5 % 20 % 15 % 7,5 %

Sommes :
On a : x =
12 10

n = 40

n x =2020
i =1 i i

100 %

1 k 2020 ni xi = = 50,5 n i =1 40
30% 25% Frquence 20% 15% 10% 5% 0% 44 46 48 50 52 54 56 44 46 48 50 52 54 56 Temps d'une course de vitesse Temps d'une course de vitesse

8 Effectif 6 4 2 0

Exercice 3 : Calculez la moyenne des notes de l'exercice 1 Exercice 4 : On a class un groupe de personnes selon la pointure de leurs pieds. Voici les rsultats en vrac :
40, 36, 36, , 39, 39, 39, 39, 41, 41, 39, 39, 36, 36, 40, 40, 40, 32, 32, 32, 33, 37, 37, 37, 37, 37, 33, 33, , 38, 38, 38, 38, 34, 34, 34, 35, 40, 40, 40, 40, 35, 33, 33, 34, 34, 34, 34, 35, 35,35, 35, 35, 35, 35, 35, 36, 36, 36, 36, 36, 37, 37, 39, 39, 39, 39, 39, 39, 37, 38, 38, 38, 38, 38, 38, 38, 38, 37, 37, 40, 40, 40, 40, 37, 37, 37, 37, 38, 38, 38, 38

a) Calculez la frquence de chaque pointure b) Calculez la moyenne des pointures c) Reprsentez ces rsultats sur un diagramme bandes

Alain Arnautovic, Francesco Franzosi

http://math.aki.ch

-9-

2. Statistique descriptive

Exercice 5 : Lors d'un festival de cinma, les films ont t classs selon leur dure. Voici les rsultats obtenus : Dure (min) effectif a) Quelle est la population tudie ? [60;70[ 3 b) Qu'est-ce qu'un individu ? [70;80[ 6 c) Quel caractre tudie-t-on ? [80;90[ 9 d) Ralisez une tude complte : [90;100[ 10 Frquences [100;110[ 7 Moyennes [110:120[ 2 Diagramme

Un autre nombre important associs un caractre est :

Le mode Le mode est la classe ou les classes qui ont la plus grande frquence (leffectif plus grand). Cest la valeur la plus frquente dans une srie de donnes.
Remarques : 1. Dans certaines distributions il y plusieurs modes (multimodales). 2. Le mode est insensible aux valeurs extrmes 3. Il est moins utilis que la moyenne ou la mdiane. Exemple 1 : 25 lves ont pass un examen et on a relev : Note Effectif Frquence xi ni fi
Effectif

9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 Notes d'un examen

1 1 4% 2 2 8% 3 5 20 % 4 7 28 % 5 8 32 % 6 2 8% Le mode vaut 5. La note 5 est la plus frquente

Exemple 2 : Lors d'une course de vitesse les 40 participants ont mis les temps suivants pour effectuer le parcours Effectif Frquence Temps 12 n fi (secondes) i 10 [43-45[ 2 5% 8 [45-48[ 3 7,5 % [48-49[ 7 17,5 % 6 [49-51[ 11 27,5 % 4 [51-53[ 8 20 % 2 [53-55[ 6 15 % 0 [55-58[ 3 7,5 % 44 46 48 50 52 54 56 Temps d'une course de vitesse Le mode7 vaut [49-51[. Le temps le plus frquent est dans la classe [49-51[.
7

On donne parfois la valeur du centre de la classe ici le mode vaudrait alors 50. Alain Arnautovic, Francesco Franzosi http://math.aki.ch

Effectif

- 10 -

2. Statistique descriptive

Si linconvnient majeur de la moyenne est sa sensibilit aux valeurs extrmes, il existe un autre indicateur important, cette fois insensible aux valeurs extrmes, c'est :

La mdiane est une valeur telle que la moiti des valeurs xi de lchantillon lui sont infrieures La mdiane x ou gales et lautre moiti suprieures ou gales.
La mdiane est la valeur qui spare la population en deux groupes gaux. C'est dire que 50% de la population est au dessous de la mdiane et l'autre 50% est au dessus. Exemple : Voici six salaires mensuels : 3'500.4'200.4'600.La moyenne est : x = 10 '000. Frs.

5'000.-

6'200.-

36'500.-

= Alors que la mdiane est : x

4600 + 5000 = 4 '800 2

Remarque: La mdiane nest pas affecte pas les valeurs extrmes de la distribution. Dans les distributions asymtriques, la mdiane donne une ide plus quilibre de la tendance centrale que la moyenne.

a) La mdiane pour un chantillon discret Dans le cas dun chantillon discret de n valeurs de xi ranges dans lordre croissant : est la valeur du milieu. x1 x2 x3 .... xn la mdiane x xn + xn +1 2 = 2 = x n +1 si n pair alors x (moyenne des deux valeurs centrales) Si n impair alors x 2 2

Exemple : 25 lves ont pass un examen et on a relev : Note Effectif Frquence xi ni fi


Effectif

9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 Notes d'un examen

1 1 4% 2 2 8% 3 5 20 % 4 7 28 % 5 8 32 % 6 2 8% 1,2,2,3,3,3,3,3,3,4,4,4,4,4,4,4,5,5,5,5,5,5,5,5,5,6,6 La mdiane vaut 4 car cest la 13me note sur les 25.

=4 x

Alain Arnautovic, Francesco Franzosi

http://math.aki.ch

- 11 Exercice 6 : Pour chaque srie ci-dessous, dterminer la mdiane. a) 1,1,1,2,2,2,3,3,4,4,5,5,6,6,6,6,8,100,110 b) 1,1,1,2,2,2,3,3,4,4,5,5,6,6,6,6,8,100,110,200 c) 1,1,1,2,2,2,3,3,4,4,5,5,6,6,6,6,8,100,110,50000 d) 1,1,1,2,2,2,3,3,4,4,5,5,6,6,6,6,8,100,11000,500000

2. Statistique descriptive

Exercice 7 : Pour chaque srie (identique l'exercice 6), calculer la moyenne. a) 1,1,1,2,2,2,3,3,4,4,5,5,6,6,6,6,8,100,110 b) 1,1,1,2,2,2,3,3,4,4,5,5,6,6,6,6,8,100,110,200 c) 1,1,1,2,2,2,3,3,4,4,5,5,6,6,6,6,8,100,110,50000 d) 1,1,1,2,2,2,3,3,4,4,5,5,6,6,6,6,8,100,11000,500000 Que remarque-t-on ?

Exercice 8 : Dterminer la mdiane de chaque statistique.


Note Effectif Effectif cumul 1 1 2 2 3 3 4 6 5 4 6 1 17 Note Effectif 1 1 2 2 3 6 4 3 5 4 6 1 17 Effectif cumul Note Effectif 1 1 2 2 3 6 4 3 5 4 6 2 18 Effectif cumul

Exercice 9: (cas avec une valeur extrme)

L'entreprise de Giles Baytes est compose de 17 personnes. Ci-dessous, la paye mensuelle de chaque employ (en U)
2000 U 2000 U 1000 U 2000 U 3000 U 1000 U 3000 U 2000 U 2000 U 1000 U 1000 U 1000 U 2000 U 100000 U 3000 U 3000 U 2000 U

a) classer ces rsultats dans l'ordre croissant b) calculer leur moyenne c) calculer leur mdiane d) reprsenter ces rsultats sur un diagramme bande e) indiquer la moyenne et la mdiane

Alain Arnautovic, Francesco Franzosi

http://math.aki.ch

- 12 Exercice 10 : (cas sans valeur extrme)

2. Statistique descriptive

L'entreprise Equity est compose de 17 personnes. Ci-dessous, la paye mensuelle de chaque employ (en U)
2000 U 1000 U 1000 U 3000 U 1000 U 2000 U 1000 U 1000 U 1000 U 2000 U 3000 U 1000 U 3000 U 2000 U 2000 U 3000 U 3000 U

a) classer ces rsultats dans l'ordre croissant b) calculer leur moyenne c) calculer leur mdiane d) reprsenter ces rsultats sur un diagramme bande e) indiquer la moyenne et la mdiane

b) La mdiane pour un chantillon continu Dans le cas dun chantillon continu pour estimer la mdiane il faut passer par la fonction cumul (cumul des %). La mdiane sera alors la valeur de x pour laquelle la fonction vaut 50% n Les frquences relatives sont : f i = i i = 1, 2,...., k n Frquences cumules (fonction cumul) : Pour connatre la proportion F ( x) (dite frquence cumule) des individus qui prsentent des valeurs xi du caractre infrieur ou gale x, on additionne toues les frquences f i qui correspondent aux xi tels que xi < x .
) = 50 % On dtermine par le graphique de F ( x) facilement la mdiane car F ( x

Exemple : Lors d'une course de vitesse les 40 participants ont mis les temps suivants pour effectuer le parcours Centre Effectif Frquence Frquence cumule Temps xi ni fi f i xi (secondes) [43-45[ [45-47[ [47-49[ [49-51[ [51-53[ [53-55[ [55-57[ 44 46 48 50 52 54 56 2 3 7 11 8 6 3 5,0 % 7,5 % 17,5 % 27,5 % 20,0 % 15,0 % 7,5 % 5,0 % 12,5 % 30,0 % 57,5 % 77,5 % 92,5 % 100,0 %

Alain Arnautovic, Francesco Franzosi

http://math.aki.ch

- 13 -

2. Statistique descriptive

Temps
43 45 47 49 51 53 55 57

Frquences cumules 0% 5% 12.5 % 30 % 57.5 % 77,5 % 92,5 % 100 %

100.0% 90.0% 80.0% Frquences cumules 70.0% 60.0% 50.0% 40.0% 30.0% 20.0% 10.0% 0.0%

La mdiane vaut : = 50,5 x

43

45

47

49

51

53

55

57

Temps d'une course de vitesse

Exercice 11 : L'tude de la taille des lves d'une classe a donn les rsultats suivants : Taille (cm) Effectif Faire l'tude complte de ce caractre : [ 140 ; 150 [ 1 frquences, moyenne, mode, histogramme [ 150 ; 160 [ 5 et mdiane [ 160 ; 170 [ 8 [ 170 ; 180 [ 6 [ 180 ; 190 [ 4

Exercice 12 : L'tude de l'ge des habitants d'un immeuble a donn les rsultats suivants : ge effectif Faire l'tude complte de ce caractre : [ 0 ; 18 [ 20 frquences, moyenne, mode, histogramme [ 18 ; 36 [ 36 et mdiane [ 36 ; 54 [ 20 [ 54 ; 82 [ 15 [ 82 ; 90 [ 9

Alain Arnautovic, Francesco Franzosi

http://math.aki.ch

- 14 -

2. Statistique descriptive

Activit 2 : atelier informatique (avec Excel ou Calc) .


Activit 2A : Considrer des longueurs en cm de 40 boas dun zoo. Classes Effectif [380;390[ [390;400[ [400;410[ [410;420[ [420;430[ [430;440[ [440;450[ 40 Complter librement ce tableau et faire une tude complte. Varier ensuite les effectifs dans chaque classe et observer les changements. Activit 2B : Soit une srie qui donne le nombre d'enfants de 20 femmes dun chantillon de la population. Nombre d'enfants = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5} Faire une tude complte. Activit 2C : Faire une tude complte des mnages Franais en 1999 :

Nombre de personnes dans le mnage 1 2 3 4 5 6 ou plus

Effectif de la population en 1999 8'089'434 8'086'664 3'619'655 3'058'684 1'182'235 408'959

N.B. On considre 6 ou plus, comme valant 6. Activit 2D : Faire une tude complte de la population franaise active par ge en 1999 :

Age 15-24 25-29 30-34 35-39 40-44 45-49 50-54 55 et +

Effectif 2'289'542 3'628'502 3'881'554 3'865'252 3'880'300 3'696'642 3'305'288 2'225'411

Alain Arnautovic, Francesco Franzosi

http://math.aki.ch

- 15 -

2. Statistique descriptive

2.6 Mesures de dispersion (critres de dispersion) : variance, cart-type, quartile, Les mesures de tendance centrale vues au paragraphe prcdent, aussi importantes quelles soient, ne sauraient donner une ide de la manire dont les valeurs sont distribues au voisinage de ces valeurs centrales. Aussi est-il utile dintroduire une mesure pour rendre compte de cette dispersion.
Pour des questions thoriques, on introduit la moyenne du carr des carts qui est :

La variance statistique

n ( x x ) v=
i i

Grandeur thorique sans unit !

Pour revenir lunit de lchantillon initial, on dfinit finalement :

Lcart-type :

= v

Gomtriquement on peut caractriser de manire assez gnrale lcarttype comme tant le rayon (autour de la moyenne) de la cloche de la distribution des rsultats englobant environ les 2/3 des donnes.

Ainsi si on utilise la moyenne pour mesurer la tendance centrale, on lui associera tout naturellement lcart-type pour mesurer la dispersion (par rapport la moyenne).

Distribution normale : On peut montrer que lorsque la population a une distribution normale alors :
68,3 % des valeurs sont situes entre x et x + 95,4 % des valeurs sont situes entre x 2 et x + 2 99,8 % des valeurs sont situes entre x 3 et x + 3

Exemple 1 : 25 lves ont pass un examen et on a relev : Note Carr de Carr de lcart Note Effectif pondre lcart 2 pondr ni xi xi ni ( x xi ) 2 ni ( x xi ) 1 2 3 4 5 6 1 2 5 7 8 2 n = 25 1 4 15 28 40 12 100 9 4 1 0 1 4 9 8 5 0 8 8 38

= 1, 52 = 1, 23
x= v=
100 =4 25 38 = 1,52 25

Alain Arnautovic, Francesco Franzosi

http://math.aki.ch

- 16 Frquence 35% 30% 25% 20% 15% 10% 5% 0% 1 2 3 4 5 6

2. Statistique descriptive

Notes d'un examen

4 1,23
Si lon suit une loi normale thoriquement 2/3 des notes sont comprises entre 2,88 et 5,23.
On remarquera dans notre exemple quen ralit 20 notes sur 25 soit 80 % sont situes entre 2,88 et 5,23 et que 24 sur 25 soit 96 % sont situes entre 1,54 et 6,46.

Le plus utilis dans la pratique pour calculer la variance est le :

Thorme de Knig-Huyghens :
On montre facilement que :

v=

n x
n

2 i i

x2

et

v = f i xi2 x 2

Il permet de simplifier grandement les calculs. Pour s'en convaincre, reprenons l'exemple prcdent. Exemple 1 : 25 lves ont pass un examen et on a relev :

Note xi
1 2 3 4 5 6

Effectif ni
1 2 5 7 8 2 n = 25

Note pondre ni xi
1 4 15 28 40 12 100

xi2 1 4 9 16 25 36

ni xi2 1 8 45 112 200 82 438

x=

100 =4 25

v=

n x
n

2 i i

x2 =

438 2 4 = 1, 52 25

= 1, 52 = 1, 23

Alain Arnautovic, Francesco Franzosi

http://math.aki.ch

- 17 -

2. Statistique descriptive

Exemple 2 : Lors d'une course de vitesse les 40 participants ont mis les temps suivants pour effectuer le parcours

Temps (secondes) [43-45[ [45-47[ [48-49[ [49-51[ [51-53[ [53-55[ [55-57[

Centre xi
44 46 48 50 52 54 56 Sommes :

Effectif ni
2 3 7 11 8 6 3 n = 40 e=

Temps pondr ni xi
88 138 336 550 416 324 168 2020 v=

xi2 1936 2116 2304 2500 2804 2916 3136

ni xi2 3882 6348 16128 28500 21632 18496 9408 102384

x=

2020 = 50, 5 40

99 = 2, 48 40

102384 50, 52 = 9,35 40

= 9,35 = 3, 06

Frquence

30% 25% 20% 15% 10% 5% 0% 44 46 48 50 52 54 56


Temps d'une course de vitesse

Si lon suit une loi normale 2/3 des temps sont compris entre 48,44 et 53,56 secondes.

Proprits de l'cart-type : On utilise l'cart-type que pour mesurer la dispersion autour de la moyenne d'un ensemble de donnes. L'cart-type n'est jamais ngatif. L'cart-type est sensible aux valeurs aberrantes. Une seule valeur aberrante peut accrotre l'cart-type et, par le fait mme, dformer le portrait de la dispersion. Dans le cas des donnes ayant approximativement la mme moyenne, plus la dispersion est grande, plus l'cart-type est grand. L'cart-type est zro si toutes les valeurs d'un ensemble de donnes sont les mmes (parce que chaque valeur est gale la moyenne).

Alain Arnautovic, Francesco Franzosi

http://math.aki.ch

- 18 -

2. Statistique descriptive

Remarque : Quand on groupe une variable par intervalle de classe, on suppose que toutes les observations l'intrieur de chaque intervalle sont gales au point milieu de l'intervalle. Ainsi, on ne tient pas compte de la dispersion des observations l'intrieur de chaque intervalle, ce qui fait que l'carttype est toujours infrieur la valeur relle. On devrait donc le considrer comme une approximation.

Exercice 13 :
Voici les rsultats d' une enqute sur le poids (en kg) des bagages de 25 personnes 35 25 35 35 40 25 20 35 35 30 30 30 30 35 25 25 40 25 30 35 30 35 30 35 40

a) Ranger ces rsultats dans un tableau, puis calculer : la moyenne et l'cart-type b) Reprsenter ces rsultats l'aide d'un histogramme, sur lequel vous indiquerez la moyenne et l'cart -type.

Exercice 14 : Voici un tableau qui rsume la :dure de 50 films d'une vidothque. a) Compltez le tableau suivant
Effectifs dure (min) [100;120[ [120;140[ [140;160[ [160;180[ [180;200[ [200;220[ [220;240[ [240;260[

ni
2 3 12 15 11 4 2 1

xi

a) Complter ce tableau, puis calculer : la moyenne et l'cart-type b) Reprsenter ces rsultats l'aide d'un histogramme, sur lequel vous indiquerez la moyenne et l'cart -type.

Alain Arnautovic, Francesco Franzosi

http://math.aki.ch

- 19 Exercice 15 :
L'le ALPHA est habite par 100 personnes, 50 hommes et 50 femmes. Tous les hommes chaussent du 42 et toutes les femmes du 34. a) Calculer la pointure moyenne des habitants de cette le. b) Calculer l'cart type cette moyenne.

2. Statistique descriptive

L'le OMEGA est habite par 100 personnes (aussi!), 50 hommes et 50 femmes. Tous les hommes chaussent du 40 et toutes les femmes du 36. c) Calculer la pointure moyenne des habitants de cette le. d) Calculer l'cart type cette moyenne.

L'le GAMMA est habite par 100 personnes (dcidment !), 50 hommes et 50 femmes. Tous les hommes et toutes les femmes chaussent du 38 e) Calculer la pointure moyenne des habitants de cette le. f) Calculer l'cart type cette moyenne. g) Pour chaque le, reprsenter graphiquement les donnes h) Expliquer, les consquences d'un fort cart type sur l'allure d'un graphique. i) Expliquer l'utilit de l'cart type

Exercice 16 : Pour chaque cart-type ci-dessous, retrouvez le diagramme correspondant : cart-type de : 0 cart-type de : 2,21 cart-type de : 2,31 cart-type de : 2,83 cart-type de : 3,29 Diagramme : .... Diagramme : .... Diagramme : .... Diagramme : .... Diagramme : ....

Toutes ces statistiques ont la mme moyenne (24). D1 D2 D3

D4

D5

Alain Arnautovic, Francesco Franzosi

http://math.aki.ch

- 20 Exercice 17 :

2. Statistique descriptive

Retrouver, pour chaque graphique, la srie de valeurs qui lui correspond

Valeurs 1 Moyenne = 37

Valeurs 2 Moyenne = 37

Valeurs 3 Moyenne = 37

***

Si la moyenne on associe lcart-type, la mdiane on associera lintervalle semi-interquartile. Il faut au pralable dfinir les quartiles.

Les quartiles : Soit F la fonction reprsentative du polygone des frquences cumules, on appelle respectivement 1er, 2me et 3me quartiles les valeurs : 1 2 3 F (Q1 ) = = 25% F (Q2 ) = = 50% F (Q3 ) = = 75% 4 4 4
dj dfinie. On voit par ailleurs que On remarque que Q2 nest rien dautre que la mdiane x

lintervalle [Q1 ; Q3 ] contient 50 % des valeurs de lchantillon (cart interquartile).

Lintervalle semi-interquartile (cart semi-quartile) est moiti de la longueur de cet intervalle :

Lintervalle semi-interquartile : Q Q1 I= 3 2

Cette mesure est associe la mdiane.

L'cart semi-quartile n'est gure influenc par des valeurs plus leves; c'est donc une bonne mesure de dispersion pour les distributions asymtriques. On utilise rarement des carts semi-quartiles pour des ensembles de donnes dont les distributions sont normales. Lorsqu'un ensemble de donnes comporte une distribution normale, on a plutt recours l'cart-type.

Alain Arnautovic, Francesco Franzosi

http://math.aki.ch

- 21 -

2. Statistique descriptive

Exemple : (cas continu) Voir l'nonc en page 12. Pour cette course de vitesse avec 40 participants, on avait obtenu le tableau suivant :
Frquences cumules

Temps Frquences (secondes) cumules 43 0% 45 5% 47 12.5% 49 30 % 51 57,5 % 53 77,5 % 55 92,5 % 57 100 %

100.0% 90.0% 80.0% 70.0% 60.0% 50.0% 40.0% 30.0% 20.0% 10.0%

= 50,5 La mdiane vaut : x 0.0% Q1 = 48,4 Q3 = 52,8 43 45 47 49 51 53 55 57 Temps d'une course de vitesse 52, 7 48, 4 I= = 2,15 2 Cela signifie que dans un rayon moyen denviron 2,15 secondes autour de la mdiane on a 50% des chantillons.

Ltendue : (Fourchette )
Cest la diffrence entre la valeur la plus leve xmax et la
E = xmax xmin

valeur la moins leve xmin d'un ensemble de donnes.

Bote moustache On peut reprsenter un rsum en cinq nombres l'intrieur d'un diagramme appel un trac en rectangle et moustaches.
xmin

Q1

Q3

xmax

Cette reprsentation est particulirement indique pour une distribution asymtrique et s'il y a des observations inhabituelles (des valeurs aberrantes) dans l'ensemble de donnes. Les tracs en rectangle et moustaches sont idals pour comparer des distributions, parce qu'ils font apparatre immdiatement le centre, la dispersion et l'tendue globale. Exemple : (cas discret) Gabrielle a commenc travailler dans une boutique d'informatique il y a un an. Son superviseur lui a demand de tenir un dossier du nombre d'ordinateurs qu'elle a vendus chaque mois. L'ensemble de donnes qui suit indique le nombre d'ordinateurs qu'elle a vendus mensuellement au cours des 12 derniers mois : 34, 48, 1, 15, 58, 24, 20, 11, 19, 50, 28, 38. On cherche : a) la mdiane b) l'tendue

c) les quartiles suprieur et infrieur d) l'cart interquartile et lintervalle semi-interquartile

Alain Arnautovic, Francesco Franzosi

http://math.aki.ch

- 22 -

2. Statistique descriptive

Rsolution : a) Les valeurs dans l'ordre ascendant sont : 1, 11, 15, 19, 20, 24, 28, 34, 38, 48, 50, 57. Mdiane = (6e + 8e observations) 2 = (24 + 28) 2 = 26 b) tendue = diffrence entre la valeur la plus leve et la valeur la plus faible = 57 1 = 56 c) Q1 = Quartile infrieur = valeur du milieu de la premire moiti des donnes = la mdiane de 1, 11, 15, 19, 20, 24 = (3e + 4e observations) 2 = (15 + 19) 2 = 17 Q3 = Quartile suprieur = valeur du milieu de la seconde moiti des donnes = la mdiane de 28, 34, 38, 48, 50, 57 = (3e + 4e observations) 2 = (38 + 48) 2 = 42 25 et I= = 12,5 d) cart interquartile = Q3 Q1 = 42 17 = 25 2 On peut rsumer ces rsultats en cinq nombres : 1, 17, 26, 42, 57.

Cest--dire : 1

17

26

42

57

Exercice 18 : Les tempratures numres ci-dessous sont les tempratures quotidiennes maximales (en degrs Celsius) enregistres du 21 juin au 3 juillet : 29,3 ; 29,1; 28,2 ; 19,1 ; 18,8 ; 22,4 ; 18,4 ; 18,0 ; 20,2 ; 25,0 ; 25,8 ; 24,1 ; 22,1. Calculer le rsum en cinq nombres et dessiner un trac en rectangle et moustaches pour ces donnes.

Exercice 19 : Le tableau suivant fournit un aperu du nombre hypothtique de conflits de travail durant une priode de dix ans. Anne Nombre hypothtique de conflits de travail 1 266 2 231 3 223 4 262 5 260 6 230 8 191 8 182 9 165 10 153 Calculer le rsum en cinq nombres et dessiner la bote moustache

Alain Arnautovic, Francesco Franzosi

http://math.aki.ch

- 23 -

2. Statistique descriptive

Exercice 20 : Voici le nombre de parties de basket-ball auxquelles ont assist 50 abonns : 15, 10, 18, 11, 15, 12, 13, 16, 12, 14, 14, 16, 15, 18, 11, 16, 13, 18, 12, 16, 18, 15, 18, 15, 19, 13, 14, 18, 16, 15, 12, 11, 18, 16, 15, 10, 14, 15, 13, 16, 18, 15, 18, 11, 14, 18, 15, 14, 13, 16. a) Compter les donnes. b) Dessiner un diagramme bandes. c) Calculer la moyenne, la mdiane et le mode. d) Calculer la variance et l'cart-type e) Calculer l'intervalle l'intrieur duquel 95 % des observations devraient se situer. f) Formuler un commentaire sur la dispersion des donnes. Exercice 21 : Tches mnagres chez les hommes Une enqute alatoire de 100 hommes maris a donn la distribution suivante d'heures qu'ils consacraient par semaine un travail mnager non rmunr : Heure(s) Nombre d'hommes a) Calculez les frquences cumules. [0 ; 5[ 1 b) Dessinez l'ogive (ou la courbe de distribution) l'aide [5 ; 10[ 18 de la frquence cumule [10 ; 15[ 24 c) partir de la courbe, trouvez une valeur mdiane [15 ; 20[ 25 approximative. [20 ; 25[ 18 Qu'est-ce que cette valeur indique ? [25 ; 30[ 12 d) Trouver lintervalle semi-interquartile. [30 ; 35[ 1 e) Donnez le trac en rectangle et moustaches. [35 ; 40[ 1 f) Quel est le mode ? g) Calculez la moyenne. Qu'est-ce que cette valeur indique ? Donner lcart-type. h) Dcrivez brivement la comparaison entre les valeurs moyenne, mdiane et modale. Comment dtermineriez-vous si les femmes ont consacr plus d'heures par semaine que les hommes un travail mnager non rmunr ?

Activit 3 : (sur le web) Quelle est la taille moyenne des lves de votre classe ? http://www.statcan.ca/francais/kits/height_f.htm
Sur lexemple ci-dessous on voit nettement linfluence sur la moyenne de la taille des garons de la mesure aberrante. Ce qui nest pas le cas sur la mdiane !

On trouvera dautres activits sur la mme page ou en particulier sur : http://www.statcan.ca/francais/edu/index_f.htm ou http://www.statcan.ca/start_f.html
Alain Arnautovic, Francesco Franzosi http://math.aki.ch

- 24 -

2. Statistique descriptive

Activit 4 : Calculatrice scientifique

Refaire l'exercice ci-dessous avec la calculatrice Exercice 20 : Voici le nombre de parties de basket-ball auxquelles ont assist 50 abonns : 15, 10, 18, 11, 15, 12, 13, 16, 12, 14, 14, 16, 15, 18, 11, 16, 13, 18, 12, 16, 18, 15, 18, 15, 19, 13, 14, 18, 16, 15, 12, 11, 18, 16, 15, 10, 14, 15, 13, 16, 18, 15, 18, 11, 14, 18, 15, 14, 13, 16. Calculer la moyenne, la mdiane et le mode. Calculer la variance et l'cart-type

***

La suite du chapitre est laisse l'apprciation de l'enseignant(e).

Alain Arnautovic, Francesco Franzosi

http://math.aki.ch