Vous êtes sur la page 1sur 10

STATISTIQUE DESCRIPTIVE

1. Statistique descriptive
1.1. Un peu d'histoire
Comment interprter l'avalanche de chiffres de la ralit sans outils thoriques ? L'humanit a mis fort longtemps avant de dcouvrir des procds de calcul efficaces et des reprsentations pertinentes. Depuis, ces outils ont envahi tous les domaines de la connaissance. Il semble que les premiers paramtres de position qui aient t utiliss soient le mode, valeur apparaissant le plus frquemment, et le milieu de l'intervalle dfini par les valeurs extrmes . La moyenne arithmtique apparat clairement dans l'uvre de l'astronome danois Tycho Brah (1546-1601) qui, en constituant un ensemble de donnes sur le mouvement des plantes, permit Kepler de formuler ses lois. En 1722, Roger Cotes, qui dispose d'observations qui ne sont pas toutes aussi fiables, propose d'utiliser une moyenne pondre dont les coefficients sont inversement proportionnels la dispersion des erreurs d'observations. On peut noter que la mdiane voit natre son intrt la mme poque, en 1757. La variance nat au 19e sicle avec les moindres carrs. Gauss lui prfre l'cart-type. La reprsentation graphique quantitative trouve son origine dans la construction de cartes gographiques. Les plus anciennes datent d'environ 6000 ans, graves sur des tablettes d'argile, en Msopotamie. Les graphiques statistiques sont plus rcents. William Playfair (1759-1823) publiera Londres des ouvrages dans lesquels on trouve des graphiques de grande qualit (voir ci-contre) et entre autres le premier diagramme en barres connu ainsi que, une peu plus tard, le premier diagramme en secteurs.

1.2.

Vocabulaire
En statistique, on dsigne par population tout ensemble d'objets de mme nature. Ces objets prsentent tous un certain caractre qu'il s'agit d'tudier pour en rvler les tendances principales. Lorsque la population est trop vaste pour l'tudier dans son ensemble, on en prlve au hasard un chantillon que l'on tudie. La taille de cet chantillon devra bien sr tre suffisamment grande pour pouvoir tirer des conclusions sur la population totale. Le caractre tudi est soit de nature discrte (il ne peut prendre que des valeurs relles isoles, par exemple les notes entre 1 et 6 values au demi-point), soit de nature continue (il peut prendre toute valeur d'un certain intervalle rel, comme la vitesse d'une voiture). Les tableaux et les graphiques donnent une bonne ide de la manire dont un caractre est distribu, mais on cherche souvent illustrer cette distribution de manire beaucoup plus sommaire par quelques nombres caractristiques. Parmi ceux-ci, les mesures de tendance centrale (aussi appeles paramtres de position) jouent un rle essentiel. La plus connue est la moyenne, mais on utilise aussi la mdiane ou le mode. Les mesures de tendance centrale ne suffisent pas donner une ide de la manire dont les valeurs sont distribues au voisinage de ces valeurs centrales. Aussi est-il utile d'introduire une mesure de la dispersion. La plus utilise est l'cart-type. Dans le cas continu, l'intervalle semi-interquartile est aussi trs frquent.

Exemples de caractre d'une population : dures de vie d'ampoules poids de poulets d'levage notes de math des lves d'une classe

1.3.

Cas discret
Dans une classe de 26 lves, la matresse a relev les notes suivantes : 44531546243555045633525443 Afin d'y voir plus clair, elle regroupe les notes dans un tableau. Dans la premire colonne, elle numrote les 7 observations possibles, dans la deuxime, elle inscrit les valeurs de ces observations (les notes), et dans la dernire elle note les effectifs, i.e. le nombre de fois qu'apparat chaque valeur.

On utilisera cet exemple pour illustrer les notions de ce paragraphe.

Didier Mller - LCP - 2011

Cahier Statistiques

CHAPITRE 1 Tableau 1 Observations i 1 2 3 4 5 6 7 Notes Valeurs xi 0 1 2 3 4 5 6 lves Effectifs ni 1 1 2 5 7 8 2 Effectif total : n= ni =26
i =1 7

Les premires statistiques sont probablement les recensements effectus propos des individus et de leurs biens, il y a 4'500 ans en Msopotamie et en gypte.

De nos jours, les sondages d'opinion sont courants. Les statistiques sont trs utilises par les assurances.

Notation :

xi = x1 x2 x N
i=1

Exercice 1.1

Avec les donnes du tableau ci-dessus, calculez les expressions suivantes : a.

xi
i=2

b.

nk
k =1

c.

n i xi
i=1

d.

ni x j
i=1 j=1

Reprsentations graphiques
9 8 7 6
Ef f ectif s

Les deux reprsentations graphiques les plus courantes sont l'histogramme (diagramme en btons) et le diagramme secteurs (communment appels camemberts ). Les deux graphiques suivants sont dessins d'aprs les donnes prsentes dans le tableau 1.

5 4 3 2 1 0 0 1 2 3
Notes

Histogramme

Diagramme secteurs On peut videmment ajouter un ct artistique aux graphiques, comme dans l'exemple ci-dessous :

Cahier Statistiques

Didier Mller - LCP - 2011

STATISTIQUE DESCRIPTIVE

Moyenne
(mesure de tendance centrale)

La moyenne est la plus connue des mesures de tendance centrale. Elle s'obtient en divisant la somme des valeurs par le nombre de valeurs (n) :

x= i=1

n i xi
n

En utilisant les donnes du tableau 1, on trouve : x= 10112253748526 100 = =3.846 26 26

Remarque La moyenne est influence par toutes les valeurs et est malheureusement trs sensible aux valeurs extrmes, au point d'en perdre parfois une bonne partie de sa reprsentativit, surtout dans des chantillons de petite taille. Ainsi la moyenne des six salaires mensuels suivants 3'500 4'200 4'600 5'000 6'200 36'500 est gale 10'000 (!), alors qu'un seul salaire dpasse cette moyenne.

Variance et carttype
(mesure de dispersion)
La deuxime expression est plus agrable pour les calculs.

Si l'on dsire se faire une ide de la manire dont les valeurs du caractre s'cartent de la moyenne x de ce caractre, on calcule la moyenne des carts quadratiques :

ni xi x 2 ni x 2 i
= n = n

x2

est la variance de l'chantillon. L'cart-type est la racine carre de la variance.


Vos calculatrices comprennent des touches spciales pour calculer efficacement la moyenne et l'cart-type. Consultez votre mode d'emploi !

= En utilisant les donnes du tableau 1, on trouve : x= 100 438 2 =3.846 ; = 3.846 =16.846 14.793=2.053 . D'o = =1.433 . 26 26

Remarque Quand on calcule la variance d'un chantillon (et non de la population entire), le dnominateur est n1.

Exercice 1.2

Les trois lves suivants ont 4 de moyenne. Et pourtant, ils sont trs diffrents. Calculez l'cart-type de leurs quatre notes. Que constatez-vous ? a. 4 4 4 4 b. 2 2 6 6 c. 2 3 5 6

Mdiane
(mesure de tendance centrale)

On trie tout d'abord les n valeurs par ordre croissant : 01223333344444445555555566 x La mdiane est simplement la valeur qui se trouve au milieu : = x n1 .
2

1 Si n est pair, on prend la moyenne des deux valeurs du milieu : = x n x n . x 1 2 2 2 1 1 44 x =4 . Avec les donnes du tableau 1, = x n x n 1= x 13 x14 = 2 2 2 2 2 Remarque La mdiane n'est pas affecte par les valeurs extrmes de la distribution.

Didier Mller - LCP - 2011

Cahier Statistiques

CHAPITRE 1 Mthode de calcul 1. Trier les donnes dans l'ordre croissant. 2. Diviser les donnes en deux groupes de taille gale : le groupe A avant la mdiane et le groupe B aprs la mdiane (si l'chantillon de dpart a une taille impaire, rajouter la mdiane en tte du groupe B). 3. Calculer la mdiane du groupe A, que l'on appellera Q1. 4. Calculer la mdiane du groupe B, que l'on appellera Q3. Q Q1 5. L'intervalle semi-interquartile (isi) vaut : isi= 3 2 Reprenons les donnes du tableau 1 : Groupe A 0122333334444 Q1=3 53 isi= =1 2 Le mode est par dfinition la valeur la plus frquente dans une srie de donnes. Groupe B 4445555555566 Q3=5

Intervalle semiinterquartile
(mesure de dispersion)

Remarque : par convention, Q2 =x

Mode

(mesure de tendance En lisant le tableau 1, on constate que, dans cet exemple, le mode vaut 5. centrale) Remarques Le mode n'est pas affect par les valeurs extrmes de la distribution. Selon la srie de donnes, il peut y avoir plusieurs modes.

Exercice 1.3
Utilisez les touches spciales de votre machine pour calculer la moyenne et l'cart-type.

Lors d'une journe, on a relev les ges de 20 personnes venant se prsenter l'examen thorique du permis de conduire : 18 19 19 23 36 21 57 23 22 19 18 18 20 21 19 26 32 19 21 20 Calculez la moyenne, la mdiane, le mode, la variance, l'cart-type et l'intervalle semiinterquartile de ces valeurs. Au laboratoire de physique, une srie de mesures de l'acclration de la pesanteur terrestre a donn les rsultats suivants : 9.95 9.85 10.13 9.69 9.47 9.98 9.87 9.46 10.00 Calculez la moyenne et l'cart-type des rsultats.

Exercice 1.4

Exercice 1.5

Le professeur de maths m'a dit : C'est bien ; disons plutt que c'est pas mal : tu as 4.5 de moyenne sur les cinq notes du semestre . Sachant qu'aux quatre premires j'ai eu 5.2, 3.1, 4.4 et 4.2, quelle est ma note la dernire preuve ? 41'250'000 personnes d'un pays ont atteint leur taille dfinitive (1.67 mtres en moyenne). Si l'on vous dit que, dans ce pays, la femme moyenne mesure 1.61 mtres et l'homme moyen 1.74 mtres, sauriez-vous en dduire de combien le nombre de femmes dpasse le nombre d'hommes dans ce pays ? Chaque lve de la classe est pri de relever le prix de trente articles diffrents choisis au hasard, soit en se promenant dans un grand magasin, soit en parcourant un catalogue de vente par correspondance. Il notera ensuite combien de fois apparat chaque premier chiffre significatif (le chiffre tout gauche, 0 except), i.e. combien de fois le prix des articles commence par un 1, par un 2, , et par un 9. Jouez le jeu ! Les rsultats seront rassembls et analyss en classe.

Exercice 1.6

Exercice 1.7 (exercice de classe)

Cahier Statistiques

Didier Mller - LCP - 2011

STATISTIQUE DESCRIPTIVE

1.4.

Cas continu
Lorsqu'il y a trop de valeurs discrtes, ou lorsque le caractre de la population est de nature continue, on regroupe les valeurs en classes de mme amplitude. Tableau 2 Temps (classes) [43-45[ [45-47[ [47-49[ [49-51[ [51-53[ [53-55[ [55-57[ Centres des classes xi 44 46 48 50 52 54 56 Effectifs ni 2 3 7 11 8 6 3 n = 40

Lors d'une course de vitesse, les 40 participants ont mis les temps ci-contre pour effectuer le parcours. On reprsente ces donnes par un histogramme dans lequel chaque classe (ici d'amplitude 2) se voit attribuer un rectangle dont l'aire est proportionnelle l'effectif de la classe.

Mode

Dans le cas continu, le mode se trouve dans la classe ayant le plus grand effectif (la classe modale). b Il se calcule sur l'histogramme ainsi : mode = ac bd 24 =50.14... Ci-dessous : mode = 49 43

Il peut y avoir plusieurs classes modales, donc plusieurs modes.

Frquences et frquences cumules

Il est souvent intressant de faire figurer dans un tableau statistique, pour chaque valeur (ou pour chaque classe) xi que peut prendre le caractre, la proportion fi des individus qui prsentent cette valeur xi . Ces proportions sont appeles frquences. n Si n est l'effectif total, alors par dfinition f i = i . n La frquence cumule F(x) est la proportion des individus qui prsentent des valeurs xi infrieures ou gales x. Elle se calcule en additionnant toutes les frquences fi correspondant aux xi tels que xi x. Tableau 3 Classes (temps) [43-45[ [45-47[ [47-49[ [49-51[ [51-53[ [53-55[ [55-57[ Centres des classes xi 44 46 48 50 52 54 56 Effectifs ni 2 3 7 11 8 6 3 = 40 Frquences fi 2/40 = 0.050 3/40 = 0.075 7/40 = 0.175 11/40 = 0.275 8/40 = 0.200 6/40 = 0.150 3/40 = 0.075 =1 Frquences cumules F(xi+1) 2/40 = 0.050 5/40 = 0.125 12/40 = 0.300 23/40 = 0.575 31/40 = 0.775 37/40 = 0.925 40/40 = 1.000

Ce tableau reprsente les vitesses de 40 voitures mesures dans un village.

Didier Mller - LCP - 2011

Cahier Statistiques

CHAPITRE 1

On obtient le polygone des frquences cumules ci-dessous :

Le polygone des frquences cumules commence une ordonne de 0 et finit en 1.

Mdiane

La mdiane se calcule en utilisant le polygone des frquences cumules. Il faut reprer quel segment coupe la droite horizontale d'ordonne 0.5, puis calculer la mdiane par proportionnalit (grce au thorme de Thals). Q 2 49 0.2 a c 0.5 0.3 =50.45... = = Q2 =492 0.275 b d 51 49 0.575 0.3

Intervalle semiinterquartile

F tant la fonction reprsentative du polygone des frquences cumules, on appelle respectivement premier, deuxime et troisime quartile les valeurs Q1, Q2 et Q3 telles que 1 2 3 F Q 1= ; F Q 2= ; F Q 3= 4 4 4 On voit que l'intervalle [Q1; Q3] contient le 50% des valeurs de l'chantillon. L'intervalle semi-interquartile est gal, par dfinition, la moiti de la longueur de cet intervalle : Q 3 Q1 isi= 2 Q 1 47 0.25 0.125 0.125 48.428 = Q1= 472 0.175 49 47 0.3 0.125 Q 3 51 0.75 0.575 0.175 =52.75 = Q3=512 0.2 53 51 0.775 0.575 isi= 52.75 48.428 2.161 2

Q1 et Q3 se calculent de manire similaire la mdiane.

Moyenne et carttype

Dans le cas continu, la moyenne et l'cart-type se calculent comme dans le cas discret en utilisant comme valeurs les centres de classes. Ces mesures changeront lgrement selon la manire dont on aura form les classes.

Remarque Si on utilise la moyenne pour mesurer la tendance centrale, on lui associera l'cart-type pour mesurer la dispersion. Si par contre on utilise la mdiane, on lui associera l'intervalle semi-interquartile.

Cahier Statistiques

Didier Mller - LCP - 2011

STATISTIQUE DESCRIPTIVE

Exercice 1.8

Lors d'un contrle de police sur l'autoroute, un agent a relev les vitesses suivantes (arrondies l'entier infrieur ou gal) : 117 106 123 114 122 134 121 124 104 130 130 121 130 126 92 113 104 123 99 104 127 124 120 140 113 125 117 133 105 130 98 109 111 119 120 110 128 143 134 84 124 134 145 128 166 122 146 111 119 138 126 111 110 137 129 101 139 119 109 119

a. Groupez ces donnes par classes : [80-90[, [90-100[, etc. b. Dessinez le diagramme secteurs correspondant. c. Calculez le mode, la mdiane et l'intervalle semi-interquartile.

Exercice 1.9

Les salaires mensuels pays aux ouvriers d'une entreprise se rpartissent comme suit : 4 21 104 163 121 57 22 10 a. b. c. d. ouvriers gagnent entre 2400 et 2700 francs ouvriers gagnent entre 2700 et 3000 francs ouvriers gagnent entre 3000 et 3300 francs ouvriers gagnent entre 3300 et 3600 francs ouvriers gagnent entre 3600 et 3900 francs ouvriers gagnent entre 3900 et 4200 francs ouvriers gagnent entre 4200 et 4500 francs ouvriers gagnent entre 4500 et 4800 francs

Faites un tableau en vous inspirant du tableau 3. Dessinez l'histogramme et le polygone des frquences cumules. Calculez le mode, la mdiane et l'intervalle semi-interquartile. Calculez le salaire mensuel moyen et l'cart-type.

Exercice 1.10

Au concours de Mathmatiques sans Frontires, le nombre de points obtenus par les coles de Suisse se rpartit selon l'histogramme suivant :
16 14 12 10
Nombre d'coles

8 6 4 2 0 5 15 25 35 45 55 65 75 85 95 105 115
Nombre de points

a. Calculez la moyenne de cette srie. b. En utilisant l'histogramme, trouvez le pourcentage des coles qui ont moins de 64 points.

Exercice 1.11

Aprs avoir constat que la moyenne de classe tait catastrophique, le professeur dcide de monter tout le monde d'un demi-point. Laquelle de ces mesures statistiques ne changera pas : la moyenne, l'cart-type, le mode ou la mdiane ?

Didier Mller - LCP - 2011

Cahier Statistiques

CHAPITRE 1 Dchiffrez le texte ci-dessous, sachant que chaque lettre du code remplace toujours la mme lettre du texte original, crit en franais.
XY AXJ BYRJMYJ, MQQMVUVXYJ GXR NCBWJR N'UYX LMBY N'PCLLX XJ BGR XAVBDBVXYJ, XY IMAX NU AMYNXGMFVX, RUV GX QGMJVX NU LUV NU QMGMBR VCEMG. GX VCB DBJ AXJJX QMVJBX NX LMBY KUB XAVBDMBJ. MGCVR GX VCB APMYWXM NX ACUGXUV, RXR QXYRXXR G'XIIVMEXVXYJ, GXR SCBYJUVXR NX RXR VXBYR RX NXGBXVXYJ XJ RXR WXYCUZ RX PXUVJXVXYJ G'UY G'MUJVX. GX VCB AVBM MDXA ICVAX QCUV IMBVX DXYBV GXR LMWBABXYR, GXR APMGNXXYR XJ GXR MRJVCGCWUXR. GX VCB QVBJ GM QMVCGX XJ NBJ MUZ RMWXR NX FMFEGCYX : JCUJ PCLLX KUB GBVM AXJJX XAVBJUVX XJ LX IXVM ACYYMBJVX RCY XZQGBAMJBCY VXDXJBVM GM QCUVQVX, LXJJVM GX ACGGBXV N'CV M RCY ACU XJ, ACLLX JVCBRBXLX NMYR GX VCEMULX, BG ACLLMYNXVM. MGCVR DBYVXYJ JCUR GXR RMWXR NU VCB, LMBR BGR YX QUVXYJ QMR GBVX G'XAVBJUVX XJ IMBVX ACYYMBJVX MU VCB G'XZQGBAMJBCY. GX VCB FMGJPMRMV IUJ NCYA JVXR XIIVMEX, GM ACUGXUV NX RCY DBRMWX APMYWXM XJ RXR WVMYNR IUVXYJ FCUGXDXVRXR. GM VXBYX, XY VMBRCY NXR QMVCGXR NU VCB XJ NX RXR WVMYNR, DBYJ NMYR GM RMGGX NU IXRJBY. GM VXBYX QVBJ GM QMVCGX XJ NBJ : KUX GX VCB DBDX XJXVYXGGXLXYJ ! KUX JXR QXYRXXR YX J'XIIVMEXYJ QMR XJ KUX JCY DBRMWX YX APMYWX QMR NX ACUGXUV. BG E M NMYR JCY VCEMULX UY PCLLX KUB QCRRXNX XY GUB G'XRQVBJ NXR NBXUZ RMBYJR.

Exercice 1.12

Un des moyens les plus simples de chiffrer un message est de remplacer chaque lettre par une autre. Ce chiffre a bien rsist aux cryptanalystes, jusqu' ce que le savant arabe Abu Yusuf Ya'qub ibn Is-haq ibn asSabbah Omran ibn Ismal al-Kindi mette au point, au 9e sicle, une technique dite analyse des frquences : comme chaque symbole correspond une seule lettre, les frquences d'apparition doivent tre semblables. Ainsi, la lettre e est la plus utilise en franais, donc la lettre qui la remplace dans le message cod doit l'tre aussi. Cependant, cette technique ne marche que si le message chiffr est assez long pour avoir des moyennes significatives.

18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

Frquences thoriques des lettres en franais

Frquences des lettres du cryptogramme

Cahier Statistiques

Didier Mller - LCP - 2011

STATISTIQUE DESCRIPTIVE

1.5.

D'autres moyennes
A ct de la moyenne arithmtique que nous avons vue dans ce cours, il existe d'autres moyennes.

Moyenne gomtrique
N

x= Notation :

xi
i=1

x1x 2x N
i=1

On peut l'illustrer avec le cas suivant : si l'inflation d'un pays est de 5% la premire anne et de 15% la suivante, l'augmentation moyenne des prix se calcule grce la moyenne gomtrique des coefficients multiplicateurs 1,05 et 1,15 soit une augmentation moyenne de 9,88%.

Exercice 1.13

On suppose qu' l'issue d'une manifestation, la police annonce 10'000 manifestants, et les organisateurs 100'000. Quel est le nombre de manifestants ? On se dit que les organisateurs et la police trichent de la mme faon : si x est le nombre de manifestants rel, alors, si les organisateurs annoncent k fois plus de manifestants, la police en annonce k fois moins.

Moyenne harmonique

x=

1 x
i=1

Si un train fait un trajet aller-retour entre deux villes la vitesse moyenne v1 pour l'aller et la vitesse moyenne v2 au retour, la vitesse moyenne du trajet complet n'est pas la moyenne arithmtique des deux vitesses, mais bien leur moyenne harmonique.

Exercice 1.14

Un avion a fait le trajet de A vers B, contre le vent, la vitesse moyenne de 700 km/h et le trajet retour 900 km/h. Quelle a t sa vitesse moyenne ?

Moyenne quadratique

x=

1 x2 n i=1 i

Elle est utilise pour calculer l'cart-type (voir page 3). Si un rectangle a pour cts 3 et 7, le carr qui a mme diagonale que le rectangle a pour ct la moyenne quadratique de 3 et 7, c'est--dire 5.38.

Moyenne pondre
x=

pi x i
1

pi
i=1

Le pi sont les poids de chaque valeur. Un prof qui donne diffrents poids ses preuves utilisera la moyenne pondre.

Didier Mller - LCP - 2011

Cahier Statistiques

10

CHAPITRE 1

1.6.

Ce qu'il faut absolument savoir


t ok t ok t ok t ok t ok t ok

Dessiner un histogramme Dessiner un diagramme secteurs Dessiner un polygone des frquences cumules Calculer une moyenne, un cart-type, une mdiane, un intervalle semi-interquartile et un mode dans le cas discret Calculer une moyenne, un cart-type, une mdiane, un intervalle semi-interquartile et un mode dans le cas continu. Connatre les diffrentes moyennes

Gotlib, La Rubrique--Brac, tome 1, page 85, Dargaud, 1970

En complment de ce chapitre, vous trouverez des exercices avec un tableur sur la page : www.apprendre-en-ligne.net/madimu/tableur/

Cahier Statistiques

Didier Mller - LCP - 2011