Vous êtes sur la page 1sur 87

ABDELKADER BENHARI

statistiques

Une statistique est, au premier abord, le rsultat d'une suite d'oprations appliques un ensemble de nombres appel chantillon. D'une faon gnrale, c'est le rsultat de lapplication d'une mthode statistique un ensemble de donnes. Dans le calcul de la moyenne arithmtique, par exemple, l'algorithme consiste calculer la somme de toutes les valeurs des donnes et diviser par le nombre de donnes. La moyenne est ainsi une statistique. Pour tre complet dans la description de l'utilisation d'une statistique, il faut dcrire la fois la procdure et l'ensemble de donnes. De faon formelle bien que cela soit rarement utilis une statistique est une variable alatoire d'un type particulier. C'est en effet une fonction d'un vecteur compose de plusieurs observations d'une loi. Cela permet entre autres d'tendre aux statistiques un certain nombre de rsultats sur les variables alatoires entre autres le caractre indpendant de deux statistiques ou calculer des densits de statistiques. Parmi les statistiques un certain nombre ont des proprits particulires qui servent entre autres en infrence statistique pour l'estimation statistique. Les estimateurs servent, comme leur nom l'indique, estimer des paramtres statistiques. L'optimisation de ces estimateurs peut galement faire intervenir des statistiques auxiliaires vrifiant certaines proprits et qui permettent de faire converger plus vite ces estimateurs.

A.BENHARI

Sommaire
1. Introduction 1.1. Origine 1.2. Statistique et statistiques 1.3. Historique

2. Prsentation des donnes 2.1. 2.2. 2.3. 2.4. 2.5. 2.6. 2.7. Tableaux et diagrammes Variables discrtes et continues Choix de la largeur des classes Polygone des frquences ou des effectifs Bien interprter les graphes Echelle logarithmique Evolution temporelle d'une grandeur

3. Caractrisation des donnes 3.1. Centre d'une distribution 3.1.1. Le mode 3.1.2. La mdiane 3.1.3. La moyenne 3.1.4. Positions relatives des trois mesures du centre d'une distribution 3.1.5. Qualit compare des trois mesures du centre d'une distribution 3.2. Etalement d'une distribution 3.2.1. Dispersion d'une distribution 3.2.2. L'tendue 3.2.3. L'tendue interquartile 3.2.4. L'cart absolu moyen 3.2.5. L'cart quadratique moyen (EQM) 3.2.6. L'cart type 4. Echantillonnage
2

A.BENHARI

4.1. Echantillons reprsentatifs et chantillons biaiss 4.2. Prcision de la moyenne 4.3. Un exemple dchantillonnage statistique : laudimat 5. Loi normale 5.1. Loi normale ou de Gauss 5.2. Calcul des probabilits 5.3. Forme de la distribution d'chantillonnage 5.4. Intervalles de confiance 5.5. Comparaison de deux chantillons indpendants 6. Les proportions 6.1. Ecart type pour les proportions 6.2. Les proportions sont des moyennes 6.3. Exemples 6.4. Illustration : test de la fiabilit des horoscopes 6.4.1. Test de la fiabilit des horoscopes. 6.4.2. La connaissance du signe a-t-elle influenc les rponses ? 7. Corrlation 7.1. Corrlation entre deux variables 7.2. Mthode des moindres carrs 7.3. Coefficient de corrlation

A.BENHARI

Introduction
1.1. Origine
Lorigine du mot statistique remonte au latin classique status (tat) qui, par une srie dvolutions successives, aboutit au franais statistique, attest pour la premire fois en 1771. latin classique status stato statista italien latin moderne franais statistica homme dEtat Etat

(1633) (1672)

statisticus (1771) Statistique

Cest vers la mme poque que statistik apparat en allemand, alors que les anglophones utilisent lexpression political arithmetic jusquen 1798, date laquelle le mot statistics fait son entre dans cette langue.

1.2. Statistique et statistiques


A lorigine, cette discipline concerne donc les affaires de lEtat. Actuellement, on distingue gnralement les statistiques (au pluriel) de la statistique (au singulier). Les statistiques peuvent tre dfinie comme ltude mthodique des faits sociaux qui dfinissent un Etat, par des procds numriques (dnombrements, inventaires, recensements,) Parmi les premiers ouvrages ayant trait cet aspect, on peut mentionner Le Dtail de la France , rdig par Boisguilbert en 1697 et, en 1722, Description de la France , d Pigonal de la Force.
A.BENHARI 4

Le second sens napparat que vers 1830. Cest celui qui est abord dans ce cours. Nous dfinirons la statistique comme un ensemble de techniques dinterprtation mathmatique appliques des phnomnes (ex : faits sociaux) pour lesquels une tude exhaustive de tous les facteurs est impossible cause de leur grand nombre ou de leur complexit.

1.3. Historique
De tous temps, les chefs dEtat ont souhait dterminer la puissance des nations quils dirigeaient laide de recensements partiels ou complets (population, territoire, production,) Ds 3000 av. J.-C., on trouve mention de collectes dobservations sur les biens et les personnes en Msopotamie. En 1200 av. J.-C., des valuations de productions agricoles sont effectues en Chine. Au dbut de notre Ere a lieu un dnombrement des richesses de lEmpire Romain, rendu clbre par sa mention dans lEvangile de Luc. Au Moyen Age, des relevs sont excuts sur lordre de Charlemagne puis de Guillaume le Conqurant. Dans les deux cas, le but est de se faire une ide plus prcise des richesses du pays. Au XVIIe Sicle, pour viter le recensement lourd et onreux, William Petty (16231687) met au point une mthode de comptage de la population de Londres sur base des proportions moyennes entre : les maisons les feux (mnages) par maison la composition des familles

Au XIXe Sicle, les recensements proprement dits reprennent de limportance et, en 1853, a lieu Bruxelles le 1er Congrs International de Statistique, sous limpulsion dAdolphe Qutelet (1796-1874, astronome et mathmaticien belge, un des fondateurs de la science statistique). Lobjectif de ce congrs est duniformiser les techniques de compilation des statistiques nationales, en vue de faciliter les comparaisons. Au dbut du XXe Sicle, un dbat oppose les partisans des recensements (raliss sur lensemble de la population) et des sondages (raliss sur un chantillon reprsentatif de la population). Les recensements ne sont pas toujours possibles, ni souhaitables. Dans certains cas, ils peuvent tre trop chers (comme, par exemple, des enqutes sur toute la population dun pays). Ils peuvent aussi contenir des erreurs. Parfois, ils sont carrment aberrants
A.BENHARI 5

(mesurer la solidit moyenne dun type de voiture en lanant toutes les voitures de ce type contre un mur serait commercialement inacceptable). Pour pallier ces inconvnients, on a recours au sondage statistique, qui consiste dduire les proprits de toute une population partir de lanalyse dun chantillon Il est capital que lchantillon soit choisi et analys de manire adquate. En particulier, il faut que lchantillon soit reprsentatif de la population. Un chantillon non reprsentatif est dit biais. Au dbut du XXe sicle, beaucoup de journaux amricains ralisent des votes de paille en demandant leur avis par crit plusieurs millions de personnes quelques semaines avant les lections prsidentielles. En 1936, le Literary Digest prdit, laide dun chantillon de 2.400.000 lecteurs, la victoire du candidat rpublicain N. Landon. George Gallup, grce un sondage sur 4000 personnes judicieusement choisies, prvoit, quand lui, la victoire du dmocrate Franklin D. Roosevelt. La victoire de ce dernier sonne le glas des votes de paille dont les chantillons sont souvent biaiss (les cartes du Literary Digest avaient t envoyes aux abonns du tlphone et aux propritaires de voitures, cet lectorat ais tait plus favorable aux rpublicains).

Prsentation des donnes


A.BENHARI 6

2.1. Tableaux et diagrammes


Supposons que lon ralise un sondage dont lunique question est la suivante : Quelle est la boisson que vous consommez le plus frquemment avec le repas du soir ? Les rponses peuvent tre choisies dans la liste suivante : eau limonade bire vin caf th alcool autre (divers) E L B V C T A D

Les rsultats bruts de lenqute sont nots sur des formulaires nominatifs (dans ce cas fictif) : Delphine Rose Jean Philippe Marylin Maude Stphanie Julie Olivier Johanne Julien Sandrine Justine Anita Stphanie Christine Kristel Aurore Jean Yves Franois Michael Fabian Louise Stphane Anthony
A.BENHARI

L V L C E B B D B E V V L B B V A B E B L A E
7

Barbara Macha

B B

La liste dtaille des rsultats ne se prte pas bien une interprtation globale. Les rponses peuvent tre regroupes sous forme de tableau permettant une meilleure vue densemble.

Une telle reprsentation o chaque individu est reprsent par un cercle est un peu lourde et devient fastidieuse ds que la taille des chantillons crot.

A.BENHARI

On remplace les empilements de cercles par des barres dont la hauteur est proportionnelle au nombre dindividus repris dans cette catgorie. Cest le diagramme barres.

8 n o m b r e 6 4 2 0 E L B V C T A D

32 % 24 % 16 % 8% 0%

p o u r c e n t a g e

Ce diagramme barres peut aussi donner le pourcentage dindividus dans chaque catgorie. Le diagramme sectoriel ou camembert se prte trs bien la reprsentation des pourcentages. On dessine un disque dcoup en secteurs ou morceaux de tarte . Langle au centre de chaque secteur est proportionnel au pourcentage dindividus dans la catgorie correspondante.

A.BENHARI

E B D A C V

2.2. Variables discrtes et continues


Les cas que nous avons rencontrs jusqu prsent correspondent des variables discrtes, car les rsultats peuvent seulement prendre des valeurs bien spcifiques, qui ne sont gnralement pas numriques (eau, vin,...). On rencontre aussi des variables continues. Dans ce cas, les rsultats (numriques) peuvent prendre nimporte quelle valeur (ventuellement entre des limites infrieure et suprieure). Exemple : tude de la taille dun ensemble dindividus. Si on effectue les mesures avec suffisamment de prcision, il sera rare que deux individus aient exactement la mme taille. Soit une partie des rsultats : Alain : Jacques : Marie : Pol :

1,748 m 1,805 m 1,718 m 1,707 m

Une reprsentation graphique conservant toute la prcision de la mesure sera peu utile, et dinterprtation difficile.

A.BENHARI

10

1.70 m

1.75 m

1.80 m

on regroupera les mesures par classes judicieusement choisies (p.ex.,2 cm) et on comptera le nombre dindividus par classe.

1,70 m

1,75 m
1,701 1,720 m : 1,721 1,740 m : 1,741 1,760 m : 1,761 1,780 m : 1,781 1,800 m : 1,801 1,820 m : 3 3 5 6 4 3

1,80 m

On peut alors reprsenter les rsultats comme dans le cas discret. En particulier, on rencontrera souvent le diagramme barres (accoles, dans ce cas) aussi appel histogramme.

8 n o m b r e 6 4 2 0 1.71 1.73 1.75 1.77 1.79 1.81 taille

30 % 20 % 10 % 0%

p o u r c e n t a g e

Les classes sont gnralement repres par leur centre, mais elles doivent tre dfinies par leurs extrmits.

2.3. Choix de la largeur des classes


A.BENHARI 11

La largeur choisie pour les classes dpendra : de la finesse de la reprsentation dsire (si on veut faire la distinction entre des individus dont la taille diffre de 5 cm, on ne vas pas choisir des classes plus larges, par exemple 10 cm !) de la taille de lchantillon tudi.

Pour que la reprsentation ait suffisamment de prcision, il faut que chaque classe contienne, en gnral, un nombre suffisant dindividus. Exemple : Les cotes obtenues un examen par 50 lves sont donnes dans le tableau suivant : 0.0 0.0 0.5 1.2 1.7 2.1 3.2 4.5 5.3 5.3 6.1 6.2 7.2 7.2 7.4 7.8 8.2 9.1 9.1 9.5 9.5 9.6 9.9 9.9 10.1 10.4 10.5 11.1 11.8 11.9 12.1 12.4 12.5 12.6 12.6 12.8 12.8 12.9 13.0 13.7 13.9 14.2 14.6 14.7 14.7 14.8 15.5 16.1 16.8 18.2

L'allure de l'histogramme change en fonction de la largeur choisie pour les classes:

A.BENHARI

12

Classes de 1 cm:

20
n o m b r e

10

5 10 15 rsultat sur 20 points

20

Classes de 2 cm:

20
n o m b r e

10

5 10 15 rsultat sur 20 points

20

A.BENHARI

13

Classes de 4 cm:

20
n o m b r e

10

5 10 15 rsultat sur 20 points

20

20
n o m b r e

10

0
Classes de 5 cm:

5 10 15 rsultat sur 20 points

20

A.BENHARI

14

Classes de 10 cm:

20
n o m b r e

10

5 10 15 rsultat sur 20 points

20

2.4. Polygone des frquences ou des effectifs


Pour obtenir ce polygone, on raccorde les sommets des barres, au centre de chaque classe, par des segments de droite.

8 n o m b r e 6 4 2 0 1.71 1.73 1.75 1.77 1.79 1.81 taille (m)

30 % 20 % 10 % 0%

p o u r c e n t a g e

On obtient donc une srie de points relis par des segments de droite. Labscisse de chaque point correspond au centre de la classe. La hauteur de chaque point (son ordonne) correspond au nombre dindividus dans la classe (polygone des effectifs) ou au pourcentage dindividus dans la classe (polygone des frquences).
A.BENHARI 15

2.5. Bien interprter les graphes


Il est courant dentendre dclarer que lon fait dire aux statistiques ce que lon veut. Par exemple, il est possible de prsenter les rsultats de manire amener le lecteur peu attentif accepter une conclusion errone. Le but de ce chapitre est dillustrer cette pratique par quelques exemples, afin de donner quelques clefs pour interprter correctement les graphes parfois trompeurs. 1. Tirage de journaux concurrents Le graphique suivant est paru en 1981 dans le New Yorker Post, sous le titre Ascension du Post, le quotidien prfr des New-Yorkais .
1 900 000 1 800 000 1 700 000 1 600 000 1 500 000 800 000 700 000 600 000

NEWS

POST
500 000 1977 1978 1979 1980 1981 1982

Le but de ce graphique est de convaincre le lecteur que la croissance du tirage du Post va bientt lamener en premire position, devant le News qui priclite.

A.BENHARI

16

On remarque deux artifices utiliss pour exagrer la tendance : 1. Lchelle verticale ne dmarre pas en zro. Cest une prsentation acceptable, mais qui renforce les variations apparentes. 2. Lchelle verticale est discontinue. Alors que deux graduations successives sont spares de 100.000 units, on passe brutalement de 800.000 1.500.000 dans lintervalle sparant le Post du News. Les tirages des deux journaux paraissent, de ce fait, beaucoup plus proches que dans la ralit. Une telle prsentation ne serait admissible que si la discontinuit de lchelle tait clairement indique, par exemple par des pointills :
1 900 000 1 800 000 1 700 000 1 600 000 1 500 000 800 000 700 000 600 000

NEWS

POST
500 000 1977 1978 1979 1980 1981 1982

A.BENHARI

17

La version correcte, plus honnte , du graphique, est la suivante :


n o m b r e d e x e m p m a i r e s 2 000 000

NEWS
1 500 000

1 000 000

POST
500 000

0 1977 1978 1979 anne 1980 1981

On constate immdiatement quil reste au Post bien du chemin parcourir avant daccder la premire place.

A.BENHARI

18

2. Le baril de ptrole gant La figure de gauche, parue dans le magazine Time du 9 avril 1979, est destine illustrer laugmentation du prix du ptrole suite la crise dclenche par la guerre du Kippour.

De 1973 1979, le prix du ptrole a t multipli par 6. Or, le baril 1979 , qui est 6 fois plus haut que le baril 1973 contient 6x6x6=216 fois plus de ptrole que celui-ci. Ce nest pas la hauteur du baril, mais son volume, que le lecteur associera gnralement au prix (le ptrole se vend au litre, pas au mtre !). On a donc exagr dun facteur 36 laugmentation du prix du ptrole. Si, de plus, on tient compte de linflation (figure de droite), le prix du ptrole na augment que dun facteur 3,5 entre 1973 et 1979. Lexagration est de 60 fois !

A.BENHARI

19

3. Dpenses gouvernementales aux Etats-Unis Le graphique de gauche illustre laccroissement des dpenses gouvernementales US de 1930 1980. On constate une augmentation rgulire si on mesure ces dpenses en dollars, avec un petit pic correspondant la seconde guerre mondiale.
1000 billions de dollars 500

60 % 40 du PNB 20

40

60 anne

80

40

60 anne

80

Cependant, la mesure des dpenses en dollars na pas beaucoup de sens car elle ne tient pas compte de linflation. Ce qui est plus significatif dans ce cas, cest lvolution des dpenses gouvernementales par rapport toutes les autres dpenses, mesures ici par le Produit National Brut (PNB), comme reprsent sur la figure de droite.

4. Production alimentaire mondiale Le graphe suivant, publi dans lhebdomadaire Business Week le 16 juin 1975, est destin illustrer la variation de la production alimentaire, compare celle de la population mondiale.

A.BENHARI

20

100

population production alimentaire par tte

50

(indice 1961-65 = 100) Business Week, 16/6/1975

0 1954 1974

La plupart des personnes examinant ce graphe vont conclure que la production alimentaire a augment moins vite que la population. Le pige rside dans le fait de comparer la production alimentaire par tte (par individu) la population totale. Si la production alimentaire par tte augmente, cela signifie forcment que la production totale augmente plus vite que la population totale. Une version plus claire de ce graphe est prsente ci-dessous :
150 population production alimentaire totale 100 (indice 1954 = 100) 50 version corrige de la figure ci-dessus 0 1954 1974

NB : Il faut bien se garder dinterprter les graphes au-del de ce quils prsentent. Du graphe ci-dessus, on ne peut pas dduire, par exemple, que le problme de la faim dans le monde tait moins aigu en 1974 quen 1954. En effet, ce problme dpend de bien dautres facteurs, comme la rpartition des denres alimentaires entre pays et entre couches de la population.

A.BENHARI

21

5. Le camembert en perspective Le diagramme sectoriel suivant prsente les pourcentages obtenus par 4 partis politiques lors dune lection.
PUB

PET

PIF

PAF

Une telle prsentation en perspective a tendance faire paratre plus importants les secteurs situs en bas (comme le PAF) ou en haut (comme le PUB) au dtriment de ceux de gauche (PET) ou de droite (PIF). Une prsentation "de face" est moins susceptible d'induire le lecteur en erreur.
Parti Unitaire Belge

Parti pour lEntente Totale

Parti pour lIndpendance de la Flandre

Parti pour lAutonomie Francophone

A.BENHARI

22

6. Choix de lanne de base Lvolution du march boursier Wall Street avant 1954 est illustre sur le graphique ci-dessous :
386 386 386

Indice Dow Jones

41 1929 1954 1932 1954

pas dvolution ?

forte progression ?

En regardant le graphe de gauche, on a limpression que lindice Dow Jones na pas volu. Par contre, le graphe de droite suggre une forte progression. Ces deux graphiques, trop schmatiques, donnent une vue tronque de lvolution du march boursier. En examinant lvolution complte de celui-ci, on constate que les annes 1929 et 1932 prises comme rfrences correspondent en fait un pic et un creux de la courbe, la grande crise de 1930 ayant provoqu leffondrement du cours des actions.
2000 1000

386

Indice 500 Dow Jones 250


125 62.5

386

41
1920 1930 1940 1950 1960 1970 1980 1990

A.BENHARI

23

2.6. Echelle logarithmique


Lorsque la grandeur reprsenter varie fortement (p.ex., plus dun facteur 100), lchelle habituelle (linaire) nest pas bien adapte la reprsentation des petites quantits. Exemple : les dimensions caractristiques des objets suivants sont : mouche : homme : terrain de football : village : pays : plante terre : 5 mm = 0,005 m 2m 100 m 1 km = 1000 m 1000 km = 1 000 000 m 12 000 km = 12 000 000 m Reprsentation linaire

d i m e n s i o n (km)

12000 10000 8000 6000 4000 2000 0


m o u c h e h o m m e t e r r a i n v i l l a g e p a y s t e r r e

Dans une reprsentation linaire, o une longueur donne (entre deux graduations successives) correspond laddition dune quantit fixe (p.ex., 2000 km), les petites variations sont indiscernables.

A.BENHARI

24

Ainsi, le graphique ci-dessus ne permet pas de distinguer la dimension dune mouche de celle dun terrain de football. Dans la reprsentation logarithmique, une distance fixe (entre deux graduations successives) correspond la multiplication par un nombre donn (p.ex., 100). Reprsentation logarithmique

100 000 000


d i 1 000 000 m e 10 000 n s 100 i o 1 n (m)

0.01
m o u c h e h o m m e t e r r a i n v i l l a g e p a y s t e r r e

Cette reprsentation est mieux adapte la comparaison des valeurs relatives

2.7. Evolution temporelle d'une grandeur


Une utilisation courante de la (des) statistique(s) concerne ltude de la variation dune quantit quelconque au cours du temps (chiffre daffaires dune socit, prix dune denre, produit national brut, audience dune chane de tlvision,) Exemple : on tudie le nombre annuel de dcs dans une paroisse ardennaise (Rahier) vers la fin du XVIIIe sicle en dpouillant les registres paroissiaux. Cette tude donne les rsultats suivants :

A.BENHARI

25

1766 :13 dcs 1767 :13 dcs 1768 :10 dcs 1769 :6 dcs 1770 :10 dcs 1771 :14 dcs 1772 :10 dcs 1773 :21 dcs 1774 :17 dcs 1775 : 6 dcs Le nombre total de dcs sur cette priode de 10 ans est de 120, soit une moyenne de 12 dcs par an, ou encore 1 dcs par mois. Lhistogramme est prsents ci-dessous :

20 n o m b r e 15 10 5 0 1766 1770 anne


On se pose alors la question suivante : Y-a-t-il une anne pour laquelle le nombre de dcs est anormalement faible ou lev ? La thorie nous enseigne que si le nombre moyen de dcs est de 12 par an, on peut sattendre, chaque anne, un nombre de dcs variant de 5 19, avec un intervalle de confiance de 95 %. Autrement dit, les fluctuations statistiques vont, normalement (dans 19 cas sur 20), faire varier le nombre de dcs de 5 19 chaque anne. Une seule anne sort de cet intervalle : 1773, avec 21 dcs.

1774

A.BENHARI

26

Cette diffrence est-elle significative ? (Aprs tout, 1 fois sur 20, on sattend un nombre de dcs infrieur 5 ou suprieur 19) Examinons les donnes en dtail. Pour 1766, une anne moyenne (13 dcs), le prtre a consign dans son registre les dcs suivants : le 5 janvier, Jeanne, fille de Mathieu Pichay le 9 janvier, Bartholom, fils de Bartholom Caporal le 22 janvier, Catherine Capon, pouse de Franois Boutet le 27 janvier, Jean Henri Cola le 11 fvrier, un enfant de Mathieu Collinet le 23 avril, Pierre Calais le 10 mai, Marie Joseph Sauvage, veuve de Jean Boutet le 14 mai, Jean Joseph, fils de Joseph Grgoire le 18 juin, Marie Piette, veuve de Joseph Xhard le 20 novembre, Martine N., mendiante le 4 dcembre, Toussaint Charrette le 8 dcembre, Marie Jeanne Helman, pouse de Gilles Lerus le 27 dcembre, Aubin Jacquet

Soient 9 adultes, 4 enfants. Pour 1773, le registre porte les 21 dcs suivants : le 13 janvier, Catherine, fille de Joseph Malhache le 26 janvier, Marie Anne Donneau, veuve de Joseph Chauveheid le 13 fvrier, Jean Helman le 27 fvrier, Marie Jeanne Quenech, veuve de Jean Helman le 28 mars, Elisabeth Marly, pouse de Servais Rasquin le 15 avril, un enfant de Querin Chauveheid le 17 avril, Anne Marie Charette, pouse de Henri Jacquemin le 18 avril, un enfant de Querin Chauveheid le 22 avril, un enfant de Pierre Jacquet le 23 avril, un enfant, neveu de Mathieu Deroanne le 24 avril, un enfant de Henri Goffin le 26 avril, un enfant de Jean Franois Reharmont le 8 mai, un enfant de Louis Dorquet le 16 mai, Anne Marie, fille de Jean Franois Deroanne le 2 juin, un enfant de Franois Santkin le 7 juin, Jacques Laffru le 18 juin, Mathieu, fils de Jean Debatty le 21 juin, un enfant de Guillaume Smettre
27

A.BENHARI

le 4 juillet, un enfant de Louis Dorquet le 14 novembre, un enfant de Jean Pierre Boutet le 14 dcembre, Marie Ursule Deremouchamps, pouse de Henri Neuforge Soient 7 adultes, 14 enfants. En particulier, on relve 14 dcs entre le 15 avril et le 4 juillet, dont 10 enfants. Soient 5 dcs/mois au lieu de 1. Entre le 15 avril et le 26 avril, on note 7 dcs, dont 6 enfants. Soient 20 dcs/mois au lieu de 1. Ces indices sont suffisants pour conclure une pidmie touchant surtout les enfants, par exemple la dysenterie. Lexamen dtaill a donc confirm, dans ce cas, la conclusion thorique.

A.BENHARI

28

Caractrisation des donnes


Lhistogramme et le polygone des effectifs donnent une vue globale et dtaille de la distribution des individus dans un chantillon ou une population. Il est souvent trs utile dextraire de cette information des grandeurs numriques qui en rsument les caractristiques essentielles. Nous passerons tout dabord en revue les grandeurs mesurant le centre de la distribution. Ensuite, nous considrerons les diffrentes mesures de ltalement ou dispersion de la distribution.

3.1. Centre d'une distribution


3.1.1. Le mode
Il correspond au sommet de la distribution: le mode est la valeur la plus frquente cest la valeur la plus la mode . On appelle distribution unimodale, une distribution prsentant un seul mode
f r q u e n c e

A.BENHARI

29

Une distribution bimodale est une distribution prsentant deux modes


f r q u e n c e

X modes mode principal mode secondaire

Une distribution multimodale est une distribution prsentant plusieurs modes (2,3, ). Elle est souvent le reflet dune population compose de plusieurs souspopulations distinctes. Par exemple, le polygone des frquences ci-dessous, qui reprsente la distribution de la taille des individus dans une population adulte, prsente deux modes. Ceux-ci sont le reflet de la prsence de deux sous-populations : les femmes et les hommes, ces derniers tant gnralement plus grands.
f r q u e n c e

taille mode pour les femmes mode pour les hommes

3.1.2. La mdiane
Elle correspond au milieu de la distribution: la mdiane est la valeur pour laquelle il y a autant dindividus gauche qu droite dans lchantillon Pour dterminer la mdiane dun chantillon ou dune population : (1) on classe les individus par ordre croissant (2) on prend celui du milieu
A.BENHARI 30

Exemple : Soit un chantillon de 9 personnes dont le poids est :


45 68 89 74 62 56 49 52 63 kg

classs par ordre croissant :


45 49 52 56 62 63 68 74 89 4 mdiane 4 kg

Si le nombre dindividus est pair, on prend la moyenne entre les deux valeurs centrales :
45 49 52 55 56 62 63 68 74 89 5 mdiane = 56 + 62 = 59 kg 2 5

En rgle gnrale, si n est le nombre dindividus dans lchantillon, la mdiane porte le numro dordre
n +1 dans la suite des individus classs par ordre croissant. 2

Lorsquon obtient un numro demi entier (ex : 24,5), on calcule la moyenne des deux valeurs adjacentes. Calcul de la mdiane pour les grands chantillons rpartis en classes (1) Dterminez le numro dordre de la mdiane. (2) Dterminez dans quelle classe elle se situe laide du tableau des nombres cumuls (total des individus de cette classe et des prcdentes). (3) Rangez par ordre croissant les lments (individus) de cette classe. (4) Slectionnez llment (individu) correspondant au numro choisi.

A.BENHARI

31

Exemple : Soient les pourcentages obtenus par 49 lves un examen, rangs par classes de 10 pourcents de large: Classe 1-10 11-20 21-30 31-40 41-50 51-60 61-70 71-80 81-90 49 individus nombre 2 4 5 8 7 9 6 6 2 la mdiane porte le n25
49 + 1 2 = 25 dans la classe 41-50

nombre cumul 2 6 11 19 26 35 41 47 49

car, daprs le tableau des nombres cumuls, cette classe contient les individus portant les numros dordre 20 26. Examinons le contenu de cette classe : 46 42 45 44 50 43 49 Rangeons-les par ordre croissant : 42 43 44 45 46 49 50 Il y a 19 individus dans les classes prcdentes Le premier de cette classe porte le n20 et nous devons choisir le 25e Numro : Valeur : 20 42 21 43 22 44 23 45 24 46 25 49 26 50

La mdiane vaut donc 49.

A.BENHARI

32

3.1.3. La moyenne
Elle correspond une rpartition quitable de la grandeur mesure sur tous les individus: la moyenne est la somme des grandeurs mesures divise par le nombre dindividus Exemple : Dans le prcdent chantillon de 9 personnes, le poids moyen vaut :
X= 45+68+89+74+62+56+49+52+63 = 62 kg 9

Dans le second chantillon de 10 personnes, le poids moyen vaut :


X= 45+49+52+55+56+62+63+68+74+89 = 61,3 kg 10

Pour un chantillon de n individus, la moyenne est calcule par :

X=

X1 + X 2 + X 3 + + X n n

En utilisant la lettre grecque pour reprsenter une somme, on obtient la notation compacte suivante :

X=

1 X n

Pour des donnes groupes en classes, on peut calculer une valeur approximative de la moyenne en supposant que tous les individus dune classe se situent au centre de celle-ci. Dans l'exemple prcdent (9 personnes), la rpartition est la suivante: Classe 45-55 55-65 65-75 75-85 85-95
A.BENHARI

Centre 50 60 70 80 90

Nombre 3 3 2 0 1
33

3 50 + 3 60 + 2 70 + 0 80 + 1 90 = 62,2 kg 9

Si x est le centre de la classe et f le nombre dindividus dans celle-ci, la formule approche scrit :

1 x. f n

Dans lexemple prcdent, la formule approche donne un poids moyen de 62,2 kg au lieu de 62 kg. La formule approche donnera des rsultats dautant meilleurs que : les classes seront troites le nombre dindividus par classe sera grand.

3.1.4. Positions relatives des trois mesures du centre d'une distribution


a) Distribution unimodale et symtrique Dans une distribution unimodale et symtrique, le mode, la mdiane et la moyenne sont confondus.

F r q u e n c e X Mode = Mdiane = Moyenne

A.BENHARI

34

b) Distribution asymtrique Si la distribution est tale droite, on a gnralement: mode < mdiane < moyenne

F r q u e n c e X M o d e M d i a n e M o y e n n e

Si la distribution est tale gauche, on a gnralement: moyenne < mdiane < mode

F r q u e n c e X M o y e n n e M d i a n e M o d e

A.BENHARI

35

3.1.5. Qualit compare des trois mesures du centre d'une distribution


Exemple : Rpartition des revenus dans une population.
M o d e M d i a n e M o y e n n e

P o u r c e n t a g e

revenu

Le mode est la plus mauvaise mesure du centre, car la classe la mieux reprsente nest pas ncessairement au centre de la distribution. Si les valeurs extrmes sont modifies, la mdiane ne change pas car elle nest pas sensible aux valeurs extrmes. Par contre la moyenne change car elle tient compte de toutes les valeurs. On prfrera la mdiane ou la moyenne selon que lon veut une mesure sensible ou non aux valeurs extrmes.
M o d e M d i a n e

P o u r c e n t a g e

M o y e n n e

revenu A.BENHARI 36

3.2. Etalement d'une distribution


3.2.1. Dispersion d'une distribution
Supposez que lon dsire comparer les revenus des ouvriers dune usine ceux de lensemble de la population de leur rgion. Les rsultats sont rsums sur lhistogramme suivant :
ouvriers de lusine ensemble de la population

P o u r c e n t a g e revenu

Dans ce cas, les deux distributions ont le mme centre mais elles sont manifestement diffrentes : elles diffrent par leur dispersion Mesures de la dispersion Exemple : Les poids de 35 garons de 2e candi. communication (97-98) sont repris dans le tableau et lhistogramme suivants : classe (kg) 50-54 55-59 60-64 65-69 70-74 75-79 80-84
A.BENHARI

individus : poids en kg 52 58 62 65 72 75 80

60 65 70 75 80

60 66 72 75 80

63 62 65 74 74 74 70 75 76 75 75 75 75 78
37

85-89
10 n o m b 5 r e

89 88 88 87

52

57

62

67

72

77

82

87

poids (kg)

Pour caractriser ltendue dune distribution, les statisticiens ont introduit toute une srie de grandeurs, dont nous allons considrer les principales.

3.2.2. L'tendue
Ltendue est la diffrence entre la plus grande valeur et la plus petite valeur. Dans lexemple prcdent, le calcul exact donne : 89-52 = 37 kg Un calcul approch, prenant en compte le centre des classes, donnerait : 87-52 = 35 kg
10 n o m b 5 r e

52

57

62

67

72

77

82

87

poids (kg)

tendue 35 kg

A.BENHARI

38

3.2.3. L'tendue interquartile


Le premier quartile est lindividu ayant 25 % de lchantillon en-dessous de lui et 75% de lchantillon au-dessus. Le deuxime quartile est lindividu ayant 50 % de lchantillon en-dessous de lui et 50 % de lchantillon au-dessus: cest donc la mdiane Le troisime quartile est lindividu ayant 75 % de lchantillon en-dessous de lui et 25 % de lchantillon au-dessus. Ltendue interquartile est la diffrence entre le troisime et le premier quartiles Dans notre exemple, on a : 1er quartile = 65 kg 2me quartile = 76 kg Etendue interquartile (EIQ) = 76 65 = 11 kg
n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 poids (kg) 52 58 60 60 62 62 63 65 65 65 66 70 70 72 72 74 74 74 75 75 75 75 75 75 75 75 76 78 80 80 80 87 88 88 89

1er quartile

mdiane

EIQ : 76 65 = 11 kg

3me quartile

A.BENHARI

39

3.2.4. L'cart absolu moyen


On dsire une quantit qui mesure lcart moyen par rapport la moyenne. On ne peut pas simplement calculer la moyenne des carts, car celle-ci est toujours nulle. Exemple : Soient les 5 valeurs suivantes : 4-6-9-10-11
La moyenne vaut : 4 + 6 + 9 + 10 + 11 40 = =8 5 5

valeur 4 6 9 10 11
moyenne des carts :

cart la moyenne 4 8 = 4 6 8 = 2 9 8 = 1 10 8 = 2 11 8 = 3

4 2 +1+ 2 + 3 0 = =0 5 5

Ce rsultat est toujours valable, il rsulte de la dfinition de la moyenne. Lcart absolu moyen est la moyenne des carts par rapport la moyenne, toujours compts positifs. Cest donc la moyenne des valeurs absolues des carts la moyenne. Dans le dernier exemple, il vaut :
4 + 2 + 1 + 2 + 3 12 = = 2,4 5 5

3.2.5. L'cart quadratique moyen (EQM)


Pour des raisons mathmatiques, il est prfrable, pour liminer les signes , de calculer le carr des carts plutt que leur valeur absolue On calcule donc la moyenne des carrs des carts, puis on prend la racine carre :
EQM = 1 x X n

A.BENHARI

40

Dans lexemple ci-dessus, on a :


EQM = 4 2 + 2 2 + 12 + 2 2 + 3 2 5 = 16 + 4 + 1 + 4 + 9 = 5 34 5 = 6 .8 2 .6

3.2.6. L'cart type


Toujours pour des raisons mathmatiques, il est prfrable, de diviser par n-1 plutt que par n pour estimer prcisment la dispersion dune population partir dun chantillon. On obtient alors lcart type, qui est prfrable lcart quadratique moyen, et lon retiendra seulement la formule suivante :
=
1 x X n 1

Dans lexemple ci-dessus, on a :

= 4 2 + 2 2 + 12 + 2 2 + 3 2 5 1 = 34 4 = 8 .5 2 .9

Pourquoi lcart type est-il prfrable lcart quadratique moyen ? Si on se contentait de dcrire lchantillon, lcart quadratique moyen serait une bonne mesure de la dispersion. Mais, en gnral, nous sommes intresss par la population sous-jacente, dont lchantillon nest quune partie (suppose reprsentative). On veut donc estimer la moyenne et la dispersion de la population partir de lchantillon. Cas extrme : Supposons que nous ne disposions que dun chantillon de 1 individu. On peut estimer le poids moyen de la population : ce sera le poids de lindividu (ex : 65 kg). Lcart quadratique moyen donnerait une dispersion nulle, ce qui suggre que toute la population pse prcisment 65 kg !

A.BENHARI

41

Lcart type nous indique que nous ne pouvons pas estimer la dispersion dans la population si notre chantillon ne comporte pas au moins 2 individus, (car on ne peut pas diviser par zro). Calcul de lcart type pour un chantillon rparti en classes. Soient : x f X n les centres des classes les effectifs la moyenne de lchantillon le nombre total dindividus

On peut calculer une valeur approche de lcart type en supposant que tous les individus dune classe sont au centre de celle-ci :

1 f x X n 1

A.BENHARI

42

Echantillonnage
4.1. Echantillons reprsentatifs et chantillons biaiss
Le but principal de la statistique est de dterminer les caractristiques dune population donne partir de ltude dune partie de cette population, appele chantillon. La faon de slectionner lchantillon est aussi importante que la manire de lanalyser. Il faut que lchantillon soit reprsentatif de la population. Lchantillonnage alatoire est le meilleur moyen dy parvenir. Un chantillon alatoire est un chantillon tir au hasard dans lequel tous les individus ont la mme chance de se retrouver. Dans le cas contraire, lchantillon est biais. Un petit chantillon reprsentatif est, de loin, prfrable un grand chantillon biais. Exemple : Nous dsirons dterminer la taille moyenne des tudiants de 2e candi. commu. (97-98) qui taient prsents au 1er cours de statistique, partir dun chantillon de 10 individus. (la rponse exacte, pour la population totale de 86 tudiants, est de 174,0 cm). Mus par une bonne intention, sachant que les garons sont, en gnral, plus grands que les filles, nous choisissons un chantillon contenant autant de filles que de garons. Soient 5 filles et 5 garons choisis au hasard : Taille des filles (cm)
171 165 173 174 166

Taille des garons (cm)


193 187 180 185 178

A partir de cet chantillon de 10 individus, nous obtenons une taille moyenne de 177,2 cm, soit 3,2 cm de plus que la valeur exacte.
A.BENHARI 43

Avons-nous procd correctement au choix de lchantillon, sachant que la population contient 51 filles et 35 garons ? Non, car chaque garon avait plus de chances dtre choisi que chaque fille. En effet, les 5 garons tant tirs au hasard dans une population de 35 individus, chacun deux avait 5 chances sur 35 dtre choisi, soit une probabilit de 5/35 0,143. Les 5 filles tant choisies dans une population de 51 individus, chacune dentre elles avait 5 chances sur 51 dtre choisie, soit une probabilit de 5/51 0,098, donc nettement plus faible que pour les garons. Nous avons biais lchantillon en faveur des garons. Il nest donc pas surprenant que nous obtenions un rsultat trop lev. La manire correcte de procder est de choisir au hasard dans toute la population, sans considration du sexe. Un tel tirage au hasard a donn les tailles suivantes (en cm) : 187, 165, 180, 168, 165, 160, 174, 183, 168, 176 La moyenne de lchantillon est de 172,6 cm. Elle est plus proche de la valeur exacte (erreur de 1,4 cm). [En fait, vu les petits chantillons utiliss, le hasard aurait pu donner un rsultat inverse. Ce sera beaucoup moins probable pour de grands chantillons. Le raisonnement est nanmoins valable en toute gnralit]. Une autre manire de procder est dutiliser la technique des quotas. Sachant que la population tudie contient 35/86 40% de garons et 51/86 60% de filles, nous pourrions nous assurer que lchantillon respecte les mmes proportions, soient 4 garons et 6 filles.

A.BENHARI

44

Exercice : Les chantillons suivants sont-ils reprsentatifs de la population vise ? 1. Pour connatre les opinions politiques de la population dune ville, on envoie 5 enquteurs interroger les gens la sortie de 5 grands magasins. Ils doivent questionner les clients jusqu ce quils runissent, chacun, un chantillon de 200 rponses. R.: Non, car les clients des supermarchs ne sont pas typiques de l'ensemble de la population (en gnral, dans un mnage, c'est toujours la mme personne qui fait les courses; l'chantillon contiendra probablement trop de femmes, d'inactifs,) 2. On dsire faire une enqute sur les gots musicaux de la population belge. Pour cela, on choisit au hasard 1000 numros de tlphone dans lensemble des annuaires et on les appelle pendant les heures de bureau. On obtient 583 rponses. R.: Non car cet chantillon limine pratiquement tous les individus actifs (tudiants, travailleurs, ). Une amlioration de cet chantillon consisterait tlphoner en soire et rpter l'appel pendant plusieurs jours si on n'obtient pas de rponse, de telle manire que l'chantillon obtenu se rapproche le plus possible de l'chantillon slectionn. Ces exemples illustrent la difficult de runir un chantillon reprsentatif, surtout lorsquil sagit dtres humains (certains sont plus faciles joindre, dautres refusent de rpondre,).

4.2. Prcision de la moyenne


Nous supposons maintenant que notre chantillon est reprsentatif de la population. La moyenne sur lchantillon est donc une estimation de la moyenne sur la population. Nous dsirons savoir quelle est la prcision de cette estimation, afin de connatre de quelle quantit la vraie valeur est susceptible de scarter de notre estimation. En fait, la prcision va dpendre : de la taille de lchantillon de la dispersion de la population

A.BENHARI

45

population n o m b r e

individus de l'chantillon

valeur

Dans une population peu disperse, toutes les valeurs de lchantillon seront forcment proches de la moyenne. Dans une population plus disperse, les valeurs de lchantillon seront gnralement plus loignes de la moyenne. La moyenne de lchantillon pourra donc scarter plus fortement de celle de la population. Soient: nle nombre dindividus dans lchantillon, lcart type de la population Alors, la prcision de la moyenne peut tre mesure par un cart type sur la moyenne :
X =

( )

La prcision sur la valeur moyenne sera donc dautant meilleure que : 1. la population sera peu disperse ( petit) 2. lchantillon sera grand (n grand) La prsence dune racine carre au dnominateur implique que : pour une prcision 2 fois meilleure, il faut un chantillon 4 fois plus grand. pour une prcision 10 fois meilleure, il faut un chantillon 100 fois plus grand.

la prcision cote cher !

A.BENHARI

46

Exemple : 1. Dans la population de 51 filles de 2e candi communication, la taille moyenne est de = 167,9 cm (nous noterons la valeur moyenne gnralement inconnue pour la population et X la valeur moyenne pour lchantillon) Lcart type sur la taille est de: = 5,3 cm Si on estime la taille moyenne partir dun chantillon de 4 personnes, on aura une prcision (cart type) sur la moyenne de
X =

( )

5,3 4

5,3 = 2,65 cm 2

A partir dun chantillon de 10 personnes, lcart type serait de :


X =

( )

5,3 10

1,7 cm

2. Nous dsirons dterminer la taille moyenne des hommes belges gs dune vingtaine dannes. Nous disposons dun chantillon de 35 tudiants de 2e candi communication. Si cet chantillon est reprsentatif, sa taille moyenne est une estimation de celle de la population en question. Elle est de 182,9 cm. Pour estimer la prcision de cette moyenne, il faudrait connatre lcart type de la taille pour toute la population considre, ce qui nest pas le cas. Si notre chantillon nest pas trop petit (en principe, au moins 100 individus), nous pouvons remplacer lcart type de la population par lcart type s de lchantillon. Dans ce cas, il vaut s = 6,7 cm

La prcision sur la moyenne serait donc de :


X =

( )

6,7 35

1,1 cm

A.BENHARI

47

Comme pour la moyenne, nous rserverons les lettres grecques pour les grandeurs relatives la population et les caractres romains pour les grandeurs correspondant lchantillon. moyenne population chantillon X cart type s (X)

cart type de la moyenne :

Si lcart type de la grandeur analyse dans la population nest pas connu, on peut le remplacer par lcart type calcul dans lchantillon, pour autant que cet chantillon soit suffisamment grand.
X

( )

s n

( si

n 100 )

4.3. Un exemple dchantillonnage statistique : laudimat


Une application courante des sondages statistiques est lestimation de laudience des missions de tlvision. Nous allons passer en revue quelques-unes des mthodes utilises, en prsentant leurs principaux avantages et inconvnients. Cet exemple illustre bien les difficults auxquelles on peut parfois se heurter pour runir un chantillon reprsentatif, permettant de mesurer la grandeur effectivement recherche. 1. Analyse du courrier Mthode peu coteuse Dfaut: l'chantillon de personnes qui crivent aux stations n'est pas reprsentatif.

2. Interviews On questionne les gens pour connatre les programmes qu'ils ont regard la veille. Dfauts: 1. fait appel la mmoire risque derreurs 2. favorise les missions qui passaient la veille l'heure de l'interview.

A.BENHARI

48

3. Panels avec journaux d'coute Ce sont des groupes permanents de personnes charges de noter leurs coutes et leurs apprciations des programmes. Mthode peu coteuse Dfauts: 1. le travail des panlistes est assez astreignant 2. difficult d'obtenir un chantillon reprsentatif car certaines catgories de personnes risquent dtre peu disponibles pour ce travail. 4. Panels audimtriques Des appareils enregistreurs (audimtres) sont placs dans les foyers qui participent au panel. Ils enregistrent le fonctionnement du rcepteur et envoient automatiquement l'information par voie tlphonique au milieu de la nuit. Avantages: 1. rapidit 2. prcision (mesure la seconde prs) 3. exactitude (pas d'erreur humaine) ne mesurent que le fonctionnement du rcepteur, sans tenir compte des auditeurs 1. adjonction d'un clavier avec boutons permettant aux auditeurs de signaler leur prsence (source possible d'erreurs) 2. systme automatique pour identifier les personnes prsentes

Inconvnient: Solutions:

Difficults gnrales 1. l'augmentation du nombre de canaux: rend plus difficile le recours la mmoire ncessite des panels plus nombreux pour conserver la mme prcision 2. l'utilisation du magntoscope complique les mesures Questions non rsolues 1. Faut-il compter toutes les personnes prsentes dans la pice ou essayer de dterminer lesquelles regardent effectivement la TV ? 2. Quelle doit tre la dure minimale d'coute pour considrer qu'un programme est suivi ? 3. Comment procder lorsque les panlistes sont absents pour de longues priodes (vacances,) ? Les solutions adoptes varient d'un pays l'autre
A.BENHARI 49

La loi normale
5.1. Loi normale ou de Gauss
Supposons que nous tirions des chantillons alatoires d'une population dont la taille moyenne est de 170 cm, avec un cart type de 10 cm. Traons l'histogramme de la taille, avec des classes de 5cm de large. Examinons laspect de ces histogrammes. Echantillon de 10 individus
n o m b r e d i n d i v i d u s n o m b r e d i n d i v i d u s

Echantillon de 100 individus


20 15 10 5

3 2 1 0 120

140

160

taille (cm)

180

200

120

140

160

taille (cm)

180

200

Echantillon de 1000 individus


n o m b r e d i n d i v i d u s

Echantillon de 10.000 individus


n o m b r e d i n d i v i d u s

150

1500 1000 500 0 120

100

50

0 120

140

160

taille (cm)

180

200

140

160

taille (cm)

180

200

A.BENHARI

50

Echantillon de 100.000 individus. (ici, les classes sont de 2 cm)


n o m b r e d i n d i v i d u s

6000 4000 2000 0 120

140

160

taille (cm)

180

200

Au fur et mesure que la taille de l'chantillon augmente (et que la taille des classes diminue), l'histogramme devient de plus en plus rgulier et se rapproche d'une courbe en cloche, appele loi normale. Loi normale
n o m b r e d i n d i v i d u s

120

140

160

taille (cm)

180

200

La loi normale est la loi statistique la plus rpandue et la plus utile. Elle reprsente beaucoup de phnomnes alatoires. De plus, de nombreuses autres lois statistiques peuvent tre approches par la loi normale, tout spcialement dans le cas des grands chantillons.

A.BENHARI

51

Son expression mathmatique est la suivante:


n( x ) = n 2 e

( x ) 2
2
2

n(x)

est la moyenne lcart type n le nombre total dindividus dans lchantillon n(x) le nombre dindividus pour lesquels la grandeur analyse a la valeur x.

Lorsque la distribution des individus dans une population obit la loi normale, on trouve : A. 50 % des individus en-dessous de la moyenne et 50 % au-dessus (la loi normale est symtrique)

50 %

A.BENHARI

52

B. 68 % des individus entre et +

68 %

C. 95 % des individus entre -1,96 et +1,96 , que nous arrondirons lintervalle [2 , +2 ]

95 %

2 +2

D. 99,7 % des individus entre 3 et +3 (il y a donc trs peu de chances quun individu scarte de la moyenne de plus de 3 ).

99,7 %

+3

5.2. Calcul des probabilits


Pour calculer les probabilits associes la loi normale, on utilise gnralement la loi normale rduite : cest une loi normale pour laquelle = 0 et = 1. La table suivante permet de dterminer la probabilit que la variable x scarte de la moyenne de plus de z0 vers le haut. Pour obtenir z0, on calcule lcart par rapport la moyenne : = x - , puis on divise par lcart type :
z0 =

A.BENHARI

53

Z0

0 .500 .460 .421 .382 .345 .309 .274 .242 .212 .184 .159 .136 .115 .097 .081 .067 .055 .045 .036 .029 .023 .018 .014 .011 .008 .006 .005 .003 .003 .002

1 .496 .456 .417 .378 .341 .305 .271 .239 .209 .181 .156 .133 .113 .095 .079 .066 .054 .044 .035 .028 .022 .017 .014 .010 .008 .006 .005 .003 .002 .002

2 .492 .452 .413 .374 .337 .302 .268 .236 .206 .179 .154 .131 .111 .093 .078 .064 .053 .043 .034 .027 .022 .017 .013 .010 .008 .006 .004 .003 .002 .002

2me dcimale de z0 3 4 5 .488 .448 .409 .371 .334 .298 .264 .233 .203 .176 .152 .129 .109 .092 .076 .063 .052 .042 .034 .027 .021 .017 .013 .010 .008 .006 .004 .003 .002 .002 .484 .444 .405 .367 .330 .295 .261 .230 .200 .174 .149 .127 .107 .090 .075 .062 .051 .041 .033 .026 .021 .016 .013 .010 .007 .006 .004 .003 .002 .002 .480 .440 .401 .363 .326 .291 .258 .227 .198 .171 .147 .125 .106 .089 .074 .061 .049 .040 .032 .026 .020 .016 .012 .009 .007 .005 .004 .003 .002 .002

6 .476 .436 .397 .359 .323 .288 .255 .224 .195 .169 .145 .123 .104 .087 .072 .059 .048 .039 .031 .025 .020 .015 .012 .009 .007 .005 .004 .003 .002 .002

7 .472 .433 .394 .356 .319 .284 .251 .221 .192 .166 .142 .121 .102 .085 .071 .058 .047 .038 .031 .024 .019 .015 .012 .009 .007 .005 .004 .003 .002 .001

8 .468 .429 .390 .352 .316 .281 .248 .218 .189 .164 .140 .119 .100 .084 .069 .057 .046 .038 .030 .024 .019 .015 .011 .009 .007 .005 .004 .003 .002 .001

9 .464 .425 .386 .348 .312 .278 .245 .215 .187 .161 .138 .117 .099 .082 .068 .056 .046 .037 .029 .023 .018 .014 .011 .008 .006 .005 .004 .003 .002 .001

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9

Lorsque lon doit dterminer une probabilit partir de la loi normale, on essaie de se ramener une probabilit considre dans la table.

A.BENHARI

54

Quelques cas concrets sont illustrs ci-dessous. 1) x > + z0

Prob (table)

z 0
2) x < - z0

+ z 0

Prob (table)

z0 + z0
3) x plus loign de que z0

2 (table) Prob

z0 + z0
4) x plus proche de que z0

1-2 (table) Prob

z0 + z0
5) x < + z0

1-Prob (table)

z0 + z0
A.BENHARI 55

Exemples : Le poids des tomates produites par un jardinier obit une loi normale de moyenne 200 gr et d'cart type 40 gr. a. Calculez la probabilit que le poids d'une tomate excde 250 gr. Solution:
= 250 200 = 50 gr 50 z0 = = = 1,25 40

Prob = 0,106 = 10 ,6 %

b. Calculez la probabilit que le poids d'une tomate soit infrieur 100 gr. Solution:
=100 200 = 100 gr

la loi normale est symtrique on ne s'occupe pas du signe


z0 =

100 = = 2,5 40

moins de 100 gr: on s'carte donc de la valeur moyenne = 200 gr de plus de z0


Prob = 0,006 = 0,6 %

c. Calculez la probabilit que le poids d'une tomate soit infrieur 230 gr. Solution:
= 230 200 = 30 gr

z0 =

30 = = 0,75 40

Lintervalle (< 230 gr) considr contient la valeur moyenne (200 gr) on prend 1 Prob(table):
Prob = 1 0,227 = 0,773 = 77 ,3 %

d. Calculez la probabilit que le poids dune tomate ne scarte pas de la valeur moyenne de plus de 20 gr. Solution: on calcule dabord la probabilit que le poids scarte de plus de 20 gr, vers le haut ou vers le bas :
= 20 gr = 40 20 z0 = = = 0,5 40

Prob = 0,309 = 30 ,9 %

A.BENHARI

56

On doit multiplier par 2 car on considre les deux cts Prob = 2 0,309 = 0,618 On a donc une prob. de 0,618 que le poids s'carte de de plus de 20 gr, et donc une prob. 1-0,618 que le poids ne s'carte pas de plus de 20 gr. Rponse: 0,382 = 38,2 %

5.3. Forme de la distribution d'chantillonnage


Supposons que nous analysions une population quelconque partir d'un ensemble d'chantillons. Pour chacun de ces chantillons, nous calculons une valeur moyenne X qui est une estimation de la moyenne de la population . Bien entendu, les estimations X diffreront gnralement de la vraie moyenne . Nous dsirons savoir comment les diffrentes dterminations X vont se distribuer autour de la vraie moyenne .

n(x)
population

n(x)

chantillon 1

chantillon 2

Traons l'histogramme des valeurs moyennes, c'est--dire le nombre d'chantillons pour lesquels la valeur moyenne X prend une certaine valeur (se situe dans une certaine classe).

n(x)
histogramme des valeurs moyennes X

x
A.BENHARI 57

La figure suivante montre lhistogramme des valeurs moyennes X pour des chantillons de tailles croissantes tirs des populations indiques sur la premire ligne.

Lorsque la taille de l'chantillon est suffisamment grande, (n 10) la distribution de la moyenne a une forme approximativement normale. L'cart type sur la moyenne est:
(X ) =
n

Quelle que soit la population sous-jacente, si on utilise des chantillons suffisamment grands (au moins 10 20 individus), la prcision de la valeur moyenne peut tre calcule partir de la loi normale.

A.BENHARI

58

Il y a 68 % ( 2/3) de chances que la vraie moyenne soit dans l'intervalle compris entre X- et X+ .

x x x+

Il y a 95 % de chances que la vraie moyenne soit dans l'intervalle compris entre X-2 et X+2 .

x 2
Exemples

x+2 x

1. Une organisation de consommateurs dsire savoir si le poids rel des pains de 800gr produits dans une boulangerie est bien conforme au poids annonc. Pour cela, elle prlve 100 pains au hasard. Elle obtient un poids moyen de 780 gr, avec un cart type de 80 gr. Quelle est la probabilit que le boulanger triche en moyenne sur le poids de ses pains?
n =100 X = 780 gr s = 80 gr

Ecart type de X:

X =

( )

s n

80 100

= 8 gr

Il n'y a pas tricherie si est de 800 gr au moins, c'est--dire 20 gr au-dessus de X.


z0 = 20

( )

20 = 2,5 8

D'aprs la table, la probabilit que soit suprieur X d'au moins 2,5 ( X ) est de 0,006. 100 - 100 0,006 = 100 - 0,6 = 99,4 Il y a 99,4 % de chance pour que le boulanger triche
A.BENHARI 59

on peut raisonnablement conclure la tricherie ! 2. Dans une autre boulangerie, lchantillon de 100 pains conduit au rsultat suivant :
n =100

X =

= = 5 gr n 100 800 795 5 z0 = = =1 5 5

( )

X = 795 gr

s = 50 gr

50

Daprs la table, la probabilit que soit suprieur ou gal 800 gr est de 0,159. Il y a donc 84,1 % de chances que ce boulanger triche. Mme si la prsomption est forte, ce nest pas vraiment suffisant pour conclure la tricherie ! 3. Dans une troisime boulangerie, on obtient :
n =100

X =

= 5 gr n 100 800 810 10 Z0 = = = 2 5 5

( )

X = 810 gr

s = 50 gr

50

D'aprs la table, la probabilit que soit infrieur ou gal 800 gr est de 0,023. Il n'y a que 2,3 % de chances que ce boulanger triche. On peut conclure qu'il est honnte ! 4. Le revenu moyen d'un chantillon reprsentatif de 16 mnages s'lve 62 000 F net par mois, avec un cart type de 16 000 F. a. Quelle est la probabilit que le revenu moyen de l'ensemble de la population soit infrieur 60 000 F ? Solution:
n =16 X = 62000 s = 16000 = s =16000

X =

16000 = 4000 4 n 16 = 60000 62000 = 2000 z0 =

( )

2000 = = 0,5 4000 X

( )

< 60 000: s'carte de X de plus de 0,5 ( X ) on prend la valeur de la table Prob = 0,309 = 30,6 %
A.BENHARI 60

b. Quelle est la probabilit que le revenu moyen de la population soit infrieur 65 000 F ? Solution:
= 65000 62000 = 3000 3000 Z0 = = = 0,75 4000 X

( )

< 65000: ne s'carte pas de X de plus de 0,75 ( X ) vers le haut on prend la valeur p de la table et on calcule 1-p p = 0,227 1-p = 0,773 = 77,3 %

5.4. Intervalles de confiance


Nous avons vu que la moyenne X d'un chantillon alatoire permet d'estimer la vraie moyenne de la population. Nous voudrions estimer galement la prcision de cette moyenne, c'est--dire donner une marge d'erreur ou un intervalle de confiance. Nous pouvons utiliser les tables de la loi normale pour estimer ces intervalles de confiance. En gnral nous adopterons l'intervalle de confiance 95%, soit 2 ( X ). Nous pourrons donc crire, soit:
= X 2(X )

soit, plus explicitement: Il y a 95 chances sur 100 que se situe entre


X 2 X

( )

et

X + 2 X

( )

Si nous tirons une srie dchantillons alatoires de la population, dans 19 cas sur 20 (en moyenne), se trouvera dans lintervalle de confiance X 2 ( X ).

A.BENHARI

61

Exemples : 1. La taille moyenne d'un chantillon de 51 filles de 2me candi. commu. est de 167,9 cm. L'cart type de cet chantillon est de 5,3 cm. Si nous supposons que cet chantillon est reprsentatif de la taille des filles belges ges d'une vingtaine d'annes, nous pouvons calculer la taille moyenne de cette population, avec sa marge d'erreur :
n = 51 X = 167 ,9 s = 5,3

X =

( ) 5,3 = 0,74 51 2 ( X ) = 1,48 1,5 cm

Avec 95 % de confiance, nous pouvons donc dire que la taille moyenne de la population vaut: = 167,9 1,5 cm ce qui revient dire qu'il y a 95 chances sur 100 pour que la taille moyenne des filles belges de 20 ans se situe entre 166,4 et 169,4 cm. 2. La taille moyenne d'un chantillon de 35 garons de 2me candi. commu. est de 182,9 cm En supposant de mme l'chantillon reprsentatif, nous pouvons donner un intervalle de confiance pour la taille des garons belges de 20 ans.
n = 35 X = 182 ,9 s = 6,7

X =

( ) 6,7 = 1,13 35 2 ( X ) = 2,26 2,3 cm

Avec 95 % de confiance, on a donc: = 182,9 2,3 cm

5.5. Comparaison de deux chantillons indpendants


Des chantillons sont indpendants lorsquune modification dans lun deux na pas dinfluence sur les autres. Par exemple, un chantillon de filles et un chantillon de garons slectionns pour dterminer le poids moyen des filles et celui des garons sont indpendants. Par contre, les personnes qui affirment voter pour un parti A ou pour un parti B dans un sondage politique ne forment pas deux chantillons indpendants car si une
A.BENHARI 62

personne de plus dclare voter pour A, il y a un lecteur potentiel en moins pour B (les rsultats de A et B sinfluencent). La diffrence moyenne est simplement:
X D = X1 X 2

Son cart type est donn par:


D = 1 (X ) +2 (X )
2 2

(formule approche, mais suffisamment prcise) Pour la taille des filles et des garons:
X D =182 ,9 167 ,9 =15 cm

D = 0,74 2 +1,13 2 =1,35 cm

L'intervalle de confiance 95 % est de: 2 1,35 = 2,7 cm XD = 15,0 2,7 cm Si nous dsirons maintenant rpondre la question suivante: les garons sont-ils plus grands, en moyenne, que les filles? diffrence moyenne de taille: XD = 15,0 cm cart type de cette diffrence: D = 1,35 cm nombre d'carts types au-dessus de 0 cm (0 cm pas de diffrence de taille)

z0 =

15 ,0 =11 ,1111 1,35

Dans une distribution normale, la probabilit d'avoir une valeur qui s'carte de la moyenne de plus de 11 est infrieure 2.10-28 et donc compltement ngligeable. Si nos chantillons sont reprsentatifs, il n'y a donc aucune chance que la diffrence de taille soit due au hasard. Sur base de nos chantillons, nous sommes donc pratiquement certains que les garons sont, en moyenne, plus grands que les filles.

A.BENHARI

63

Exemple On slectionne un chantillon de 25 paysans syldaves. La superficie de leurs terres s'lve 24 hectares en moyenne, avec un cart type de 5 hectares. Pour un chantillon de 16 paysans bordures, la superficie moyenne des terres est de 26 hectares, avec un cart type de 8 hectares. Quelle est la probabilit que les paysans syldaves aient, en moyenne, plus de terres que les bordures ? Solution: Ces chantillons sont indpendants. chantillon syldave: cart type sur la moyenne: ( X 1 ) = chantillon bordure: cart type sur la moyenne: ( X 2 )
n2 = 16 n1 = 25 X 1 = 24 s1 = 5

5 25

5 =1 5
s2 = 8

X 2 = 26

8 8 = = =2 16 4

diffrence moyenne: (syldave-bordure):


X D = X 1 X 2 = 24 26 = 2

cart type sur la diffrence:


D = X1

( )

+ X 2

( )

= 12 + 2 2 = 5 2,24

les syldaves ont plus de terre en moyenne que les bordures si la diffrence est >0s'carte de la valeur moyenne calcule de plus de 2
z0 =

2 = 0,89 D 2,24

tableProb = 0,187 = 18,7 % de chances que la superficie moyenne soit suprieure en Syldavie.

A.BENHARI

64

Les proportions
6.1. Ecart type pour les proportions
Considrons le cas dun sondage politique. Ici, on ne dsire plus estimer la moyenne d'une grandeur sur une population, mais la proportion des individus de cette population qui se rangent dans une catgorie (p.ex., qui dclarent voter pour le P.U.B.). Exemple Un institut de sondage interroge un chantillon reprsentatif de 200 lecteurs, qui ont le choix entre 4 partis politiques. Les rsultats du sondage sont les suivants: parti PUB PET PAF PIF ne se prononcent pas nombre dintentions de vote 24 35 69 61 11

Notons p la proportion d'individus d'une classe dans l'chantillon Si n1 est le nombre d'individus dans la classe 1 et n le nombre total d'individus dans l'chantillon, on a :
p1 = n1 n

et de mme
p2 = n2 , n

A.BENHARI

65

Dans notre sondage, les proportions sont les suivantes: parti PUB PET PAF PIF n.s.p. proportion 0,120 0,175 0,345 0,305 0,055

Si l'chantillon est reprsentatif, la proportion p dans l'chantillon est une approximation de la proportion dans la population. Pour des chantillons suffisamment grands, les proportions suivent une loi normale, avec un cart type d'chantillon de:
p=

(1 ) - n

En gnral, la proportion dans la population n'est pas connue. On la remplace alors par la proportion p dans l'chantillon
p
p (1 p ) n

Les proportions obissent des lois comparables celles des moyennes. Une diffrence importante est que l'cart type peut tre calcul partir des proportions (pour les moyennes, il devait tre connu par ailleurs). Nous pouvons donc calculer les intervalles de confiance 95 % sur les intentions de vote.
p (PUB) =

0,12 (1 - 0,12) 200 200

= 0,023 = 0,027 = 0,034 = 0,033

p (PET) =

0,175 (1 - 0,175) 0,345 (1 - 0,345) 200 0,305 (1 - 0,305) 200


P

p (PAF) =

p (PIF) =

Les intervalles de confiance 95 % sont de 2


A.BENHARI

66

Les rsultats du sondage sont les suivants: parti intentions de vote PUB PET PAF PIF 12,0 17,5 34,5 30,5 4,6 % 5,4 % 6,8 % 6,6 %

6.2. Les proportions sont des moyennes


Considrons une lection opposant deux partis A et B. Considrons la grandeur x = nombre de voix quun lecteur apporte au parti B. Cest une variable discrte qui peut prendre deux valeurs : x=0 x= 1 Soient nA nB n p le nombre dlecteurs votant pour A le nombre dlecteurs votant pour B le nombre total dlecteurs la proportion dlecteurs votant pour B si llecteur vote pour A si llecteur vote pour B

Calculons la valeur moyenne de x :


X= 1 n nB n

n
x= =p

(0 + 0 ++ 1 + 1 +) nA nB

X=

La proportion est donc la moyenne de x.

A.BENHARI

67

Calculons lcart type sur x (ou plutt son carr, appel variance) :
= =
2 2

1 n 1 n 1 n nA n

(x - X)
2

[(0 - p) + (0 - p) ++ (1 - p) + (1 - p) +] nA nB
2

= =
2 2 2

[ nA p + nB ( 1 - p ) ] p +
2

nB n
2

(1-p)

=(1-p)p +p(1 -p) = p (1 - p) [ p + 1 - p ]

On a donc
= p (1 - p)

Et donc,
( ( p = p ) = X ) = = p(1-p) n n

6.3. Exemples
Exemple 1 :
n = 100 p1 =
1=

n1 = 60 = 60 100 n

n2 = 40 p2 = 0,6 0,4 100 0,4 0,6 100 n2 n = 40 100 = 0,4

n1 n

= 0,6

p1 (1 - p1) p2 (1 - p2) n

= =

= 0,049 Pourquoi = ? * = 0,049

2=

* Quand il n'y a que deux choix possibles, et pas d'abstentions, on a n2 = n n1 et l'incertitude sur n2 est forcment la mme que sur n1. Ce n'est plus vrai partir de 3 choix.
A.BENHARI 68

On ne peut pas calculer


D = p
2
1

+p 2

car les 2 chantillons ne sont pas indpendants ! Le parti 1 gagne les lections si p1>0,5
= 0,6 - 0,5 = 0,1 = 0,049 0,1 = = 2,04 z0 = 0,049

table Prob = 0,021 il y a 2,1 % de chances que p1 < 0,5 il y a 100-2,1 = 97,9 % de chances que le parti 1 remporte les lections Exemple 2 : On constate un dfaut dans 20 % des voitures dun modle. Un garagiste, qui a vendu 50 voitures de ce modle, fait revenir tous ses clients afin de remplacer une pice aux voitures dfectueuses. Pour cela, il a command 12 pices de rechange. Quelle est la probabilit quil nait pas suffisamment de pices ? Solution : La proportion de voitures dfectueuses vaut = 0,2. Dans lchantillon de 50 voitures, on sattend la mme proportion, avec un cart type :
(1 - 0,2 ) 0,8 = = 0,057 p= n 50

Il naura pas suffisamment de pices si le nombre de voitures dfectueuses est suprieur 12, ou au moins gal 13. On a le choix entre deux critres :
p> 12 50 ou 13 p 50
69

A.BENHARI

Dans ce cas, on obtient un meilleur rsultat en appliquant la correction de continuit et en choisissant 12,5 plutt que 12 ou 13. Nous retiendrons donc
p> 12,5 50 = 0,25

Pour quil nait pas assez de pices de rechange, il faut donc que la proportion scarte de la valeur moyenne de plus de = 0,25 0,2 = 0,05 On obtient donc :
z0 = 0,05 = = 0,88 0,057

La probabilit davoir un cart au moins aussi lev est, daprs la table de la loi normale, de 0,189. Il y a donc 18,9 % de risques que le garagiste nait pas assez de pices de rechange.

6.4. Illustration : test de la fiabilit des horoscopes


Lors de deux leons, nous organisons un test destin mesurer la fiabilit des horoscopes. Dans ce but, nous distribuons des feuilles reprenant les horoscopes de la semaine prcdente. Chaque tudiant prsent lit ces horoscopes et indique : son signe astrologique ; lequel de ces horoscopes correspond le mieux ce qui lui est arriv lors de la semaine coule. Pour le premier test, les signes astrologiques sont indiqus. Dans le second test, ces signes ne sont pas indiqus et lordre en est modifi. Ce test a pour but de rpondre deux questions : les horoscopes sont-ils fiables ? la connaissance du signe a-t-elle une influence sur les rponses des individus tests ?
A.BENHARI 70

Nous dsignerons par concidences positives (CP) les cas o ltudiant a reconnu son signe, cest--dire les cas o lhoroscope quil a slectionn correspond bien son signe. Les rsultats des tests effectus de 1998 2004 sont rsums dans le tableau suivants : anne signes connus n 1998 1999 2000 2001 2002 2003 2004 total 69 76 71 57 81 354 CP 8 19 9 10 15 61 signes inconnus n 67 78 65 65 71 72 44 418462 CP 2 5 12 3 9 5 2 38

6.4.1. Test de la fiabilit des horoscopes.


Nous considrons lensemble des quatre annes et retenons les tests o les signes ntaient pas connus, afin d'viter des biais ventuels. Nous avons un chantillon de 462 rponses, avec 38 concidences positives. Si ces concidences positives taient dues au hasard uniquement, cest--dire si chaque individu rpondait au hasard, il aurait une chance sur 12 de choisir lhoroscope correspondant son signe. Par le hasard seul, nous nous attendrions donc
462 12 = 38,5 CP

Or, nous avons 38 CP, ce qui est pratiquement gal au nombre attendu par laction du hasard. Cest trs mauvais signe pour la fiabilit des horoscopes ! Nous allons cependant utiliser nos connaissances en statistique pour analyser ces tests de manire plus quantitative.

A.BENHARI

71

(a) le nombre de concidences positives est compatible avec laction du hasard seul. Dans le cas dune rpartition au hasard, le nombre de CP doit tre, en moyenne, du nombre de rponses. La proportion de CP, p+ , vaut donc :
p+ = 1 12 = 0,083
1 1 2

avec un cart type


p+ (1 - p+) = += n 0,083 = 0,013 0,917 418

Lintervalle de confiance 95 % vaut donc : 0,083 0,026 ou encore : [0,057 ; 0,109] La valeur obtenue par ltude de notre chantillon vaut :
p+ = 38 = 0,082 462

Elle se trouve dans lintervalle de confiance pour une rpartition due au hasard. On peut donc conclure que la petite diffrence entre la valeur mesure et la valeur attendue est parfaitement compatible avec le hasard : cest ce quon appelle une fluctuation statistique. Exemple de fluctuation statistique. Si on lance une pice de monnaie, on sattend avoir, en moyenne, autant de pile que de face . Sur 100 lancers, on naura que rarement 50 pile et 50 face exactement. Les carts par rapport ce nombre moyen sont les fluctuations statistiques. ex : 47 pile et 53 face, 52 pile et 48 face, (b) Avec quelle confiance pouvons-nous conclure la non-fiabilit des horoscopes ? Nous devons tout dabord dfinir ce que nous entendons par fiabilit des horoscopes. Si lastrologie tait une science exacte, elle devrait tre capable de prdire avec certitude ce qui va nous arriver.
A.BENHARI 72

Toutefois, nous ne lui en demanderons pas tant. Nous dirons que les horoscopes sont fiables 50 % si les prdictions concernant notre signe sont celles qui correspondent le mieux ce qui nous arrive, dans au moins un cas sur deux. Dans ce cas, au moins la moiti des individus devraient reconnatre leur signe. Remarque : cette dfinition est trs peu contraignante pour lastrologie. En effet : nous ne lui demandons pas de prdire avec prcision ce qui va nous arriver, mais seulement que la prdiction concernant notre signe soit la plus proche de ce qui va nous arriver, parmi les 12 prdictions. nous ne demandons pas que cela se produise pour tous les individus, mais seulement pour la moiti dentre eux. Soit p+ la proportion des individus qui reconnaissent leur signe. Dans notre chantillon, nous avons :
p+ = 38 462 = 0,082

avec un cart type :


p+ (1 - p+) = += n 0,082 = 0,013 0,918 462

Pour que les horoscopes soient fiables 50 %, il faudrait, dans la population, une proportion p+ 0.5, donc un cart minimum avec notre valeur dchantillon :
0,082 = 0,418 + = 0,5

et donc :
Z0 = 0,418 + 32 ! = 0,013 +

Cette valeur est si grande quelle ne figure pas dans notre table de la loi normale. En fait, il ny a pas une chance sur des milliards de milliards pour que les horoscopes tests soient fiables 50 %. Notre chantillon nous permet dexclure cette hypothse avec une certitude quasi absolue. Les horoscopes pourraient-ils tre fiables 25 % ? Pourrait-il y avoir une chance sur 4 pour que la prdiction qui correspond le mieux un individu soit celle de son signe ?
A.BENHARI 73

Dans ce cas, au moins un quart des individus devraient reconnatre leur signe. Il faudrait donc p+ 0.25, et donc un cart
0,082 = 0,168 + = 0,25

et :
Z0 = 0,168 + 12,9 = 0,013 +

Cette valeur est, une fois de plus, en dehors de la table de la loi normale. Notre test nous permet dexclure avec une quasi certitude que les horoscopes tests soient fiables une fois sur 4. Tester une fiabilit plus faible na pas beaucoup de sens car : tre fiable moins dune fois sur 4, cest plutt tre non fiable. le hasard seul donne une fiabilit dune fois sur 12on risque videmment de trouver que les horoscopes sont fiables une fois sur 12 ! En rsum : Nous pouvons conclure que la fiabilit des horoscopes tests est nulle, puisque lon obtiendrait le mme rsultat en choisissant les signes au hasard. Si vous lisez les horoscopes, rien ne sert de connatre votre signe. Les prvisions des autres signes sappliquent tout aussi bien (ou plutt : tout aussi mal) vous !

6.4.2. La connaissance du signe a-t-elle influenc les rponses ?


Nous allons tcher de dterminer si les individus tests se sont laiss influencer par la connaissance de leur signe, lorsque celui-ci tait indiqu. Dans les tests avec signes connus, nous avons 61 concidences positives sur 354 rponses, soit une proportion:
pc = 61 354 = 0,172

avec un cart type:


c= 0,172 = 0,020 0,828 354

A.BENHARI

74

Avec les signes inconnus, nous avons 38 concidences positives sur 462 rponses, soit une proportion:
pi = 38 462 = 0,082

avec un cart type:


i= 0,082 = 0,013 0,918 462

On a donc une proportion plus grande de concidences positives lorsque les signes sont connus, ce qui laisse supposer que certains individus se sont laiss influencer par la connaissance de leur signe . Cette diffrence est-elle statistiquement significatives ? Avec quelle confiance pouvons-nous affirmer que cette diffrence ne peut pas tre due l'action du hasard (fluctuation statistique). Nous pouvons supposer que les deux chantillons sont indpendants car nous ne voyons pas comment la rponse un des test pourrait influencer la rponse l'autre. Nous avons une diffrence de proportion:
= pc 0,082 = 0,090 pi = 0,172

entre les CP avec signes connus et inconnus. L'cart type sur cette diffrence vaut:
= c + i = 0,0202 + 0,0132 = 0,024
2 2

Nous obtenons donc:


Z0 = 0,090 3,7 = 0,024

D'aprs la loi normale, la probabilit qu'un tel cart soit d au hasard est de 0,0001. Nous pouvons donc conclure avec 99,99 % de confiance que la connaissance du signe a effectivement influenc les rponses. Ce rsultat illustre l'importance de raliser les tests " l'aveugle", sans que les sujets tests puissent se laisser influencer par la connaissance d'informations de nature influencer le rsultat. Mme en essayant de ne pas tenir compte de ces informations, on risque fort de se laisser influencer.

A.BENHARI

75

Corrlation
7.1. Corrlation entre deux variables
Jusqu' prsent, nous nous sommes intresss des questions du type: quelle est la taille moyenne des garons belges gs d'une vingtaine d'annes ? quelle est la probabilit pour qu'un mdicament soit efficace ? quel pourcentage de voix un parti politique recueillera-t-il aux prochaines lections ? quelle fraction des barres mtalliques produites par une usine sera-t-elle rejete par le client ? le poids moyen des pains produits dans une boulangerie est-il suprieur 800 grammes ?

Dans toutes ces questions, nous tudions le comportement statistique d'une seule variable: taille, efficacit du mdicament, pourcentage de voix, longueur des barres, poids des pains. Il existe cependant toute une gamme de problmes statistiques o l'on s'intresse la relation entre plusieurs variables. Exemples: les individus les plus grands sont-ils les plus lourds ? le revenu d'une famille a-t-il une influence sur les rsultats scolaires des enfants ? y a-t-il une relation entre le tabagisme et les cancers du poumon ? le rendement en crales dpend-il de la quantit d'engrais utilise ? la productivit d'une entreprise est-elle lie au salaire des ouvriers ou employs ?

Dans ces questions, nous dsirons savoir si le comportement d'une variable est influenc par la valeur d'une autre variable: taille tabagisme poids cancer revenu rendement rsultats engrais

La relation peut tre causale ou non Pour tudier les relations ou corrlations entre deux variables statistiques, on peut les porter sur un graphique. Exemple: relation entre la taille et le poids des individus
A.BENHARI 76

pour chaque individu de l'chantillon, on porte sur un graphique:


sa taille en abscisse (l'abscisse d'un point correspond sa projection sur l'axe horizontal) son poids en ordonne (l'ordonne d'un point correspond sa projection sur l'axe vertical)

chaque individu est donc, dans ce graphique, reprsent par un point (point reprsentatif) soit un individu mesurant 172 cm et pesant 66 kg: 70 p 66 o i d 60 s (kg) 50 150

point reprsentatif

160

170 taille (cm)

172

180

Dans le graphe, il y aura donc autant de points qu'il y a d'individus dans l'chantillon. p o 80 i d 70 s (kg) 60 50 150

. . . . . .. . . . . . . .. . . . . . . .. . . . . .
160

170 180 190 200 taille (cm) Relation entre le poids et la taille dans un chantillon de 30 individus. On peut (par la pense ou rellement) tracer une droite qui passe au mieux par ces points (au milieu du "nuage" de points).

A.BENHARI

77

Si cette droite "monte", on dira qu'il y a corrlation positive entre les deux variables. Si elle "descend", c'est une corrlation ngative. Si elle est "horizontale", ou si on ne peut pas dcider, c'est qu'il y a absence de corrlation. Corrlation positive: y

. . . . . .. . . . . . . .. . . . . . . .. . . . . .
Corrlation ngative: y

. .. . . . . .. .. . . . . . . . . . .. . . . . . . .

.
x

Absence de corrlation: y y

. .. . . . . .. . .

. .. . . . . . . . . . .. .
x

. .. . . . . . .. .. . . . . .. . . . . . . . . .
x
78

A.BENHARI

La qualit de la corrlation entre deux variables peut se mesure par la dispersion des points autour de la relation moyenne. Corrlation parfaite: y

.
Bonne corrlation (corrlation forte): y

. .

..

. .

. .

.. .

. .. .

x Mauvaise corrlation (corrlation faible): y

. . .

. .

. . .

. .

A.BENHARI

79

Exemple: 1. Corrlation entre le poids et la taille pour les garons de 2me candidature communication (1998).

100 p o 80 i d s (kg) 60

.. . . . .. .. .. . . .. . . . . .. .. . . . .. . . .. . .
160 180 taille (cm) 200

40 140

On constate une augmentation du poids avec la taille (corrlation positive): les garons les plus grands sont gnralement les plus lourds. Mais la dispersion des points est assez grande: la corrlation est assez faible. 2. Corrlation entre le poids et la taille pour les filles de 2me candi. commu.

p o 80 i d s (kg) 60

40 140

. . . .... . . . . . .. ..... . . . .. .. .. . . .... . . ..... .. . . .. .


160 180 taille (cm) 200

On ne constate pas de relation entre le poids et la taille (absence de corrlation): le poids des filles est indpendant de leur taille.
A.BENHARI 80

(Les filles les plus grandes sont donc les plus minces)

7.2. Mthode des moindres carrs


Si on se contente de tracer main leve la droite qui "passe au mieux" par les points reprsentatifs, diffrentes personnes vont obtenir des rsultats diffrents. Il existe une mthode mathmatique pour dterminer la "meilleure" droite: c'est la mthode des moindres carrs. Elle consiste, dans sa version la plus simple, trouver la droite qui minimise les carrs des carts des points reprsentatifs cette droite. Y d5 d3 d1 d2 d4

X Trouver la droite telle que la somme des carrs des carts d1, d2, soit minimale:

d 2
Soit

=m inim um

Y = aX + b

l'quation de la droite cherche (droite de rgression) Les coefficients a et b peuvent tre calculs partir des formules suivantes: Pente:
a=

(X

X . Y1 Y + X 2 X . Y2 Y + + X n X . Yn Y
2 2 2 1 2 n

)(

) ( )( ) ( )( ( X X ) + ( X X ) + + ( X X )
a=

ou:

( X X ).( Y Y ) ( X X ) 2

A.BENHARI

81

Ordonne l'origine:
b =Y a. X

Rappels:
1 X n 1 Y = Y n X =

7.3. Coefficient de corrlation


Le signe de la pente a donne le sens de corrlation, mais pas sa qualit. a > 0 corrlation positive a < 0 corrlation ngative a = 0 pas de corrlation La qualit de la corrlation peut tre mesure par un coefficient de corrlation r
r=

( X X ).( Y Y ) 2 ( X X ) (Y Y ) 2

Le coefficient de corrlation est compris entre et +1. 1 Plus il s'loigne de zro, meilleure est la corrlation r = +1corrlation positive parfaite r = corrlation ngative parfaite 1 r = 0 absence totale de corrlation

A.BENHARI

82

Quelques exemples de corrlation (le coefficient de corrlation r est indiqu dans chaque cas)

A.BENHARI

83

Exemples: 1. Supposons un chantillon alatoire de 4 firmes pharmaceutiques prsentant les dpenses de recherche X et les profits Y suivants (en milliers de dollars): X 40 40 30 50 Y 50 60 40 50

Trouvez la droite de rgression et le coefficient de corrlation. Calculons tout d'abord X et Y:


X = 1 1 160 X = 4 ( 40 + 40 + 30 + 50 ) = 4 = 40 n 1 1 200 Y = Y = ( 50 + 60 + 40 + 50 ) = = 50 n 4 4

Compltons le tableau suivant:

X
40 40 30 50 On a donc:

Y
50 60 40 50

X X

Y Y

0 0 10 +10

0 +10 10 0
2

(X

0 0 +100 +100

X)

(Y Y )2
0 +100 +100 0

(X

X ) .(Y Y )

0 0 +100 0

( X X ) =200 2 ( Y Y ) =200 ( . X X )(Y Y ) =100


. ( X X )(Y Y ) = 100 2 200 ( X X )

Les coefficients de la droite de rgression sont:


a= = 0,5

b =Y a. X = 50 0,5 40 = 50 20 = 30

Et le coefficient de corrlation:
r=

( X

( X
X

X . Y Y

)(

(Y Y )

100 200 200

100 = 0,5 200

A.BENHARI

84

La corrlation est positive et de qualit moyenne Y 60 50 40 30 40 50 60 X

2. La corrlation entre la taille (X) et le poids (Y) pour les garons de 2me candi. commu. donne les rsultats suivants: (a) (b) droite de rgression Y = aX + b a = 0,816 b = -77,0 coefficient de corrlation r = 0,61

la corrlation est donc positive, de qualit moyenne 3. De la mme manire, pour les filles, on obtient: (a) (b) droite de rgression a = 0,239 b = 16,6 coefficient de corrlation r = 0,20

la corrlation est positive (les filles les plus grandes tendent tre les plus lourdes), mais de trs mauvaise qualit (r proche de zro).

A.BENHARI

85

Remarques: 1. Le coefficient de corrlation nous donne des informations sur l'existence d'une relation linaire (sous forme d'une droite) entre les deux grandeurs considres. Un coefficient de corrlation nul ne signifie pas l'absence de toute relation entre les deux grandeurs. Il peut exister une relation non linaire entre elles. (cf. exemple (f) ci-dessus: la connaissance de X nous donne des informations sur la valeur de Y). 2. Il ne faut pas confondre corrlation et relation causale. Une bonne corrlation entre deux grandeurs peut rvler une relation de cause effet entre elles, mais pas ncessairement. Exemples: 1. Si on compare la dure de vie des individus la quantit de mdicaments pour le cur qu'ils ont absorbe, on observera probablement une corrlation ngative. Il serait imprudent de conclure que la prise de mdicaments pour le cur abrge la vie des individus (en fait, dans ce cas, la corrlation est l'indice d'une cause commune: la maladie de cur). 2. Le soleil tire son nergie de ractions nuclaires transformant l'hydrogne en hlium. Notre socit tire une bonne part de son nergie de la combustion du ptrole. Si on compare, anne aprs anne, la quantit d'hlium contenue dans le soleil au prix moyen du ptrole, on obtiendra une bonne corrlation positive, sans qu'il y ait la moindre relation de cause effet, ni aucune cause commune.
3.

Depuis une dizaine d'annes, la taille de mon fils , n en 1986, est trs bien corrle avec la puissance de calcul des ordinateurs personnels. Cette excellente corrlation ne rvle bien videmment aucune relation de cause effet, ni cause commune.

L'existence d'une corrlation, aussi bonne soit elle, n'est jamais la preuve d'une relation de cause effet.

A.BENHARI

86

Bibliographies
[1] ABELL Martha L., James P. BRASELTON & John A. RAFTER (1998) Statistics with mathematica,, Academic Press. [2] CALOT, Grard (1969) Cours de statistiques descriptive, Dunod [3] HOWELL, David (1998) Mthodes statistiques en sciences humaines, De Boeck. [4] MONINO, Jean-Louis, Jean-Michel KOSIANSKI et Franois LE CORNU (2004) Statistique descriptive : Travaux dirigs, Dunod. [5] MOORE, David, S. et George P. McCABE (2002) Introduction to the practice of statistics , 4me dition, W.H. Freeman & Company.

A.BENHARI

87