Vous êtes sur la page 1sur 290

STATISTIQUE DESCRIPTIVE ET INFRENTIELLE AVEC EXCEL

Approche par lexemple

Didact Statistique
Une collection dirige par Gildas Brossier Lanalyse des donnes. Mode demploi, Thierry FOUCART, 1997, 200 p. Initiation aux traitements statistiques. Mthodes, mthodologie, Brigitte ESCOFFIER et Jrme PAGS, 1997, 264 p. Statistique infrentielle. Ides, dmarches, exemples, Jean-Jacques DAUDIN, Stphane ROBIN et Colette VUILLET, 1999, 185 p. Analyse interactive des donnes (ACP, AFP) avec Excel 2000, Jean-Pierre GEORGIN, 2002, 188 p. Analyser les sries chronologiques avec S-Plus : une approche paramtrique, Laurent FERRARA, Dominique GUGUAN, 2002, 160 p.

Argentine VIDAL

STATISTIQUE DESCRIPTIVE ET INFRENTIELLE AVEC EXCEL

Approche par l'exemple

Collection Didact Statistique


PRESSES UNIVERSITAIRES DE RENNES

2,004

1.

INTRODUCTION

Aujourd'hui, grce la facilit d'utilisation de l'informatique, sa dmocratisation, au dveloppement d'Internet, nous sommes confronts un impressionnant volume d'information quantifie, chiffre. Cela couvre pratiquement tous les domaines : social, politique, biologie, sant, scurit... On remarque la multiplicit d'enqutes entreprises dans le but d'approcher au mieux la ralit. Internet permet notamment de raliser des enqutes grande chelle. On dispose maintenant de grandes bases de donnes. Ensuite apparat l'exploitation de cette information et l intervient la statistique applique, objet de notre ouvrage. La premire tape consiste classer les donnes, les dcrire, "les faire parler". C'est l'objet de la statistique descriptive. Les donnes sont rsumes l'aide de paramtres, synthtises au moyen de tableaux et de graphiques. Dans cette tape, on se limite l'espace de ses donnes. On peut dcrire une population. Indpendamment, on peut dcrire un chantillon. Mais on ne fait aucune relation "chantillon, population". L'tude peut n'tre que descriptive, soit parce que c'est la seule possible, soit par choix personnel (pour diverses raisons, on considre qu'elle est suffisante). Ce type d'tudes est d'ailleurs trs frquent ; il suffit de penser aux nombreux rsultats d'enqutes publies dans les mdias. Frquemment, il est ncessaire de replacer ses donnes dans un environnement "population, chantillon" : c'est la statistique infrentielle. Soit on connat bien la population dans un "bon tat" et le prlvement priodique d'un chantillon permet de vrifier prcisment le "bon tat" de la population, soit on ne connat pas une population et on l'approche partir d'chantillons. C'est ici qu'intervient la prise de conscience de l'existence de risques, parfois difficiles valuer. Cet ouvrage, plus destin aux utilisateurs professionnels qu'aux chercheurs, vise fournir les principaux outils de la statistique descriptive et surtout de la statistique infrentielle. Aprs que l'utilisateur ait bien dfini son objectif, il s'agit de lui indiquer comment aborder son problme, comment fiabiliser ses rsultats, et quels risques sont attachs ses conclusions. L'objectif est de fournir les premiers outils indispensables, souples et mallables. Notre ambition est d'apprendre l'utilisateur "apprivoiser les donnes". Par exemple, les variables se prtent divers recodages, donc diverses "dformations". De prime abord, cette diversit peut inquiter, car spontanment, chacun aspire une rponse binaire certaine : oui ou non. La realit est cependant beaucoup plus complexe, la diversit des "dformations" est une richesse. Les divers recodages possibles fournissent un outil souple permettant de s'adapter plus facilement l'originalit de son cas, un outil favorisant les initiatives. L'utilisateur "apprivoise" ses donnes. L'outil de calcul propos est Excel, logiciel prsent un peu partout, particulirement convivial, et, de plus, pourvu de nombreuses fonctions statistiques et mathmatiques. Il permet de tester en direct la stabilit des rsultats : on peut modifier ou carter une ou plusieurs valeurs, et visualiser instantanment les consquences. C'est aussi un outil de simulation particulirement intressant. Excel permet de "piloter" ses donnes, d'adapter ses calculs, ses feuilles ses besoins. C'est dans un esprit de communication "vivante" avec ses propres donnes que nous faisons le choix de privilgier l'utilisation des fonctions Excel plutt que celle de l'utilitaire d'analyse (complment statistique des macros complmentaires). Ce choix favorise l'initiative

et la cration approprie son propre type de problme ainsi que la rutilisation des procdures de calcul. Il permet galement de profiter pleinement de la convivialit de ces fonctions. Il est vrai que l'utilitaire d'analyse fournit rapidement de nombreux rsultats numriques ce qui peut tre prcieux dans certains cas. Cependant, ses rsultats sont figs. De plus, quelques maladresses de traduction entranent parfois des erreurs d'interprtation. Nous dcrirons nanmoins les rsultats fournis par l'utilitaire mais nous les prsenterons de faon presque systmatique comme une "dernire mthode". A l'inverse, aucune macro n'est prsente dans cet ouvrage. Nous considrons que l'intrt n'est pas de crer un logiciel de statistique, le march en offre dj suffisamment. Nous invitons les lecteurs peu familiers des calculs scientifiques avec Excel consulter l'annexe qui recense les principales fonctionnalits utilises dans cet ouvrage. Nous indiquons par exemple le systme de rfrences adopt et la diffrence entre rfrences absolues et rfrences relatives. Nous rappelons comment on utilise la poigne de recopie, les fonctions et leurs botes de dialogue et comment on introduit une fonction matricielle. Nous donnons galement quelques notions sur les tableaux croiss dynamiques. En ce qui concerne les tests statistiques, pour guider les praticiens vers le test le plus appropri au problme qui leur est soumis, nous proposons un tableau rcapitulatif des tests associs aux exemples tudis dans cet ouvrage. Principalement destin aux utilisateurs, l'ouvrage est conu pour faciliter la pratique statistique. Chaque technique statistique est introduite partir d'un exemple. Ensuite, sont exposs l'outil thorique et la dmarche statistique. Ces concepts sont suivis des calculs raliss au moyen d'Excel. Gnralement, plusieurs rsolutions sont proposes : une premire solution de type "manuel", destine comprendre l'outil, suivie de solutions plus rapides. Ce choix, vise pdagogique, permet l'utilisateur de matriser la mthode statistique sousjacente. Les exemples sont divers : tudes techniques, problmes commerciaux, tudes d'images et d'valuation, etc... La plupart des exemples et tudes de cas sont inspires d'tudes relles proposes par divers organismes (Chambres d'Agriculture, laboratoires d'analyse physicochimiques, INRA, laboratoires d'analyses sensorielles, banques, socits agro-alimentaires, PME, etc...). Pour des raisons videntes de confidentialit, l'intgralit des donnes, les donnes prcises, les noms des socits, des produits,... n'ont pu tre indiqus. Cet ouvrage est destin aux professionnels (ingnieurs et techniciens en agriculture et agro-alimentaire, responsables marketing et tudes de march, ...), aux tudiants en agriculture et agronomie (coles d'Ingnieurs et BTS), aux tudiants en Commerce (coles Suprieures et BTS) et aussi mes collgues professeurs de statistique et autres matires.

10

Premire Partie STATISTIQUE DESCRIPTIVE

2.
2.1.

STATISTIQUE DESCRIPTIVE UNIVARIEE

INTRODUCTION

Dans toute tude concrte, ds que la collecte des donnes est termine, on en organise la saisie : d'abord mise en ordre de l'information, classement par thme puis par type de variable. L'exploitation des rsultats dbute gnralement par la description de chacune des variables, considre isolment. On ralise une "photo" de chacune des variables. C'est ce que l'on appelle "Analyse statistique descriptive univarie (ou unidimensionnelle)". On distingue diffrents types de variables. Les variables qualitatives comme par exemple le sexe, les questions rponse "oui" ou "non", mais aussi la rgion gographique, la varit ou la race (levage), professions, etc. Les variables quantitatives, parmi lesquelles on peut encore distinguer : - les variables discrtes (nombre d'enfants par foyer, nombre de grappes de raisin par souche, etc.) Entre deux valeurs successives, aucune autre valeur n'est possible. L'ensemble des valeurs prises par de telles variables alatoires est dnombrable. - les variables continues comme la taille, le poids, la teneur en sucre d'un fruit et, de faon gnrale, toutes les variables mesurables l'aide d'un instrument. Entre deux valeurs successives, il peut exister une infinit de valeurs. L'ensemble des valeurs prises par de telles variables est une partie de R. Remarque : entre ces diffrentes familles de variables, les frontires sont rarement infranchissables. Par exemple, les variables quantitatives continues, de type mesure, pourront tre considres comme discrtes si l'on prend en compte la prcision de l'instrument de mesure. Les variables discrtes prenant un trs grand nombre de valeurs pourront tre traites comme les variables continues. Toutes les variables quantitatives pourront tre dcoupes en classes et ainsi transformes en variables qualitatives (comme par exemple les "tranches" d'imposition). Les variables qualitatives ordinales comme le niveau d'apprciation d'un produit ("pas apprci", "peu apprci", "apprci", "trs apprci") peuvent tre codes selon une note exprimant le gradient et, par suite, traites statistiquement comme des variables quantitatives. EXEMPLE Crises alimentaires Nombre de grappes de raisins par souche Poids de 100 baies de raisin
Tableau 2.1

TYPE DE VARIABLE qualitative

quantitative discrte quantitative continue

GRAPHIQUES Diagrammes Distributions des frquences secteurs, en btons, absolues et relatives barres - Paramtres statistiques - Distributions de Diagrammes en frquences absolues et btons relatives Paramtres statistiques spcifiques (covariance, corrlation) Histogrammes

OUTILS RESUME TABLEAUX

Outils de statistique descriptive univarie selon le type de variable.

Dans ce chapitre, les principaux lments de statistique descriptive univarie sont introduits partir d'exemples concrets. La description d'une variable quantitative est illustre par la variable "catgorie socioprofessionnelle" prsente dans une enqute sur les crises alimentaires. Celle des variables quantitatives discrte et continue est illustre respectivement par les variables "nombre de grappes de raisin par souche" et "poids de 100 baies" observes dans une mme tude de terrain. Les principaux outils statistiques choisis pour dcrire ces trois types de variables sont synthtiss dans le tableau rcapitulatif 2.1. 2.2. VARIABLE QUALITATIVE

Exemple : les crises alimentaires 2.2.1. Prsentation des donnes et position du problme En 2002, l'auteur a propos aux tudiants de l'cole Suprieure d'Agriculture de Purpan (ESAP) de raliser une enqute de thme "Les crises alimentaires". Un premier objectif consiste valuer l'intrt, le niveau de culture et le degr de sensibilisation des tudiants pour de tels problmes d'actualit (ESB, OGM, dioxine, listeria, etc...). Un deuxime objectif, corollaire du prcdent, est d'en dduire, pour l'quipe enseignante, une stratgie d'amlioration et de progrs tant au niveau de la formation que de l'ducation. Dans cet exemple, nous n'aborderons que deux questions trs simples permettant d'illustrer la description statistique de variables qualitatives. Pour approfondir le dpouillement de l'enqute et voir si les rponses aux questions importantes de cette enqute pouvaient tre lies l'origine sociale de la famille, il a t demand d'indiquer la profession des parents (chef de famille). Aprs avoir parcouru les fiches des participants, ce caractre intituls CSP (catgorie socio-professionnelle) a t recod selon 6 modalits ou classes suivantes : - Ouvrier - Employ - Agriculteur - Professions intermdiaires - Chef d'entreprise - Retrait. 278 tudiants ont repondu l'enqute et on a obtenu les rsultats indiqus sur le tableau 2.2 suivant.
CSP OUVRIER 3 EMPLOYE 17 AGRICULTEUR 86 PROFESSION INTERMEDIAIRE 156 CHEF D'ENTREPRISE 10 RETRAITE 6

effectifs

Tableau 2.2

Effectifs selon les CSP

Dans cet exemple, nous nous intresserons une autre question pose aux tudiants qui, rappelons-le, deviendront, pour une bonne partie d'entre eux, ingnieurs dans des secteurs agricoles, agro-alimentaires, etc. Quel doit tre, selon eux, le degr de responsabilit des gouvernements face de telles questions de salubrit publique ? La rponse possible a t propose sous la forme d'une chelle croissante de 1 (trs peu important) 5 (trs important, fondamental). Le tableau 2.3 indique les rsultats obtenus.

14

Opinion Effectifs

trs peu important (1) 5

peu important important important (2) (3) (4) 67 104 23 Tableau 2.3 Effectifs selon l'opinion.

trs important (5) 79

Question : raliser une analyse descriptive de chacune de ces variables. 2.2.2. Outils statistiques et notations 2.2.2.1. Variable qualitative nominale Notations Le critre CSP dfinit une variable qualitative X k modalits (ou classes) x1, x2,..., Xk ; dans notre exemple : x1 = ouvrier, x2 = employ, X3 = agriculteur, X4 = professions intermdiaires, x5 = chef d'entreprise et x6 = retrait. L'ordre et le codage des modalits n'ont aucune importance. La variable qualitative X est dite nominale. Outil statistique Pour dcrire statistiquement une variable qualitative, on utilise les outils lmentaires de distributions de frquence absolues (effectifs) et relatives visualises par des graphiques lmentaires de son choix (diagrammes en btons, en barres, en secteurs, etc...).
Effectifs
X1 X2

Frquences absolues n1 n2 nk

Frquences relatives n1/n n2/n nk/n

avec n = n1 + n2 + ... + nk

Xk

Remarque

: tout le monde connat ce type de description de variables qualitatives, la plupart des mdias utilisant ce mode de communication d'informations, clair et convivial. Variable qualitative ordinale

2.2.2.2.

Notations Le critre tudi est l'opinion relative l'importance de la responsabilit que doivent assumer les gouvernements face aux questions de scurit alimentaire. Ce critre dfinit une variable qualitative Y p modalits ou classes : y1, y2, ..., yp. Dans notre exemple p est gal 5, les modalits proposes tant y1 = trs peu important, y2 = peu important, y3 = assez important, y4 = important et y5 = trs important. Cette fois, les modalits sont ordonnes selon un gradient (ici, gradient d'importance croissante). La variable qualitative Y est dite ordinale (ou encore de type "chelle"). Les distributions de frquence, identiques celles prsentes pour une variable qualitative nominale, constituent l'outil statistique. Il est important de remarquer la nuance entre les deux types de variables nominales et ordinales. La prsence d'un gradient dans la variable qualitative ordinale permet d'enrichir les exploitations statistiques des cas concrets en assimilant la variable selon les cas une variable quantitative de type note ou rang ou mesure. La description statistique d'une variable quantitative est prsente dans le paragraphe suivant.

15

2.2.3. Mise en uvre sur Excel et rsultats 2.2.3.1. Variable CSP des parents (X) Le tableau 2.4 montre les distributions de frquences absolues et relatives.
CSP OUVRIER EMPLOYE AGRICULTEUR PROFESSION INTERMEDIAIRE CHEF D'ENTREPRISE RETRAITE FREQUENCES ABSOLUES 3 FREQUENCES RELATIVES 1% 6% 31%

17 86 156 10 6 278

56% 4% 2% 100%

TOTAUX

Les frquences absolues sont les effectifs observs pour chaque modalit. Les frquences relatives sont les effectifs observs pour chaque modalit diviss par l'effectif total (278) exprimes ici en pourcentage

Tableau 2.4 Frquences absolues et relatives de la variable CSP.

Remarque : lorsque l'enqute a t saisie dans Excel sous la forme d'une base de Numro de Profession Chef de donnes du type ci-contre, la distribution des l'enqut famille effectifs peut tre obtenue au moyen d'un 1 Employ 2 Agriculteur tableau crois Excel (guidage par assistant) 3 Employ ou l'aide de la fonction NB.SI qui permet de calculer le nombre d'occurrences d'une valeur donne (texte ou nombre) dans une plage de cellules. Dans cette bote, la plage dsigne la colonne grise du tableau ci-dessus. Le critre est la valeur de la CSP que l'on dsire compter, ici "ouvrier" : on trouve 3. Cela qui signifie que trois enqutes parmi les 278 sont issus d'un milieu ouvrier. Il suffit de tirer vers le bas la poigne de recopie pour obtenir les autres valeurs 17, 86, etc...
(faae te
~3;-;.aHtrS'retralfj '"^'...-'i.wlBr-:^'^'''^':

'.' Critre : ; est'ia c^ntftwh, KEySl'Os farffi^'d'Trant^d'eitression ou tfe :.',l\-.!!,:!:tfiteqi^'ye*rBHh6*'^n^es'eltA'!S seront eontie$.^::', ;^ ':,:'-'

Reprsentations graphiques Diagrammes en btons et en barres - slectionner la colonne des intituls de CSP et celle des frquences relatives - appeler l'assistant graphique - choisir un histogramme group - choisir les options "esthtiques" voulues. On obtient les diagrammes reprsents sur les Figures 2.1 et 2.2.

16

Distribution des frquences relatives


50%

10% 0%

(... , a , H
!

S
0

?
^

S
i" o
0;

4
UJ Z 0:

H LU

LU

M
LU &

0<
11

% 5 <fl ni 1 1 1 -
0 u-

X (E

v> <

[" "-z

01z UJ o

Ul

n:

CSP

Figure 2.1 Diagramme en btons de la variable CSP.

Figure 2.2 Diagramme en barres de la variable CSP.

distribution des frquences relatives

BOUVRIER B EMPLOYE OAGRICULTEUR BPROFESSION INTERMEDIAIRE CHEF D'ENTREPRISE Q RETRAITE

Figure 2.3 Diagramme en secteurs de la variable CSP.

17

Diagramme en secteurs Le logiciel se souciant souvent peu d'esthtique, ce type de diagramme souvent appel "camembert" par les amateurs est quelquefois trs alourdi par les couleurs et les mentions de valeurs. Cela les rend illisibles ds que le nombre de modalits devient trop imponant ou que l'importance de certaines d'entre elles est faible comme l'illustre la Figure 2.3. Commentaires II nous parat superflu de commenter longuement des tableaux et graphiques trs expressifs par nature. Remarquons seulement que deux origines sociales se dmarquent. La CSP "professions intermdiaires" (56%) rassemble plusieurs professions. Cela peut expliquer ce fort pourcentage En ce qui concerne la CSP "agriculteurs" (31%), il n'est pas tonnant de trouver ce rsultat dans l'chantillon enqut puisqu'une forte proportion d'tudiants est issue de ce milieu. 2.2.3.2. Variable "opinion sur l'importance souhaite des responsabilits gouvernementales" (Y) L'analyse descriptive est ralise de manire identique la prcdente. Remarque : rappelons que les classes (ou modalits) tant ordonnes selon un gradient de codage de 1 (trs peu important) 5 (trs important), la variable qualitative peut tre assimile une variable quantitative du type "note sur 5". D'autres analyses statistiques tudies dans la suite peuvent alors enrichir l'exploitation des rsultats. Rsultats Le tableau des frquences absolues et relatives se prsente sous la forme suivante :
Opinion trs peu important peu important assez important important trs important, fondamental TOTAUX Frquences Frquences absolues relatives 5 2% 23 8% 67 24% 104 37% 79 29% 278 100%

1. 2. 3. 45.

Tableau 2.5 Frquences absolues et relatives de l'opinion. Les figures 2.4 et 2.5 reprsentent deux types de graphiques correspondant.

Figure 2.4 Diagramme en btons de l'opinion.

18

11 convient de noter que cette prsentation en 3D peut fausser par distorsion visuelle la lecture de ce type de graphique. L'paisseur des secteurs offre un attrait esthtique mais dangereux !
Figure 2.5

0 S Q

-1 - trs peu important -2- peu important -3- assez important -4- important

-5- trs important , fondamental

Diagramme en secteurs de l'opinion.

Ces reprsentation se passent de commentaires dtaills. Notons simplement que prs de 66% des enquts pensent que les gouvernements doivent prendre une part importante, voire trs importante l'examen des problmes de scurit alimentaire. L'importance de ce score peut d'autant plus se comprendre si l'on indique au lecteur que, lors d'une question prcdente, il tait demand aux enquts s'ils pensaient que les gouvernements avaient une part de responsabilit dans les crises alimentaires passes. Le dpouillement avait montr que prs de 80% des interrogs en taient convaincus. 2.3. VARIABLE QUANTITATIVE DISCRETE

Exemple : nombre de grappes de raisin par souche 2.3.1. Prsentation des donnes et position du problme Lors d'une tude de qualit d'un vin du Sud-Ouest, on est conduit examiner la productivit de la vigne ; dans un premier temps, on s'intresse au nombre de grappes par souche. 120 souches ont t tires au hasard dans des parcelles semblables et on a compt le nombre de grappes portes par chacune d'elles. On observe les rsultats suivants :
15 12 20 13 17 16 15 12 20 14 19 15
13 14 16 13 19 14 15 12 16 13 15 17 13 17 13 19 12 12 16 15 16 18 12 12 16 15 19 17 14 19 16 17 19 12 14 19 13 17 12 13 18 12 12 16 17 14 18 15 15 17 17 15 13 13 13 17 12 15 13 14 13 18 12 14 19 13 14 19 15 14 19 18 14 19 16 16 18 18 15 12 17 14 18 19 15 12 17 12 12 17 16 13 16 13 12 17 17 15 17

15 19 20 20 14 14

12
16 17

Tableau 2.6 Nombre de grappes par souche (NGS). Question : raliser une analyse statistique descriptive des donnes observes. 2.3.2. Approche statistique et notations Nous distinguerons deux familles d'outils de statistique descriptive appropries cet exemple : - les distributions de frquences, tableaux et graphiques - les paramtres statistiques. On note n le nombre d'observations et X la variable statistique "nombre de grappes par souche". X ne prend que des valeurs entires. Entre deux valeurs distinctes successives aucune valeur n'est possible. Par consquent, X est une variable quantitative discrte.

19

2.3.3. Distribution des frquences : tableaux et graphiques (diagrammes en btons) 2.3.3.1. Dfinition des outils statistiques Un tri des donnes permet de dgager l'ensemble des valeurs . La frquence absolue est le nombre de fois ni (effectif) qu'une valeur x, de X est observe Valeurs xi Effectif ni
X1 X2 Xi Xk

n1 + n2 + ... + ni + ... + nk = n

n1

n2

ni

nk
X1 < X2 < ... < Xk.

La srie x1, x2, . .est

crite au sens strict

La frquence relative associe xi est . La frquence cumule associe xi est Y. n .-' n


Xi X1 X2

Frquences absolues n1 n2 nk

Frquences relatives n1 / n n2/n nk/n

Frquences cumules n1 / n (n1 + n2) / n 1

Xk

Les reprsentations graphiques des frquences absolues se font gnralement au travers de diagrammes en btons. Les frquences cumules sont visualises au moyen d'une courbe polygonale. 2.3.3.2. Mise en uvre au moyen des fonctions Excel et interprtation des rsultats Afin de simplifier l'expos, on nomme NGS la plage des valeurs observes saisies sur une colonne de 120 lignes. Aprs avoir ralis un tri de ces valeurs, on saisit la matrice des k valeurs distinctes prises par X. On observe toutes les valeurs distinctes de 12 20, soit 9 valeurs. Cette plage des valeurs de xi sera dite "matrice des classes". On la nomme x, .
Xi

NGS 15 15 13 16 17

12 13
14

15 16 17 18 19 20 Totaux

Frquences absolues 19 16 14 16 13 17 8 13 4 120

Frquences relatives 16% 13% 12% 13% 11% 14% 7% 11% 3% 100%

Frquences cumules 16% 29% 41% 54% 65% 79% 86% 97% 100%

Tableau 2.7 Frquences absolues, relatives et cumules de NGS

20

La distribution des frquences absolues est obtenue au moyen de la fonction FREQUENCE. Les distributions des frquences relatives et cumules sont calcules l'aide du clavier Pour calculer les frquences absolues, il faut - slectionner la plage d'accueil des rsultats (2e colonne ci-dessus, de mme dimension que celle des classes en 1re colonne) - appeler la fonction FREQUENCE et renseigner la bote de dialogue ci-dessous
Tabteau_donnes |NGS MatriceJnterealB, p 3 ~ 115;lSt3;15;15;13 "3- {12;13;M;15;t6;17

.:; .. ^''.^'"..Y:"./^ ''''..l. :-:'-: :.- :-.-'s:-- " . >1 ''--,.,

- -,li9jli;Mii6.!i3iW;8;i:-

Cateufe ia frquence faqudte tes vateurs apparaissent dans une ptag de vateurs, puis renvoie une : \ i^ice^KaledehcNyes^antunlnrtdepfusquerargtfrentrhatriCTJntBrya^ ' . Mah'ice.JntrvaBes estune matrice ou une rfrence correspondant SKK intervalles ; .'!" '": . . ? : " , permettant de groier les valeurs de l'argument tabteaUJdonnes.

: ne pas cliquer OK ! La fonction FREQUENCE tant une fonction matricielle, la validation de la bote de dialogue se fait par appui simultan des trois touches Ctrl + MAJ + Entre (cf. Guide Excel en annexe). A l'aide de la fonction "SOMME" (ou par double-clic sur le bouton |[] s'il est install dans une barre d'outils), on calcule les totaux et l'on vrifie que n est bien gal 120. En ce qui concerne les frquences relatives, la procdure est la suivante : - dterminer la premire valeur partir des donnes prcdemment calcules (frquences absolues et total) : 19 (rf. relative) / 20 (rf. absolue). On adopte le format de son choix (par exemple en %) - tirer vers le bas la poigne de recopie jusqu' la dernire classe. On vrifiera que le total est bien gal 1 ou 100% selon le format adopt. Enfin, on dterminera les frquences cumules de la faon suivante : - pour la 1re valeur, recopier la 1re frquence relative - la 2e valeur est la somme (en rfrences relatives) de la 1re frquence cumule et de la 2e frquence relative. En tirant vers le bas la poigne de recopie jusqu' la dernire classe, on obtient les autres valeurs. On vrifie que la dernire est gale 1 ou 100% selon le format adopt. Reprsentations graphiques Diagramme en btons de la distribution des frquences absolues - appeler l'assistant graphique - choisir l'onglet "Types standard" et le type "Histogramme" - cliquer "Suivant" pour obtenir la bote de dialogue "Donnes source... " - dans l'onglet "Plage de donnes", slectionner la plage des Frquences absolues (titre compris) ; en dessous, le type de srie ("en colonnes") est automatiquement valid. Dans l'onglet "Srie", la fentre "Srie" est renseigne "Frquence absolue" ; les zones "Nom" et "Valeurs" portent les adresses du nom et de la plage de valeurs correspondantes. Dans la zone "Etiquettes des abscisses (X), il convient de saisir (en la slectionnant) la plage des valeurs des classes (les xi, de 12 20)

At ention

21

- cliquer sur "Suivant" pour obtenir la bote des options du graphique dans laquelle les diffrents onglets permettent de choisir les options souhaites (titre du graphique par exemple). Le diagramme en btons que l'on a vu s'laborer au fur et mesure dans les botes de dialogue s'affiche (sur la mme feuille ou sur une feuille part selon l'option choisie). Bien entendu, le graphique obtenu peut toujours tre repris pour en modifier certaines options et ... l'embellir ! On peut obtenir un graphique ressemblant celui de la Figure 2.6.
Frquence absolue

15

16

17

nbgrappesfeouche

Figure 2.6

Diagramme en btons de NGS (frquences absolues).

A premire vue, la distribution tudie ne prsente aucune structure remarquable. Diagramme en btons de la distribution des frquences relatives La procdure d'laboration de ce diagramme est identique la prcdente sauf que la "plage des donnes" slectionner est bien entendu celle des frquences relatives
Frquence relative 16% 12% 10% 8% 6% 4%
i 1 .. . -. -.. -.-.-.- , ,.,.

-..-

.
.-.. -

r
12 13 14 15 16 17 18 NB G R A P P E S / S O U C H E

'

" -|19 20

'

Figure 2.7

Diagramme en btons de NGS (frquences relatives).

Les ordonnes tant proportionnelles, ce diagramme est identique au prcdent. Mais sa lecture est plus explicite, plus gnrale puisqu'on y lit des pourcentages. Polygone des frquences cumules - appeler l'assistant graphique - choisir l'onglet "Types standard" et le type "Courbe" - cliquer "Suivant" pour obtenir la bote de dialogue "Donnes source... " - dans l'onglet "Plage de donnes", slectionner la plage des Frquences cumules (titre compris). La suite est identique la procdure prcdente. On obtient le graphique de la Figure 2.8.

22

Frquence cumule 120% J - - -..^- 1 *100% 80%


^^'"^ A nu. --*' ^^

20%
nfti.

-*Frquence | cumule |

12

13

14

15

16

17

18

19

20

Figure 2.8

Courbe de frquence cumule

> Remarques relatives aux distributions de frquences et diagrammes en btons

Matrice des classes (xi) Cette matrice (appele matrice-intervalles dans la bote de dialogue) a t ici parfaitement dfinie. Dans ce type d'tude, il est souvent intressant d'ouvrir la dernire classe. Pour cela, on saisit dans cette cellule ">18"). Cette procdure peut, entre autre, faciliter l'utilisation de la feuille Excel pour d'autres donnes de mme type, sans avoir rechercher les valeurs suprieures l'avant-dernire. Dcoupage en classes Lorsque le nombre de valeurs distinctes observes pour xi est important, on ralise un dcoupage en classes. Bien que cet exemple ne l'exige pas, nous allons effectuer un dcoupage pour illustrer cette remarque et expliquer la procdure. Nous choisissons par exemple les classes X < 14 , 14 < X < 16 ,16 < X < 18 , X > 18. Ceci se traduit par le choix de la plage de classes 14 / 16 /18 / X>18. Comme prcdemment, la fonction FREQUENCE permet d'obtenir la nouvelle distribution des frquences absolues indique sur le tableau 2.8 ci-contre. L'histogramme correspondant se trouve sur la Figure 2.9. Classes 14 16 18 X>18 Total Frquences 49 29 25 17 120

Tableau 2.8 Frquences absolues de la variable NGS en classes


Distribution des frquences absolues

Nombre de
grappes par souche Figure 2.9 Histogramme de NGS

23

Cette pratique, trs utilise, est dpendante du choix des classes. L'interactivit avec les donnes et la facilit des "copier-coller" permet cependant de comparer rapidement plusieurs types de dcoupages et de choisir le plus adapt. Intrt des dmarches proposes L'intrt majeur des approches prcdentes rside dans l'interactivit avec les donnes et dans le choix des classes. Ceci permet de construire trs facilement et rapidement le "modle" de la (ou des) feuilles Excel appropri son besoin spcifique. A chaque nouvelle tude, il suffit de "dverser" les nouvelles donnes la place des autres. Les tableaux et les graphiques s'actualisent automatiquement. 2.3.3.3. Mise en uvre au moyen de l'utilitaire d'analyse d'Excel

A partir de la barre de menu (Outils / Macro complmentaires / Utilitaire d'analyse ou directement Outils / Utilitaire d'analyse si ce dernier a dj t valid), cet outil permet d'obtenir plusieurs rsultats statistiques. On slectionne "Histogramme" et l'on renseigne la bote de dialogue en indiquant la plage d'entre, la plage des classes et en validant "Pourcentage cumul" et "reprsentation graphique". Les "frquences" (c'est dire les frquences absolues), les pourcentages cumuls ainsi que le diagramme en btons s'affichent. Remarque : cette mthode est rapide mais n'offre pas l'interactivit avec les donnes et avec les classes. Cette interactivit est particulirement intressante dans le cadre d'applications professionnelles.

2.3.4. Rsum de l'information : paramtresstatistiques


2.3.4.1. Dfinition des outils statistiques Paramtres de position (ou de tendance centrale) Moyenne C'est le rsum le plus connu de l'information. On note x la moyenne observe. Cette valeur peut s'exprimer sous 2 formes : x = V x, . En considrant la srie observe et aprs avoir ralis un tri des donnes, la n ii srie ordonne s'crit "au sens large" : x1 < x2 <... < xi <... < x n . Ceci correspond la gestion habituelle des donnes dans les logiciels. x = y n x , o k est le nombre de valeurs distinctes prises par X et ni la frquence n 1.1 absolue de xi La srie est crite au sens strict : x1 < x2 <...< xk Valeurs xi Effectifs ni
X1 X2 Xk

1 "

n1

n2

nk

avec

Cela revient considrer la distribution des frquences absolues. crite sous cette forme, la moyenne est le centre de gravit des "points" x1, x2, ... ,Xk affects des poids respectifs ,,..., k - . On dit parfois que la moyenne traduit un point n n n d'quilibre.
24

Examinons les proprits de la moyenne. La moyenne des carts la moyenne est nulle. Transformation affine : y = ax + b => y = a x + b (a et b, coefficients rels). L'intrt de la moyenne est d'tre peu sensible aux fluctuations d'chantillonnage. Ses inconvnients sont d'tre sensible aux valeurs extrmes et de fournir un trs mauvais rsum des donnes dans le cas de distributions trs disperses ou dissymtriques. Mdiane Considrons la srie observe, ordonne, crite au sens large : x, < x i + 1 On appelle mdiane de la srie statistique tout nombre M tel qu'il y ait autant de valeurs qui lui soient infrieures que de valeurs suprieures ou gales. 1er cas : si l'effectif n est impair (n = 2p + 1), la mdiane est la (p+1)ie valeur soit Xp+i. 2e cas : si l'effectif n est pair (n = 2p), il y a 2 valeurs centrales Xp et Xp+1. Gnralement, on adopte pour mdiane leur demi-somme M = On peut galement prendre pour

mdiane toute valeur du segment [ X p , Xp+1]. Considrons la srie statistique , ordonne, crite au sens strict, les xi tant pondrs par les effectifs ni (distribution des frquences absolues). On appelle mdiane toute valeur M partageant la srie en 2 parties telles que : pour M e r X p . x ^ , 1, on ait : n1 +n2 +...+n < < n 1 + n 2 + . . . + n p + 1 La mdiane a l'avantage d'tre peu sensible aux valeurs extrmes (robustesse) mais l'inconvnient de se prter assez peu aux calculs mathmatiques. Mode On appelle mode de la srie statistique la valeur associe la plus grande frquence (absolue ou relative). On peut avoir plusieurs modes associs la mme frquence absolue ni (ou relative ). n Par extension (modes relatifs), on appelle mode toute valeur x, prcde et suivie de valeurs de frquences infrieures : xi est un mode si ni-1 < ni > ni+1. Si la srie est classe avec des classes de mme tendue, on appelle classe modale la classe de la plus grande frquence. Comme pour les modes, on peut avoir plusieurs classes modales. Comparaison des trois indicateurs Dans le cas de distributions symtriques (Figure 2.10), les trois caractristiques de centralit (mode, mdiane et moyenne) concident ; en cas de dissymtries (Figure 2.11), elles sont dcales. Les figures 2.10 et 2.11 montrent les positions respectives de ces trois indicateurs dans ces diffrents cas.

Figure 2.10

Distribution symtrique

Mode, mdiane, moyenne

25

Mode ode | \ Moyenne Mdiane


Figure 2.11

Moyenne Distributions dissymtriques

\ Mode | Mode Mdiane

La moyenne est toujours situe du cot de la plus longue queue de la distribution La mdiane est situe entre le mode et la moyenne. Paramtres de dispersion Valeur minimale et valeur maximale observes L'tendue d'une srie statistique est la diffrence entre les valeurs maximale et minimale. C'est l'indicateur de dispersion le plus simple mais il est dangereux car les valeurs intermdiaires sont occultes et il peut tre dilat par des valeurs extrmes pouvant tre aberrantes. Dans le mme ordre d'ide que la mdiane, les quartiles partagent la srie ordonne en 4 sous-ensembles de mme effectif (ou sensiblement de mme effectif). - Le 1er quartile est la valeur Q1 telle que 25% des valeurs de la srie sont infrieures (et donc 75% suprieures) - le 2e quartile Q2 est la mdiane M - le 3e quartile est la valeur Q3 telle que 75% des valeurs de la srie sont infrieures (et donc 25% suprieures). Remarque : selon les valeurs de n, comme on ne peut pas toujours obtenir exactement Q1 et Q3, on utilise frquemment des formules approches. On indique ainsi que Q1 est la valeur dont le rang correspond sensiblement (n+1) et Q3 la 4 valeur dont le rang correspond sensiblement (n +1) . 4 Intervalle (ou distance) inter-quartile C'est l'cart Q3-Q1. Cet intervalle contient 50% des valeurs observes. On le note frquemment IQR. Quantits (ou fractiles) d'ordre k Ce sont les (k-1) valeurs segmentant la srie en k sous-ensembles de mmes effectifs ou d'effectifs approximativement identiques. Les fractiles d'ordre 10 et d'ordre 100 sont respectivement des dciles et des centiles. Les dterminations approches sont du mme type que celles indiques pour les quartiles. Variance C'est un indicateur de dispersion par rapport la moyenne. La moyenne des carts la moyenne tant nulle, on considre la moyenne des cartes de ces carts. On l'appelle variance et on la note Var x.

26

Lorsque la srie statistique ordonne est crite au sens large, lx^, -2 ., SCE Varx=y(x,-x) ou encore Var x = ; n,~r n SCE dsigne la Somme des Carrs des carts la moyenne ^(x, - x) . 1^1 Lorsque la srie statistique ordonne est crite au sens strict (ou srie dcrite par la distribution des frquences absolues) : 1 k _2 Var x =V n,(x, - x) o k est le nombre de valeurs distinctes de X. La variance a pour unit de mesure le carr de l'unit de x ce qui permet d'introduire
fcr'p

l'cart-type qui est la racine carre de la variance .( ; il a donc la mme unit de mesure V n que X. Quant au Coefficient de Variation (CV), c'est le rapport de l'cart-type la moyenne et donc l'expression de l'cart-type en pourcentage de la moyenne. Son intrt est l'absence d'unit : il peut donc permettre de comparer l'homognit de variables d'units diffrentes. Il n'a vraiment de sens que pour les variables valeurs positives. Remarque : le coefficient de variation n'est pas dfini si la moyenne est nulle. Paramtres de forme : coefficients d'aplatissement et d'asymtrie Ces paramtres sont nombreux et pas facilement utilisables dans les tudes concrtes courantes. Excel propose un coefficient d'aplatissement et un coefficient de forme. Le coefficient d'aplatissement de Kurtosis renseigne sur l'aplatissement relatif d'une distribution compare la distribution de la loi normale ; sa formule est indique dans l'aide d'Excel. Pour une distribution normale, ce coefficient est nul ; une valeur positive indique une distribution plus pointue que la loi normale ; une valeur ngative indique l'inverse une distribution plus aplatie. Comme son nom l'indique, le coefficient d'asymtrie dont la formule est galement indique dans l'aide d'Excel renseigne sur l'asymtrie de la distribution par rapport sa moyenne. Une valeur nulle ou approximativement nulle de ce coefficient indique une symtrie de la distribution par rapport la moyenne. Une valeur positive indique une queue de distribution tale vers la droite (valeurs plus leves que la moyenne). Une valeur ngative indique l'inverse. 2.3.4.2. Mise en uvre au moyen des fonctions Excel

Le tableau ci-dessous indique les valeurs des paramtres statistiques obtenus dans l'exemple propos dans un ordre que nous trouvons intressant pour rsumer rapidement une srie statistique concrte quelconque. Cet ordre est lgrement diffrent de l'ordre plus conventionnel adopt dans la prsentation des outils statistiques de donnes de mme type. Nous avons rajout NBVAL en 1re ligne de sorte que le nombre d'observations est calcul automatiquement. En bon franais, on dira par exemple que le plus petit "chargement" d'une souche est de 12 grappes (MIN), que 25% des souches ont un nombre de grappes infrieur ou gal 13 (Q1). Pour ce rsultat, on appelle la fonction QUARTILE et l'on renseigne la bote de dialogue: - dans la zone "Matrice", il faut saisir la zone des valeurs observes que nous avons nomm ici NGS

27

- dans la zone "Quart", on saisit le numro du quartile dsir. Rappelons que le 2e quartile n'est autre que la mdiane que l'on pourrait videmment obtenir avec la fonction MEDIANE Sa valeur montre que la moiti des souches ne portent pas plus de 15 grappes. Le 3e quartile indique que 75% des souches n'ont pas plus de 17 grappes. Cela donne une formule du type =QUARTILE(zone;2)
PARAMETRES STATISTIQUES de
NGS

Nom statistique
n
Minimum Quartile 1 (Qi) Mdiane Quartile 3 (03) Maximum Centile ( 2,5%) Centile( 97,5%) Mode Moyenne cart-type Coefficient de variation (CV) Vanance Coefficient de KURTOSIS Coefficient d'asymtrie

Fonctions Excel
NBVAL MIN QUARTILE MEDIANE QUARTILE MAX CENTILE CENTILE MODE MOYENNE ECARTYPEP (Calcul) VAR.P KURTOSIS COEFFICIENTASY METRIE

Valeurs
120 12 13 15 17 20 12 20 12 15,333 2,409 15,71% 5,806 -1,105
n onc U,r0b

Tableau 2.9 Paramtres statistiques de NGS

En Analyse exploratoire des donnes, l'ensemble des cinq valeurs ci-contre est appel "peigne". Il fournit un premier rsum prcis et net des donnes observes.

MIN QUARTILE 1 MEDIANE QUARTILE 3 MAX

Le nombre de grappes par souche est compris entre 12 (MIN) et 20 (MAX). 50% des souches ont entre 13 et 17 grappes (Q1, Q3) et 50% des souches portent moins de 15 grappes. En principe, les centiles 2,5% et 97,5% dmarquent les valeurs les plus basses et les plus leves, c'est dire 5% de valeurs "marginales". Dans notre exemple o il y a beaucoup d'ex-aequo, ces valeurs sont peu significatives. Rappelons que le mode donne la valeur la plus frquente. Il convient ici de noter que s'il y a plusieurs modes de mme frquence, Excel ne fournit que le plus petit. Lorsque l'on s'intresse cet indicateur, il faut examiner la distribution des frquences absolues, complte, prcise et qui indique de plus les modes relatifs. Ainsi, dans notre exemple, il n'y a qu'un mode "12" de frquence absolue 19. La fonction MODE indique ici un rsultat correct. L'examen de cette distribution montre les modes "relatifs" 15, 17 et 19. Remarque : la fonction RANG ne prsentant aucune difficult de mise en uvre peut, dans certains cas, s'avrer intressante. En particulier, comme elle affiche les ex aequo, elle permet entre autre de retrouver les modes.

28

Le nombre moyen de grappes est 12. /SCE Pour obtenir l'cart-type observ (./), on doit appeler la fonction Excel n ECARTYPEP et non ECARTYPE qui donne la valeur .(, estimation de l'cart-type V n-1 d'une population partir d'un chantillon que nous utiliserons dans la partie Statistique Infrentielle. Concrtement, la valeur de l'cart-type (2) est peu interprtable pour un non spcialiste de la vigne. En effet, la distribution des frquences est tout fait quelconque et sans rapport avec une distribution normale. De tels exemples sont relativement courants. Cependant, pour une personne connaissant bien le domaine tudi, l'cart-type peut tre plus parlant et indiquer tout de suite une bonne ou une mauvaise homognit des donnes. Le rle du coefficient de variation est voisin de celui de l'cart-type. Il permet aux spcialistes de juger de la pertinence de la moyenne ; ce coefficient est cependant plus pratique car dpourvu d'unit. Malheureusement, il n'y a pas de rfrence standard, un seuil au del duquel on dirait que la moyenne n'a pas de sens. Dans certains domaines de recherche, un CV suprieur 8% "condamne" la moyenne alors que dans d'autres la pertinence de la moyenne sera rejete pour un CV suprieur 18% par exemple. En ce qui concerne la variance, il convient comme prcdemment d'utiliser la fonction VAR.P ; la fonction VAR sera elle aussi d'actualit en statistique infrentielle. Cette valeur de 5,8 n'est pas facile interprter. La valeur ngative du coefficient de Kurtosis indique une distribution plus aplatie que la loi Normale alors que le coefficient d'asymtrie (0,206) montre un dcalage des donnes vers la droite. En rsum, dans la pratique, pour dcrire une srie statistique valeurs isoles, nous trouvons que la distribution des frquences et sa visualisation au moyen d'un diagramme en btons est particulirement instructive. Bien que, par nature moins synthtique que les paramtres statistiques, elle a l'avantage de bien reflter la ralit. Dans le mme ordre d'ide, les dcoupages en classes sont souvent d'un grand intrt. Pour rsumer numriquement les donnes, le "peigne", dfini ci-dessus (min, Q1, mdiane, Q3 et max) offre une bonne segmentation des donnes. Enfin, nous retiendrons que moyenne, cart-type et coefficient de variation sont plus intressants pour le spcialiste du sujet tudi mais surtout pour des tudes futures allant audel de la statistique descriptive univarie. 2.3.4.3. Mise en uvre au moyen de l'utilitaire d'analyse
SCE

On slectionne "Statistiques descriptives" et l'on renseigne facilement la bote de dialogue. Nous ne retiendrons pas le "Niveau de confiance pour la moyenne" car nous choisissons de rester dans un cadre de statistique descriptive. Remarque : on peut regretter que l'utilitaire ne fournisse pas les quartiles, indicateurs prcieux en analyse descriptive, ni les centiles. Comme nous l'avons prcis prcdemment, l'utilitaire donne rapidement des rsultats, mais, en revanche, on ne peut utiliser l'interactivit des donnes ni les "copier-coller" pour des calculs similaires relatifs d'autres jeux de variables.

29

Dans les rsultats affichs sur le tableau ci-contre, nous constatons une diffrence pour l'cart-type puisque l'utilitaire /SCtf fournit l'cart-type "estim" .!. Notons la prsence d'un paramtre intitul "erreur-type" : il s'agit de l'cart1 SCE type de la moyenne fque nous ^ n(n -1) utiliserons en statistique infrentielle

NGS Moyenne Erreur-type Mdiane Mode Ecart-type Variance de l'chantillon Kurtosis (aplatissement) Coefficient d'asymtrie Plage Minimum Maximum Somme Nombre d'chantillons CONTINUE

15,33 0,22 15
12 2,42 5,85 -1,10 0,21 8 12 20 1840 120

2.4.

VARIABLE QUANTITATIVE

Exemple : poids de 100 baies de raisins 2.4.1. Prsentation des donnes et position du problme On poursuit l'tude prcdente de la qualit du vin et on examine maintenant le poids de 100 baies. Le recueil de donnes a fourni 120 observations et on a not pour chacune d'elles le poids de 100 baies (PCB) exprim en grammes. Les rsultats apparaissent sous forme d'une srie classique valeurs isoles comme sur le tableau 2.10
345 339 278 375 403 294 288 282 358 351 365 372 308 343 269 380 401 289 292 309 376 371 345 380 281 345 320 280 341 315 319 295 374 368 321 284 350 355 280 278 348 291 315 298 395 382 311 286 340 340 355 382 325 288 393 296 403 399 319 334 345 335 358 385 324 274 394 302 291 389 295 351 367 360 328 374 338 360 362 312 283 288 284 362 310 364 330 370 391 365 391 314 301 295 389 371 367 270 358 291 397 381 285 320 298 312 386 356 340 275 349 285 294 386 275 352 342 354 374 373

Tableau 2.10 Poids (en g) de 100 baies pour 120 observations Question : raliser une tude statistique descriptive de ces donnes. 2.4.2. Approche statistique et notations Nous utiliserons les deux familles d'outils prsentes dans le paragraphe prcdent : tout d'abord les distributions de frquences par le biais de tableaux et de graphiques et ensuite le calcul des paramtres statistiques. On note X la variable alatoire PCB (en grammes) et on appelle n le nombre total d'observations.

30

Type de variables Aprs avoir ordonn la srie statistique, on peut dire qu'entre deux valeurs successives distinctes, il peut thoriquement exister une infinit de valeurs possibles pour X ( la prcision de l'appareil de mesure prs). X varie de faon continue : la variable est dite "variable quantitative continue". On dcrit gnralement ce type de variable aprs avoir effectu une rpartition en classes. Remarque : les donnes sont parfois recueillies ds le dpart sous forme de classes. Inversement, en considrant la prcision de la mesure, on pourrait " la limite" considrer la srie statistique comme issue d'une variable discrte.

2.4.3. Distribution des frquences, tableaux et graphiques


2.4.3.1. Dfinition des outils statistiques On trie les donnes et, si ce n'est dj fait, on les rpartit ensuite dans des classes ; ces dernires sont gnralement ouvertes aux extrmits infrieures et suprieures mais peuvent tre fermes. On note : - Cl1 : X ^ a , - Cl2:a,<X<a;,
- Clk-i : a^;, < X ^ a^ , - Clk:X>a,,

Ce choix de classes tant fait, on construit ensuite les outils "frquences" du mme type que ceux que nous avons dfinis dans le paragraphe prcdent. Classes Cl, Clz Clk Frquences absolues (effectifs par classe) ni n2 nk Frquences relatives ni/n nz/n nk/n Frquences cumules ni/n (ni+n2)/n 1

5- Remarque sur le choix des classes : il n'existe pas une recette type pour choisir des classes. Divers choix sont possibles : classes de mme amplitude, d'amplitudes diffrentes, compromis entre ces deux choix (classes plus larges aux petites et grandes valeurs et de mme amplitude "au milieu", etc...). Il n'y a donc pas de nombre "idal" de classes. On peut cependant indiquer qu'un nombre trs important de classes, par son dfaut de "synthse" a tendance "touffer" l'allure de la distribution. On conseille d'avoir, l'intrieur des classes, une distribution uniforme. Le plus souvent, ce point n'est pas facile vrifier et, de plus, peut tre antagoniste avec la remarque prcdente : lorsqu'on restreint le nombre de classes, ces dernires sont relativement vastes, ce qui favorise l'htrognit l'intrieur de chacune d'entre elles. Nous conseillons d'essayer plusieurs choix de dcoupages en classes afin d'enrichir l'analyse descriptive. 2.4.3.2. Mise en uvre au moyen d'Excel et interprtation des rsultats Un tri des donnes montre que le PCB varie de 270 g environ 400 g. Nous proposons de limiter le nombre de classes une dizaine en adoptant une amplitude de classe de 20 g en commenant par 280 g. Nous construisons ainsi la matrice des classes, qualifie de "matriceintervalles" dans la bote de dialogue de la fonction FREQUENCE et occupant sur notre feuille la plage dnomme CLAPCB.
280 300 320 400 >400

31

Rappelons ce que signifie cette prsentation. - Cl1 :X < 2 8 0 - Cl2 : 280 < X < 300 - Cl8 : X > 400 (laisser vide cette dernire classe signifie galement X>400). Les diverses frquences s'obtiennent de la mme manire que dans le paragraphe prcdent. On appelle la fonction matricielle FREQUENCE pour obtenir la frquence absolue de chaque classe. On calcule ensuite les frquences relatives et cumules. Nous obtenons les rsultats du tableau 2.11.
CLAPCB 280 300 320 340 360 380 400 >400 Total Frquences absolues 9 23 15 12 22 20 16 3 120 Frquences relatives 8% 19% 13% 10% 18% 17% 13% 2% 100% Frquences relatives cumules 8% 27% 40% 50% 68% 85% 98% 100%

Tableau 2.11 Frquences absolues, relatives et cumules de PCB classe.

Au moyen de l'assistant graphique, nous pouvons obtenir l'histogramme ci-contre qui permet de visualiser la distribution de PCB. Avec un tel dcoupage de classes, la distribution apparat comme bimodale (en considrant les modes relatifs).

S 25% i 20%
0

o tS04 u g 10%
3

.g" 5% "' 0% 280 300 320 340 360 380 400 >400 POKdsde 100 baies Figure 2.12 Histogramme de PCB.

La 1re classe modale Cl2 (280<X<300) contient 19% des observations. La 2e classe modale Cl5 (340<X<360) contient 18% des observations. Nous remarquons que cette classe contient la mdiane puisque la frquence cumule y atteint 50%. 2.4.4. Rsum de l'information. Paramtres statistiques 2.4.4.1. 1re stratgie, partir de la srie valeurs isoles.

Outils statistiques Cette partie est identique celle que nous avons vue dans le paragraphe prcdent relatif une variable discrte. Nous conseillons de calculer les paramtres statistiques partir de la srie statistique observe. Ceci nous parat plus prcis puisque le dcoupage en classes se prte divers choix. De plus, c'est trs facile raliser. Enfin, comme voqu dans

32

l'introduction, une telle srie peut " la limite" tre considre comme celle d'une variable discrte. Remarque : si les donnes ont t collectes sous forme de srie classe, appele frquemment "srie groupe", nous indiquerons dans la suite de quelle manire on peut rsumer l'information. Mise en uvre au moyen d'Excel et interprtation Tous les paramtres statistiques appliqus et retenus dans le paragraphe prcdent peuvent tre calculs. Nous proposons de retenir simplement le peigne qui synthtise bien l'information, les centiles d'ordre 2,5% et 97,5% qui font ressortir les donnes extrmes et, bien entendu la moyenne, l'cart-type et le coefficient de variation pour leur utilisation traditionnelle. Nous obtenons les rsultats reports sur le tableau 2.12.
Nom statistique n MIN QUARTILE 1 MEDIANE QUARTILE 3 MAX CENTILE ( 2,5%) CENTILE( 97,5%) MOYENNE ECART-TYPE

PCB
120 269 297,5 341,5 370,25 403 274,975 399,05 336,533 38,925 11,57%

Commentaires : - le poids de 100 baies varie de 269 g 403 g - environ 50% des observations ont un poids de 100 baies infrieur 341,5 g - 50% des observations ont un poids compris entre 297,5 g et 370,25 g - Le poids moyen de 100 baies est de 336,53 g assorti d'un coefficient de variation relativement limit (11,57%). Cette moyenne, voisine de la mdiane rsume assez bien les donnes.

Coefficient de variation 2.4.4.2. Remarque

Tableau 2.12 Paramtres statistiques de PCB.

2e stratgie, partir de la srie classe (mise en classes)

prliminaire : le recueil des valeurs isoles est souvent plus prcis mais parfois, le recueil en classes peut, en fait, mieux restituer une ralit de terrain. Ainsi, supposons que l'on ralise une enqute consommateurs et que l'on demande une famille le montant de sa dpense hebdomadaire en fromages. La rponse selon une "fourchette" traduit mieux la ralit. Dans de nombreux travaux de recherche, le nombre d'observations atteignant des milliers, seule une gestion en classes est alors possible. Outil "interpolation linaire" (dfinition et application numrique) Certains paramtres statistiques comme la mdiane, les quartiles et, de manire gnrale les fractiles, peuvent tre obtenus (de faon approche) partir des frquences cumules l'aide d'une interpolation linaire. Par exemple pour dterminer la mdiane, on recherche la classe qui la contient. C'est la classe ]ai-1,ai ] telle que Fi-1 < 0,5 < Fi en notant F la fonction "frquences relatives cumules" (fonction de rpartition). La mdiane M est l'abscisse du point P d'ordonne 0,5 (voir figure suivante). Son calcul est le suivant : 0,5-F, 0,5-F. M-a d'o M = a , _ i + ( a , - a , , ) F-F, F-F, a, -a,

33

F, 1/2 Fi-i

a,-i

Figure 2.13 Dtermination de la mdiane pour une srie groupe.

Application numrique : la mdiane appartient la 5e classe soit ] 340,360]. Fi - 67,5% = 0,675 Fi-1 = 49,17% = 0,4917 ai-1 = 340 ai = 360 0,5-0,4917 1 M=340+20 =340,906 1,0,675-0,4917] Remarque : il est normal d'obtenir une valeur diffrente de celle obtenue partir de la srie isole. Si on ralisait un autre dcoupage en classes, on obtiendrait une valeur encore lgrement diffrente. Tous les fractiles peuvent tre obtenus de faon analogue, notamment les quartiles : Dterminons le quartile 1 (Q1). En examinant les frquences relatives cumules, il apparat que Q1 appartient la 2e classe ]280,30] (rappelons que l'on doit atteindre 25% des valeurs les plus basses). rO,25-F , 1 Q,=a,_,+(a.-a,..)l p _ ^ - J Avec ai-1= 280 a, = 300 Fi-1 = 7,5% Fi = 26,67% on trouve Q1 = 298,26. Le calcul du quartile 3 (Q3) est du mme type. Il appartient la 6e classe ]360,380] dans laquelle on atteint 75% des valeurs les plus basses. 'O^-F.I F-F FM = 67,50% Fi =84,17% Avec ai-1 = 360 ai = 380 On trouve Q3 = 368,82. Outil "centre de classes" (dfinition et application numrique) D'une manire gnrale, lorsque l'on ne dispose que de la srie groupe, pour calculer certains paramtres statistiques comme la moyenne ou la variance, on utilise les centres de classes. Le centre de la Ie classe Cl, ]a,_, ,a, ] se dfinit de manire vidente par la valeur
a, +a,

Si les classes extrmes (infrieure et suprieure) sont ouvertes, on pourra dterminer dans ces classes des centres de classes fictifs, distants d'une amplitude de classe des centres de classe extrmes. Ainsi, dans notre exemple (amplitude de classe gale 20),

34

- 1re classe ( X < 280 ), centre de classe approch : 290-20 =270 - dernire classe (X > 400), centre de classe : 410. Pour les calculs de divers paramtres statistiques , la srie groupe est considre comme quivalente la srie des centres de classe affects des effectifs de la classe. Frquences absolues (effectifs) n1 n2
nk

Classes Cl1 Cl2 Clk

Centres de classes
X1
X2

Frquences absolues (effectifs) n1 n2 nk

Xk

Les calculs de la moyenne et de l'cart-type peuvent alors tre mens "comme la main" en utilisant les formules indiques dans le paragraphe prcdent. Moyenne x = V n x, et cart-type observ o = Jy^n,(x -x) 2 . n^ V"^ Application numrique :
CLAPCB Frquences Centres absolues de classes 280 9 270 290 300 23 320 310 15 340 330 12 350 360 22 370 380 20 390 400 16 410 >400 3

lc

f i

~ -

Tableau 2.13 Frquences absolues associes aux centres de classes de la srie groupe PCB.

Pour dterminer la moyenne et de la variance partir des frquences absolues et des centres de classes, nous proposons le rapide calcul suivant.
Frquences absolues n1 Tableau 2.14 Frquences absolues, relatives et carrs des carts la moyenne pour la srie groupe PCB. 9 23 15 12 22 20 16 3 Frquences relatives ni / n 0,08 0,19 0,13 0,10 0,18 0,17 0,13 0,03 Centres de (Xi-X) 2 classes xi 270 4312 290 2085 310 659 330 32 350 205 370 1179 390 2952 410 5525

On copie les frquences absolues ni et les centres de classes xi . On dtermine ensuite les frquences relatives ni / n . On calcule la 1re valeur et on effectue une recopie vers le bas.

35

ni rf. relative

n rf. absolue

Pour calculer la moyenne, on utilise la fonction SOMPROD (catgorie Math & Trigo) =SOMPROD(plagedes frquences relatives ; plage des centres de classes) On trouve x = 335. Pour la variance, on calcule d'abord les valeurs de (x, - x)1, d'abord la premire (x, en rf. relative et x en rf. absolue) puis les suivantes par une recopie vers le bas. On obtient la variance comme prcdemment en rutilisant la fonction SOMPROD (recopie droite par exemple) en remplaant la plage des x, par celle des (xi - x)2. On obtient Var X = 1574. Remarque: il est galement rapide de calculer les valeurs (ni / n) x xi et d'en dduire, par sommation, la moyenne x . On dtermine ensuite les valeurs (ni / n) * (xi - x)2 et l'on aboutit la variance par sommation.

Centres de classes Frquences absolues ni Xi 270 290 310 330 350 370 390 410 Total 9 23 15 12 22 20 16 3 120

Frquences relatives ni/n 0,08 0,19 0,13 0,10 0,18 0,17 0,13 0,03 1

x, * ni/n 20,25 55,58 38,75 33,00 64,17 61,67 52,00 10,25 X = 335,67

(ni/n)*(xi-x) 2 323,41 399,71 82,35 3,21 37,66 196,46 393,61 138,14 Var= 1574,56

Tableau 2.15 Dtermination de la moyenne et de la variance de la srie groupe PCB.

36

3.
3.1.

STATISTIQUE DESCRIPTIVE BIVARIE

INTRODUCTION

La statistique descriptive univarie, premire tape d'exploration d'une base de donnes, nous a fourni une "photographie" de chacune des variables. La deuxime tape consiste examiner simultanment deux variables que l'on veut mettre en rapport. Il va de soi que, dans une tude concrte, on n'tudie pas tous les couples de variables mais seulement les couples de variables intressants pour les objectifs de l'tude Dcrire simultanment deux variables constitue la statistique descriptive bidimensionnelle ou bivarie. Les types de variables ont t dfinis dans le chapitre prcdent. En statistique descriptive bivarie, nous distinguerons trois types de couples de variables : - les deux variables sont qualitatives - l'une des deux est qualitative, l'autre quantitative - les deux variables sont quantitatives. Comme pour la statistique descriptive univarie, les dmarches s'appuieront sur des exemples concrets. Dans le cadre d'une tude de march de vente directe de viande bovine, on ralise une enqute prospective. Lors du dpouillement, il est important d'tudier le type de vente prfr parmi 3 choix proposs, selon le secteur d'appartenance du lieu d'habitation de l'enqut slectionn parmi 5 secteurs. Cet exemple illustre le croisement de 2 variables qualitatives (QL) avec respectivement 3 et 5 modalits. Dans une entreprise, l'examen du nombre de jours de formation par an selon la catgorie de salari (secrtariat, service technique, comptabilit et service d'entretien) illustre le "croisement" d'une variable quantitative (QT) et d'une variable qualitative (QL), ici avec 4 modalits. L'tude de la note de qualit des armes d'un vin du Sud-Ouest (QT) en fonction de la teneur du mot en acide malique (QT) sert de support l'analyse du croisement de deux variables quantitatives. Les principaux outils statistiques choisis pour dcrire ces couples de variables sont synthtiss dans le tableau rcapitulatif 3. 1 suivant. EXEMPLE Vente directe de viande bovine Nombre de jours de formation COUPLE DE OUTILS VARIABLES RESUME TABLEAUX GRAPHIQUES 2 variables Distributions des frquences Diagrammes en qualitatives absolues et relatives btons (QLxQL) Outils de statistiques descrip 1 variable quantitative tive univarie d'une et variable quantitative rptter chaque modalit 1 variable qualitative de la variable qualitative et appliquer (QTxQL) ventuellement l'enserrnble des donnes 2 variables quantitatives (QT x QT) Paramtres statistiques spcifiques (covariance, corrlation) Nuage bidimensionnel Droite d'ajustement

Armes d'un vin

Tableau 3.1

Outils de statistique descriptive bivarie selon le type de variable.

3.2.

COUPLE VARIABLE QUALITATIVE

- VARIABLE QUALITATIVE

Exemple : projet de vente directe de viande bovine 3.2.1. Prsentation des donnes et position du problme Un producteur de viande bovine commande une tude de projet de vente directe. La conduite d'un tel projet implique diffrentes tudes : juridique, conomique (achats de matriels, dure des travaux, embauches de personnel, etc...) et naturellement commerciale Dans ce contexte, une enqute prospective a t ralise dans la zone gographique concerne : Toulouse et ses environs, Saint-Gaudens et ses environs, ces derniers tant dfinis par des ensembles prcis de communes. 400 personnes ont t interroges. Un premier dpouillement fait apparatre que 349 personnes se dclarent intresses par ce type de commercialisation directe. Dans ce qui suit, on considre cette strate des 349 enqutes et on analyse les deux questions "lieu d'habitation X" cod par p = 5 modalits (Toulouse, environs de Toulouse, Saint-Gaudens, environs de Saint-Gaudens et autres c'est dire enqutes de passage, non rsidents de la zone considre) et "mode de vente prfr Y" cod par q = 3 modalits (vente la ferme, vente sur les marchs et vente domicile). Le dpouillement permet d'obtenir le tableau crois 3.2.
Mode de vente prfr Ferme Marchs Domicile TOTAUX (Yi) (Y2) (Ya) 13 45 50 108 26 28 61 14 TOTAUX 174 22 21 24 9 126 11 7 7 11 49 59 56 92 34 349

m a. ^f
a
001

Toulouse (Xi) Environs Toulouse (X;) Saint-Gaudens (Xa) Environs Saint-Gaudens PQ) Autre (Xs)

5'
3

Tableau 3.2

Tableau de contingence "lieu d'habitation - mode" de vente prfr .

Question : dcrire les prfrences de mode de commercialisation selon les lieux d'habitation Remarque : lorsque les donnes d'enqute sont saisies dans Excel, un tableau de contingence de ce type s'obtient facilement au moyen d'un tableau crois dynamique (cf. Annexe).

3.2.2. Dmarche statistique D'une manire gnrale, l'analyse statistique descriptive d'un tableau de contingence peut s'effectuer en utilisant les diverses distributions de frquences assorties de visualisations graphiques au moyen de diagrammes en btons. Le logiciel tant utilis comme une calculette, aucune fonction particulire d'Excel n'est ncessaire. Le tableau qui suit montre la distribution des frquences absolues (ou distribution d'effectifs).

38

nij est le nombre d'observations simultanes de la modalit xi de X et de la modalit yj de Y. Les distributions marginales lignes et colonnes sont formes des totaux lignes et q p colonnes n,=^n,j et r i j = ^ n y .
Y

yi
X1

yj
nij nij "pi n.j

nu nu

Distribution marginale de X niq ni.


Yq

Xj

niq npq n.q

ni. np. n.. = n

Xp ripi Distribution marginale de Y n.i

Le tableau suivant montre la distribution des frquences relatives. On l'obtient en divisant les n i j ni et n j du tableau prcdent par l'effectif total.
Y

Xi

V1 fn fil fpi f.1

yj
fii
fil

Yq fie,

Distribution marginale de X fi. fi. fp. f.. =1

Xi

Xp

Distribution marginale de Y

fpi

fpq f.q

f.i

Le tableau des profils ou distribution conditionnelles selon les lignes est obtenu en divisant l'effectif de chaque ligne par l'effectif total de la ligne. Il reprsente la rpartition en proportions selon les lignes.
Y

yi
Xi

nu /ni nu / ni. npi / ni. n.i / n

Yi nu/ni. nij / ni. npj / ni. n.j/n

Yq

Poids des profils lignes ni. / n ni. / n npq/n Z=1

niq/ni. niq / ni. npq n.q/ n

Xi

Xp

Profil ligne moyen ou centre de gravit des profils lignes

39

Le poids des profils lignes sont les distributions marginales des frquences des lignes dites poids associs aux profils lignes. Ils traduisent l'importance de chaque ligne par rapport l'ensemble des lignes. Le centre de gravit des profils lignes est constitu par l'ensemble des distributions marginales des frquences colonnes. 11 dfinit le profil ligne moyen qui rsume l'ensemble des lignes De mme, le profil colonne est obtenu en divisant l'effectif de chaque colonne par l'effectif total de la colonne. Il s'agit de repartitions en proportions selon les colonnes :
Y

yi
X1

Yi nij/n.j nij / n.j rip, / n.j n.j/n

Yq

Profil colonne moyen ou centre de gravit des profils colonnes

nn/n.i

niq / n.q njq / n.q ripq / n.q n.q/n

ni. / n ni. / n np. / n Z=1

Xi

nu / n.i ripi / n.i n.i / n

Xp

Poids des profils colonnes

Remarque

: lors du traitement de l'exemple, des reprsentations graphiques seront proposes "directement".

3.2.3. Mise en uvre sur Excel et interprtation des rsultats 3.2.3.1. Distribution des frquences absolues

Reprenons le tableau de contingence observ dans l'enqute (Tableau 3.2). Un diagramme en btons peut tre obtenu l'aide de l'assistant graphique : - l'tape 1/4 "type de graphique", dans l'onglet type standard choisir "Histogramme 3D" - l'tape 2/4 : "donnes source", dans l'onglet plage de donnes , slectionner la plage grise clair ci-dessus - dans l'onglet srie, zone tiquette des abscisses, slectionner la plage grise sombre ci-dessus (secteurs gographiques) - les tapes 3/4 "options des graphiques" (titres, chelles, motifs, etc.) et 4/4 ne prsentent aucune difficult particulire. Le graphique, simple expression des rsultats, s'affiche (Figure 3.1). Remarque: il faut noter qu'il devient trs difficile lire ds que le nombre de modalits est grand.

40

distribution des frquences absolues

on adomicle

Figure 3.1 Distribution des frquences absolues selon le lieu d'habitation et le mode de vente prfr. Le diagramme en btons classique (dit "histogramme group" dans Excel) visualise beaucoup plus clairement les rsultats. Cette reprsentation restitue statistiquement l'aspect tridimensionnel, c'est dire l'importance du couple "secteur gographique-mode de vente prfr.

Figure 3.2 Diagramme en btons "lieu d'habitation - point de vente prfr". 3.2.3.2. Distribution des frquences relatives Le calcul du tableau des valeurs est immdiat partir du tableau prcdent. On dtermine la premire valeur (1re ligne, 1re colonne) soit 45 (rf. relative) / 349 (rf. absolue) en l'affectant ventuellement du format pourcentage et on tire la poigne de recopie vers le bas puis vers la droite. Ferme SSISSBSiNautt^^^^^^^^^^^ w: ^nlfBBs^B^lMisSIlS .i^Wisj^niISgi^^ ;'^:gnviro@s!|aiffiGaiuaWS^^^^^^^ S^ff'^sSw^ TOTAUX Tableau 3.3 13% 7% 8% 18% 4% 50% Marchs 14% 6% 6% 7% 3% 36% Domicile 4% 3% 2% 2% 3% 14% TOTAUX 31% 17% 16% 26% 10% 100%

Frquences relatives modes de vente prfrs selon les lieux d'habitation.

41

Le diagramme en btons permettant de visualiser la distribution des frquences relatives s'obtiendrait comme prcdemment. Il est identique au prcdent au changement d'unit prs (nij chang en nij / n.) Commentaires et interprtation Ces rsultats, proches des prcdents, se passent de lourds commentaires. Les distributions marginales fournissent la "photographie" des enqutes selon le secteur gographique de leur rsidence. On remarque le fort poids de Toulouse et Saint-Gaudens (respectivement 30,95% et 26%). Bien entendu, dans une telle tude, purement prospective, on ne peut s'intresser la reprsentativit gographique. Ces rsultats sont intressants pour le producteur qui pourra tre amen "pondrer" certains rsultats de l'enqute selon sa connaissance de l'environnement ou selon la stratgie de son choix On note l'importance des choix de mode de commercialisation. En rassemblant tous les secteurs, on constate que prs de 50% des enqutes prfrent la vente la ferme ; les marchs viennent en deuxime avec un score de 36% alors que la vente domicile ne recueille que 14% des suffrages. Les distributions conjointes font ressortir 3 couples "secteur-mode de vente prfr" reprsentant ensemble prs de 45% des enqutes : - environs de Saint-Gaudens et vente la ferme (18%) - Toulouse et vente la ferme (13%) - Toulouse et vente sur les marchs(14%). Bien entendu, on constate le trs faible score de la "livraison domicile". Remarque : ces distributions de frquences relatives traduisent l'importance relative des secteurs gographiques, des modes de commercialisation prfrs et des associations "secteur-mode" mais ne permettent pas de comparer le comportement des enquts selon les secteurs ni de comparer l'origine des scores des modes de vente. Les profils permettent de telles comparaisons. Par suite, ils sont beaucoup plus intressants puisqu'ils peuvent dcrire la meilleure stratgie commerciale selon le secteur gographique vis. Profils lignes Profils lignes
Toulouse Environs Toulouse Saint-Gaudens Environs Saint-Gaudens Autre Ferme Marchs Domicile 46% 42% 12% 44% 37% 19% 38% 50% 13% 26% 66% 8% 41% 26% 32% 50% 36% 14% totaux 100% 100% 100% 100% 100% poids 31% 17% 16% 26% 10% 100%

3.2.3.3.

PmfS ligne moyen

Tableau 3.4

Profils ligne "lieu d'habitation".

Rappelons qu'il s'agit de rpartitions en proportions selon les lignes, c'est dire par secteur. A chaque profil ligne, on associe son poids (importance de la ligne dans l'chantillon global) On construit galement le profil ligne moyen (importance des colonnes dans l'chantillon global).

42

Calcul On peut raliser ce calcul soit partir du tableau des frquences absolues, soit partir de celui des frquences relatives. A partir de ce dernier, pour la ligne 1 (Toulouse), on calcule la 1re valeur (42%) en faisant le rapport 13% (rf. relative) / 31% (fixer la colonne en actionnant 3 fois la touche F4) et on tire la poigne de recopie vers la droite. A titre de vrification ou pour interprter rapidement un tel tableau parmi d'autres, on peut insrer une colonne Total. Pour les autres lignes, on slectionne la ligne de calculs relative Toulouse et on tire la poigne de recopie vers le bas . Graphiques Chaque profil ligne peut tre visualis l'aide de graphiques ; cependant, l'interprtation sera enrichie en ralisant la description du profil ligne compare celle du profil ligne moyen. On peut choisir diffrentes reprsentations sensiblement de mme intrt ; en voici trois permettant de comparer, par exemple, le profil ligne Toulouse et le profil ligne moyen.
60% 50% 40% 30% 20% 10% 0%
ferme marchs livraison domicile

1 Toulouse I profil ligne moyen

profil Toulouse

0%

20%

40%

60%

80%

100%

Figure 3.3 Profil ligne Toulouse (diagrammes en btons, en barres "groupes" et en barres "empiles").

43

Diagramme en btons Pour laborer ce graphique, on slectionne les plages grises sur le tableau prcdent (touche Ctrl pour slectionner des cellules distinctes) et on appelle l'assistant graphique. On choisit histogramme (onglet) et histogramme group (schma). Les onglets des tapes 1 et 2 sont automatiquement pr-renseigns. L'esthtique du graphique et son emplacement se rglent au cours des tapes 3 et 4. Diagramme en barres "groupes" La procdure est la mme sauf l'tape 2/4 o l'on coche "Srie en colonnes". Diagramme en barres "empiles" La procdure est identique. Dans ce qui suit, afin de ne pas alourdir cet expos, nous n'illustrerons les autres profils lignes qu'au moyen d'un graphique rcapitulatif ralis au moyen d'un diagramme barres groupes.

profil ligne moyen AUTRE environs SAINT-GAUDENS SAINT-GAUDENS environs TOULOUSE TOULOUSE 0% 10% 20% 30% 40% 50% 60% 70% Q livraison domicile marchs 0 ferme

Figure 3.4 Profil ligne et profil ligne moyen des lieux d'habitation (diagramme en barres "groupes"),

Commentaires et interprtation Le profil moyen est le score des modes de commercialisation prfrs tous secteurs gographiques confondus Son commentaire est le mme que prcdemment (voir distributions relatives marginales). Le profil ligne moyen sert de rfrentiel aux diffrents profils lignes. Le poids associs aux profils lignes mesure l'importance de chaque secteur dans l'chantillon global (voir le commentaire des distributions relatives marginales). Chaque profil ligne est examin (hirarchie des modalits selon leur importance). Le profil ligne est ensuite compar au profil ligne moyen. Cette comparaison dgage l'originalit, la spcificit du profil ligne considr. Par exemple, propos du profil ligne "Toulouse", on constate que, parmi les enquts de cette zone, une forte proportion prfre la vente la ferme et celle sur les marchs (respectivement 42% et 46%) ; seulement 12% prfrent la vente domicile. Parmi les forts pourcentages, on remarque cependant que la proportion d'enquts toulousains optant pour la ferme est infrieure celle de l'ensemble des enquts (42% contre 50%). Au contraire, le pourcentage d'enquts Toulousains prfrant les marchs est nettement suprieur celui du profil moyen (46% contre 36%). Ce profil a un poids trs important (36%).
44

Examinons plus rapidement les autres profils. Environs de Toulouse - forte importance de "ferme" mais infrieure celui du profil moyen - forte importance des marchs mais trs proche du score gnral - faible importance de la livraison domicile, mais suprieur l'ensemble Saint-Gaudens : profil trs proche du profil moyen. Environs de Saint-Gaudens : profil trs typ. - Prfrence trs marque pour la vente la ferme, nettement suprieure celle du profil moyen (66% contre 50%) ; cela peut s'expliquer facilement si l'on prcise que le producteur habite ces environs - seulement 26% des enquts de ce secteur prfrent acheter au march (36% pour l'ensemble) - seulement 8% sont favorables la vente domicile (le double pour l'ensemble). - Enfin, il faut rappeler que ce profil concerne 26% de l'chantillon. Ce profil est certainement important pour orienter la dmarche du producteur. Autre : profil galement trs typ mais diffrent du prcdent. - forte attirance pour la livraison domicile (32% contre 14% pour le profil moyen) - ce profil a un faible poids dans l'chantillon, peu prs 10%. On devine que, concrtement, le producteur devra tudier de plus prs cette cible potentielle compte tenu des frais engendrs par la livraison domicile et de la faiblesse du poids associ. Synthse des profils lignes : tous secteurs confondus. - profil moyen : Ferme (50%) > March (36%) Domicile (14%) - dans tous les secteurs gographiques except "Autre", les modes de commercialisation "Ferme" et "Marchs" sont les plus cits ; en rassemblant ces deux modes de vente, le taux de prfrence passe de 81 % 92% selon les secteurs - dans tous les secteurs sauf Toulouse, c'est la vente la ferme qui prdomine ; cela n'est pas surprenant compte tenu des valeurs du profil moyen. On peut remarquer que, mme si Toulouse prfre les marchs, l'cart reste minime (moins de 5%) - pour le producteur, les possibilits se dessinent assez clairement. En ce qui concerne la vente la ferme, selon les secteurs, de 41% 66% des personnes sont intresses. Pour la vente la ferme et sur les marchs, en excluant le secteur "Autre", 81% 92% des enquts sont intresss selon les secteurs. 3.2.3.4. Profils colonnes

La dmarche est analogue la prcdente : il suffit d'changer les rles lignes-colonnes. Nous obtenons les rsultats numriques et graphiques du tableau 3.4 et de la figure 3.5. Commentaires succincts Le profil colonne traduit la participation relative de chaque secteur gographique au score obtenu par un mode de commercialisation. Les environs de Saint-Gaudens contribuent 35% au profil "ferme", Toulouse 26%, Saint-Gaudens 16%, les environs de Toulouse 15% et seulement "Autre" 8%.

45

Au profil, on associe le poids qui reprsente l'importance du profil dans l'chantillon global. Ainsi, au profil "ferme" est associ un trs fort poids (41%) qui exprime le pourcentage d'enquts ayant prfr ce mode de commercialisation compar "marchs" (36%) et "domicile" (14%).
Profils colonnes Toulouse Environs Toulouse Saint-Gaudens Environs Saint-Gaudens Autre Total Poids Tableau 3.5 Ferme 26% 15% 16% 35% 8% 100% 50% Marchs 40% 17% 17% 19% 7% 100% 36% Domicile 27% 22% 14% 14% 23% 100% 14% Profil colonne moyen 31% 17% 16% 26% 10% 111111111 100%

Profils colonne "mode de vente prfr".

Figure 3.5 Profils colonne "mode de vente prfr".

Dans cet exemple, le profil colonne moyen reprsente simplement l'importance de chaque secteur dans l'chantillon, c'est dire tous modes de commercialisation confondus. On reconnat la distribution marginale colonne des frquences relatives commente prcdemment. Le profil colonne moyen sert de rfrence aux diffrents profils colonnes. Dcrivons succinctement chaque profil colonne. Ferme : Comme pour le profil moyen, on note une forte participation des secteurs "Toulouse" et "environs de Saint-Gaudens". Cependant, la participation de Toulouse reste infrieure d'environ 5% au pourcentage des Toulousains dans l'chantillon ; par contre, la participation du secteur environs de Saint-Gaudens dpasse nettement celle du profil moyen (9% en plus) Marchs : Comme dans le profil moyen, on note une forte participation des secteurs "Toulouse" et "environs de Saint-Gaudens". On remarque qu'en proportion davantage de Toulousains ont prfr ce mode de vente qu'il n'y a de Toulousains dans l'chantillon global (environ +9%). Par contre, mme si la participation du secteur "environs de Saint-Gaudens" est importante, elle reste infrieure celle du profil moyen.

46

Domicile : ce profil est trs typ et trs diffrent du profil moyen. 27% des suffrages obtenus par ce type de vente proviennent de Toulouse. C'est la contribution la plus importante, cependant infrieure celle du profil moyen. On trouve ensuite les secteurs "Environs de Toulouse" et "Autre" (22% chacun, suprieur au profil moyen). En particulier, on remarque que 22% des choix de ce mode proviennent du secteur "Autre" alors que ce secteur ne reprsente que 10% de l'chantillon. On peut comprendre que, concrtement, ces personnes n'habitant pas en permanence dans ces zones prfrent tre livres domicile. Rappelons que ce profil a un poids beaucoup plus faible dans l'enqute. Synthse des profils colonnes Toulouse et les environs de Saint-Gaudens contribuent fortement aux profils des trois modes de vente. En ce qui concerne les profils "ferme" et "Marchs", les contributions essentielles sont issues des secteurs "Toulouse" et "Environs de Saint-Gaudens" ce qui est naturel compte tenu de la composition de l'chantillon global (profil colonne moyen). Environ 60% des voix recueillies par chacun de ces deux modes de commercialisation proviennent de ces deux secteurs ; ceci correspond l'importance de la reunion de ces deux secteurs dans l'chantillon. Il est par ailleurs essentiel de rappeler l'importance des poids associs ces deux profils "Ferme" et "Marchs" (respectivement 50% et 36%). Concrtement, nous retrouvons des lments de convergence avec les rsultats fournis par l'analyse descriptive des profils lignes qui, dans cet exemple, semble plus riche. 3.3. COUPLE VARIABLE QUANTITATIVE - VARIABLE QUALITATIVE

Exemple : nombre de jours dformation selon les catgories de personnel 3.3.1. Prsentation des donnes et position du problme Dans le chapitre consacr la statistique descriptive univarie, nous avons dcrit les variables quantitatives discrtes et continues, ces deux types de description tant trs proches. Pour tudier le croisement d'une variable quantitative avec une variable qualitative, il suffit en fait de dcrire la variable quantitative pour chacune des modalits de l'autre. ventuellement, on peut ajouter la description de la variable quantitative sur l'ensemble des observations. Dans une entreprise de constructions mtalliques, en fin d'anne, on fait le bilan des diverses formations suivies par les salaris. Dans cet exemple, on considre uniquement les stages de formation continue et l'on s'intres e au nombre de jours de formation selon les catgories de personnel.
SECRETARIAT TECHNIQUE COMPTABILITE ENTRETIEN 1 1 1 8 8 8 4 4 4 12 3 5

2 2 2 3 3 3 3 3 3 3 4 4 4 4 5 5 5
8 8 8 8 8 8 8 8 8 10 10 9 9 9 9 5 6 4 4 4 4 3 3 3 5 5 5 2 2 6 6 10 10 10 6 14 3 3 4 4 6 6 2 1 1 1 1 3 5 5 8

SECRETARIAT TECHNIQUE COMPTABILITE ENTRETIEN

6 6 7 7 10 15 11 12 7 7 7 7 7 6 6 6 4 4 12 3 12 2 2 15 15 10 10 10 10 9 9 9 11 11 11 8 8 12 12 7 15 8 10 10 11 9 7 4 2 3 4 8 12 12 3 8 8 9 15 15 15

Tableau 3.6

Nombre de jours de formation selon la catgorie.

On distingue quatre grandes catgories : le secrtariat, le service technique, le service de gestion comptable et le service d'entretien. Pour chaque salari concern de chaque catgorie, on a relev la dure totale de formation en nombre de jours et on obtient les rsultats indiqus
47

sur le tableau 3.4 (pour des raisons d'dition, ce tableau est prsent ici en deux morceaux, l'un au dessous de l'autre. Sur le tableur, il convient de le saisir "en colonnes" par exemple). Question : raliser une analyse statistique descriptive de ces donnes.

3.3.2. Dmarche statistique et rsultats


Les outils statistiques et la mise en uvre sur Excel ayant t approfondis dans le chapitre de statistique descriptive univarie, nous proposons d'en exposer simplement les rsultats. Comme on le fait souvent en pratique, nous faisons le rsum de l'information l'aide des paramtres statistiques suivi des distributions de frquences visualises par les histogrammes. 3.3.2.1. Paramtres statistiques

Description de chaque catgorie Pour le calcul des paramtres statistiques de chaque catgorie, nous conseillons de calculer tous les paramtres statistiques de la premire catgorie (secrtariat) en travaillant en rfrences relatives. Pour les autres catgories, il suffira ensuite de slectionner l'ensemble des rsultats et d'utiliser la poigne de recopie. Remarques Pour renseigner la plage des donnes, il est indispensable de considrer les mmes dimensions pour les plages de valeurs de toutes les catgories, soit la dimension maximale (40 observations dans notre exemple), soit une taille suprieure en prvision d'autres calculs dans cette tude ou mme pour servir de modle des tudes ultrieures. En effet comme Excel gre les manquants, on peut affiner d'autant plus une tude statistique que l'on prvoit son utilisation pour d'autres cas. En rsum, dans notre exemple :
SECRET TECHN COMPTA ENTRET

1
2 3 4 26 27

1 1 1

12 3

2 15 11

8 8 8 7 6 6 2 2
15

4
4 4 9

5
6

7
4 2

28
35 36 37 38

9 11
7

15

15

39 40

8 8 9 15 15 15

Pour la plage des donnes, il faut slectionner un nombre de lignes ni au moins gal 40. On a not : - SECRET pour Secrtariat - TECH pour Technique - COMPTA pour Comptabilit - ENTRET pour Entretien.

Pour une telle tude descriptive, nous conseillons de ne pas nommer les plages de donnes de chaque catgorie. Cela permet d'utiliser les rfrences relatives et de bnficier ainsi de l'utilisation de la poigne de recopie pour les autres catgories et, de plus, entrane un gain de temps apprciable et d'autant plus important que le nombre de modalits de la variable qualitative est grand.
48

Par contre, il sera trs pratique de nommer les plages de donnes dans le cadre d'autres calculs (par exemple pour l'application future de tests statistiques).

Description de l'ensemble Sur le plan concret, rsumer l'information sur l'ensemble des donnes peut parfois tre discutable car il peut tre maladroit de "tout mlanger". Dans d'autres cas, une synthse gnrale peut au contraire servir de rfrence. Sur Excel, on peut utiliser au moins deux mthodes : - cette fois, on nomme D la zone des valeurs (40 lignes, 4 colonnes). On place l'ensemble des paramtres statistiques dj calculs sur une 5e colonne et, dans la barre de formule, pour chaque paramtre statistique, on remplace les rfrences relatives des plages de donnes par D - l'aide de copier-coller successifs, on peut aussi remplir une 6e colonne de l'ensemble des donnes, le nombre n1 de lignes mentionn dans la "description de chaque catgorie" devenant au moins gal au nombre total d'observations. Tout se passe alors comme si l'on avait une 5" catgorie et on peut utiliser la poigne de recopie pour en obtenir les rsultats. Les deux procds sont peu prs aussi rapides, le 1er tant plus "esthtique" au niveau de la prsentation des donnes.
PARAMETRES STATISTIQUES SECRET TECHN COMPTA ENTRET 36 2 40 1

NBVAL MIN QUARTILE 1 MEDIANE QUARTILE 3 MAX MOYENNE ECARTYPEP CV COEFFICIENT.ASYMETRIE KURTOSIS tendue IQR

27 1 3 4 5,5 15 4,556 3,178 70% 1,702 3,332 14 2,5

38 2 6,25 8 9 15 7,816 2,882 37% 0,371 0,958 13 2,75

4 7,5 10 15 7,222 3,384 47% 0,177 -1,067 13 6

3 6 9,25 15 6,650 4,181 63% 0,532 -0,738 14 6,25

Ensemble 141 1 4 6 9 15 6,709 3,653 54% 0,446 -519,000 14 5

Tableau 3.7

Paramtres statistiques du nombre de jours de formations selon les catgories et globalement.

Commentaires Comparons les 4 catgories. - Extrmes Quelles que soient les catgories, le nombre de jours de formation se situe dans la mme gamme de valeurs: de 1 2 jours au minimum 15 jours au maximum. - Mdianes Les mdianes diffrent selon les catgories. La plus faible valeur concerne le secrtariat. La moiti des secrtaires concerns prennent entre 4 et 15 jours de formation alors que la moiti des salaris comptables ou du service technique prennent entre 8 et 15 jours. Le rsultat est intermdiaire pour le service d'entretien. - Moyennes Pour chaque catgorie, on remarque pour ce paramtre des rsultats trs proches de la mdiane. En moyenne, la dure de formation au secrtariat est de 4, 5 jours contre 7,8 au service technique et la comptabilit ; le service entretien est ici aussi intermdiaire (6 jours).
49

En rsum, en considrant mdianes et moyennes, il apparat que les dures de formation dans les services techniques et comptables sont plus levs que dans les autres. - Quartiles 50% des secrtaires suivent des formation entre 3 et 5,5 jours alors que 50% des salaris du service technique suivent des formations de 6 9 jours On remarque des intervalles interquartiles (IQR) similaires (2,5 et 3 jours). A la comptabilit, 50% des formations ont une dure comprise entre 4 et 10 jours ; mme constat au service entretien (dcalage de 1 jour en moins) Pour ces deux catgories, l'IQR (environ 6 jours) dpasse le double de celui des deux autres catgories. - cart-types et coefficients de variation Les cart-types sont de l'ordre de 3 4 jours. Par suite, sans comparaison relative la moyenne, ces indications de dispersion sont proches. Les coefficients de variation (cart-types exprims en proportion de la moyenne) sont trs levs : il y a donc beaucoup de dispersion autour de la moyenne. Ce dernier paramtre n'est donc pas un bon rsum des donnes. Si l'on utilise le CV comme outil de comparaison et donc de l'htrognit des 4 catgories, il apparat que les plus levs sont relatifs au secrtariat et au service entretien. Pour ce dernier, l'importance de l'intervalle inter-quartile avait dj t remarque : ceci exprime une forte dispersion de la distribution qui, elle-mme, engendre un fort CV. En ce qui concerne le secrtariat, le fort CV est en partie d la faible moyenne de la dure de formation ce qui, en relativit, dilate la dispersion. C'est le phnomne inverse qui explique que le CV du service technique est pratiquement gal la moiti de celui du secrtariat - Coefficients de forme Nous remarquons la singularit de la catgorie secrtariat : dissymtrie gauche, faible aplatissement. Les distributions de frquence assorties des histogrammes permettront de mieux approcher cette singularit. Description de l'ensemble des catgories Examins isolment, ces rsultats constituent une bonne synthse pour l'entreprise : chacune des catgories peut tre compare l'ensemble considr alors comme rfrence. On remarque que le service d'entretien ressemble assez bien l'ensemble (except l'cart-type et par suite le CV). Concrtement, il est intressant qu'une catgorie relle soit, en quelque sorte, reprsentative de l'ensemble , lors de la comparaison des 4 catgories, nous avons remarqu le caractre intermdiaire de ce service notamment entre le secrtariat et "service technique + comptabilit". Par suite, relativement ces deux groupes de catgories, nous retrouvons les remarques dj faites mais, cette fois, par rapport l'ensemble. Remarque : le nombre d'observations de chaque catgorie fourni par la fonction NBVAL se passe de commentaires! En pratique, on prpare souvent une grille type pour ses traitements courants. Pour de futurs calculs statistiques, il est important de connatre les tailles d'chantillons. 3.3.2.2. Distributions de frquences et histogrammes Classes 2 "^ signifie nombre de jours ^ 2 ^ signifie 2 < nombre de jours 4
<4

Nous choisissons des classes d'amplitude 2 et formons la matrice des classes cicontre.

6 12 > 12

50

Distribution des frquences absolues On utilise la fonction FREQUENCE dont la manipulation a t explique dans le chapitre prcdent (statistique univarie). Comme ci-dessus, nous conseillons de calculer la distribution de frquence pour la 1re srie statistique (secrtariat) et d'utiliser ensuite la poigne de recopie pour les autres catgories, pour renseigner la bote de dialogue, on fera attention aux types de rfrences pour la 1re distribution (matrice-donnes en rfrences relatives et matrice-intervalles en rfrences absolues. On contrlera l'exactitude du total (gal NBVAL de la 1re catgorie).
Classes 2 4 6 8 10 12 >12 Total
SECRET 6 11 TECHN 2 COMPTA ENTRET 6 10 6

5 2 1 1 1 27

3 5 17 6 3 2 38

2 10 5 3 10 5 1 36

6 4 4 4 40

Classes SECRET 2 22% 4 41% 6 18% 8 7% 10 4% 12 4% >12 4% Total 100%

TECHN

COMPTA ENTRET

5% 8% 13% 45% 16% 8% 5% 100%

5% 28% 14% 8% 28% 14% 3% 100%

15% 25% 15% 15% 10% 10% 10% 100%

Tableau 3.8

Tableaux des distributions de frquence des jours de formation selon les catgories. b) Distribution des frquences relatives (DFR)

a) Distribution des frquences absolues (DFA) Distribution des frquences relatives

Les nombres d'observations des sries statistiques sont gnralement diffrents. Pour comparer les distributions, on doit calculer les frquences relatives. Ces pourcentages ne doivent pas tre sortis du contexte car les bases sont petites (27 individus).
50% 40% % 10% 30% 20 10% 4 ^-^-;^--1 6 8 10 12 >12 (ours 6 8 10 12 >12

^
2

o%4

jours

Secrtariat

Technique

30% T 25%
?^
'S'.;' -:;(,'!

4I:Q[

10% 5% 2

N^
4

as
6

10%
^'::.:4

^^^ sS^S 8

%<
12 >12

5%
2

Iv'
4

10

N^
6 8 10 12

ours

jours

>12

Comptabilit

Entretien

Figure 3.6 Histogrammes des jours de formation selon les catgories.

51

Sur Excel, on dtermine la 1re valeur (1re classe pour le secrtariat : 22%) en crivant dans cette cellule du tableau DFR le rapport 6 (rfrence relative) / 27 (rfrence absolue : fixer ligne) des cellules concernes du tableau DFA. Tirer ensuite la poigne de recopie (de 22 4) et ensuite de cette colonne la dernire. On veillera assortir ces cellules du format "Pourcentage" avec le nombre de dcimales dsir. Graphiques : L'laboration de ces histogrammes est explique dans le chapitre prcdent (statistique univarie). On utilise l'Assistant graphique qui ne prsente aucune difficult particulire. On peut galement grouper l'ensemble des catgories sur un mme graphique, mais si l'on gagne en concision, on risque de perdre en clart s'il y a trop de catgories et de classes. distribution des frquences relatives

Q SECRETARIAT TECHNIQUE D COMPTABILITE B SERVICE

10

12

>12

nombre de jours de formation Figure 3.7 Distribution des frquences relatives des jours de formation selon les catgories.

Commentaires et interprtation Pour le Secrtariat, la distribution est fortement dissymtrique (gauche). La classe modale ]2j, 4j] contient 40% de l'effectif, soit 11 individus La moyenne n'appartient pas cette classe et est au-del de cette classe ; cela ne surprend pas dans une telle dissymtrie. En ce qui concerne le Service Technique, la distribution prsente une bonne symtrie. La classe modale ]6j , 8j] contient la moyenne et la mdiane ce qui renforce l'intrt de ces paramtres pour rsumer la srie statistique. Pour la Comptabilit, la distribution est bimodale. Les classes modales ]2j, 4j] et ]8j ]8J , lOj] contiennent chacune peu prs 28% de l'effectif de la catgorie soit 10 individus. La mdiane et la moyenne sont dans la classe ]6j, 8j] qui couvre 8% des effectifs. Ici, l'interprtation courante et botienne de la moyenne est particulirement fausse : peu d'individus ont suivi une formation de dure gale cette moyenne. Cette distribution met bien en vidence le danger de la moyenne en tant que paramtre rsum en statistique descriptive Enfin, pour le Service Entretien, aucune structure n'apparat dans cette distribution. Malgr plusieurs tentatives de dcoupage en classes, c'est souvent le cas. Il faut admettre que la ralit n'accepte pas toujours un lissage aussi harmonieux que celui de la loi Normale.

52

En rsum, ce petit exemple donne un aperu de la diversit des distributions rencontres le plus souvent dans la pratique : - distribution dissymtriques - distribution symtriques du type loi gaussienne - distributions bimodales - distributions quelconques. Il est intressant de remarquer galement la place du traditionnel paramtre statistique, la moyenne, dans ce type d'tude. Histogramme global Bien entendu, on retrouve les commentaires prcdents. Dans l'ensemble, la distribution du secrtariat est dcale vers la gauche par rapport aux autres, ce qui signifie que les dures de formations des secrtaires sont plus faibles que dans les autres services. On remarque immdiatement l'importance de la classe modale du service technique (forte proportion) relative en outre, un nombre de jours important. Les deux modes de la Comptabilit encadrent le mode du Service Technique. Les pratiques contrastes de la Comptabilit apparaissent clairement. 3.4. COUPLE VARIABLE QUANTITATIVE - VARIABLE QUANTITATIVE

Exemple : volution de la qualit des armes d'un vin en fonction de la concentration en acide malique 3.4.1. Prsentation des donnes et position du problme Dans un institut technique, on tudie un vin du Sud-ouest issu d'un certain terroir. Dans cette tude, on s'intresse la corrlation ventuelle entre la qualit des armes du vin et sa concentration en acide malique mesure dans le mot. La finalit serait de pouvoir prdire la qualit des armes partir de la concentration en acide malique. La qualit des armes est indique par une note fournie par un jury de dgustation selon une chelle croissante de 0 10. La concentration en acide malique est exprime en g/l. On dispose ainsi des n = 33 observations reportes sur le tableau 3.7 (Dans Excel, ce tableau doit tre saisi sur une seule paire de colonnes).
Acide

malique
QUALITE
DES AROMES Acide

9,6 6,5 4,5 5,0 5,2 5,1

9,5 10,0 9,6 10,2 10,4 10,3 6,5 6,7 6,6 4,3 4,7

3,5 1,0 1,0 1,5 2,5 3,0 5,0 6,0 5,5 6,0 7,0 7,0 2,0 4,5 3,5 3,0 4,0 4,5 7,8 8,2 8,0 10,4 10,8 10,5 8,0 8,4 8,2 6,0 6,4 6,2 6,8 6,6 10,1 3,5 4,5 6,0 5,5 8,0 8,5 8,0 5,5 7,0 6,5 5,0 6,0 6,0 6,5 4,5 9,0

malique
QUALITE DES AROMES

Tableau 3.9

Note de qualit des armes et concentration en acide malique.

Questions a) Dcrire la liaison entre ces deux critres au moyen de paramtres statistiques et, graphiquement, au moyen d'un "nuage " de points. b) Ajuster ce nuage par une droite de rgression (ou "droite des moindres carrs").

53

c) On dispose de 5 nouvelles mesures de concentration en acide malique. Prdire la note de qualit des armes des vins obtenus au moyen du modle fourni par la droite d'ajustement prcdente. On notera Y la qualit des armes. C'est la variable expliquer ou variable dpendante. La concentration en acide malique (en g/l) sera note X. C'est la variable explicative ou prdicteur.

3.4.2. Reprsentation graphique : diagramme de dispersion


La manire la plus simple et la moins dformante de dcrire une srie statistique double est de la visualiser par un nuage de points (diagramme de dispersion). Sur la feuille Excel, il faut slectionner la plage des donnes (dans l'ordre X Y) et appeler l'assistant graphique. On choisit "Nuage de points" (simple nuage). Cliquer ensuite sur "Suivant" : la plage des donnes indique les colonnes prslectionnes. On prsente ensuite titres et axes selon ses choix. Rappelons qu'en positionnant le curseur sur un point quelconque du nuage, une info bulle indique les coordonnes de ce point et permet ainsi de l'identifier

10 , 9

Qualit des armes * 4 * *

"

3 2 1

Concentralion acide malique (en g/1)

10

11

Figure 3.8 Relation note de qualit des armes et concentration en acide malique (en g/l).

On constate que le nuage s'tire longitudinalement dans le sens de croissance de la qualit des armes avec la concentration en acide malique.

3.4.3. Rsum des donnes au moyen des paramtres statistiques


3.4.3.1. Prsentation des outils statistiques Paramtres statistiques marginaux Les paramtres moyenne et variance constituent un premier rsum de chaque srie. l " x=^x, 1 " y=-y,y, n ^ 1 " Varx =o^ = ^ ( x , - x ) 2 1 " Vary=o^=-^(y,-y)2 n t-i

54

: nous choisissons d'exprimer ces paramtres en considrant les sries "X" et "Y" crites au sens large ( xi < xi+1 Vi=l,n e t y , < y , , , Vi = 1, n ), usage le plus frquent et le plus adapt Excel. Le couple ( x , y ) dfinit le centre de gravit ou barycentre de la srie double (X , Y) ou encore du nuage de points. Notons G ce point de coordonnes ( x , y ). Paramtres statistiques bidimensionnels La covariance entre x et y se dfinit par (^(x.y^-'-^x.-xXy.-y^-'-SPE "M n
n _ _

Remarque

avec la Somme de Produits des carts SPE=^(x, -x)(y, -y).

y ,t,

Si

<)

(f~) G1 S. '>

Notons Si, Sa, 83 et S4 dlimits par les droite " i V 1 --f\Jl J f

S3)

Dans les secteurs S2 et S3, les termes produits Pi contribuent positivement la covariance et expriment une relation croissante entre les variables x et y. C'est l'inverse dans les quadrants S1 et S4, soit, finalement : - Cov (x,y) > 0 => y fonction croissante de x - Cov (x,y) < 0 => y fonction dcroissante de x - Cov (x,y) = 0 => les contributions positives et ngatives des produits Pi se compensent. Deux cas particuliers sont galement possibles : x,-x Vie{l,2,...,n} (1) y,-y Vie{l,2,...,n} (2) Dans ces cas particuliers, l'une des deux sries est constante : (1) les points sont situs sur la droite x = x (2) les points sont situs sur la droite y = y . Remarque : tout comme la variance, la covariance est lie aux units. Par suite, la valeur numrique de la covariance est peu exploitable en pratique. On peut indiquer le changement de variable alatoire affine pour percevoir l'importance de cette remarque : Cov (ax + b , cy + d) = ac Cov (x,y) (a, b, c et d tant des coefficients rels). La proprit fondamentale de la covariance est que sa valeur absolue est infrieure ou gale au produit des carts-types :
|Cov(x,y)|< O,CT,

Dans le cas de l'galit, il a liaison linaire entre x et y : y = ax + b (a et b rels).

55

Le coefficient de corrlation linaire entre X et Y, not r(x,y) est dfini par Cov(x,y)
avec CT. et o,, ^O

Le coefficient de corrlation est du mme signe que la covariance ; on peut donc faire son sujet les mmes remarques relativement au caractre croissant ou dcroissant de la relation entre x et y : 0<r< 1 -1<r<0

x/' => y \

D'aprs la proprit fondamentale de la covariance, il apparat que |r|<l <S> - K r < l r = l o liaison linaire entre x et y. Le coefficient de corrlation r(x,y) mesure donc l'"intensit" de la liaison linaire entre x
et y.

>- Remarques - Le coefficient de corrlation est indpendant des units. Par suite, c'est un paramtre statistique frquemment utilis. - r = 0 traduit l'absence de liaison linaire entre x et y. Le nuage (x,y) peut ne prsenter aucune structure ou prsenter une structure autre que linaire comme sur les figures suivantes.

r=0

Lorsque r = 1 , le nuage de points "s'tire linairement". Nous dconseillons cependant une telle conclusion conscutive la lecture seule du coefficient de corrlation. Nous recommandons l'examen du nuage de points. En effet, dans quelques cas exceptionnels, quelques points rares et marginaux peuvent entraner la linarit.

56

A y ;'*/* /
-> x I> x

Frquent

Parfois...

Il est clair que, dans ce deuxime cas de figure, il convient de diffrencier deux sousensembles de points. Rappelons que corrlation n'implique pas causalit. La recherche des causes incombe au spcialiste du sujet trait et non au statisticien! 3.4.3.2. Mise en uvre au moyen d'Excel

Paramtres statistiques marginaux Moyennes (fonction MOYENNE) - acide malique : 7,62 - qualit des armes : 5,03 - centre de gravit : G (7,62 ; 5,03) (point moyen du nuage). Variances (fonction VAR.P) - qualit des armes : 4,38 - acide malique : 4,33. carts-types (fonction ECARTYPEP) - qualit des armes : 2,09 - acide malique : 2,08. Coefficient de variation - qualit des armes : 42% - acide malique : 27%. Les valeurs de ces paramtres statistiques sont peu interprtables pour un non praticien ; seul le coefficient de variation traduit une plus forte dispersion de la qualit des armes. Paramtres statistiques bidimensionnels La fonction COVARIANCE donne 3,293. Cette valeur tant positive, la qualit des armes Y est une fonction croissante de la concentration X en acide malique. Dans la bote de dialogue de la fonction COEFFICIENT.CORRELATION, on renseigne "Matrice1" en slectionnant les valeurs de la concentration en acide malique et la zone "Matrice2" par les valeurs de la qualit des armes. On trouve la valeur 0,756. Cela signifie que la confrontation de la valeur positive et relativement leve de ce coefficient la visualisation du nuage de points traduit une linarit relativement convenable entre la qualit des armes et la concentration en acide malique. La qualit des armes est une fonction croissante de la concentration en acide malique.

57

3.4.4. Rgression linaire simple de y en x ou droite de rgression 3.4.4.1. Objectif Les statistiques descriptives prcdentes nous orientent vers la recherche d'un modle linaire Y=AX+B+ permettant de prdire la qualit des armes (Y) partir de la concentration en acide malique (X). La rgression est dite simple car on ne considre qu'une seule variable explicative. 3.4.4.2. Outil statistique

II s'agit de dterminer les coefficients de l'quation de la droite y = ax + b.

On recherche les coefficients rels a et b (meilleures estimations de A et B) tels que la droite y = a x + b soit "la plus proche" possible du nuage de points au sens des moindres carrs. (a,b) ? tels que Ve,2 minimum avec e, = y, -(ax, +b). i-i Le calcul de cette optimisation conduit aux rsultats Soit :
a^0^) Varx b^y-x^^t [ varx J
n

Par suite, l'quation de la droite de rgression (selon le critre des moindres carrs) Cov(x,y) , s crit y - y = (x-x).
Varx

Remarque : la droite de rgression passe par le centre de gravit G(x, y) Notation et vocabulaire - y, ^ ax, + b : estimation de la valeur de y par le modle ou valeur de y prdite pour y lorsque x = x,. - y, - y, = y, -(ax, +b) = e, est appel "rsidu" ou erreur. Indice de qualit et coefficient de dtermination On tablit l'quation de l'analyse de variance : SC E y Variabilit totale de Y SPE yy SC E Variabilit due aux rsidus

Variabilit explique par le modle rgression


58

La qualit de la rgression est souvent exprime par le coefficient de dtermination not SPE R . Ce coefficient est la proportion de variabilit explique par le modle : R 2 = SCE, Le coefficient de dtermination est le carr du coefficient de corrlation entre y et x soit R2 - r2 (x,y). Proprits des rsidus - La moyenne des rsidus est nulle : e = 0. - Les rsidus ne sont corrls ni avec x ni avec y : r(e,x)= 0 et r(e, y) = 0. 3.4.4.3.
re

Mise en uvre sur Excel

1 mthode On aboutit facilement la droite d'ajustement et au coefficient de dtermination partir du nuage de points affich sur la feuille. Au moyen d'un clic droit sur un point quelconque du nuage, on slectionne tous les points. Sur le menu contextuel qui apparat, choisir "Ajouter courbe de tendance". Dans la fentre "Insertion de courbe de tendance", l'onglet "options" permet d'afficher sur le graphique l'quation ainsi que le coefficient de dtermination R . Le modle permettant de prdire la qualit des armes partir de la concentration en acide malique est y = 0,76 x - 0,77. Quand la concentration augmente d'une unit, la note de qualit des armes augmente de 0,76.
QUALITE DES AROMES
10

VI (D <D 03 3 00

-.... ^

y =0,7609x-0,7712
R2 = 0,5724

!fi

6 4 2

'5

c 0 2 4

-* ^^S 9 *^* ^-r^^* * S


6 8

10

12

acide malique

Figure 3.9 Droite d'ajustement de la note de qualit des armes en fonction de la concentration en acide malique (en g/l).

La qualit du modle est exprime par le coefficient de dtermination. 57% de la variabilit de la qualit des armes est explique par ce modle. Remarque : cette mthode est extrmement rapide et conviviale ; sa seule faiblesse rside dans le fait que l'on ne peut rcuprer "directement" l'quation de la droite de rgression affiche dans le graphique afin de raliser des prdictions et de calculer les rsidus. 2e mthode On dtermine sparment chacun des coefficients a et b. Pour dterminer le coefficient a, on utilise la fonction PENTE, e rsultat est 0,761. Le coefficient b est fourni par la fonction ORDONNEE.ORIGINE. L'argument "Y_connus" est saisi en slectionnant les valeurs de la qualit des armes et l'argument
59

"X connus" en slectionnant les valeurs de la concentration en acide malique. On trouve 0,771. On en dduit bien entendu le mme modle y = 0,761 x -0,771 que nous avons interprt ci-dessus Calcul des rsidus et des valeurs prdites Le tableau suivant donne les rsultats de diffrents calculs : - qualits des armes yi estimes par le modle - rsidus ou erreurs associs ces estimations - qualit des armes prdites pour de nouvelles valeurs de concentration en acide malique (chantillon test). Procdure - calcul de la 1re valeur de l'estimation de la qualit des armes : 9,6 (rf. relative) x 0,761 (rf. absolue) + (-0,771) (rf. absolue) - 6,53 - calcul du 1re rsidu : 3,5 (rf. relative) - 6,53 (rf. relative) ^ -3,03 - aprs avoir slectionn les cellules contenant ces rsultats, tirer la poigne de recopie jusqu' la dernire valeur du couple acide malique-qualit des armes (10,1 ;9) - prdiction de la qualit des armes de l'chantillon test : slectionner la dernire valeur prdite de l'chantillon de base et tirer la poigne de recopie vers le bas. Les prdictions s'affichent. Ces notes prdites peuvent galement tre obtenues partir de la fonction matricielle TENDANCE. Le calcul direct expliqu prcdemment nous parat plus pratique dans le cas du modle de rgression linaire simple. La fonction TENDANCE sera utilise dans le cas de la modlisation par rgression linaire multiple (Cf chap. 13, paragraphe 13.3.3).

PENTE ORDONNEEORIGINE 0,761 acide malique 9,6 6,5 -0,771 QUALITE DES AROMES 3,5 1 Qualit des armes prvue (ou estime) 6,53 4,17 Rsidus -3,03 -3,17

chantillon test

6,6 10,1 5,2 9,5 6,7 7,7 8

45 9 ^^^^^^^^^

4,25 6,91 3,19 6,46 4,33 5,09 5,32

0,25 2,09

Tableau 3.10

Note de qualit des armes prvue par le modle.

60

Remarque

: l'utilitaire d'analyse d'Excel (menu Outils puis "Rgression linaire") fournit une 3e mthode d'obtention de l'quation de la droite de rgression, du coefficient de dtermination et des rsidus. Cette mthode donne en plus un test de statistique infrentielle. Nous ne la prsentons pas dans ce paragraphe car elle sera utilise ultrieurement dans le chapitre "Rgression linaire multiple". La problmatique est la mme mais avec plusieurs variables explicatives ; on comprend que la rgression linaire simple n'est qu'un cas particulier de la rgression linaire multiple.

61

Deuxime Partie STATISTIQUE INFERENTIELLE

4. BASES THORIQUES RAPPELS DE PROBABILIT LOI DE PROBABILIT AVEC EXCEL


L'objet de ce chapitre est de rappeler les principaux lments de la thorie des probabilits utiles pour la comprhension ou l'approfondissement de la partie statistique infrentielle contenue dans cet ouvrage. Nous carterons les fondements et bases classiques gnralement bien connues des utilisateurs de mme que des lments plus spcialiss peu utiles dans la lecture de ce document. Dans ce qui suit, les variables alatoires seront notes X, Y, Z, T, U et selon les besoins indices. 4.1. RAPPELS DE PROBABILIT

4.1.1. Variables alatoires


4.1.1.1. Paramtres statistiques classiques Esprance mathmatique Variable alatoire discrte finie X(n)={x,,x;,...,x,,} ; p , = P ( X = x , ) Vi e{l,2,..,n} E(X)=^p,x, Notons que cette dfinition se gnralise au cas d'une variable discrte infinie. Variable alatoire continue E(X) = J xf(x)dx Variance Var X = E ^ ( x - E ( X ) ) 2 1 = c ^ (autre notation de Var X)
n

(f(x), densit de probabilit de X)

Var X = ^ p, ( x, - E( X ) )

(dans le cas o X est discrte)

Var X = E ( X 2 ) - [ E ( X ) ] 2 (formule de Knig) Covariance C o v ( X , Y ) - E [ ( X - E ( x ) ) ( Y - E ( Y ) ) ] (esprance du produit des carts l'esprance. C o v ( X , Y ) = E ( X Y ) - [ E ( X ) E(Y)] (formule de Knig)
Corrlation: r(X,Y)=cw^^
CTy CTy

65

4.1.1.2. Esprance et variance de fonctions fondamentales de variables alatoires T = a X + b (a et b, paramtres rels) - E(T) = a E ( X ) + b - VarT -a 2 VarX Z=X1+X2+...+Xn - E(Z) - E(X,) + E(Xz) + ... + E(Xn) - Si, de plus. Xi, X2, ..., Xn sont indpendantes : VarZ=VarX,+VarX2+...+VarXn - Xi, Xz, ..., Xn indpendantes ai, 2, . . , an paramtres rels
VarX,,

Dans le cas particulier o Var Xi = Var X2 = Var 4.1.2. 4.1.2.1.

" Var X, on a X,+X,+. ,+X 'l VarX

Lois de probabilit classiques Loi de Bernoulli (ou loi de l'indicatrice), de paramtre p

On considre une preuve alatoire E (ou vnement) l'issue de laquelle deux rsultats sont possibles : succs ou chec (respectivement cods 1 ^ 1 et 1 = 0) avec les probabilits respectives p et q = 1 - p. 1 est dite variable alatoire de Bernoulli de paramtre p. 1 P(I-i) 4.1.2.2. Loi binomiale 0 q 1 P l-^B(p) E(I)=p V a r l = p q

On considre une suite de n preuves indpendantes. A chaque preuve, deux rsultats sont possibles : E (succs) avec la probabilit p ou E (chec) avec la probabilit q = 1 - p. La variable alatoire X nombre de ralisations de E au cours des n preuves indpendantes est dite variable alatoire binomiale de paramtres n et p avec n e N , p e [ 0,1 ] Remarque : X = V I, o I; sont des indicatrices indpendantes.

- X->B(n,p) - P(X=k)=C^ p1- q"^ - E(X)=np Var(X)=npq 4.1.2.3. Loi de Poisson m e

Soit X une variable alatoire discrte infinie : X(f2)= {0,1,2,... } = N . La loi de Poisson de paramtre m est une loi thorique dfinie par P(X = k) = (loi de Poisson de paramtre m)
66

- E(X) = Var X - m Remarque : en pratique, cette loi est frquemment utilise dans le mme contexte que celui de la loi binomiale, mais pour des vnements rares. 4.1.2.4. Loi Normale ou loi de Laplace-Gauss

Soit X une variable alatoire valeurs dans R. On considre les paramtres m e R et o e R + . La loi Normale note N(m,o) est une loi continue dfinie dans R par sa densit de probabilit :
f(x)=,=e 2 oV27t

-'(?i-m)2

=y

X->N(m,o) E(X) = m VarX=o2

4.1.2.5.

Loi Normale centre rduite.

Soit X une variable alatoire valeurs dans R. La loi Normale centre rduite est une loi continue dfinie par sa densit de probabilit
g(x)=-

X-N(0,1)
IK ' ~ E(X)=0 VarX=l

Remarque ; le changement de variables x ' = et y ' = CT y permet de o transformer la loi N (m,o) en loi centre rduite N ( 0 , 1 ) de densit de probabilit 1 -^ n 4.1.2.6. Loi du X (ou Khi-deux) .

Figure 4.1 Densit de probabilit de la loi du Khi-deux. Y suit une loi de X 2 v degrs de libert (ddl) note Xv lorsque
Y = X,2 + Xa2 + +Xv

o les X, sont des variables alatoires N(0,1) indpendantes. E(Y) = v et Var Y = 2 v.

67

4.1.2.7.

Loi de Student

T suit une loi de Student v degrs de libert (ddl) note Tv lorsque


T=X +X +..-+X:,

o les X, sont des variables alatoires N(0,1 ) indpendantes.


16-t-T

E(T)=0 et Va^T= \

v-2
*** 3 2 1

0,08 , 0^)6 ^ *0.04

> Remarque : T = =
|X(V)

0 02

'^ 2 3

Figure 4.2 Densit de probabilit de la loi de Student. Lorsque v -> oo (en pratique, v >30), T^ N(0,1). 4.1.2.8. Loi de Fisher-Snedecor

F suit une loi de Fisher-Snedecor (vi, V2) ddl lorsque

F=

o les Xiet les Yi sont des variables alatoires N(0,1) indpendantes. E(F).^
v,-2 VarF= 2v^2 (v,+v;-2) v,(v,-2)2(v,-4)

Figure 4.3 Densit de probabilit de la loi F de Fisher-Snedecor.


68

Remarque 4.1.3. 4.1.3.1.

: F=

2 Xl(vl:1 112 / 2(V2) rapport de 2 /2 indpendants, chacun divis par son ddl.
Vl V2

Convergences Ingalit de Bienaym-Tchebychev

P[|X-E(X)|>s]<^P[|X-E(X)|>to]<4P[[X-E(X)|<e]>l-^
0

(o=VVarX) teR

P[|X-E(X)|<to]>l--^-

4.1.3.2.

Thorme central limite

Soient n variables alatoires indpendantes de mme esprance mathmatique m et de mme variance o2. La variable alatoire, moyenne arithmtique des n variables alatoires Xi, X, ..., Xn soit X = '2"- est asymptotiquement normale ; autrement dit, quand n n est grand, X suit approximativement une loi Normale V(m,). En pratique, l'approximation ^n est frquemment ralise ds que n > 30.

4.1.4. Principales utilisations statistiques des lois du x2etde Student


4.1.4.1. Prsentation du contexte gnral 1 On considre : - une variable alatoire X ; X(Q) = R E(X) = mo ; Var X = oo2 - n variables alatoires Xi indpendantes distribues comme X : E(Xi)=mo ;VarX;=oo 2 Vi e {1,2,..,n} - les fonctions de variables alatoires :
i n 1 n _ FF

X=-Y'X et S^Y^X-X)^

avec

SCE=Y(X-X)2

"

nt n-1^ "-1 i~ > Remarque : nous verrons ultrieurement, dans la partie Statistique infrentielle, que ce contexte est courant en statistique. Population : X est la grandeur quantitative tudie, mo sa moyenne et Go sa variance. Echantillon alatoire et simple - taille n - X, variable alatoire moyenne d'chantillonnage - S2 = On , variable alatoire variance estime. En introduisant "-mo + mo", un simple calcul permet d'exprimer SCE sous une autre forme :
SCE^X.-^^X.-m^-n^-x)2

69

4.1.4.2.

Prsentation du contexte gnral 2

Le contexte gnral 2 est identique au contexte 1 sauf qu'ici X suit une loi normale N(mo , oo ) On tablit les rsultats suivants. L = '-- = suit une loi de / 2 (n-1) ddl.
Oo "o

T = -ni- suit une loi de Student (n-1) ddl


0

Vn

La dmonstration est relativement simple : partir des expressions dveloppes de X et S2 et compte tenu de la normalit des variables alatoires X;, on fait apparatre les lois de f J ~ et de T (cf. les dfinitions de ces lois au paragraphe 4.1.2). Remarques - quand n est grand ( n > 30 ), 2- N(0,1 )
J

- selon le contexte, on s'affranchira des notations : au lieu d'tudier X, ce peut tre D, diffrence de 2 mesures, au lieu de X , ce peut tre D, diffrence de 2 moyennes observes dans 2 chantillons, etc. - lorsque le ddl du numrateur d'une variable de Fisher-Snedecor est gale 1 (v, = 1 ), F = T2 (le F de Fisher-Snedecor est gal au carr d'une variable de Student ). 4.2. LOIS DE PROBABILIT AVEC EXCEL

Nous indiquons ici comment on peut manipuler les lois de probabilit fondamentales pour la statistique infrentielle au moyen d'Excel. Concernant les botes de dialogue proposes par le logiciel, il convient tout d'abord de noter quelques points. Dans les zones intitules "x", il faut saisir la valeur de l'axe des abscisses de la distribution tudie. Dans les zones intitules "uni / bilatral", on saisit "1" pour indiquer le caractre unilatral et "2" pour le caractre bilatral. Prcisons galement un point relatif la fonction de repartition F (ou fonction cumulative) d'une variable alatoire X. Selon les publications, on trouve deux conventions diffrentes : F(x)-P(X$x) et F(x)=P(X<x) Cette nuance est importante lorsque X est une variable alatoire discrte (dans cet ouvrage, nous utiliserons la loi de Poisson). Au niveau d'Excel, la convention adopte est F(x)=P(X<x) . Remarque : la notation classique F de la fonction de rpartition est bien entendu sans rapport avec le "F" de Fisher-Snedecor.

70

4.2.1. 4.2.1.1.

Loi de Poisson Pm Probabilit d'obtention d'une valeur o m est le paramtre de Poisson gal l'esprance

m'1 exp(-m) P(X=x)=-

mathmatique. Par exemple, pour m = 40, lorsque l'on veut dterminer P(X=30), il faut appeler la fonction LOI.POISSON(30;40;FAUX). L'argument "Cumulative" doit en effet tre renseign "FAUX" puisqu'on calcule une probabilit simple et non cumulative. Le rsultat est 0,018. 4.2.1.2. Fonction de repartition

Par exemple, pour calculer P(X^30), il suffit de saisir "VRAI" comme argument "Cumulative" de la fonction et on trouve 0,062. 4.2.2. 4.2.2.1. Loi normale ou gaussienne N(m,o) Fonction de rpartition (ou probabilit cumule)

Prenons l'exemple X -> N(m, o) avec m = 1,7 et o = 0,15 soit X -> N(1,7 , 0,15) Pour calculer F(l, 8) = P(X < 1,8), on appelle la fonction LOI.NORMALE et l'on renseigne la bote de dialogue. - X : valeur limite jusqu' laquelle on veut cumuler la probabilit - Esprance : valeur de l'esprance mathmatique de la loi gaussienne considre - Ecart-type : valeur de l'cart-type de la loi gaussienne considre - Cumulative : comme prcdemment.

.^^:^r
^^fftfShSfW^r

' ^teitasiKftTs' J^-M.iaiitii.g'

Le rsultat 0,747est affich. La formule est =LOI.NORMALE(l,8;l,7;0,15;vrai). Densit de probabilit loi normale Rsultat = probabilit ( gauche) = 0,747

m=l,7

x=l,8 valeur donne

Figure 4.4 Rsultat de la fonction LOI.NORMALE.

71

Remarque 4.2.2.2.

: en ce qui concerne la zone "Cumulative", il faut viter la rponse "FAUX" qui peut conduire des rsultats aberrants (probabilits )

Dtermination d'une valeur x

Soit X -> N(1,7 ; 0,15) . Calculer xo telle que : P(X <, Xy ) = F(xy ) = 0,3 , On appelle la fonction LOI.NORMALE.INVERSE dont on renseigne les arguments Probabilit (0,3), Esprance (1,7) et cart type (0,15). On obtient le rsultat 1,62.

Rsultat = valeur xo (ici


Figure 4.5 Rsultat de la fonction LOI.NORMALE.INVERSE .

La probabilit 0,3 est dpose sur la queue gauche de la distribution. Le rsultat est la valeur xo telle que l'aire sa gauche est gale 0,3. Remarque : cette fonction permet de dterminer les valeurs dites "thoriques" en statistique. Ainsi, lorsqu'on souhaite connatre les valeurs de X correspondant une probabilit de 5% rpartie symtriquement sur les queues de la distribution, on saisit la premire fois 0,025 dans la zone "Probabilit" et la seconde fois 0,975. 4.2.3. 4.2.3.1. Loi normale centre rduite N(0,1) Fonction de rpartition (ou probabilit cumule)

Exemple: P(Z<-1,3) On appelle la fonction LOI.NORMALE.STANDARD(Z). Avec Z = -1,3 on obtient le rsultat 0,0968. La figure 4.6 illustre cette fonction. Rsultat = probabilit unilatrale gauche (ici : 0,0968) Densit de probabilit loi normale standard

Valeur donne (ici : -1,3) 1 4.2.3.2. Dtermination d'une valeur z

m=0

Figure 4.6 Rsultat de la fonction LOI.NORMALE.STANDARD.

Soit Z -> N(0 ; 1). Calculer la valeur z telle que P(Z < z) = 0,8

72

On appelle la fonction LOI.NORMALE.STANDARD.INVERSE avec l'argument "Probabilit" gal 0,8. ..^ "s.. Densit de probabilit loi normale standard

m=0

\ Rsultat = valeur z de Z (ici : 0,84)

Figure 4.7 Rsultat de la fonction LOI.NORMALE.STANDARD.INVERSE.

Comme pour la LOI.NORMALE.INVERSE, la probabilit donne est dpose dans la queue gauche de la distribution. Le rsultat est la valeur limite sur l'axe des abscisses. Remarque : On retrouve ainsi la valeur connue ) ,96 correspondant une probabilit de 5%, risque rparti symtriquement sur les queues de la distribution : il suffit pour cela de saisir 0,975 dans la zone Probabilit" de la fonction LOI NORMALE STANDARD INVERSE ^ 4.2.4. Loi du Khi-deux v degrs de libert X y

^
4.2.4.1. Probabilit de dpasser une valeur du X (probabilit unilatrale) Prenons l'exemple P(x2 ^ 34) avec v = 23. Densit de probabilit Rsultat == probabilit (aire droite) (ici : 0,065

Dans une cellule d'une feuille Excel, on insre fonction LOI KHIDEUX avec les arguments
X=34

- Degrs_libert= 23 On trouve 0,065. Valeur donne (ici : 34)


Figure 4.8 Rsultat de la fonction LOI.KHIDEUX.

4.2.4.2. Dtermination d'une valeur du X ayant une probabilit a d'tre dpasse En statistique, cette valeur est dnomme " X thorique au risque a " et note X

73

Par exemple, dterminons la valeur du X qui a 5% de chance d'tre dpasse avec une loi du x2 15 ddl (qualifie donc en statistique de " X2 thorique 5%").

On appelle la fonction KHIDEUX.INVERSE avec les arguments - Probabilit = 0,05 - Degrs_libert= 15 On trouve 24,996.

Densit de probabilit /^ \ / f '\ / P^-^L, A Rsultat (ici : 24,996)


Figure 4.9 Rsultat de la fonction
KHI-DEUX. INVERSE.

Remarque

: pour de trs petites valeurs de la probabilit (de l'ordre de 10-10), il peut arriver que la fonction "coince"... En statistique applique, cette valeur a un rle de risque Si, dans une srie de calculs, un tel incident se produit, il suffit de pratiquer les mthodes traditionnelles de prise de dcision. On dtermine un x2 thorique, un risque choisi. Il sera rarement infrieur 1/10000 et donc trs loin d'un possible blocage.

4.2.5. Loi de Student v degrs de libert Tv


4.2.5.1. Probabilit unilatrale de dpasser une valeur positive donne P(T>t) avect>0. Faisons par exemple le calcul avec la loi T26, pourt= 1,5. On insre la fonction LOI. STUDENT dont les arguments saisir sont : - x : valeur minimale de la variable T que l'on souhaite atteindre (1,5) - Degrs_libert : ddl (26) - Uni / bilatral : ici "1" car on recherche une probabilit "unilatrale" (tale selon une seule queue de la distribution, la queue droite). On obtient 0,0728. Densit de probabilit Rsultat probabilit unilatrale (ici : 0,0728)

t Valeur donne (ici : t = 1,5) Figure 4.10 Rsultat de la fonction LOI. STUDENT unilatrale.

74

4.2.5.2.

Probabilit bilatrale (t : valeur positive relle)

P(T > |t[) = P(T < -t)+P(T > t)

Dterminons par exemple P( T > [ 1,51 ) == P(T < -1,5) + P(T > 1,5). Les arguments saisir de la fonction LOI.STUDENT sont - x : 1,5 - Degrs_libert : 26 - Uni / bilatral : 2 On trouve 0,1457. C'est videmment le double du rsultat prcdent puisque la loi est symtrique. Densit de probabilit ^^- ^ / / \^ \ Rsultat =probabilit bilatrale (ici: 0,1456)

1___ Valeur donne fici : t = 1,5) Figure 4.11 Rsultat de la fonction LOI. STUDENT bilatrale. 4.2.5.3. Dtermination d'une valeur t de Tv dont la valeur absolue a une probabilit a d'tre dpasse On cherche cette fois dterminer t valeur positive relle telle que P(T >|t|) = P(T < -t)+P(T > t) = a En statistique infrentielle, une telle valeur est appele "Tthorique" au risque a et note
Tv:]-a/2.

-t

Par exemple, avec ddl = v = 28 et Probabilit = a = 0,05 on dtermine la valeur t telle que P(T > |t|) = 0,05 . La fonction LOI.STUDENT.INVERSE(0,05;28) donne 2,048.

La figure 4.12 illustre ce rsultat. Dans cette fonction, la probabilit a donne est toujours dpose symtriquement sur les queues de la distribution.

Figure 4.12 Application de la LOI. STUDENT. INVERSE la dtermination d'un "T" thorique .

t Rsultat : valeur t positive Tv; 1-0/2 ici 2,048

75

: dans le paragraphe 4.1.2.7 concernant la loi de Student, nous avons rappel que cette loi convergeait vers la loi N(0,1) lorsque son ddl tendait vers l'infini. Il est intressant de concrtiser cette convergence au moyen d'Excel. On propose de considrer un petit ensemble de valeurs de a et un petit spectre de degrs de libert. Pour chaque valeur de a, nous allons calculer successivement le fractile Zi.n de la loi N(0,1 ) et le le fractile Ti.a de la loi de Student correspondant au ddl v. Les rsultats sont prsents sur le tableau 4.1. Dans Excel, la procdure est la suivante : - saisir les valeurs de a choisies appelant la fonction - calculer le 1er fractile Zi-0.001 en LOI NORMALE STANDARD INVERSE avec l'argument Probabilit gal 1-0,001 (rfrence relative) - calculer le 1er fractile TI-(O.OOI)) au moyen de la fonction LOI.STUDENT INVERSE d'arguments - Probabilit : 2 X 0,001 (fixer la ligne) - Degrs de libert : 20 (fixer la colonne).
a
LOI NORMALE LOI DE STUDENT

Remarque

0,05 1,64

0,025 1,96

0,01 2,33

0,005 2,58

0,00f 3,09

T 1,72 1,70 1,68 1,68 1,67 1,67 1,66 1,66 1,66 1,66 1,66 1,66 1,66 1,66

T 2,09 2,04 2,02 2,01 2,00 1,99 1,99 1,99 1,98 1,98 1,98 1,98 1,98 1,98

T 2,53 2,46 2,42 2,40 2,39 2,38 2,37 2,37 2,36 2,36 2,36 2,36 2,35 2,35

T 2,85 2,75 2,70 2,68 2,66 2,65 2,64 2,63 2,63 2,62 2,62 2,61 2,61 2,61

T 3,55 3,39 3,31 3,26 3,23 3,21 3,20 3,18 3,17 3,17 3,16 3,15 3,15 3,15

20 30 40 50 60 70 80 90 100 110 120 130 140 150

Tableau 4.1

Illustration pour diffrentes valeurs de a de la convergence de la loi de Student T,. vers la loi normale N(0,1) lorsque le ddl v augmente.

Il est clair que, lorsque le ddl crot (en pratique, souvent, lorsque les tailles d'chantillons augmentent), les fractiles de Student d'ordre l-o. tendent vers ceux de la loi normale N(0,1). On remarque d'ailleurs la bonne proximit des deux types de fractiles pour a = 0,025 (en pratique, souvent 5% rpartis symtriquement sur les queues de la distribution). 4.2.6. 4.2.6.1. Loi de Fisher-Snedecor Fi,z 2 degrs de libert Vi et Vz Probabilit unilatrale de dpasser une valeur f de F

De la mme faon que prcdemment, il s'agit de dterminer par exemple P(F > 1,7), F suivant une loi de Fisher deux ddl vi et vi que nous choisissons respectivement gaux 3 et 18. On appelle la fonction LOI.F .

76

Densit de probabilit Avec les arguments -X=l,7 - DegrsJibertl = 3 - Degrs_libert2 = 18 on obtient le rsultat 0,203 illustr par la figure 4.13.

^^ . probabilit unilatrale (ici : 0,2027)

'\

Valeur donne (ici

1 7)

Figure 4.13 Rsultat de la fonction LOI.F.

4.2.6.2. Dtermination d'une valeur de F ayant une probabilit a d'tre dpasse En statistique, on dit gnralement qu'on cherche dterminer le "F thorique (vi.vz) ddl au risque a", not F(vi,v2 ;i-a. Par exemple, considrons la loi F(3,ig ,0,95) et cherchons la valeur f telle que P(F > f) = a avec a = 0,05 Densit de probabilit Probabilit a donne (ici : 5%)

On appelle la fonction INVERSE.LOI.F avec les arguments -Probabilit =0,05 - Degrs_libert1 = 3 - Degrs_libert2 = 18 On obtient le rsultat 3,16 illustr par la figure 4.14.

Rsultat : valeur de f (ici; 3,16) Figure 4.14 Rsultat de la fonction INVERSE.LOI F

77

5.

INTRODUCTION A LA STATISTIQUE INFRENTIELLE

5.1.

INTRODUCTION

Dans la partie prcdente, nous avons dfini et pratiqu la statistique descriptive. Nous avons vu que l'on pouvait dcrire une population, par exemple une population de viticulteurs d'une rgion donne caractrise par divers critres qualitatifs et quantitatifs (cpage plant, importance du vignoble, situation gographique, production et autres critres technico-conomiques). Une telle population peut tre dcrite au moyen de paramtres statistiques fournissant un rsum synthtique des donnes mais aussi l'aide de graphiques (histogrammes, courbes, nuages, etc...). Avec les mmes outils, nous avons dcrit un chantillon. L'tude descriptive des donnes se limite un seul ensemble soit une population, soit un chantillon et n'tablit pas de liaison entre les deux. D'un autre cot, les rappels fondamentaux des probabilits (variables alatoires, distributions, paramtres, convergences, etc.) nous ont confront l'alatoire, avec notamment les subtils passages la limite, les convergences qui conduisent au fondement de la statistique mathmatique. La statistique infrentielle, pont entre la statistique descriptive et la statistique mathmatique, tablit des relations entre populations et chantillons. On distingue deux types de dmarche : - la dmarche d'chantillonnage (de la population vers l'chantillon) - la dmarche d'estimation (de l'chantillon vers la population). 5.2. DMARCHE D'CHANTILLONNAGE

La dmarche d'chantillonnage est une dmarche statistique classique de type dductif c'est dire qui va du "gnral au particulier" : on connat la population, on s'intresse l'chantillon. Prenons trois exemples. On connat les professions d'une population cible dans laquelle est prlev un chantillon. Est-ce que cet chantillon peut tre considr comme reprsentatif de la population selon la variable profession ? On s'intresse au contrle de la qualit de fabrication de tablettes de chocolat. Est-ce qu'on peut considrer comme constant le poids moyen garanti d'une tablette ? Pour cela, on prlve rgulirement un chantillon de n tablettes dont l'tude statistique permettra de rpondre la question. Dans la fabrication d'aliment pour poulets conditionn en sacs de 10 kilos, on indique sur les sacs la composition de l'aliment (proportions des composants). Des chantillons sont prlevs sur les lieux de vente pour contrler le respect de ces indications. 5.3. DMARCHE D'ESTIMATION

La dmarche d'estimation, oppose la prcdente, vise tudier, prdire les paramtres d'une population inconnue partir des rsultats obtenus grce des chantillons. C'est une dmarche inductive "du particulier au gnral". Infrence est d'ailleurs synonyme

d'induction, d'ou le terme de statistique infrentielle mme si dans la pratique ce qualificatif de la statistique a t largi aux deux dmarches. Exemples : - Avant des lections, des sondages sont effectus pour "estimer" les chances des candidats. - Pour valuer la fermet d'une qualit de nectarines, on en fait une estimation sur un chantillon. - Pour valuer l'image d'un "produit" fourni par une socit de services, on ralise un sondage auprs d'un chantillon de clients ; son analyse permet d'estimer l'indice de satisfaction moyen pour ce produit 5.4. RSUM POPULATION N : Taille X : VA (variable alatoire) E(X) = m Var X = o2 CHANTILLONNAGE : DEDUCTION: du GENERAL au PARTICULIER chantillon n : taille x : moyenne observe s'2 : variance observe

POPULATION N : Taille X:VA E(X) = m Var X - o2

ESTIMATION: INDUCTION: du PARTICULIER au GENERAL

chantillon n : taille x : moyenne observe s'2 : variance observe

On note x =

et

SCE

80

6.
6.1.

CHANTILLONNAGE

NOTION DE POPULATION ET D'CHANTILLON

Aprs avoir rappel les notions fondamentales de "population" et d'"chantillon", nous dfinirons l'chantillon alatoire et simple et son approche pratique en prcisant nos choix de "grand" et "petit" chantillon. Nous prsenterons ensuite les concepts de base des distributions d'chantillonnage des moyennes, des variances et des proportions. Le nombre d'applications concrtes sera volontairement limit car nous le dvelopperons par la suite dans le cadre plus large des tests de conformit. 6.1.1. Population

La "population" est l'ensemble des lments auxquels on s'intresse. Chaque lment est appel "unit statistique" (u.s.) ou "individu" ou "observation". La population peut tre parfaitement dfinie (ensemble dnombrable fini) : - ensemble des clients d'une banque - ensemble des habitants d'une ville donne ou d'un quartier donn - ensemble des chevaux d'une rgion donne - ensemble des arbres d'un verger. Pour de telles populations, l'tude statistique peut tre parfaitement conduite sur l'intgralit de la population (petites populations, recensements, feuilles d'impts) La population peut galement tre non dfinie car infinie ou imparfaitement connue : - ensemble des profils pdologiques (population infinie) - ensemble des clients d'une grande surface d'une enseigne donne - ensemble des parasites d'une culture de bl. Dans la pratique, nous rencontrerons galement le cas relativement frquent de populations rellement bien dfinies, mais dont on ne peut connatre les membres des fins d'tude du fait de la confidentialit des fichiers. Un tel problme se rencontre par exemple dans le domaine agricole. Lorsque l'on souhaite tudier une catgorie prcise d'agriculteurs, certaines catgories de renseignements sont inaccessibles, les informations dtenues par la Mutualit Sociale Agricole (MSA) tant confidentielles. Divers domaines reclent des cas similaires : mdecine, confrries diverses, etc. 6.1.2. chantillon

L'chantillon est une fraction d'individus de la population. Domaine d'chantillonnage (ou de sondage) On peut chantillonner dans les domaines les plus divers : consommation, opinions, sociologie, contrle de la qualit, etc. Raisons de l'chantillonnage - Le plus souvent, on ralise un sondage pour des raisons videntes de gain de temps et de cot. - Dans certains domaines, l'tude de l'unit statistique exige sa destruction. Citons par exemple les questions de "dure de vie" (aliments, produits industriels tels les piles, les ampoules lectriques, les CD, etc.).

81

- D'autres domaines (psychologie, sociologie,...) ncessitent des tudes trs approfondies. Il est alors impossible de les raliser sur une population (exceptes les populations cibles, bien limites). chantillon alatoire simple La dfinition de l'chantillon alatoire simple diffre selon les ouvrages D'aprs J.J Daudin et alii (1999), "on appelle chantillon alatoire simple un chantillon obtenu par une mthode qui assure chaque chantillon possible la mme probabilit d'tre slectionn". Les auteurs tablissent pour les chantillons exhaustifs (tirage sans remise) le rsultat suivant: "pour l'chantillonnage alatoire et simple, chaque unit a la mme probabilit d'appartenir l'chantillon". P. Dagnelie (1998) donne une dfinition peut-tre plus traditionnelle: "un chantillon est dit alatoire quand tous les individus de la population ont une mme probabilit de faire partie de l'chantillon et il est dit alatoire et simple ou compltement alatoire quand, en outre, les choix successifs des diffrents individus qui doivent constituer l'chantillon sont raliss indpendamment les uns des autres au sens de l'indpendance stochastique". G. Saporta et al. (2002) prsente sur le Web une dfinition quivalente. Selon cette dernire dfinition, thoriquement, l'chantillon alatoire et simple exige donc des tirages non exhaustifs (tirage avec remise) ce qui est naturellement trs peu pratiqu dans le concret. Cependant, en statistique mathmatique, l'chantillon alatoire et simple conduits de nombreux dveloppements avec des rsultats intressants. Dans la pratique, un compromis est souvent adopt en assimilant chantillon alatoire et simple un chantillon alatoire extrait d'une grande population. On peut noter que dans le cas d'une grande population, les deux dfinitions conduisent des rsultats quivalents. Pour percevoir intuitivement le bien fond d'une telle approximation, prenons un exemple. Nous disposons d'un sac de 100 kg de bl provenant d'un certain producteur. Le plus souvent, le prix d'une telle denre est base sur sa qualit. Cette dernire est repre l'examen du grain. Dans le sac (population), on prlve un grain au hasard : on l'examine puis on le classe en "correct" ou "pas correct". On prlve ensuite un deuxime grain et on recommence. On comprend que les chances que ce deuxime grain soit "correct" sont trs peu dpendantes de la remise ventuelle pralable du premier grain dans le sac. Le plus souvent, on considre que l'on peut utiliser les rsultats statistiques obtenus partir des chantillons alatoires ds lors que la taille de la population est au moins 10 fois plus leve que celle de l'chantillon. Remarque : dans la suite et sauf indication contraire, le terme "chantillon" dsignera un chantillon assimil alatoire et simple (selon la dfinition traditionnelle). En fait, il s'agira souvent d'chantillons extraits de grandes populations. 6.2. CONCEPT DE BASE DES DISTRIBUTIONS D' CHANTILLONNAGE

6.2.1. Distribution d'chantillonnage des moyennes et des variances


Exemple : budget loisir des employs d'une socit 1

On considre la population constitue de l'ensemble des N employs d'une importante socit telle l'Arospatiale Toulouse. On s'intresse la variable alatoire X, dpense annuelle de sortie "loisirs" (restaurant, cinma, etc...) des salaris. On prlve un premier chantillon ^ de taille n (par exemple 50). Pour chacun de ces n individus, on relve la dpense annuelle de sortie "loisirs". On dispose alors d'un srie statistique x11, X12, ..., x1n de moyenne et variance calculables.
82

moyenne x,
1 X- variance s ' , ' = V(Xn-x,)2 n 1.1 Si l'on considre un deuxime chantillon ^2 , on obtient une deuxime srie de n observations x21, X22, ..., x2n de moyenne et variance : - moyenne x^

variance s';2 =^(x;, -x,) 2 Les premires valeurs observes dans chaque chantillon (x^i, o k est le numro de l'chantillon) sont alatoires et constituent par consquent les ralisations d'une variable alatoire X1. Un chantillon alatoire et simple de taille n est quivalent un ensemble de n variables alatoires X1, X2,..., Xn indpendantes. La mme traduction est faite au niveau des moyennes et des variables. Chaque moyenne observe dans un chantillon est l'observation d'une variable alatoire moyenne X = !. Chaque variance observe dans un chantillon est l'observation d'une n variable alatoire variance S'2 = y,(X, - X) 2 .
n : -i

_ ^

En rsum, la population est caractrise par - taille N (finie ou infinie) - X = variable alatoire quelconque - E(X)=mo - Var(X)=oo 2 chantillon chantillon ^ (n) chantillon %(n)

^w

Echantillons
C7 0\

Valeurs observes
Xll,Xl2, ...,X]n X21,X22, . . . , X 2 n

Moyennes observes
x

Variances observes(empiriques) s',2


S2 2

cp 02 . ..
Q7

X,

"P

^pl > ^p2i - - - 1 ^pn

"P n

Variables alatoires

X,

X2

...

Xn

X- '"' n

z^

S-^l^X.-X) 2

83

Les distributions des variables alatoires d'chantillonnage des moyennes et des variances.

et S" sont dites distributions

6.2.2. Distributions d'chantillonnage des proportions


Elles se dfinissent de la mme faon que les distributions d'chantillonnage des moyennes. Par exemple, dans la mme socit que prcdemment, on s'intresse la pratique rgulire du sport des salaris. On dfinit une variable de Bernoulli 1 telle que r 1 si pratique rgulire d'un sport
^ 1 1^ 0 si non

Ainsi, le 1er chantillon <'\ de taille n voqu ci-dessus pourrait fournir une srie observe ressemblant : l 1 0 0 0 1 1 ... On en dduit la proportion de salaris pratiquant rgulirement un sport observe dans , , . 1+1+0+0+0+1+1+... cet chantillon y, = . n Les chantillons ^k , de mme taille n, voqus prcdemment fourniront l encore des suites de sries observes correspondant des ralisations de variables alatoires. Echantillons ^ ^ ^p Variables alatoires
Il 12 ... In

Valeurs observes 1 1 0 0 0 1 1 ... 0 1 0 1 0 1 0 ...

Proportions observes

yi y2

y?
n

El. M
n

La distribution d'chantillonnage de Y, distribution d'chantillonnage des proportions s'impose comme distribution d'chantillonnage des moyennes d'indicatrices.

6.2.3. Prsentation des exemples et outils associs


Divers exemples concrets illustrent la misent en pratique des concepts noncs. L'un des buts du contrle qualit d'une fabrique de tablettes de chocolat de poids marqu 100 g est la matrise de la variabilit et de la moyenne de cette variable poids. Pour rsoudre ces deux problmes, on utilisera respectivement l'chantillonnage d'une variance partir d'une population normale et l'chantillonnage d'une moyenne partir d'une population normale de moyenne et de variance connues. Afin de prdire la note de conformation moyenne d'un lot de 40 veaux, on utilisera l'chantillonnage d'une moyenne l'aide d'un grand chantillon extrait d'une population de moyenne et de variance connues. Enfin, pour contrler la qualit des lots de 80 cailles issues d'un levage prsentant un taux connu d'anomalies de l'aile, on utilisera l'chantillonnage d'une proportion au moyen d'un grand chantillon.

84

6.3.

DISTRIBUTION D'CHANTILLONNAGE D'UNE VARIANCE DANS LE CAS D'UNE POPULATION NORMALE

Exemple : variabilit du poids de tablettes de chocolat 6.3.1. Prsentation des donnes et position du problme

Dans une chocolaterie, on tudie la fiabilit d'un procd de fabrication de tablettes de chocolat de 100 g et l'on veut, bien entendu, s'assurer la matrise de la variabilit de ce poids. On note X, la variable alatoire "poids d'une tablette fabrique". Lorsque toute la chane fonctionne correctement, l'cart-type est gal 5 g. Dans ce type d'application, on considre la variable alatoire X distribue selon une loi normale. Afin de contrler la variabilit, on prlve priodiquement un chantillon de 10 tablettes et on en calcule la variance observe s'2. Questions Dterminer l'intervalle rs'^.s'^ 1 qui a une scurit de 95% de contenir la variance S'2 observe dans un tel chantillon. Cet intervalle est dit "intervalle de probabilit" ou "intervalle de pari"(not IP). Le risque 5% est not a . tendre ces calculs aux cas suivants : - rduction du risque a aux valeurs 3%, 1% et 3 /oo - chantillons de tailles n = 20 puis 30 tablettes - tude du cas d'un cart-type o = 3 g correspondant l'acquisition d'une machine plus performante. 6.3.2. Notations et modle

Population : c'est l'ensemble de tablettes de 100 g fabriques par la socit. - X est la variable alatoire, poids d'une tablette - E(X) = m est le poids moyen d'une tablette - Var X = o2 - X-).N(m,o). chantillon - La taille est n (ici n = 10) - Xi, X, .. .,Xn sont des variables alatoires indpendantes - X,->N(m,o) V i e {1,2,..,n} ( x ,- x ) 2 SCE - S'2 ='= est la variable alatoire variance observe dans un n n chantillon de taille n. 6.3.3. Dmarche statistique

E(S' 2 )=E(- i -y(X,-X) 2 =CT 2 - o ^ "^ n Var(S'2) = i--"/+i- o 14 dsigne le moment centre d'ordre 4 : n n n
H4=E[(X,-m) 4 ].

85

Son expression mathmatique est lourde. La proprit la plus utile en pratique est le fait que ce soit une fonction dcroissante de n. La loi de probabilit associe aux variances est
(x]-x)2 SCE - --,=2- ->XVn , loi du x- (n-l)ddl cr o Pour dterminer l'intervalle de probabilit, il suffit de rechercher les deux valeurs J^ 1

(n-l):_

" et X 2

(n l).l -^

ci notes dans la rsolution %, a et ^ b .


S PCC2 ( n - l ) ; .< <^. J=l-a ^ (J (n-l);l-_

^-o.^^-n.,-!
o2 n 2 ^ n 1, " ( - );-^ SCE n
< <

o2 2 ,^ , a n ^ (n-i);i-

Intervalle de probabilit ou de pari de la variance de l'chantillon X2 , x2 n ("i).^n (n-i),!-^ 6.3.4. Mise en uvre sur EXCEL
O2 2 CT2 2

au niveau de scurit 1-a.

1re question II suffit de dterminer les valeurs X ,. a et X , a et de raliser n (n-i);^ n (n-i);i-, ensuite un simple calcul Pour n = 10 et a = 5%, on a aJ2 = 0,025 et l-a/2 = 0,975 Pour calculer X^n-i);^ soit C^.o.ccs, on appelle la fonction KHIDEUX.INVERSE. Aprs avoir renseign sa bote de dialogue (Probabilit : 0,0975 et Degrs libert : 9), le rsultat s'affiche : 2,70. En saisissant 0,025 dans la zone Probabilit de la bote de dialogue, on obtient de la mme manire la valeur de /'(n i).i soit x 29097 "' : 19,0227 Les bornes de l'intervalle de probabilit sont donc s',,2 =2,70 x 25/10=6 Probabilit donne 25/10=47,56 On en dduit que lorsque la chane de production fonctionne correctement, la variance observe dans un chantillon de 10 tablettes a 95% de chances d'tre comprise entre 6,75 et 47,56. 2e question II est intressant de profiter des fonctionnalits d'Excel pour raliser des simulations et dgager des profils d'intervalle de pari dpendant de paramtres fondamentaux comme le risque (que l'on va rduire), la taille de l'chantillon (que l'on va augmenter), la variance du poids d'une tablette avec la nouvelle machine (qui sera diminue). Pour cela, on construit une grille de calcul pour laquelle il conviendra d'tre attentif aux rfrences absolues ou relatives.

86

Les trois premires colonnes sont saisir : a, a2 et n (en profitant des "copier-coller"). Dtermination de % a (1" ligne, colonne 4) Comme nous venons de l'expliquer, on utilise la fonction KHIDEUX.INVERSE avec les arguments suivants : - Probabilit : pour a, cliquer sur sa premire valeur (5%) et fixer la colonne (3 clics successifs de la touche F4) - Degrs_libert : pour n, cliquer sur la 1" valeur de n (10), fixer la colonne comme ci-dessus et, dans la barre de formule, retrancher 1. On obtient le rsultat 2,70. Dtermination feX b Utiliser la poigne de recopie (ou un simple copier-coller). Dans la barre de formule, supprimer le "1-" pour ne laisser que la valeur de o/2 ; on obtient 19,022. Dtermination de s'a' Faire le calcul X, n .0 / n avec une rfrence relative pour x2 et en fixant la colonne pour n et o2. Dtermination de s'h3 Utiliser la poigne de recopie partir de s'a2. Pour obtenir l'ensemble des rsultats, slectionner les colonnes 4 7 de la 1re ligne et tirer vers le bas la poigne de recopie.
a 5,0% 3,0% 1,0% 0,3% 5,0% 3,0% 1,0% 0,3% 5,0% 3,0% 1,0% 0,3% <2 25 25 25 25 25 25 25 25 25 25 25 25 n 10 10 10 10 20 20 20 20 30 30 30 30 V 2a

2,70 2,33 1,73 1,27 8,91 8,16 6,84 5,73 16,05 15,00 13,12 11,47

^ 19,02 20,51 23,59 26,82 32,85 34,74 38,58 42,53 45,72 47,91 52,34 56,84

S-.2

S-.2

a 5,0% 3,0% 1,0% 0,3% 5,0% 3,0% 1,0% 0,3% 5,0% 3,0% 1,0% 0,3%

C2 9 9 9 9 9 9 9 9 9 9 9 9

n 10 10 10 10 20 20 20 20 30 30 30 30

-V 2 k a

X2.
19,02 20,51 23,59 26,82 32,85 34,74 38,58 42,53 45,72 47,91 52,34 56,84

S-.2

S-b2

6,75 5,84 4,34 3,19 11,13 10,20 8,55 7,16 13,37 12,50 10,93 9,56

47,56 51,28 58,97 67,04 41,07 43,43 48,23 53,17 38,10 39,93 43,61 47,37

2,70 2,33 1,73 1,27 8,91 8,16 6,84 5,73 16,05 15,00 13,12 11,47

2,43 2,10 1,56 1,15 4,01 3,67 3,08 2,58 4,81 4,50 3,94 3,44

17,12 18,46 21,23 24,14 14,78 15,63 17,36 19,14 13,72 14,37 15,70 17,05

Tableau 6.1

Variation de l'intervalle de probabilit de la variance observe selon le risque, la taille de l'chantillon, la variance de la population.

Commentaire des rsultats

Bien entendu, on retrouve des rsultats conformes la formule mathmatique. - Pour une variance o2 et un risque a donns, l'intervalle de probabilit IP est plus resserr si l'on augmente la taille de l'chantillon - pour une variance o2 et une taille d'chantillon n donnes, l'intervalle de probabilit IP augmente lorsque le risque diminue - pour une taille et un risque a donns, l'intervalle de probabilit IP diminue si l'on diminue la variance. En examinant ces rsultats, on peut par exemple porter son attention sur le risque 3 %o frquemment adopt dans l'industrie, sur un chantillon de taille 10 et une variance de 25. L'intervalle trouv pour la variance de l'chantillon [3,19 ; 67,04] est "vaste". Il se resserre

87

sensiblement avec un chantillon de taille 20 : [7,16 ; 53,17]. Enfin, on note une bonne prcision, si la variance lie l'ensemble du processus de fabrication peut tre ramene 9 avec un chantillon de taille 30 puisque alors, la fourchette se rduit [3,44,17,05]. Lorsque l'chantillonnage ne dtruit pas l'objet, il est souvent intressant de prlever des chantillons de taille plus importante. 6.4. 6.4.1. DISTRIBUTION D'CHANTILLONNAGE D'UNE MOYENNE Population normale de moyenne et variance connues

Exemple : variabilit du poids de tablettes de chocolat

6.4.1.1. Prsentation des donnes et position du problme


On se place dans le mme environnement concret que dans l'tude prcdente (chantillonnage d'une variance). Dans la fabrique de chocolats, le service qualit s'intresse la qualit de remplissage des tablettes. Lorsque le fonctionnement de la chane est correct, le poids d'une tablette est une variable alatoire X normale, de moyenne m = 100 g et d'carttype o = 5g. Le contrle est ralis en prlevant priodiquement sur la chane un chantillon de n = 10 tablettes. Concrtement, on calcule le poids moyen x observ dans un tel chantillon et l'on examine s'il ne s'carte "pas trop" du poids moyen thorique de 100 g, ou encore, s'il appartient une fourchette de poids "juge" convenable ou enfin, dans certains cas, s'il reste suprieur un poids minimum garanti. Question 1 a) A quel intervalle [x, , x^ ] dit "intervalle de probabilit" ou "intervalle de pari" doit appartenir le poids moyen d'une tablette dans un tel chantillon avec un niveau de scurit de 1-a = 0,95 (a = 5% est le risque). Noter que cette question quivaut rechercher l'cart A tel que la moyenne d'chantillon appartienne l'intervalle [lOO-A ; 100+A] avec une probabilit 1-a. b) Quel poids moyen minimum G peut-on garantir au risque a ? Question 2 II est intressant d'tudier l'volution de la prcision A et par suite celle de l'IP en faisant varier le risque, la taille de l'chantillon et mme la variance o2. tendre les calculs raliss la question 1 aux cas suivants : - rduction du risque a aux valeurs 3%, 1% et 3 /oo (remarque : dans l'industrie, les risques sont souvent trs petits car on ne souhaite retoucher au processus que lorsque c'est vraiment ncessaire) - chantillon de tailles n = 20 et 30 - cart-type o = 3, correspondant par exemple l'acquisition d'une nouvelle machine de variabilit rduite. 6.4.1.2. Notations et modle

Population : c'est l'ensemble de tablettes de 100 g fabriques par la socit. - X est la variable alatoire "poids d'une tablette" - E(X) est le poids moyen d'une tablette
88

- VarX=o2 - X->N(m,(T). chantillon - La taille est n, ici n = 10 - Xi, Xa, .. ,Xn sont des variables alatoires indpendantes - X,-N(m,CT) Vi e{l,2,...,n} 6.4.1.3. Dmarche statistique

n observe dans un chantillon de taille n La distribution de la moyenne d'chantillonnage est - E(X)=m ; VarX=n

_ i^ X^-'- est la variable alatoire "moyenne d'chantillonnage" ou encore moyenne


1

X suit la loi de probabilit : X->N(m,-y=-) ^n ( X : combinaison linaire de variables alatoires indpendantes de mme esprance et de mme variance). traduction statistique des questions l-a et l-h et rponses statistiques Question la : On cherche l'intervalle fx,,Xi, 1 tel que P(x, < X < x,,)=l-a . Autrement dit, on cherche A tel que P(m - A < X < m + A ) = l - a (le risque est rparti sur les deux queues de la distribution).

Xa/2(x.)

Xl-a/2(Xb)

Figure 6.1 Distribution de la moyenne d'chantillonnage X .

89

Remarques En utilisant la loi de probabilit de X , P(Z^ < < Z, ^3) = 1 -a o Z^,; et

ir
Z, ^,3 dsignent les fractiles de la loi N(0,1), on obtient : P(m + Z,,;2 - X < m + Z,^,, C T ) = 1 -a Vn ~ Vn et on en dduit que A^Z^-'-LZ,^0- , a = m-A , b = m + A Vn Vn Pour une taille d'chantillon et un risque donns, l'intervalle de probabilit [x,,Xi, 1 est unique et non alatoire. Question Ib On cherche G tel que P(X > G) = 1 a G est le fractile d'ordre a de la loi de probabilit de X, c'est dire de la loi N(m,o/^/n). 6.4.1.4. Mise en uvre a l'aide d'EXCEL

Question la ( 1re mthode) Elle consiste partir de la loi de probabilit de X soit X > N(m,,) . ^/n Au clavier, on calcule o,; = = = = 1 , 5 8 . Par suite : X-^N(100; 1,5 8). Vn V10 Dtermination de Xa. On appelle la fonction LOI.NORMALE.INVERSE avec les arguments - Probabilit : cliquer sur la cellule donnant la valeur de la fonction de rpartition (probabilit cumule, ici 0,025) - Esprance : cliquer sur la cellule donnant la valeur de m, ici 100 - cart-type : cliquer sur la cellule donnant la valeur de l'cart-type de X calcule prcdemment. Le rsultat est x. = Xa./i = 96,90g (=100-3,10) Dtermination de xb = Xi 0/2 On utilise la poigne de recopie partir du rsultat prcdent (ou un "copier-coller spcial formule") , dans la barre de formule de la cellule destination, on remplace la probabilit o/2 (0,025) par l-n/2 soit 0,975 : en cliquant sur le signe = le plus gauche de la barre de formule, on peut en effet rappeler la bote de dialogue et effectuer cette modification. On obtient le rsultat X b - X i a / 2 = 103,1g (=100+3,1 g) Interprtation Lorsque le processus de fabrication fonctionne correctement, en prlevant un chantillon de 10 tablettes, on peut "parier" que le poids moyen d'une tablette dans cet chantillon a 95% de chances d'appartenir l'intervalle [96,90; 103,1] ou encore que ce poids moyen est de 100g avec une erreur maximale A de 3,1 g au risque de 5%.
90

Question 1-a (2e mthode) Elle est base sur la fonction NTERVALLE.CONFIANCE qui fournit directement le rsultat A partir des paramtres statistiques de la loi normale de X (et non de X). Les arguments saisir sont : - Alpha, risque choisi (ici, 0,05) - Ecart-type : comme indiqu, il s'agit de celui de X, c'est dire l'cart-type "population", ici 5 - Taille : c'est la taille de l'chantillon (10). Nous retrouvons le rsultat A = 3,10 et l'on en dduit les bornes de l'IP : x. =m-A=100-3,10=96,9 et Xb = m + A = 100+3,10=103,10 Question 1-b .' calcul du poids moyen minimum garanti G, au risque a Au moyen d'un "copier-coller spcial formule", on peut rcuprer le rsultat de x^ dtermin ci-dessus et, dans la barre de formule, remplacer la probabilit o/2 par la probabilit a . On trouve G=97,40. Remarques - Si on utilise, la fonction INTERVALLE.CONFIANCE, il convient de saisir la valeur du risque 2a (ici 0,10) dans la zone Alpha de la bote de dialogue. On trouve A' =2,6 et donc : G = m-A' = 100-2,6 = 97,4. - Bien entendu, x^ peut tre considr comme le poids moyen minimum garanti dans un chantillon de taille n au risque o/2. Question 2 Afin de profiter des fonctionnalits d'Excel, nous allons raliser les calculs prcdemment expliqus sur la grille suivante. Nous utilisons la fonction INTERVALLE.CONFIANCE beaucoup plus rapide puisqu'elle permet d'viter le calcul de

CT^ = -,=. Cependant, on aurait pu utiliser sans aucun problme la premire mthode. Vn Rappelons simplement l'attention qu'il convient de prter au choix des rfrences (absolues ou relatives) mme si plusieurs stratgies sont possibles. Pour construire cette grille, suivre le guide ! - a : saisir les valeurs demandes dans la question (copier-coller) - 1-a : calculer la valeur de la 1re ligne (1- cellule de gauche) et recopier vers le bas. - o : saisir les valeurs (utiliser le "copier-coller") - n : idem - A : calculer la 1re valeur en appelant la fonction INTERVALLE.CONFIANCE (renseigner les 3 zones de la bote l'aide des valeurs de a, o et n de gauche en fixant la colonne). Le 1re rsultat s'affiche (3,10). - Xa : calculer la F6 valeur en faisant la diffrence "cellule contenant la valeur de m situe dans une cellule extrieure la grille (rfrence absolue)-1er valeur de A (fixe Xb : calculer la 1re valeur en faisant la somme "cellule contenant m (rfrence absolue) + 1er valeur de A (fixer la colonne)" - G : calculer sa 1re valeur en faisant un "copier-coller spcial formule" avec la 1" valeur de x ; dans la barre de formule, remplacer a par 2a

91

slectionner enfin sur la 1er ligne, les colonnes A, Xa , Xb et G que l'on vient de calculer et tirer vers le bas la poigne de recopie. Tous les rsultats s'affichent.
Niveau

a
5,00% 3,00% 1,00% 0,30% 5,00% 3,00% 1,00% 0,30% 5,00% 3,00% 1,00% 0,30% 5,00% 3,00% 1,00% 0,30% 5,00% 3,00% 1,00% 0,30% 5,00% 3,00% 1,00% 0,30%

scurit (1-a)
95,00% 97,00% 99,00% 99,70% 95,00% 97,00% 99,00% 99,70% 95,00% 97,00% 99,00% 99,70% 95,00% 97,00% 99,00% 99,70% 95,00% 97,00% 99,00% 99,70% 95,00% 97,00% 99,00% 99,70%

n 10
10 10 10 20 20 20 20 30 30 30 30 10 10 10 10 20 20 20 20 30 30 30 30

G
X,

fonction IC
3,10 3,43 4,07 4,69 2,19 2,43 2,88 3,32 1,79 1,98 2,35 2,71 1,86 2,06 2,44 2,82 1,31 1,46 1,73 1,99 1,07 1,19 1,41 1,63

^ 103,10 103,43 104,07 104,69 102,19 102,43 102,88 103,32 101,79 101,98 102,35 102,71 101,86 102,06 102,44 102,82 101,31 101,46 101,73 101,99 101,07 101,19 101,41 101,63

(poids moyen minimum garanti)


97,40 97,03 96,32 95,66 98,16 97,90 97,40 96,93 98,50 98,28 97,88 97,49 98,44 98,22 97,79 97,39 98,90 98,74 98,44 98,16 99,10 98,97 98,73 98,49

5 5 5 5 5 5 5 5 5 5 5 5 3 3 3 3 3 3 3 3 3 3 3 3

96,90 96,57 95,93 95,31 97,81 97,57 97,12 96,68 98,21 98,02 97,65 97,29 98,14 97,94 97,56 97,18 98,69 98,54 98,27 98,01 98,93 98,81 98,59 98,37

Tableau 6.2 Dtermination de l'intervalle de probabilit du poids moyen et du poids moyen minimum garanti au risque a. volution de ces rsultats en fonction de a, a et n.

Bien entendu, ces rsultats font suite aux conclusions mathmatiques exprimes dans la partie "traduction statistique ..." ci-dessus (consquences de la normalit de X). Interprtation Pour une mme taille d'chantillon, A (erreur absolue) augmente lorsque le risque diminue. Par exemple, pour un chantillon de 10 tablettes au risque de 3%, il conviendra de rviser la chane de production ds que le poids moyen d'un tel chantillon s'carte de plus de 3,43 g de la rfrence 100 g. Si le risque accept est 10 fois plus petit, soit 3%o , on n'effectuera ce contrle que si l'cart la rfrence est beaucoup plus net (4,69 g). Pour un risque donn, augmenter la taille de l'chantillon augmente la prcision et donc diminue A. Ainsi, au risque 3%o voqu ci-dessus, avec un chantillon de 20 tablettes, l'cart A n'est plus que de 3,32 g contre 4,69 g pour 10 tablettes. Cet cart, rvlateur d'une probable avarie de la chane de production, n'est plus que de 2,71 g avec un chantillon de 30 tablettes. Quand l'chantillonnage ne dtruit pas l'objet prlev et n'est pas trop coteux en temps, il est donc intressant d'augmenter la taille. Bien entendu, l'amlioration du fonctionnement de la chane visant diminuer la variabilit va dans le mme sens. Avec un cart-type de 3 (au lieu de 5), nous trouvons qu'avec un risque de 3%o et un chantillon de 30, il suffit de dtecter un cart de 1,63 g pour
92

tre amen effectuer une rvision de la chane. Rappelons que l'cart tait de 2,71 avec l'cart-type a = 5. 6.4.2. Population de moyenne et variance connues, grand chantillon

Exemple : vente de veaux au cadran 6.4.2.1. Prsentation des donnes et position du problme

Lors de la vente de veaux au march au cadran, toutes les donnes (prix, race, critres descriptifs de l'animal, origine, etc...) sont systmatiquement enregistres. Le nombre d'observations par type gntique d'animal est trs volumineux. Cette source d'informations sera donc statistiquement assimile des donnes "population". Dans cette courte tude, on s'intresse la note de conformation de veaux d'un type gntique donn, critre de valorisation de l'animal. On note X la variable alatoire "note de conformation" (note sur 10). On calcule les paramtres statistiques de X dans cette population. On trouve une moyenne gale m = 7 et une variance gale o2 = 4. Un chantillon de 40 veaux de ce type va tre mis en vente. Dans quel intervalle [x.,Xb ], dit intervalle de probabilit (ou pari) peut-on s'attendre trouver la note moyenne de conformation dans un tel chantillon avec un niveau de scurit de 95% ? 6.4.2.2. Notation et modle

Population - X est la variable alatoire "note de conformation - E(X) = m = 7 est la note moyenne de conformation - VarX=a2=4. Remarque : la loi de probabilit dans la population est inconnue, comme c'est souvent le cas, ou diffrente d'une loi normale. chantillon - la taille est n (ici, n = 40) - X), Xi, ... , Xn sont des variables alatoires indpendantes - E ( X i ) = m = 7 Vie{l,2,...,n}
- VilTX^al=4 Vie{l,2,...,n}.

6.4.2.3.

Dmarche statistique

La variable alatoire moyenne d'chantillonnage est Prcisons sa distribution.


_ _

_ z^ X = .
!
2

Les paramtres statistiques sont E(X) = m et Var X = . n Pour obtenir la loi de probabilit, rappelons que X est la moyenne arithmtique des variables alatoires Xi, indpendantes, de mme esprance et de mme variance. On peut donc lui appliquer le thorme central limite : la loi de probabilit de X converge en probabilit vers la loi normale lorsque " -> . En pratique, lorsque n est grand, la variable alatoire moyenne suit approximativement la loi normale X" N(m,(/-\/n). Nous considrerons n grand ds qu'il atteint 30.
93

6.4.2.4.

Mise en uvre l'aide d'EXCEL

Le problme est donc identique au prcdent puisque le fait que la normalit soit approche n'influe pas sur les calculs. Nous ralisons le mme calcul (des types de simulation identiques ceux raliss pourraient bien sr tre mis en oeuvre). Rsultats La 1re mthode consiste utiliser la fonction INTERVALLE.CONFIANCE. On trouve 0,62. Notons A ce rsultat. On en dduit x. =m-A=7-0,62=6,38 et Xb = m + A = 7 + 0 , 6 2 = 7 , 6 2 Dans la 2e mthode, on utilise la fonction LOI.NORMALE.INVERSE Rappelons que l'utilisation de cette fonction doit se faire relativement la loi de X, c'est dire avec la loi X > N(m, (T / ^/n). Les arguments de la fonction sont les suivants : - Probabilit : 0,025 - Esprance : 7 - cart_type : 0,316 (noter que l'on peut saisir son calcul o/Vnnon effectu c'est dire sous la forme 2/(40AO,5). La fonction est donc saisie de la faon suivante : LOI.NORMALE.INVERSE^^S^^O^.S)) Nous obtenons ainsi directement les bornes xa et xb de l'intervalle de probabilit. Bien entendu, nous retrouvons les mmes rsultats que prcdemment : X a = 6 , 3 8 et X b = 7 , 6 2 (pour cette dernire valeur, saisir 0,975 dans la zone Probabilit). 6.5. DISTRIBUTION D'CHANTILLONNAGE D'UNE PROPORTION POUR UN GRAND CHANTILLON Exemple : levage de cailles 6.5.1. Prsentation des donnes et position du problme

Dans un important levage de cailles, on value 25% le pourcentage de volatiles prsentant une anomalie de l'aile. On s'intresse un lot de 80 cailles destin la vente et la proportion de cailles prsentant l'anomalie dans un tel lot. Questions 1. Dans quelles limites ( ya ,yb ) peut-on s'attendre trouver la proportion de cailles anormales dans un tel chantillon, au risque 2%. 2. quel taux maximal de cailles anormales peut-on garantir au risque 1% ? 6.5.2. Notations et modle

Population : c'est l'ensemble des cailles de l'levage - 1 est une variable alatoire de Bernoulli (indicatrice) 1 = 1 si anomalie des ailes 1=0 sinon. - la distribution de 1 est P(l=l) = p ; p = 0,25 P(I=0)=l-p=q.

1 P(I)

0 1 q p

94

1 est une variable de Bernoulli de paramtre p E(I)=p Var 1 ^ p q. Echantillon La taille est n, ici 80 Statistiquement, l'chantillon est quivalent n indicatrices Ii, L, ... , In indpendantes telles que : E(I,)==p Vie{l,2,...,n} V a r l ^ p q Vi e{l,2,...,n} 6.5.3. Dmarche statistique
n

X = V I, est la variable alatoire "nombre de cailles prsentant l'anomalie dans un chantillon de taille n". X suit la loi binomiale B (n, p) Soit Y la variable alatoire "proportion de cailles prsentant l'anomalie dans un chantillon de taille n. Y= - = 1 (moyenne des indicatrices)

La distribution d'chantillonnage de la proportion est E ( Y ) = E ( I ) = p e t V a r Y = ^^^^ n n La loi de probabilit de Y est la loi normale approche Y >N(p,.(). En effet, Y est V n la moyenne arithmtique des n variables alatoires I;, indpendantes, de mme esprance p, de mme variance pq. De plus comme n est grand on peut appliquer Y le thorme central limite. > Remarque : nous retrouvons le mme schma que celui des moyennes. La traduction statistique de la premire question est [ y . ' Y b ] ? tel que P(y. :Y^y,,)^l-a <=> A ? tel que P(p-A ^ Y < p + A ) = l - a

Y
Y o/2 Yi-a/2

Figure 6.2 Distribution de la proportion d'chantillonnage Y.

Pour rsoudre le problme, il suffit d'utiliser la normalit de Y


95

P(Z^<Y<Z,^)=l-a P.q Nn" D'o l'on dduit l'intervalle de probabilit au risque a P+Z^^Ysp+Z,,,,^

y.=P-A 6.5.4.

et

y,=p+A

Mise en uvre au moyen d'EXCEL

Nous procdons exactement de la mme faon que pour l'chantillonnage des moyennes. La 1" mthode s'appuie sur la loi de probabilit de Y, la loi N(p, J) V n
: Le calcul l'aide du clavier CTv Y = J' = J donne 0,048. V n V 80 Dtermination de y a On appelle la fonction LOI.NORMALE.INVERSE dont on renseigne les arguments - Probabilit (saisir la valeur de o/2 soit 0,01) - Esprance (saisir la valeur de p soit 0,25) - Ecart-type (saisir la valeur de l'cart-type <3y calcul soit 0,048). Le rsultat est Va = 0,14. C'est le fractile Yo/2 Dtermination de yi, partir du rsultat prcdent, on tire la poigne de recopie ou bien on effectue un "copier-collage spcial formule" et, dans la barre de formule, on remplace la probabilit par la valeur de l-a/2 soit 0,99. On obtient le rsultat : yh = 0,36 (fractile Yi-o/) et l'on en dduit : A=36%-25%=11%. Interprtons ces rsultats. Dans cet important levage de cailles, on a valu 25% la proportion de cailles prsentant une anomalie des ailes. Lorsqu'on commercialise un lot de 80 cailles, le lot tant considr comme alatoire et simple, on peut garantir l'acheteur au risque de 2% qu'il faut s'attendre avoir une proportion d'au moins 14% de cailles prsentant l'anomalie mais que cette proportion a peu de chances de dpasser 36%. Avec une scurit de 98%, on peut galement garantir que le taux de cailles prsentant l'anomalie est de 25% avec une erreur maximale de 11%. Comme pour l'tude de l'chantillonnage des moyennes, la 2e mthode utilise la fonction INTERVALLE CONFIANCE mais attention, cette fonction doit tre utilise relativement la variable de Bernoulli I. Ses arguments sont : - alpha (saisir le risque choisi soit 0,02) - Ecart-type (saisir l'cart-type de 1 c'est dire ^pq soit ^0,25x0,75=0,433) - Taille (saisir ici 80). On obtient directement le rsultat A == 0,1126 dtermin ci-dessus. Concernant le taux maximal de cailles anormales yM que l'on peut garantir au risque 1%, c'est dire y^? tel que P(Y > y^)=0,01, il est gal yb dtermin prcdemment : il n'excdera pas 36%.

96

ESTIMATION

7.1.

INTRODUCTION

La notion d'estimation a t prsente lors de l'introduction de la statistique infrentielle. Rappelons que sa mission essentielle est d'obtenir une valeur approche d'un ou plusieurs paramtres statistiques d'une variable alatoire d'une population partir des donnes observes dans un chantillon. On peut citer comme exemples l'estimation du revenu annuel moyen de vignerons de l'Aude, celle du taux d'infestation d'une rcolte, celle du pourcentage de franais de plus de cinquante ans prsentant un taux de cholestrol trop lev ou celle enfin du prix de vente annuel moyen d'un kilo de miel franais "toutes fleurs"garanti biologique. Pour introduire les estimateurs des principaux paramtres statistiques, nous aborderons d'abord l'estimation ponctuelle. Munis de ces outils statistiques, nous pratiquerons ensuite les intervalles de confiance en les calculant l'aide d'Excel. 7.2. 7.2.1. ESTIMATION PONCTUELLE Introduction : estimateur-estimation

Considrons un chantillon de taille n. Le modle qui lui est associ est dfini par n variables alatoires indpendantes Xi, Xi, .. .,Xn distribues selon la mme loi de probabilit connue ou inconnue L(). 0, paramtre de la loi est inconnu ( peut tre uni ou bidimensionnel). Notons xi, -n-i,.. .Xn une ralisation des n variables Xi, X2, ...,Xn. Exemples : - distribution de Bernoulli B(p). Le paramtre inconnu est p, proportion dans la population - distribution de Poisson P(m). Le paramtre inconnu est le paramtre m - distribution gaussienne N(m,o) : le paramtre inconnu peut tre unidimensionnel (soit m, soit o) ou bidimensionnel

tl=T(Xn,Xl2,...Xin)

t2=T(X21,X22,...X2o)

...

tfc=T(Xkl, Xk2,.. .Xkn )

Dfinition simplifie : on appelle estimateur de une statistique T telle que T(xi, x:;,.. .Xn ) puisse tre considre comme valeur approche du paramtre inconnu 0. T(xi, X2,.. .x,, ) est appele estimation de 0. Cette dfinition peut tre illustre par le schma prcdent

7.2.2. Estimation ponctuelle d'une moyenne


Exemple : consommation mensuelle moyenne d'apritif anis 7.2.2.1. Prsentation des donnes et position du problme

On veut connatre la consommation mensuelle moyenne d'apritif de type anis alcoolis dans la France du Sud, cette zone tant dfinie selon une slection prcise de dpartements. Une enqute omnibus est ralise auprs de 2000 franais choisis alatoirement dans cette zone. Dans cet chantillon, il apparat que la consommation mensuelle moyenne est de trois verres par habitant (nous considrons l'unit "verre"comme relativement prcise tant donn que dans les dbits de boissons, on utilise couramment une "dosette" standardise). Question : combien peut-on estimer la consommation mensuelle moyenne d'un habitant de la rgion tudie ? 7.2.2.2. Notations et modle

Population : c'est l'ensemble des habitants de la France du Sud. - X est la variable alatoire "consommation mensuelle d'apritif anis alcoolis d'un habitant" (unit = un verre) (X=nombre de verres par mois et par habitant) - E(X) = m est la consommation mensuelle moyenne par habitant - VarX=o 2 chantillon - La taille est n, ici 2000 - Xi, Xi, ... .Xooo sont des variables alatoires indpendantes - E(Xi) = m et Var X, = o2 V i e {1,2,..,2000} - X = y x , est la variable alatoire moyenne observe dans un tel chantillon n ,.i - x = 3 est la moyenne observe dans cet chantillon. Approche intuitive Spontanment, on value la consommation mensuelle moyenne d'un habitant de la France du Sud trois verres par mois. On nous dit que x = 3 verres constitue l'estimation ponctuelle de m, consommation mensuelle moyenne d'un habitant de la zone considre. 7.2.2.3. Dmarche statistique

Distribution d'chantillonnage des moyennes Dans le chapitre "Distributions d'chantillonnage", propos des moyennes d'chantillonnage (cf paragraphe 6.4.1.2), nous avons trouv que E(X) = m et Var X = . n Estimateur sans biais et convergent \ E(X) = m ] dfinit la moyenne d'chantillonnage X comme estimateur sans biais de la moyenne m de la population C'est dire qu'en moyenne, la moyenne d'chantillonnage X est

98

gale la "vraie" moyenne m (moyenne de la population), E(X) = m ] exprime encore le fait que la moyenne d'chantillon X est centre autour de la moyenne m de la population. Les distributions d'chantillonnage des moyennes sont gnralement symtriques ; il en rsulte que les valeurs les plus probables prises par les moyennes d'chantillons sont autour de la moyenne m de la population. L'absence de biais est une qualit fondamentale d'un estimateur. Estimateur convergent
__ 2 _

VarX= => lim^,, VarX = 0 n X estimateur sans biais de m est dit estimateur convergent. Concrtement, quand les chantillons atteignent une grande taille, leurs moyennes se stabilisent, la dispersion des moyennes, la variance des moyennes devient trs petite. L'chantillon grandissant devient la population et les deux moyennes (chantillon, population) convergent. VarX est alors nulle. La convergence est une qualit essentielle, elle valide l'outil estimateur lorsque l'chantillon atteint la population par suite d'une augmentation de sa taille. En rsum E(X)=m et lim^ ^ VarX =0. Cela quivaut dire que X variable alatoire "moyenne observe dans l'chantillon" est un estimateur sans biais et convergent de m. On note m = X . Remarque ;la notation m, trs utilise, ne permet pas de distinguer l'estimateur X (variable alatoire , statistique, fonction f(Xi, Xi, ...,Xn ) de l'estimation x (valeur observe). Selon le contexte, nous utiliserons l'une ou l'autre de ces notations. Application pratique Dans le cas d'une moyenne, l'approche intuitive est "valide" par la dmarche statistique. La moyenne observe dans cet chantillon, x = 3 verres est une estimation ponctuelle de la consommation mensuelle moyenne d'un habitant de la France du Sud. On peut critiquer ce rsultat en remarquant qu'un autre chantillon de 2000 habitant de la mme zone, conduirait une autre estimation. Il est important de bien voir qu'une estimation est ncessairement entache d'erreur puisque issue d'un chantillon. Il est fondamental de fiabiliser le rsultat d'une part en assurant un degr de confiance, d'autre part en valuant la marge d'erreur A associe l'estimation. Ceci fera l'objet du paragraphe " intervalles de confiance" abord ultrieurement. 7.2.3. Estimation ponctuelle d'une variance ______

Exemple : variabilit du prix de la sole frache 7.2.3.1.

Prsentation des donnes et position du problme

On veut tudier la variabilit du prix de la sole vendue dans des poissonneries similaires d'une ville donne au cours d'une priode donne (la variabilit du prix n'tait ainsi fonction que des arrivages). Dans ce contexte, on ralise alatoirement 60 relevs. Dans cet chantillon, on observe un cart type de 1,7 6. Question : estimer la variance du prix de la sole frache dans le contexte tudi (l'chantillon sera considr comme gaussien).

99

7.2.3.2.

Notations et modle

Population : c'est l'ensemble des poissonneries slectionnes au cours de la priode considre. - X est la variable alatoire, prix du kilo de sole frache - E(X) = m est le prix moyen du kilo de sole frache - VarX=o 2 . chantillon - La taille est n ici 60 - Xi, X, .. .,Xo sont des variables alatoires indpendantes - X, -> N(m,o) V i e {1,2,...,60}. 7.2.3.3. Dmarche statistique

La variable alatoire variance observe dans un tel chantillon est S'^-'-^X.-X)^^ avec SCE=^(X,-X) 2 n i^j n j^) Dans l'chantillon considr, on observe une variance s'2 = (1,7)2. Approche intuitive Comme prcdemment, de faon intuitive, nous avons tendance estimer la variance o2 par la variance observe (1,7)2. En examinant les rsultats thoriques nous allons comprendre que la variance observe S'2 n'est pas un estimateur satisfaisant. Distribution d'chantillonnage des variances Dans le chapitre "Distributions d'chantillonnage", propos des variances (cf. paragraphe 6.3.2), nous avons indiqu les rsultats suivants : E(S'1)=E(-Y(X -X) 2 )^ 2 - 0 n^ n Var(S' 2 )='- 4 +^- o LU dsigne le moment centr d'ordre 4 n n n c'est dire u.^ = E[(X, - m)4 ] . Estimateur sans biais et convergent Nous remarquons que E(S' 2 )^o 2 . La variance observe S'2 est donc une estimation biaise de la variance de la population. L'absence de biais tant une qualit essentielle pour un estimateur, il convient de rechercher un autre outil.
E(S'2)=al(\^-) n

Ef^S'2^2 L n-l J Par suite, ()S'2 est un estimateur sans biais de o2 que nous noterons S2. n-l
S2 =(^y)S'2 =(^X^)(X, -X) 2 =^^(X, -X) 2 =^

Var S2 = Var [-"-S121 = (-"-)2 Var S'2


Ln-1 J n-l

100

Compte tenu de l'expression de Var S'2 : l""n^ VarS'2 = 0 => lim,,.^,VarS=0 En rsum : ^(S2)^2 ; lim^ VarS2 - o ] Cela revient dire me S2 = V (X, - X)2 est un estimateur sans biais et convergent n-1" de a2. De la mme faon que pour les moyennes, on note o l'estimateur et l'estimation de la variance. Application pratique On peut dterminer l'estimation ponctuelle de la variance du prix de la sole frache sur la priode considre a2 = s2 = -"-s'2 = -60-(1,7)2 = 2,94. n-1 60-1 A propos de la fiabilit du rsultat, nous faisons les mmes remarques que lors de l'estimation ponctuelle d'une moyenne. 7.2.4. Estimation ponctuelle d'une proportion
-2

"

Exemple : enqute de satisfaction 7.2.4.1. Prsentation des donnes et position du problme

Une cole de langues trangres par Internet ralise priodiquement un sondage auprs de ses clients afin d'valuer leur satisfaction. Un tel sondage est effectu auprs d'un chantillon alatoire de 300 personnes choisies parmi la clientle du cours de langue chinoise. On trouve 27% de satisfaits. Question : estimer la proportion de satisfaits dans la population des clients de ce cours.

7.2.4.2.

Notations et modle

Population : c'est l'ensemble des clients. - 1 est l'indicatrice du caractre "satisfait du cours de chinois" - p est la proportion de clients satisfaits - 1 est la variable de Bernoulli de paramtre p . 1 > B(p) - E(I)=p - Varl=p(p-l)=pq avecq=l-p. chantillon - La taille est n, ici 300 - Ii, , . ..,loo sont des variables alatoires indpendantes - I, -> B(p) V i e {1,2,...,300}. 7.2.4.3. Dmarche statistique

^ Y = ! = 1 est la variable alatoire "proportion de satisfaits observe dans un tel n chantillon". y = 0,27 est la proportion de satisfaits dans cette enqute.

101

Approche intuitive Les enqutes sont trs courantes dans les mdias. On value spontanment la proportion de clients satisfaits par la proportion de satisfaits observe dans l'enqute (soit 27%) dite estimation ponctuelle Estimateur sans biais et convergent Nous retrouvons la mme dmarche statistique que pour l'tude de la moyenne. Rappelons les points essentiels du paragraphe "Distribution d'chantillonnage d'une proportion" (cf paragraphe 6.5.2.1). E(Y)=E(I)=p ^
Var ^-.Y^^^ => lim, ^VarY-0 n n

Ceci revient dire que Y variable alatoire "proportion de satisfait" observe dans un chantillon de taille n est un estimateur sans biais et convergent de p. On note p l'estimateur et l'estimation de p. Application pratique L'approche intuitive est confirme par la dmarche statistique. On estime la proportion de clients satisfaits 27% (estimation ponctuelle). Nous ferons les mmes remarques que prcdemment concernant la scurit et la fiabilit des rsultats. 7.3. 7.3.1. INTERVALLE DE CONFIANCE Introduction

L'tude de l'estimation ponctuelle nous a fourni les outils estimateurs fondamentaux mais nous a montr la relative fragilit d'une telle estimation. Par exemple, lorsque nous avons estim qu'en moyenne un habitant de la France du Sud consommait en moyenne 3 verres d'apritif anis par mois, nous avons conscience qu'une autre enqute de mme taille aurait peut-tre conduit une estimation de 2,5 verres. Scuriser l'estimation ponctuelle nous conduit introduire un outil fondamental : l'intervalle de confiance. Le contexte gnral est le suivant : il s'agit d'estimer un paramtre d'une variable alatoire X d'une population partir d'un chantillon de taille n. Notons xi, X2,...Xn les valeurs observes dans l'chantillon. On appelle intervalle de confiance au niveau de confiance l-o, le couple de statistiques [T,(X|, X3,...,x^ ), T,(x,, x^,...,x^ ) ]tellesque: P[T,(X,.X,,...,^ )<.e<T,(X,.X,.....X, ) ] = l - a L'intervalle alatoire [T,(X|, X^,...,X^ ) ,T;(X|, X;,...,X^ )] est parfois appel "intervalle de probabilit de recouvrement". Les intervalles de confiance sont des ralisations de cet intervalle alatoire. Pour illustrer la dtermination des intervalles de confiance d'une moyenne, on peut citer les exemples suivants : - l'estimation du poids moyen d'un poulet d'un levage partir d'un chantillon extrait d'une population normale de variance connue - l'estimation du prix moyen du kilo de girolles partir d'un grand chantillon extrait d'une population normale de variance inconnue - l'estimation du poids moyen de jambons partir d'un grand chantillon extrait d'une population quelconque.

102

L'estimation de la variabilit du Taux de Viande Maigre partir d'chantillons extraits d'une populations normales concrtisera la notion d'intervalle de confiance d'une variance. Enfin, l'tude de l'estimation de la proportion de clients d'une socit intresss par une nouvelle prestation, partir de grands chantillons illustrera la dtermination de l'intervalle de confiance d'une proportion.

7.3.2. Intervalle de confiance d'une moyenne pour une population normale de variance connue
Exemple : poids moyen d'un poulet

7.3.2.1.

Prsentation des donnes et position du problme

Un producteur de volailles leves en plein air (fru de statistiques!) s'intresse plus particulirement son levage de poulets. Par exprience, il sait que la distribution du poids de ces poulets est sensiblement gaussienne et que sa variabilit est peu prs constante. Il considre que l'cart-type de la variable alatoire "poids d'un poulet" est de 0,3 kg. Par contre, le poids moyen est plus fluctuant, l'apptit des animaux pouvant varier en fonction de l'aliment distribu, la saison, etc. Il souhaite donc estimer le poids moyen de ses poulets. Pour cela, il prlve un chantillon de 40 poulets et observe les poids indiqus sur le tableau 7.1.
2,177 2,448 2,026 1,354 1,929 1,993 2,025 1,405 1,679 1,884 1,925 1,86 1,975 2,032 1,908 1,782 1,691 1,915 2,075 2,37 1,739 1,457 1,936 1,895 1,233 2,34 2,05 1,935 2,053 1,66 1,998 2,131 2,349 1,284 2,247

2,094 1,496 1,334 2,795 1,929

Tableau 7.1

Poids de poulets (en kg).

Question : dterminer l'intervalle de confiance du poids moyen d'un poulet dans l'levage au niveau de confiance 1-a avec a = 5%. 7.3.2.2. Notations et modle

Population : c'est l'ensemble des poulets de l'levage. - X est la variable alatoire, poids d'un poulet - E(X) = m est le poids moyen d'un poulet - VarX=o2 - X^N(m,o) chantillon - La taille est n, ici 40 - Xi, Xz, .. ..X^io sont des variables alatoires indpendantes - E(X,)=m V i e {1,2,...,40} - X,-).N(m,o) - VarX,=o 2
_ 1 n

- X = V X est la variable alatoire moyenne observe dans un tel chantillon nt? - X = m est l'estimateur de la moyenne inconnue m. 7.3.2.3. Dmarche statistique

Rappelons que l'estimateur du poids moyen m d'un poulet dans l'levage est la variable alatoire X, moyenne observe dans un chantillon de taille n. Tout chantillon conduisant 103

une estimation diffrente (m = x) , il est important d'valuer la marge d'erreur A autour d'une estimation. Il s'agit de trouver l'erreur A telle que P(X - A < m < X + A ) = l - a , c'est dire telle que m = X A au risque a. soit enfin dterminer l'intervalle [ A, B ] tel que P(A < m ^ B) = 1 - a [A,B] est un intervalle alatoire ( A ^ X - A , B = X + A ) . Toute ralisation [a,b] est un intervalle de confiance de m au niveau de confiance 1-a . Il apparat que la question de la dtermination de l'intervalle de confiance passe par la dtermination de la loi de probabilit de la variable alatoire X : X > N(m, o / -Jn). (cf. chapitre 6 "Distributions d'chantillonnage"), Z=, ; o/Vn Z>N(0,1) loi normale centre rduite

PtZ^^^-^Z, ,/,)=!- a o/Vn P(X+Z,<m<X+Z,.,)=l-a \'n Vn


a _
^a/2

a _

Vn

I ~~ z'! at^'~^^~l\

Vn

7.3.2.4.

Mise en uvre l'aide d'Excel

1re mthode : elle est de type manuel. A l'aide du logiciel, on ralise les calculs ci-dessus : - x = l , 9 1 (fonction MOYENNE) - Z, ^ =1,96 (fonction LOI.NORMALE.STANDARD.INVERSE, dans laquelle on saisira 0,975 dans la zone "probabilit") CT 0,3 . _ .
=0,0474 ^ V40 Vn

On trouve A = Z^ -,=- = 0,093 . Soit m = X A au risque a et on en dduit l'intervalle de confiance, li l'estimation b=x+A=2,0031 Dans un chantillon de 40 poulets, on estime donc le poids moyen avec une prcision de 93 grammes en prenant 5% de risque. En rsum, lorsque l'cart-type de la population est connu, la marge d'erreur A ne dpend que de la taille n de l'chantillon et du niveau de confiance (1-a). Plus l'chantillon est grand, plus petite est l'erreur. Mais plus le niveau de confiance est grand, plus grande est l'erreur. Si l'cart o est grand, il vaut mieux prendre un grand chantillon afin de limiter la marge d'erreur. Remarque : il est important de remarquer qu'un autre chantillon conduirait un autre intervalle de confiance. Si l'on disposait d'un trs grand nombre d'chantillons,

104

on pourrait s'attendre ce que 5% des intervalles de confiance trouvs ne contienne pas la moyenne m de la population. 2e mthode : c'est une mthode directe qui utilise la fonction INTERVALLE CONFIANCE Cette fonction, dj utilise pour les distributions d'chantillonnage des moyennes et proportions est particulirement bien adapte ce problme. On renseigne ses arguments de la faon suivante : - pour Alpha, on saisit le risque pris soit ici 0,05 - pour cart-type, on saisit celui de la population (0,3) - pour Taille, on saisit la valeur de n (40). Le rsultat affich (0,093) est la valeur de A. 7.3.2.5. Simulations d'intervalles de confiance

Nous proposons ici de matrialiser la relle valeur de l'intervalle de confiance et de niveau de confiance l'aide de simulations ralises sur Excel. Supposons que la distribution des poids de poulets dans l'levage soit compltement connue et que le paramtre statistique qui nous intresse, leur moyenne, soit m = 1,8 kg. Par suite, la distribution de X, variable alatoire "poids d'un poulet" est X -> N(1,8 ; 0,3). Par simulation, nous proposons de gnrer l'extraction de 125 chantillons de taille 20. Dans le menu Outils / Utilitaire d'analyse, nous choisissons "Gnration de nombre alatoires" et renseignons la bote de dialogue. Dans la zone "paramtres", la saisie de dcimales pose problme. Nous avons saisi des valeurs en grammes. Par dfinition, ce calcul gnre chaque lancement des chantillon diffrents

il(IllBra>.<-ailW>l!2-, :..,,,.

.-,(20
,.'-. ..

' ' ^ ;'-oi

.^Bliiff.jl^M^^i*^^
: ^^'^^rie- : r^ ^ : . ,;-.-. -. "-, "

.. . .! PSS-
JNormale

^^^A.^.^'^A .^^^^w''-':'''--:.' '.-.; .-'

- -* -..''""a'.r j ' ' ^-^


...

^li^^^^S.-^c*1"0' "" ' '^N ":.^ ^;.:: .\^'-'/ ^ai^tiBa-^i.^.^.'Fool;,.'^1 : ; ; , . , , \^ ^W***-"'''.'/,:..- ,- ,.' 1

,r;i,i^i^^.:,. ^- -. -. -:;{' ^ .;^1"A"";.2U,


'.'Wi'..'?;' .7 ^ ~, - '. . ,:, - .;,..,,, .rft,,.,i,il,Trv

; ^ | S ^ | i . ! ^ ^

Xl

X2

Xl9

X20

MOYENNE 1873 1783 1828 1640

Echantillon 1 chantillon 2 Echantillon 124 chantillon 125

2049 2436 1969 1865 1763 2146 1846 1481

/S8/ 2192 1444 1913 1808 1753 1825 1815

INTERVALLE DE CONFIANCE (A) 131 131 131 131

1 1 1 1 0 121

Tableau 7.2

Simulation d'chantillons alatoires. Observation des moyennes et intervalles de confiance engendrs

105

Le tableau 7.2 montre les premires et dernires valeurs (en italique) parmi les 125 x 20 soit 2500 valeurs obtenues. Pour le premier chantillon, puis pour tous les autres (recopie vers le bas), nous calculons les valeurs suivantes : - moyenne (fonction MOYENNE) - intervalle de confiance A, c'est dire la prcision de l'estimation (fonction INTERVALLE.CONFIANCE avec Alpha=0,05, Ecart-type=300, Taille=20) - indicateur d'appartenance (1=1) ou non (1=0) de la moyenne l'intervalle de confiance. Pour calculer cet indicateur, on utilise la fonction SI. Pour la cellule grise du tableau, la formule s'crit : =SI(ABS(LC(-2)-1800)<=LC(-1);1;0). La somme des valeurs de 1 (bouton f") ) soit ici 121 indique le nombre d'chantillons ayant conduit un intervalle de confiance contenant la vraie moyenne de la population ; le complmentaire de cette valeur soit 125-121 = 4 concrtise le risque a de 5%. On en dduit que 4 intervalles de confiance (125 - 121) ne contiennent pas la moyenne de la population. 7.3.3. Intervalle de confiance d'une moyenne pour une population

normale de variance inconnue


Exemple : prix moyen du kilo de girolles 7.3.3.1. Prsentation des donnes et position du problme

On s'intresse au prix de vente des girolles sur les marchs toulousains l'automne 2001. Des tudes antrieures montrent que la distribution de ce prix dans cette priode peut tre considre comme sensiblement gaussienne. A l'issue de 14 relevs raliss de manire alatoire et indpendante, on observe les rsultats du tableau 7.3.
| Prix en | 15,20115,70| 16,30116,80117,20| 17,60118,10118,60| 18,70119,00| 19,70120,30|21,10122,00|

Tableau 7.3

Relev de prix du kilo de girolles.

Questions Estimer le prix moyen du kilo de girolles sur les marchs toulousains l'automne 2001 et dterminer un intervalle de confiance de ce prix moyen au niveau de confiance 1-a = 0,95 7.3.3.2. Notations et modle

Population : c'est l'ensemble des talages de girolles dans la zone et dans la priode considres - X est la variable alatoire, prix d'un kilo de girolles (d'un talage) E(X) = m est le prix moyen du kilo de girolles - Var X=o2 (inconnue) - X->N(m,CT). chantillon - La taille est n, ici 14 - Xi, Xz, .. .,Xn sont des variables alatoires indpendantes - X,->.N(m,o).

106

7.3.3.3.
_

Dmarche statistique
1 n ^

X = y x , -m est la variable alatoire "moyenne observe dans un tel chantillon,

ni-r

estimateur de la moyenne inconnue m d'estimation m = x . Prcdemment, nous avons vu en quels termes se posait la question de l'intervalle de confiance d'une moyenne. On cherche A tel que P(X-A <, m < X + A ) = l - a . . On veut donc dterminer l'intervalle [ A, B ] tel que P(A < m < B) = 1 - a o A = X - A e t B = X + A La population est gaussienne mais de variance inconnue. Notons a l'estimation de l'cart-type. La loi de probabilit adapte l'estimateur est ici la loi de Student (n-1) degrs de libert X-E(X) X - m _ -== =^T= -> T,_ "~" i r ("-" o^ G/^n
P(ta,2<--^-<tl^2)=l-a

CT/\'n

P(X+t^3-^<m<X+t,_^-^=l-a ^n ^n
^A ---t -L t- - t - ~ 'n/2 r" -l-a./l r~ ^/n Vn
^

7.3.3.4.

Mise en uvre au moyen d' EXCEL

Nous ralisons les calculs prsents ci-dessus. - estimation du prix moyen du kilo de girolles : m =18,3 07 (fonction MOYENNE) ce qui veut dire qu'en moyenne, le prix du kilo de girolles sur le march toulousain l'automne 2001 est de 18,307 - calcul de l'intervalle de confiance : o =2,011 (fonction ECARTYPE)
o 2,011 -,=-=,==0,538 Vn ^4

- t,_^,3 = 2,16 (fonction LOI.STUDENT.INVERSE). Dans la bote de dialogue de cette fonction, on renseigne : Probabilit : 0,05 et Degr-libert : 13 (c'est dire n - 1 ). On obtient A = 2,16 x 0,538 = 1,161. On estime donc le prix moyen du kilo de girolles 18,307 1,161 prs au niveau de confiance 95%. a = 18,307-1,161 = 17,146 et b = 18,307 + 1,161 =19,468 > Remarque : la fonction INTERVALLE.CONFIANCE, trs pratique, n'est programme qu'avec la Loi Normale. Elle est donc dconseille lorsque la variance de la population est inconnue et l'chantillon petit. En effet, l'erreur est sous-estime ce qui diminue la fiabilit. Ici, par exemple, cette fonction fournit une erreur A=l,053.

107

7.3.4.

Intervalle de confiance d'une moyenne pour une population quelconque l'aide d'un grand chantillon

Exemple : estimation du poids moyen de jambons 7.3.4.1. Prsentation des donnes et position du problme

Une entreprise de salaisons veut estimer le poids moyen des jambons frais livrs par un gros fournisseur. Pour cela, on slectionne un chantillon de 80 jambons et on note le poids en kg de chacun d'eux ce qui fournit les rsultats du tableau 7.4.
9,45 9,52 9,69 9,89 11,26 11,27 11,01 10,90 9,23 10,11 8,70 9,83 11,80 10,92 10,56 11,40 9,57 9,89 9,60 10,17 10,51 10,47 10,86 10,40 9,10 9,70 10,09 9,38 12,00 11,01 11,24 10,84 10,10 9,64 10,05 9,73 11,12 11,27 11,09 11,91 10,30 10,23 9,62 9,70 10,68 10,52 10,53 10,76 10,13 10,22 9,12 10,18 10,55 11,08 10,49 10,72 9,25 9,95 9,69 10,13 11,80 11,15 11,29 10,32 10,08 9,87 10,29 10,17 11,01 11,14 10,67 11,60 9,78 9,21 9,95 10,04 11,25 10,37 11,10 10,58

Tableau 7.4

Poids de jambons (en kg).

Questions; estimer le poids moyen d'un jambon frais et dterminer un intervalle de confiance de ce poids moyen aux niveaux de confiance 95%, 99% et 99,9%. 7.3.4.2. Notations et modle Population : c'est l'ensemble des jambons frais livrs par le fournisseur. - X est la variable alatoire, poids d'un jambon (en kg) - E(X) = m est le poids moyen d'un jambon - Var X = a2 (inconnue). chantillon - la taille est n, ici 80 - Xi, Xa, .. .,Xn sont des variables alatoires indpendantes. Dmarche statistique

7.3.4.3.

/-^

X = V X, = m est l'estimateur de la moyenne m.


" 1-1

La question de la dtermination de l'intervalle de confiance se pose dans les mmes termes que dans l'exemple prcdent. Il faut adopter une loi de probabilit de l'estimateur X. Comme dans de nombreux cas concrets, la population est quelconque (loi de probabilit et variance inconnues). L'chantillon est grand et la moyenne d'chantillonnage suit approximativement la loi Normale. La variance de la population tant inconnue, nous pouvons adopter, dans ce contexte, la loi de Student pour l'estimateur X . La dmarche statistique et les calculs sont les mmes que ceux dvelopps dans le paragraphe prcdent. 7.3.4.4. Mise en uvre au moyen d'Excel Nous ralisons les calculs prsents ci-dessus. La fonction MOYENNE donne l'estimation du poids moyen : m = x =10,65 kg. La fonction LOI. STUDENT. IN VERSE permet de dterminer l'intervalle de confiance. Enfin, la fonction ECARTYPE permet de calculer o et donc a / ^ / n . On trouve 0,1117. 108

On obtient les rsultats suivants indiqus sur le tableau 7.5


a
Tl-o/2

IC (A)

a
b Tableau 7.5

0,05 1,99 0,22 10,43 10,87

0,01 2,64 0,29 10,35 10,94

0,001 3,42 0,38 10,27 11,03

Intervalles de confiance du poids moyen d'un jambon en fonction du risque a.

Bien entendu, l'intervalle de confiance grandit lorsque le risque diminue : on prend moins de risque mais la marge d'erreur est plus grande. On en dduit que le poids moyen d'un jambon est de 10,65 kg 22 g prs au risque 5% ou bien que ce poids moyen est compris entre 10,43 kg et 10,87 kg au risque 5%. On interprterait de la mme faon les rsultats correspondant aux autres valeurs de risque. Une autre mthode consiste utiliser la fonction INTERVALLE.CONFIANCE. Rappelons que cette fonction n'est programme que pour la loi normale. L'chantillon tant grand, l'utilisation de cette fonction est acceptable. Dans la zone "Ecart-type" de la bote de dialogue, il faudra saisir l'cart-type estim 0,999. On obtient le tableau 7.6 des rsultats. Ils sont trs proches des prcdents.
a
IC(A) 0,05 0,22 10,43 10,87 0,O 0,29 10,36 10,94 0,00f 0,37 10,28 11,02

a b Tableau 7.6

Intervalles de confiance du poids moyen d'un jambon en fonction du risque a (loi normale et fonction INTERVALLE.CONFIANCE).

En rsum, nous trouvons pratiquement les mmes rsultats. Dans le cas de l'intervalle de confiance d'une moyenne d'une population quelconque, au moyen d'un grand chantillon, l'utilisation de la fonction INTERVALLE.CONFIANCE est la mthode la plus rapide. 7.3.5. Intervalle de confiance d'une variance pour une population

normale
Exemple : estimation de la variabilit du taux de viande maigre 7.3.5.1. Prsentation des donnes et position du problme

Un groupement d'leveurs de porcs participe un essai sur des porcs issus d'une nouvelle slection gntique. Plusieurs critres sont tudis parmi lesquels le taux de viande maigre appel TVM (richesse des carcasses en viande maigre). C'est un indicateur important dans la dtermination du prix du kilo de viande. Dans cette tude, nous nous intresserons la variabilit du TVM. Ce dernier est valu partir de 23 carcasses choisies indpendamment et de manire alatoire. Les rsultats x; observs dans cet chantillon sont indiqus sur le tableau 7.7 (en pourcentage).
X|

59,5 59,5 57,6 59,7 59,8 60,0 60,2 60,3 60,5 60,7 60,8 61,0 61,0 61,4 61,5 61,5 61,7 61,9 62,0 62,4 62,5 62,7 63,0

Tableau 7.7

Taux de viande maigre.

La distribution du TVM est considre comme sensiblement gaussienne. 109

Questions : estimer la variance du TVM et dterminer un intervalle de confiance de la variance au niveau de confiance 95%. 7.3.5.2. Notations et modle

Population : c'est l'ensemble des porcs issus de la nouvelle slection gntique - X est la variable alatoire TVM (en %) - E(X) = m est le TVM moyen - VarX=o2 - X->N(m,o) chantillon - La taille est n, ici 23 - Xi, X, .. .,Xn sont des variables alatoires indpendantes - X,->N(m,o) Vie{l,2,..,n} ^~. 1 " PF 0

- scT^y^x.-x)^' n-l-f-r- ' n-1

7.3.5.3.

Dmarche statistique

On estime la variance par o2 = S 2 . En termes statistiques, il s'agit de dterminer l'intervalle de confiance c'est dire l'intervalle alatoire [A 2 , B 2 ] tel que P(A2-^a2 <B2)=-OL. On doit rechercher une loi de probabilit impliquant la variance, sachant que la population est normale. Dans le chapitre 4 "Rappels de probabilit", nous avons indiqu une loi rpondant cette exigence :
(n-)s

(J

' -^ X 2 ^-,), loidux'Oi-^ddI.


; 1=, 1
CX.

o[ P

-y <-:____< v A. (n-l);<x/2 2 - A . (n-l);l-a/2

(n-l)S 2

<=> P\2^a
|_ ^ (n-l);l-a/2

r_(n_l)S_

^ (n-l)S 2 1 <
X (n-l);ct/2

2 = l - a

tfoA-.-^"-^(n-l);l-<x/2

elB 2 ^"-^ .
A (n-l);a/2

7.3.5.4.

Mise en uvre au moyen d'Excel

cr = 1,619 est l'estimation de la variance. La fonction "intervalle de confiance de la variance" n'tant pas programme dans le logiciel, il faut raliser les calculs ci-dessus (a = 0,05) : - X a/2 = 10,982 valeur obtenue l'aide de la fonction KHIDEUX.INVERSE dont on renseigne la bote de dialogue (Probabilit : 0,975 ; Degrs libert : 22) - 5C l-a/2 = 36,781 (copier-coller partir du rsultat prcdent, puis changer la probabilit dans la barre de formule)

110

- pour dterminer A2 et B2 : on ralise le calcul - soit 0,968. On trouve 36,781 de la mme faon ; B2 =- 3,243. [0,968 ; 3,243)] constitue un intervalle de confiance de la variance de la population au niveau de confiance 95%. Remarque : contrairement aux questions relatives aux moyennes, l'intervalle de confiance n'est pas centr sur l'estimation de la variance 1,619. En effet, le centre de l'intervalle de confiance est 2,106. 7.3.6. Intervalle de confiance d'une proportion au moyen d'un grand

chantillon
Exemple : lancement d'un nouveau produit 7.3.6.1. Prsentation des donnes et position du problme

Une socit de service de nettoyage envisage d'ajouter ses prestations habituelles le nettoyage des rideaux et tentures. La socit veut valuer quel pourcentage de clients sont intresss par un tel service Un sondage est ralis auprs de 300 personnes choisies alatoirement dans la population des clients. Dans cet chantillon, on observe que 23% des clients sont intresss par ce nouveau service. Questions : estimer la proportion p de clients prts utiliser ce nouveau service et dterminer un intervalle de confiance de cette proportion au niveau de confiance 95%. 7.3.6.2. Notations et modle

Population : c'est l'ensemble des clients de la socit. - 1 est l'indicatrice de l'vnement "utilisation potentielle du nouveau service" - p est la proportion de clients potentiels du nouveau service - l--B(p) Vi e {1,2,...,300} - E(I) = p et Var 1 = pq avec q = 1-p. chantillon - La taille est n, ici 300 - Ii, l2, .. .Jn sont des variables alatoires indpendantes - I, -> B(p) est une variable de Bernoulli de paramtre p - Y = V ^ I =1 est la variable alatoire "proportion de clients potentiels du service nettoyage rideaux" observe dans un tel chantillon. Dans notre chantillon, on observe y = 23%. 7.3.6.3. Dmarche statistique

nf-r

Y = p est l'estimateur de p, proportion de clients potentiels du nouveau service dans la population de clients . Intervalle de confiance de p au niveau de confiance 1-a II s'agit de trouver A tel que P(Y-A < p < Y + A ) = 1-a A t e l q u e p = Y A au risque a. c'est dire

111

Cela revient dterminer l'intervalle alatoire [ A = Y - A , B = Y + A ] tel que P[A < p < B ] = l - a Toute ralisation [a , b] de [A , B]est un intervalle de confiance de p au niveau de confiance 1-a. La dmarche statistique est analogue celle que nous avons suivie pour la dtermination de l'intervalle de confiance d'une moyenne. i \^ar i T Loi de probabilit de Y estYTM(p,J) soit Y N(p,.|'-1-) comme dj vu V n V n dans le chapitre 6 "chantillonnage". Remarque : rappelons succinctement que si Y est la moyenne arithmtique de n variables de Bernoulli I; indpendantes et de mme paramtre p, si n est grand alors on peut appliquer Y le Thorme Central Limite et en conclure que Y suit une loi normale de manire approche. ^B PI n d'oZN(0,))

|pq<p,Y,Z.J^1=l-a

Dtermination des intervalles de confiance 1" stratgie : utilisation du maximum de pq Var 1 = p q = p ( 1 - p )= p - p2 = f( p ) L'tude lmentaire de cette fonction f ( p ) permet d'tablir immdiatement que Vp e [0 , l], on a p q < . De manire rigoureuse, on en dduit un intervalle alatoire dont toute ralisation fournit un intervalle de confiance de p : L Y+Za/ CY+Z, V4n
=- z a/2^= z l-<x/2

A:

II est important de remarquer que dans cette stratgie, la marge d'erreur A est indpendante du rsultat observ dans l'chantillon- C'est partir de cette expression de A que l'on pourra dterminer la taille de l'chantillon adapte la prcision et au niveau de confiance souhaits (tude pralable au sondage). Nous qualifierons cette stratgie de stratgie rigoureuse en remarquant qu'elle maximise l'intervalle de confiance. 2e stratgie L'chantillon tant grand, on peut accepter la loi de probabilit approche de Y
fVa r.~~\ 1 " ob Y^N(p.^ ) avec Var^, I-^^-D2

soit, aprs dveloppement Var^^^ 1 = (l -I) = Y(l - Y).

112

On obtient ainsi, de manire approche, un intervalle alatoire dont toute ralisation fournit un intervalle de confiance de p :

Nous qualifierons cette deuxime stratgie de stratgie approche.

7.3.6.4.

Mise en uvre au moyen d'Excel

p=y=0.23. 1re mthode : stratgie rigoureuse - Z, _/:, = 1,9599 (fonction LOI.NORMALE. STANDARD. INVERSE avec a = 0,05 ) ; ,/-!-= 0,0288 V4n - A = 1,9599 x 0,0288 = 0,0566 = 6%

La proportion de clients potentiels du "service nettoyage rideaux" est de 23% 6% prs au risque 5%. 2e mthode : stratgie approche
_ ^Z^J^^l^xJ0^77 =0.0476=5%
'""V n V 300

- a =0,23-0,04 76 =0,1824

b = 0,23 + 0,0476 = 0,2776

La proportion de clients potentiels du "service nettoyage rideaux" est de 23% 5% prs au niveau de confiance de 95%. Autrement dit, la proportion de clients potentiels du service est comprise entre 18% et 28% au risque 5%. 3e mthode : utilisation de la fonction INTERVALLE.CONFIANCE Ds le chapitre 6 consacr l'chantillonnage, nous avons mentionn que la variable alatoire Y est une moyenne arithmtique : Y = -i-1 = 1. Pour un grand chantillon, nous n pouvons donc utiliser la fonction INTERVALLE.CONFIANCE, les valeurs saisir dans la bote de dialogue tant relatives la variable de Bernoulli I - Alpha: 0,05 - Ecart-type : ^0,23x0,77 soit 0,4208 - Taille: 3 00. Remarquons que, pour l'cart-type, on donne l'estimation gale la valeur de ^/y(l - y ) . Le rsultat affich, 0,0476, est celui que nous avons obtenu avec la deuxime stratgie. Il est clair que c'est la mthode la plus rapide.
I. .

113

8.
8.1. INTRODUCTION

LE TEST STATISTIQUE

Les deux chapitres prcdents "chantillonnage" et "Estimation" ont approfondi les relations statistiques et probabilistes entre Population et chantillon. Nous avons vu que l'on pouvait "prdire" la valeur d'un paramtre statistique d'un chantillon partir de celui d'une population avec une certaine marge d'erreur et une certaine scurit et, inversement, en changeant les rles d'chantillon et de population. Le test statistique tudie aussi les relations entre population et chantillon, mais conduit une prise de dcision face une question pose. Exemples : - Est-ce que l'apprciation d'une pause caf est indpendante de la catgorie socio-professionnelle des participants? - Est-ce que trois traitements de lutte contre l'infestation d'un verger ont la mme efficacit? - Peut-on considrer comme correcte la qualit de remplissage des bouteilles d'huile dans une chane de production d'un tel produit? - Peut-on considrer que la teneur en pesticide d'un lait bio est identique celle d'un lait classique du commerce? - Peut-on considrer que quatre varits de haricots verts produisent des haricots de mme finesse? - Est-ce qu'une certaine campagne publicitaire a permis l'augmentation du taux d'utilisation du produit prsent? La rponse chaque question de type "oui / non" sera faite l'issue d'un rsultat alatoire (chantillon, exprimentation) et, par suite, "fatalement", cette rponse sera plus ou moins risque. Nous proposons d'introduire les notions fondamentales associes la construction et l'utilisation d'un test statistique classique partir d'un exemple. Exemple : comparaison des teneurs moyennes en huile de deux varits de tournesol 8.2. HYPOTHSES

On veut comparer les teneurs moyennes en huile m1 et m2 de deux varits V1 et V2 de tournesol. m1 et m2 sont inconnues. On est en prsence de deux hypothses : m1 = m2 ("Hypothse nulle Ho") et m1 ^ m2 ("Hypothse alternative H1") Remarques - "Ho : m1 ^ m2" est dite hypothse simple. - Nous prsentons ci-dessus l'hypothse alternative courante m1 ^ m2, c'est dire que l'on peut avoir m1 > m2 ou m1 < m2 . Le test est dit bilatral.

- Dans certains cas, l'hypothse alternative peut se limiter une seule ingalit, par exemple m1 < m2. La varit V2 est une nouvelle varit sense avoir une meilleure teneur en huile que la varit courante V1. Dans ce cas, le test est dit unilatral. - Dans un contexte identique celui de la remarque prcdente, l'hypothse "Ho : m1 < m2, ainsi exprime est dite "composite". Dans les calculs, c'est cependant la limite "Ho : m1 = m2" qui est utilise. Les hypothses nulles utilises dans cet ouvrage sont des hypothses simples. 8.3. DONNES, MODLE ET PRISE DE DCISION

Comment faire un choix entre les deux hypothses prcdentes ? Considrons deux chantillons E1 et B2 de tailles n1 et n2 des varits V1 et V2. On note respectivement X1 et X2 les variables alatoires "teneur moyenne en huile" des chantillons correspondants et enfin E = [ X1 - x2 l'cart (alatoire) entre ces deux moyennes. On conoit aisment que si l'cart E des moyennes observes dans les chantillons est petit, l'cart entre les vraies moyennes m1 et m2 doit aussi tre petit. E est dit "statistique du test". Pour pouvoir apprcier, juger toute observation e de cet cart alatoire E, il est ncessaire de connatre la loi de probabilit suivie par E en l'absence de diffrence entre les deux varits V1 et V2. De manire gnrale, il s'agit de connatre la loi de probabilit de E, statistique du test, sous Ho (c'est dire en supposant Ho vraie). La loi de probabilit de E sera dtermine partir des lois suivies par X, et X;, , ellesmmes trouves partir des lois suivies par les variables alatoires X; (modle). On peut ainsi dterminer un seuil C tel que l'cart E aura trs peu de chances de dpasser (probabilit < seuil) en l'absence de diffrence entre m1 et m2, c'est dire si Ho est vraie. On peut ainsi raliser le TEST, construire la REGLE DE DCISION : Accepter Ho si E < C Rejeter Ho si E > C Le test est une mthode statistique DCISIONNELLE. Remarque : le seuil de probabilit, not a (= P(E > C) ) est gnralement choisi par l'utilisateur et, bien entendu, faible. En pratique, le choix de 5% est trs frquent, celui de 1% frquent mais il peut tre galement beaucoup plus faible selon les applications. Ce seuil sera approfondi ultrieurement dans le paragraphe "Risques". Dfinitions - Le test est dit SIGNIFICATIF lorsque le rsultat est le REJET de Ho. E > C dfinit la rgion de rejet (RR) (rejet de Ho). - E < C dfinit la rgion d'acceptation (RA). 8.4. 8.4.1. RISQUES Risques et probabilit critique

La dcision est toujours prise partir d'une variable alatoire car issue d'un ou plusieurs chantillons (E dans cet exemple). chaque dcision est associ un type de risque.

116

8.4.2.

Risque de 1re espce

Dfinition

Lorsqu'on rejette Ho, on prend le risque de le faire alors que cette hypothse est vraie : c'est le risque de 1re espce. Concrtement, dans notre exemple, le risque de 1re espce est le risque que l'on prend en dcidant qu'en moyenne, les teneurs en huile des deux varits de tournesol sont diffrentes alors qu'elles sont identiques. On note a le risque de 1re espce. Le maximum du risque de 1re espce est appel "niveau du test" ou encore "seuil". Dans la pratique, c'est le plus souvent l'utilisateur qui fixe ce seuil. Par abus de langage, c'est le maximum de risque de 1re espce qu'on appelle a . Traduction probabiliste : Le risque est une probabilit conditionnelle : a = Pyn (rejet de Ho) | a = PHO (Rejet Hp) = P(rejeter Hp sachant que Ho est bonne). | Dans notre exemple : a = PH(,(E > C) = P[(E > C) / Ho vraie] (le signe "/" signifie "sachant que" ou "alors que") a=P[(E>C)/m,=mJ 8.4.3. Probabilit critique

Dfinissons la probabilit critique partir de notre exemple. Considrons e, ralisation de E, conscutive l'observation d'un chantillon E1 de la varit V1 et d'un chantillon E2 de la varit V2. On appelle "probabilit critique", note pc, la probabilit que l'cart E atteigne une valeur au moins gale e quand Ho est vraie : p^=PHo(E>e) En quelque sorte, la probabilit critique value la crdibilit de l'hypothse Ho teste, compte tenu du rsultat observ partir du ou des chantillons. Plus la valeur de pc est petite, moins Ho est crdible et plus il y a de chances que Ho soit rejete. 8.4.4. Probabilit critique et rgle de dcision

Pc = PH()(E > e) = P[(E > e) / Ho est vraie] Nous remarquons la mme traduction probabiliste que celle de a, niveau du test. Nous pouvons associer le mme type d'interprtation, face une description conditionnelle. La probabilit critique reprsente le risque que l'on prendrait en rejetant Ho tort (c'est dire alors que Ho est bonne). Gnralement, l'utilisateur s'est fix le niveau a du test, risque maximal. On peut donc traduire la rgle de dcision partir de la probabilit critique pc : - si Pp ^ a, on rejette l'hypothse Ho. pc reprsente le risque que l'on prend - si Pc > a, on ne prend pas le risque jug trop grand de rejeter Ho. Cette hypothse est considre comme acceptable. Remarque : selon l'ordre de grandeur de la probabilit critique, le test sera qualifi de significatif, trs significatif et hautement significatif:
- 1 / ^ p $ 5% Test significatif, souvent symbolis par *

- l/og < p, < 1% Test trs significatif, souvent symbolis par **

117

- p,. ^ l0/,,,, Test hautement significatif, souvent symbolis par ***. 8.4.5. Risque de 2e espce

Dfinition

Lorsqu'on accepte Ho, on peut se tromper c'est dire que l'on peut accepter Ho alors que cette hypothse est fausse : on prend alors un risque de 2e espce not p. Concrtement, dans notre exemple, le risque de 2e espce est le risque que l'on prend en concluant qu'en moyenne, les teneurs en huile des deux varits de tournesol sont identiques alors qu'elles sont diffrentes. Traduction probabiliste : Le risque de 2e espce est une probabilit conditionnelle : | P = PHI (accepter H0) = P (accepter H0 / H0 est fausse) = P (accepter H0 / H1 est vraie) | Dans notre exemple, P - P,,| (E < C) = P [ (E < C) / H,, est fausse ] P=P[(E<C)/ m,^m;]. Remarques - Le fait que l'on se place sous H1 rend difficile voire impossible la dtermination de P. En examinant notre exemple, on comprend la difficult du calcul puisque, sous H1, m1 est diffrent de m:;, de multiples faons. En supposant la valeur d'un cart m1-m2, nous pouvons approcher l'valuation d'un risque P associ. - La difficult d'valuation du risque de 2e espce "fragilise" la sret de la dcision "acceptation de Ho". Ce point est essentiel. En fait, lorsqu'on ne peut pas rejeter Ho, on n'est pas sur que Ho soit vraie puisque souvent on ne peut pas afficher le risque pris en considrant Ho comme vraie. C'est la raison pour laquelle, actuellement, pour ce type de dcision, on prfre l'expression "on ne peut rejeter Ho" (sous-entendu : on n'a pas assez d'lments, d'assurance, pour rejeter Ho). - P n'ayant aucun rle dcisif, la dtermination de la rgion de rejet ne fait intervenir que le risque a. 8.4.6. Comparaison des deux types de risque

En gnral, les risques de 1re et 2e espce voluent en sens inverse. Par suite, il est dlicat de minimiser simultanment les deux types de risque. On ne peut le faire qu'en augmentant la taille des chantillons ce qui, videmment, augmente les prcisions. D'un point de vue pratique, on comprend que, dans certaines tudes, les contraintes conomiques imposent des limites aux tailles d'chantillons. 8.5. PUISSANCE DU TEST

La puissance du test est la probabilit d'accepter H1 quand H1 est vraie, soit encore la probabilit de rejeter Ho, alors qu'elle est fausse. Puissance = P111 (accepter H1) = P(accepter H) / H1) = P(refuser Ho / Ho fausse) Puissance ^ 1 - p Concrtement, dans notre exemple, la puissance est la probabilit de conclure la diffrence des teneurs moyennes en huile des deux varits alors que cette diffrence existe.

118

8.6.

RCAPITULATIF DECISION dpend d'une variable alatoire REJETER Ho ACCEPTER Ho (exemple : E > C ) (exemple : E < C ) DECISION DECISION INCORRECTE CORRECTE a 1-a DECISION CORRECTE 1-P DECISION INCORRECTE P

Ho VRAIE

Hi VRAIE (INCONNUE) 8.7.

R A L 1 T

TEST D'HYPOTHSE ET INTERVALLE DE CONFIANCE

Les tests d'hypothses peuvent se rsoudre au moyen de calculs d'intervalle de confiance. Ainsi, dans notre exemple, nous disposons des teneurs moyennes en huile x, et x, issues des chantillons E1 (varit V1) et E2 (varit V2). Nous pouvons ainsi dterminer l'intervalle de confiance de l'cart m1 - m2 au niveau de confiance 1-a.. Ainsi, nous verrons si la valeur zro, donc correspondant Ho : m1 = m2., appartient ou non l'intervalle de confiance et nous en dduirons par consquent si nous pouvons considrer Ho comme acceptable ou si nous devons la rejeter. Remarque : cette mthode est peu pratique lorsqu'on travaille avec EXCEL car il est ncessaire de conduire quasi manuellement le dtail des calculs. APPROCHE PRATIQUE DES TESTS : QUEL TEST CHOISIR ? Introduction

8.8. 8.8.1.

Gnralement, le praticien commence par dcrire les donnes du problme. Il souhaite ensuite continuer son analyse pour finalement prendre une dcision. Dans ce qui suit, pour faciliter son choix, nous lui proposons un itinraire. En premier lieu, il est essentiel de noter la nature des variables impliques dans l'analyse. Rappelons brivement que ces variables peuvent tre qualitatives (notes QL) comme par exemple la varit d'une production vgtale, la catgorie socio-professionnelle, la rgion, les caractristiques de l'image d'un produit, etc. Elles peuvent aussi tre quantitatives (QT) comme les notes d'un test, les mesures, les prix, etc. Ces dernires sont toujours transformables en variables qualitatives aprs dcoupage en classes. Dans la deuxime tape, nous suggrons d'valuer tout simplement la dimension de la question tudie. Est-ce un problme de statistique unidimensionnelle, bidimensionnelle ?

119

Nous allons prendre les exemples choisis dans cet ouvrage assortis d'un schma rcapitulatif des tests ou modles appropris. Pour tre plus systmatique, ce panorama sera prsent selon la dimension 8.8.2. Statistique unidimensionnelle

1. On tudie une population d'agriculteurs en fonction de leur production dominante (cf. paragraphe 9.1.1). On prlve un chantillon d'agriculteurs. Les donnes sont les effectifs dnombrs dans cet chantillon pour chacune des modalits de la variable qualitative "production dominante". Est-ce que l'chantillon est reprsentatif de l'ensemble de la population ? 2. On analyse les rsultats d'une dgustation de vins de Champagne (cf. paragraphe 9.1.2). Les donnes tant la srie de notes donnes regroupes en classes, est-ce que leur distribution peut tre considre comme obissant une loi normale ? 3. On surveille attentivement la temprature d'une cave viticole (cf. paragraphe 10.2.2). On dispose d'une srie de relevs de tempratures constituant un chantillon gaussien. 3.a Est-ce que la variabilit de la temprature est matrise ? 3.b Est-ce que la temprature moyenne est conforme l'exigence ? 4. Est-ce que le volume moyen de remplissage de bouteilles d'huile sur une chane de production est conforme au cahier des charges ? (cf. paragraphe 10.2.1). Les donnes sont un chantillon gaussien extrait d'une population de variance connue. 5. Un socit de vente sur Internet s'intresse au montant des ventes qu'elle ralise sur une priode donne (cf. paragraphe 10.2.3). Elle prlve sur ses livres de compte un chantillon grand de montants de vente. Estce que le montant moyen des ventes de cette priode est suprieur au montant moyen classique ? 6. Le taux d'efficacit d'un nouveau traitement est-il suprieur au taux de rfrence ? (cf. paragraphe 12.1). On fait cette analyse partir d'un grand chantillon de sujets traits. 8.8.3. Statistique bidimensionnelle

7. Peut-on considrer que trois traitements phytosanitaires effectus dans un verger conduisent des rsultats homognes ? (cf. paragraphe 9.2). Les rsultats sont classs selon trois modalits : mauvais, moyen et bon. Les donnes sont des effectifs d'arbres rpartis selon le traitement et son rsultat 8 Est-ce l'image d'un nouveau produit est lie la catgorie socio-professionnelle ? (cf. paragraphe 9.3). Les donnes sont fournies par le tableau de contingence issu de l'chantillon enqut.

120

9. On tudie la teneur d'un certain pesticide selon le type de lait, conventionnel ou biologique. On dispose d'un chantillon gaussien pour chaque type de lait. 9.a Est-ce que les variabilits des teneurs sont identiques ? (cf. paragraphe 10.3). 9.b Est-ce que les teneurs moyennes sont identiques ? (cf. paragraphe 10.4.1) 10. Dans une tude mene sur des varits de mas, on s'intresse au poids de 100 grains de deux varits diffrentes. Est-ce que leurs poids moyens de 100 grains sont significativement diffrents ? (cf. paragraphe 10.4.2). On dispose d'un chantillon gaussien pour chaque varit. Un test pralable a montr qu'il n'y avait pas homoscdasticit entre les deux varits. 11. Les prix moyens du kilo de magret de canard sur deux lieux de vente sont-ils quivalents ? (cf. paragraphe 10.4.3). Sur chaque lieu de vente, on a prlev un grand chantillon de prix. 12. Peut-on considrer que quatre varits de haricots verts fournissent en moyenne des haricots de mme diamtre ? (cf. chapitre 11). Les chantillons prlevs sont gaussiens avec homoscdasticit. 13. Est-ce qu'un additif alimentaire a amlior la note moyenne de qualit de pizzas ? (cf. paragraphe 10.4.4). On dispose de deux chantillons (sans additif et avec additif) apparis et gaussiens. 14. Un substitut alimentaire contribue-t-il diminuer le poids moyen d'un ensemble de consommateurs ? (cf. paragraphe 10.4.5). On dispose de deux chantillons grands et apparis. 15. Est-ce que les taux d'utilisation d'un produit de nettoyage sont identiques dans deux populations ? (cf. paragraphe 7.3.6). On dispose de deux grands chantillons indpendants.

121

8.8.4. 8.8.4.1.

Tableaux rcapitulatif des tests appropris Statistique unidimensionnelle

QL
Test de reprsentativit d'un chantillon
(TEST DU KHI-DEUX SUR UNE SERIE D'EFFECTIFS)

QT
Test de conformit d'une variance Echantillon gaussien
(TEST DU KHI-DEUX)

^:x.i(9.Ti1
Test d'ajustement par vue loi thorique
(TEST DU KHI-DEUX SUR UNI7 SERIE D'EFFECTIFS)

Sx73a (S 10.2.2^ Test de conformit d'une moyenne Echantillon gaussien Echantillon gaussien et variance de population connue
(TEST AVEC LOI NORMALE) (TEST DE STUDENT)

Echantillons grand

(TEST DE STUDENT)

|Ex. 4 ( 10.2.t)|

|Ex. 3b ( 10.2.2)1

|Ex. 5 ( 10.2.3)1

Test de conformit d'une proportion Grand chantillon


(TEST AVEC 1.01 NORMALE)

^6(12.1^

122

8.8.4.2.

Statistique bidimensionnelle

QLxQL
Test d'homognit
(TEST DU KHI-DEUX SUR TABLEAU CROIS D'EFFECTIFS

QLxQL
Test de comparaison de 2 varimes chantillons gaussions
(TEST DE FiSHER-SNEDECOR)

c'est dire SUR TABLEAU DE


CONTINGENCE)

[E^9a(10.3^

|Ex.7(9^ Test d'indpendance


(TEST DU KHI-DEUX SUR TABI.EAU DE CONTINGENCE)

Test de comparaison de 2 moyennes Echantillons gaussiens


(TEST DE STUDENT)

t:x.8(9^ chantillons indpendants quelconques gaussiens grands homoscdasticit |Ex. 10| fe 10.4^
Analyse de variance un/acteur (TEST DE FiSHER-SNEDECOR)

Echantillons apparis gaussiens


quelconques

grands

|Ex.l3| K 10.4.4)1

|Ex7l2 (chap. 11)1 Test de comparaison de 2 proportions Grands chantillons indpendants


(TEST AVEC LOI NORMALE)

^x. 15 (73.6^

Tableaux 15.1 Rcapitulatifs des tests correspondants aux problmes poss.

123

9.

ETUDE DES EFFECTIFS TEST DU KHI-DEUX

9.1.

TEST DE REPRSENTATIVIT, NORMALIT, ETC.)

TEST D'AJUSTEMENT (TEST DE

9.1.1.

Distribution thorique parfaitement connue

Exemple : reprsentativit d'un chantillon d'agriculteurs 9.1.1.1. Prsentation des donnes et position du problme

On s'intresse la population d'agriculteurs d'une rgion agricole donne. On a class cette population selon la production dominante. En proportion, la composition est celle qui est indique sur le tableau 9.1. Production dominante Frquences relatives Bovin-viande (BV) 33%
Tableau 9.1

Bovin-lait (BL) 22%

Brebis laitires (BRL) 15%

Craliers (CER) 19%

Autres (AUT) 11%

Distribution de la production dominante.

On a ralis un sondage auprs de 255 agriculteurs (la population tant grande, l'chantillon alatoire est considr comme simple). Selon la production dominante, on observe la rpartition en effectifs d'agriculteurs suivante. Production dominante Nombre d'agriculteurs
Tableau 9.2

BV 60

BL 90

BRL CER AUT 30 45 30

Rpartition en effectifs des agriculteurs sonds .

Question : est-ce que cet chantillon est reprsentatif de la population, le niveau du test tant de 5% ? 9.1.1.2. Notations et modle Population - X est la variable alatoire qualitative "Production dominante" - il y a 5 modalits (classes). - La distribution de X (modle thorique) est Classes X;
Pi

X, BV 0,33

X3

X4

X5

Total 1

BL 0,22

BRL 0,15

CER 0,19

AUT 0,11

chantillon Classes Xi Effectifs observs 0; X,(BV) X (BL) X3 (BRL) X4 (CER) Xs (AUT) Total 60 90 30 45 30 255

0, est l'effectif observ dans la classe X;. La taille de l'chantillon ^ 0, = n = 255 . 9.1.1.3. Dmarche statistique

Hypothses du test

On met les hypothses suivantes Ho : l'chantillon est reprsentatif de la population agricole tudie contre H1 : l'chantillon n'est pas reprsentatif.
Dtermination des effectifs thoriques

Au niveau de l'chantillon, on recherche les effectifs que l'on devrait thoriquement avoir dans chaque classe si l'chantillon tait reprsentatif. Notons Ci, l'effectif thorique de la i classe. C'est l'effectif espr dans la classe i sous l'hypothse Ho. Une approche intuitive de Ci donne Ci = npi ce qui peut se dmontrer mathmatiquement. Remarque : cette dmonstration ncessite un passage la limite qui, d'un point de vue pratique se traduit par l'exigence d'effectifs thoriques grands, au moins 5 selon la convention courante. T.H. Wonacott et alii. (1991) proposent des choix moins svres. Classes X; Effectifs observs 0; Effectifs thoriques Ci X,
60 84,15
X X3 X4

X;
30 28,05

Total
255 255

90 56,1

30 38,25 255 * 33%

45 48,45

1 Tableau 9.3 Questions

Effectifs observs et thoriques.

- comment apprcier l'cart entre les effectifs observs et les effectifs thoriques ? - est-ce que cet cart est naturel , normal, du au hasard des fluctuations d'chantillonnage ou bien est-il suffisamment important pour que l'on puisse conclure une non reprsentativit de l'chantillon ? Pour rpondre ces questions, il est ncessaire de trouver un outil de mesure de l'cart entre effectifs observs et effectifs thoriques et d'associer cet outil une loi de probabilit afin de pouvoir juger cet cart. La statistique du Khi-deux rpond cette double exigence.

126

Statistique du test On tablit que : Sous Ho, la statistique du Khi-deux observ (ou Khi-deux calcul) dfinie par : ^ (Q-C,)2
Khi-deUX observ /.,-.] n ^i

suit la loi mathmatique du Khi-deux v degrs de libert, avec v = k-1 ( k est le nombre de classes). (Des contraintes thoriques exigent des effectifs thoriques suffisamment grands, en pratique souvent Ci > 5). On peut ainsi dterminer mathmatiquement (table statistique) une valeur seuil, dite Khi-deux thorique, qui n'a que peu de chances ( a ) d'tre dpasse, souvent a = 5%. On note : Khi-deux thorique = X Prise de dcision 1. Si Khi-deux observ > Khi-deux thorique ce qui est trs peu probable lorsque Ho est vrai, on prfrera rejeter l'hypothse Ho. Le test est dit "significatif'. Le risque associ cette dcision est le risque de rejeter l'hypothse Ho alors qu'elle est bonne. Autrement dit, c'est le risque de conclure que l'chantillon n'est pas reprsentatif de la population alors qu'en ralit il l'est. Ce risque est au maximum a. 2. Si Khi-deux observ < Khi-deux thorique , on ne peut refuser Ho. Donc on l'accepte. La reprsentativit de l'chantillon est considre comme acceptable et le test est dit non significatif. Le risque associ est le risque d'accepter Ho alors qu'elle est fausse. C'est le risque p (souvent non calculable). Sous Ho : Densit de la loi du X v i-a RA : rgion d'acceptation (de Ho) RR : rgion de rejet

RA
A. v;l-<x

RR

Figure 9.1 Visualisation du risque a et des rgions d'acceptation et de rejet de Ho.

9.1.1.4.
e

Ralisation pratique l'aide d' EXCEL

I mthode : c'est un calcul "manuel". EXCEL est utilis comme outil de calcul et table statistique

127

Pour dterminer les effectifs thoriques et calculer le Khi-deux observ , on utilise la fonctionnalit du tableur. On calcule le 1re effectif thorique et la contribution au Khi-deux. On tire ensuite la poigne de recopie (vers la droite).
Classes Xi Effectifs observs Oi Effectifs thoriques Ci Contribution absolue au Khi-2 X1 60 84,15 6,93 X2 90 56,1 20,49 X3 30 38,25 1,78 X4 45 48,45 0,25 X5 30 28,05 0,14 Total 255 255 29,58 t

(o,-cJ

Poigne de recopie
Khi-deUX observ = ^

(0,-C,)2

c,
Tableau 9.4

Calcul du Khi-deux observ


-

Dtermination du Khi-deux conque avec a

5% : ^ ...ny-,

On utilise la fonction KHIDEUX.INVERSE(0,05;4). Le rsultat est 9,487. Dcision Le Khi-deux observe (29,58) est suprieur au Khi-deux thorique (9,48). On rejette donc Ho : l'chantillon n'est pas reprsentatif de la population (risque maximum 5%). Le test est dit significatif . 2e mthode ; utilisation de la fonction TEST.KHIDEUX C'est la mthode la plus rapide. Comme prcdemment, on dtermine les effectifs thoriques (Tableau 9.3) et on insre la fonction dans une cellule quelconque de la feuille. Si l'on a au pralable nomm 0i la plage des effectifs observs et Ci celle des effectifs thoriques la formule s'crit "=TEST.KHIDEUX(0,;C,)" Le rsultat affich, appel probabilit critique et not pc est la probabilit d'atteindre une valeur du x 2 au moins gale celle du X2observquandl'hypothse Ho est vraie. La probabilit critique mesure la crdibilit de Ho. C'est encore le risque que l'on prendrait en rejetant Ho alors qu'elle est vraie. Il est vident que l'on ne prendra ce risque que s'il est petit, infrieur au risque maximum a (souvent gal 5%) que l'on s'est donn ou qui nous est impos. La probabilit critique permet d'ailleurs de s'affranchir du niveau de test choisi avec une part d'arbitraire. En rsum, la prise de dcision obit au cheminement suivant : < a (5%) -> Rejet de Ho Le risque de se tromper tant le rsultat de la fonction > a (S%)> Acceptation de Ho (risque P)

Test Khi-deux

Probabilit critique

128

Dans notre exemple, la probabilit critique est 5,97. 0~6 et on prend un risque infime en rejetant Ho alors qu'elle est vraie. Il faut donc la rejeter. L'chantillon n'est donc pas reprsentatif et on est pratiquement sr de ne pas se tromper !
Rcapitulatif de l'exercice

Densit de la loi du X,

2 Y A. 4;0,95

2 Y A. observ

Figure 9.2 Rcapitulatif des rsultats du test : RR, RA, pc et a. > Remarques relatives aux/onctions EXCEL lies au Khi-deux

L'application de la fonction statistique KHIDEUX. INVERSE sur le rsultat affich par TEST.KHIDEUX (c'est dire la probabilit prcdente) fournit le Khi-deux observ

Rsultat = Khi-deux observe Figure 9.3 Dtermination du Khi-deux observ partir de la probabilit critique .

L' application de la fonction statistique LOI.KHIDEUX sur le Khi-deux observ fournit la probabilit de dpasser le Khi-deux observ C'est la valeur affiche par la fonction TEST KHIDEUX.

129

~~^'

Valeur donne
Figure 9.4 Dtermination de la probabilit critique partir du Khi-deux observ. Analyse critique du rsultat du test et approfondissement de la recherche

Nous avons conclu, au risque de 6.O* que l'chantillon n'tait pas reprsentatif de la population d'agriculteurs. En examinant les effectifs observs et thoriques, nous remarquons de gros carts pour les deux premires classes Xi et Xi (BV : Bovin-viande et BL : Bovin-lait). Nous retrouvons cette constatation en examinant la contribution (absolue) au Khideux observ La deuxime classe (BL) explique, elle seule, prs de 70% du Khi-deux et l'ensemble de ces deux classes explique sa quasi totalit. Il apparat donc que les effectifs des leveurs bovins faussent la reprsentativit de l'chantillon. On note un manque d'leveurs Bovin-viande (Oi Ci) et un excs d'leveurs Bovin-lait (Oi C2). Lorsque le test du Khi-deux est significatif, il est intressant de rechercher pourquoi. Nous examinerons ultrieurement, sur des exemples plus appropris, une dmarche de recherche systmatique des classes explicatives du caractre significatif 9.1.2. Distribution thorique connue mais de paramtres statistiques estimer

Exemple : test de normalit de la note de qualit d'un vin de Champagne 9.1.2.1. Prsentation des donnes et position du problme

Fin 1999, un ngociant, cours de stock mais assailli de commandes, recherche dsesprment un bon Champagne. Il dcouvre un petit producteur qui, en prvision des festivits du millnaire a fort astucieusement constitu un bon stock. Le ngociant veut nanmoins s'assurer de la bonne qualit du Champagne propos Plusieurs critres fondamentaux permettent de dfinir la qualit sensorielle d'un Champagne . Dans cette tude, on se limitera un critre majeur, l'intensit globale X. Notons : - X la variable alatoire "note d'intensit globale" (chelle croissante de 1 10) - E(X) = m la note moyenne d'intensit globale - Var X = o2 la variance. Le ngociant demande une analyse sensorielle auprs d'un jury constitu de n = 25 dgustateurs confirms. Une petite analyse descriptive schmatique, ralise sur les 25 observations de cet chantillon fournit les rsultats suivants : - moyenne observe ^ 7,09 = x 130

- cart-type estim = 1,32 = o g^'SCE avec \ n-1 (n = 25 = taille de l'chantillon) Apres dcoupage en classes, l'histogramme ralis sur ces notes montre une distribution symtrique d'allure gaussienne (Tableau 9.5). Question : peut-on ajuster la distribution des notes de l'intensit globale l'aide d'une Loi Normale ?

SCE

^-x)

Classes de notes X <; 5,4 5,4 < X < 6,2 6,2 < X < 7,0 7.0 < X < 7,8 7,8 < X < 8,6 X>8,6

Effectifs observs 0, 3 4 6 6 3 3

Tableau 9.5 Distribution des frquences absolues des notes de qualit.

9.1.2.2.

Dmarche statistique

Le problme est trs proche de celui que nous venons d'tudier : il parat donc superflu de recommencer l'approche dcouverte de l'outil statistique. La seule diffrence rside dans le fait que la distribution thorique (ou distribution de la population) n'est pas connue intgralement. Comme dans la plupart des cas rels, nous ne disposons que des donnes de l'chantillon. Ici, ce sont les paramtres m et o qui sont inconnus. Nous utiliserons leurs estimations trouves dans l'tude descriptive. Ceci induit une modification du degr de libert v. La thorie tablit que ce ddl gnral est : ddl = v = nombre de classes - 1 - nombre de paramtres estims Remarque : le cas de l'ajustement une distribution thorique parfaitement connue (problme prcdent) apparat donc comme un cas particulier, celui o le nombre de paramtres estimer est nul.
Hypothses du test

Ho:X->N(mG)

soit contre

X - > N ( 7 , 0 9 , 1,32)

Hi ; X -^ N ( m a ) Dcision et mthode de calcul C'est la mme stratgie que celle explique propos du problme prcdent. 9.1.2.3. Ralisation pratique l'aide d' Excel

La dmarche est la suivante : - on dtermine les proportions thoriques (ou probabilits) dans chaque classe - on calcule les effectifs thoriques dans chaque classe (si certains d'entre eux sont infrieurs 5, raliser un regroupement de classes) 131

on fait le test. Comme prcdemment, nous proposons deux mthodes. Ve mthode calculer le Khi-deux observ dterminer le Khi-deux thorique X y;i-a les comparer et prendre la dcision. 2e mthode - raliser un calcul quivalent celui fourni par TEST.KHIDEUX (non utilisable ici) en calculant la probabilit critique et prendre la dcision la plus adapte. Remarques - Les tapes 1 et 2 de la premire mthode constituent la dmarche traditionnelle de type manuel. - Dans le cas spcifique d'un ajustement selon la Loi Normale, celle-ci est une loi thorique dfinie sur ]- oo , + co[. Il faut donc toujours ouvrir les extrmits de la distribution et tre vigilant sur les proportions thoriques extrmes. - Explication dtaille de la suite des calculs sur Excel - a est la borne infrieure de la classe - b est la borne suprieure de la classe - F est la fonction de rpartition (ou fonction cumulative). Nous indiquons dans ce qui suit le dtail des calculs raliser et la faon de procder. Classes de Ci Oi Bornes F(b) F(a) Proba Ci Oi notes (regroup.) (regroup.) 0,100 0 0,100 2,505 X < 5,4 3 5,4 0,250 0,100 0,150 3,746 6,252 6,2 4 7 5,4 < X < 6,2 0,473 0,250 0,223 5,569 5,569 6,2 < X < 7,0 7 6 6 0,705 0,473 0,232 5,796 5,796 6 7,0 < X < 7,8 7,8 6 7,8 < X < 8,6 8,6 0,874 0,705 0,169 4,225 7,383 3 6 X>8,6 1,000 0,874 0,126 3,158 3 / 25 25 25 25 Total Contribution abs. au Khi2 0,090 0,033 0,007 0,259 0,389
Khi-deUX observ

Notations :

Tableau 9.6

Dtermination du Khi-deux observ (test de normalit).

- Borne suprieure b Pour la dernire classe, la borne suprieure est concrtement 10, mais, dans le contexte de l'ajustement la Loi Normale, c'est l'infini. Il est important d'en tenir compte dans le calcul des proportions thoriques (probabilits). -F(b): Pour dterminer la premire valeur F(5,4) (soit P(X < 5,4), nous utilisons la fonction LOI.NORMALE dont on saisit les arguments : - X : cliquer sur cellule contenant la borne de la 1" classe ( LC(-l) > 5,4) - Esprance : saisir la valeur moyenne de l'chantillon (7,09)

132

- Ecart-type : saisir la valeur de l'cart-type estim (1,32) - Cumulative : saisir VRAI. On trouve 0,10. Sur la feuille Excel, on tire ensuite la poigne de recopie vers le bas jusqu' l'avant dernire classe. On saisit 1 pour la dernire, ce qui correspond F(oo).
-F(a)

Pour la premire classe, saisir 0 (la borne infrieure de la !" classe est thoriquement -oo). Pour les autres, la borne infrieure d'une classe tant ncessairement la borne suprieure de la classe prcdente, il suffit de slectionner l'ensemble des valeurs de F(b) l'exception de la dernire (c'est dire de 0,10 0,87) et de faire un copier puis collage spcial / valeurs partir de la cellule situe sous le zro prcdent. - Probabilit note proba = F(h)-F(a) Le calcul par Excel est lmentaire. En sommant la colonne, on vrifie que l'on obtient bien 1
-C,

Effectif thorique = n.p,, o p, dsigne la probabilit. Calculer le premier et recopier vers le bas. En sommant la colonne, on doit obtenir l'effectif total soit n=25. On note que les effectifs thoriques des deux premires classes ainsi que des deux dernires sont infrieurs 5. Il convient donc de raliser un regroupement de chacune de ces paires de classes. - Oi : effectifs observs - Oi (aprs regroupement) : on travaille dornavant sur 4 classes. Nous avons la plage des effectifs observs (plage relle) et celle des effectifs thoriques (plage attendue).
- Test

Ve mthode : Excel utilis comme outil de calcul et table statistique Pour dterminer le Khi-deux observ, on calcule la contribution absolue du 1re terme
\

! soit 0,090 et on recopie vers le bas. La somme de cette colonne fournit le rsultat

soit 0,389. Pour obtenir le Khi-deux thorique (avec a = 5% soit X ,, ), on utilise la fonction KHIDEUX INVERSE avec les arguments - Probabilit : saisir la valeur choisie pour le niveau du test, par exemple 5% - Degrs de libert : saisir 1 (nombre de classes - 1- nombre de paramtres estims soit 4-1-2). Rappelons que nous avons estim la moyenne et l'carttype. Le rsultat est : Khi-deux thorique = X 1,0,95 =3,84. Dcision Le Khi-deux observ (0,389) est infrieur au Khi-deux thorique (3,84). On ne peut donc rejeter Ho et on considrera que l'ajustement de la distribution selon

133

la Loi Normale N(7,09,1,32 ) est acceptable. On peut accepter Ho alors que cette hypothse est fausse. C'est le risque P non calculable de manire gnrale. 2e mthode : Utilisation de la fonction LOI.KHIDEUX sur Khi-deux calcul. Le calcul fournit la probabilit de dpasser le Khi-deux observ . C'est la valeur de la probabilit critique pc, rsultat quivalent celui fourni par la fonction TEST.KHIDEUX utilise dans le cas prcdent. Remarque : la fonction TEST.KHIDEUX ne peut tre utilise ici, son ddl, tant fig (nombre de classes - 1), est donc erron dans ce type d'application. La fonction LOI.KHIDEUX a pour arguments : - X : 0,389 (valeur du Khi-deux observ) - Degrs_libert : 1 Son rsultat (0,53...) indique le risque pris en rejetant l'hypothse Ho . En clair, on a 53 chances sur 100 de se tromper si on rejette Ho. La dcision s'impose ! On ne rejette pas Hoet on accepte l'ajustement selon la Loi Normale N ( 7,09 ; 1,32). 9.2. TEST D' HOMOGNIT

Exemple : homognit de traitements de vergers

9.2.1. Prsentation des donnes et position du problme


Une orangeraie homogne en sol et situation gographique est attaque uniformment par une infestation X. On souhaite comparer l'efficacit de trois traitements Ti, 7i, et Ts. Pour cela, on slectionne trois chantillons (considrs comme alatoires et simples) respectivement traits par T], Tz, et Ty. Au bout de 2 mois de traitement, on examine les rsultats : une observation prcise et mthodique de la totalit des arbres permet de dfinir 3 classes pour la variable rsultat : B : bon rsultat (gurison totale) liRsultats Rsultats
Traitements
Ti

Les nombres d'orangers constituant les effectifs , on dresse le tableau de contingence suivant, rpartissant les arbres selon le type de traitement reu et la classe de rsultat.

T2

3 Ta l___L Tableau 9.7

B 9 10 8

AB
7 5 7

M 7 12 11

Question : les traitements T), Tz, et T^ ont-ils des rsultats homognes. En terme statistique, il s'agit de tester l'homognit des traitements Ti, Ta, et T.3 au niveau 5%. 9.2.2. Dmarche statistique

Echantillons

Les donnes observes (effectifs) sont le croisement de deux variables qualitatives (traitement x rsultat).
Notations

Oij est l'ef ectif observ la Ie ligne et la j colonne ; 023 = 12 par exemple est le nombre d'arbres traits par T2 avec un mauvais rsultat.

134

0,, T,
T2 T3

B (On) 9 10 8 (0.,) 27

AB
(0,2)

M
(0,3)

7 5 7
(0-2)

7 12 11
(0.3)

Total (0,) 23 27 26 (0..) 76

Total

19

30

0;. est la somme des effectifs de la i ligne (sommation sur les colonnes). Rappelons que le point dsigne l'indice de la sommation. Oi. est, par exemple, la somme des effectifs de la 1" ligne ; c'est le nombre d'arbres traits par T] et donc la taille de l'chantillon Ti . O.j est la somme des effectifs de laj" colonne (sommation sur les lignes). O.i est, par exemple, la somme des effectifs de la 1re colonne. C'est le nombre d'arbres guris (bon rsultat), tous traitements confondus. 0.. est l'effectif total. C'est le nombre total d'orangers traits (runion des 3 chantillons T1, T2, et T3).
Hypothses du test

On met les hypothses suivantes : Ho : H1 : rsultats homognes selon les traitements contre non homognit des traitements.

Estimation des probabilits d'obtenir des rsultats bons, moyens et mauvais sous Hg Sous Ho, les traitements sont supposs de mme efficacit. On runit donc les 3 chantillons T1, T2, et T3 pour estimer les probabilits (ou proportions thoriques) P(B), P(AB), P(M). P(B) = estimation de la proportion thorique d'arbres guris _ Nombre total d'arbres guris (B) _ O.i _ 37 Nombre total d'arbres o 76 La dmarche est la mme pour P(AB)et P(M) P(AB)=
0i = 1 9 0.,

76

P(M)=

0,i = 3 0 76 0,

Dtermination des effectifs thoriques C,, L'effectif thorique C;j est l'effectif que l'on devrait avoir dans la cellule ligne icolonnej si Ho tait vraie, c'est dire s'il y avait homognit entre les traitements. Par exemple : - C11 est le nombre d'arbres guris dans l'chantillon T1 dans le cas o les traitements ont la mme efficacit. - C11 = Taille de l'chantillon T1 x P(B) = 2 3 x 27/76 La procdure est identique pour les autres effectifs thoriques.

135

D'une manire gnrale : Effectif thorique ^ 0,. X O.J 0.. ^ Total ligne x Total colonne Total gnral Total ligne i x Total colonne j Total gnral

A l'issue de cette tape, se pose la question de la mesure de l'cart entre les effectifs observs et les effectifs thoriques exactement en des termes identiques ceux expliqus lors du tout premier exemple. On sait que la statistique Khi-deux rpond cette question. Rgle de dcision et statistique du test On tablit que : Sous Ho, la statistique du Khi-deux observ (ou Khi-deux calcul ), dfinie par :
Khi-deux o^e P q (Q - c i 2 Z Z "p-"1 i=lj=l '-1.J

suit la loi mathmatique du Khi-deux V degr de libert (ddl) avec : p = nombre de lignes q = nombre de colonnes V = ddl = (p-1 ) (q-1) > Remarque : explication du degr de libert ddl 1" tape : sans tenir compte des paramtres estims - 1er chantillon : q-1 (nombre de classes - 1 ) - pe chantillon : q-1 soit ddl1 = p(q-l) 2 tape : avec prise en compte des paramtres estims (q-1) probabilits doivent tre estimes (somme des probabilits ^ 1 ). Par suite le degr de libert final est ddl = p (q-1) - (q-1) = (p-1) (q-1). La suite du droulement du test tant au niveau statistique qu'au niveau calcul l'aide d'EXCEL est absolument identique ce qui est dtaill au tout premier exemple. Le seul point qui change est le ddl qui, dans le cas de donnes matricielles (au moins 2 lignes et 2 colonnes) est toujours : ddl = ( nombre de lignes - 1 ) ( nombre de colonnes - 1 ) 9.2.3. Ralisation pratique l'aide d'Excel

Calculons les effectifs thoriques. Conseil : les tests du Khi-deux de ce type, relatifs des donnes matricielles (tableaux croiss) sont trs frquents en pratique et peuvent tre de dimensions relativement importantes. Il est donc essentiel de profiter de deux fonctionnalits particulirement intressantes d'EXCEL : les rfrences absolues et relatives ainsi

136

que l'outil poigne de recopie . Il suffit donc de calculer un seul effectif thorique. Les autres sont calculs par recopie automatique. Pour plus de clart, appliquons cette procdure dans l'exemple qui nous occupe. Le tableau 9.8 montre la feuille EXCEL correspondante.
. I:
: 2<1

1:. .
0, Ti ^^ Ta Total

.' -

2 B 9 10 8 27

3
AB 7 5 7 19

4 M 7 12 11 30

5 .' , ' !

Effectrf obierv Total 23 27 26 76

-3 ; ^ S<' '81'

r: .
'.9.
1

Effectifs thoriques C, Ti T; T Total

H ^ 13 Tableau 9.8

B 8,171 9,592 9,237 27

AB 5,750 6,750 6,500 19

M 9,079 10.658 10,263 30

Total 23 27 26 76

Effectifs observs et thoriques (test d'homognit).

Les lignes et colonnes Total sont, bien entendu calculs sur EXCEL par l'intermdiaire du bouton 2 (sommation) Total ligne 1 x Total colonne 1 _ 37 x 23 Rappel Ci,= =8,171 76 Total gnral Pour parvenir ce rsultat, la procdure est la suivante : - saisir "=" dans la cellule d'accueil (ici, L10C2) - cliquer sur le Total colonne 2 ("27") ; dans la barre de formule, s'affiche la rfrence relative L(-4)C . Lorsqu'on va recopier vers le bas, il y aura erreur sur la ligne ; il convient donc de "fixer" la ligne. Pour cela, 2 appuis sur la touche F4 du clavier permettent de tourner la rfrence et de la transformer en L6C ; de la sorte, on fera toujours rfrence la ligne Total correcte - saisir "* " - cliquer sur le Total ligne 3 ("23") . Dans la barre de formule se rajoute la rfrence L(-7)C(3) . Cette fois, il faut "fixer" la colonne et pour cela appuyer 3 fois sur la touche F4 jusqu' obtenir L(-7)C5 - saisir la division par "/ " - cliquer sur le Total gnral ( 76 ) dont il faut fixer la fois ligne et colonne (1 appui sur F4) - ce niveau, la barre de formule doit afficher =L6C*L(-7)C5/L6C5 - faire Entre et on obtient le rsultat attendu 8,171. Pour obtenir les 8 autres rsultats, il suffit maintenant de faire une recopie vers le bas (poigne de recopie de L10C2 L12C2) puis ces 3 cellules restant slectionnes, une recopie vers la droite (poigne de recopie de C2 C4). Faire enfin les sommations de vrification comme prcdemment l'aide du bouton * : on doit retrouver les mmes rsultats que sur le 1er tableau (sinon, cela veut dire que l'on s'est tromp dans le premier calcul !). > Remarque : les utilisateurs d'Excel habitus aux rfrences absolues trouveront la formule ci-dessus crite sous la forme : B$6*$E3/$E$6. 137

Mise en uvre du test Ve mthode : EXCEL utilis comme outil de calcul et table statistique.
l
2 ''S' B 6 7 .. 9 10

,'

2 B 3 10 t 27

3 AB 7 5 7 19

4
M 7 12 11 30

Effectifs observes 0; T, T, T. Total ElfectMs thoriques C; T, Ti T. Total 1re mthode Connibution absolue au Khi-uem T, T. T, Total

Total 23 27 26 78

n
12 13 I* 15 18 17 t8 19 21 22 &.

B 8.171 9.532 9.237 27

AB 5.750 8.750 8.500 13

M 3.073 18.858 18.283 30

Total 23 27 26 78

B 0.084 0.017 0.166 0.287

AB 0.272 0.454 0.038 0.784

M 0.478 0.183 0.053 0.838

Total 0.832 0.640 0.257 1.723^ ^


Khi-deUX observ

' 21

Tableau 9.9

Calcul du Khi-deux observ (test d'homognit),

Calculons le Khi-deux. La contribution absolue au Khi-deux de la 1re cellule (T|,B) calcule par la formule ' 8'171) s'crit dans EXCEL (cellule d'accueil L18C2) : 8,171 =((L(-15)C-L(-8)C)A2)/L(-8)C Cette cellule tant slectionne, recopier vers le bas jusqu' la cellule L20C2 . Les 3 cellules tant slectionnes, recopier vers la droite jusqu' la colonne 4. Aprs sommations, le total gnral fournit la valeur du Khi-deux observe : 1,729. ' C,, soit On dtermine le Khi-deux thorique X^.i^i l'aide de fonction KHIDEUX.INVERSE insre dans une cellule quelconque avec les arguments : - Probabilit : niveau du test (5%) - Degrs_libert : (nombre de lignes - 1 ) x ( nombre de colonnes - 1 ) On trouvez2^, =9,488. Dcision Le Khi-deux observe (1,729) est infrieur au Khi-deux thorique (9,488). On ne peut rejeter l'hypothse Ho d'homognit des traitements
( lj 1J (9

138

Le test est non significatif. En considrant comme acceptable l'homognit des traitements, on prend un risque de 2e espce (3 (non calculable d'une manire gnrale). 2e mthode : plus rapide, elle fait appel la fonction TEST.KHIDEUX Dans une cellule disponible, il suffit d'appeler la fonction avec les arguments : -Plage_relle (nomme ici 0;) : plage des cellules indiquant les effectifs observs -Plage_attendue (nomme ici Q) : plage des cellules indiquant les effectifs thoriques La valeur de la probabilit critique trouve (0,785) signifie que l'on prendrait un risque de 78,5% en rejetant Ho tort. La dcision est, bien entendu, la mme que prcdemment : on ne peut rejeter Ho. En clair, on ne peut conclure la diffrence d'efficacit des traitements. Comparaison des deux mthodes La 2e mthode est clairement plus rapide. Lorsque le test est significatif, cette mthode donne la valeur exacte du risque a pris en rejetant Ho tort. Cependant, lorsque ce test est significatif, il est intressant, en pratique, de rechercher pourquoi ; pour cela, il est souvent judicieux d'analyser la contribution au Khi-deux et donc d'utiliser les calculs de la 1re mthode. 9.3. TEST D'INDPENDANCE : image du "caf des socio-professionnelle l'aprs-midi" selon la catgorie

Exemple

9.3.1. Prsentation des donnes et position du problme


L'exemple dvelopp ici a pour contexte une enqute consommateur en vue du lancement d'un produit. Une socit commercialisant du caf et souhaitant mettre sur le march un nouveau "cru", dsire effectuer une enqute-image auprs d'un chantillon reprsentatif de consommateurs. Dans cette tude, nous allons approfondir un point particulier du dpouillement, la perception, l'image du "caf de l'aprs-midi" selon la catgorie socio-professionnelle. Pour cela, on considre les deux questions suivantes de l'enqute : Question A : quelle catgorie socio-professionnelle (CSP) appartenez-vous ?
1. Agriculteur (AGRI) 2. Artisan-commerant (ARTCOM) 3. Employ (EMP) 4. Ouvrier (OUV) 5. 6. 7. 8. Cadre (CAD) tudiant ETU) Sans emploi, retrait (SERET) Autre (AUT)

Les tris plat, raliss la premire tape du dpouillement de l'enqute, expliquent certains regroupements de catgories. Ces items seront considrs comme une variable qualitative A p=8 modalits. Question B : qu'voque en vous le "caf de l'aprs-midi" (une seule rponse possible) ?
1. Un plaisir (PLAI) 2. Un parfum, un got (PARF) 3. Une dtente (DET) 4. Une habitude (HAB) 5. Un stimulant (STI) 6. Un moment de convivialit (CONV)

139

Ces items seront considrs comme une variable qualitative B q = 6 modalits. On observe le tableau de contingence suivant (tableau crois d'effectifs) :
t
1 0,i 2 PLAI 12 11 10 5 B 8 11 7 72 .1 3 PARF 14 15 7 6 9 7 9 B 73 i 4 DFT 10 7 17 13 11 5 B 8 80 I 5 HAB 7 9 19 15 6 5 5 11 77

':

6
S-T1 E 5 5 7 12 15 5 13 (8

"2 AGRI ^ ARTCOM EMPL '5 OUV 6 CAD ETUD 6 SANS EMP 8 AItTRE Total 11

7 DFT E 5 B 6 16 12 14 12 77

8 Total 55 52 64 52 62 53 52 57 447

Tableau 9.10

Effectifs observs dans le tableau de contingence "CSP - image du caf".

Question : est-ce que l'image du "caf de l'aprs-midi" est lie la catgorie socioprofessionnelle ? 9.3.2. Dmarche statistique

La dmarche statistique est trs proche de celle qui a t mene durant le test d'homognit prcdent. Dans de trs nombreux cas concrets, il est d'ailleurs identique de poser le problme comme un test d'homognit ou comme un test d'indpendance. Les notations matricielles sont identiques celles que nous avons adopt pour le test d'homognit. Les hypothses sont: Ho: Hi: l'image du caf de l'aprs-midi est indpendante de la CSP contre l'image du caf de l'aprs-midi est lie la CSP __

Dtermination des effectifs thoriques Cy : Raisonnons sur un exemple (une cellule dfinie par une CSP et une perception), puis gnralisons. Sous l'hypothse Ho d'indpendance, exprimons la probabilit d'tre employ (EMP) et de penser V habitude (HAB) en ce qui concerne le caf de l'aprs-midi.
P(EMP et HAB) = P(EMP) P(HAB) = Effectif thorique(EMP. HAB)

Effectif total Pour calculer l'effectif thorique, il suffit de remplacer par leurs estimations les probabilits d'tre employ et de penser habitude . Effectif thorique (EMP,HAB)=P(MP) P(HAB) X Effectif total soit :

Effectif total (Taille de l'chantillon) Ligne 3 Colonne 4 4e colonne ; 4e modalit de la variable image Ligne 3 ; 3e modalit de la variable A

140

03^ (^34
A

0.4 0 . .

U . .

0 . .

Os. 0 _ Total ligne3 x Total colonne4 Effectif total 0..

D'une manire gnrale : Effectif thorique Cy C,,= Remarque (ligne i, colonne j)

Total ligne i x Total colonne j _ Oi. O.J Total gnral 0.,

: le rsultat est le mme que pour le test d'homognit. On dtermine ainsi tous les effectifs thoriques. Prise de dcision et statistique du test : Comme pour le test d'homognit, on tablit que : Sous Ho, la statistique du Khi-deux observ (ou Khi-deux calcul ), dfinie par :
Khi-deux observ =
p q

(Oij -Cij) 2

'^1 ^J suit la loi mathmatique du Khi-deux v degr de libert (ddl) avec p = nombre de lignes q = nombre de colonnes V = ddl = (p-1) (q-1)

9.3.3.

Mise en uvre au moyen d'Excel

La procdure est exactement la mme que celle que nous avons dtaille pour le test d'homognit : on calcule le premier effectif thorique (en faisant trs attention aux rfrences absolues et relatives) et on utilise la poigne de recopie. Rappel schmatique : _ _ Total ligne 1 x Total colonne 1 Total gnral - Total ligne 1 : fixer la colonne (rfrence absolue pour la colonne) Total colonne 1 : fixer la ligne Total gnral : tout fixer. - Poigne de recopie : d'abord vers le bas pour obtenir les effectifs thoriques de la 1" colonne ; ensuite, cette 1re colonne tant slectionne, vers la droite. Ralisation pratique 1re mthode : on utilise la fonction TEST.KHIDEUX. C'est la mthode la plus rapide. Ayant pris soin de nommer respectivement Oij et Cij les plages des effectifs observs et thoriques, il suffit de saisir les arguments de la fonction - Plage relle : Oij - Plage attendue : Cij. La probabilit critique obtenue 0,00101 est la probabilit de dpasser le Khi-deux observ

141

On prendrait donc 0,1 % de risque en rejetant l'hypothse Ho tort. La dcision est donc de rejeter cette hypothse : la perception du "caf de l'aprs-midi" est lie la catgorie socioprofessionnelle . En prenant cette dcision, on prend un risque de un millime. Ce test est donc trs significatif
C.. ta -. ABRI ART COM w EMPL ,M:. OUV i? CAD

^ '

J.

g PLAI 8.B59 8.376 10.309 9,376 9.987 8.537 8.376 9,181 72

3 PARF 8.382 8.492 10.452 8.492 10.126 8.6B5 8.492 9.309 73

DET 9.843 9.306 11.454 9.306 11.096 9.485 9.306 10.201 80

HAB 9.474 8.957 11.025 8.9B7 10.680 9,130 8.957 9.819 77

< STI 8.367 7.911 9.736 7.911 9.432 8.06 7.911 8.871 68

7 DET 9.474 8.957 11.025 8.957 10.680 9.130 8.957 9.819 77

Total 85 52 64 52 62 53 52 57 447

le:

8 ETUD ffi SANS EMP


20 2t AUTRE Total

Tableau 9.11

Effectifs thoriques (test d'indpendance).

2e mthode : stratgie de type manuel (calculs du Khi-deux observe et du Khi-deux thorique ) Cette mthode, plus longue, est nanmoins intressante lorsque le test est significatif car elle permet de revenir aux donnes concrtes et de rechercher les sources de la liaison. Calcul du Khi-deux observ
W

,.,:,.,l,,^l ...JL,.- .,,,,,,,,.,Sl,,,.-,1,


PLAI 1.114 0.822 0.009 1.361 0.395 0.034 0.822 0.518 5.075 PARF 2.803 4.987 1.140 0.731 0.125 0.317 0.030 1.176 11.310

1 ,..,.$ DET 0.002 0.572 2.685 1,466 0.001 1.281 0.183 0.475 6.665 HAB 0.646 0.000 5.770 4.076 2.051 1.868 1.748 0.142 16.30)

,.,,.,J,,.,,,12
STI 0.670 1.071 2.304 0,105 0.699 5.969 1.071 2.161 14.049 DET 1.274 1.748 2.290 0.976 2.650 0.802 2,839 0.485 13.164

..J.
Total 6.509 9200 14,198 8,715 5.32) 10.371 6,694 4.957 GC.565

"y

33- cotri abs AGRI M' 1 ART COM t EMPL ^OU M: CAD 2'' ETUD SANS EMP

.ai

^ AUTRE

Total JB11

Tableau 9.12

Calcul du Khi-deux observ (test d'indpendance).

" Calcul du Khi-deux thorique : X vi-a

Le calcul sur Excel a t dtaill lors du test prcdent (rfrences relatives). Le Khi-deux observe est gal 66,565.

Nous avons vu qu'il suffit d'utiliser la fonction KHIDEUX.INVERSE(0,05;35), 35 tant le degr de libert. On trouve X -,; n 05
=

49,80

Dcision Le Khi-deux observ (66,565) est suprieur au Khi-deux thorique (49,80). On rejette l'hypothse Ho. Le test est "significatif. Remarque : on peut rechercher si le test reste significatif au niveau 1%. En remplaant 0,05 dans la bote de dialogue ci-dessus par 0,01, on trouve un

142

Khi-deux thorique de 57,34. La conclusion est identique : on peut affirmer, avec un risque infrieur 1% que l'image du "caf de l'aprs-midi" et la catgorie socioprofessionnelle sont lies. D'aprs la valeur de la probabilit critique calcule au cours de la premire mthode, nous savons que le test est significatif au risque de 1,02/. Approfondissement Le dveloppement suivant, conscutif un test du Khi-deux significatif, ne prsente aucun caractre obligatoire ni systmatique. Il n'en demeure pas moins que lors d'tudes relles, certaines variables peuvent avoir un enjeu important. Il parat alors intressant de proposer une stratgie permettant de revenir au plus prs de la ralit du problme. Lorsque le test du Khi-deux est significatif, le Khi-deux observ, mesure de l'cart entre les effectifs observs et thoriques, dpasse le seuil X v.i a Rappelons qu'au del de ce seuil, l'cart est jug "trop important". Il est peu probable qu'il soit d au hasard d'chantillonnage. Il est donc profitable de rechercher quelles sont les cellules (couples lignes-colonnes) qui contribuent le plus au Khi-deux observ . A. Approfondissement au moyen des contributions relatives Un procd simple consiste calculer la contribution relative de chaque cellule au Khi-deux observ : il suffit de diviser la contribution absolue par la valeur du Khi-deux observ et d'exprimer le rsultat en pourcentage. Dans EXCEL, on calcule la contribution relative de la 1re cellule (prendre bien entendu la valeur du Khi-deux observ en rfrence absolue) et on utilise la poigne de recopie. On vrifiera que le total est bien 100%.
.1!

'

,"

2 PLAI 1.67K 1.24% 0.01% 2.04% 0.59% 0.05% 1.24% 0.78% 7.62%

3 PARF 4,21% 7,49% 1.71% 1.10% 0.19% 0.48% 0.05% 1.77% 16.99%

4 DET 0.00% 0.86% 4,03% 2,20% 0.00% 1.92% 0.28% 0.71% 10.01%

5 HAB 0.97% 0.00% 8,67% 6,12% 3,08% 2,81% 2,63% 0.21% 24.49%

t STI 1.01% 1.61% 3.46% 0.16% 1.05%

7 DET 1.91% 2.63% 3.44% 1.47% 3.98% 1.36% 4.26% 0.73% 19,78%

9 Total 9.78% 13,82% 21.33% 13,09% 8.90% 15,58% 10.06% 7.45% 100.00%

JB. J

M eoBtri iflatiu AGRI

3e ARTCOM - EMPL
3S OUV

' a s CAO -w- ETUD SAMSEMP 'f. AUTRE


SL -u
Total

8,97% 1.61% 3.25% 21.11%

Tableau 9.13

Contributions relatives au Khi-deux observ

Par exemple, la formule de la cellule L35C2 est = L(-l 1)C/L32C8 ce qui donne 1,67%. Une simple lecture de ce tableau, permet de remarquer rapidement les cellules les plus explicatives. On peut d'ailleurs procder de faon plus systmatique en calculant la contribution moyenne d'une cellule, dfinie en pourcentage par la formule : 100 X = 100 = 2,08% nombre de cellules 48

143

Ceci veut dire que si toutes les cellules contribuaient de la mme faon au Khi-deux, elles l'expliqueraient chacune hauteur de 2,08%. On dgage ainsi facilement les cellules qui contribuent plus que la moyenne (sur le tableau 9.14, en grands caractres, suprieur la moyenne et en grands caractres gras plus du double de la moyenne) et on peut pointer parmi ces lments ceux qui peuvent tre considrs comme les plus explicatifs. Nous pouvons maintenant ordonner les cellules (associations lignes-colonnes) par ordre d'importance dcroissante et mettre en relief par exemple celles qui ont une contribution au moins gale la contribution moyenne.
contributions rang contributions relatives cumules CSP x perception

1
2 3 4 5 6
7

8 9 10 11 12 13 14 15 16

9% 9% 7% 6% 4% 4% 4% 4% 3% 3% 3% 3% 3% 3% 3% 2%

9% 18% 25% 31% 35% 39% 43% 47% 50% 53% 56% 59% 62% 65% 68% 70%

tudiant x stimulant employ x habitude artisan-commerant x parfum-odeur ouvrier x habitude agriculteur x parfum-odeur sans emploi-retrait x convivialit employ x dtente cadre x convivialit employ x stimulant employ x convivialit autre x stimulant cadre x habitude tudiant x habitude sans emploi-retrait x habitude artisan-commerant x convivialit ouvrier x dtente

Tableau 9.14

Associations expliquant les plus forts carts l'indpendance.

On constate qu'un tiers des cellules permettent d'expliquer plus des deux tiers du Khideux. Six cellules ont une contribution au moins gale au double de la contribution moyenne et expliquent, elles seules, prs de 40% du Khi-deux. On peut approfondir l'analyse concrte en recherchant dans quel sens se fait l'cart l'indpendance. Pour cela on compare l'effectif observ et l'effectif thorique pour chacune de ces cellules.
CSP x perception

Comparaison effectifs EfF. observ Eff. thorique Eff. observ > Eff thorique Eff. observ Eff. thorique Eff. observ Eff thorique Eff. observ Eff. thorique Eff observ _Eff thorique Eff. observ Eff thorique Eff observ Eff thorique

ETU x STI

EMP x HAB ARTCOM x PARF OUV x HAB AGRI x PARF SERET x CONV EMP x DET CAD x CONV

Commentaire On observe beaucoup plus d'tudiants associant "caf de l'aprs-midi" stimulant que si la perception du caf tait indpendante de la CSP Idem Idem Idem Idem Idem Idem Idem

144

EMP x STI

Eff. observ Eff. thorique Eff. observ Eff. thorique Eff. observ > Eff. thorique Eff. observ Eff. thorique Eff. observ Eff. thorique Eff. observ Eff. thorique Eff. observ Eff. thorique Eff. observ > Eff. thorique

10 11 12 13 14 15 16

EMP x CONV

AUT x STI
CAD x HAB

ETU x HAB
SERET x HAB

On observe beaucoup moins 'employs associant "caf de l'aprs-midi" stimulant que si la perception du caf tait indpendante de la CSP Idem Idem que 1 Idem que 9 Idem que 9 Idem que 9 Idem que 9 Idem que 1

ARTCOM x CONV
OUV x DET

Tableau 9.15 Attractions et rpulsions explicatives entre les CSP et l'image du caf.

Synthse On remarque que les principales sources d'cart l'indpendance peuvent provenir d'associations "attractives" (effectifs observs > effectifs thoriques) ou d'associations rpulsives (effectifs observs < effectifs thoriques). Nous proposons de schmatiser ces points essentiels d'interprtation de la faon suivante : Effectif observ > Effectif thorique ++ : forte attraction (contribution relative de la cellule > 2 fois la contribution moyenne) + : attraction (contribution moyenne < contribution relative de la cellule < 2 fois la contribution moyenne). Effectif observ < Effectif thorique - - : forte rpulsion (mme stratgie que pour l'attraction) : rpulsion.
cellules explicatives PLAISIR de la liaison
AGRICULTEUR ARTISANT COMMERANT EMPLOYE OUVRIER CADRE ETUDIANT SANS EMPLOI RETRAITE AUTRES

PARFUM DETENTE HABITUDE STIMULANT CONVIVIALITE GOUT ++ ++ + ++ ++ + ++ ++ + +

Tableau 9.16

Schma rcapitulatif de l'intensit des associations attractives et rpulsives entre CSP et image du caf.

145

La "rpulsion" ouvrier-plaisir (OUV-PLAI) a t retenue car la contribution relative 2,04% atteint pratiquement la contribution moyenne (2,08%). D'un point de vue pratique, une telle synthse est intressante car elle met en exergue les spcificits des critres ou leur absence de spcificit (comme habitude par exemple) Pour le lancement du produit, on pourra orienter de faon pertinente le conditionnement ainsi que les stratgies publicitaires en fonction du public cibl. Remarque : une telle dmarche, s'appuyant sur les contributions relatives est gnrale et peut s'appliquer tous les tests du Khi-deux significatifs.

B. Approfondissement de ce cas concret au moyen des statistiques descriptives Dans toute tude de cas rel, une analyse descriptive des donnes est toujours enrichissante. Pour l'tude de cas qui nous occupe ici, l'laboration et l'analyse des profilslignes tudies dans la partie statistique descriptive bidimensionnelle est des plus intressante. poi'ds des lignes 12% 12% 14% 12% 14% 12% 12% 13%

Profils lignes
AGRICULTEUR ARTISANT COMMERANT EMPLOYE OUVRIER CADRE ETUDIANT SANS EMPLOI RETRAITE

PLAI 22% 21% 16% 10% 13% 15% 21% 12%

PARF 25% 29% 11% 11% 14% 13% 17 11%

DET 18% 13% 26% 25% 18% 11% 15% 14%

HAB 13% 17% 30% 29% 10% 10% 10% 19%

STI 11% 10% 8% 13% 19% 28% 10%

CONV 11% 10% 9% 12% 26% 23% 27% 21%

total 100% 100% 100% 100% 100% 100% 100% 100%

AUTRES 23% poids colonnes 16% 18% 15% 17% 100% ^profils lignes 16% 17% 100% moyen (En grande police et en gras valeurs nettement suprieures celles du profil moyen ; en police normale et en gras : valeurs infrieures). Tableau 9.17 Profils lignes CSP.

Rappel succinct - Les profils-lignes (CSP) sont les rpartitions en proportion selon les lignes. Leur simple lecture permet de caractriser le comportement de chaque CSP et d'en faire la comparaison. - Le poids associ un profil-ligne indique l'importance relative d'un profil-ligne. Par exemple, le poids associ au 1er profil-ligne "agriculteur" est de 12%. C'est la proportion d'agriculteurs de l'chantillon. Dans la prsente tude, on remarque d'ailleurs que les CSP ont pratiquement toutes la mme importance. - Le profil-ligne moyen est le poids des colonnes. Par exemple, sur l'chantillon global (toutes CSP rassembles), on observe que 16% des individus ont associ "caf de l'aprs-midi" et plaisir et que 16% ont fait l'association avec parfum et got. D'un point de vue concret, ce profil-ligne dit moyen joue un rle de rfrence pour l'ensemble. Dans notre exemple, il permettra de dgager la typicit de chaque CSP.

146

Interprtation 25% des Agriculteurs ont une perception sensorielle du caf (parfum, got) alors que seulement 16% de l'chantillon global fait cette association. On retrouve l ce que nous avions prcdemment qualifi d' "attraction". On peut conclure de la mme faon pour les Artisanscommerants. Le profil Employs est trs typ puisque 26% d'entre eux associent dtente contre 18% pour l'ensemble des personnes interroges. L'association avec "habitude" est encore plus marque (30% contre 17%). Par contre, seulement 8% des employs font l'association avec "stimulant" contre 15% de l'ensemble. On retrouve le mme effet pour l'association avec convivialit (9% contre 17%). On pourrait faire la mme dmarche avec les autres CSP et l'on retrouverait ainsi, bien entendu, les rsultats schmatiss prcdemment. En conclusion, le test du Khi-deux a permis de conclure une liaison significative entre la catgorie socio-professionnelle et la perception du "caf de l'aprs-midi". L'approfondissement du Khi-deux et l'analyse des profils-lignes permettent de dcrire comment se fait cette liaison.

147

10. TESTS RELATIFS AUX MOYENNES ET AUX VARIANCES


10.1. TEST DE CONFORMIT D'UNE VARIANCE AU MOYEN D'UN CHANTILLON GAUSSIEN Exemple : variabilit de la temprature d'une cave vin

10.1.1. Prsentation des donnes et position du problme


Pour de bonnes conditions de vieillissement, une cave vin doit imprativement tre bien isole pour viter des variations trop importantes de temprature prjudiciables la qualit du vin. Il est donc essentiel de contrler la variabilit de la temprature. On considre que la temprature dans une cave est une variable alatoire sensiblement normale. Comme rfrence, on adopte un cart-type de 15 C. Afin de contrler la variabilit de la temprature, on a relev 21 fois la temprature sur une priode de 2 mois. Les donnes observes sont les suivantes :
8 8,2 8,9 9,8 10 11 11 11 11 12 12 12 12 13 13 13 13 14 14 14 14

Tableau 10.1

Relevs de temprature dans une cave vins.

Question : peut-on considrer que la variabilit observe des tempratures est acceptable relativement la rfrence indique ? Pour repondre cette question, on ralisera un test de conformit de la variance 2,25 (soit 1,5 2 ) et au niveau 5%. 10.1.2. Notations et modle Population - X est la variable alatoire "temprature de la cave" (en C) - E(X) = m est la temprature moyenne de la cave - VarX=o 2 La variabilit thermique est considre correcte lorsque o2 = Oo2 avec Go2 = 2,25 - X ^N(m,cr) chantillon E - n=21 - X; " N( m , o ) avec i = 1 , n - ddl = n - 1 = 20 SCE ddl

10.1.3. Dmarche statistique


On ralise le test Ho : a2 = Oo2 contre Hi : o2 > o^

Outil statistique et prise de dcision On tablit que SCE . Sous Ho, la statistique suit la loi mathmatique du ic2 v ddl avec v = n - 1.

Densit de la loi du X

X2
2 A x - v;l-a
RA RR

RA : rgion d'acceptation de Ho RR : rgion de rejet de Ho Figure 10.1 Rgions d'acceptation et de rejet de Ho (test unilatral de conformit d'une variance.

10.1.4. Mise en uvre l'aide d'Excel


Dtermination des valeurs thoriques du %, , c'est dire 2C .,

On appelle la fonction KH1DEUX IN VERSE (0,05 ; 20) et on obtient : X 2 v,l-a = X 2 20.0.95 =31,41. Dcision Nous pouvons prsenter plusieurs mthodes, mais toutes reposent directement sur la loi de probabilit nonce. 1re mthode : calcul du Khi-deux observ Khi-deux,,,.^, ^^-^"s. " La fonction SOMME.CARRES.ECARTS fournit SCE observe gal 70,1695. Par suite.' Khi-deux
ociserve

srp

. = '- = 31,1864. / / ^

On constate que Khi-deux observe e RA. On ne peut donc pas rejeter l'hypothse Ho Par consquent, nous considrons comme acceptable l'hypothse de conformit de la variance. 2e mthode Nous calculons la rgion d'acceptation de Ho de la variance estime et nous situons la variance estime partir de l'chantillon observ.

150

2 - SCE_SCE (n-l)o -y o --- ; ;< '"v;!-" ddl n -1 o,)

r - -i , -2 - 2 o2 X 2 :, Notons L 0 'o,l J la rgion d acceptation de o : o, = f^_\ On trouve: _ 2 ^ 2.25 x 31,410 ^ ^ ' 20 et RA = f 0 ,3,534 1 l ' J

La variance estime partir de l'chantillon observ est o2 = 3,5085 . Elle appartient la rgion d'acceptation et on ne peut alors refuser Ho Nous considrons que la conformit de la variance est acceptable. Au plan pratique, on peut en dduire que la temprature de la cave est matrise. La gestion de cette dernire mthode est pratique puisqu' chaque nouvel chantillonnage de 21 relevs de temprature, il suffit de calculer la variance estime et de regarder si elle appartient ou non la rgion d'acceptation, dite encore "intervalle de pari". 3e mthode Nous pouvons calculer l'intervalle de confiance de la variance de la temprature partir des donnes observes dans l'chantillon.

p[^-<x\,,_J-iL'intervalle de confiance de o2 (intervalle alatoire) au niveau de confiance (1-a) est donc dfini par: S 2 > t o.) , > 2,23 a,; soit > 70,1695 et enfin a,,
X,,-c, 31,41

( SCE

Cet intervalle de confiance constitue l'ensemble des hypothses Ho pour la variance a2 . La rfrence oo2 =2,25 appartient cet intervalle. Par consquent, nous ne pouvons rejeter Ho. Nous considrons la conformit de la variance comme acceptable. Remarque : avec des petits chantillons, les intervalles de confiance sont grands. Comme on n'a pas assez d'information pour que le test soit significatif, on accepte souvent Ho.

10.2. TEST DE CONFORMIT D'UNE MOYENNE 10.2.1. chantillon extrait d'une population normale de variance connue. Dtermination de risques de 2e espce (p) Exemple : contrle de qualit (volume de remplissage de bouteilles) 10.2.1.1. Prsentation des donnes et position du problme Sur une chane de remplissage de bouteilles d'huile d'olive vierge, 1" pression froid, on realise priodiquement un contrle de la qualit de remplissage. L'importance de ce contrle est primordiale tant au niveau conomique (pour la socit de production et ses clients) qu'au niveau juridique (respect des garanties). Le conditionnement s'effectue dans des bouteilles de verre d'un litre.

151

Quand l'appareillage fonctionne correctement, la variable alatoire X, quantit d'huile contenue dans une bouteille, suit une loi normale de moyenne 100 cl et d'cart-type 2,5 cl ; on suppose que ce dernier est stable. On ralise un sondage sur 55 bouteilles. Les rsultats obtenus exprims en cl sont reports sur le tableau 10.2.
93,2 96,6 99,5 102,5 93,7 96,8 99,7 102,7
93,9 97,0 99,9 103,0 94,1 97,1 100,1 103,1 94,3 97,3 100,3 103,3 94,5 97,5 100,5 103,5 94,7 97,7 100,7 103,7 94,9 97,9 100,9 104,0 95,1 98,1 101,1 104,5 95,3 95,5 95,7 95,9 96,1 96,3 98,3 98,5 98,7 98,9 99,1 99,3 101,3 101,5 101,7 101,9 102,1 102,3 105,0

Tableau 10.2 Volume d'huile contenu dans 55 bouteilles (en cl).

Questions Peut-on considrer que le contenu moyen d'une bouteille dans cet chantillon est conforme l'attente (100 cl) ? Tester cette hypothse de conformit au niveau 0,5%. Prciser la rgion d'acceptation (RA) de la moyenne d'chantillon associ un tel test. 2. Calculer le risque de 2e espce P associ la rgion RA dans les cas o le contenu moyen sur l'ensemble de la chane de remplissage est de 99 cl, 98,5, 98 cl. tendre cette dtermination de p dans le cas de niveaux de tests 0,3%, 0,5%, 5% et de tailles d'chantillon n=20 puis n=100 et prciser les puissances de tests associes. 10.2.1.2. Notations et modle Population : c'est l'ensemble des bouteilles d'huile tudies. - X est la variable alatoire "quantit d'huile contenue dans une bouteille (en cl.)" - E(X) = m est le contenu moyen d'une bouteille (chane en fonctionnement correct) - m = mo = 100 - Var X = oo2 = 6,25 X - N ( m , 0 o ) . chantillon - la taille est n== 55 - X,-).N(m,On) i=l,n X est la variable alatoire, contenu moyen observ dans un tel chantillon. 10.2.1.3. Dmarche statistique On ralise le test : Ho : m = mo c'est dire contre H) : m -^ mo

Ho : m = 100 (conformit avec l'exigence) contre H] : m ?" 100 (non conformit avec l'exigence)

Approche intuitive

La moyenne X observe dans l'chantillon prend des valeurs invitablement diffrentes de 100 cl, ces valeurs fluctuant autour de 100. Il est donc ncessaire de pouvoir juger l'cart E = X-100 Etant donn le hasard d'chantillonnage, peut-on considrer cet cart E comme naturel ou est-il, au contraire, trop grand pour pouvoir tre d au seul hasard ? On doit 152

donc rechercher un seuil S que l'cart E a trs peu de chances de dpasser (moins de 0,5%) lorsque la chane de remplissage fonctionne correctement. Si l'cart E dpasse ce seuil, nous dciderons qu'il est prfrable de rviser l'appareillage. Il apparat ainsi que, statistiquement, nous devons connatre la loi de probabilit de l'cart E, soit finalement la loi de probabilit de la moyenne d'chantillon X , lorsque la chane fonctionne correctement.
Outil statistique, statistique du test et prise de dcision

SousHo.X->N(m,, ,

cs -). -Jtt

RA : rgion d'acceptation de Ho RR : rgion de rejet de Ho.


Figure 10.2 Intervalle de probabilit de la moyenne au risque a.

La rgion d'acceptation RA de la moyenne X est dite "intervalle de probabilit ou de pari" (IP) de la moyenne d'chantillonnage au niveau de scurit 1-a. (Xi-a/2 -100) et (lOO-Xa/2) reprsentent le seuil S voqu prcdemment (seuil qui n'a qu'une probabilit a d'tre dpass). 10.2.1.4. Mise en uvre au moyen d'Excel Question 1 1re mthode : Dtermination de la rgion d'acceptation de la moyenne X .

On calcule 0.,= l'aide du clavier ce qui donne : CTy == =0,3371... = 0,34


Vn V55

> Remarque : sous Ho, X -> N(100 ; 0,34) On appelle la fonction d'Excel et on saisit successivement les valeurs appropries de la fonction. Pour Xi 0/2 = Xo.9975 , avec LOI.NORMALE.INVERSE(0,9975; 100,2,5), on trouve 100,9463. Notons Xb cette valeur. 153

Pour Xa/2 , on fait un copier-coller sur le rsultat prcdent et, dans la barre de formule, on remplace la valeur prcdente par 0,0025. On trouve Xa/2 = 99,0537, valeur que l'on note X, . On en dduit : R A = [99,0537; 100,9463] =IP de X (a =0,5%) Dcision : La moyenne observe de cet chantillon est Xobserv = 99,4236 (fonction MOYENNE) Comme Xobserv e RA, on ne peut rejeter Ho et nous considrons comme acceptable l'hypothse de conformit l'exigence mo = 100. Remarque : Cette stratgie de manipulation du test de conformit pour ce type d'application est intressante pour grer pratiquement le contrle de qualit. En effet, il convient de rappeler que, pour un risque et une taille d'chantillon donns, l'intervalle de probabilit ou rgion d'acceptation de la moyenne d'chantillon est unique (contrairement l'intervalle de confiance qui lui, est alatoire car dduit des valeurs observes dans l'chantillon). A chaque contrle (prlvement de 55 bouteilles), il suffit donc de calculer la moyenne et de vrifier si elle appartient ou non la rgion d'acceptation. 2e mthode : Sous Ho : Calcul de la probabilit critique pc Densit de la loi normale

X
Xobs

mo=100

-A- obs

Figure 10.3 Moyenne observe et probabilit critique.

Pc=P(X<|X^J)+P(X>|x'.^J) Pe = 2 P(X < Xobserv)


= 2 P(X > Xobserv )

avec X'^ =100+(100-X^)

si Xobserv < m,, = 100 (notre cas dans cet exemple)


S; Xobserv > M = 1 00 .

On trouve: p, = 2 x 4,37.10 2 =8,73.10 2 =9% (on utilise la fonction LOI.NORMALE, qui donne la valeur de la fonction de rpartition). On prendrait un risque de 9% en refusant la conformit. Le risque tant suprieur au niveau du test 0,5%, on ne peut rejeter Ho et on considre comme acceptable l'hypothse Ho de conformit l'exigence "1 litre". En prenant cette dcision, on prend un risque de 2e espce P que l'on pourra calculer ultrieurement sous certaines hypothses.

154

Remarque telle que

: pour dterminer la probabilit critique pc, on peut considrer la variable E E = X-100 ; E -> N(0 , c^) soit ici E -> N(0 ; 0,34)

Eo^.-Xo^,-100 P,=P(E>|E^J)+P(E<-|E^|)=2P(E>|E^|) 3e mthode partir de l'chantillon observ, on peut calculer un intervalle de confiance de m, contenu moyen sur l'ensemble de la chane de remplissage au niveau de confiance 1-a. La fonction INTERVALLE.CONFIANCE(0,005;2,5;55) fournit le rsultat A = 0,9463. L'intervalle de confiance de m, au niveau de confiance 99,5% est la fourchette alatoire [ X - A , X + A . Grce l'chantillon observ, on en dduit un intervalle de confiance [m. , m J avec: m. =Xobserv - A =98,4774 m,=Xobserv + A =100,3699 [98,4774 ; 100,3699] constitue l'ensemble des hypothses pour m. Comme m = 100 appartient cet ensemble, on ne rejette pas Ho.
Question 2

II s'agit de calculer le risque de 2e espce P correspondant la rgion d'acceptation RA de la moyenne d'chantillon X dtermine prcdemment (risque a = 0,5%). Rappelons que, de manire gnrale, P reprsente le risque pris en acceptant Ho alors que cette hypothse est fausse ou, ce qui est quivalent. H] est vraie. Dans le cas prsent, c'est le risque pris en concluant la conformit du remplissage alors que ce n'est pas vrai. P=?H (accepter Ho ) =PH,(Xe RA) =P(XeRA) alors que m -fm^ (c.a.d. m ^ 100) = P ( X , < X < X ; , ) avecX->.N(m,Gx) Pour valuer une telle probabilit, il est donc ncessaire de supposer une valeur du contenu moyen m diffrente de 100. Excel permet de calculer facilement P dans les hypothses m = 99 , m = 98,5 et m = 98 (en pratique, ces hypothses doivent rester relativement ralistes). Pour m = 99 : P=P[99,0537 < X < 100,9463] avec X -> N(99 , 0,3371) = F(100,9463)-F(99,0537) (F, fonction de rpartition) Pour dterminer F( 100,9463), on utilise la fonction LOI.NORMALE( 100,9463,99,0,33 71 ;vrai) On trouve 0,9999. Le calcul de F(99,0537) se fait de faon similaire. Bien entendu, il est important d'associer le risque P la valeur suppose de m. Le risque d'accepter la conformit alors qu'elle n'y est pas peut tre important. Mais la non conformit peut par ailleurs tre relativement proche de la rfrence 100 !

155

RA m 99 98,5 98

X. X. 99,0537 100,9463 Fonction de rpartition F F(b) F(a) 0,5633 0,9999... 1 0,9498 0,9991 1

P=F(b)-F(a) 44% 5% 0,1%

Tableau 10.3 Valeur du risque (i en fonction de la moyenne m de la population.

Extension du calcul du risque P en fonction du niveau du test de conformit et de la taille n de l'chantillon Ce type de calcul permet au "contrleur de conformit" de mieux grer concrtement le risque pris lors de l'acceptation de la conformit. Il s'agit d'valuer l'importance de ce risque et en mme temps l'enjeu (confrontation la valeur suppose pour "m"). Il faut galement mesurer la variation de ce risque en fonction du niveau a du test en fonction de la taille de l'chantillon. Le calcul du risque p a t expliqu dans les trois exemples prcdents. Afin de profiter des potentialits d'Excel et de diminuer les temps de calcul, nous proposons maintenant d'organiser la dtermination de ce spectre de valeurs p selon une grille de calcul systmatique. Nous compltons par les puissances des tests associes ces valeurs Rappelons que la puissance d'un test est la probabilit de refuser Ho alors qu'elle est fausse et est, par consquent gale 1-P. Concrtement, dans notre exemple, c'est la probabilit de conclure un volume moyen de remplissage non conforme dans le cas o effectivement, ce volume moyen n'est rellement pas conforme. Nous proposons l'organisation suivante : - Hors grille, on saisit les contenus de rfrences populations mo (100) et Oo (2,5) - Grille: n x a X. X. m P Puissance
avec

n = taille de l'chantillon 0 . . . 2,5 soit ici , "X--T


/n Vn

- a = niveau du test de conformit - X, = borne infrieure de la rgion d'acceptation de X = X ^ , (dtermine partir de LOI.NORMALE.INVERSE vue la 1" question, 1" mthode) - X,, = borne suprieure de la rgion d'acceptation de X ^ X^,;, (dtermination analogue celle de X,. Dans la zone Probabilit, on doit saisir 1 -o/2 avec a en rfrence relative) - m : valeur suppose pour la moyenne de la population, c'est dire ici, le contenu moyen - P = F(X^ ) - F(XJ o F dsigne la fonction de rpartition. Pour dterminer F(X),) , on utilise la fonction LOI.NORMALE avec les arguments : - x, contenu de la colonne X^ (rf. relative)

156

- Esprance, contenu de la colonne m (rf. relative) - cart-type, contenu de la cellule a^ (rf. relative) - Cumulative : vrai. On complte la barre de formule de manire similaire avec F(X^ ) . La premire valeur de p tant calcule, il suffit bien entendu de "tirer la poigne de recopie" vers le bas. En ce qui concerne la puissance 1-p, on calcule sa premire valeur (rfrence relative) et on tire la poigne de recopie vers le bas. Les valuations de la puissance en fonction de celles de a et n sont naturellement en sens inverse de celles de P Commentaires des rsultats observs pour p et pour la puissance du test volution du risque de 2me espce P

Examinons les rsultats obtenus pour p. Nous retrouvons des rsultats thoriquement connus pour ce type de test. Mais ici l'intrt est de pouvoir apprcier concrtement ces valeurs et, par suite, de choisir avec plus de "responsabilit" son protocole de contrle de conformit. Pour une mme taille d'chantillon, le risque P diminue quand a augmente. Pour apprcier cet effet au niveau des rsultats, on peut comparer les valeurs de P lorsque l'on passe de a = 0,5% a = 5%. On adopte parfois un compromis entre les deux types de risque. Dans le contrle de qualit des processus industriels, on limite le risque a de conclure la non conformit alors qu'elle existe. Quand on interrompt un processus de fabrication la suite d'une dcision de non conformit, on veut tre "presque" sr que cette dcision est fonde ! Pour un a et une taille d'chantillons donns, p diminue quand l'cart entre la moyenne m et la rfrence mo crot. Ainsi, pour un chantillon de 55 observations et un risque a de 0,5%, on prend un risque P de 44%, risque de conclure la conformit du remplissage (100 cl) alors que ce dernier est de 99 cl. Le risque est important mais le dcalage de remplissage " 1 cl" est limit. En revanche, le risque de conclure la conformit alors qu'elle n'y est pas n'est plus que de 0,1 % lorsque le taux de remplissage est de 98 cl. Si le dcalage par rapport la rfrence est plus important (double du cas prcdent), on a peu de chances de conclure tort la conformit. On peroit ainsi l'importance conomique de cet indicateur. Pour un mme niveau a, P diminue quand la taille de l'chantillon augmente (intuitivement, on conoit facilement que la prcision augmente avec cette taille). L encore, on adopte parfois un compromis. Dans le domaine industriel (rsistance des matriaux, dures de vie d'objets ou de produits alimentaires, etc...), le contrle de qualit entrane assez souvent la destruction de l'objet contrl. On comprend que dans de tels cas, il est conomiquement difficile de prendre de grands chantillons. Pour ce faire, il existe d'intressantes procdures d'chantillonnage, plusieurs niveaux. A ce sujet, on pourra consulter le recueil des normes AFNOR (1996). Dans les domaines o tester la conformit d'une moyenne n'entrane dans les cas dfavorables aucune destruction. Par exemple, dans le cas d'une surveillance de temprature moyenne d'une serre, d'un bassin de poissons, d'un atelier "naisseur-engraisseur" de porcs, etc., on pourra prendre des chantillons plus grands et diminuer ainsi les risques de faon consquente. Le tableau 10.3 reprsente la portion concerne de la feuille de calcul.

157

llo '

100

o-o;

2,5
Sous Ho Sous Hi y 98,3 98,4 98,9 98,3 98,4 98,9 98,3 98,4 98,9 99,0 99,1 99,3 99,0 99,1 99,3 99,0 99,1 99,3 99,3 99,3 99,5 99,3 99,3 99,5 99,3 99,3 99,5

n 20 20 20 20 20 20 20 20 20 55 55 55 55 55 55 55 55 55 100 100 100 100 100 100 100 100 100

"0

a 0,3% 0,S%

Vn 0,5590 0,5590 0,5590 0,5590 0,5590 0,5590 0,5590 0,5590 0,5590 0,3371 0,3371 0,3371 0,3371 0,3371 0,3371 0,3371 0,3371 0,3371 0,2500 0,2500 0,2500 0,2500 0,2500 0,2500 0,2500 0,2500 0,2500

^(1/2 ~^s

x,-^=x,
101,7 101,6 101,1 101,7 101,6 101,1 101,7 101,6 101,1 101,0 100,9 100,7 101,0 100,9 100,7 101,0 100,9 100,7 100,7 100,7 100,5 100,7 100,7 100,5 100,7 100,7 100,5

Puissance 73% 78% 95% 39% 45% 77% 12% 15% 43% 100% 100% 100,00% 93% 95% 99% 50% 56% 84% 100% 100% 100% 100% 100% 100% 85% 88% 98%

HWK,.
0,3% 0,5%

Wh'
0,3% 0,5% 0,3% 0,5%

98 :gi9B::| 98 22,0% 98 5,3% 98,5 98,5 54,9% 98,5 23,5% 99 ^Sf. 99 4,6% 99 56,8%

a("(,2%'-

:]iip'0,3% 0,5% ISiSBill! 0,3% 0,5% 0,3% 0,5% : 0.3% 0,5%

ssiS

98 98 98 98,5 98,5 98,5 99 99 99 98 98 98 98,5 98,5 98,5 99 99 99

0,1% 0,0%

-
5,0% 0,6%

'asp
43,7% f5,7%

i.ftil.;;-:

K'e.SK
0,f% 0,0%

0,0% 0,0%

-'.-IMIte

"'w

0,3% 0,5%

iira.:
11,6% 2,1%

Tableau 10.4

volution du risque P et de la puissance en fonction de la taille n de l'chantillon, du risque a et de la moyenne suppose m.

Remarque

: on peut obtenir des renseignements complmentaires sur le risque fi et la puissance d'un test dans les ouvrages de Pierre Dagnlie (1998).

volution de la puissance du test Les volutions de la puissance du test en fonction de a et n sont naturellement en sens inverse de celles de P. A ce niveau encore les rsultats sont intressants pour le responsable du contrle qualit qui choisit le protocole qui lui semble le plus adapt. Conclusion II convient de souligner qu'il faut, bien entendu, dpasser le choix des valeurs supposes pour m, a et n , ces choix n'tant qu'illustratifs. Pass l'investissement "temps" de la

158

ralisation de la grille, donc principalement la premire ligne, l'utilisateur peut ensuite obtenir trs rapidement les rsultats appropris son (ses) problme(s) ; il fait ainsi ses choix de faon plus objective, plus responsable en dosant ses risques et sa scurit. 10.2.2. chantillon extrait d'une population normale de variance

inconnue. Dtermination de risques de 2e espce

Exemple : conformit de la temprature d'une cave vins 10.2.2.1. Prsentation des donnes et position du problme Pour assurer un vieillissement correct des vins, une bonne cave vins doit tre thermiquement bien isole. Il convient d'viter de trop grandes variations de temprature et de maintenir une temprature moyenne voisine de 11C. Aprs l'tude du contrle de la variabilit de cette temprature (cf. paragraphe 10.1, tude du test de conformit d'une variance), nous allons maintenant tudier le contrle de la conformit de la temprature moyenne. Rappelons la normalit suppose de la variable alatoire "temprature de la cave". Les tempratures releves lors du contrle figurent dans le paragraphe mentionn cidessus. Questions : 1. Peut-on considrer que les tempratures releves lors du contrle sont, en moyenne conformes "l'exigence 11C" ? Tester cette hypothse de conformit de moyenne au niveau 5%. 2. La rsolution du test de conformit montre que, pour un niveau de test donn, on peut dterminer une rgion d'acceptation de la moyenne d'chantillon. Nous proposons d'valuer le risque pris l'issue d'une acceptation de la conformit dans les cas o la temprature moyenne de la cave seraient : m = 10,5C, m = 11,5C, m = 12C et m = 13 C. Nous nous poserons la mme question dans les cas o le test est ralis aux niveaux 2% puis 1%. 10.2.2.2. Notations et modle Population (sous-jacente) - X est la variable alatoire "temprature de la cave" - E(X) = m est la temprature moyenne de la cave (cave "idale" : m = mo = 11C) - VarX = o-2 (inconnue) - X - > N ( m ,0- ). chantillon - n=21 - X,->.N(m,o)

i=l,n

o-=S=

EX, X = i variable alatoire, moyenne observe dans un tel chantillon n SCE


n-1

159

10.2.2.3. Dmarche statistique (question 1, conformit d'une moyenne) On ralise le test Ho : H1 : temprature moyenne de la cave conforme l'exigence 11 C contre temprature moyenne de la cave non conforme Ho : m = mo contre H1 : m^m,,

c'est dire
Approche intuitive :

L'approche est du mme type que celle voque lors du prcdent test de conformit d'une moyenne.
Outil statistique, statistique du test et prise de dcision

Sous Ho , la statistique dfinie par T = -= = -;


c r i ^fn

suit la loi mathmatique T

de Student v degrs de libert avec v = n - 1 Densit de la loi de Student

RA RR RA : rgion d'acceptation de Ho RR : rgion de rejet de Ho.


Figure 10.4 Rgions d'acceptation et de rejet de l'hypothse de conformit (test bilatral).

Remarque

: au lieu de raliser ce test, on peut aussi dterminer l'intervalle de confiance de m au niveau de confiance 1-a et ensuite regarder si la rfrence mo appartient ou non l'intervalle de confiance. Cette dmarche est dveloppe dans la paragraphe qui suit (5e mthode).

10.2.2.4. Mise en uvre l'aide d'Excel (1re question) 1re mthode : elle est de type manuel. On dtermine les valeurs thoriques, fractiles de la loi de Student : T,, .^3 et T,, ,_/;

160

On appelle la fonction LOI.STUDENT.INVERSE et on trouve 1,,,^= 1,7247 (=-T^) Calcul du Tobserv :


Tobserv
. Xobinye
m

l)

o/Vn X^^ = 11,6619 (fonction MOYENNE) o = 1,8731 n = 21 (fonction ECARTYPE) (clavier) -> ^/n= 4,5826

On trouve : o^ = -^- = 0,4087 Vn m =11 On trouve: T^^=l,6194


.Dcision

Comme [ T^^ |<T^^ = 1yi_^;, , on ne peut rejeter Ho et on considre donc comme acceptable l'hypothse de conformit. D'un point de vue pratique, on en dduit que l'exigence d'une temprature moyenne de la cave gale 11 C est satisfaite. 2e mthode : dtermination de la rgion d'acceptation de la conformit pour la moyenne d'chantillon Sous Ho,
l^vid^ ' 'v.-a./ J

la rgion d'acceptation de la variable alatoire

T = ^- est x

On en dduit : P(m,,+T^/2-^- < X < m,+^^^-c)=l-a. Vn ' Vn Notons : A = T ,_/, - = T ^ -^L. Vn vn my - A < X < my + A : rgion d'acceptation de Ho pour la moyenne d'chantillon X . Calculs numriques : T^.a/2 =1'7247 ^o"" l" mthode) A =1,7247 x 0,4087=0,7050 Rgion d'acceptation de X : RA^ = [10,2950 , 11,7050] Dcision : a = 5% ^observ e ^A : on m peut rejeter Ho et on considre que l'exigence d'une temprature moyenne de la cave gale 11C est satisfaite. Remarque : comme nous l'avons indiqu l'occasion du test prcdent, cette mthode qui dgage la rgion d'acceptation de la moyenne d'chantillon prsente l'intrt de simplifier la gestion pratique de la temprature moyenne de la cave. 161

3e mthode : dtermination de la probabilit critique p^P(T<-^,|)+P(T>|T,_ On utilise la fonction LOI.STUDENT en renseignant sa bote de dialogue de la faon suivante : - x : toujours une valeur positive de l'observe (valeur absolue) - ddl:20 - uni / bilatral : choisir bilatral. A v e cx=1,6193, on obtient pc= 0,1210. Rappelons que cette valeur renseigne sur la crdibilit de Ho. Quand la conformit est satisfaite, on a une probabilit de 12% d'observer une valeur de T atteignant la valeur observe (1,6194). Dcision : On prendrait un risque de 12% en rejetant Ho. Ce risque est trop grand, suprieur au niveau donn ; on en dduit que la conformit de la moyenne est acceptable 4e mthode : Utilisation de la fonction TEST.STUDENT (mthode rapide)
Rfrence (R> 11 11 11 11 11 11 11 11 11 11 11 Rfrence (R) 11 11 11 11 11 11 11 11 11 11

V 8 8,2 8,9 9,8 10,4 10,6 10,9 11,1 11,4 11,7 11,9

V 12 12,2 12,5 12,8 13 13,4 13,5 14,1 14,2 14,3

Pour prparer les donnes, on "confronte" chaque valeur observe de l'chantillon la rfrence 11, ce qui se traduit par la saisie d'une srie de valeurs "11" cot de chaque valeur de l'chantillon. Les donnes doivent se prsenter sous la forme suivante (videmment sur 2 colonnes dans Excel) : Tout se passe comme si l'on disposait d'un deuxime chantillon dont les n valeurs sont gales la rfrence 11, chantillon coupl l'chantillon rellement observ.

Tableau 10.5 chantillon "rfrence" coupl l'chantillon observ .

On utilise la fonction TEST.STUDENT (Matricel ; Matrice2 ; Uni/bilatral ; Type) avec : - Matricel : plage des valeurs observes - Matrice2 : plage des valeurs rfrence - Uni/bilatral : saisir 2 (test bilatral) - Type : saisir 1 ce qui indique le caractre appari de l'chantillon rel et de l'chantillon rfrence. Le rsultat affich est la probabilit critique 12,103%. Son interprtation est bien entendu identique la prcdente Explication statistique Dans cette dmarche "TEST.STUDENT", les calculs sont effectus sur les carts la rfrence mo (ici 11).

162

Y, = X, - m,, Or, Y = X-m,


Var Y = Var X

(sous H(), E(X) = m,, => E(Y) = 0)

Par consquent, les variables de Student associes X et Y sous Ho sont identiques. Remarque : cette fonction TEST. STUDENT , classiquement utilise pour la comparaison de deux moyennes partir d'chantillons apparis sera tudie en dtail ultrieurement 5e mthode : Dtermination de l'intervalle de confiance de m, temprature moyenne de la cave. X-).N(m,o) -=> T=^- m ->T.l CT/Vn (loi de Student v = n - l d d l )

P(T^<T<T^_^)=l-a

Par suite :

P(X + T, ^ -^- < m < X + T,,../, -^-) = 1 - a Vn Vn On en dduit l'intervalle de confiance de m au niveau de confiance (1-a). IC de m = X + T , , ^ , X + T , , , . , Vn \ln

Tn" On peut donc dterminer un intervalle de confiance partir de l'chantillon observ : ^ob,.^ = 11,6619 A = 0,7050 (voir2'' mthode) Et par suite: IC de m =[10,6286 , 12,5962]. Cet intervalle constitue l'ensemble des hypothses possibles pour m, temprature moyenne de la cave. La rfrence "11C" appartenant cet intervalle, on ne peut pas refuser l'hypothse Ho. 10.2.2.5. Dmarche statistique (2e question : risque P) Lorsque nous refusons l'hypothse Ho de conformit, nous nous donnons pour raliser le test un risque maximal tolr (niveau du test) ; de plus, nous pouvons, au moyen d'un logiciel comme Excel, calculer prcisment le risque pris lors du rejet de Ho (probabilit critique). Quand nous ne pouvons pas rejeter Ho, nous la considrons comme acceptable : le risque pris, risque de 2e espce p est la probabilit d'accepter Ho alors qu'elle est fausse, soit, ici le risque de conclure que la temprature moyenne de la cave est conforme l'exigence 11C alors que celle-ci n'est pas satisfaite. Dtermination du risque P p = P ( accepter H o / H o fausse ) ^ P ( accepter Ho / H| vraie ) = Pin ( accepter Ho) ; Hi : m -^ m^ II apparat donc que, pour valuer un tel risque, nous devons supposer pour m des valeurs diffrentes de la rfrence mo = 11 (mais cependant concrtement ralistes). L'vnement "accepter Ho" est ralis lorsque la moyenne d'chantillonnage appartient la rgion d'acceptation dtermine partir de l'chantillon observ (cf. 1" question, 2e mthode).

<s> [ X - A , X + A ]

avec

A=T,

163

= [m,,-A , n i ( ) + A ] = [ a , b ] avec a = m o - A et b = mn+ A. P=PH,(XeRA,,)=P,,,(a<X<b) =P(a<X<b)


1 ^ A /'.

avec X-^N(m,o)
f\ f

(m,tmo)

a-m^X-m^b-m
Ox

avec T =

Ox X-m
Ox

Ox

, variable alatoire de Student v = (n -1) ddl

Nous proposons de nous situer au niveau de l'chantillon observ, la rgion d'acceptation RA dpendant de ce dernier. Dans ce cadre, nous utiliserons l'estimation de l'cart-type qu'il nous fournit pour encadrer T. a-m T, = et ox l'estimation issue de l'chantillon observ. Notons T = Ox Ox

(3=F(Ti,)-F(T.) o F est la fonction de rpartition.

10.2.2.6. Mise en uvre au moyen d'Excel (2e question : risque 3)


Pour raliser ce calcul dans Excel, nous disposons de la fonction LOI. STUDENT uni / bilatrale qui fournit pour toute valeur Tdonne positive les probabilits uni et bilatrales rparties en queue de distribution, c'est dire : - cas unilatral : P ( T > Tdonne )
Cas bilatral : P ( T <-Tdonne ) + P ( T > Tdonne )

On doit calculer P en s'appuyant uniquement sur cette fonction LOI.STUDENT, cas unilatral. Selon les simulations envisages pour m, on peut imaginer les 3 cas illustrs sur la figure 10.5.

Tb ( T,

Tb 0 Ta et T b < 0 (a et b < m )

0 T, Ta et T b > 0 (a et b > m )

Th

Ta < 0 Tb>0 (a < m et

b>m)

Ta

Tb

Figure 10.5 Diffrentes possibilits de position relative des variables de Student Tg et Tu.

164

Les deux premiers cas seront calculs de faon similaire : P = ABS[LOI.STUDENT sur ABS(T,) - LOI.STUDENT sur ABS(T.)] Pour le 3e cas : P = l - [ LOI.STUDENT sur ABS(T,) + LOI.STUDENT sur ABS(T.)] Nous proposons d'affecter m les valeurs 10,5C , 11,5C , 12C et 13 C en considrant en outre 3 niveaux de risque relatif au test de conformit ; 5% , 2% et 1%. Pour viter des calculs trop fastidieux tout en conservant une interactivit avec les donnes de dpart (d'o reutilisation facile de ces valuations du risque P pour un autre chantillon observ voire une autre rfrence), nous proposons d'organiser la feuille Excel comme il est indiqu sur le tableau 10.5. Signification des titres et explication des calculs Au-dessus de la grille de calcul proprement dite, il est intressant de rappeler les rsultats (contenus de cellules) des calculs effectus lors de la question prcdente, savoir : - o,; : cart type estim de la moyenne d'chantillon - d d l = v = n - l , ici n = 20 - rfrence mo, ici 11. Grille de calcul - m : valeurs supposes de la temprature moyenne de la cave - a : niveau du test de conformit - T^., _/:, (valeurs positives du Tthorique) : dtermin au moyen de la fonction LOI.STUDENT.INVERSE ; prendre le contenu de a en rfrence relative et le ddl en rfrence absolue ;
- A = T ^ , x CTX = T.,,,/, x 0,4087 t t

Rfrence Rfrence relative absolue RA = [ a,b ] est la rgion d'acceptation de la moyenne d'chantillon X a = mg - A = 11A t Rfrence relative

t Rfrence absolue

b = m,, + A = 11+ A (mme stratgie de calcul) Ta : valeur de la variable de Student associe "a" sous H1
T. = &mox

soit

T = (!)
-tUO / 0,4087

(a - m)
A

Rfrence absolue
Gx

Rfrence relative

T,, = ; (calcul similaire celui de Ta ) COCAS (codage des 3 cas possibles)

165

w
'3 CQ. 00 y3

^ m vi [--

^
<N 00 ^t 0 0 0

^ 0^ S >
m >r> [-00 0 00

g 9\ f0

^ m
r~-

0\ 00

es

^ ^ i < s
(M r^i "/"i

0\ 00

o\ <s in
^ a> r^> rs 0

' 0
"fr (N 0

0\ f

' 0 0

m ^ a^ ,*>
Wl 3 0 K]

X'

0 't 0 0 0

^0 0 0 0 0

00 0 r^ 0

0 t^ 0

^fr r*^ 0 0

^ r^
0 ^ 0

(^ r^ ^3 -t 0

0\ \D 0 0 0

b a?
CQ ^

00 0 m 0

0 C0

^tf^ 0 0

^t-

1
0

es

8
0

1| 11
0 0 0 0

'
W

<
0
+
+

+ + +
'
-100 0 0 " Vl m 00 ^0 r^ 00

u
A

' ' '


0 00 -t 1 ^ t~-t Vl CT-' CN 'T f-1 ' 1 m 1 ^ 0^ (N n r~ fi

'

'
^t m

'
r00 tN r^
0

T)

S 0

ss
f-i
r-t

CT\ 0 ^t rs
0

Os \0 oi

s
t a\ 00 0 r-^-

*n \D m r'f 0 r^l '-t^m f^; m 0

f-S
a

3 m
0

0 m '-^ m r^ 1^1 0

I ^t(N 0
V-l

r-l
VI

rs l^

0
Ti

0 r-

^ s
r-^

en CT\ r-~
ON

t-^ m r^ m m 0

t-~ CTs 3 S ? "r T T ^ r^i 0 /^ 0 r-CT\

(-s)

S
0

oc

S 00
,,
0 0

f*-> r*-i m 0

0
V"t

?
o\ 00

ir

0 CT\ r^i 0

^ 0 0 \0 \0

0 0\ tN 0^" 0

r-

0 0

^ CT^

0\ (N 0

^
0\
^)

r^ 0 0

r-

ON"

Ct\''

3 0 K

<
r^ 'S

0 0 r0

0\ 0\ 00 0

m r-i 0 ^

CT\ a\ 00 0

r<i (^ 0 '-^

0 0 r-~ 0

c^i G^ 00 0

m m 0 ^

c^ CT\ 00 0

m m 0 ^

?
0

?
0 -T

S : |+ H

"+ ^

^
<N

00 M

-1

's0

00 r-t

"-f^

^0 04

00 (N

^0 M

g rs

5
%'

S
<a? S

%'

ss
'a> -

S S S 5 S S
'a' 'S1 %> tsT ss %

's'

' r^

rs

rs

r^

t^

On cre une variable logique gale 1 si l'on est dans les deux premiers cas (Ta < 0 et T b < 0 ) o u ( T a > 0 et Tb>0) sinon -1. COCAS = 2 x b ABS(T,) ABS(Tb) Pour P ( ABS (Ta) ) on utilise la fonction LOI.STUDENT (unilatral) sur ABS (Ta) ce qui traduit la probabilit de dpasser ABS(Ta) en renseignant la bote de dialogue de la faon suivante : - X : valeur absolue de Ta, fonction ABS (rf. relative) - Degrs_libert : cliquer sur la valeur (rf. absolue) ou la saisir (20) - Uni / bilatral : saisir 1. Pour P ( ABS (Tb) ) on suit la mme stratgie. Pour dterminer P, on utilise la formule conditionnelle (fonction SI) correspondant aux deux valeurs possibles -1 et +1 de COCAS : On peut procder de la manire suivante : P = (1-(LC(-2)+LC(-1))) si LC(-3)= -1 P = ABS ( LC(-2)-LC(-1)) si LC(-3)= +1 soit : =SI(LC(-3)=-1 ;1-(LC(-2)+LC(-1)) ;ABS(LC(-2)-LC(-1)))
T T

Commentaire des rsultats On retrouve des rsultats connus sur le plan thorique pour ces tests bilatraux classiques. Pour une mme valeur de m, diffrente de la rfrence mo == 11C, le risque P augmente lorsque le risque a diminue. Pour un risque a donn, P diminue lorsque l'cart entre m et la rfrence mo crot. On remarque des valeurs de risque P trs fortes pour les valeurs de m gales 10,5C et 11,5C. Dans ces cas. on a un risque trs important de conclure la conformit alors qu'elle n'y est pas. Les valeurs supposes de temprature sont cependant proches de l'exigence 11 C, ce qui, en quelque sorte, relativise d'un point de vue concret cette erreur de 2e espce. Si, par contre, la temprature relle de la cave est de 13C, donc relativement diffrente de l'exigence 11C, le risque de conclure la conformit alors qu'elle n'y est pas est beaucoup plus faible (infrieur 2%). Par exemple, pour le test ralis la 1re question (niveau 5%), le risque de dcider tort de la conformit de la temprature moyenne s'lve 69% lorsque la temprature moyenne est gale 10,5C (risque grand mais trs petit cart par rapport la conformit). Il n'est plus que de 24% pour une temprature moyenne relle de 12C et chute 0,24% pour 13C. 10.2.3. chantillon quelconque grand Exemple : vente de livres par Internet 10.2.3.1. Prsentation des donnes et position du problme On s'intresse la vente par Internet de livres spcialiss dans le domaine de l'environnement. Un examen attentif de ces ventes durant les trois annes 1998, 1999 et 2000 montre une stabilit du montant moyen de l'ordre de 40 . Pour favoriser l'accroissement du montant des ventes et donc de leur moyenne, une campagne publicitaire a t lance en 2001. A l'issue du 1er trimestre 2002, un sondage est ralis sur 65 ventes choisies au hasard. Les montants (en euros) observs dans cet chantillon sont indiqus sur le tableau 10.6.

167

30 33 10 43 50 53 60 62

31 34 41 44 51 54 67 40

32 35 33 36 34 45 15 50 36 43 37 40 38 41 39 22 10 45 43 46 44 6 45 48 46 49 47 50 48 51 49 52 52 55 53 56 54 57 47 47 47 47 47 47 47 47 48 48 70 Tableau 10.7 Montant des ventes (en ).

Question : avec un risque maximal de 5%, peut-on considrer que le montant moyen des ventes a augment durant le 1er trimestre 2001 ? 10.2.3.2. Notations et modle Population : c'est l'ensemble des ventes ralises par la socit. - X est la variable alatoire "montant d'une vente" - E(X) = m est le montant moyen des ventes - la rfrence est mo = 40 (montant moyen des ventes durant les 3 annes 1998, 1999 et 2000) - VarX = cr2 (inconnue). chantillon - n=65 - X variable alatoire, montant moyen observe dans un tel

chantillon ; SCE G^S^ n-1

10.2.3.3. Dmarche statistique On ralise le test : Ho : H1 : stabilit du montant moyen des ventes durant le trimestre considr contre montant moyen des ventes en augmentation c'est dire Ho : m = ma contre H] : m > m,,

(TEST UNILATERAL)

Comme il a t expliqu lors des tudes prcdentes, il est ncessaire de connatre la loi de probabilit de la moyenne d'chantillon X. Une tude descriptive des donnes dans l'chantillon montre que l'on ne peut le considrer comme gaussien. Lors d'tudes relles, de tels cas sont frquents . En revanche, l'chantillon tant suffisamment grand ( n > 30 ), on pourra utiliser le test de Student, "robuste" relativement la normalit dans ce cas. En pratique, la dmarche statistique est finalement identique celle qui a t ralise prcdemment malgr le contexte statistique diffrent ; elle est approche. Statistique du test et prise de dcision : T = -^,= %Tv loi de Student v = (n-1) ddl. o/Vn

168

Sous Ho

Densit de probabilit de la loi de Student

RA

T, l-a

RR

Figure 10.6 Rgions d'acceptation et de rejet de l'hypothse de conformit de la moyenne (test unilatral).

10.2.3.4. Mise en uvre l'aide d'Excel


Dans l'tude prcdente, nous avons vu plusieurs mthodes pour raliser ce test. Nous slectionnons ici deux d'entre elles, bien complmentaires. L'une est choisie pour ses consquences pratiques au niveau de la gestion du suivi du montant moyen des ventes, l'autre, plus rapide et prcise, parce qu'elle permet de mesurer le risque exact dans le cas d'un rejet de Ho. 1re mthode : dtermination de la rgion de rejet de Ho pour X (RR,.) Rgion de rejet pour T (RR) T > Tv ;i< ; a = 5% . On utilise la fonction LOI.STUDENT.INVERSE(0,1;64) et on obtient To,95 = 1,6690: Remarque : Dans la zone "Probabilit" de cette bote, on doit saisir 2o, soit ici 0,10. En effet, la fonction LOI.STUDENT.INVERSE rpartit la probabilit symtriquement sur les deux queues de la distribution. Rgion de rejet pour X X-nin T=__ Sous Ho
0

o/Vn

RR^est dfinie par :


Vn

. Notons A = T.,

0=12,1824 o o

(fonction ECARTYPE) Par suite: A=2,5219

=1,5110

RR,, :X>42,5219 X^=43,4723 (fonction MOYENNE). Dcision Xobserv e l^x Nous rejetons donc Ho et acceptons H1. Avec un risque maximal de 5%, nous dcidons que le montant moyen des ventes a augment au cours du premier trimestre 2002.

169

Rappelons que cette mthode offre l'avantage de permettre facilement une gestion concrte du contrle. 2e mthode ; utilisation de la fonction TEST.STUDENT Nous utilisons cette fonction en adoptant la pratique spciale indique dans l'tude prcdente. Rappelons succinctement que nous crons un deuxime chantillon coupl avec celui qui a t observ et dont toutes les valeurs sont gales la rfrence 40 . v M
30 33 31 34 32 40 40 40 40 40

Rappelons que les donnes doivent se prsenter dans la feuille Excel sur 2 colonnes de la faon ci-contre. On nomme V la plage des vraies valeurs observes et M celle des n valeurs gales la moyenne de rfrence. La fonction TEST.STUDENT(V;M; 1,1) donne la valeur 0,0124 de la probabilit critique. Si le montant moyen des ventes est rest stable, on n'a que 1,24% des chances d'observer une moyenne qu puisse atteindre la moyenne observe 43,4723 . L'hypothse de la stabilit est peu crdible.

Nous prfrons donc rejeter Ho et nous concluons, avec un risque infrieur 1,25% que le montant moyen des ventes a augment. Cette mthode est rapide et fournit la probabilit critique qui est importante pour ce genre d'application. En effet, dans ce type de dcision, il est fondamental de mesurer le risque car il y a ncessairement des consquences en terme d'investissement conomique. 10.3. TEST DE COMPARAISON DE 2 VARIANCES (CHANTILLONS GAUSSIENS) Exemple : comparaison de deux types de laits (bio et non bio) 10.3.1. Prsentation des donnes et position du problme Dans le cadre d'tudes sur la qualit sanitaire des laits, on veut comparer la teneur d'un pesticide, le lindane, dans les laits biologiques (LAIBIO) et les laits non biologiques dits conventionnels (LAICO). Dans ce but, des chantillons de deux types de laits ont t envoys un laboratoire d'analyses. Les rsultats observs (en ppb) sont indiqus sur le tableau 10.7.
M" 1 4 5 6 8 9 10 11 12 2 3 7 LAICO 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,2 0,1 0,2 0,2 0,2 0 0,1 0,1 0,1 0,1 0,1 0,1 0,2 0,2 LAIBIO 0 0 0 Tableau 10.8 13 0,2 14 0,3 15 0,2 16 0,3

0,1 0,1

Teneur en lindane dans les laits conventionnels et les laits biologiques.

Aprs tude des distributions, nous considrerons les chantillons comme "gaussiens". Question : Dans un premier temps, on veut comparer les variances de la variable alatoire "Teneur en lindane" pour les deux types de laits. On s'attachera ensuite comparer les teneurs moyennes en lindane, ce qui reste le but essentiel de l'tude. Ceci sera l'objet du paragraphe suivant. 10.3.2. Notations et modle Population 1 : laits conventionnels - Xi est la variable alatoire "teneur en lindane" - E(Xi) = m\ est la teneur moyenne en lindane 170

- Var(X,)=Oi 2 - Xi N (mi, Oi) chantillon 1 - m=16 - Xi; N (mi, cri)


ni

i = 1 , ni est la variable alatoire, moyenne observe dans un chantillon

x = ^ n1 de taille n1

I^.

- SCE,.|;(x,,-X;)2

- 2 = (J 2 = SCEi est la variable alatoire, estimateur de la variance partir ' * "i-l d'un chantillon de taille ni ; - vi = ni - 1 est le degr de libert associ SCEi (ou encore la variance estime). Population 2 : laits biologiques - X2 est la variable alatoire "teneur en lindane" - E(X) = ni2 est la teneur moyenne en lindane - Var(X2)-02 2 - X2-N(m2,G2). chantillon 2 - n2 = 14 - Xzi - N (mi, o-t)

i = 1 , n^

_ IX
- X, =J-1 est la variable alatoire, moyenne observe dans un "2 chantillon de taille nz. - SCE; = ^ ( X ^ - X ^ ) 2 est la variable alatoire, estimateur de la variance i-i partir d'un chantillon de taille ni. - va = na - 1 est le degr de libert associ SC2 (ou encore la variance estime). 10.3.3. Dmarche statistique Les hypothses sont Ho : Oi2 = CT22 contre Hi : (Ji2 ^ c22

n2

171

Statistique du lest

S,2 Sous Ho, la statistique du Fobserve dfinie par F^,^ = suit la loi mathmatique
J-)

du F de Fischer-Snedecor (vi, V2 )degrs de libert avec Vi = ni - 1 (ddl du numrateur) et v; = \i - 1 (ddl du dnominateur) Ce se justifie intuitivement. Si le rapport des variances estimes partir des chantillons s'carte "suffisamment" de 1, il est naturel qu'il en soit de mme au niveau des variances des populations et on sera conduit rejeter l'galit des variances des populations sous-jacentes. Dcision Ralisons le test au niveau 5%. On distingue les cas Fobserve > 1 et Fobserve < 1
1 cr CaS : Fobserve > 1

C'est le cas presque toujours pratiqu (on considre le rapport des variances estimes en mettant la plus grande au numrateur ; il faudra penser adapter en consquence les degrs de libert du Fobserve qui sont, dans l'ordre, ddl du numrateur, ddl du dnominateur). Sous Ho : Densit de la loi de Fisher RA = rgion d'acceptation de Ho RR = rgion critique (Rejet de Ho)
Fobserve > F = Fv|,v2 . a=> Rejet de HO ;

Fobserve < Fvi,v2 ; a => Acceptation de Ho.

Fvl,2 ,0,95

Figure 10.7 Prise de dcision dans le cas o Fobserv > 1 (RA et RR).

2C"U Cas :

Fobserve <

Fobserve < F = Fvi,v2 ; <i> rejet de Ho Fobserve > Fyi.v2 : a -> acceptation de Ho

Figure 10.8 Prise de dcision dans le cas o Fobserv < 1 (RA et RR).

172

10.3.4. Ralisation pratique au moyen d'Excel 1re mthode (de type manuel)
LAICO n ddl VAR 16 15 0,0053 LAIBIO 14 13 0,0034

On effectue le calcul des variances estimes partir de chacun des chantillons, l'aide de la fonction VAR (plages concernes nommes respectivement LAITCO et LAITBIO)

ddl = degrs de libert = n - 1 VAR = variance estime (dite parfois variance empirique). Pour calculer la valeur de Fobserv , formons le rapport des variances estimes dans le sens>l.
0,0052..
r observ

0,0033... (ddl numrateur =15 ; ddl dnominateur =13)

= 1.555

Fvi,v2 ; i-a = Fi5,i3 ;o,95 : c'est la valeur du F (15,13) ddl qui a 5% de chance d'tre dpass. Pour calculer cette valeur, il suffit d'appeler dans une cellule libre la fonction INVERSE.LOI.F (0,05 ; 15 ; 13). Le rsultat est F,5,i3;o,95= 2,533.
Dcision

Comme Fobserv Fi5,i3 ;o,9s, on ne peut rejeter Ho et on considre l'galit des variances ai2 et 022 comme acceptable. On accepte donc l'galit des variabilits des teneurs en lindane pour les laits biologiques et les laits conventionnels. On dit qu'il y a homoscdasticit. 2e mthode Cette mthode, proche de la prcdente, s'appuie sur le calcul du Fobserv Elle consiste dterminer la probabilit critique c'est dire la probabilit de dpasser la valeur atteinte par le Fobserv Pour ce faire, il convient d'appliquer la fonction LOI.F sur la valeur du Fobserv L'utilisation de cette fonction ne prsente aucune difficult. LOI.F (1,555;15;13) est gal 0,219. Cela veut dire que l'on a 21,49% de chances d'observer une valeur de F au moins gale celle du Fobserv quand Ho est vraie. On n'a donc pas de raison de rejeter cette hypothse. Autrement dit, en rejetant Ho , on prendrait 21,49% de risques de se tromper ce qui est beaucoup trop important (>5%). 3e mthode C'est la plus rapide. On utilise la fonction TEST.F(LAITCO,LAITBIO) sans oublier que le rsultat doit tre divis par 2. En effet, cette fonction donne la probabilit critique d'un test bilatral. Or, dans la pratique, le test d'galit des variances de Fischer-Snedecor est toujours utilis "en unilatral" ce qui justifie cette prcaution. On vrifie que l'on retrouve bien le rsultat prcdent (21,49%). L'interprtation de ce rsultat est la mme que prcdemment. 4e mthode Rappelons que, dans les "macros complmentaires" d'EXCEL (menu Outils), il existe un "UTILITAIRE D'ANALYSE" fournissant le rsultat de traitements statistiques. Pour le problme qui nous occupe, il convient d'utiliser le "Test d'galit des variances (F-Test)". 173

Compte tenu de la particularit du Test-F ( Fobserv > 1 ou Fobserv < 1), nous choisissons de prsenter les deux stratgies (change des rles de variable 1 et variable 2) afin d'observer clairement les points de convergence et de divergence. On renseigne les zones comme suit : Stratgie 1 : - plage pour la variable 1 : LAITCO - plage pour la variable 2 : LAITBIO - Seuil de signification : 0,05 Stratgie 2 : - plage pour la variable 1 : LAITBIO - plage pour la variable 2 : LAITCO - Seuil de signification : 0,05. On observe l'cran les deux familles de rsultats ci-dessous, respectivement associes ces deux stratgies :
STRATGIE 1 Moyenne Variance Observations Degr de libert F P(F<=f) unilatral Valeur critique pour F (unilatral) Variable 1 0,14625 0,00525 16 15 1,55542 0,21491 2,53311

Variable 2
0,08071 0,00338 14 13

STRATGIE 2 Moyenne Variance Observations Degr de libert F P(F<=f) unilatral Valeur critique pour F (unilatral)

Variable 1 0,08071 0,00338 14 13 0,64291 0,21491 0,39477

Variable 2 0,14625 0,00525 16 15

Lgende du 1er tableau (attention aux traductions de l'anglais qui peuvent tre maladroites, voire errones) - Moyenne : moyenne arithmtique (xi , xz) Variance : variance estime ( a? ; a ) Observations : taille n; des chantillons Degr de libert : n; -1 = v; F : Fobserve ( remarquer : > 1 ) P ( F < f ) : probabilit de dpasser le Fobserve , car dans ce cas, le Fobserv est suprieur 1 (probabilit critique) - Valeur critique : Fthorique = Fvi,v2 ,0,95.

Lgende du 2e tableau : (mmes remarques concernant les traductions). Dans cette seconde stratgie, le F observ est < 1 pour P ( F < f ) . Attention : dans ce cas, le Fobserve tant infrieur 1, il s'agit de la probabilit d'obtenir une valeur F infrieure au Fobserve. Les figures 10.9 sont la traduction graphique des rsultats affichs selon les deux stratgies.

174

Densit de la loi de Fisher 22 % (toute l'aire droite du F observ )


5%

1,55
F oint

2,53
Fvl,v2 ;0,95

Fvl,v2 ;0,05

Figure 10.9 Visualisation du Fobserv et du Fthorique dans les 2 cas Fobserv >1 et Fobserv <1.

Interprtation Avec l'indicateur not " P( F < f ) ", nous retrouvons l'interprtation faite au cours des 2e et 3e mthodes. Avec les indicateurs nots " F " et " valeur critique pour F (unilatral) ", nous retrouvons la 1" mthode avec une adaptation pour le cas Fobserv < 1 . > Remarques L' avantage rside dans le fait que tous les rsultats sont affichs. Par contre, les titres posent un problme car il y a un risque d'erreur li au rflexe classique de l'utilisateur. "Fobserv < Fthorique " entrane l'acceptation de Ho. Si le Fobserv est infrieur 1, c'est le contraire. Par ailleurs, on regrette l'absences de fonctionnalit EXCEL. Conseil II faut prendre la dcision partir du rsultat affich par " P( F ^ f ) unilatral ", tout risque d'erreur est ainsi cart. Conseil gnral pour tester l'galit des variances La mthode "Test-F" en divisant le rsultat par 2 (3e mthode) est la plus rapide.

175

De plus, elle limine tout risque d'erreur relativement la question "Fobserv infrieur ou suprieur Fthorique ". Elle offre enfin la richesse des fonctions EXCEL : interactivit avec les donnes, utilisation des copier-coller, formules, etc. 10.4. TEST DE COMPARAISON DE 2 MOYENNES

10.4.1. chantillons indpendants gaussions avec homoscdasticit


Exemple : comparaison de deux types de laits bio et non bio (suite) 10.4.1.1. Position du problme, notations et modle Nous rappelons qu'il s'agit de comparer la teneur moyenne en lindane (pesticide) de laits conventionnels (non biologiques) et de laits biologiques (cf. 10.3.1). Les notations et le modle ont t prciss au paragraphe 10.3.2. 10.4.1.2. Dmarche statistique Hypothses On ralise le test bilatral Ho : Remarque mi = m-t contre H] : mi ^ m;

: le test tant bilatral, lors du rejet de Ho , on peut avoir mi - ni2 < 0 ou mi - ma > 0 .

Outil statistique a) tant donn le rsultat issu du test prcdent d'galit des variances, on suppose la variance gale dans les deux populations et on la note do2. . 2 - ^"i^i0! SCE.+SCE; , , . On estime Oo par Oy = = - (moyenne des variances estimes v,+v; ^+'^2 pondres par les ddl). o^est un estimateur sans biais de oo2 et v = vi + V2 le ddl associ oo2. b) La statistique du test est D = X | - X ; ; Dobserv = 0,14 - 0,08 = 0,06 (fonction MOYENNE et calcul). L'approche intuitive est la suivante. D'une manire gnrale, on veut comparer les teneurs moyennes en lindane. Il est donc naturel de s'appuyer sur les moyennes observes dans les chantillons (0,14 pour les laits conventionnels et 0,08 pour les laits bio) et de chercher "juger" l'cart (absolu) observ de 0,06. Est-ce que cet cart D est suffisamment petit pour tre attribu au hasard d'chantillonnage ou bien, est-il trop grand pour tre d au seul hasard ? On comprend ainsi qu'il est ncessaire de dterminer la loi de probabilit de D afin de calculer un seuil au-del duquel il sera trs peu probable d'observer un cart des moyennes d au seul hasard. Les paramtres statistiques de D sont : E ( D ) = m i - m 2 e t VarD= VarX,+VarX2-o^ (-!-+-!-) n, n, Nous allons estimer la variance de D par Var D = dy ( + ) = GQ . n, n, Sous l'hypothse Ho, E(D) = 0. 176

Statistique du test Sous Ho, la statistique du Tobserv dfinie par Tobserv = D^"- =l"e'vi
OD

suit la loi

^^^V"l "2

mathmatique du T de Student v degrs de libert avec v = Vi + V2 = (ni - 1 ) + ( n; - 1) Dcision Sous Ho Densit de la loi de Student

RA : rgion d'acceptation de Ho RR : rgion de rejet de Ho Figure 10.10 Prise de dcision dans un test bilatral de comparaison de deux moyennes. Par consquent, Si T^^ >. [^^i |, on rejette l'hypothse Ho. Le test est significatif Si T^,^ < |T^ ,_^ |, on accepte Ho. Le test n'est pas significatif. > Remarque : Tv ; 0/2 et Ty ;i-o/2 correspondent pour D aux seuils ngatif et positif, respectivement <s^ T,^,;, et Op !,_,,;. C'est dire pour Hi , respectivement aux conditions mi - m-i < 0 et mi - m2 > 0 . Dans le test bilatral, le risque est bilatral.

177

10.4.1.3. Ralisation pratique au moyen d'Excel et interprtation 1re mthode : (de type manuel) 1. Calcul des moyennes et estimation de la variance commune Oo2 n ddl=(n-l) SCE Moyennes Remarque LAICO 16 15 0,078... 0,146 LAIBIO 14 13 0,043... 0,081 Total 28 0,122...

ol (=SCE/ddl) 0,004

: pour calculer SCE, il suffit d'insrer dans la cellule concerne, la fonction SOMME.CARRES.ECARTS (LAICO) pour le premier type de lait. Le rsultat est 0,078775. 2. Calcul des statistiques Tobserv et Tthorique a. Estimation de la variance de D Calculer (au clavier) : a^+) = Gp2 Le rsultat est 0,0005.

b.Ecart-type estim de D = ^0,0005 = a^ On trouve 0,0224. c. Dobserv : 0,06... (on fait la diffrence des moyennes) d.T,
e T,,,,^

On trouve 2,7.

Pour ce calcul, on insre la fonction LOI.STUDENT.INVERSE dont on renseigne les zones Probabilit (0,05) et Degr libert (28). Pour a = 5% , on trouve Tig ;o,95 ^ 2,048 = Tyhorique

Densit de la loi de Student

Probabilit donne : Excel la rpartit symtriquement sur les deux queues de la distribution.

Rsultat affich = valeur positive du T = T;8 ; 0,95 ici, soit 2,048


Figure 10.11 Fonctionnement de LOI.STUDENT.INVERSE.

Puisque |Tobserv| > T^-,0,9-, > on prend la dcision de rejeter l'hypothse Ho. Le test est significatif. Les teneurs moyennes en lindane des deux types de lait sont significativement diffrentes au niveau a = 5% .

178

2e mthode Cette mthode, proche de la prcdente, consiste calculer la probabilit critique P[T < -| Tob-^1 ] + P[T > | Tob,v| ] On applique pour cela la fonction LOI.STUDENT sur | Tobserv[ en renseignant les arguments - X : 2,70 (saisir seulement la rfrence cellule) - Degrs libert : 28 - Uni / bilatral : 2 On trouve 0,014 .. Densit de la loi Rsultat = Probabilit Ac. Qh.^ont --. . "bilatrale"

-Tobserv

______

Valeur donne
( ici : Tobserv )

Figure 10.12 Fonctionnement de LOI.STUDENT (en bilatral).

On prend 1,15% de risque en rejetant Ho. On rejette donc l'hypothse puisque ce risque est infrieur au niveau implicite a = 5% . Bien entendu, ce rsultat est identique au prcdent. Il est cependant plus prcis car on connat le vritable risque associ la dcision de rejet. 3e mthode C'est la mthode la plus rapide. On utilise la fonction TEST.STUDENT(LAICO;LAIBIO;2;2). Dans la zone Uni / bilatral il faut en effet saisir 2 pour ce test qui est bilatral. Quant la zone Type, il faut la renseigner 2 ce qui correspond l'homoscdasticit (cf. 10.3.4) Le rsultat est la probabilit visualise sur le schma figurant la mthode prcdente. On trouve donc 1,148%. C'est le risque pris en rejetant Ho tort. On interprte ce rsultat comme prcdemment. 4e mthode On utilise ici l'utilitaire d'analyse d'EXCEL. On choisit le test intitul "Test d'galit des esprances : deux observations de variances gales" et on renseigne la bote de dialogue. - plage pour la variable 1 : LAICO - plage pour la variable 2 : LAIBIO - Diffrence entre les moyennes (hypothse): 0 - Seuil de signification : 0,05 > Remarque : la zone intitule "Diffrence entre les moyennes (hypothse)" signifie Ho : mi ^ m-t <=> m\ - m; = 0. Saisir 0.

179

Les rsultats sont indiqus sur le tableau ci-dessous sur lequel on reconnat les rsultats dtermins dans les mthodes prcdentes.
Moyenne Variance Observations Variance pondre Diffrence hypothtique des moyennes Degr de libert Statistique t P(T<=t) unilatral Valeur critique de t (unilatral) P(T<=t) bilatral Valeur critique de t (bilatral) Variable 1 Variable 2 0,146 0,0807 0,0053 0,0034 14 16 0,0044 0 28 2,7055 0,0057 1,701 0,0115
2,0484

La signification de certains titres n'est pas explicite. Indiquons leur sens. - Variance = variance estime (en fait "pondre" par les ddl) Y] +v; (soit - Degr de libert =1/111/3 ( soit 15 + 13) 13) - Statistique t = Tobserve - Valeur critique de t signifie Tthorique On retrouve les interprtations dj faites. Les inconvnients et avantages de cet utilitaire sont identiques ceux que nous avons indiqus propos du test de comparaison de deux variances. Remarque sur le test unilatral ; reflexion sur un aspect concret du problme pos Pour cette tude concrte de comparaison de deux moyennes, il aurait t tout fait justifi de raliser un test unilatral. En effet, on sait que les produits biologiques rsultent d'une agriculture soumise un cahier des charges. Par suite, si les taux de lindane des produits biologiques et conventionnels sont significativement diffrents, cela signifie que le taux de lindane des laits bio est infrieur celui des laits conventionnels. D'o le test : Ho Sous Ho Densit de la loi de Student
Figure 10.13 Prise de dcision dans un test unilatral de comparaison de deux moyennes.

Variance pondre =

V,G, +V,0,

contre

H,

mi> m:;

180

Si l'on utilise la mthode la plus rapide (TEST.STUDENT) avec l'option "test unilatral" (renseigne de la mme manire que pour le test bilatral, sauf la zone Uni / bilatral o l'on saisit 1 )). On trouve 0,0057 soit la moiti de la probabilit critique issue du test bilatral). On prend un risque de 5,7 /oo en rejetant Ho, c'est dire en acceptant Hi , donc en concluant que mz < mi . Pour les laits biologiques, la teneur moyenne en lindane est trs significativement infrieure celle des laits conventionnels. Si l'on souhaite retrouver, partir des fonctions EXCEL Tv ; 0,95 = TIS : 0,95 ( a = 5% ) dans le cas du test unilatral, il suffit de saisir 0,10 pour l'argument Probabilit de la fonction LOI.STUDENT.INVERSE. On trouve 1,7 (cf. figure 10.11). 10.4.2. chantillons indpendants gaussions sans homoscdasticit Exemple : Comparaison de deux varits de mas 10.4.2.1. Prsentation des donnes et position du problme On s'intresse deux nouvelles varits de mas nommes ici Vi et V2, destines la fabrication de pop-com. Dans cette tude, on considre la variable alatoire "poids de 100 grains" (en grammes) Les deux varits cultives dans des conditions homognes fournissent chacune un chantillon (Ei de taille ni = 40 pour la varit Vi et Ez de taille ni = 60 pour la varit V ) Les donnes observes sont reportes sur le tableau 10.8. Sur la feuille Excel on les saisit sur 2 colonnes.
Vi
V2

25 26

26 27

26 27

27 28

27 30

27 30 34 29

28 28,5 28,5 28,5 29 30 30 30 31 28 26,5 27 28 28 28,5 28 28,5 28 34 29 34 30 41 34 35 35 35 30 36 36 36

Vi Vz V,
V2

32,5 33 33,5 33,5 34 29 29 30 30,5 27

30 27,5 29

28 29,5 29,5

37 37 37 37,5 37,5 38,5 39 27,5 28 29,5 28 30 28 30

41 42 29 30,5 30

31

31

31 31,5 31,5

V, V

32

32

32

32 32,5 33

33

33 33,5 33,5 34

34

34

35

35

Tableau 10.9 Observations de poids de 100 grains de 2 varits de mas Vi et V; (en g). Une tude pralable a permis de considrer les chantillons comme gaussiens. Question: peut-on considrer qu'en moyenne, les poids des 100 grains des deux varits sont identiques ? Pour rpondre cette question, raliser un test de comparaison des deux moyennes au niveau 1%. 10.4.2.2. Notations et modle
Varit Vi

Population 1 - Xi est la variable alatoire "poids de 100 grains" - E(Xi) = mi est le poids moyen de 100 grains

181

- Var Xi = oi est la variance - X, -> N ( m, , oi ) chantillon E[ - n,=40 - X,, ->N(m,,0|) i = l,ni - Xi est la variable alatoire "poids moyen de 100 grains" observ dans un chantillon de taille ni SCE. - o,- = , n, - 1

Varit V^ : on utilise le mme type de notation (avec l'indice 2). Dans les fonctions Excel, VI et V2 sont les noms des plages de valeurs observes pour les deux varits. 10.4.2.3. Dmarche statistique Ho mi ni2 contre H,

La question se pose dans les mmes termes qu'au paragraphe prcdent. Les chantillons sont indpendants et peuvent tre considrs comme gaussions. On sait que pour raliser facilement un tel test avec Excel, on doit au pralable se poser la question de l'homoscdasticit, afin de renseigner correctement la bote de dialogue relative la fonction TEST.STUDENT Le cas de l'homoscdasticit a t trait prcdemment sous diffrentes facettes. Nous allons rencontrer dans l'exemple prsent la "non homoscdasticit". Dans ce cas, les calculs rigoureux de statistique mathmatique rappels prcdemment ne peuvent plus s'appliquer nanmoins, on peut raliser le test de Student sur la variable T :
T= X, -X,
2 G, 0, 2

--

mais avec un ddl approch v. P. Dagnelie (1998) indique le ddl de Welch


2

'^
n

^i
"2

"L+^
!

1
n,-l

o,

'^JT
"-LJ

. "i .

Ce test a t programm dans la fonction TEST.STUDENT. 10.4.2.4. Mise en uvre l'aide d'EXCEL Etude pralable : test d'galit des variances CTi2 et ai2 Ho contre H,

182

Diverses mthodes ont dj t exposes. Nous choisissons ici la fonction TEST.F sans oublier de diviser le rsultat affich par 2 pour obtenir la probabilit critique unilatrale. On trouve : TEST.F = 1,824 . 10'6 soit TEST.F / 2 = 9,13 . 10'7 (probabilit critique) Cette probabilit critique tant infrieure au niveau 1% du test. Nous rejetons Ho et nous concluons avec un risque infrieur 9,13 . 10'7 , qu'il n'y a pas homoscdasticit. L'galit des variabilits des poids de 100 grains des deux varits est rejete. Test de comparaison des deux moyennes Ho mi m-i contre Hi : mi ^t m2

Ve mthode On insre la fonction TEST.STUDENT (Vi ; V2 ; 2 ; 3). Le dernier argument "3" indiquant la non homoscdasticit. Le rsultat affich 0,00021 indique la valeur de la probabilit critique. Dcision La probabilit critique (0,000210) tant trs infrieure au niveau du test (1%), on rejette Ho et on accepte Hi. Le test est trs hautement significatif. On conclue, au risque 0,21%o la diffrence des poids moyen de 100 grains des deux varits. 2e mthode On fait appel l'utilitaire d'analyse "Test d'galit des esprances : deux observations de variances diffrentes". On saisit : - plage pour la variable 1 : Vi - plage pour la variable 2 : Va - Diffrence entre les moyennes (hypothse) : 0 - Seuil de signification : 0,05
Moyenne Variance Observations Diffrence hypothtique des moyennes Degr de libert Statistique t P(T<=t) unilatral Valeur critique de t (unilatral) P(T<=t) bilatral Valeur critique de t (bilatral) Variable 1 Variable 2 30,0083 33,1125 5,2160 20,7883 60 40 0 52 3,9855 0,0001 1,6747 0,0002 2,0066

Les rsultats, indiqus ci-contre, ont dj t explicits et comments dans le paragraphe prcdent. Les conseils et remarques indiqus restent valables.

10.4.3. chantillons indpendants grands Exemple : comparaison du prix de vente d'un produit sur deux lieux de vente 10.4.3.1. Prsentation des donnes et position du problme Une association de consommateurs souhaite comparer les prix du magret de canard de mme origine en GMS (grandes et moyennes surfaces) et au dtail not DET (magasins et marchs). 183

Des sondages pratiqus dans des conditions similaires (priodes, horaires et lieux) sont mis en uvre. 100 pointages sont raliss auprs de GMS et 65 auprs de dtaillants. Les prix sont exprims en euros par kg de magret. Les rsultats observs sont les suivants : - GMS L'chantillon Ei est de taille ni = 100.
10,06 9,51 10,38 8,54 9,09 11,24 9,09 10,26 10,81 10,02 9,47 10,43 8,58 9,13 11,28 9,04 10,31 10,85 9,97 9,42 10,47 8,63 9,18 11,33 8,99 10,35 10,90 9,92 9,38 10,52 8,67 10,82 11,37 8,95 10,40 11,57 9,88 9,33 10,56 8,72 10,87 11,42 8,90 10,44 9,83 10,06 10,61 8,77 10,92 11,46 8,86 10,49 9,79 10,11 10,66 8,81 10,96 11,51 8,81 10,53 9,74 10,15 10,70 8,86 11,01 11,56 7,32 10,58 9,70 10,20 10,75 8,90 11,05 9,27 8,72 10,63 9,65 11,74 10,79 8,95 11,10 9,22 8,67 10,67 9,60 10,29 12,35 8,99 11,14 9,18 8,63 12,20 9,56 10,34 10,88 9,04 11,19 9,13 10,21 10,76

Tableau 10.10 Prix de vente observs en GMS (en ).

DET L'chantillon Ei est de taille nz = 65.


12,20 9,88 10,61 11,34 11,22 10,14 9,21 9,94 10,67 11,40 11,34 10,26 12,04 10,00 10,73 11,46 11,46 10,38 9,33 10,06 10,79 11,53 11,59 10,35 9,39 10,12 10,85 11,59 9,16 10,40 9,45 10,18 10,92 10,37 9,28 9,51 10,24 10,98 10,49 8,38 11,43 10,31 11,04 10,61 9,53 9,63 10,37 11,10 10,73 9,65 9,70 10,43 11,16 10,85 9,77 9,76 10,49 11,22 10,98 9,89 9,82 10,55 11,28 12,04 12,35

Tableau 10.11 Prix de vente observs en vente au dtail (en ).

Question : peut-on considrer qu'en moyenne, les prix du kilo de magret sont identiques en GMS et au dtail ? Pour rpondre cette question, tester cette hypothse au niveau 1%. 10.4.3.2. Notations et modle Population 1 (GMS) - Xi est la variable alatoire "prix du kilo de magret" - E(Xi) = mi est le prix moyen - VarXi=cri 2 Remarque ; la loi de probabilit de Xi est inconnue. chantillon 1 - n, = 100 - Xi est la variable alatoire "poids moyen du kilo de magret" observ dans un chantillon de taille ni - SCE,
- ^^"i-l

Les rsultats numriques observs dans l'chantillon 1 sont : x,-10,046 0"= 0,968 CT; = 0,989

184

Population 2 (DET) : les notations sont identiques (avec l'indice 2). Les rsultats numriques observs dans l'chantillon 2 sont : x; =10,5226 02=0,689 o; =0,809 Comparaison : D = X, - X;

10.4.3.3. Dmarche statistique On realise le test


Remarques

|Hu : mi ^ m; contre Hi : ma -^ mi|

- Dans cette tude trs concrte, on n'met pas d'hypothse de normalit. Les chantillons ne peuvent tre considrs comme gaussiens. Les populations d'o sont extraits les chantillons sont quelconques et surtout de lois inconnues ce qui est frquent dans la ralit. Ceci explique le choix volontaire de grands chantillons, l'importance de leur taille permettant l'utilisation de tests approchs. - Rappelons que, conformment un usage relativement courant, nous considrons le plus souvent comme grand un chantillon atteignant la taille 30. Selon le type d'application, l'approximation peut tre satisfaisante pour des valeurs infrieures. Ainsi, au sujet des "mthodes relatives une ou deux moyennes" (estimations, tests de conformit, tests de comparaison de deux moyennes, avec chantillons indpendants ou non), P. Dagnlie (1998) indique : "En raison de la rapide convergence des distributions d'chantillonnage de la moyenne vers les distributions normales, la condition de normalit est toutefois trs peu restrictive ici. Ce n'est que pour des effectifs trs limits (distributions t moins de 10 ddl) que cette condition a une relle importance". 10.4.3.4. Mise en uvre au moyen d'Excel 1"' mthode Nous utiliserons la fonction TEST.STUDENT, mthode la plus rapide. > Remarque '. bien que nous ne puissions considrer comme gaussiennes les variables alatoires Xi et Xz, nous appliquerons le test de Student sur la variable T. D X^-X^

HT? v", ", Le test de Student est rput correct quand n est grand.
Nous utiliserons la fonction "TEST.STUDENT" en considrant par dfaut la non homoscdasticit (soit type "3" dans la bote de dialogue). En effet, on ne peut comparer les variances, l'utilisation de "TEST.F" tant impossible en l'absence de normalit. On trouve une probabilit critique 0,00105 soit 0,105%. Cette probabilit tant infrieure 1%, niveau du test, on rejette Ho et on accepte H). Le test est significatif. Les prix moyens du magret en GMS et au dtail diffrent significativement un risque a < 0,106%. 2e mthode Nous pouvons utiliser le "test d'galit des esprances : deux variances diffrentes" fourni par l'utilitaire d'analyse. Nous retrouvons les rsultats comments au paragraphe prcdent. 185

-CTU-

Moyenne Variance Observations Diffrence hypothtique des moyennes Degr de libert Statistique t P(T<=t) unilatral Valeur critique de t (unilatral) P(T<=t) bilatral Valeur critique de t (bilatral)

Variable 1 10,05 0,97 100,00 0,00 152,00 -3,34 0,00 1,65 0,00 1,98

Variable 2 10,52 0,69 65,00

10.4.4. chantillons apparis gaussiens Exemple : amlioration du got de pizzas au moyen d'un additif 10.4.4.1. Prsentation des donnes et position du problme Une grande marque de pizzas surgeles souhaite amliorer la texture de la pte de ses produits A cet effet, son laboratoire de recherche propose l'adjonction d'un additif. Afin de tester l'efficacit de ce dernier, une analyse sensorielle est organise auprs d'un jury confirm de 25 dgustateurs. Chaque membre de ce jury doit noter la texture de deux pizzas dont l'une est classique et l'autre "enrichie" de l'additif. Chaque dgustateur note, "en aveugle" la texture de la pte de chaque pizza (chelle croissante de qualit de 0 10). L'organisateur de cette exprience classe les rsultats obtenus : Xi - note de texture octroye la pizza classique, Xz = note de texture octroye la pizza avec additif, et calcule D = X2 - Xi (il est important de "conserver" l'identit de l'individu). Les sries de notes ne peuvent tre considres comme indpendantes. Les rsultats obtenus sont indiqus sur le tableau 10.11.
N dgustateur 1 2 3 4 5 6 7 8 9 10 11 12 13 X, 5 7 8 6 7 9 6 7 6 7 9 3 8 D =X2-Xi 1 0 1 0 0 -1 1 1 0 -1 -1 2 0 N dgustateur 14 15 16 17 18 19 20 21 22 23 24 25 X, 3 7 9 5 7 7 8 7 7 10 7 6 D =X2-X, 2 1 0 2 0 1 -1 2 -1 -1 0 2

X2

X2

6 7 9 6 7 8 7 8 6 6 8 5 8

5 8 9 7 7 8 7 9 6 9 7 8

Tableau 10.12 Notes de texture octroyes avant et aprs l'adjonction d'additifs dans les pizzas.

186

Dans les rsultats observs, la note semble avoir t octroye avec une prcision d'une unit. Il existe de nombreux systmes de notation. Nous assimilerons la note une mesure et donc une variable continue. Aprs tude de cette distribution, la variable D est considre comme gaussienne. Question ; on veut savoir si l'additif amliore de manire significative la texture de la pte pizza. Au moyen d'un test unilatral de niveau 5%, peut-on conclure que la pizza enrichie de l'additif obtient une note moyenne de texture suprieure celle obtenue par la pizza classique? 10.4.4.2. Notations et modle La finalit d'une analyse sensorielle de ce type est de commercialiser la pizza "amliore". Mme s'il ne l'est pas rellement, le jury sera considr comme une chantillon issu de la population de consommateurs potentiels, c'est d'ailleurs sa raison d'tre. Population (sous-jacente) - Xi ;X2 ; D = X - X i - E(Xi) = mi est la note moyenne obtenue par la pizza classique - E(X2) = ma est la note moyenne obtenue par la pizza enrichie - E(D) = m2 - mi = mo = moyenne de l'cart des notes entre les 2 types de pizzas. C'est l'cart des notes moyennes) - Var(D)=o!, - On considre que D > N(m^ , o-p )loi normale. chantillon - n=25 - D, - D = -L-1 est la variable alatoire, moyenne des carts observe dans un n chantillon de taille 25. - VarD = -'- = (Tp n-1 10.4.4.3. Dmarche statistique On ralise le test Ho : Ho : mi = m2 contre c'est dire niD = 0 contre (test unilatral) H] : Hi : ni2>mi mo > 0
___ 0,-0) -

est la variable alatoire estimateur de la variance

Approche intuitive

On veut savoir si, d'une manire gnrale, on peut considrer qu'en moyenne, les carts sont nuls ( mo = 0). On va estimer cette moyenne inconnue par la moyenne fournie par notre chantillon ( nip = D ). On veut pouvoir apprcier, juger cette moyenne D . Est-ce que cette valeur peut tre considre comme nulle, simple effet de l'chantillonnage ou est-ce qu'elle dpasse un seuil au del duquel il est peu probable que le seul hasard puisse intervenir ? Il est donc ncessaire de connatre la loi de probabilit de la moyenne d'chantillon D.

187

Statistique du test et prise de dcision Outil statistique : Sous Ho, la variable T = -x- = suit la loi mathmatique T de Student v = (n-1) ^ ^ Vn degrs de libert. Le graphique visualisant la prise de dcision se prsente relativement T comme sur la figure 10.12 du 10.4.1.3. 10.4.4.4. Ralisation pratique l'aide d'Excel Sur la feuille Excel, on a nomm Xi et Xz les plages de valeurs prises par les deux notations. 1re mthode : (de type manuel) Pour calculer Tobserve, on dtermine les paramtres statistiques, moyenne et cart-type estims de D l'aide des fonctions MOYENNE et ECARTYPE. (T_ = a = l08 - 0,216 et Tob8erve= -^4 1,852 Vn 5 0,216 On dtermine ensuite Thorique = TU. (i-n) Pour cela, on appelle la fonction LOI. STUDENT INVERSE(0,1 ;24). On trouve: d=0,4 Attention, le test tant unilatral, pour raliser un test de niveau 5%, on doit saisir 10% (0,1) dans la zone "Probabilit". En effet, la probabilit P donne est rpartie de faon symtrique sur les queues de la distribution. Le rsultat fourni est la valeur positive du Tlimite On trouve : Tv ; i-a = 24 ;o,95 = 1,71 Dcision Tobserve > TU ; 0,95 On conclut au rejet de l'hypothse Ho, c'est dire l'acceptation de Hi. Le test est significatif. Plus concrtement, on conclut que l'additif alimentaire augmente significativement la note moyenne de texture de la pte pizza, le risque d'erreur associ cette dcision tant au maximum de 5%. 2e mthode : calcul de la probabilit critique partir du Tobserve calcul prcdemment. On applique la fonction LOI. STUDENT sur la valeur du Tobserve . Les arguments de la fonction sont: - X : 1,8516402 (on saisit en fait une rfrence de cellule) - Degrs libert : 24 - Uni / bilatral : 1 On obtient le rsultat 0,0382. Ce rsultat est le risque que l'on prendrait en rejetant Ho alors qu'elle est bonne. Concrtement, en concluant que l'additif augmente la note moyenne de texture de la pte pizza, on prend un risque de 3,82%, infrieur au niveau 5% que l'on s'est fix. C'est donc cette dcision qu'il faut prendre. Le test est significatif.

188

Densit de probabilit de la loi de Student

Probabilit critique (3.82%)

Tobserv = 1,85

Figure 10.14 Probabilit critique (test unilatral).

3me mthode C'est la plus rapide dans la mesure o elle peut tre envisage ds la saisie des deux plages de notes. On insre la fonction TEST.STUDENT (Xi;X2;l;l) dont le rsultat 0,03821 s'interprte comme prcdemment. 4me mthode On appelle l'utilitaire d'analyse "TEST D'GALIT DES ESPERANCES : OBSERVATIONS PAIREES" et on renseigne la bote de dialogue. Remarque : la zone intitule "Diffrence entre les moyennes (hypothse)" signifie Ho = " mo =0 ". Saisir 0. Les rsultats suivants s'affichent :
Moyenne Variance Observations Coefficient de corrlation de Pearson Diffrence hypothtique des moyennes Degr de libert Statistique t P(T<=t) unilatral Valeur critique de t (unilatral) P(T<=t) bilatral Valeur critique de t (bilatral) Variable 1 6,84 2,80677 25 0,76607 0 24 -1,8517 0,0382 1,7109 0,0764 2,0639 Variable 2 7,24 1,44 25

Signalons qu'il convient d'tre vigilant en ce qui concerne les titres. Au besoin, il peut tre galement ncessaire de rajuster les signes comme nous l'indiquons dans ce qui suit. Explications et remarques concernant ces rsultats - la variance est gale la variance estime - la diffrence hypothtique des moyennes est la diffrence des moyennes sous Ho - degr de libert : n; - 1 (n = taille de l'chantillon) - statistique t signifie Tobserv ( calcul fait partir de "moyenne variable 1 - moyenne variable 2" ) - P(T<t) unilatral dsigne la probabilit critique unilatrale c'est dire P ( T < Tobserv) si Tobserv (statistique t) est < 0 P ( T > Tobserv) si Tobserv (statistique t) est > 0

189

soit, en rsum P(T > |T^^ |) - valeur critique de t (unilatral) dsigne le Tithorique unilatral soit Tn-i ;a ou Tn-i .i-u Attention, seule est affiche la valeur positive. Il est donc ncessaire de rajouter, si besoin est, le signe adapt (celui de Tobserve, c'est dire de "statistique t"). Dans le cas prsent, il faut rajouter le signe moins. - P(T<t) bilatral dsigne la probabilit critique associe au test bilatral soit, de manire plus explicite P(T < - [ -T^ |) + P(T > | T^ |) -. 2 P(T > | T,,,^ |) - la valeur critique de t (bilatral) est la valeur positive de Tiheorique, soit Tn-i :i-o/2 Rappelons que l'intrt de cet utilitaire d'analyse est de fournir tous les rsultats, les inconvnients tant, outre ceux que nous venons de signaler, l'absence d'interactivit, l'impossibilit de "copier-coller formules" car ne sont affiches que les valeurs des rsultats et non les formules. Or ces deux aspects sont les points forts d'EXCEL lorsque l'on a plusieurs calculs faire ou lorsque l'on veut voir la sensibilit d'un rsultat. En fait, il faut choisir la mthode en fonction de ses besoins.

10.4.5. chantillons apparis grands


Exemple : efficacit d'un aliment amincissant 10.4.5.1. Prsentation des donnes et position du problme Une socit d'agro-alimentaire souhaite diversifier sa production en lanant un nouveau produit "PROLIGNE", substitut de repas riche en protines et vitamines, peu calorique et donc susceptible d'avoir une influence sur le poids de son utilisateur. La clientle cible est la population fminine franaise, italienne et espagnole concerne par ce problme. Le service publicit de la firme veut donner une bonne image de fiabilit du produit et se prmunir en plus contre tout risque d'accusation de publicit mensongre. Dans ce double objectif, une tude statistique est ralise afin de prouver l'efficacit du produit. Un chantillon de femmes volontaires prlev dans cette importante population fminine volontaire s'est prt six jours sur sept pendant deux mois au remplacement systmatique du djeuner par PROLIGNE. Les poids en kilos avant l'exprience (Pi) et aprs (Pz) ont t nots et l'on a obtenu les rsultats reports sur le tableau 10.12.
n P1 P2
D n P1 P2 D n P1 P2 D 1
50 48 2 2 52 47 5

3
55

4
57

5
59 55 4

6 62 61 1

7
64 61 3

8 65 65

9
66

10 67 69 -2

11 69 70 -1

12
70 68 2

13
73 72 1

14
75

15 75 71 4

16
77

17 79 79

18
81

19 84 77 7

20
86

52 3

57 0

67 -1

75 0

74
3

81
0

75 11

21 90 80 10

22
50

23 52
54 -2

24

25
63

26 65 64 1

27
69

28
72

29
74 70 4

30
79

31 53 54 -1

32
49

33 62 60 2

34 65 64 1

35
79 75 4

36
73

37 85 80 5

38 87

39
70

40

61 60 1

75 76 -1

50 0

64 -1

65
4

72 0

73 6

52
-3

67 6

79 8

70
0

41
83 83 0

42 86 84 2

43 71 70 1

44 56 55 1

45 54 54

46 58 59 -1

47
59 59 0

48 67 65

49

50 68 69 -1

51
73 69 4

52 78 75 3

53 51 51 0

54
50
49 1

55 55 55 0

56 64 65 -1

57 61 60 1

58 71 69 2

59 63 64 -1

60 54 54 0

63 60 3

Tableau 10.13 Poids observs avant et aprs la prise de PROLIGNE (en kg).

190

Dans ce tableau D est la diffrence Pi-P2. Question : peut-on conclure l'effet significatif de PROLIGNE sur le poids ? Pour rpondre cette question, raliser un test de comparaison de moyennes au niveau 1% 10.4.5.2. Notations et modle Population 1, ensemble de la population nonce (avant l'exprience) Population 2 (aprs l'exprience) - Pi est la variable alatoire "poids avant" - ?2 est la variable alatoire "poids aprs" - D est la diffrence Pi - Pi - E(Pi) = mi est le poids moyen avant - E(Pz) = n-h est le poids moyen aprs - E(D) = mi - n-b = mo = moyenne de l'cart des poids "avant - aprs" c'est dire l'cart des poids moyens ou encore l'cart de poids moyen. - Var(D)=CT^ 2 . Echantillon - n=60
ZD,

D=

- est la variable alatoire, moyenne des carts observe dans un

chantillon de taille 60 ___ (D.-D) 2 VarD=. = o-p2 n-1 variance. est la variable alatoire estimateur de la

10.4.5.3. Dmarche statistique On ralise le test Ho : c'est dire mi = ni2 Ho : trio == 0 contre contre (test unilatral) H, : ni2<mi

Hi : m o > 0

Remarque : L'tude descriptive pralable des carts de poids observs P, ne permet pas de supposer la normalit de D. Dans le rel, de tels exemples sont frquents. Il est alors important de choisir un chantillon grand car on peut utiliser le test de Student considr dans ce cas comme robuste par rapport la normalit. En effet, la variable alatoire D, cart moyen de poids, suit approximativement l'hypothse de la loi normale (application du thorme central

191

limite). La variance tant inconnue, c'est la variance estime qui est utilise. Cela conduit utiliser plutt la loi de Student. 10.4.5.4. Ralisation pratique au moyen d'Excel 1re mthode C'est la mthode la plus rapide. On utilise la fonction TEST. STUDENT unilatral pour des chantillons apparis, on trouve une probabilit critique pc gale 1,13.10'5. Cette probabilit tant trs infrieure au niveau de test choisi (1%), on rejette Ho et l'on accepte donc Hi. Concrtement, on en dduit que les poids des populations cibles a diminu aprs la prise du produit. Remarquons que la diminution de poids observe dans l'chantillon est de 1,7kg. 2me mthode Comme il a t indiqu dans le paragraphe prcdent, on peut utiliser le "Test d'galit des esprances, observations paires" fourni par l'utilitaire d'analyse. On aboutit bien entendu aux mmes conclusions

192

11. ANALYSE DE VARIANCEAUN FACTEUR


Exemple : comparaison de plusieurs varits de haricots verts 11.1. POSITION DU PROBLME ET PRSENTATION DES DONNES

Une importante entreprise de conservation alimentaire ralise une tude conomique relative la transformation des haricots verts. Une enqute de terrain est ralise pour tudier l'influence ventuelle du facteur varital sur le diamtre des haricots ; ce dernier paramtre est en effet un critre important puisqu'il permet de classer les haricots selon diverses catgories (fins, extra-fins, etc). On se limite quatre varits Vi, 2, V3 et V4 qui offrent une bonne rsistance aux maladies et sont donc frquemment cultives dans la rgion tudie. On considre des haricots issus de sols comparables et de techniques culturales proches. On prlve des chantillons alatoires de chacune des varits et l'on observe les rsultats indiqus sur le tableau 11.1 suivant. Sur Excel, les donnes doivent tre saisies selon 4 colonnes.
V, 8 8 7 1 3 7 4 5 8 3 9 ? 7 5 4 9 5 5 5 5 7 8 10 57 8 1 5 8 7 3 6 0 8 6 6 4 6 8 7 0
9,8 8,2 5,0 5,3 3,7 9,0 7,0 5,1 4,0 5,2 8,9 7,1 4,8 4,9 5,4 8,5 7,0 4,2 5,1 6,1 7,1
V2

6,8 3,5 5,5 6,2 6,0 8,0 6,3 6,3 8,0 7,7 5,9 8,2 7,5 5,7 3,0 7,0 3,5 7,8 4,0 7,5 4,2 7,3 4,3 5,9 4,4 5,7 4,6 5,8 4,8 5,9 5,0 5,0 6,1 5,1 6,2
V3

5,2 6,3 5,3 6,4 5,4 6,5 5,5 6,6 4,8 6,7 5,0 5,8 5,3 5,7 5,5 6,5 5,6 6,7 3,2 3,0 3,1 6 1 6 8 66 8 6 6 9 6 9 86 7 6 4 8 5 7 6 7 7 7 7 4 4 1 9 9 8 8 5 6 5 9 4,3 7,7 5,4 6,0 9,0 8,0 6,0 5,0 6,0 10 6,2 8,0 8,6 6,4 8,2

v '4

Tableau 11.1

Diamtre en mm de haricots verts issus de 4 varits.

Question : peut-on considrer qu'en moyenne les quatre varits ont le mme diamtre ? Tester cette hypothse au niveau 1%. Une tude pralable a permis d'accepter l'hypothse de la normalit ainsi que l'hypothse de l'galit des variances des variables alatoires "diamtre des haricots verts" pour les quatre varits. 11.2. NOTATIONS ET MODLE

Varit V;, avec ie{l,2,3,4} Population Pi - X; est la variable alatoire "diamtre" - E(Xj) = m; est le diamtre thorique moyen - VarXi=o, 2 - X,->N(m,,a,)

chantillon E, - n; est la taille de l'chantillon, X,^ -> N(m,,o,)

j = l,n,

- X, est la variable alatoire "diamtre moyen observ dans un tel chantillon" - SCE, = SCEn est la variable alatoire "somme des carrs des carts la moyenne", note "somme des carts rsiduels" dans l'chantillon i ' ^r^F - o,2 = S,2 = '- est la variable alatoire, estimateur de la variance partir n,-l d'un tel chantillon (v; = n;-l ) - i e {1,2.3,4}. Notations gnrales : - k est le nombre de modalits du facteur tudi = nombre d'chantillons, ici 4 - Xij est la j" observation de l'chantillon i - x- - x, est le rsidu j - n = ni + na + n.i + n.) - x est la moyenne gnrale observe sur l'ensemble des chantillons
_ 1 k-4 n, i k-4 __

"n^n"''(moyenne des moyennes d'chantillons pondres par leur taille) - SCE,=^SCE 1^1 L'galit des variances des diamtres pour les 4 varits ayant t accepte, on peut noter : oo2 = oi 2 = G22 = 032 = a2. Par suite, pour la varit V;, on notera X,->.N(m,,Oo) ie{l,2,3,4}. 11.3. DMARCHE STATISTIQUE On ralise le test : mi = m2 ^ lb = 1114 contre H) : l'une au moins des 4 moyennes se diffrencie Ho : La mthode est fonde sur la dcomposition des dispersions 11.3.1. quation de l'analyse de la variance Dcomposons la dispersion totale (reunion des observations des k chantillons) SCE, =^(^ -x) 2 -l;i>, -x;+x^-x) 2
1-1 J.l 1-1 J--1

En dveloppant ce calcul, on trouve :

____________________i-l J-l______________-' j-1____________l_l_________-^___________________

^.^^(^-^z^-^^^"^-5')2
194

Notons SCE|, = V n , ( x , - x ) 2 la somme des carrs des carts factoriel. C'est la dispersion entre les moyennes d'chantillons repres par rapport la moyenne gnrale. Finalement : SCE, Variabilit totale SCEr Variabilit rsiduelle
(INTRA-CI IANTILLONS)

SCEf, Variabilit factorielle


(INTER-CHANTILLONS)

E:QUA TION DE L'ANALYSE DE V f\JRJANCE Degrs de libert associs chacun des termes - SCE, ->.ddl=n-l - SCE, ^ . d d l = ^ ( n , - l ) = n - k - SCEf.-.ddl=(n-l)-(n-k)=k-l Soit, en rsum - Variabilit : SCEi = SCEr + SCEfa (quation de l'analyse de variance) - ddl : n-1 = (n-k) + (k-1) Variances interclasse et intraclasse : SCE,, - Variance interclasse ou Carr Moyen factoriel CMfa ou CM), = k-1 SCE, - Variance intraclasse ou Carr Moyen rsiduel CMr ou CM, = n-k

11.3.2. Statistique du test et prise de dcision


CM On tablit que, sous l'hypothse Ho, la statistique du Fobserv dfinie par F^^ = &CM, suit la loi mathmatique F de Fisher-Scedecor ( v\ , v-i ) ddl avec vi ^ k-1 et vi = n-k, expressions dans lesquelles n est l'effectif total et k le nombre d'chantillons. Dcision Densit de la loi de Fisher

RA

Fyl,v2 ; 1-a

RR

Figure 11.1 Prise de dcision dans l'analyse de variance un facteur (RA, RR).

195

TABLEAU D ' ANALYSE DE VARIANCE RECAPITULATIF DE LA METHODE SOURCE DE DISPERSION TOTALE FACTORIELLE OU INTERCLASSE RESIDUELLE OU INTRACLASSE SCE SCE, ddl n-1 CARRES MOYENS OU VARIANCES STATISTIQUE F Observe Thorique
Fvl ,v2 ; 1 -o

SCEh

k-1

^-CM k-1 CMfa ^'-CM n-k '

CM,. CM,

'"'s

SCE,

n-k

Possibilit de dtermination del probabilit critique pour la prise de dcision

Tableau 11.2

Composition du tableau d'analyse de variance.

11.4. MISE EN UVRE AU MOYEN D'EXCEL 1re mthode : ralisation des calculs conduisant au tableau d'analyse de variance Cette mthode, de type "manuel", mais cependant relativement rapide et trs prcise, prsente deux avantages. Le premier est d'ordre pdagogique car en effectuant les tapes successives du calcul on comprend facilement la mthode. Le second est d'ordre pratique. D'une part il y a interactivit avec les donnes ; d'autre part il est possible de rutiliser la grille de calculs pour d'autres applications. L'organisation "gographique" de la feuille Excel ne prsente aucune difficult. En pratique, cette tude de test par analyse de variance est, en gnral, prcde d'une tude descriptive et suivie d'une tude des conditions de validit du test savoir la normalit et l'homoscdasticit des populations. Nous proposons deux blocs de calculs : - 1er bloc : calcul des moyennes observes et calcul des lments statistiques relatifs la composante rsiduelle - 2e bloc : tableau de l'analyse de variance Calcul relatifs an 1er bloc :
V, 8,8 7,1 3,7 etc. V; 9,8 8,2 5,0 etc.
V3 V4

3,0 7,0 3,5 etc.

6,1 6,8 6,6 etc. SOMMES 131 127 275,50 =n =ddl, =SCEr

Voir tableau des ionnes ci-de ssus n, ddl(r,) SCEr, Moyenne Ecart-type 21 20 53,81 6,88 1,64 35 34 87,27 6,37 1,60 42 41 60,47 5,41 1,21 33 32 73,95 6,90 1,52

196

: il peut tre intressant de prvoir des plages de donnes de taille suprieure celle des effectifs rellement observs. En effet, Excel grant les "manquants", la grille de calcul pourra tre rutilise pour des jeux de donnes d'effectifs trs diffrents (on notera HL le nombre "limite" d'observations possibles, avec n^ > sup n, ni, ). Si l'on adopte une telle tactique, il convient de bien slectionner l'intgralit de la plage disponible (les HL observations) soit pour effectuer un calcul direct, soit pour "nommer" les plages. On nomme V1234 la plage de l'intgralit des donnes soit une matrice de HL lignes et 4 colonnes. Sur le tableau ci-dessus, n, est fourni par la fonction NBVAL. ddl(ri) est gal n; - 1 (rfrences relatives). Quant SCEr;, sa valeur est donne par la fonction SOMME.CARRES ECARTS. 2e bloc : tableau d'analyse de variance
SOURCE DE DISPERSION totale factorielle rsiduelle Tableau 11.3 SCE ddl CM
Fobserv

Remarque

Probabilit

Fthorique 1% F3.127. 0,99

critique

328,08 130 3 17,53 52,58 275,50 127 2,17

8,08

5,73.10'5

3,94

Rsultats numriques du tableau d'analyse de variance.

Droulement des tapes de calcul : Calcul des SCE - La SCE totale est le rsultat de la fonction SOMME.CARRES.ECARTS applique l'ensemble des donnes observes (plage nomme V1234). - Pour dterminer la SCE rsiduelle, on introduit le contenu de la cellule SCEr calcul dans le 1" bloc, soit par un "copier-coller" soit par un signe "=" (rf. absolue). - La SCE factorielle est la diffrence SCE totale - SCE rsiduelle (rf. relatives). Calcul des ddl (associs aux diffrentes dispersions) - Le ddl total est gal n - 1. On prend le contenu de la cellule "n" calcul dans le 1re bloc (rf. absolues) et on finit le calcul. - Le ddl rsiduel est le contenu de la cellule ddl (r) calcul dans le 1re bloc (rf. absolues). - Le ddl factoriel est gal ddl total - ddl rsiduel (rf. relatives). Calculs des CM <r . i est gal 0 i a . SCE factorielle , .-. relatives). , . , - -, Le CM factonel -iJi factoriel ^',^+^^^ (rf. ' ddl SCE rsiduelle Pour le CM rsiduel est le rapport On fait le calcul ou on ddl rsiduel utilise la poigne de recopie vers le bas partir du calcul prcdent , , , CM factoriel fobsovest gal a , , CM rsiduel Pour la probabilit critique pc, on utilise la fonction LOI,F. On trouve : pc= 5,73.10'''. Pour Fvi,v2; i-a , on appelle la fonction INVERSE.LOI.F. Avec a = 1%, on trouve F3.i27;o,9< = 3,94. 197

Dcision et interprtation des rsultats Expression classique. Puisque Fobserv > F3,i27 ;o, , Fobserv appartient la rgion de rejet, on rejette donc l'hypothse Ho au niveau 1%. Une au moins des varits se distingue donc des autres. Expression probabiliste. La probabilit critique est gale 5,73.10' . Lorsque Ho est vraie, c'est dire lorsqu'il n'y a pas, en moyenne, de diffrence entre les 4 varits, on a une probabilit de l'ordre de 6 pour 10 000 d'observer une valeur de F au moins gale celle du Fobserv (8,08). Cet vnement est trs rare (probabilit trs infrieure au niveau du test fix). On prfre remettre en cause Ho, c'est dire qu'on la rejette : au moins une des varits se distingue des autres au niveau du diamtre moyen En prenant cette dcision, on prend un risque (a ) gal la probabilit critique, infrieur 6 pour 10 000. Remarque : l'examen des moyennes observes des 4 chantillons permet de mettre en vidence la bonne performance de la varit 3 (petit diamtre par rapport aux autres), ceci au seul niveau descriptif. 2e mthode : on utilise le module "Analyse de variance : 1 facteur" de l'utilitaire d'analyse. C'est une mthode trs rapide et prcise. On renseigne trs facilement la bote de dialogue. La "Plage d'entre" est VI 234. On "groupe" par colonnes et le "Seuil de signification" est 0,01. On retrouve aisment les rsultats prcdents ayant permis l'laboration du tableau d'analyse de variance.
RAPPORT DTAILL

Groupes VARIETE 1
VARIETE 2 VARIETE 3

VARIETE 4
ANALYSE DE VARIANCE

Nombre d'chantillons 21 35 42 33

Somme 144,5 223 227,16 227,8

Moyenne 6,88 6,37 5,41 6,90

Variance 2,69 2,57 1,47 2,31

Source des variations Entre Groupes A l'intrieur des groupes Total

Somme des carrs 52,58 275,50 328,08

Degr de libert 3 127,00 130

Moyenne des carrs 17,53 2,17

F 8,08

Probabilit
5.7354E-05

Valeur critique pour F 3,94

Certaines rubriques, moins classiques doivent tre prcises. - Le nombre d'chantillons est la taille des chantillons - la colonne somme signifie les sommes des valeurs observes (grandeur peu exploitable dans un cadre d'tude trs gnral) - la moyenne des carrs est le carr moyen - F est la valeur de Fobserv - la probabilit est la probabilit critique - la valeur critique pour F est Fthorique= Fvi,v2 ;i-a

198

11.5. APPROFONDISSEMENT : COMPARAISON DES MOYENNES PAR PAIRES On peut dtailler le rsultat prcdent en comparant les varits deux deux au moyen de la fonction TEST.STUDENT. Les conditions de validit de l'analyse de variance conduisent au test de Student de type 2 (chantillons indpendants avec homoscdasticit). Remarque : l'analyse de variance un facteur deux modalits (ici, par exemple, deux varits) est quivalente au test de Student : ! (,.n-2)='T^.-l)l a v e c n = n , + n , Les rsultats des tests de Student figurent sur le tableau ci-dessous.
VARIETE 1 VARIETE 2 VARIETE 1 VARIETE 2 VARIETE 3 VARIETE 4 Tableau 11.4 25,85% 0,02% 96,00% VARIETE 3 VARIETE 4

0,37% 16,57%

0,001%

Rsultats des tests de Student (probabilits critiques) des varits prises 2 par 2.

Afin de limiter le temps de travail, il peut tre intressant de nommer simplement les plages de donnes (par exemple Vi pour les ni observations relatives la varit 1, etc.). Ensuite, partir d'un seul TEST.STUDENT, on utilise les poignes de recopie. Pour chacun des tests, il suffit alors de rajuster les noms des plages dans la barre de formules. : estimation de la variance commune aux k populations et niveaux des tests On ne peut dire nanmoins que le test par analyse de variance (niveau a) est quivalent un ensemble de tests de comparaison de 2 moyennes (chacun de niveau a). Tout d'abord, lorsque l'on ralise un test de comparaison de 2 moyennes mi et m; de deux populations normales et de mmes variances, il faut se rappeler que l'estimation de la variance commune aux 2 populations est la moyenne des variances estimes pondres par les ddl. Dans le contexte de l'analyse de variance, l'estimation de la variance commune aux k populations concernes est la moyenne de toutes les variances estimes, pondres par les ddl ; cette estimation est donc plus prcise ds que k > 2. En ralisant ces tests de faon manuelle, on peut intgrer cette estimation de variance. Ensuite, il est bon de comparer des niveaux de tests. Considrons l'ensemble des couples de moyennes et a niveaux de test associs chaque couple. Il y a C^ couples de moyennes. Dans le test d'analyse de variance, l'hypothse H] est "au moins une des k moyennes se distingue". On peut considrer cet vnement comme quivalent "au moins un des couples de moyennes est compos de moyennes distinctes". La probabilit d'un tel vnement est donc C^ a . Ainsi avec k = 4, on trouve 6 a.. En fait, il faudrait baisser le niveau de chaque test ou augmenter le niveau de confiance de chaque diffrence de moyenne (m; - nij). Nous ne dtaillerons pas ce point : on pourra consulter ce sujet un ouvrage classique de Statistique, par exemple l'ouvrage de T. H. Wonnacott et R. J. Wonacott (1991). Remarque

199

Commentaire concret En se limitant l'exploitation classique des tests de Student, on remarque que l encore la varit Va se distingue des autres varits ; seules les probabilits critiques impliquant cette varit sont infrieures au niveau 1% du test. La varit Vi ne se distingue pas de Vi et V4 . Quant V;, elle ne se distingue pas de V4.

200

12. TESTS RELATIFS AUX PROPORTIONS


12.1. TEST DE CONFORMIT D'UNE PROPORTION AVEC UN GRAND CHANTILLON Exemple : efficacit d'un nouveau produit de traitements de vergers par rapport celle d'un produit de rfrence. 12.1.1. Prsentation des donnes et position du problme Dans une rgion productrice de pommes, les vergers de pommiers d'une certaine varit prsentent priodiquement une infestation des feuilles par une maladie M. Celle-ci apparat indpendante des techniques culturales ainsi que de la qualit des sols. Elle n'altre pas les fruits mais engendre des rductions de rendement non ngligeables. Lorsqu'un verger est atteint, on le traite l' aide d'un produit classique PR (produit de rfrence) sans effet nuisible sur l'environnement et gurissant en gnral 60% des arbres. Les chercheurs essaient de mettre au point un produit nouveau PN prsentant les mmes atouts au niveau environnemental mais d'efficacit suprieure. Les travaux en laboratoire tant achevs, il convient de tester sur le terrain l'efficacit de ce produit. Dans un verger infest, on slectionne, de faon alatoire, 88 pommiers atteints que l'on traite l'aide du produit PN. Lorsque le temps d'action du traitement est coul, on observe les rsultats. Il apparat qu'environ 75% des arbres sont guris. Question : est-ce que le nouveau produit PN est plus efficace que l'ancien PR ? Tester cette hypothse au niveau 5%. 12.1.2. Notations et modle Population : c'est l'ensemble des pommiers (varit tudie dans la rgion de production tudie) p est la proportion d'arbres guris aprs traitement - p = po dans le cas de traitement par le produit rfrence PR - po =60%. chantillon : - n est la taille de l'chantillon ici 88 - X est la variable alatoire "nombre d'arbres guris dans un tel chantillon". X suit une loi binomiale de paramtres n et p : X > S*(n,p) - Y est la variable alatoire, proportion de pommiers guris aprs traitement dans un tel chantillon Yobserv = y = 75%. 12.1.3. Dmarche statistique II s'agit de raliser le test Ho : la proportion de pommiers guris est identique avec les deux traitements contre Hi : la proportion de pommiers guris avec PN est suprieure celle des pommiers guris avec PR

soit Ho : p = po contre H, p>po

Approche intuitive Dans l'chantillon observ, on remarque une proportion de pommiers guris (75%) suprieure la rfrence (60%). Est-ce que cet accroissement traduit une meilleure efficacit du nouveau traitement ou est-ce attribuable au seul hasard de l'chantillonnage ? En recherchant un seuil Yi qu'il est presque impossible de dpasser (faible probabilit) du seul fait du hasard, on pourra rpondre la question. Dterminer la loi de probabilit de la proportion de pommiers guris dans un tel chantillon avec le produit rfrence (PR) permettra de trouver ce seuil. Outil statistique - E(Y)=p
VarY=P< l -P ) n

- La taille de l'chantillon tant grande ( n > 30 ), on peut considrer que la variable alatoire Y suit sensiblement la loi Normale . Statistique du test et prise de dcision Sous H,. Y-^Nrp^.fP00^)

thorique

I ] -u

Figure 12.1 Prise de dcision pour un test unilatral de conformit d'une proportion (RA, RR).

12.1.4. Ralisation pratique au moyen d'Excel II suffit de calculer les paramtres statistiques de la loi normale de Y.
On trouve:,?0-^-0,052. V n
Yobserv = 75/0.

1" mthode : dtermination de Ythorique = 1 -a intuitive ci-dessus)

(c'est le seuil Y] voqu dans l'approche

202

On utilise la fonction L0I.NORMALE.INVERSE . Pour a = 5% on trouve Yi^, = 69%. La zone Y < 69% dfinit la rgion d'acception RA de Ho et 69% reprsente le seuil Y] voqu dans l'approche intuitive.
Dcision

Yobserv > Ythorique On rejette donc l'hypothse Ho avec un risque d'au plus 5%. On conclut que le nouveau traitement est plus efficace que le traitement classique. Remarque: A = ( Y | ^ - P ( ) ) constitue "le seuil" pour l'accroissement de la proportion de pommiers guris voqu dans l'approche intuitive (Yi-a tant le seuil pour la proportion Y). 2e mthode : dtermination de la probabilit critique pc Afin d'obtenir un rsultat plus prcis, on dtermine la probabilit critique, risque rel pris en concluant la significativit du test p^ -- P( Y > Y^^ ) . On appelle la fonction LOI.NORMALE et on trouve p^ = 0,203% . Par consquent nous pouvons conclure avec un risque infrieur 0,204% que le nouveau traitement est plus efficace que l'ancien. 3e mthode : utilisation du test du Khi-deux La distribution du produit de rfrence PR est connue : Guri son oui non 0,6 Probabilit 0,4 Effectifs thoriques 52,8 35,2 Tableau 12.1 Effectifs thoriques d'arbres guris et malades (PR). Pour le nouveau produit PN, nous avons : Gurison Effectifs observs
Tableau 12.2

oui 66

non 22

Effectifs observs d'arbres guris et malades (PN).

En utilisant la fonction TESTKHIDEUX, on trouve 0.00407. En divisant ce rsultat par deux, on obtient la probabilit critique (test unilatral), dj interprte au cours de la 2e mthode. 12.2. TEST DE COMPARAISON DE DEUX PROPORTIONS (GRANDS CHANTILLONS) Exemple : comparaison de deux taux de satisfaction concernant un produit 12.2.1. Prsentation des donnes et position du problme On ralise, auprs de matres fromagers franais, un sondage sur l'utilisation d'un certain produit sanitaire appropri nomm FROMNET. Un premier sondage sur 100 dtaillants rvle que 23 d'entre eux utilisent ce produit. Un an aprs, on ralise un deuxime sondage sur 80 dtaillants issus de la mme population. Il apparat que 32 d'entre eux utilisent le produit.

203

Questions 1. Peut-on conclure que le taux d'utilisation est le mme sur les deux annes considres ? Pour rpondre cette question, raliser un test de comparaison des proportions de dtaillants utilisant FROMNET au niveau 5% puis au niveau 2%. 2. On indique de plus qu'une grande campagne publicitaire de FROMNET a t lance entre les deux sondages. Peut-on conclure que cette campagne a contribu augmenter le taux d'utilisation du produit (niveau 1%)? 12.2.2. Notations et modle La population est l'ensemble des dtaillants matres fromagers Population 1 (celle sur laquelle a t effectu le premier sondage) - Ii est l'indicatrice de l'utilisation de FROMNET (variable de Bernoulli) - E(Ii) = pi est la proportion (inconnue) d'utilisateurs du produit - qi = 1-pi chantillon 1 - La taille est ni, ici 100 - Xi est la variable alatoire "nombre d'utilisateurs de FROMNET dans un chantillon de taille 100", - y = AL "i chantillon de taille 100"
23

X, = ^1,, X, ->g'(m,pi) 1^1 est la variable alatoire "proportion d'utilisateurs observe dans un

- Yi observe =7] == 23% est la proportion observe dans cet chantillon. Population 2 : (celle sur laquelle a t effectu le deuxime sondage) : - 12 : indicatrice de l'utilisation de FROMNET - E(l2) = p2 : proportion (inconnue) d'utilisateurs du produit - q2 = l-p2 Echantillon 2 - ni = 80 - X2 est la variable alatoire "nombre d'utilisateurs de FROMNET dans un chantillon de taille 80" , X; = ^ L,,
Y

X; -> ^(n;>,p2)

- Y, = '- est la variable alatoire "proportion d'utilisateurs observe dans un n, chantillon de taille 80". - Y2observe = v^ ==40%, proportion observe dans cet chantillon
oO

32

12.2.3. Dmarche statistique (1re question) 11 s'agit de raliser le test Ho : pi = p2 contre Hi : pi ^ p2

On ralise un test bilatral. Lors du rejet de Ho, on peut avoir p2 - pi > 0 et p2 - pi < 0.

204

Statistique du test et prise de dcision : D = 2 - Yi ( Dobserv = 40% - 23% = 17% )

Approche intuitive On veut comparer les proportions pi et p2 d'utilisateurs de FROMNET dans ces populations. Il est donc naturel de s'appuyer sur les proportions d'utilisateurs observes dans les deux chantillons savoir respectivement 23% et 40%. Est-ce que l'cart absolu observ (17%) peut tre considr comme suffisamment petit pour tre d au hasard de l'chantillonnage ou bien est-il suffisamment grand, dpassant un "seuil" au-del duquel il est "presque" impossible qu'il soit d au hasard. Pour dterminer ce seuil, il est ncessaire d'obtenir la loi de probabilit de D, dans le cas o il n'y aurait eu aucune volution du taux d'utilisation du produit. Paramtres statistiques de D E(D)=p2-pi.
p q p2q2

Sous Ho, E(D)=0.

. VarD= l '-+ n, n^ Quand l'hypothse Ho est vraie, pi est gale p2 . On note p leur valeur commune et q=1-p. VarD =pqf-'-+-!-I
l"l "2J

VarD = p qf^-+- 1 -)
l"l "2J

, " 23+32 nombre total d'utilisateurs On estime p au moyen de p = = . 100+80 effectif total Plus gnralement : Loi de probabilit de D sous Ho Les chantillons tant grands, on peut appliquer le thorme central limite chacune des variables alatoires Yi et Yz. Par suite, leur diffrence D aussi suit approximativement la loi Normale : D as N(E(D),Gp ) (chantillons grands) DN(E(D),G,;)

Sous Ho:

Da<N(0 , p

^
205

1
"2

n,y, +n^y3 "i "^^

La dcision est : Si |D^,erv| ^ DI a/2 o" rejette l'hypothseHo. Le test est significatif. Si [Doi,,en,e| < D, ^^ o" accepte Ho. Le test n'est pas significatif.

Da/2

0 """"

Dl-a/2

-*^-

RA RR RA : rgion d'acceptation de Ho RR : rgion de rejet de Ho


Figure 12.2 Prise de dcision pour un test bilatral de comparaison de deux proportions (RA, RR).

12.2.4. Ralisation pratique au moyen d'Excel et interprtation


On calcule p et Op l'aide du clavier ^=
23+32

100+80

=30.56%

Vai~D = (0,3056)(1 -0,3056)(-!-+-^-)=0,00477... 100 80 (TU =^VarD =0,069 Sous Ho, D-> N(0,0,069)

1"' mthode : on dtermine le "seuil" Di-n/2 par une mthode de type manuel. On utilise la fonction LOI.NORMALE.INVERSE(0,975;0;0,069...). Le rsultat est Do,975= 13,54%.
Dcision

Puisque Dobserv (17%) est suprieur Do,9?5, on rejette l'hypothse Ho. Le test est significatif et on conclut que le taux d'utilisation de FROMNET a chang d'une anne l'autre un risque maximal de 5%. Au niveau 1%, le calcul est identique : on peut faire un "copier-coller". Dans la barre de formule, on remplace la probabilit prcdente de 0,975 par 0,995. On trouve Do.995 = 17,798 % et l'on en dduit qu'au niveau 1%, il n'est pas possible de conclure la diffrence des taux d'utilisation du produit sur les deux annes. 2e mthode : on calcule la probabilit critique pc.

206

p, =P(D>|Dobserv|)+P(D<-|Dobserv|)= 2P(D<-|Dobserv|) avec P(D<-Dobserv)=F(-Dobserv) o F est la fonction de rpartition de la loi Normale. Le rsultat de la fonction LOI.NORMALE(0,17;0;0,069...; VRAI) tant 0,69% , on en dduit que pc = 1,39%. C'est le risque que l'on prendrait en rejetant Ho (vrai risque a). On rejette Ho si cette probabilit critique est infrieure au niveau de test donn. Cette deuxime mthode est beaucoup plus prcise que la premire. On retrouve les rsultats prcdents : Au niveau 5% , on rejette Ho . On conclut la diffrence des taux d'utilisation sur les deux annes au risque 1,39%. Au niveau 1% , on ne peut conclure. > Remarque D'un point de vue concret, ce test bilatral de comparaison de deux proportions est quivalent un test d'homognit par le Khi-deux On construit le tableau de contingence rpartissant les effectifs des sondages selon l'anne et le critre d'utilisation. Rappelons qu'il suffit de dterminer les effectifs thoriques et d'appeler la fonction TEST.KHIDEUX.

Ho : homognit des annes contre Hi : non homognit des annes. effectifs observs 0, UTILISATEUR NON UTILISATEUR 77 23 ANNEE 1 48 32 ANNEE 2 55 125 totaux effectifs thoriques C, UTILISATEUR NON UTILISATEUR 30,56 69,44 ANNEE 1 24,44 55,56 ANNEE 2
totaux
Tableau 12.3
55 125

totaux
100 80 180

totaux 100
80 180

Effectifs observs et thoriques du nombre d'utilisateurs et de non utilisateurs selon l'anne.

TEST KfflDEUX : probabilit critique = 0,014. On retrouve le mme rsultat pour la probabilit critique. On prend 1,39% de risque en concluant la diffrence des deux annes. Le test est significatif au niveau 5% et non significatif au niveau 1%. 12.2.5. Dmarche statistique, rsultat et interprtation (2e question) Hypothses Ho : pi - p2 contre Hi : pi > pi (ou p2 - pi > 0 )

Les dveloppements prcdemment effectus restent valables. Le changement se fera uniquement au niveau de la prise de dcision.

207

Dcision

Densit de la loi normale

D = Y2 - Yi

RA

RR

Figure 12.3 Prise de dcision pour un test unilatral de comparaison de deux proportion (RA, RR).

La rgion de rejet RR correspond la "queue" positive de la distribution D ^Y^-Y) > 0. 1" mthode On dtermine le "seuil" Di.a par le procd indiqu lors de la 1" faon de la question 1. Il suffit d'ailleurs de "copier-coller" les rsultats de la question 1 et de changer la probabilit dans la barre de formule ; on trouve : Au niveau 5%, Di-a vaut 11 % et au niveau 1% il est gal 16 %. Comme Dobserv est gal 17%, le test est significatif ces deux niveaux. Le taux d'utilisation de FROMNET a augment au bout d'un an, le risque tant infrieur 1%. 2e mthode C'est la mthode la plus simple et la plus prcise pour rpondre la question. Il suffit de calculer la probabilit critique p^ =P(D>D^,^^) . Le rsultat, dj calcul pour la premire question est : p,=P(D>D^^)=0,69% On prend donc seulement un risque de 0,69% en rejetant l'hypothse Ho (ou encore en acceptant Hi ) c'est dire en dcidant que le taux d'utilisation du produit a augment. Le test est donc significatif, mme au niveau 1%. Remarque Lors d'tudes concrtes appropries, le test unilatral de comparaison de deux proportions est souvent trs intressant car, lors du rejet de Ho, la dcision est videmment plus riche. On peut noter que pour avoir le rsultat numrique de la probabilit critique d'un tel test, on peut raliser "TEST.KHIDEUX" et diviser le rsultat par deux. Ce procd n'a d'intrt que numrique car il ne permet pas d'exposer clairement la dmarche statistique du test unilatral. De plus, on ne peut mettre en vidence les seuils Di-a (soit 11% au risque 5% et 16% au risque 1%) qui permettent concrtement de positionner immdiatement l'volution rellement observe.

208

13. REGRESSION LINEAIRE MULTIPLE


Exemple : prdiction de la qualit des armes d'un vin du Sud-ouest 13.1. PRSENTATION DES DONNES ET POSITION DU PROBLME

Des chargs d'tude d'un institut technique cherchent prdire la qualit des armes d'un vin du Sud-Ouest issu d'un certain terroir partir d'analyses physico-chimiques du mot de la vendange. Dans cette tude, ils slectionnent les critres suivants : - le PH qui mesure l'acidit du mot obtenu - la concentration en acide malique (exprim en g/l). Cet acide organique fragile est un indicateur de la fermentation malo-lactique - la concentration en acide tartrique (exprim en g/l). Cet acide organique est le plus fort du raisin ; stable, peu dgrad, sa concentration est un indicateur de la stabilit du vin conditionnant la qualit de vieillissement - la concentration en ions Potassium K^ (exprim en g/l). Le potassium reprsente une part importante des matires minrales du mot et sa concentration diminue au cours de la fermentation. 33 chantillons de vins ont t prlevs de faon alatoire et analyss en laboratoire et valus d'un point de vue gustatif. La qualit des armes, sujet de cette tude, a t note sur une chelle de 0 10 (chelle croissante de qualit). Les rsultats sont reports sur le tableau suivant.
Acide Acide K+ PH tartrique malique 6,29 5,52 7,42 7,2 7,1 7,2 6,3 6,2 6,31 6,3 6,28 6,3 5,52 5,5 5,5 7,5 7,3 Tableau 13.1 Questions 9,6 6,5 4,5 5 5,2 5,1 9,5 10 9,6 10,2 10,4 10,3 6,5 6,7 6,6 4,3 4,7 1,2 1 1,2 1,1 ,3 ,2 ,2 ,4 ,3 ,4 ,6 ,5 1 1,3 1,1 1,1 1,5 3,1 3,9 2,9 2,7 2,9 2,8 3 3,2 3,1 3,1 3,3 3,2 3,9 3,1 3 2,8 3 QUALITE QUALITE Acide Acide DES K+ PH DES tartrique malique AROMES AROMES 3,5 7,4 4,5 3,5 1,2 2,9 1 1 2,7 6,3 7,8 4,5 1 8,2 6,32 6 1,3 3 6,28 8 5,5 1,5 1,1 2,8 2,5 7,28 10,4 8 1,4 3,1 3 10,8 8,5 1,7 3,4 7,1 5 7,15 10,5 8 1,5 3,2 6 8 5,5 6,2 1,2 3 5,5 8,4 7 1,5 3,2 6,1 6 6,15 8,2 6,5 1,3 3,1 7 6 5 6,1 1,1 2,8 7 6,4 6 1,4 3,2 6,1 2 6,2 6,15 6 1,2 2,9 4,5 6,22 6,8 6,5 1,3 3,1 3,5 6,18 6,6 0,7 3 4,5 3 6,7 10,1 9 1,6 3,1 4

Concentration en acides tartrique et malique, ions K\ valeur du PH et note de qualit des armes notes pour 33 observations.

- Au moyen d'une rgression linaire multiple, dterminer un modle permettant de prdire la qualit des armes partir des 4 critres d'analyse physicochimiques retenus.

- Prdire ensuite la qualit des armes des 5 observations notes sur la tableau 13.2 suivant.
Observations 1 2 3 4 5 Acide Acide K+ PH tartrique malique 1 2,6 7,3 5,2 6,3 9,5 1,2 3,2 5,6 6,7 1,4 3,3 7,7 6,2 1,1 2,8 6,9 8 1,4 2,9 chantillon test.

Tableau 13.2

13.2. NOTATIONS ET MODLE


Notations

La variable alatoire expliquer (dite encore variable dpendante) est Y, qualit des armes. Les variables explicatives (dites aussi variables indpendantes ou encore prdicteurs) sont : - Xi teneur en acide tartrique - Xz teneur en acide malique - X3 teneur en ions K^ - X4PH. Le nombre d'observations est n = 33 et le nombre de variables explicatives est p = 4. Modle Avant de rechercher le modle, il est indispensable de raliser une analyse descriptive bidimensionnelle entre Y et chacune des variables explicatives X; (coefficients de corrlation et nuages de points). D'une manire gnrale, on recherche s'il existe des coefficients p, (i e {0,1,2,3,4}) tels que l'on puisse modliser Y sous la forme : Y = P + P,X, + P^X, + ^\^ + P4X, + E o E dsigne l'erreur alatoire, ou rsidu. Cette quation s'crit galement sous la forme:
f^l
Y2

m i

f^'t ^i
+P,

l X ^ "12 X22

/ ^

\ f^t ^13 X24 f^t 62

<=>

=Po

+P, .i^nl.

+P,

+P<

<y.
Remarque

.^2,

^n.

^^

^n.

: dans le modle de rgression linaire, les variables explicatives peuvent tre contrles (non alatoires comme par exemple des doses de fumure) ou bien alatoires. Dans ce dernier cas, le modle est utilis conditionnellement aux valeurs observes pour les variables explicatives. Pour plus de dtails, on pourra consulter l'ouvrage "L'analyse des donnes" de T. Foucart (1997). partir des donnes observes, on recherche des estimateurs b; des coefficients pj permettant de reconstituer "au mieux" Y.

210

L'estimateur de Y s'exprime de la faon suivante : ( ^\ Yi

y;
-bo

f^ 1
+b,

f "11 x ')
X

/ y 12 ^
X,,

I^X '13 ^ Xy

f^t
X^

21

+b;

+b,

+b,

\yn }

.L

^nl.

.Xn2.

^ns y

^m.

Y =b,, +b,X, +bJ, +b,X3 +b.,X,


e,

On note e, - y, - y,

; e=

On recherche les coefficients b; minimisant la somme

^e,2 =^(y, -y,) 2 .

L'optimisation de cette somme dfinit le critre des moindres carrs. La rsolution mathmatique de cette optimisation fournit les coefficients b;. En statistique, dans le but de fiabiliser leur utilisation, on souhaite que les estimateurs soient sans biais et convergents. Ici les coefficients b; sont des estimateurs sans biais condition que E(e) moyenne des erreurs soit nulle. De plus, les estimateurs sont convergents si les rsidus sont indpendants et de mme variance. 13.3. DMARCHE STATISTIQUE ASSOCIE AU MODLE On mesure l'indice de qualit de la rgression globale par le coefficient de dtermination. Expliquons son origine. Les notations sont les suivantes : - SCEt est la somme des carrs des carts la moyenne de la variable expliquer Y, dite variabilit ou variation de Y - SCEm est la somme des produits des carts la moyenne (SPE) de Y et Y, dite variabilit explique par le modle rgression - SCEr est la somme des carrs des carts rsiduelle. Dcomposons la variabilit totale et notons les degrs de libert associs : SCEi Variabilit totale de Y SCEn, Variabilit explique par le modle aoi - p EQUATION DE L'ANALYSE DE VARIANCE
SCEr

Variabilit rsiduelle

211

On obtient le tableau d'analyse de variance 13.3. Source de dispersion totale explique par le modle rgression rsiduelle SCE SCE, SCEn,
SCEr

ddl n-1 P n-l-p

Carrs moyens ou variances CM - Sm


'-'"m P

CM -

SCEr

n-p-1

Tableau 13.3 Tableau d'analyse de variance de la rgression linaire multiple.

Le coefficient de dtermination est la proportion de variabilit explique par le modle rgression, note R2 : Variabilit explique par le modle _ SCE^ Variabilit totale de Y SCE, R2 est le carr du coefficient de corrlation R entre Y et Y R est aussi appel coefficient de corrlation multiple. 13.3.1. Approche probabiliste de la rgression La ralisation de divers tests de signification de la rgression suppose la normalit des rsidus.
Cov(Y,Y)
Y "y

13.3.1.1.

Test de la rgression globale

Est-ce que le modle a un sens ? Ho H,


P = Pi = ?2 = P = p4 = 0

contre 3 P, ^0 , i e {0,1,2,3,4}

Statistique du test et prise de dcision CM Sous Ho, la statistique SL suit la loi de Fisher-Snedecor (vi.v;) degrs de libert, CM, avec vi = p et Va = n - p - 1 13.3.1.2. Test de chaque coefficient

Est-ce chacun des critres explicatifs contribue de manire significative expliquer la qualit des armes ? ___________________________ Ho : Pi = 0 contre Hi : p, ^ 0 Statistique du test et prise de dcision Sous l'hypothse Ho, la statistique odudsignant l'cart-type de b; suit la loi de b, ' Student n - p - 1 ddl.

212

Remarque -

: les contraintes relatives aux rsidus sont les suivantes : esprance nulle mme variance indpendance distribution normale.

13.4. MISE EN UVRE AU MOYEN DE L'UTILITAIRE D'ANALYSE D'EXCEL Comme indiqu dans l'introduction du paragraphe "Modle", il est essentiel de raliser au pralable une tude descriptive. Nous proposons de calculer les corrlations, les graphiques de nuages de points figurant dans les rsultats de la rgression linaire. Les corrlations peuvent tre obtenues par exemple par "l'analyse de corrlation" fournie par l'utilitaire d'analyse d'Excel. On peut aussi utiliser la fonction COEFFICIENT CORRELATION pour chaque couple de variables (tableau 13.4). Dans la zone "Plage d'entre" de cette bote de dialogue, on saisit la plage contenant le tableau des donnes. Nous remarquons la forte corrlation de Y (qualit des armes) avec Xz (concentration en acide malique) et X3 (concentration en ions K4).
Y

X, Xs Xs

X, 1 -0,20

X2

X3

X<

1 1 1

0,26 0,54

1 X, -0,45 0,32 0,17 Y -0,02 0,76 0,67 0,05

Tableau 13.4 Matrice de corrlation g^e tous les critres.

13.4.1. Mise en uvre de la rgression linaire


Dans l'utilitaire d'analyse, slectionner le module "Rgression linaire". Les paramtres saisir dans la bote de dialogue sont : - pour la plage pour la variable Y on slectionne la plage correspondante avec ou sans titre ("Intitul prsent" coch ou non) - pour la plage pour les variables Xi on slectionne la matrice des variables explicatives avec ou sans titre selon la prsence ou l'absence des intituls.
X, X2 X3 6,29 9,6 1,2
5,52 6,5 1
X4

3,1 3,9 3 3,1

3,5

6,18 6,6 0,7 6,7 10,1 1,6

4,5

- Niveau de confiance. Par dfaut, c'est le niveau de confiance classique de 95% qui est propos. Pour tout autre choix, cocher l'option et saisir le niveau choisi. - En ce qui concerne les options de sortie, nous retenons tous les rsultats proposs pour l'analyse des rsidus et nous ne retenons pas "Probabilit normale" car elle n'est pas propose pour les rsidus. A la validation de la bote de dialogue, un ensemble de rsultats est affich sous la dnomination "Rapport dtaill".

213

13.4.2. Interprtation des rsultats du "rapport dtaill" Les tableaux encadres sont affichs par l'utilitaire d'analyse sans modification ni complment. Comme nous l'avons fait lors des utilisations prcdentes de ce module et pour faciliter le travail du lecteur, nous prfrons indiquer les rectifications ou complments divers lors du commentaire des rsultats
Coefficients Erreur-type Statistique t Probabilit Constante X1 X2 X3 X4 4,832 -0,530 0,572 4,575 -2,129 Tableau 13.5 4,580 0,454 0,131 1,365 0,929 1,055 -1,166 4,383 3,351 -2,293 0,300 0,253 0,00015 0,002 0,030 Limite infrieure Limite suprieure pour seuil de pour seuil de confiance = 95% confiance = 95% -4,550 -1,460 0,305 1,778 -4,032 14,213 0,401 0,840 7,372 -0,227

Coefficients des variables explicatives et statistiques associes.

13.4.2.1.

Modle 2,129X4 t PH

Le modle apparat dans la colonne "Coefficients". Y = 4,832-0,53 X, + 0,572 X; + 4.575X,


t t t t

Qualit des armes estime

Acide ^rique

Acide malique

Interprtons un coefficient par exemple celui de Xi gal -0,53. . Si la teneur en acide tartrique augmente d'une unit, la note de qualit des armes diminue de 0,53, les autres critres sont fixs. L'interprtation est similaire pour les autres coefficients. 13.4.2.2. Indices de qualit

Ces indices apparaissent dans la rubrique "Statistique de la rgression" :


Statistiques de la rgression Coefficient de dtermination multiple Coefficient de dtermination R"2 Coefficient de dtermination R"2 Erreur-type Observations 0,851 0,725 0,685 1,192 33

Tableau 13.6 Statistiques de la rgression. Le "coefficient de dtermination multiple" est, en fait, le coefficient de corrlation multiple, c'est dire le coefficient de corrlation entre Y et son estimation Y . Dans cet exemple, la valeur 0,85 montre une bonne corrlation. Le "coefficient de dtermination" R2 (0,725) est le pourcentage de variabilit expliqu SCE, par le modle = 72,5%. Cela veut dire que 72,5% de la variabilit de la qualit des SCE. armes est explique par le modle de rgression trouv. Le modle est donc de bonne qualit.

214

Ce coefficient de dtermination est un indicateur de qualit trs utilis. Il faut noter que certains utilisateurs peuvent cependant conserver des modles de rgression pourvus de coefficients de dtermination relativement faibles, disons infrieurs 50%, lorsque ces modles sont significatifs (la significativit sera tudie par les tests). Seule, une connaissance approfondie des donnes modlises peuvent autoriser de telles pratiques. Le deuxime coefficient de dtermination encore appel R (0,685) est en fait le coefficient de dtermination ajust. Il traduit le pourcentage de variance VarY - Var rsiduelle
VarY

SCE SCE expliqu par le modle rgression ( Var Y = !- ; Var rsiduelle = CM_ = ' ddl. ' ddl, Cet indicateur de qualit, voisin du prcdent, est parfois prfr par certains utilisateurs car "corrig" par les degrs de libert. Dans cette rubrique "Statistiques de la rgression" du rapport figurent galement 1' carttype rsiduel sous la dnomination "erreur-type" (1,192) ainsi que le nombre d'observations (33). 13.4.2.3. Approche probabiliste

Analyse de variance Commentons et interprtons le tableau de l'analyse de variance du rapport.


ANALYSE DE VARIANCE

Degr de libert Rgression Rsidus Total 4 28 32

Somme des carrs 104,675 39,795 144,470

Moyenne des carrs 26,169 1,421

Valeur critique de F(*) 18,412 1.61E-07


F

Tableau 13.7 Rsultats de l'analyse de variance de la rgression linaire multiple. (*) : attention, il faut traduire cet intitul par "Probabilit critique" (voir ci-dessous) La 1" colonne est l'origine de la dispersion : Variabilit explique par la rgression + variabilit rsiduelle = variabilit totale La 2e colonne indique les degrs de libert. Le degr de libert relatif Total est gal n - 1 soit ici 32. Le degr de libert relatif Rgression est gal au nombre p de variables explicatives soit ici 4. Enfin, le degr de libert associ aux rsidus est la diffrence des deux prcdents soit i c i n - l - p = 3 3 - l - 4 = 28. La 3e colonne est intitule "Somme des carrs". La valeur relative "Total" (144,47) est la dispersion SCE de Y variable expliquer note SCE( dans l'quation d'analyse de variance. La valeur relative "Rgression" (104,675) indique la dispersion explique par le modle. Il s'agit de SPE - somme des produits des carts la moyenne de Y et de son estimation Y note SCEm dans l'quation d'analyse de variance. La 4e colonne, intitule "moyenne des carrs" indique les variances ou carrs moyens. Ce sont les rapport des dispersions "Somme des carrs" par les degrs de libert. Ainsi, la valeur relative "Rgression" (26,169) est la variance explique par le modle "Rgression" note prcdemment CMm. La valeur relative "Rsidus" (1,421) est la variance due au rsidu que nous avons not prcdemment CMr. Les 5e et 6e colonnes participent au test de la significativit de la rgression globale prcdemment expliqu dans l'tude statistique : Ho : po = Pi = ?2 = p3 = p4 = 0. 215

La cinquime colonne "F" (18,412) est la statistique de Fisher-Snedecor associe au test prcdent et calcul partir du tableau d'analyse de variance : Variance due au modle CM_ , , . _ , (valeur du Fob8iirv) w~ ^Tn = 7^ Vanance rsiduelle CM, En ce qui concerne la colonne 6 "Valeur critique Y1", il convient de faire attention : il s'agit de la probabilit critique. L'utilitaire contient ici une regrettable erreur de traduction. Pour le vrifier, il suffit d'appliquer la fonction LOI.F sur la valeur du Fobserv prcdente. La probabilit critique 1,6.10'7 est la probabilit d'observer une valeur de F au moins gale celle du Fobserv lorsque Ho est vraie. C'est encore le risque que l'on prendrait en concluant que, globalement, la rgression a un sens alors qu'elle n'en a pas. Ce risque tant infime, nous concluons que, globalement, le modle rgression que nous avons dtermin a un sens.
F=

13.4.2.4. Commentaire et interprtation du tableau relatif aux variables explicatives X, Reprenons le tableau 13.5. Nous avons vu ci-dessus que ce tableau fournit dans sa 1" colonne le modle recherch. Le reste du tableau permet de tester la pertinence de la prsence de chacun des critres au sein du modle : La 2e colonne "Erreur-type" est l'cart-type de chacun des coefficients. Les colonnes "Statistique t" et "Probabilit" fournissent les calculs associs aux tests de significativit de chacun des coefficients comme il a t expliqu dans l'tude statistique. Interprtons par exemple la pertinence d'un critre. Est-ce que Xa contribue expliquer de manire significative la qualit des armes ? Le test associ est |Hp : p3 = 0 contre H, : p3 ^ 0| Dans la colonne "Statistique t", 3,351 est la valeur observe de la statistique T de -, , Coefficient 4,575 Student : = . Erreur type 1,365 Rappelons que sous Ho, la statistique T suit la loi de Student n-p-1 ddl soit ici 33-3-1=28 . La probabilit 0,002 est la valeur de la probabilit critique associe au test de Student bilatral mis ci-dessus, c'est dire : P(T<-[Statistique t|)+P(T>| Statistique t|) C'est le risque que l'on prendrait en rejetant Ho, c'est dire en concluant que le critre "teneur en ions K^" contribue de manire significative expliquer la qualit des armes. Si l'on dcide de raisonner un niveau classique de test (5%), la probabilit critique affiche de 0,2% permet de conclure l'impact significatif de la teneur en ions K4 . En rsum, en prsence des autres critres explicatifs, la teneur en ions K^ contribue de manire significative l'explication de la qualit des armes au risque 2%o Rappelons l'interprtation de la valeur du coefficient : en prsence des autres critres explicatifs, si la teneur en ions K^ augmente d'un dixime d'unit, la note de qualit des armes augmente de 4,57.
Significativit des autre critres explicatifs

En se donnant comme prcdemment un niveau de test classique 5%, l'examen des valeurs de la colonne "Probabilit" permet de conclure que les critres "acide malique" (Xa) et "PH" (Xi) expliquent de manire significative la qualit des armes. Si la concentration en acide malique augmente d'une unit, la note de qualit augmente de 0,572. Si le PH augmente de 1, les autres critres tant fixs, la note diminue de 2,129. L'augmentation de l'acidit (baisse du PH) a tendance renforcer la qualit des armes.

216

En rsum, except l'acide tartrique, tous les critres retenus contribuent de manire significative l'explication de la qualit des armes. Pour autant, on ne doit pas enlever du modle les critres non significatifs (ici la teneur en acide tartrique). En effet, le nouveau modle obtenu partir des seuls trois autres critres aura un coefficient de dtermination R2 infrieur au modle prcdent 4 critres. Il est prudent d'valuer cette baisse. Par ailleurs, il est aussi vrai que, pour des raisons de simplification du modle, et ...de baisse de cots d'analyses physico-chimiques, on peut tre conduit simplifier les modles. Les colonnes "Limites infrieure et suprieure pour un seuil de confiance de 95%" fournissent l'intervalle de confiance associ chacun des coefficients. 13.4.2.5. Analyse des rsidus
ANALYSE DES RSIDUS Observaffon 1 2 3 4 5 6 7 8 Tableau 13.8 Prvisions Y Rsidus Rsidus normaliss 5,886 1,900 2,793 3,164 3,821 3,466 6,036 6,864 -2,386 -0,900 -1,793 -1,664 -1,321 -0,466 -1,036 -0,864 -2,139 -0,807 -1,608 -1,493 -1,185 -0,418 -0,929 -0,775

Valeurs prdites pour Y (qualit des armes), valeurs des rsidus et des rsidus centres rduits.

-La 1re colonne indique le n d'ordre de l'observation -la colonne "Prvisions Y" donne les valeurs de Y, valeur de Y estimes par le modle -la colonne "Rsidus" fournit l'erreur commise lorsqu'on remplace la vraie valeur y, par son estimation y, : Rsidu = Y - Y . Remarquons que l'on peut vrifier la nullit de la moyenne des rsidus -la colonne "Rsidus normaliss" indique les rsidus centre-rduits, rappelons que les rsidus doivent tre normalement distribus. Si, l'examen, certains d'entre eux se distinguent par leur importance (valeur absolue suprieure 2,6), on peut d'une part craindre de forts carts la normalit et d'autre part, pointer des observations marginales, voire aberrantes. Si la normalit est relativement acceptable, le pourcentage des rsidus suprieurs 2 en valeur absolue ne devrait pas dpasser 5%. On peut aussi raliser une analyse descriptive de ces rsidus normaliss (notamment un histogramme) et, selon l'apparence de ce dernier, faire un test de normalit. Nous proposons sur la figure 13.1 un histogramme de rsidu normalis, obtenu avec un choix de classe bien adapt une loi N(0,1).

217

Distribution des rsidus c/asses -2 -1 0 1 2 et plus frquences 1 4 11 11 5 1

Tableau 13.9 Distribution des frquences des rsidus

Figure 13.1 Histogramme des rsidus.

Au vu de la bonne symtrie de la distribution, un test de normalit pourrait tre tent mais la rpartition dans les classes fait pressentir une trop faible taille d'chantillon. Analyse graphique Les nuages de rsidus en fonction de chacune des variables explicatives X, permettent de vrifier l'absence de structure, c'est dire l'absence de liaison. En effet, si le rsidu pouvait tre modlis partir d'une variable Xi, ce ne serait plus une vritable erreur ! La modlisation du rsidu conduirait un "bruit", vritable nouveau rsidu.

0)

o m S

2 0 -2 ^ 6
t :

. . . . - .(

6.5

r- *.i

7,5

X,

Figure 13.2.a Nuage des rsidus en fonction de Xi (acide tartrique).

2
-T

S-2'

Figure 13.2.b Nuage des rsidus en fonction de X; (acide malique).

218

3 T-

^ s -1"
S
-2 -3

t ^0,2 0,4 0,6

t^^

-?-+ .-^.. ^

: (

' .

1^ t y

1,8

Figure 13.2-c Nuage des rsidus en fonction de Xa (ions K*).

* 1 2,5 t i t i
<

> 3,5

X, Figure 13.2.d Nuage des rsidus en fonction de X< (PH).

Dans notre exemple, aucune structure n'apparat dans aucun de ces 4 nuages, ce qui est satisfaisant. 13.4.2.6. Analyse des graphiques (variable explicative, variable expliquer)

Les graphiques (Y, Y ) en fonction des quatre variables explicatives permettent de visualiser d'une part la liaison (ou l'absence de liaison) entre Y, qualit des armes et chacun de ses prdicteurs (pris isolment) et d'autre part , la proximit entre Y et son estimation. Rappelons qu'en utilisant le clic droit de la souris sur un point central du nuage (symbole "rond plein" par exemple), un menu contextuel permet d'ajouter une courbe de tendance (voir chapitre de statistique descriptive).

10

1
. ^ 5

Y 5 0
/

Se s ^0
6 X,

^ 03^ ^
7 B

o Prvisions Y

Figure 13.3-a Nuage de Y (qualit des armes) et Y (qualit estime) en fonction de Xi (acide tartrique).

219

10
Y 5 0

1
^ ?y y 0 ( 2 4 6 ^
w

^ ?

^ ' 8

^ 10 12

t.y- -|o Prvisions Y

Figure 13.3.b Nuage de Y (qualit des armes) et Y (qualit estime) en fonction de X; (acide malique).

1 0 T

Y 5 0 0 C

. :

pi
1 ^

8 o&tl 40 ^
1,5 2 ;

^ |o oR Pressions Y

0,5

Figure 13.3-c Nuage de Y (qualit des armes) et Y (qualit estime) en fonction X3 (ions K*).

u -

8 g8 6 1 1 1 *AB 4 c ^' ;^ . '-e? 0 I! 2 :,.^1^.^11:::;SW ^ 0 -I, 3 3,5 2 2,5


X4

o Prvisions Y

Figure 13.3.d Nuage de Y (qualit des armes) et Y (qualit estime) en fonction X< (PH).

Nous remarquons l'absence de liaison entre la qualit des armes et la teneur en acide tartrique (Y, Xi). Nous remarquons par ailleurs que les trois autres nuages s'tirent longitudinalement Dans le nuage "Qualit des armes, ions K^" (X3), l'observation correspondant la plus faible teneur en ions K^ se dmarque de l'ensemble. Dans le nuage relatif au PH (X4), c'est l'observation correspondant au plus fort PH qui se dmarque de l'ensemble.

220

Ces observations marginales augmentent la variation rsiduelle et diminuent donc la qualit du modle. Elles perturbent galement la linarit du nuage, notamment pour le PH (Xi). D'un point de vue concret, il est fondamental de rechercher "sur le terrain" l'origine de cette marginalit. On pourrait ventuellement rechercher un nouveau modle en cartant ces deux observations marginales. En rsum, tant donn sa bonne qualit (R2 = 72,5%, absence de trs forts rsidus, symtrie de la distribution de ces rsidus), ce modle sera considr comme satisfaisant. 13.4.3. Prdiction de la qualit des armes de 5 nouvelles observations Une premire technique consiste utiliser directement le modle trouv. Pour cela, nous proposons l'organisation suivante :
Coefficients -0,530 X, 6,29 5,52 6,18 6,7 7,3 6,3 5,6 6,2 6,9 0,572 Xz 9,6 6,5 6,6 10,1 5,2 9,5 6,7 7,7 8 4,575
X3

-2,129
X4

4,832 Y 3,5 1 4,5 9 Prdiction de Y 5,886 1,900 2,152 7,785 2,981 5,610 5,080 5,027 5,987

chantillon de base

1,2 1 0,7 1,6 1 1,2 1,4 1,1 1,4

3,1 3,9 3 3,1 2,6 3,2 3,3 2,8 2,9

chantillon test

Tableau 13.10 Valeurs des notes de qualit des armes prdites par le modle (chantillon test).

Au moyen d'un "copier-coller spcial / valeurs", nous recopions les valeurs des coefficients b; aux places indiques. Le calcul de la 1re valeur estime y, c'est dire la 1re valeur prdite est le suivant. Sous la ligne est indiqu le type de rfrence utiliser, "abs" pour absolue, "rel" pour relative et "fixe" pour ligne fixe :
4,832 abs

(-2,129) fixe

3,1 + (4,575) x 1,2 + (0,572) x 9,6 + (-0,53) x rel fixe rel fixe rel fixe

6,29 rel

Le rsultat de la 1re estimation s'affiche. En tirant vers le bas la poigne de recopie s'affichent les valeurs estimes par le modle et, parmi elles, celles relatives aux nouvelles observations. Le fait de calculer aussi les valeurs estimes pour les observations ayant permis la construction du modle (chantillon de base) n'alourdit pas le travail et permet de vrifier l'absence d'erreur de calcul puisque ces rsultats sont affichs dans la rubrique "Analyse des rsidus" du rapport dtaill. Une autre technique consiste utiliser directement la fonction TENDANCE. Cette fonction matricielle (cf. Annexe Excel) donne directement les valeurs prdire partir du tableau des donnes. Cette mthode est trs rapide. On slectionne la plage d'accueil des rsultats soit une matrice 5 lignes et 1 colonne puis on appelle la fonction dont les arguments sont :

221

- Y connus : plage des valeurs prises par Y (ou nom de cette plage) - X connus : plage des valeurs prises par les variables X; (ou son nom) - X nouveaux : plage des nouvelles valeurs prises par les variables X; de l'chantillon test (ou son nom) - Constante : saisir VRAI si l'on souhaite obtenir cette valeur. En rsum cela donne TENDANCE(X,Y,XN,VRAI) ou X, Y et XN sont les noms des plages correspondantes. Les cinq valeurs de Y prdites s'affichent dans la zone prvue. 13.5. MISE EN UVRE AU MOYEN DE LA FONCTION DROITEREG Comme nous l'avons dj indiqu, l'intrt des fonctions Excel rside dans leur interactivit avec les donnes. Cependant, pour la rgression linaire multiple, la construction est nettement plus longue qu'avec l'utilitaire d'analyse. La fonction DROITEREG est une fonction matricielle (cf. Annexe Excel). Pour la mettre en uvre, il faut slectionner une plage de 5 lignes et (p+1) colonnes (rappelons que p est le nombre de variables explicatives). Ici la plage est de 5 x 5. Les arguments de la fonction sont les suivants : - Y connus : plage des valeurs prises par Y (ou nom de cette plage) - X connus : plage des valeurs prises par les variables X; (ou son nom) - Constante : saisir VRAI si l'on souhaite obtenir cette valeur - Statistiques : saisir VRAI si l'on souhaite obtenir les rsultats calculs. Aprs validation par CTRL+Maj+Entre, la matrice des rsultats s'affiche (valeurs encadres) qu'il faut "dcrypter". Il est prudent de rajouter des titres. X4 b4 Coefficients -2,129 carts types des coefficients 0,929 R2 .cart-type deV estim 0,725 Fobserv de Fisher-Snedecor ; DDL(n-p-l) 18,412 SCE modle rgression ; SCE rsiduel 104,675 X3 b3
4,575 1,365 1,192 28 39,795

X1 b0 b2 b1 0,572 -0,530 4,832


0,131 0,454 4,580

X2

Tableau 13.11 Rsultats numriques fournis par la fonction DROITEREG.

Les 2 premires lignes sont relatives aux coefficients b;. Il est important de remarquer l'ordre de ces coefficients par rapport celui des valeurs des variables explicatives X; saisies dans la bote de dialogue. En saisissant leur plage dans l'ordre Xi, X2, Xs, X^, les coefficients sont affichs dans l'ordre inverse : b4, b3, ba, bi, bo. Sur la 3e ligne, la 1" colonne donne la valeur du coefficient de dtermination R2 et la 2e est l'cart-type de y estim Y. CM, Sur la 4e ligne, la 1" colonne est la valeur du F de Fisher-Snedecor et la 2e celle CM, du ddl rsiduel. Sur la 5e ligne, la 1re colonne indique SCEm (due au modle rgression) et la 2e SCEr (rsiduel). Exploitation des rsultats affichs II faut remarquer que nous retrouvons une partie des lments obtenus par l'utilitaire d'analyse mais, les tests tant absents, nous devrons les construire

222

Le modle est fourni par la 1re ligne : Y = 4,832-0,53 X, + 0,572 X, + 4,575X, - 2,129X^ La qualit associe au modle est mesure par R2 = 0,725 c'est dire que 72,5% de la variabilit de la qualit des armes est explique par ce modle. Construction des principaux tests Pour faire le test de la rgression globale, on applique la fonction LOI. F sur la valeur de la statistique F de Fisher-Snedecor observe (4e ligne, 2e colonne). Les ddl sont au numrateur 4 (valeur de p) et au dnominateur 28 (valeur de n-p-1). On obtient la valeur de la probabilit critique P(F>Foh8erv) = ) ,613.10"7 interprte prcdemment. Pour le test de chacun des coefficients, l'aide de "copier-collage spcial / valeurs", on isole les coefficients et leurs cart-type. On construit le test sur la 1" colonne : - Calcul de la statistique de Student (division du coefficient par son cart-type) Valeur absolue de cette statistique (fonction mathmatique ABS) Dtermination de la probabilit critique (fonction LOI. STUDENT sur la valeur absolue de la statistique t). Aprs avoir slectionn cette 1re colonne, on tire la poigne de recopie vers la droite : X4 b4 -2,129 0,929 -2,293 X3 b3 4,575 1,365 3,351 X2 X1 b0 b2 b1 0,572 -0,530 4,832 0,131 0,454 4,580 4,383 -1,166 1,055

Coefficients Ecarts types des coefficients Statistique t (coefficient/cart type) Valeur absolue des statistiques {{fonction 2,293 3,351 4,383 1,166 1,055 mathmatique ABS) Probabilit critique (fonction LOI.STUDENT) 0,0296 0,0023 0,0001 0,2534 0,3004
Tableau 13.12 Construction des tests de Student associs aux coefficients des variables.

Les autres rsultats ont t comments prcdemment (valeurs prdites. Y, rsidus, rsidus centres-rduits, nuages). Ils sont faciles dterminer au moyen du logiciel. 13.6. RECHERCHE DE SIMPLIFICATIONS DE MODLES

13.6.1. Rgressions linaires multiples


Nous avons remarqu que seul l'acide tartrique n'explique pas la qualit des armes. Il est naturel de rechercher un autre modle en cartant ce critre et de juger alors si la diminution du coefficient de dtermination R2 n'est pas trop pnalisante. On trouve le modle suivant : Y = 0,450 + 0,623 X; + 3,800 X, - 1,624 X4 t t t acide K^ PH mal i que Le coefficient de dtermination a trs peu diminu puisqu'il est gal 71,1%. La rgression globale est significative (probabilit critique = 5,69 E-8). Les coefficients des variables "acide malique" et "ions K^" sont significatifs un risque infrieur 1%. Celui de la variable PH n'est pas significatif (probabilit critique de 0,059). Ce modle maintient un bon niveau de qualit. On le considre donc comme satisfaisant.

223

On poursuit la mme stratgie simplificatrice en cartant la variable PH et en examinant si le nouveau modle deux variables explicatives "acide malique" et "ions IC" est satisfaisant ou non. Le modle trouv est significatif (probabilit critique = 5,29.10'8) et fournit un coefficient de dtermination de 67,27 %. Les coefficients des deux variables "acide malique" (X) et "ions K.^" (X3) dont les probabilits critiques respectives sont 0,01% et 0,5% sont significatifs Le modle calcul est le suivant :
Y = -0,405 + 0,557 X; + 3,808 X,

Nous proposons de clore la stratgie simplificatrice avec le modle le plus simple : modle une seule variable explicative. Cette dmarche simplificatrice partant de la rgression complte est une dmarche de type descendant. 13.6.2. Rgression linaire simple Si l'on souhaite vraiment simplifier le modle et rduire les cots, on peut rechercher un modle un seul critre explicatif. C'est le modle de rgression linaire simple qui, dans Excel, s'obtient de la mme faon que la rgression linaire multiple. La rgression linaire simple s'interprte galement de faon similaire. Comme variable explicative, nous retiendrons l'acide malique (X2) C'est en effet la variable la plus corrle avec la qualit des armes (0,76) et, d'autre part, celle qui, dans le modle complet 4 variables explicatives offre la plus petite probabilit critique (0,00015). En fait, cette modlisation a t ralise lors de l'tude de la statistique descriptive bivarie croisement entre deux variables quantitatives (cf. 3.4.5.3). Rappelons que le carr du coefficient de corrlation fournit le coefficient de dtermination ici 0,57. Cette fois, la chute du coefficient de dtermination est notable puisqu'on est pass de 0,67 0,57. 11 reste raliser les tests de significativit. Le test de significativit de la rgression linaire simple est identique au test du coefficient de la variable explicative. Ceci revient encore tester la significativit du coefficient de corrlation avec la variable explicative et expliquer. En utilisant, par exemple, le module "Rgression linaire" de l'utilitaire d'analyse, nous obtenons une probabilit critique de 3,51 E-7 (mme rsultat, bien entendu, pour le test F de Fisher-Snedecor que celui affich pour le test de Student relatif au coefficient directeur de la droite de rgression). Par consquent, le modle est significatif. La seule reserve que l'on peut mettre est la relative faiblesse de l'indicateur de qualit R2. C'est l'utilisateur de juger s'il conserve ou non ce modle simplifi, car lui seul psera l'importance des diffrents enjeux.

13.6.3. Rgressions descendantes et ascendantes


La recherche de modles de rgression simplifies peut se faire par des rgressions descendantes ou ascendantes. 13.6.3.1. Rgression descendante

On part de la rgression complte p variables explicatives et on carte tour de rle l'une des variables en ralisant chaque fois une rgression (p-1) variables et en notant la diminution du coefficient de dtermination R2 par rapport la rgression complte.

224

On conserve la rgression ayant entran la plus faible diminution de R2 et on recommence la mme procdure avec ce nouveau modle. L'itration de ce processus permet de dtecter l'tape au cours de laquelle le retrait d'une variable provoque une diminution de R2 nettement plus importante. On retiendra alors le modle fourni par l'avant-dernire tape. 13.6.3.2. Rgression ascendante

C'est la dmarche inverse. On part du modle le plus simple ( une variable explicative, celle qui est la plus corrle avec la variable expliquer). On enrichit ensuite le modle en ajoutant la variable qui augmente le plus le coefficient R2. Ce modle deux variables est, son tour, enrichi en ajoutant, parmi les variables restantes, celle qui augmente le plus ce coefficient. On arrte l'itration de ce processus lorsque l'on juge que l'augmentation de R2 est ngligeable. La "rgression progressive", cas particulier de la rgression ascendante, consiste tester chaque tape l'entre de la nouvelle variable. Si le test n'est pas significatif, la variable slectionne comme indiqu par la progression du coefficient R2 n'est pas introduite. De plus, on examine si les variables prsentes dans le modle restent significatives en prsence de la nouvelle variable (on carte ces variables "prsentes" si elles ne sont plus significatives). Les tests supposent des conditions de validit. Ces modles simplifis et optimiss, frquemment utiliss, sont sans aucun doute intressants mais lourds dans leur mise en pratique avec une utilisation lmentaire d'Excel.

225

Troisime Partie ETUDES DE CAS

14.

DMARCHE QUALIT: CANARDS GRAS DU SUD-OUEST


DU CAS

14.1. PRSENTATION

Un suivi technico-conomique est ralis auprs de producteurs de canards gras d'une zone du Sud-ouest de la France. Dans cette tude, on s'intresse la marge sur cot alimentaire par canard lev (exprime en euros par canard lev), selon la dmarche qualit adopte. On considre les dmarches suivantes : 1. Qualit biologique note BIO 2. Qualit standard note STAN 3. "IGP, foie du Sud-Ouest" note IGP ce qui signifie Identification Gographique de Provenance 4. Label Rouge, foie gras des Landes note LROU. Le producteur doit respecter un cahier des charges spcifique pour accder la dmarche qualit choisie (sauf pour la qualit standard). Un chantillon est extrait au hasard dans chacune des populations de producteurs tudis et on observe les rsultats suivants (sur Excel, ces donnes sont saisies sur 4 colonnes adjacentes) :
BIO STAN 188 1 86 4,18 4,03 3,90 3,79 3,72 3,67 3,58 3,51 3,44 3,38 3,31 3,19 3,10 2,76 2,88 2,70 2,55 2,48 2,43 2,39 733 779 777 719 717 715 717 2,08 707 701 700 1 99 1 94 1 97

1m

1 77 1 74 1,70 1 67 1 63 160 148 1 36 1 71 1,10

3,45 3,30 3,20 3,14 311 309 30S 798 794 789 2,88 2,85 2,84 2,82 2,80 2,80 2,77 2,75 2,75 2,73 2,72 2,72 2,67 2,67 2,65 2,63 2,63 2,60 2,58 2,58 2,56 2,56 2,53 2,53 2,51 2,49 2,49 2,49 2,46 2,46 IGP 744 7?1 740 740 7 39 739 735 735 ?35 733 737 737 737 778 778 778 775 775 773

?70 ??n

?17 717 714 714 710

710

709 708 708 705 703 703 703 1 99 1 99 194 1 94

1 94 1 91 191 186 1 86 1 85 1,81 1,80 1,80 1 73 1 71 1 71 1 65 1 65 165 1 67 1,48 1,41 1 76 LROU 3,40 3,21 3,03 2,92 2,82 2,74 2,65 2,54 2,49 2,35 2,30 2,28 2,16 210 1,94 1 91 1,75 1 59 1,37

Tableau 14.1

Marge sur cot alimentaire par canard lev pour 4 dmarches qualit.

Questions a) Dcrire chacune des dmarches qualit et les comparer. b) La dmarche "production biologique" tant trs marginale, approfondir l'analyse des trois autres dmarches. Peut-on conclure qu'en moyenne, les marges sur cot alimentaire par canard lev sont identiques dans les trois populations de producteurs concerns ? Les spcialistes dfinissent 3 niveaux de marge : - Classe 1 : marge faible ( < 2 ) - Classe 2 : marge moyenne (2 < marge < 2,4) - Classe 3 : marge bonne (>2,4). Peut-on considrer que les trois dmarches STAN, IGP et LROU sont homognes selon les 3 classes ?

14.2. PROPOSITION DE DMARCHE STATISTIQUE Nous proposons d'adopter une dmarche de statistique bivarie comprenant les deux volets descriptif et infrentiel. 14.2.1. Statistique descriptive bivarie C'est l'analyse du couple "variable quantitative QT niveau de marge - variable qualitative QL dmarche qualit". Elle se traduit par celle de la marge relative chaque dmarche qualit. - Paramtres statistiques (Min, Quartile 1, Mdiane, quartile 3, Max, Moyenne, Ecart-type,.. ) - Distributions des frquences et histogrammes. 14.2.2. Statistique infrentielle II s'agit d'une part de l'analyse bivarie QT-QL (niveau de marge - dmarche qualit) comprenant : - tests de normalit - tests d'galit des variances - analyse de variance 1 facteur (facteur dmarche qualit) - tests de comparaison des moyennes, et d'autre part de l'analyse bivarie QL-QL (niveau de marge en classes - dmarche qualit). 14.3. RSULTATS, COMMENTAIRES ET INTERPRTATION 14.3.1. Statistique descriptive 14.3.1.1. Paramtres statistiques
Paramtres statistiques NBVAL MIN MEDIANE Q3 MAX MOYENNE ECARTYPEP CV Tableau 14.2

B10
14 2,76 3,33 3,55 3,77 4,18 3,54 0,37 0%

STAN
33 1,10 1.74 2,00 2,22 2,88 1,99 0,40 0%

1GP
99 1,26 2,03 2,33 2,64 3,45 2,34 0,44 0%

LROU
19 1,37 2.02 2,35 2,78 3,40 2,40 0,54 22%

Ql

Paramtres statistiques de la marge selon la dmarche qualit.

La fonction NBVAL indique la taille de chaque chantillon. Nous remarquons immdiatement que pour la production biologique la marge est nettement suprieure celle des trois autres productions. Cette constatation est valable pour tous les paramtres statistiques du peigne (min, Ql, mdiane, Q3, max) et aussi pour la moyenne. Il est intressant de remarquer que la moyenne et la mdiane sont gales. De plus, l'homognit est meilleure. En effet, il apparat le plus faible intervalle inter-quartile, le plus faible cart-type et le plus petit coefficient de variation. Ce type de production, valorisant du point de vue financier et dont l'image est excellente est encore peu dvelopp. Peu d'exploitations ayant pu tre enqutes (la taille d'chantillon est 14), ces paramtres statistiques sont considrer avec prudence. En ce qui concerne les trois autres dmarches, on peut constater que la qualit standard se dmarque "par le bas", ce qui parat logique. La marge est plus basse pour les principaux

230

paramtres (peigne et moyenne). Pour chacune de ces dmarches, moyenne et mdiane sont proches et les paramtres de dispersion (cart-type, coefficient de variation) voisins. 14.3.1.2. Distributions de frquences et histogrammes Distribution des frquences absolues
Classes 1,50 2,00 2,50 3,00 3,50 4,00 >4 Totaux
BIO STAN

0 0 0 1 5 6 2 14

4 13 13 3 0 0 0 33

IGP 3 20 41 28 7 0 0 99

LROU 1 4

6 5 3 0 0 19

Tableau 14.3a Distribution des frquences absolues de la marge selon la dmarche qualit (amplitude de classe 0,5 ). Distribution des frquences relatives Classes 1,50 2,00 2,50 3,00 3,50 4,00 >4 Totaux
BIO STAN IGP LROU

0,00 0,00 0,00 0,07 0,36 0,43 0,14 1

0,12 0,39 0,39 0,09 0,00 0,00 0,00 1

0,03 0,20 0,41 0,28 0,07 0,00 0,00 1

0,05 0,21 0,32 0,26 0,16 0,00 0,00 1

Tableau 14.3b Distribution des frquences relatives de la marge selon la dmanche qualit (amplitude de classe 0,5 ).

Nous avons calcul les frquences relatives pour les quatre dmarches afin de pouvoir visualiser la comparaison des distributions au moyen des histogrammes coupls. Il est cependant vident que les pourcentages relatifs aux productions BIO et LROU n'ont pas de sens rel, les chantillons tant beaucoup trop petits.

Figure 14.1

Histogramme de la marge selon la dmarche qualit .

231

Ces graphiques mettent clairement en vidence les rsultats prcdents. On constate une bonne symtrie de chacune des distributions. Cela explique la proximit entre moyenne et mdiane prcdemment remarque. Une translation de la production BIO vers la droite indique des marges importantes Inversement, une transition de la production STAN vers la gauche met en relief la faiblesse des marges. Les deux autres productions sont intermdiaires. Il est intressant de dgager les classes modales pour chaque dmarche. Pour la production BIO, 6 producteurs dgagent une marge de 3,5 4 . Mais il faut remarquer que 6 producteurs dgagent une marge de 3 3,5 . D'un point de vue concret, il est plus sage de dgager la classe 3 4 car elle a l'avantage supplmentaire de contenir la moyenne et la mdiane. En ce qui concerne la qualit standard, 2 classes sont galement frquentes. En consquence, nous retiendrons la fourchette 1,5 2,5 comme la plus frquente. Comme prcdemment, cette classe contient la moyenne et la mdiane. Pour IGP, la fourchette la plus frquente est 2 2,5 pour 41 producteurs, soit 41% des enquts. Ici encore, la moyenne et la mdiane appartiennent la classe modale. Pour le Label Rouge, 6 producteurs dgagent une marge de 2 2,5 mais 5 autres entre 2,5 et 3 . Concrtement, nous retiendrons la marge 2 3 comme la plus frquente. La mdiane et moyenne appartiennent ici aussi la classe modale. Remarque : l'amplitude de classe de 0,5 que nous avons adopte pour comparer les quatre dmarches est un peu trop grande notamment pour les rsultats relatifs la qualit standard, dmarche trs pratique.
Classes 1,5 1,8 2,1 2,4 2,7 3 3,3
>3,3
BIO STAN 4 IGP LROU

La classe modale 1,5 2,5 manque un peu de prcision. Une rduction de cette amplitude permet d'affiner lgrement le rsultat ; avec ce dcoupage plus fin, la distribution des frquences absolues devient celle que montre le tableau 14.4 ci-contre.

' ,- ..'^''M.'-,.
Tableau 14.4 Distribution des frquences absolues

0 0 0 0 0 1 2 11

6 10 8 4 1 0 0

3 9 20 25 20 15 6 1

1
2 3 4 3 3 2 1

de la marge selon la dmarche qualit (amplitude de classe 0,5 ).

On constate que la classe modale de la dmarche standard est maintenant de 1,8 2,1 . 14.3.2. Statistique infrentielle 14.3.2.1. Premier axe : marge selon dmarche qualit (variable quantitative QT- variable qualitative QL) Tester la comparaison des marges moyennes des trois dmarches qualit rpond exactement notre question. L'analyse de variance un facteur (le facteur qualit) est l'outil adapt. Cependant, l'utilisation de cet outil exige la normalit et l'galit des variances de la marge dans les trois populations de producteurs concernes.

232

Test de normalit Les distributions rvlent graphiquement une allure gaussienne. De plus nous avons remarqu la convergence entre moyenne et mdiane et not leur appartenance aux classes modales. Nous proposons de raliser le test de normalit de la variable "marge" dans la population de producteurs pratiquant la dmarche IGP. Nous avons calcul la moyenne de l'chantillon et trouv 2,339. La fonction ECART.TYPE nous fournit l'cart-type estim gal 0,442. Nous mettons l'hypothse nulle Ho : X > N(2,339;0,442) o X dsigne la variable alatoire "marge" tudie. Nous construisons le test de normalit selon la mthode dtaille dans le chapitre "Test du Khi-deux" (9.1.2). Aprs avoir adopt un dcoupage en classes, nous calculons les probabilits relatives chaque classe, les effectifs thoriques correspondants et effectuons, si ncessaire, des regroupements de classes. Nous calculons enfin le Khi-deux. Le tableau 14.5 indique le rsultat de ces calculs effectus l'aide d'Excel. n 99,00 Moyenne 2,34 Ecart-type 0,44

Classes Bornes Xi F(Xi)

F(Xi)F(Xi-l)

Ci

Oi

Ci

Oi

Contribution absolue au khi2

00 "

<1,5 1,5-1,8 1,8-2,1 2,1-2,4 2,4-2,7 2,7-3 >=3 Totaux Tableau 14.5

1,50 1,80 2,10 2,40 2,70 3,00 ">=3 "

0,00 0,03 0,11 0,29 0,56 0,79 0,93 1,00

0,03 0,08 0,18 0,26 0,24 0,14 0,07 7,00

2,860 8,176 18,125 25,790 23,561 13,818 6,670 99

3 9 20 25 20 15 7 99

11,036 18,125 25,790 23,561 13,818 6,670 99,000

12 20 25 20 15 7 99

0,084 0,194 0,024 0,538 0,101 0,016 0,958

Construction du test de normalit de la marge pour la dmarche qualit IGP.

La valeur du Khi-deux est donc 0,958. Nous pouvons ensuite calculer la probabilit critique au moyen de la fonction LOI.KHIDEUX applique sur cette valeur. On obtient 0,811. Nous prendrions 81% de risque en rejetant Ho. Autrement dit 81% est la mesure de crdibilit de Ho. En consquence, nous acceptons la normalit de la variable "marge" dans la population des producteurs IGP. On peut raliser le test pour les marges relatives aux deux autres dmarches. Leur tude descriptive ayant montr des distributions de mme allure que la prcdente et sans dfaut majeur par rapport la normalit, nous les considrerons galement comme normales. Nous laissons au lecteur le soin de vrifier ce point en effectuant le test que nous venons de raliser pour les deux autres dmarches qualit.
Test d'galit des variances

Les variables alatoires marges dans les trois populations concernes tant donc considres comme normales, nous allons raliser un test de Fisher-Snedecor pour tester l'galit des variances (fonction TEST.F en divisant le rsultat par 2).

233

Dmarches qualit
STAN STAN IGP IGP LROU LROU

0,5 x TEST.F 0,30 0,06 0,09

Tableau 14.6 Probabilits critiques relatives aux tests d'galit des variances pour chaque couple de dmarches qualit..

Pour chaque couple de populations, nous obtenons les rsultats indiqus sur le tableau 14.6. Les probabilits critiques tant toutes suprieures au niveau classique de 5%, nous considrerons comme acceptable l'galit des variances de la "'""6 dans les trois populations

Analyse de variance Relativement la variable alatoire "marge", les trois populations de producteurs tudies sont considres comme normales et de mme variance. Nous pouvons tester l'galit des marges moyennes : Ho = galit des marges moyennes dans les 3 populations contre H) = au moins une marge moyenne se distingue des autres. Nous ralisons l'analyse de variance et obtenons les valeurs indiques sur le tableau 14.7.
ORIGINE DES DISPERSIONS

SCE

ddl

CM Fobserv 8,237

Probabilit critique 0,041%

inter classes intra classes TOTAL

3,33 2,00 1,67 29,92 148,00 0,20 33,25 150,00

Tableau 14.7 Tableau d'analyse de variance de la marge selon la dmarche qualit. Interprtation : la probabilit critique est infrieure 1%. Le test est donc hautement significatif. Au moins une marge moyenne relative une dmarche qualit se distingue des autres Test de comparaison des moyennes 2 2 Dmarches qualit On peut vouloir comparer les marges moyennes en considrant les couples de dmarche qualit. Nous utilisons le test de Student et obtenons les rsultats ci-contre.
STAN STAN IGP IGP LROU LROU TEST. STUDENT 0,001 0,0038 0,61

Tableau 14.8 Probabilits critiques relatives aux tests de Student pour chaque couple de dmarche Qualit

La marge moyenne dans la population des producteurs STAN diffre de celle de la population IGP (au risque 0,01%) et de celle de la population LROU (au risque 0,38%). En revanche, les marges moyennes dans les populations IGP et LROU ne peuvent tre considres comme diffrentes. En rsum, en travaillant sur les marges moyennes, on conclut que la qualit STAN diffre significativement des deux autres.

234

14.3.2.2. Deuxime axe : niveaux de marge selon dmarche qualit (variable qualitative QL- variable qualitative QL)
Effectifs observs O|J faible moyenne bonne Totaux Totaux
STAN IGP LROU

17 11 5 33

23 34 42 99

5 5 9 19

45 50 56 151

Effectifs thoriques C,, faible moyenne bonne Totaux

STAN

IGP

LROU

Totaux 45 50 56 151

9,83 29,50 5,66 10,93 32,78 6,29 12,24 36,72 7,05 99 19 33

Trois niveaux de marge ont t dfinis par les spcialistes : marge faible, marge moyenne et bonne marge. Pour tester l'quivalence des trois dmarches qualit relativement aux niveaux de marge, nous allons crer la variable qualitative (ordinale) "niveau de marge" et la croiser avec la variable qualitative "dmarche" et effectuer ensuite un test du Khi-deux sur le tableau de contingence obtenu. Nous obtenons les rsultats indiqus sur les tableaux 14.9.

Tableaux 14.9 Rpartition du nombre de producteurs selon la dmarche qualit et le niveau de marge (effectifs observs et thoriques).

La fonction TEST.KHIDEUX indique une probabilit critique de 1,33%. Le test est donc significatif ce qui indique que l'hypothse nulle Ho d'homognit des trois dmarche est rejete. Les trois dmarches ne sont donc pas de mme performance, au risque 1,33%. Nous proposons d'approfondir ce rsultat en recherchant les couples "marge-dmarche" les plus explicatifs de la valeur du Khi-deux observ. Nous calculons successivement les contributions absolues et relatives de chaque cellule.
Contribution absolue au KH12 faible moyenne bonne Totaux Totaux 6,73 0,31 5,58 12,63

STAN

K3P

LROU

5,22 0,00 4,28 9,50

1,43 0,05 0,76 2,24

0,08 0,27 0,54 0,88

La valeur du Khi-deux observ est 12,63.


Contribution relative au KH12 Totaux 53 2 44 100

(en%)
faible moyenne bonne Totaux Tableaux 14.10

STAN

IGP

LROU

41

11

0 34 75

0 6 18

2 4 7

Contributions absolues et relatives au Khi-deux.

235

Interprtation La dmarche standard se dmarque nettement des autres puisqu'elle explique elle seule 75% de la valeur du Khi-deux. En comparant les effectifs observs et thoriques pour cette dmarche, on remarque qu'il y a environ deux fois plus de producteurs obtenant une marge faible qu'il y en aurait dans le cas d'quivalence des trois dmarches. Dans le mme ordre d'ide, 5 producteurs obtiennent une bonne marge alors qu'il y en aurait plus de 12 en cas d'quivalence. Ralisons un nouveau test du Khi-deux en cartant cette fois la dmarche standard.
Effectifs

Effectifs
IGP LROU

observs
0 faible moyenne bonne Totaux Tableaux 14.11

Totaux 28 39 51 118

thoriques C, faible moyenne bonne Totaux

IGP

LROU

Totaux 28 39 51 118

23 34 42 99

5 5 9 19

23,49 4,51 32,72 6,28 42,79 8,21 99 19

Effectifs observs et thoriques des niveaux de marge selon les deux dmarches qualit IGP et LROU).

Nous remarquons un effectif thorique trs lgrement infrieur la rfrence la plus classique gale 5. L'utilisation du test du Khi-Deux est ici tolrable. La fonction TEST.KHIDEUX indique cette fois 79%. Il apparat que ces deux dmarches ne peuvent tre considres comme distinctes relativement la marge. Nous prendrions un risque suprieur 79% en les dclarant diffrentes. Nous considrerons ces deux dmarches comme quivalentes. En rsum, par cette mthode statistique trs diffrente nous retrouvons le fait que la dmarche standard diffre de manire significative des deux autres dmarches.

236

15. EVALUATION ET IMAGE D'UN MAGAZINE PROFESSIONNEL


15.1. PRSENTATION DU CAS

La socit LOGAGRI diffuse en France et l'tranger des logiciels destins aux agriculteurs (logiciels de comptabilit, gestion administrative, suivis techniques,...etc.). L'entreprise vend les logiciels qu'elle cre, propose la formation des agriculteurs, parfois adapte les logiciels aux besoins spcifiques des agriculteurs et enfin assure la maintenance. Chaque mois, LOGAGRI envoie un petit magazine d'information ses clients : le magazine MAGAGRI. La socit s'intresse tout particulirement une partie de ses "gros clients". Une enqute est ralise auprs d'un chantillon reprsentatif de cette population cible, dans le but d'valuer l'image de ce magazine et, par suite, d'amliorer la qualit de ce magazine. 124 clients ont t enquts. Dans la prsente tude, nous nous limiterons quelques questions particulirement fondamentales. Nous allons nous intresser l'attention accorde la lecture des diffrentes rubriques, l'intrt des thmes tudis et surtout l'indice de satisfaction globale des enquts. En ce qui concerne les enquts, nous ne retiendrons de leurs caractristiques que le type de production dans laquelle s'exerce leur activit. Un premier groupe de questions poses concerne le mode de lecture des principaux articles. Les principales rubriques sont : - les formations notes LFORM - le dossier not LDOS - Internet not LWEB - les astuces de manipulation des logiciels note LASTU - les nouveauts note LNOUV. Il a t demand aux enquts d'valuer leur mode de lecture de chaque rubrique au moyen d'une note , selon une chelle croissante d'attention de 0 5. L'enqut doit cocher spontanment son valuation sur une rglette allant de 0 (pas lu) 5 (lecture trs attentive, avec annotation) et gradue au dixime :

5 = Lecture trs attentive II a t ensuite demand aux personnes enqutes si, globalement, la nature des sujets traits (thmes) rpondaient bien leurs proccupations. Nous noterons INTSU ce critre "intrt des sujets traits". Ce critre est valu comme les prcdents au moyen d'une note de 0 (aucun intrt pour les thmes traits) 5 (fort intrt). Par ailleurs, la fin du questionnaire, il est demand l'enqut d'valuer globalement sa satisfaction du magazine (prise en compte de la nature des sujets traits, de leur approfondissement, de leur clart, de la forme, etc.). Cet indice de satisfaction globale a t recueilli selon le procd indiqu savoir l'chelle croissante de satisfaction de 0 5. On le note SATI. Pour caractriser les personnes enqutes, seul le type de production de leur activit (en fait, famille de productions) not PRODU a t retenu dans cette tude. La population cible a t segmente selon 4 grandes familles :

0 = Pas lu

- Grandes cultures, famille note Pi et affecte de la modalit 1 de la variable PRODU - levages bovins, ovins et caprins (viande et lait pour ces trois types) et porcs (PS ; modalit 2 de PRODU) - Viticulture (P.i ; modalit 3 de PRODU) - Autres productions (?4 ; modalit 4 de PRODU). L'objectif majeur de l'enqute est centr sur l'indice de satisfaction : il s'agit d'valuer et expliquer cet indice A partir des questions extraites de l'enqute, on peut se donner les axes de recherche suivants : - axe 1 : analyser l'attention de lecture des diffrentes rubriques et la mettre en rapport avec l'indice de satisfaction - axe 2 : tudier la relation entre intrt des sujets traits et indice de satisfaction - axe 3 : est-ce que l'intrt des thmes abords est diffrents selon les types de productions ? Les donnes observes sont regroupes sur le tableau 15.1.
Formations Dossier Internet QUALITE DE LECTURE DES RUBRIQUES Astuces Nouveauts logiciels LDOS LWEB LASTU LFORM LNOUV 2 0,7 2 3 1,3 2 0,8 2,2 3,2 1.3 2,3 3,5 0,9 1.4 1,6 1 2.4 3.4 3 1,5 3,4 2.4 1,6 1,8 1,1 2,5 3,3 2 1,8 1,2 3 3.3 2 1,7 1,2 2,7 3.2 2 1.8 1.9 2,6 3,2 1,8 1,3 2.5 3.2 2 2,6 1.9 1,4 4 3 3 2,8 1,4 2,7 2 2,7 3,1 2,1 2,7 2 1.5 2,1 3,1 3 2 3 1,5 1,5 3 3 2,2 2.9 1,6 2,9 3 2.2 1,6 2,1 2 2.8 4 3 2.1 2,8 3 2,3 1.6 2,1 4 3 2,2 4 1.7 4 2,3 3 2,9 1,7 2 2 3 3 1,7 3 . ..... 3 2.9 2.3 2,3 1.6 2,9 2,4 2,9 2,3 3 2.5 2,9 2,3 4 1,8 2,9 2,9 3 1,8 2,4 4 2,4 2.3 1,8 3,1 3 2,8 2,4 3,1 1,9 2.4 2,5 2,5 2,6 2.8 2.4 3 3.1 2.8 1.9 2,8 2 2,5 3 1,9 2,5 2 3,5 2,5 1,5 2,5 2 3 2,8 2,5 2 2 3.2 2,7 2,5 2,7 2 2,6 2,5 3,2 3 2 3.2 2,7 2,5 2,6 2,6 3 2,7 2,1 2,6 3,2 2,5 1,5 2,1 2,6 1,5 2,7 3 2,7 2,7 3 2,1 2,1 2,1 2,2 3 3,2 3,1 4 3.3 3,3 3,3 2.7 2.7 2,7 2,6 2 2.6 2.6 4 2,6 2.6 2,7 2,7 GLOBALE SATI 1 0,7 0,8 2 1 1,2 1.2 3 1,3 1.3 1.4 3 1.6 1,6 1,6 2 1,7 1,7 1.8 1,7 3 1.9 1.8 1,8 1,5 1.8 1,9 2 3 2 2,3 2,1 2,2 1,5 2.4 2,2 1,5 2.3 2.3 2.1 2.5 2,8 3 INTERET PRODUCTIONS DES 1,2,3et4 SUJETS INTSU 1.2 1.4 1,5 1.7 1,7 1.8 1,8 1,8 1,9 1,9 2 2 2 2 2,1 2,2 2.2 2.2 2,3 2.3 2,3 2,4 2,4 2,4 2,5 2,5 2.5 2,6 2.6 2.6 2,6 2,7 2,7 2,7 2,8 2,8 2,8 2,8 2,8 2.8 2.9 2,9 2,9 PRODU 2 2 2 2 2 2 2 1 2 2 3 2 2 1 2 2 2 2 2 2 1 2 2 1 2 2 1 4 3 2 1 4 2 2 4 2 2 2 1 1 4 3 2

238

Formations Dossier Internet

QUALITE DE LECTURE DES RUBRIQUES Astuces GLOBALE Nouveauts logiciels 3 2.4 2.2 3,3 2.6 3 2.3 2,7 2,2 3,3 2.6 2.7 2 5 4 2,2 4 2.6 2,7 . . . 2,4 2,8 2,2 3,3 2.6 2,7 3 4 3,2 3 3 1,5 2,8 3,2 2,6 2,6 2,3 2,8 2.5 2,8 2,3 3,4 2,5 2,8 2,5 2.3 3,4 2,5 2,8 2,6 2,9 2,3 2.9 2,8 2.5 1,2 2.6 3 2.3 3,4 2.5 2,8 2,4 2,9 2,4 3,4 2 2 2,9 3,4 2,6 2,4 2,5 2,9 4 3 3,4 2,5 2,9 1,2 2,9 2.4 3,3 2.5 2,9 2.5 3 2,4 3 2,4 2.4 2,9 2,5 3 2,4 3,5 2,4 3 2,5 3,5 3,5 2.2 3 1,5 2,5 3 2,6 3,5 2,4 3 3,5 2,5 3,5 2,4 3 2,6 2,4 3 2.5 3,5 2.4 3 4 2,5 3,5 2,4 4 2.3 3 2,5 4 2 2,5 3 2 3,5 2,4 2,6 2,8 3.1 2,9 2,6 3,4 2,4 3,1 3,1 4 2.6 3,7 2,3 2,9 3.1 2,5 2,6 3,6 2,3 3,1 1.S 3 3 3,6 2,5 3 3,1 2.6 3,6 2,3 2,3 3,1 3,1 2.7 2,6 3 2,3 3,2 3,1 4 2,7 3,6 2,3 3 1,9 3 3 1,5 3.6 2,3 3,2 3 3,2 2,7 3,6 2,3 3,2 2 2,7 3.8 2.2 3,2 3.1 3,8 3 3.2 3 3 2 2 2,5 2,8 2,5 2,2 3,3 3,2 2,8 3,7 2,2 3,3 3,2 4 3 3,7 2,2 3.3 3,1 3 3,3 2,8 3,7 2.2 3,3 3,7 2,3 3,3 2,8 2,2 4 4 2,8 3,7 2,5 3,5 3,3 3,6 3.3 3.5 3 2.2 3.4 3 2,9 3,9 3,4 1,5 2.1 4 3,3 2,9 3,9 2.2 2,1 2,9 2,9 3,2 3,8 3.4 2,1 2,9 3,8 3,4 2.6 3,4 3,1 2,3 2,3 3,8 3,3 3.4 2,1 3,4 3,8 3,2 3 3.5 2,1 4 3 4 3 3.5 2,1 3,4 3 3,8 3,5 2,1 1,8 4 3 4 3 3.5 3,5 3.5 3,5 4 2 3,6 3,5 4 3,5 4 2 3.6 3,1 4 3.4 2 3,2 3,1 3.6 3,5 3,1 3,9 2 3 3,1 2,3 3.5 3,9 2 3,6 3,5 3,6 3,2 3,9 3 3,7 2 4 3,2 3,7 3,8 4,1 1,9 3,6 3,2 4 3.7 3,4 1,9 3,5 3,3 3,5 3,4 1,9 4,1 3,7 3,2 4 2 1,9 3.7 4 3,3 4 3,6 2 3,8 3.7 3.3 4 3.5 1.9 3.8 3,9 3,3 4,2 3.8 3,4 1,8 3,7 3,4 3,6 3 1.8 3 4 4 4.2 3,9 3.4 1,8 3,8 3.4 3,9 3,5 4,1 1,3 4 3,4 3 4,1 3,9 3.1

INTERET PRODUCTIONS DES 1,2,3et4 SUJETS 2.9 2,9 3 3 3 3 3 3 3,1 3,1 3,1 3,1 3,2 3,2 3,2 3.2 3.2 3,3 3,3 3,3 3,3 3,3 3,4 3,4 3,4 3,4 3.4 3.4 3.4 3,5 3,5 3,5 3,5 3,5 3,5 3,6 3,6 3,6 3,6 3,6 3.6 3,7 3,7 3,7 3,7 3.7 3,7 3,7 3.7 3,7 3,8 3,8 3.8 3,8 3.8 3,9 3.9 3,9 3,9 3.9 3,9 4 4 4 4 4,1 4,1 2 1 4 3 3 3 2 1 4 4 3 3 4 4 3 2 1 4 4 3 3 1 4 4 3 3 3 1 1 4 4 3 3 3 1 4 4 3 3 2 1 4 4 4 3 3 3 3 2 1 4 4 3 3 3 4 3 3 3 3 1 4 4 3 3 4 4

239

Formations Dossier Internet

QUALITE DE LECTURE DES RUBRIQUES Astuces Nouveauts logiciels 3.5 4.3 4 3.9 1.7 4,3 3,5 3.5 1.7 3.9 4,5 4 4 4.5 1.7 4,2 3,9 3,6 4,1 1,7 3,6 4,4 3.6 1,6 4,1 4 3,7 4,4 4 1.6 4 3,7 4,3 4,2 1.6 3,5 4,5 4,3 1.5 4,1 3,9 4.3 3,8 1,5 4,2 3,9 4,6 2 4,4 3,9 4 4,6 3,5 4,3 1,4 4,7 4.6 4.S 4,1 1,3 4,8 4,7 4.5 4,5 1,2 4,4 4 4,9 3 1,1

GLOBALE 2,6 4 4 3,4 3 4,1 4,3 4.2 4.6 4,6 4.5 4,8 3,6 4.8

INTRT PRODUCTIONS DES 1,2,3et4 SUJETS 4,1 4,1 4,1 4,2 4,2 4.2 4,3 4,3 4,4 4,4 4,5 4,6 4,7 5 3 3 3 4 3 1 4 3 4 3 4 3 4 4

Tableau 15.1

Donnes observes.

15.2. PROPOSITION DE DMARCHE STATISTIQUE On commence par ordonner les donnes, classer et distinguer les types de variables. Seule la variable Production est qualitative (QL) de type nominal. Les autres variables ordinales (chelle de satisfaction 50 niveaux de 0 5 avec une dcimale) seront considres comme quantitatives (QT). 15.2.1. Dmarche statistique gnrale 1re tape : statistique univarie - la statistique descriptive offre une "photographie" de chaque critre (rsum par les paramtres statistiques et des graphiques) - la statistique infrentielle permet de dterminer des intervalles de confiance de moyennes, de raliser des tests et de poursuivre les buts recherchs. 2e tape : statistiques descriptives bivaries diriges vers les objectifs 3e tape : statistiques multivaries orientes vers les questions poses. 15.2.2. Dmarche statistique propre chaque axe de recherche 15.2.2.1. Axe 1 : incidence de la qualit de lecture sur l'indice de satisfaction (QT - QT) Qualit de lecture de : Formation Dossier Internet Astuces logiciels Nouveauts 5 variables quantitatives

Indice de satisfaction
QT ->QT

1 variable quantitative

Proposition de procession II s'agit toujours d'une "proposition". Plusieurs stratgies sont proposes mais on peut se limiter une seule si les rsultats concrets sont suffisants. Sinon, d'autres techniques pourraient tre envisages.

240

1. Statistique univarie de chaque critre


Statistique descriptive

Paramtres statistiques classiques - peigne (Min, Quartile 1, Mdiane, Quartile 3, Max) - IQR (distance ou intervalle interquartile) - Moyenne - Ecart-type observ - Coefficient de variation - ventuellement, Kurtosis et coefficient d'aplatissement. Graphiques : histogramme group des 5 rubriques et de l'indice de satisfaction, partir de distributions de frquences relatives construites, par exemple, partir des classes - Note ^ 1 - l<Note<2 - 2 < Note :3 - 3 <Note ^4 - 4 <Note ^5. En effet, un tel dcoupage peut tre assimil une classique chelle (1, 2, 3, 4, 5) correspondant au gradient 1 = mdiocre, 2 = passable, 3 = assez bien, 4 = bien et 5 = trs bien. Statistique infrentielle On peut complter la statistique descriptive par de petits lments de statistique infrentielle tels que l'intervalle de confiance associ chacune des moyennes calcules et les tests de Student. 2. Statistique bivarie
Statistique descriptive bivarie

sur variables quantitatives notes de dpart QT. On peut rsumer d'une part au moyen des coefficients de corrlation de l'indice de satisfaction avec chacune des variables note de qualit de lecture et d'autre part des graphiques nuages bidimensionnels avec ventuellement droite de rgression) sur variables qualitatives dduites des variables de dpart par dcoupage en classes. Par exemple, on peut adopter le dcoupage en 5 classes 1, 2, 3, 4, 5 prcdemment voqu. partir respectivement des variables SATI, LFORM, LDOS, LWEB, LASTU et LNOUV, on cre ainsi 6 nouvelles variables notes SATIC, LFORMC, LDOSC, LWEBC, LASTUC, LNOUVC. Ensuite, il sera intressant d'exploiter statistiquement chaque tableau de contingence obtenu en croisant l'indice de satisfaction SATIC avec la qualit de lecture de chaque rubrique en classes en construisant des tableaux du type ci-contre. Ces tableaux permettent de calculer des distributions d'effectifs ainsi que des profils lignes et des profils colonnes.
SATIC 1 2 3 4 5 1 2 LFORMC 3 4 5

241

Statistique infrentielle ; Nous proposons d'utiliser le test du Khi-deux comme test de l'indpendance entre l'indice de satisfaction et chacun des critres (les conditions de validit sont moins exigeantes que pour un test de significativit de la corrlation). 3. Statistique multivarie infrentielle : la rgression linaire multiple peut permettre d'expliquer l'indice de satisfaction en fonction des autres critres. 15.2.2.2. Axe 2 : intrt des thmes traits et indice de satisfaction (QT -> QT) Intrt des thmes traits 1 variable quantitative
QT -> QT

Indice de satisfaction 1 variable quantitative

Nous proposons la dmarche suivante : 1. Statistique univarie a. Statistique descriptive : comme indiqu prcdemment b. Statistique infrentielle : intervalle de confiance des moyennes. 2. Statistique bivarie a. Statistique descriptive : rsum (coefficient de corrlation) et graphiques (nuages bidimensionnels) b. Statistique infrentielle : test de comparaison des deux moyennes. 15.2.2.3. Axe 3 : productions et intrt des sujets traits (QL -> QT) Familles de productions 1 variable qualitative QL -> QT Indice de satisfaction 1 variable quantitative

II s'agit de raliser l'tude conjointe d'une variable quantitative "note d'intrt des sujets traits" et d'une variable qualitative "production" 4 modalits Pi (grandes cultures), ?2 (levage), Py (viticulture) et ?4 (autres productions). Plusieurs dmarches statistiques ayant dj t dtailles (axe 1), nous proposons une approche synthtique de progression statistique.
Statistique bivarie 1 QTxQL

a) Statistique descriptive : ensemble des statistiques descriptives univaries de chaque production - paramtres statistiques - distributions des frquences et histogrammes groups. b) Statistique infrentielle : - analyse de variance un facteur - tests de comparaison de variances - tests de comparaison de moyennes.
242

2 QL x QL a) Le dcoupage en classes de la variable quantitative note d'intrt fournit une variable qualitative (ordinale) b) Croisement de cette nouvelle variable qualitative et de la variable production (QL x QL) et analyse du tableau de contingence obtenu c) Statistique descriptive : calcul des profils selon les productions d) Statistique infrentielle : test du Khi-deux. 15.3. PRINCIPAUX RSULTATS DE L'EXPLOITATION STATISTIQUE, INTERPRTATION ET COMMENTAIRES 15.3.1. Axe 1 : impact de la qualit de lecture sur l'indice de satisfaction. 15.3.1.1. Statistique univarie
Statistique descriptive

Le tableau suivant qui indique les paramtres statistiques rsume des donnes. On calcule les principaux paramtres statistiques de la 1re variable (en rfrences relatives) et l'on tire la poigne de recopie de la colonne vers la droite, sur la totalit des critres quantitatifs. Pour faciliter la lecture des rsultats, nous ne prsentons dans ce tableau que la partie relative ce premier axe. La lecture attentive de chacun de ces rsultats, d'interprtation lmentaire, est trs instructive pour le commanditaire de l'enqute. On propose d'extraire quelques lments remarquables.
LFORM LDOS LWEB 2 LASTU 1,1 LNOUV SAT1

MIN
QUARTILE 1 MEDIANE QUARTILE 3 MAX

1,3 2,5 3 3,7 4,5 3,2

0,7 2,075 2,6 3,125 4,5 3,8 1,05

3 3,5 3,925 4,8

2,075 2,5 2,9 4

1,3 2,4 3 3,5 4,9

0,7 2 2,6 3,2 4,8

Amplitude
IQR MOYENNE ECARTYPEP CV

2,8 2,9 3,6 4,1 0,825 0,925 1,2 1,2 1,1 2,607 3,477 2,456 3,027 2,977 2,644 0,585 0,564 0,782 0,802 0,778 0,897 25,84% 30,75% 16,83% 22,97% 26,12% 33,94%

Tableau 15.2

Paramtres statistiques des critres notes de qualit de lecture

des divers types rubriques et de l'indice de satisfaction.

Paramtres de tendance centrale Classons la mdiane et la moyenne des 5 notes de lecture et de l'indice de satisfaction dans l'ordre croissant. Les mdianes se classent de la faon suivante : 1 LWEB, lecture "Internet" (extrait + indication de sites) 2. LFORM + LNOUV, lecture des propositions de formation et nouveauts 3. LDOS + LASTU, dossier et astuces logiciels 4. SATI, indice de satisfaction (pratiquement gale aux prcdentes). Avec les moyennes, nous obtenons peu prs le mme classement. Seule LASTU passerait au 5e rang.
243

Un cart de note d'environ 1 point, donc relativement important, spare les premire et dernire rubriques. Pour chacun des critres, nous remarquons une forte proximit entre moyenne et mdiane. Cela permet d'exclure d'ores et dj l'existence d'une forte dissymtrie dans les distributions. Cette proximit est valorisante pour la moyenne qui restitue la pertinence concrte qu'on lui accorde spontanment et parfois abusivement. Remarque : il pourrait tre intressant de calculer un score de lecture globale. Cependant, il parat dangereux d'accorder la mme importance relative chaque rubrique. Ainsi, on peut supposer que les rubriques "dossier" et "astuces" sont d'importances trs diffrentes. Les responsables du magazine pourraient accorder des coefficients de pondration bien adapts chaque rubrique et dterminer ainsi un score moyen de lecture pertinent restituant bien la ralit. La plus forte amplitude revient l'indice de satisfaction qui volue de 0,7 (les pas satisfaits du tout!) 4,8 (les trs satisfaits). Les rubriques DOSSIER et NOUVEAUTES prsentent de fortes amplitudes. Au contraire, l'attitude des enquts pour Internet est beaucoup moins contraste. En effet, c'est pour cette rubrique que l'on note la plus faible amplitude. Il y a relativement peu d'cart entre les distances interquartiles. Dans cet exemple, les carts-types, comparables du fait de l'identit d'unit, font apparatre peu de diffrence. On retrouve sensiblement la mme hirarchie des critres que celle que nous avons note pour l'amplitude. Les coefficients de variation montrent de fortes diffrences entre les critres. Les cartstypes tant proches, cela restitue l'effet des moyennes trs diffrentes. La rubrique INTERNET est munie du plus faible coefficient de variation (17%). On retrouve une assez bonne homognit de qualit de lecture de cette rubrique. Au contraire, DOSSIER et l'indice de satisfaction SATI ont de forts coefficients de variation. Distribution de frquences et histogrammes Nous proposons de transformer chaque note en classes de modalits 1, 2, 3, 4 et 5, couramment utilises dans les questionnaires Classe 1 : Note < 1 Classe 2 : 1 < Note ^ 2 Classe 3 : 2 < Note <3 Classe 4 : Classe 5 : 3 < Note <4 4 < Note < 5

Nous calculons la distribution des frquences absolues (effectifs) au moyen de la fonction matricielle FREQUENCES pour laquelle il faut indiquer la plage des donnes en rfrences relatives et la matrice intervalles en rfrences absolues. On peut alors utiliser la poigne de recopie ds la 2e distribution.
Classes 1 2 3 4 5 totaux Tableau 15.3
LFORM {.DOS LWEB LASTU LNOUV 0 SATI

0 18 51 49 6 124

4 27 59 31 3 124

0 1 32 73 18 124

0 31 79 14 0 124

20 49 46 9 124

4 31 51 30 8 124

Distribution des frquences absolues des critres de qualit de lecture et de l'indice de satisfaction.

244

Pour le calcul, nous dterminons les distributions de frquences relatives (calcul de la V valeur + poigne de recopie) et construisons ensuite les histogrammes groups :
Classes 1 2 3 4 5 totaux Tableau 15.4
LFORM LDOS LWEB LASTU LNOUV SATI

0% 14% 41% 40% 5% 100%

3% 22% 48% 25% 2% 100%

0% 1% 26% 59% 14% 100%

0% 25% 64% 11% 0% 100%

0% 16% 40% 37% 7% 100%

3% 25% 41% 24% 7% 100%

(les classes modales sont indiques en caractres gras)


Distribution des frquences relatives des critres de qualit de lecture et de l'indice de satisfaction.

Figure 15.1 Histogramme des critres de qualit de lecture et de l'indice de satisfaction. Nous remarquons le fort poids de la classe modale de LWEB (prs de 59%), cette classe tant, de plus, relative une classe de notes leves (3 4). LFORM prsente une classe modale situe aussi dans une fourchette de notes leves. On constate le large spectre de valeurs prises par SATI. Les paramtres de tendance centrale (moyenne et mdiane) appartiennent aux classes modales ou leurs limites. En rsum on retiendra les trs bons scores des rubriques Internet et Formations. Elles ont de meilleures moyennes et mdianes qui de plus concernent de forts pourcentage de clients. Statistique infrentielle. Nous proposons d'associer aux moyennes les intervalles de confiance, par exemple, au niveau de confiance 95%.
LFORM LDOS LWEB LASTU LNOUV SATI

MOYENNE INTERVALLE.CONFIANCE a b

3,03 0,14 2,89 3,17

2,61 0,14 2,47 2,75

3,48 0,10 3,37 3,58

2,46 0,10 2,36 2,56

2,98 0,14 2,84 3,11

2,64 0,16 2,48 2,80

Tableau 15.5 Intervalles de confiance des critres qualit de lecture et indice de satisfaction.

245

La fonction INTERVALLE. CONFIANCE donne la marge A. Nous avons galement calcul l'intervalle de confiance ( a, b ]. On remarque que les valeurs de A sont trs proches. 11 est intressant que le classement des moyennes remarqu titre simplement descriptif soit pratiquement valid par les intervalles de confiance Nous proposons de complter ces rsultats en recherchant si les diffrences des moyennes prises deux par deux sont significatives et si oui, quel risque. Nous ralisons un test de Student (chantillons apparis) pour chaque couple de variables : Probabilits critiques LFORM LDOS LWEB LASTU LNOUV SATI

LFORM 9.33E-11 5.47E-15 4,88E-07 44,64% 1.45E-07

LDOS

LWEB

LASTU

LNOUV

4.4SE-41 19,67% 8.87E-19 3.14E-12 7.94E-19 8,99E-06 47,01% 4.75E-31 13,32% 3.3SE-07

(en gras : test significatifs)

Tableau 15.6 Probabilits critiques des tests de Student associs chaque couple de critres. Le schma rcapitulatif qui suit permet de faire la comparaison des moyennes et des intervalles de confiance. Sur ce schma, S indique une diffrence des moyennes significative au risque a = l%o et NS une diffrence des moyennes non significative. l NS NS
L AMU
\

2,36

2,46

2,56
>

^
NS l

i.nos
2,47 SATI 2,48 2,61

S avec Lis

2,75
J

2,64 LNU V i cr-t R M 2,80

NS l

2,84 2,98

3,11

S avec les 4 autres critres

A*

2,89

3,03 LWEB

3,17

3,37

3,48

3,58

S avec tous les critres Figure 15.2 Schma rcapitulatif des positions relatives des intervalles de confiance.

246

Remarque : la confrontation des tests de Student aux intervalles de confiance est concrtement enrichissante. Ce type de test de Student appartient classiquement la statistique bivarie. Nanmoins, tant relatif des chantillons apparis, il peut tre considr comme un test de conformit zro de la moyenne des carts des notes. Par suite, on peut " la limite" considrer ce test comme appartenant la statistique unidimensionnelle.

15.3.1.2. Statistique bivarie


Statistique descriptive sur variables quantitatives Paramtres statistiques Pour orienter l'exploitation statistique vers l'objectif, on peut calculer le coefficient de corrlation de l'indice de satisfaction avec la note de qualit de lecture de chaque rubrique. On propose de dpasser l'objectif et d'afficher la matrice de corrlation. On aura ainsi un aperu des corrlations entre rubriques.
LFORM LDOS 1,000 0,656 1,000 0,701 0,810 -0,560 -0,792 0,567 0,775 0,595 0,792 LWEB LASTU LNOUV SATI

LFORM LDOS LWEB LASTU LNOUV SATI

1,000 -0,765 0,736 0.761

1,000 -0,725 -0,768

1,000 0,673

Tableau 15.7 Matrice de corrlation entre les qualits de lecture et l'indice de satisfaction. On remarque que l'indice de satisfaction est corrl positivement de manire relativement marque avec 4 critres sur 5 (qualit de lecture des rubriques formation, dossier, Internet et nouveauts). Schmatiquement, l'indice de satisfaction a tendance crotre avec la qualit de lecture de ces rubriques. Par contre, c'est l'inverse avec la qualit de lecture des astuces pour logiciels (nette corrlation ngative entre SATI et LASTU). Les enquts lisant attentivement les astuces de manipulation des logiciels achets LOGAGRI ont tendance tre globalement moins satisfaits du magazine. Par ailleurs, la qualit de lecture des astuces est corrle ngativement avec la qualit de lecture des autres rubriques ; par suite, il apparat que les enquts lisant attentivement les astuces logiciels ont tendance lire plus superficiellement les autres rubriques. Ces rsultats, certainement instructifs pour les concepteurs du magazine, seront probablement enrichis par les questions ouvertes gnralement prsentes dans ce genre de questionnaire. Graphiques Les nuages de points visualisent de manire simple et claire l'indice de satisfaction en fonction de chacun des critres. Moins synthtiques que le coefficient de corrlation, ces graphiques sont aussi ncessairement moins dformants et restituent fidlement la ralit des donnes. Ils montrent bien les tendances voques par les corrlations. Afin d'obtenir un indicateur de la qualit du modle "rgression simple" ou encore de la dispersion autour de ce modle, nous avons trac la droite des moindres carrs et affich le coefficient de dtermination R2.

247

y = 0,6825x + 0,5772

Lecture formations

Dans le graphique ci-contre, on note une importante dispersion et la prsence de quelques points marginaux. Si l'on prenait la libert d'carter les 4 points (4,1,2), (4 ,1,8), (3,5 ,1,5) et (3 ;4,8) parmi les 124, le coefficient de dtermination augmenterait de plus de 10% (R^O.469).

y = 0,8862x + 0,333

Sur le graphique ci-contre, le point (4 ; 1,5) est marginal

lecture dossier

248

y=0,7764x+0,3319

lecture nouveauts Figures 15.3 Nuages et droites de rgression de l'indice de satisfaction de la qualit de lecture de chacune des rubriques. Statistique descriptive sur variables qualitatives Comme indiqu dans la proposition de dmarche statistique, nous allons crer 5 variables qualitatives ordinales respectivement associes aux 5 variables quantitatives tudies (dcoupage en classes). Ensuite, l'indice de satisfaction class (SATIC) sera crois avec chaque qualit de lecture classe. Chaque tableau de contingence ainsi construit sera exploit de faon plus ou moins approfondie selon la clart des rsultats et selon les besoins. Par exemple considrons la relation entre lecture des formations et indice de satisfaction. C'est le couple de critres o la corrlation est la moins nette et le nuage de points le plus dispers. Il est donc intressant d'essayer une autre stratgie statistique. Aprs avoir cr les variables LFORMC et SATIC (formule logique ou tris successifs), formons le tableau crois associ : Notons Ojj les effectifs observs et C;, les effectifs thoriques. Nous avons cart la classe 1 de LFORMC qui ne contient aucune observation. Compte tenu de la faiblesse des effectifs, il parat plus adroit de fusionner les deux dernires lignes et les deux dernires colonnes. Effectifs observs LFORMC 2 3 4 5 Totaux SATIC 1
4 0 0 0

2
5 20 6 0

8
26

4 1
5 23

5
0 0 3 4

31

17 0 51

2 31

Totaux 18 51 49 6 124

On obtient le nouveau tableau de contingence 15.8.

Effectifs SATIC observs LFORMC 3 1;2 4;S Totaux 2 9 8 1 18 3 20 26 5 51 4 ;5 6 17 32 5S Totaux 35 51 38 124 Tableaux 15.8 Effectifs observs dans le tableau de contingence indice de satisfaction et qualit de lecture des formations.

249

Ralisons les profils lignes et colonnes et visualisons les au moyen de graphiques Profils lignes LFORMC 2 3 4 ;5 Profil ligne moyen SAT1C 1;2 50% 39% 11% 28% 3 44% 51% 31% 41% 4;5 6% 10% 58% 31% Totaux 100% 100% 100% 100% Poids 15% 41% 44% 100%

Tableau 15.9

Profils lignes des qualit de lecture des formations.

profils qualit de lecture des formations g profil ligne moyen 0 v

45

Dsafc 4:5 safc 3 Dsatic 1:2

u "

2 0% 10% 20% 30% 40% 50% niveau des profils 60% 70%

Figure 15.4 Histogrammes des profils lignes. Profils colonnes LFORMC 2 3 4 ;5 Totaux Poids
SAT1C

1 ;2 26% 57% 17% 100% 28%

3 16% 51% 33% 100% 41%

4:5 3% 13% 84% 100% 30%

Profil colonne moyen 14% 41% 44% 100%

Tableau 15.10 Profils colonnes de l'indice de satisfaction.

profils indices de satisfaction

0 LFORM 2 (3 LFORM 3
D LFORM 4:5

indice satisfaction Figure 15.5 Histogrammes des profils colonnes.

250

Commentaires succincts des profils lignes - 50% des personnes "survolant" la rubrique "formations" (profil ligne "2") sont globalement peu satisfaites du magazine ce qui fait prs du double par rapport l'ensemble des enquts (profil moyen : 28%). Au contraire, seulement 6% de ces personnes sont globalement satisfaites : c'est un pourcentage trs infrieur celui de l'ensemble (profil moyen : 31%). Le profil ligne "2" est un profil trs particulier : il est trs diffrent du profil moyen et reprsente dans l'enqute un poids relativement faible (15%). - Pour le profil ligne "3" des personnes lisant la rubrique avec une attention moyenne, on remarque qu'un pourcentage important de ces personnes est peu ou moyennement satisfait (10% de plus que pour le profil moyen). Ceci reprsente 41% des enquts. - Pour le profil ligne "4-5, un trs fort pourcentage (58%) des enquts lisant attentivement ou trs attentivement la rubrique est globalement satisfait ou trs satisfait du magazine, soit prs du double que sur l'ensemble. De plus, cette catgorie reprsente le plus fort pourcentage d'enquts (44%). Ce rsultat est certainement encourageant pour les concepteurs du journal mme si le progrs sera rechercher pour les deux autres catgories relatives aux profils lignes 2 et 3. Commentaires succincts des profils colonnes - Parmi les personnes peu satisfaites (profil 1-2), un trs fort pourcentage lit la rubrique avec une attention moyenne. Ce groupe reprsente 28% des enquts. Parmi les personnes moyennement satisfaites, un fort pourcentage (prs de 51%) lit la rubrique avec une attention moyenne : cette catgorie reprsente 41% de l'chantillon. - Parmi les personnes satisfaites trs satisfaites, 84% lisent attentivement la rubrique. Cette catgorie reprsente 31% des enquts. Statistique infrentielle sur variables qualitatives L'analyse descriptive a fait apparatre des profils bien contrasts, de fortes "correspondances" entre niveau de qualit de lecture de la rubrique formation et niveau de satisfaction. Il est intressant de tester l'indpendance de ces deux critres au moyen d'un test du Khi-deux. Nous calculons les effectifs thoriques et ralisons le test.
SATIC LFORMC 2 3 4 ;5 Totaux 1;2 5,081 14,395 15,524 35 3 4 : 5 Totaux 16 7,403 5,516 20,976 15,629 51 55 22,621 16,855 124 51 38

Tableau 15.11 Effectifs thoriques indice de satisfaction qualit de lecture de la rubrique formation.

Le rsultat du test du Khi-deux (1.003.E-7 montre que la liaison entre l'indice de satisfaction et la qualit de lecture de la rubrique formation est trs hautement significative (probabilit critique extrmement faible). L'analyse descriptive des profils, offrant des rsultats particulirement clairs, il ne parat pas opportun d'approfondir ce test en recherchant les cellules explicatives. Nous poumons raliser le mme travail pour chaque tableau de contingence. Nous prsentons ci-dessous les rsultats (effectifs observs, effectifs thoriques) et le rsultat du test du Khi-deux. Des fusions entre lignes et entre colonnes ont t ralises lorsque les effectifs thoriques taient trop faibles. 251

LDOSC 1 2 3 4 5 Totaux Oij LDOSC <=2 2<note<3 >3 Totaux


C.J

1 3 1 0 0 0 4

2 1 19 8 3 0 31 SATIC

SATIC 3 0 7 41 3 0 51

4 0 0 10 19 1 30

5 0 0 0 6 2 8

Totaux 4 27 59 31 3 124

<=2 24 8 3 35

2<note<=3 7 41 3 51 SATIC

>3 0 10 28 38

Totaux 31 59 34 124 TEST.KHIDEUX : 5,61 E-21 Liaison trs hautement significative

>3 <2 2<note<=3 12,75 9,50 8,75 24,27 2<note<3 16,65 18,08 9,60 13,98 >3 10,42 Totaux 35 51 38
<a2

LDOSC

Totaux 31 59 34 124

Tableau 15.12.a

Indice de satisfaction - qualit de lecture de la rubrique dossier.

Effectifs observs avant et aprs regroupement de classes et effectifs thoriques. SATIC 3 0 0 8 41 2 51

LWEBC 1 2 3 4 5 Totaux Oij LWEBC <=3 >3 Totaux Cij LWEBC 03 >3 Totaux

1 0 1 3 0 0 4

2 0 0 20 11 0 31 SATIC

4 0 0 1 19 10 30

S 0 0 0 2 618 8

Totaux 0 0 32 73 3 124

<2 24 11 35

2<note<3 8 43 51 SATIC

>3 1 37 38

Totaux 33 91 124 TEST.KHIDEUX : 5,61 E-21 Liaison trs hautement significative

<<=2 2<note<=3 >3 9,31 13,57 10,11 37,43 25,69 27,89 35 51 38

Totaux 33 91 124

Tableau 15.12.b

Indice de satisfaction - qualit de lecture de la rubrique Internet.

Effectifs observs avant et aprs regroupement de classes et effectifs thoriques.

252

LASTUC 1 2 3 4 5 Totaux Oij LASTUC <s2 >2 Totaux

1 0 0 1 3 0 4

2 0 1 21 9 0 31

SA TIC 3 0 5 44 2 0 51

4 0 17 13 0 0 30

5 0 8 0 0 0 8

TotauX 0 31 79 14 0 124

SATIC <=2 1 34 35 2<note<=3 5 46 51 >3 25 13 38 Tt aux ; 1 9 3 124 TEST.KHIDEUX : 2.12E-11 Liaison trs hautement significative

Cij LASTUC
<a2

SATIC <2 2<note<=3 8,75 12,75 38,25 26,25 35 51 >3 9,50 28,5 38 Tt aux ' 1 9 33 124

>2 Totaux

Tableau 15.12.C

Indice de satisfaction -qua lit de le ecture de la rubrique astuces logiciels.

Effectifs observs avant et aprs re roupe ment de classes et effectifs thoriques. LNOUVC 1 2 3 4 5 Totaux 1 0 4 0 0 0 4 2 0 9 19 3 0 31 SATIC 3 0 6 28 16 1 51 4 0 1 2 25 2 30 S 0 0 0 2 6 8 Totaux 0 20 49 46 8 124

SATIC Oij LNOUVC <=2 2<note<=3 13 6 <2 2<note<3 19 28 3 3 17 Totaux 35 51 Cij LNOUVC <s2 SATIC

>3 1 2 35 38

Totaux 20 49 55 124

<=2 2<note<=3 >3 5,65 8,23 6,13 2<note<=3 13,83 20,15 15,02 >3 15,52 22,62 16,85 Totaux 35 51 38 Tableau 15.12.d

Totaux 20 49 55 124

TEST.KHIDEUX : 1,22 E-12 Liaison trs hautement significative

Indice de satisfaction - qualit de lecture de la rubrique nouveauts.

Effectifs observs avant et aprs regroupement de classes et effectifs thoriques.

253

En rsum, l'indice de satisfaction est significativement dpendant de la qualit de lecture de chacune des rubriques. Ce rsultat, issu de tests, s'appuie sur un recodage de la quasi totalit des variables selon le mode schmatique "faible, moyen, fort" 15.3.1.3. Statistique multivarie infrentielle (variables quantitatives) Pour rechercher l'influence ventuelle de la qualit de lecture des diffrentes rubriques sur indice de satisfaction globale, nous proposons d'utiliser une rgression linaire multiple. La variable expliquer est SAT1, indice de satisfaction. Les variables explicatives sont : - LFORM (lecture des formations) - LDOS (lecture des dossiers) - LWEB (lecture "Internet") - LASTU (lecture des astuces logiciels) - LNOUV (lecture des nouveauts). Cette stratgie permettra l'intervention simultane de l'ensemble des rubriques dans l'explication de l'indice de satisfaction. Degr de libert Rgression Rsidus Total 5 118 123 SCE CM Fobserv 54,721 probabilit critique 3.804E-29

69,759 13,952 30,085 0,255 99,845

Tableau 15.13 Tableau d'analyse de variance de la rgression linaire multiple.

Rsultats Le tableau d'analyse de variance ci-dessus explique l'indice de satisfaction partir des qualits de lecture des diffrentes rubriques. Il permet de conclure que le modle de rgression est trs hautement significatif. Sa qualit est satisfaisante car le coefficient de corrlation multiple est gal 0,836 et le coefficient de dtermination R2, proportion de variabilit de l'indice de satisfaction explique par le modle atteint prs de 70% et le coefficient de dtermination ajust, part de variance de l'indice de satisfaction explique par le modle, atteint 69%. Modle obtenu SATI estim = 1,478 + 0,053 LFORM + 0,390 LDOS + 0,334 LWEB - 0,477 LASTU - 0,001 LNOUV Les units tant homognes pour toutes les variables, on remarque l'importance des valeurs absolues des coefficients de LDOS, LWEB et LASTU. Quand la note de lecture du dossier augmente de 1 point, les notes de lecture des autres rubriques tant inchanges, l'indice de satisfaction globale crot de 0,39. Quand la note de lecture des extraits et rfrences Internet augmente de 1 point, les notes de lecture des autres rubriques tant inchanges, l'indice augmente de 0,334. On retrouve l'incidence oppose de la qualit de lecture des astuces logiciel ; quand cette note augmente de 1, les notes de lecture des autres rubriques tant inchanges, l'indice de satisfaction diminue de 0,477.
Test des coefficients

La note de qualit de lecture de chacune des rubriques contribue-t-elle de faon significative expliquer l'indice de satisfaction ?

254

Voici les probabilits critiques relatives aux statistiques T de Student associes chacun des coefficients : Probabilit critique associe Signifcativit du test la statistique T 0,526 LFORM NS 0,001 LDOS S(^) 0,033 LWEB S(*) 0,001 se") LASTU 0,993 LNOUV NS Tableau 15.14 Rsultats des tests de Student associs aux coefficients des critres explicatifs, qualit de lecture des rubriques. Les notes de qualit de lecture des rubriques Dossier, Internet et Astuces contribuent de manire significative expliquer l'indice de satisfaction globale. Ceci ne signifie pas que l'on doive retirer du modle les lectures des deux autres rubriques. Nanmoins, on peut rechercher un modle plus allg, condition que la chute du coefficient de dtermination ne soit pas trop importante. Par ailleurs, dans notre exemple, il est intressant de rappeler que, parmi les modles une seule variable explicative (rgressions linaires simples), le plus explicatif, fourni par "lecture dossier", affiche un coefficient de dtermination atteignant dj 62,7%. Si ce modle est simple et de qualit, il ne prsente pas toutefois l'intrt du prcdent. Rsidus II est prudent d'examiner les rsidus. En effet, un fort rsidu, indiquant un cart important entre les indices de satisfaction rel et estim (ou prdit), peut mettre en vidence une observation aberrante, voire une erreur de saisie et, dans tous les cas, une donne marginale. Rappelons que la ralisation des tests de significativit ncessite la normalit des rsidus. Nous conseillons le calcul de la distribution des frquences relatives des rsidus normaliss assortie de l'histogramme. Rsidus normaliss -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 >2 Frquences absolues 6 6 2 14 30 58 14 8 7 2 Frquences relatives 4,84% 4,84% 1,61% 11,29% 24,19% 46,77% 11,29% 6,45% 5,65% 1,61% Distribution des rsidus normaliss 50% -, 40% 30% 20% 10% f

o% 0% n, n, ^, y

^ ^ ^ ^? Q? ^ s.?

? ^ ^

Tableau 15.15 Distribution des Figure 15.6 Histogramme des rsidus de rgression, rsidus de rgression. Nous remarquons que 4,84% des rsidus ont une valeur infrieure ou gale -2 : ce pourcentage est un peu fort puisque, dans le cas d'une distribution normale, on peut s'attendre 2,5% des valeurs infrieures -1,96. En examinant les valeurs des rsidus normaliss, 255

on remarque une valeur importante (-3,238) correspondant la 56" observation et 2 autres valeurs voisines de -2,7 et correspondant aux observations n 48 et n103. Le pointage de ces enqutes particulires peut ventuellement intresser les responsables du magazine. La distribution des frquences, assortie de l'histogramme, montre une relative symtrie. Par cette seule analyse descriptive, on ne peut conclure la normalit des rsidus ; on peut cependant vrifier qu'il n'y a pas une importante contradiction avec la distribution normale. Les rsidus tant des erreurs, il est sage d'examiner les graphiques des rsidus en fonction de chaque variable explicative, la prsence d'une "structure" dans le nuage montrerait que le rsidu n'est pas une vritable erreur, puisque l'on pourrait encore le modliser l'aide d'une fonction assortie d'une nouvelle erreur associe. La prsence d'une structure peut aussi indiquer l'absence d'une variable explicative "intressante". Dans notre cas, aucune structure n'apparat dans ces nuages.
LFORM Graphique des rsidus

'," 1,0 0,0 ( -1,0

\,':'>frsfe.t" ^T: . -y.; i


'

*
'

LFORM

LASTU Graphique des rsidus 1,> 1,0 0.5


i 1

LNCXJV Graphique des rsidus

* .*.

: :" ' ' ".-tJI r . "W? 1 -0.5 i..,.'. -1,0 ' . ' , -1,5 " . . '. ' - .

'...^".

^&yy^ ! ^
^LASTU

.*

1,0 tfl S 0,0 S -0,5' -1.0 -1,5 0,5

. ': . . . . A . ,

4'-'

.^?* . < .*.


'

^ss^

*
1

LNOUV

LDOS Graphique des rsidus

Figures 15.7 Nuage des rsidus en fonction des critres explicatifs qualit de lecture des rubriques.

1,000 0,500 ^ 0,000 1 -0.500 -1,000 -1,500

i a^saSst * \-;^2'%*'r:i .*: : .* - ' * < *

. .** *

256

15.3.2. Axe 2 : intrt des thmes traits et indice de satisfaction (QT ^QT) 15.3.2.1. Statistique univarie Statistique descriptive Paramtres statistiques
SATI MIN QUARTILE 1 MEDIANE QUARTILE 3 MAX amplitude IQR MOYENNE ECARTYPEP CV 0,7 2 2,6 3,2 4,8 4,1 1,2 2,644 0,897 33,94% INTSU 1,2 2,675 3,3 3,725 5 3,8 1,05 3,186 0,785 24,64%

KURTOSIS -0,324 -0,447 COEFFICIENT.ASYMETRIE 0,173 -0,320

L'indice de satisfaction a dj t comment. La note d'intrt des sujets se rsume sensiblement de la mme manire mais "amliore" d'environ 1/2 point. Pour cet indicateur, on remarque galement les proximits entre moyenne et mdiane. Remarque Notons D l'cart entre les notes de satisfaction et d'intrt des sujets. D = SATI - INTSU Rsumons D -Mdiane =-0500 -Moyenne = -0,540 - Ecart-type = 0,503.

Tableau 15.16 Paramtres statistiques de l'intrt des sujets et de l'indice de satisfaction.

Distribution des frquences et histogrammes groups


Frquences relatives Classes 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 SATI
3,23% 9,68% 15,32% 20,97% 20,16% 16,94% 7,26% 3.23% 3,23% 100%

INTSU
0,00% 2,42% 8,87% 10,48% 19,35% 21,77% 24,19% 10,48% 2,42% 100%

Tableau 15.17 Distribution des frquences relatives de l'intrt des sujets et de l'indice de satisfaction.

Figure 15.8 Histogramme de l'intrt des sujets et de l'indice de satisfaction.

Comme on a pu le remarquer lors de l'examen des paramtres statistiques de positions, il apparat le dcalage vers la droite (fortes valeurs) de la distribution de la note d'intrt des sujets par rapport l'indice de satisfaction.

257

Mdiane et moyenne n'appartiennent pas aux classes modales mais ceci est d la finesse de l'amplitude des classes (0,5 point) ; avec une amplitude de 1 point, l'appartenance est effective. Statistique infrentielle Indiquons l'intervalle de confiance sous sa forme d'cart alatoire A autour de la moyenne observe dans l'chantillon. Au niveau de confiance 95%, nous trouvons A '= 0,16 pour l'intrt des sujets et A = 0,14 pour l'indice de satisfaction. Les deux critres ont des longueurs d'intervalle de confiance proches de 0,3. Par ailleurs nous avons not un cart de 0,5 point entre les moyennes. En comparant ces deux valeurs, l'importance des carts de moyenne semble vidente. Pour la mettre en vidence, nous allons dterminer les intervalles de confiance au niveau 95%. L'valuation des intervalles de confiances donne [2,5 ; 2,8] pour l'indice de satisfaction et [3 ; 3,3] pour l'intrt des sujets. Ces intervalles sont disjoints. Le score de l'intrt des sujets semble donc dominer celui de l'indice de satisfaction. 15.3.2.2. Statistique bivarie Statistique descriptive Le rsum de la srie double par le coefficient de corrlation donne le rsultat R = 0,829 L'intrt des sujets traits et l'indice de satisfaction sont fortement corrls positivement. L'augmentation de la note d'intrt des sujets induit une augmentation de l'indice de satisfaction, ce qui est assez naturel. Graphique : nuage bidimensionnel
Titre du graphique
y =0,9481x-0.3775 R = 0,6879
2

SATI

Linaire (SATI)

Le nuage s'talant longitudinalement, nous avons affich la droite des moindres carrs. Le coefficient de dtermination nous montre que prs de 70% de la variabilit de l'indice de satisfaction est explique par ce modle de rgression simple. Expression du modle : Lorsque la note d'intrt des sujets crot de 1 point, l'indice de satisfaction augmente de 0,948.
Figure 15.9 Droite de rgression de l'indice de satisfaction en fonction de l'intrt des sujets.

intrt sujets

Statistique infrentielle Pour tester l'galit des deux notes moyenne d'intrt des sujets et de satisfaction, on ralise le test de Student (chantillons apparis).

258

On trouve une probabilit critique de 2,3E-22. Le test est trs hautement significatif. Les notes moyennes d'intrt des sujets et de satisfaction sont significativement diffrentes (risque 2.3E-22).

15.3.3. Axe 3 : intrt de thmes traits selon les productions


15.3.3.1. Statistique bivarie Stratgie 1 : donnes de base QT x QL Statistique descriptive On dcrit la note d'intrt des sujets pour chaque famille de production. Les paramtres statistiques sont indiqus sur le tableau 15.18 suivant
Grandes cultures P1 19 1,8 2,55 3 3,45 4,2 2,4 0,9 3,016 0,632 21% levage P2 33 1,2 1,9 2,3 2,8 3,7 2,5 0,9 2,355 0,585 25% Viticulture P3 39 2 3,3 3,7 3,9 4,6 2,6 0,6 3,590 0,511 14% Autres P4 33 2,6 3,2 3,6 4 5 2,4 0,8 3,639 0,573 16%

NBVAL MIN QUARTILE 1 MEDIANE QUARTILE 3 MAX Amplitude IQR MOYENNE ECARTYPEP CV

Tableau 15.18 Paramtres statistiques de l'intrt des sujets selon la famille de production.

On remarque la proximit des moyennes et des mdianes pour chacune des productions. La production Pz (levage) se dmarque nettement par sa "svrit" (valeurs les plus basses). Les meilleurs scores moyens et mdians sont relatifs la viticulture et au rassemblement "autres productions". Du point de vue de la dispersion, les diffrentes productions sont voisines : amplitude, IQR et carts-types sont homognes. Le coefficient de variation de la catgorie "Elevage" est plus lev. Ceci est la consquence de la faible valeur de la moyenne. On note un effet similaire quoique moins marqu pour les "grandes cultures" (Pi). Enfin, en examinant les couples (Min, Max) et (Qi, Qy), on remarque la hirarchie approximative suivante, dans le sens de la croissance d'intrt : 1. Elevage ; 2. Grandes cultures ; 3. Viticulture ; 4. Autres productions. (3 et 4 proches). Distribution des frquences et histogrammes groups Les amplitudes des quatre productions tant voisines de 2,5 et les "Min" tant dcals, nous avons choisi un intervalle de longueur de classe limite 0,5 point. Dans cet axe de recherche, nous avons besoin d'une approche plus fine des distributions. Nous remarquons une assez bonne symtrie des distributions qui prsente une allure de loi gaussienne. Nous retrouvons la "translation" des distributions dj remarque travers les indices statistiques rsums. En partant des notes les plus basses vers les notes plus leves, on trouve successivement l'levage (P), les grandes cultures (Pi), la viticulture (P) et, trs proches, les autres productions (P^).

259

Il apparat galement que les classes modales contiennent la moyenne et la mdiane pour les 4 productions. C'est assez naturel pour des distributions relativement symtriques.
Frquences absolues Classes 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 Totaux Pi 0 2 3 5 5 3 1 0 19 P 3 8 10 9 1 2 0 0 33
P3 P4

0 1 0 5 11 15 6 1 39

0 0 0 5 10 10 6 2 33

Frquences relatives Classes 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 Totaux Tableaux 15.19 P, 0% 11% 16% 26% 26% 16% 5% 0%
100%
P2

9% 24% 31% 27% 3% 6% 0% 0%


100%

Pa 0% 3% 0% 13% 28% 38% 15% 3%


100%

P4

0% 0% 0% 15% 30% 31% 18% 6%


100%

Distributions des frquences absolues et relatives de l'intrt des sujets selon la production.

Figure 15.10

Histogrammes de l'intrt des sujets selon la famille de production.

Statistique infrentielle Est-ce que les notes moyennes d'intrt des sujets sont identiques pour tous les types de production ? Pour rpondre cette question, l'outil classique est l'ANALYSE DE VARIANCE un facteur, ici le facteur production. Cependant, pour l'utiliser, nous devons nous assurer que les distributions des quatre productions sont gaussiennes et de mme variance.

260

Normalit des distributions Nous venons de noter l'allure gaussienne des distributions. Un test de normalit pourrait tre ralis au moyen du test du Khi-deux. Ce test a des limites : nous savons qu'il est dpendant du dcoupage en classes. De plus, dans le cas souhait d'acceptation de normalit, le risque p est inconnu. Cependant il nous rassure sur une certaine lgitimit. Nous laissons au lecteur le soin de le raliser (cf 9.1.2). Nous considrerons les distributions sensiblement normales. De plus, les chantillons n'tant pas petits, l'approximation sera d'autant plus tolrable. galit des variances Nous ralisons le test F au moyen d'Excel (rsultat divis par deux)
Couples de productions Pi P, P, Pi
P2

(1/2)*TESTF 32,057% 11,911% 28,678% 20,879% 45,524% 24,415%

PS
P3 ?4 P3 P4 P4

PS

Toutes les probabilits critiques sont suprieures, au niveau de test classique : 5%. Nous dcidons de ne pas refuser l'galit des variances. Nous considrons qu'il y a homoscdasticit de la note d'intrt pour les 4 productions. Nous ralisons maintenant l'analyse de variance un facteur, le facteur production 4 modalits Pi, P2, ?3 et P4.

Tableau 15.20 Test d'galit des variances de l'intrt des sujets pour les couples de production (probabilits critiques). Origine des dispersions INTERCLASSES INTRACLASSES Total SCE 36,505 39,902 76,407 DDL 3 120 123 CM 12,168 0,333 Fobserv 36,595 Probabilit critique 7.23E-17 F thorique 2,680

Tableau 15.21 Tableau de l'analyse de variance de l'intrt des sujets selon le facteur production 4 modalits Pi, Pz, Pa et P<.

L'analyse de variance est trs hautement significative. Au moins une des quatre notes moyennes se distingue des autres. Dans l'tude descriptive, nous avons remarqu que la moyenne de la note d'intrt pour la production "levage" (Ti) tait nettement plus petite que les autres. Nous proposons de faire une autre analyse de variance en cartant cette production. Il ne reste donc que trois modalits seulement : Pi, Pa et ?4. Origine des dispersions
INTERCLASSES

SCE 5,397
28,620 34,017

DDL
2 88 90

CM 2,698 0,325

Fobserv Probabilit critique 8,297 5.00E-04

F thorique 3,100

INTRACLASSES Total

Tableau 15.22 Tableau de l'analyse de variance aprs avoir cart la production P;.

Malgr la trs forte croissance de la probabilit critique, cette analyse de variance reste significative.

261

Nous proposons enfin de comparer les notes moyennes en considrant les productions 2 2. Nous ralisons un test de Student par couple de productions, ce qui quivaut une analyse de variance un facteur deux modalits. Prises 2 par 2, les notes moyennes sont significativement diffrentes, exceptes celles de Pa (viticulture) et P4 (autres productions). L'analyse descriptive avait dj mis en vidence l'troite proximit entre ces deux familles de production.

Couples de productions P, Pi P, PS P, ?4
?2 ?2 P3 ?4 ?4

PS

Test de Student 0,048% 0,059% 0,081% 0,000% 0,000% 70,29%

Stratgie 2 : donnes de base QL x QL Comme il a t expliqu dans les exploitations statistiques prcdentes, la variable quantitative "note d'intrt" peut, aprs dcoupage en classes, tre transforme en variable qualitative. Un choix de classes a t ralis lors de la dtermination des distributions de frquence (tude descriptive). En examinant la distribution des frquences absolues, il apparat, dans les classes extrmes, des effectifs faibles, ce qui est logique, mais aussi des effectifs nuls. Nous dcidons de regrouper les classes extrmes et notons : INT1 pour note < 2,5 INT2 pour 2,5< note < 3 INT3 pour 3 < note < 3,5 INT4 pour note > 3,5 (peu d'intrt) (intrt moyen) (bon intrt) (trs bon intrt) Classes Le tableau de contingence (effectifs observs) correspondant est indiqu ci-contre.
<=2,5 3 3,5 >3,5

^^ ^ ^ -^ ^ 3^^ ^ couples de production (probabilits critiques)

Oij INT1 INT2 INT3 INT4

P1 5 5 5 4

P2 21 9 1 2

P3 1 5 11 22

P4 0 5 10 18

Tableau 15.24 Rpartition des effectifs observs selon les niveaux d'intrt des sujets et les productions

Statistique descriptive Nous proposons de n'examiner que les profils selon les productions car pour notre question, ce sont les plus intressants.
Intrt INT1 INT2 INT3 INT4 Totaux P1 27% 26% 26% 21% 100% P2 64% 27% 3% 6% 100% P3 3% 13% 28% 56% 100% P4 0% 15% 30% 55% 100%

Profil moyen 22% 19%


22% 37% 100%

Poids

15%

27%

31%

27%

Tableau 15.25 Profils lignes productions.

262

Ce nouveau dcoupage en classes, plus grossier du fait de la fusion des classes extrmes, met en vidence les rsultats dominants. Pour le profil "grandes cultures" (Pi), la rpartition selon les quatre classes d'intrt est sensiblement uniforme. On note le faible poids de cette catgorie dans l'chantillon enqut Pour le profil "levage" (P2), prs de 90% des enquts de cette catgorie ont trouv peu d'intrt ou un intrt moyen aux sujets traits (contre prs de 40% dans l'ensemble des enquts). En ce qui concerne les profils "viticulture " (P) et "autres productions (P4), ces catgories ont massivement apprci les thmes traits. Prs de 85% des enquts de ces catgories ont marqu un bon ou trs bon intrt, contre environ 59% pour l'ensemble. On peut souligner que ces catgories ont un poids important dans l'chantillon (respectivement 31% et 27%). Qualitativement, on retrouve les rsultats des analyses prcdentes mais l'expression de ces pourcentages par production et toutes productions confondues sont gnralement trs apprcies et trs parlantes pour les commanditaires de ce type d'enqute.
Statistique infrentielle

Nous proposons de raliser une test du Khi-deux pour voir si l'intrt des sujets traits est homogne selon les productions.
Cij INT1 INT2 INT3 INT4 P1 4,137 3,677 4,137 7,048 P2 7,185 6,387 7,185 12,242 P3 8,492 7,548 8,492 14,468 P4 7,185 6,387 7,185 12,242

Tableau 15.26 Effectifs thoriques intrt des sujets - type de production.

Comme on le pressentait, le rsultat de TEST.KHIDEUX montre que le test est trs hautement significatif. L'intrt varie selon le type de production. Les profils selon les productions sont suffisamment clairs pour viter toute nouvelle recherche. En considrant les calculs relatifs ce test, une petite critique s'impose. Certains effectifs thoriques (production "grandes cultures" Pi) sont un peu faibles. Gnralement, on considre que l'effectif thorique doit tre au moins gal 5, mme si 3 est parfois tolr. On peut fusionner d'une part les 2 premires classes de niveau d'intrt et d'autre part les 2 dernires et on refait le test.
Tableau de contingence : effectifs observs P1 P2 P3 P4 Oii INT1-INT2 10 30 6 5 INT3-INT4 9 3 33 28

Tableau de contingence : effectifs ______thoriques______


P2 P1 P3 P4 Cij INT1-INT2 7,81 13,57 16,04 13,57 INT3-INT4 11,19 19,43 22,96 19,43

Test Khi-deux : 8.018E-12.


Tableau 15.27 Effectifs observs (Oij) et thoriques (C,,) des niveaux d'intrt des sujets (aprs regroupement des classes) selon les productions .

Le rsultat est similaire, mais la richesse des donnes est cependant un peu trop masque puisque nous n'avons plus que 2 niveaux d'intrt que l'on peut qualifier, par exemple, de "faible" et "fort".

263

15.4. CONCLUSION En rsum, nous retiendrons que la catgorie "levage" est peu intresse par les sujets traits contrairement aux famille "viticulture" et "Autres productions" ; la famille "Grandes cultures" a quant elle des apprciations partages. On peut supposer que les "leveurs", perturbs par les rcentes crises, souhaitaient peuttre des informations sur ces sujets... Pour les concepteurs du magazine, le rsultat des "viticulteurs" est clair. Le bon rsultat de la famille "Autres productions", catgorie "fourre-tout", souvent ncessaire dans ce genre d'enqute, n'est pas vraiment surprenant. Un ventail de producteurs confronts la diversit des sujets peut, globalement, gnrer un bon intrt. Ce rsultat, mme peu cibl, est certainement encourageant. D'autres axes de recherches pourraient tre exploits avec ces donnes tels que par exemple mettre en rapport les qualit de lecture des rubriques et l'intrt des sujets, travailler par famille de production, etc. Avec l'outil Excel, les dmarches seraient relativement voisines. En conclusion, nous avons dcrit les donnes, montr la souplesse de transformation des variables et enfin essay d'valuer des risques. Par des stratgies statistiques diffrentes, nous avons abouti aux mmes conclusions concrtes. Pour les praticiens, c'est le but fondamental de la dmarche statistique. En statistique applique, le souci rel est de fiabiliser les rsultats.

264

16. CONSEILS AU PRATICIEN DBUTANT...


Dans ce chapitre, en guise de conclusion, nous nous permettons de donner quelques recommandations au praticien dbutant. Dans une approche rapide et donc simplificatrice, nous pensons deux profils bien distincts de tels utilisateurs : le statisticien sans pratique et le professionnel sans culture statistique. 1. Le praticien ayant reu une solide et classique formation en statistique Nous savons (par exprience!) qu'il matrise plutt bien la construction des outils thoriques notamment dans leurs aspects mathmatiques. La formation ne privilgie pas l'utilisation concrte de l'outil ni le travail sur des donnes relles. Il est quelque peu dboussol devant cette ralit, son immense diversit et la multiplicit des facteurs en interaction. Il est dmuni face la difficult de faire pouser ce rel la beaut parfaite des lois mathmatiques pourtant nombreuses et qui lui sont familires. 2. Le praticien par ncessit et besoin mais sans culture statistique Son profil est quasiment l'oppos du prcdent. Il travaille dans un domaine exigeant l'analyse et la stratgie statistique. Malgr les plaisanteries courantes sur la Statistique, il la considre gnralement comme une technique, une science qui lui permettent de rsoudre obligatoirement ses problmes et de leur trouver une rponse unique et prcise. Il a parfois un peu de mal apprhender l'aspect alatoire d'un chantillon ou d'une enqute et accepter la prsence de risques. Il matrise bien la ralit de ses donnes. 3. On peut rajouter ces portraits celui des tudiants dans les disciplines ncessitant l'utilisation de la statistique. Intermdiaire entre les deux types que nous venons de dcrire, il volue gnralement rapidement vers le deuxime. A tous ces utilisateurs, nous conseillons de commencer dcrire des donnes relles. Excel est un trs bon outil pour cette initiation. Nous suggrons tout d'abord d'observer attentivement les donnes puis de les classer, les ordonner. Ensuite il faut se familiariser "concrtement" avec les outils les plus simples et les plus classiques de statistique descriptive. Aprs avoir appris rsumer les donnes concrtes par des paramtres statistiques et les illustrer par des graphiques, il est instructif de faire un va-et-vient entre les donnes et les rsultats trouvs. Cela permet de bien saisir les indicateurs pertinents qui schmatisent les donnes mais aussi l'invitable dformation qu'induisent les outils statistiques. Tester la sensibilit des rsultats en cartant les valeurs extrmes, en modifiant des valeurs, en adoptant plusieurs dcoupages en classes pour la ralisation d'histogrammes sont des stratgies ludiques et particulirement formatrices pour apprivoiser la fois les donnes concrtes et l'utilisation des outils. Aprs l'apprentissage de la statistique descriptive classique, nous conseillons plus spcifiquement au praticien du deuxime type, praticien par ncessit, de se familiariser avec le calcul des probabilits et d'aller en quelque sorte la rencontre de l'alatoire! Nous conseillons de "jouer" avec les simulations, d'essayer ainsi d'approcher les rsultats de convergence tels que la loi des grands nombres, le thorme central limite. Cela

lui permettra de rentrer en douceur dans la statistique infrentielle. Nous lui conseillons par exemple d'extraire d'une population bien dfinie plusieurs chantillons alatoires de mme taille L'analyse descriptive des moyennes de ces chantillons conduit de faon naturelle une prise de conscience des fluctuations alatoires de ces moyennes, la ncessit de dfinir la "marge d'erreur", l'intervalle de probabilit (ou de pari), les tests. Ritrer une telle extraction en augmentant la taille de l'chantillon et c'est alors la distribution normale des moyennes qui va se dessiner et lisser les histogrammes de l'analyse descriptive... Un tel parcours conduit invitablement prendre conscience de la fragilit de certains rsultats et de la notion de risques. Cela est d'autant plus vrai que dans le rel, on travaille souvent partir d'un petit nombre d'chantillons voire d'un seul. La convivialit d'Excel permet d'entrer trs progressivement dans les statistiques et de prendre de plus en plus de hauteur vis vis des donnes. Elle facilite l'initiation ainsi que le travail en quipe puisque ce logiciel est trs largement rpandu. Il nous parat ensuite important d'encourager le praticien poursuivre sa formation en tudiant d'autres techniques statistiques comme l'analyse exploratoire des donnes, l'analyse de donnes qui permettent de mieux "embrasser" la richesse de la realit. Des logiciels spcifiques de statistique seront alors ncessaires. Nous conseillons de choisir des logiciels communiquant facilement avec Excel tant au niveau des donnes que des rsultats ("importation" et "exportation"). Pour terminer, le praticien, parti du rel y revient! Nous lui rappelons que ce sont avant tout les donnes (issues bien entendu d'un recueil correct) qui ont raison et non la technique statistique. Lorsqu'on travaille sur des ralits de terrain, nous savons que nous sommes contraints adopter des compromis avec la thorie tant au niveau des types de variables que des conditions de validit, etc. Le plus sage est dj d'inventorier ces entorses et ensuite de rechercher d'autres stratgies statistiques permettant d'approcher le mme aspect concret. Une relative stabilit dans les rsultats concrets est scurisante. Nous incitons le praticien se poser des questions : quelle fiabilit (ou fragilit) accorder telle dcision ? Est-ce que les dcisions envisages sont logiques par rapport au concret ? Peut-on valider sans danger les rsultats ? Dans tous les cas. le bons sens doit tre privilgi. Nous recommandons aussi une grande prudence dans la recherche d'explications de rsultats de corrlations ou de correspondances. Nous pensons que seul le commanditaire de l'tude, qui connat bien son domaine peut oser avancer la causalit ou l'hypothse d'artefacts ventuels. Enfin, nous avons tous entendu des propos ressemblant "on peut faire dire tout ce que l'on veut aux statistiques" Ils ne sont pas tout fait dnus de vrit puisque les outils statistiques laissent une part de libert dans la prise de dcision Cela commence par la relative autonomie dans l'art de poser les questions dans une enqute. Qui n'a jamais dcel dans certains questionnaires un manque certain d'objectivit ? Il y a ensuite la faon d'exploiter les donnes, de les classer, de les regrouper, de les recoder. Le choix de la hauteur du risque pris dans la dcision reste un problme pour le moins dlicat. On peut enfin jouer fortement sur le "look" de la prsentation des rsultats. Plus on travaille dans le rel et plus on prend conscience de cette souplesse et de cette mallabilit de l'outil statistique. Objectivit, prudence et bon sens devraient tre les matres mots des utilisateurs! On comprend que tout cela nous apprend apprcier mais aussi nous tonner, rester critique et, dans le meilleur des cas, dcoder les rsultats statistiques dans les domaines conomiques ou techniques , publis ici ou l sur les nombreux mdias mis notre disposition. En conclusion, la statistique nous confronte notre thique personnelle ..

266

ANNEXES

PRINCIPALES FONCTIONNALITES UTILISEES DANS EXCEL


Systme de rfrences (Al ou L ICI) Poigne de recopie Rfrences absolues et relatives Fonctions et botes de dialogue Nommer une plage de cellules Gestion des "manquants" Formules matricielles Tableau crois dynamique
*********

Remarque : la prsente annexe ne prtend en aucune manire remplacer la nombreuse littrature consacre l'utilisation du logiciel ni l'utilisation de son aide en ligne (touche FI). Nous rappelons simplement quelques principes importants de manipulation frquemment utiliss dans le prsent ouvrage. 1. SYSTME DE RFRENCE (Al OU L1C1) II s'agit du procd permettant de localiser une cellule et, par extension, une plage de cellules. Par dfaut, Excel utilise le style de rfrence "Al" qui tiquette les colonnes par des lettres (de A IV, pour couvrir 256 colonnes) et les lignes par des numros (de 1 65536). Ces lettres et numros portent le nom d'en-ttes de ligne et de colonne.

fi

33

1 fe

-S^-

'

Dans le systme de rfrence dit "L1C1", les colonnes sont elles aussi numrotes (de 1 256). La cellule B5 ci-dessus s'appelle alors L5C2 (ligne 5 et colonne 2). Pour passer d'un systme l'autre, il faut utiliser l'onglet "Gnral" (zone Paramtres) du menu Outils / Options. En fonction du systme que l'on a choisi, les formules de calcul s'crivent de faon diffrente. Par exemple, la somme des 3 cellules portant les valeurs 9, 2 et 3 ci-dessous, obtenue en slectionnant la cellule en dessous de celle portant le libell "Total" puis en cliquant le bouton E (barre d'outils standard) ou en appelant la fonction SOMME, s'crit : =SOMME (B2:D2) dans le systme de rfrences Al (= somme des cellules comprises entre les cellules B2 et D2, bornes comprises); il s'agit de rfrences "absolues", c'est dire par rapport au refrentiel de la feuille Excel : colonnes B et D, ligne 2.

^ E2 ^,A t .j^',:rj =SOMME(B2:D2) F ..8- C 101 -r E Xi 9 X; 2 Xs 3 Total 14

3 X 2 ai =30MME(LC(-3):LC(-li) 4 5 6 L ? .

^ t 2 ^

x 3,

.1
'3..

Xi

Xa

Total 14

=SOMME(LC(-3):LC(-1)) dans le systme L1C1. Dans ce systme, les rfrences sont faites par rapport la cellule devant recevoir le rsultat de la fonction(= somme des cellules comprises sur la mme ligne, entre les colonnes situes respectivement 3 colonnes avant, c'est dire gauche et 1 colonne avant). Dans ce systme, Excel utilise par dfaut des rfrences "relatives". L'expression =SOMME(L2C2:L2C4) crites avec des rfrences "absolues" aurait, bien entendu donn le mme rsultat. Dans le paragraphe 1.3, on verra comment, inversement, on peut crire des rfrences relatives avec un systme de rfrence Al.

2. POIGNEE DE RECOPIE Pour certains types de calculs, il peut tre trs pratique d'utiliser la poigne de recopie . Exemple 1 Soit un ensemble de variables relatives aux mmes observations (observations = individus = units statistiques = u s ). Pour chacune de ces variables, on souhaite calculer les paramtres statistiques classiques : moyenne, cart-type, SCE... VARIABLES Observations ^ 1 ... n

Xi

.... .... ....

X,

Xll

Xlp

*np

Xnl

Moyenne
Mdi&ne SCE

Pour la premire variable Xi, on calcule tous les paramtres statistiques recherchs (moyenne, mdiane, etc...), on slectionne ensuite la plage de cellules contenant ces rsultats et on "tire" droite. Cela veut dire qu'on effectue un "cliquer-glisser" avec la souris partir du petit signe + qui apparat en bas droite de la slection ("poigne de recopie"). Les formules de la plage slectionne se recopieront sur les colonnes de droite en s'adaptant en fonction de leur position. Cette procdure est quivalente la "recopie droite".

270

Exemple 2 : Calcul de nouvelles variables, partir de variables initiales Soit un ensemble d'une ou plusieurs variables relatives aux mmes observations. On s'intresse de nouvelles variables calcules partir des variables de dpart. Supposons que l'on s'intresse par exemple la diffrence des 2 premires variables.

VARIABLES > Observations

4. l
2 n

X, xn
Xl2

X2

D = Xi - X2 Xn -xi2
+

Xl2 X22

Xnl

Xn2

Xnl - X,,2

On calcule la diffrence xn - xi2 en saisissant la formule "= cellule contenant xi i - cellule contenant xi2 " On slectionne ensuite la cellule contenant le rsultat et on tire la poigne de recopie vers le bas. Remarque : 11 est galement possible de recopier "vers le haut" ou "vers la gauche". Il suffit de positionner la poigne en haut gauche de la cellule, d'appuyer sur la touche CTRL et de faire glisser dans le sens souhait. Ce type de recopie est beaucoup moins frquent mais peut tre utile par exemple dans le cas de suppressions accidentelles de cellules. 11 faut noter que la procdure par "poigne de recopie" suppose que l'on travaille en rfrences relatives. Le paragraphe suivant dtaille cette notion. 3. RFRENCES ABSOLUES ET RELATIVES
1 2

4 2 U l.-J.4.-.,lJ.JL.L;.., -y--
3 3 - ..^^.. 3 0 0 0 0 0

3 . '4 5
~<o~

3 '.' 3 " 7' ....... :A,;

La diffrence entre rfrences absolues et rfrences relatives s'apprhende facilement si l'on fait le petit test suivant: choisissons le systme de rfrence L1C1 et saisissons une valeur quelconque, par exemple 3 dans la cellule L 1 C 1.

Dans la cellule L2C2, on a saisi la formule ^LICl (rfrence absolue), nous obtenons la mme valeur 3 On a effectu la mme saisie dans les cellules situes en dessous : on obtient encore 3 Dans la cellule L2C3 par contre, on a saisi =L(-1)C(-2), c'est dire "gale la valeur situe une ligne au-dessus et 2 colonnes gauche": on obtient bien entendu encore 3. Mais si on fait la mme saisie dans les cellules situes en dessous, on obtient cette fois 0 car cette formule fait maintenant rfrence, non plus la cellule L1C1 mais la cellule ligne 2, colonne 1. Dans le deuxime exemple du paragraphe prcdent, il est clair que si la formule de la cellule en gris exprimant la diffrence entre les deux cellules de gauche tait crite avec des

271

rfrences absolues, la poigne de recopie aurait transport "en dessous" la mme diffrence xn - \i2 . On comprend toute l'importance de ces notions de rfrences absolues et relatives dans le processus de copie, notamment celui qui utilise la poigne de recopie. Par dfaut, dans les formules dans lesquelles sont "incrimines" des cellules (en cliquant dessus), Excel utilise des rfrences relatives de sorte que les copies et recopies sont conformes ce que l'on cherche calculer.
D2
A

=B2-C2
8

VARIABLES

1 ===> OBSERVATIONS
d1

X,

12

Dans le systme de rfrence choisi ci-dessus, on a effectu la diffrence entre les cellules contenant 7 et 4 en saisissant dans la cellule D2 grise la formule obtenue au moyen des oprations suivantes : saisie du signe "=" , clic sur la cellule B2, saisie du signe "-", clic sur la cellule C2 et "Entre", ce qui donne "=B2-C2" et le rsultat 3. En recopiant vers le bas (poigne de recopie) , on trouve 10, .. , 4. En slectionnant D3, on verra que la barre de formule contient "=B3-C3" et non pas "=B2-C2" : la formule copie s'est "adapte" la cellule de destination. Les cellules sont bien rfrences en relatif. Comment faire alors pour que, dans cette recopie, la formule se transporte "sans adaptation" ? tant donn que les colonnes concernes par les diffrences sont toujours B et C, il faut faire en sorte qu'Excel ne change pas le numro de la ligne. Il faut donc la "fixer". Pour cela, il suffit de saisir dans D2 la formule "=B$2-C$2" dans laquelle on a positionn un signe "$" devant l'lment fixer en l'occurrence la ligne. La recopie vers le bas transporte cette formule sans modification de sorte qu'au lieu de 10 et de 4, on verra toujours 3, diffrence entre B2 et C2. Nous avons fix la ligne. Dans d'autres cas, on peut aussi fixer la colonne ou bien fixer les deux ou enfin, comme au dbut, ne rien fixer du tout, soit 4 possibilits d'criture. Pour passer de l'une l'autre, on peut saisir directement le signe "$" l'endroit souhait ou, aprs avoir slectionn la rfrence de la cellule concerne (voire la formule entire si besoin est) dans la barre de formule, appuyer un certain nombre de fois sur la touche F4 du clavier ce qui permet de balayer les 4 possibilits. Le tableau suivant rsume ces dernires dans les deux systmes de rfrence "Al" et L1C1". On suppose dans ce tableau qu'une formule contenue dans la cellule D8 ou L8C4 fasse rfrence la cellule F5. "Al" F5 $F5 F$5 $F$5 "L1C1" L(-3)C(2) L(-3)C6 L5C(2) L5C6 Cellule situe... ... 3 lignes au dessus, 2 colonnes droite ... 3 lignes au dessus, colonne 6 ... ligne 5, 2 colonnes droite ... ligne 5, colonne 6

Rien n'est fix Colonne fixe Lignefixe Ligne et colonne fixe

Appliquons ces procds un problme plus statistique. A partir du tableau des effectifs observs 0; j (premire partie du tableau ci-dessous), proposons-nous de calculer les effectifs thoriques correspondants C,j. Aprs avoir dtermin la valeur de l'effectif thorique "XiYi", une recopie (poigne) droite permettra de calculer les deux valeurs "XiY?" et "X)Y3"; puis,

272

aprs avoir slectionn les 3 cellules de la ligne, une nouvelle recopie vers le bas (poigne) fournira les 9 autres valeurs. Pour que ces recopies fournissent les valeurs correctes, il s'agit d'crire correctement la formule saisir dans la cellule "XiYi", savoir : _ Total ligne (Y.) x Total colonne (X,) . 14 x 46 C/..J soit Total gnral 122
' B9

^^Wy"^:

"3~~'i=t2*B6/tE6 : -F:1- - -^;,r": Effectifs Y, Y, Ya Total obseres X, 9 5 19 13 46 2 16 14 13 45 3 11 13 4 31 14 32 46 30 122

''
"

X;
X3

';
^i

X,

m?

,&''

Total

Effectifs '. w'- thoriques

Y,

Y2

YB

^
ife

Xi
X, Xa X4

52787 5,1639 35574 12J06G 11JB03 8,1311 173+4 16.967 11JB89

On cliquera successivement sur: cellule B9, = cellule E2, *, cellule B6, /, cellule E6 et sr Entre. Dans le systme Al, par dfaut, Excel affiche =E2*B6/E6; dans le systme L1C1, Excel affiche =L(-7)C(3.)*L(-3)C/L(3)C(3); comme nous l'avons indiqu, Excel dtermine tout en rfrences relatives. Mme si le rsultat est exact pour la cellule B9 ("XiYi"), il ne faut pas conserver cette formule si l'on veut ensuite faire des recopies correctes.

^; ^'

^i - .<~i

::

11311 11X166

'

''

7.623

Dans la barre de formule, il faudra slectionner chacune des 3 cellules concernes par l'opration et, par des appuis successifs sur la touche F4, aboutir la formule adquate pour les recopies : =$E2*B$6/$E$6 dans le systme Al ou =L(-7)C5*L6C/L6C5 dans le systme L1C1 Dans le premier terme $E2 ou L(-7)C5, le signe $ indique que la colonne E (colonne 5) est fixe (rfrence absolue) quelle que soit la cellule de destination du calcul, et que la ligne 2 (ou 7 lignes au-dessus) varie (rfrence relative) en fonction de cette cellule. Cette formule donne videmment le mme rsultat dans la cellule "XiYi". On peut maintenant faire les deux recopies vers la droite et vers le bas indiques prcdemment. Dans le prsent ouvrage, nous n'utiliserons que le rfrentiel L1C1, beaucoup plus "mathmatique". H rappelle le langage matriciel "ligne-colonne", est plus facile manipuler dans les tableaux multi-variables, permet une change correct avec d'autres logiciels de statistique. 4. FONCTIONS ET BOTES DE DIALOGUE Une cellule d'une feuille Excel peut contenir une valeur (-12,91), du texte ("Totaux"), une formule de type arithmtique (=4*PIQ), une formule contenant une ou plusieurs rfrences d'autres cellules comme on l'a vu dans le paragraphe prcdent ou bien une fonction. Les fonctions sont des formules prdfinies qui effectuent des calculs en utilisant des valeurs particulires appeles arguments, dans un certain ordre (ou structure). Par exemple, la fonction ABS(argument) permet d'introduire dans une cellule la valeur absolue de l'argument indiqu. Pour cette fonction ABS cet argument peut tre une valeur (-12), une rfrence une cellule (L1C12), une autre fonction combine ou pas, etc. Par exemple, si la cellule L1C1

273

contient la formule =COS(PI()) dont le rsultat est -1, l'introduction dans la cellule L1C2 de la formule =ABS(LC(-1)) donnera 1. Certaines fonctions ncessitent la saisie d'arguments valeurs logiques ("vrai" ou "faux"). Il est clair que pour la fonction utilise, l'argument doit tre valide. C'est ainsi que l'introduction dans une cellule de la fonction =ABS("total") fournit le "rsultat" #VALEUR indiquant qu'un tel contenu de cellule ne peut tre valu par le logiciel puisqu'on ne saurait calculer la valeur absolue d'un texte ! Ces principes gnraux tant tablis, nous invitons le lecteur se reporter l'aide en ligne du logiciel ou des manuels pour dcouvrir la puissance de ces procdures. Nous indiquerons simplement ici les deux faons d'introduire une fonction dans une cellule. Lorsqu'on connat bien la fonction et les arguments qui la paramtrent, on l'introduit directement dans la cellule sans oublier le signe "=" qui doit la prcder sinon Excel croit qu'il s'agit d'un texte. Par exemple, comme on vient de le voir, on peut saisir dans une cellule la fonction ABS() en crivant "=abs(-12)". Si la saisie est valide, le logiciel met le nom de la fonction en majuscules et fait le calcul. La barre de formule contient toujours la formule, la cellule donne son rsultat. Si par contre, la fonction possde plusieurs arguments dont on connat mal l'ordre et/ou la signification, on peut passer par sa "bote de dialogue" qui s'affiche lorsqu'on clique sur le menu Insertion / Fonction... et que l'on a choisi la fonction dsire dans la liste propose.

Pour cette mme fonction ABS, un novice en Excel aurait donc sous les yeux la bote ci-contre :

Rfiwoie la i^tM ahsobe cf^ nombre, UT) ffii^ve sans sm ogre.

ert te rornbte rel dort TOUS TOie;[titHir la ate.-ratisttit,

Dans la zone Nombre, il saisirait -12 et validerait. Cette procdure donne le mme rsultat que prcdemment : la barre de formule contient la formule, la cellule le rsultat. La saisie dans les zones des botes de dialogue peut tre aussi simple ou plus complique : elle peut tre une combinaison de calculs arithmtiques non effectus (12-3+PIQ), contenir des rfrences de cellules, etc. L'important est que cette saisie soit valide pour la fonction considre. L'avantage de cette procdure rside dans le fait que les arguments saisir sont documents en direct : le seul clic dans une zone active l'aide sur l'argument saisir. Le rsultat du calcul apparat mme avant validation dans le bas de la bote.
l'raM't* JUS OevtsJbdtl |j DegrtiJftcMfz fS

Renro Fimerse (te ^ dtsfatbutton de xobabft aft-wt ins toi f" sf p < tO.F'(x,...), fafs BWBISE.I-OI.fjp,,..)-. OcysJtostt2 reprsente te noirihre de de^g de XxxtdtJdnQRihatetrtUtfKinibFe entre i eUtl^lO, UMO sxtkB.

La fonction 1NVERSE.L01.F (ne pas oublier les points entre les mots...) peut donc tre insre dans une cellule directement : -INVERSE.LOLF(0,05;3;18) ou par l'intermdiaire de la bote de dialogue ci-contre.

E l

274

Signalons aussi qu'un certain nombre de fonctions admettent un nombre d'arguments variable. C'est ainsi que la fonction MOYENNE peut tre crite sous les formes suivantes : =MOYENNE(1;2;3;4;5) qui donne la moyenne 3 des 5 arguments indiqus ^MOYENNECLICl^CS) qui donne la moyenne des valeurs contenues dans la plage indique (1 seul argument) =MOYENNE(L1C1:L3C5;12) qui donne la moyenne des valeurs contenues dans la plage indique et de la valeur 12 (2 arguments). Pour ce type de fonction, le nombre maximum d'arguments possibles est de 30. Lorsqu'on atteint le 5 e , il apparat sur la bote une barre de dfilement permettant d'accder la saisir des arguments suivants. Les fonctions MIN, MAX, SOMME, etc. sont de ce type. Prcisons enfin que lorsqu'une cellule contient une formule, on peut rappeler sa bote de dialogue en cliquant sur le signe "=" situ gauche de la zone de saisie. Cela permet en particulier de corriger ou d'adapter ladite formule. Afin de ne pas surcharger l'ouvrage, nous ne montrons les botes de dialogue que pour des fonctions "compliques" ou pour lesquelles un complment d'information est ncessaire. Signalons galement que l'Utilitaire d'analyse du logiciel utilise galement des botes de dialogue. Il ne s'agit pas alors de faciliter la saisie d'une formule, mais d'indiquer au logiciel les donnes prendre en compte pour effectuer une certaine analyse.
Analyse de variante: un facteur Paramtres d'wtrc " . " Cwomss "' ygnes (o,05 ' p? JpIC] i-^"-i Anouter i ^...-.....-...-J A*de |

Les rsultats de cette dernire peuvent tre affichs sur une plage de la mme feuille de travail ou sur une nouvelle feuille voire un nouveau classeur (option cocher).

Groupes par; v irtiftASs an tirerrere ligne SeLrfdsigraftcatiofi: Otttora de sotte Plaide sortie:
<i

| i

^J

Insrer un nouvde euilte;

'"' Crer un Qpuveau dasseur

5. ATTRIBUTION D'UN NOM UNE PLAGE DE CELLULES Dans EXCEL, on peut donner un nom une plage de valeurs : matrice colonne ou matrice quelconque (voir figure page suivante). La procdure est la suivante : slectionner la plage de cellules contenant les valeurs (sans le ou les titres) ; dans le cas d'une matrice quelconque, bien slectionner toute la plage cliquer dans la zone des noms ( gauche et juste au-dessus de la ligne portant les identifiants des colonnes) saisir le nom dsir (pas de blanc ni de trait d'union; on peut utiliser la place le "tiret bas") faire ENTREE vrifier en ouvrant la zone de saisie (flche vers le bas) (bibliothque des noms) que la dnomination de la plage est effective. Utilit : pour renseigner les botes Assistant, il est souvent plus rapide de slectionner la plage des valeurs directement dans la bibliothque des noms, surtout si ces plages sont de grande tendue comme c'est souvent le cas en statistique.

275

Xi 5 9

X2

100 15

10 11

25

Xp 121

20 Matrice colonne

150

Matrice quelconque

Remarques : aprs avoir slectionn la plage de cellules, on peut galement la nommer en utilisant le menu Insertion / Nom / Dfinir et saisir le nom dsire selon les mme rgles que prcdemment. Il peut tre utile de savoir que l'on peut affecter un nom des plages de cellules non adjacentes. Remarque importante Lorsque l'on a nomm une plage, on ne peut pas utiliser , sans intervention, la poigne de recopie. Tout d'abord, il convient de noter que l'utilisation de la poigne de recopie "n'agrandit pas" l'tendue de la plage repre pas son nom. Par ailleurs, tant donn qu'un nom n'est affect qu' une slection bien prcise dans la feuille, ses rfrences ne peuvent tre qu'absolues, de sorte qu'une recopie l'aide de la poigne du type de celle que nous avons effectue prcdemment donne des rsultats incorrects. Par exemple, si l'on appelle "Valeurs_de_Xl" la plage des valeurs 12 15 du tableau ci-dessous, et que dans les cellules sous le 15, on appelle successivement les fonctions statistiques MIN, MAX, MOYENNE et ECARTYPE sur cette plage, on obtient les valeurs correctes pour cette colonne.
Valeurs de XI T' 'ni 12 , . ; .3 ..
Ife
!

-^ '-'- .....a.,:.: :
Xi 12

1
..n

S .^^^j
'aS^ii^S

E 5 4

j ': Xs S 8 7 10 9

^^HUBiHs^

14

MIN 3 MAX 20 ''9', 11,5 10 MOYENNE ECARTYPE 5fl2237065

Mais si l'on slectionne les cellules L8C2:L11C2 et que l'on utilise la poigne de recopie vers la droite pour dterminer ces paramtres statistiques pour X2 et X3, on obtiendra les mmes valeurs qui sont celles relatives la plage "Valeurs de XI".

Pour pallier cette difficult, on peut, soit nommer les plages aprs avoir fait les calculs ou bien affecter des noms simples ces plages (par exemple XI, X2 et X3), faire les recopies (fausses) et rectifier les formules en corrigeant les noms de plage. 6. GESTION DES MANQUANTS II est important de noter que les fonctions statistiques classiques d'Excel grent "les manquants". Prenons un exemple. Supposons que l'on veuille calculer la moyenne de chacun des critres Ci, C; et 3 du tableau ci-contre. Pour calculer la cellule L10C2 (=MOYENNE(slection)), du fait que le logiciel ignore les cellules vides ("manquants"), on slectionnera les 8 cellules situes au-dessus; on pourra alors recopier droite (poigne) pour calculer les moyennes des Ci et des Ci. On a mme intrt calculer la 1er' moyenne dans une

276

cellule situe beaucoup plus bas que L10C2 au cas o une nouvelle srie C, comporterait un nombre de valeurs plus important.
L10C2 , 1 ' 1 2 3 4 .& 6 7 1 2 3 4 5 6 2 Ci a =MIN(L(-B)C:L(-1)C) 3 4 5 Ci 3 9 15 20 21 12
C3

5 9 12 18 20 23 4

Ci!
NgSsf

BEi
5

8 7 9 ' 8 ) MOYENNE 11

7. FORMULES MATRICIELLES Les formules matricielles peuvent tre utilises pour effectuer de nombreux types de calcul. Nous allons montrer leur spcificit dans les cas o leur utilisation simplifie avantageusement les calculs et dans les cas o elle s'impose "presque obligatoirement". Nous proposons d'illustrer la mise en uvre de ce type de formule en nous appuyant sur un exemple trs courant en statistique, la dtermination de la distribution de frquences. On considre une srie de notes de mathmatiques dans une classe de 30 lves (ces notes doivent tre saisies sur une seule colonne) :
7,0 9,5 11,0 5,0 12,0 12,0 12,5 13,0 10,0 7,0 13,0 4,0 13,0 13,5 9,0 14,0 14,0 12,0 15,5 15,5 16,0 11,0 17,0 18,5 19,0 13,0 17,0 19,0 19,5 19,5

On souhaite obtenir la distribution en effectif selon des classes que l'on choisit. Nous dcidons de prendre par exemple des classes d'amplitude 3 partir de 8. Nous considrons les 5 classes suivantes : note < 8 , 8 < note ^ 1 1 , 11 < note < 14 , 14 < note < 17 , note > 17 . Sur la feuille Excel, il faut saisir ces classes sous la forme ci-contre. Pour obtenir la distribution de frquences, on doit tout d'abord slectionner la plage d'accueil des rsultats (en gnral une matrice compose de plusieurs cellules adjacentes ou contigus). Dans notre exemple, on doit slectionner une plage d'une colonne sur 5 lignes. On appelle ensuite la fonction FREQUENCE dont on saisit les arguments : - Tableau-donnes : la plage des trente notes - Matrice-intervalles : plage des valeurs des classes que nous avons saisies. Pour valider, au lieu de faire "Entre", il faut faire CTRL+Maj+Entre. L'ensemble des rsultats s'affiche sur la plage de rception. Toutes les cellules de cette plage portent la mme formule, celle que nous avons saisie. Le logiciel a encadr cette formule d'une paire d'accolades indiquant son caractre matriciel.
classes 8 11 14 17 >17 FREQUENCE 4 5 11 5 5

277

Quelques rgles s'appliquent aux procdures matricielles: la plus importante est qu'une fois saisie une formule matricielle pour une plage destination, il n'est plus possible de modifier l'une de ses cellules isolment: il faut modifier la formule matricielle (en faisant toujours Ctrl + Maj + Entre pour valider) ou la supprimer pour rendre chaque cellule son individualit. Remarque : il faut faire trs attention aux dimensions de la plage de rception qui varie selon les types de fonctions matricielles utilises et le volume des rsultats souhaits Si l'tendue de la plage est trop petite, on n'obtient pas tous les rsultats voulus. Si elle est trop grande, on obtient des valeurs d'erreur du type #N/A 8. TABLEAU CROISE DYNAMIQUE Nous proposons d'expliquer l'laboration d'un tableau crois dynamique dans un type d'application rencontre en statistique, par exemple dans un dpouillement d'enqute. Considrons une enqute d'tude de march de vente directe de viande bovine. Supposons que l'on s'intresse au mode de vente selon le lieu d'habitation. Pour chacun des critres, on dispose de modalits bien dfinies. Pour le lieu d'habitation, on propose 5 modalits notes Hi (ville de Toulouse), Hz (ensemble de communes prcises de la banlieue de Toulouse), N3 (ville de Saint-Gaudens), ML (ensemble de communes prcises de la banlieue de Saint-Gaudens) et H5 (autres lieux). On propose trois modes de vente cods Vi (vente la ferme), V2 (vente sur les marchs) et V3 (vente domicile). Chacune des personnes enqutes doit choisir uniquement le mode de vente qu'il prfre. Les donnes recueillies sont saisies en colonnes sur une feuille Excel. Il suffit de suivre les tapes proposes par l'Assistant de tableau crois dynamique (menu Donnes). A la question "o se trouvent les donnes analyser", on choisit "Liste ou base de donnes Excel". Le "type de rapport crer" est videmment "tableau crois dynamique ".

A l'tape suivante, on situera les donnes en slectionnant la plage des observations (avec les titres des variables)

278

^ 1 , ^4 1 Lieu Mode) 2. Vl ^ V; :1 H, 4 - H, 5- H3 8
:

Vl

Y,!
Va Vi Vi V

o se tromcnl os lU-ief 7 ItWr ; | F e > ^ l l H C l r t - 1 6 C 2 | ^ l^} Aroter | <Erecdent}| aiviint7~| P^BUlt-,.. Tlifmtw

Hi

;?. H4 B. H ,

,8,
9

A l'tape 3/3, on indique l'endroit o l'on veut situer les rsultats.

Aprs avoir clique sur "Terminer", on obtient une structure de tableau vide sur laquelle il surfit de faire glisser les tiquettes concernes.

279

Excel affiche le tableau crois d'effectifs assorti des totaux lignes et colonnes. Ce tableau pourra tre enjoliv loisir.
. ;t '. 2 Lieu Mode '1 Vi ^ Hi

iiJLJl
H1

5 . 1
V2 2 1

i
V3 2 2

i B Total
1

MB Mode, Mode |
5 3
2 2 1 2 4 5

tAu^^ V1
H2
H3 H4 H5

.3. HI HI

V2

Vl
V3 V3

'5: fi HI

H3

2 2 3 15

'.. H. f H4
'a." H-,

Vl Vi
V-,

Total

On remarque la prsence de cellules vides ("manquants") ce qui traduit l'absence d'effectif au croisement de 2 modalits. Si l'on souhaite afficher cette nullit (en prvision de futurs calculs), on fait un clic droit sur l'une des cellules du tableau, on slectionne "options du tableau, on active "cellules vides" et dans la fentre correspondante, on saisit "O". On obtient alors le tableau de contingence tudier.

Lieu H1
H2 H3
H4 H5

V1

V2

V3

Total 1 0 2
0

2 1 o|
2

2 2 OJ
0:

5 3 2 2 3 15

1 6

0 4

2 5

Total

280

TABLE DES FONCTIONS STATISTIQUES D'EXCEL


Le nom de la fonction statistique telle qu'elle figure dans Excel est indiqu en majuscules. Le lecteur pourra consulter l'aide en ligne pour en obtenir une rapide dfinition. 1. PARAMETRES STATISTIQUES 1.1 Srie statistique unidimensionnelle CENTILE COEFFICIENT ASYMETRIE ECARTYPE FREQUENCE KURTOSIS MAX MIN MODE MOYENNE QUARTILE RANG SOMME.CARRE.ECARTS VAR VAR.P 1.2 Srie statistique bidimensionnelle COEFFICIENT CORRELATION COVARIANCE 57 57 Page de premire citation 28 28 28 21 28 28 27 28 28 27 28 150 29 28

2.

VARIABLES ALEATOIRES. LOIS DE PROBABILITE INVERSELOI.F KHIDEUX.INVERSE LOIF LOKfflDEUX LOI NORMALE LOI.NORMALE INVERSE LOI.NORMALE STANDARD LOI.NORMALE. STANDARD INVERSE LOI.STUDENT LOI STUDENT. INVERSE 77 74 76 73 71 72 72 73 75 75

INTERVALLE DE CONFIANCE. TESTS STATISTIQUES INTERVALLE CONFIANCE TEST.F TEST.KHIDEUX TEST.STUDENT 91 185 129 163

DROITE DE REGRESSION ORDONNEE ORIGINE PENTE 60 60

REGRESSION LINEAIRE SIMPLE ET MULTIPLE DR01TEREG TENDANCE 222 60

DIVERS ABS NBSI NBVAL SOMPROD 167 16 27 36

282

BIBLIOGRAPHIE
AFNOR (Recueil des normes franaises 1996) : Mthodes statistiques, tome 4 : matrise statistique des processus. diteur ? Badia J., Bastida R., Hat J-R. (1997) : Statistique sans mathmatique. Ellipses. Came H., Dagoury J-M., Seroux R., Thomas M. (2000) : Itinraires en Statistiques et Probabilits. Ellipses. Dagnlie J. (1998) : Statistique thorique et applique, tome 1 : Statistique descriptive et base de l'infrence statistique et tome 2 : Infrence statistique une et deux dimensions. De Boeck - Universit. Daudin J-J., Robin S., Vuillet C. (1999) : Statistique infrentielle ides, dmarches, exemples. Socit Franaise de Statistique et Presses Universitaires de Rennes. Deroo M., Dussaix A-M. (1985) : Pratique et analyse des enqutes par sondage. PUF. Foucard T (1997) : l'analyse des donnes Mode d'emploi. Presses Universitaires de Rennes. Georgin J.P., Gouet M. (1999) : Statistiques avec Excel, crer ses outils et tests, passerelles avec d'autres tableurs. Eyrolles. Janvier M., Kazi-Aoual F., Hakim M., Elkettani Y., Marco M., Guijarro V. sous la direction de Brethon A., Carraux G., Saporta G., Verdoire E. (2002) : Techniques de la Statistique. Cours sur Internet : (www.agro-montpellier.fr/cnam-lr/statnet/cours.htm) Monino J-L., Kosianski J-M., Le Cornu F. (2000) : Statistique descriptive. Dunod Tomassone R., Lesquoy E., Millier C. (1983) : La rgression, nouveaux regards sur une ancienne mthode statistique. Masson. Wonacott T.H., Wonnacot R.J. (1991) : Statistique. Economica.

283

INDEX

analyse de variance, 194, 195


C

centiles, 28 centre de gravit, 24 centre de gravit... des profils lignes, 39 des profils colonnes, 40 de la srie double, 55 coefficient de corrlation, 56, 59, 212, 214, 224, 242,247,254, 258 coefficient de corrlation multiple, 212 coefficient de dtermination, 59 coefficient de dtermination ajust, 215 coefficient de variation, 29 covariance, 55 critre des moindres carrs, 58 D dcision, 116, 117, 118, 119 degrs de libert, 67, 68 diagramme en btons, 16, 22, 41 diagramme en secteurs, 17 distribution d'chantillonnage, 81 distribution d'chantillonnage... d'une moyenne, 82, 84 d'une variance, 84, 85, 88 d'une proportion, 84, 94

Fisher, 68, 76, 195, 216 fractile, 26, 76 frquences... absolues, 15, 20 relatives, 15,20 cumules, 20 H histogramme, 23, 32 homoscdasticit, 173 hypothse alternative, 115, 116 hypothse nulle, 115

intervalle de confiance, 102 intervalle de confiance... d'une moyenne, 103, 106, 108 d'une variance, 109 d'une proportion, 111 intervalle de pari, 85, 86, 88, 151 intervalle de probabilit, 85, 86 K Khi-deux, 67, 73, 126, 127, 129, 130, 136 L loi binomiale, 66 loi de Bernoulli, 66 loi de Fisher, 68, 76, 212 loi de Student, 68, 70, 74 loi du Khi-deux, 67 loi normale, 67, 70, 71 loi de Poisson, 66, 71

chantillon alatoire et simple, 82 chantillons apparis, 163, 186, 190, 192 quation de l'analyse de variance, 195 estimation, 79, 80 estimateur sans biais et convergent, 98, 100,102

matrice de corrlation, 213 mdiane, 25, 26, 28 modle de rgression, 60, 210, 214 moyenne, 24, 25,26,27 N niveau de test, 117

rgression linaire multiple, 209, 212, 215, 222,224,242,254 rgression linaire simple, 58, 59 rsidu, 58, 59, 60, 194, 210, 215, 217 risque de 1re espce, 117 risque de 2e espce, 118, 155

significatif (test), 116 somme des carrs des carts, 194, 211 statistique descriptive, 9, 13, 37 statistique infrentielle, 9, 79
T

paramtres statistiques, 24, 28 peigne, 28 prdiction, 60, 221 probabilit critique, 116, 117. 128, 129, 130,154,162,174, 179,189,198,206,
207

profil colonne, 40, 46 profil ligne, 39, 42 puissance d'un test, 118, 156, 158 Q quartile, 26, 28, 34

test d'ajustement, 125 test de comparaison... de deux moyennes, 176, 181, 183, 186,190 de deux variances, 170 test de conformit... d'une moyenne, 151, 159 d'une variance, 149 d'une proportion, 201 test de normalit, 130 test statistique, 115 thorme central limite, 69, 93, 95, 205
V

rgion d'acceptation, 116, 150, 153, 160, 169,206 rgion de rejet, 116, 150, 153, 160, 169,
208

variable qualitative, 15 variable quantitative, 19, 30 variables explicatives, 210, 213

286

TABLE DES MATIERES


1. INTRODUCTION..........................................................................................^

PREMIRE PARTIE : STATISTIQUE DESCRIPTIVE


2. STATISTIQUE DESCRIPTIVE UNI VARIEE 13 2.1. Introduction................................................................................................13 2.2. Variable qualitative ..................................................... ..............................14 2.3. Variable quantitative discrte......................................................................19 2.4 Variable quantitative continue ....................................................................30 3. STATISTIQUE DESCRIPTIVE BIVARIE...............................................37 3.1. Introduction................................................................................................37 3.2. Couple variable qualitative - variable qualitative........................................38 3.3. Couple variable quantitative - variable qualitative.......................................47 3.4. Couple variable quantitative - variable quantitative.....................................53

DEUXIME PARTIE : STATISTIQUE INFRENTIELLE


BASES THORIQUES. RAPPELS DE PROBABILIT. LOI DE PROBABILIT AVEC EXCEL 65 4.1. Rappels de probabilit................................................................................65 4.2. Lois de probabilit avec Excel ....................................................................70 5. INTRODUCTION A LA STATISTIQUE INFRENTIELLE 79 5.1. Introduction................................................................................................79 5.2. Dmarche d'chantillonnage .......................................................................79 5.3. Dmarche d'estimation................................................................................79 5.4. Rsum.......................................................................................................80 6. CHANTILLONNAGE.................................................................................81 6.1. Notion de population et d'chantillon..........................................................81 6.2. Concept de base des distributions d' chantillonnage.................................. 82 6.3. Distribution d'chantillonnage d'une variance dans le cas d'une population normale.........................................................................................................85 6.4. Distribution d'chantillonnage d'une moyenne ...........................................88 6.5. Distribution d'chantillonnage d'une proportion pour un grand chantillon..94 7. ESTIMATION................................................................................................97 7.1. Introduction................................................................................................97 7.2. Estimation ponctuelle .................................................................................97 7.3. Intervalle de confiance.............................................................................. 102 8. LE TEST STATISTIQUE............................................................................115 8.1. Introduction.............................................................................................115 8.2. Hypothses...............................................................................................115 8.3. Donnes, modle et prise de dcision........................................................ 116 8.4. Risques.....................................................................................................116 8.5. Puissance du test.......................................................................................118 8.6. Rcapitulatif.............................................................................................119 4.

8.7. Test d'hypothse et intervalle de confiance .............................. ................119 8.8. Approche pratique des tests : quel test choisir ? ........................................119 9. ETUDE DES EFFECTIFS. TEST DU KHI-DEUX 125 9.1. Test de reprsentativit . test d'ajustement (test de normalit, etc.) ........... 125 9.2. Test d' homognit .................................................................................134 9.3. Test d'indpendance.................................................................................139 10. TESTS RELATIFS AUX MOYENNES ET AUX VARIANCES 149 10.1. Test de conformit d'une variance pour un chantillon gaussien...............149 10.2. Test de conformit d'une moyenne........................................................... 151 10.3. Test de comparaison de 2 variances (chantillons gaussiens).................... 170 10.4. Test de comparaison de 2 moyennes......................................................... 176 11. ANALYSE DE VARIANCE A UN FACTEUR 193 11.1. Position du problme et prsentation des donnes.....................................193 11.2. Notations et modle.................................................................................. 193 11.3. Dmarche statistique ................................................................................194 11.4 Mise en uvre au moyen d'Excel..............................................................196 11.5. Approfondissement : comparaison des moyennes par paires ..................... 199 12. TESTS RELATIFS AUX PROPORTIONS 201 12.1. Test de conformit d'une proportion sur de grands chantillons................201 12.2. Test de comparaison de deux proportions (grands chantillons) ................203 13. REGRESSION LINEAIRE MULTIPLE 209 13.1. Prsentation des donnes et position du problme................................... .209 13.2. Notations et modle..................................................................................210 13.3. Dmarche statistique associe au modle....................................... ..........211 13.4. Mise en uvre au moyen de l'utilitaire d'analyse d'Excel ..........................213 13.5. Mise en uvre au moyen de la fonction DROITEREG. ................................. 222 13.6. Recherche de simplifications de modles..................................................223

TROISIEME PARTIE : TUDE DE CAS


14. DMARCHE QUALIT : CANARDS GRAS DU SUD-OUEST 229 14.1. Prsentation du cas...................................................................................229 14.2. Proposition de dmarche statistique .........................................................230 14.3. Rsultats, commentaires et interprtation..................................................230 15. EVALUATION ET IMAGE D'UN MAGAZINE PROFESSIONNEL 237 15.1. Prsentation du cas ...................................................................................237 15.2. Proposition de dmarche statistique..........................................................240 15.3. Principaux rsultats de l'exploitation statistique, interprtation et commentaires. ..........................................................................................243 15.4. Conclusion ...............................................................................................264 16. CONSEILS AU PRATICIEN DBUTANT 265

ANNEXES
PRINCIPALES FONCTIONNALITES UTILISEES DANS EXCEL 269 TABLE DES FONCTIONS STATISTIQUES D'EXCEL 281 BIBLIOGRAPHIE 283 INDEX.........................................................................................285

PRESSES UNIVERSITAIRES DE RENNES

Campus de la Harpe - 2 rue du doyen Denis-Leroy 35044 Rennes Cedex ISBN : 02-86847-953-7 Dpt lgal : 1" trimestre 2004

Vous aimerez peut-être aussi