Vous êtes sur la page 1sur 11

Comment construire un diagramme de Henry avec Excel et comment linterprter

Kathy Chapelain et Emmanuel Grenier


emmanuel.grenier@lasalle-beauvais.fr

Relu par Henry P. Aubert, Jacques Goupy et Jacques Vaill

Objet
Le diagramme de Henry (ou droite de Henry ) permet dapprcier ladquation dune distribution observe la loi de Gauss. En abscisse, x, on porte les valeurs observes ou les limites suprieures des classes lorsque les valeurs sont regroupes en classes. En ordonne, on porte le normit de x (la fonction normit sera dfinie la page 2). Sur ce systme daxes, des ralisations dune variable gaussienne donnent un nuage de points proche dune droite.
2,5 2 1,5 1 Normit de x 0,5 0 -0,5 -1 -1,5 -2 -2,5 x 35 40 45 50 55 60 65

Figure 1

Pour lexemple de la Figure 1, on peut supposer que les valeurs observes sont des ralisations d'une mme variable gaussienne. Note : le diagramme de Henry est un cas particulier de diagramme Quantile-Quantile (Voir les fiches Mthodes dajustements graphiques dans la page Excelense [2]). La prsente fiche explique comment faire un diagramme de Henry avec Excel et propose une aide linterprtation par des exemples. Le document joint Diagramme de Henry.xls fournit les donnes des exemples ainsi quune feuille de calcul toute faite pour vos propres donnes.

Revue MODULAD, 2006

-1-

Numro 35

Principe
Nous invitons le lecteur non initi aux probabilits ou la statistique descriptive se reporter aux chapitres correspondants dans le manuel du groupe Les cercles dExcelense [3]. La construction du diagramme sopre de la manire suivante (voir la norme AFNOR Etude de la normalit d'une distribution [1]) : 1) On calcule leffectif cumul pour chaque x (valeur observe ou limite suprieure de la classe si les valeurs sont regroupes en classes), cest--dire le nombre de valeurs infrieures ou gales x. 2) On calcule la frquence cumule, cest--dire leffectif cumul divis par leffectif total. 3) On dtermine le fractile correspondant pour la loi de Gauss standard (le fractile dordre p est la valeur u telle que la probabilit cumule jusqu u est gale p). On obtient ainsi le normit de x (de langlais normal unit)
Probabilit cumule pour la loi de Gauss standard 1 Frquence cumule en x 0,5

0 -2 0 normit de x 2 Valeur de la variable

Figure 2

4) On reprsente les couples (x ; y), avec y = normit de x, par un nuage de points. Prenons le cas o les valeurs observes sont des ralisations dune variable gaussienne standard. La frquence cumule en x des valeurs observes est alors proche de la probabilit cumule en x pour la loi de Gauss standard (dautant plus proche que le nombre dobservations est important). Le normit de x est donc proche de x.
Probabilit cumule ou frquence cumule 1 Frquence cumule en x 0,5 Fonction de probabilit cumule pour la loi de Gauss standard Fonction de frquence cumule des valeurs observes

0 -2 x normit de x Valeur de la variable 0 2

Figure 3

Le nuage des points (x ; y), avec y = normit de x, est alors proche de la droite y = x. Prenons le cas dune variable gaussienne de moyenne thorique et dcart-type thorique quelconques. On revient une variable de Gauss standard en centrant et en rduisant la
Revue MODULAD, 2006

-2-

Numro 35

variable, cest--dire par la transformation x = (x )/. Le nuage des points sera donc dans ce cas proche de la droite dquation y = (x )/.

Construction avec Excel


Cas dobservations non regroupes en classes
Voir la feuille Exemple 1 dans le document Diagramme de Henry.xls On reprend les 4 tapes dcrites prcdemment : 1) Calcul de leffectif cumul Leffectif cumul est le rang de classement des valeurs dans un ordre croissant : fonction RANG.

Figure 4

2) Calcul de la frquence cumule On divise leffectif cumul par leffectif total. Leffectif total peut tre obtenu en prenant le maximum des effectifs cumuls. En pratique, on augmente leffectif total dune unit pour que le normit puisse tre calcul sur la valeur x maximale. Dautres corrections sont possibles : voir la norme AFNOR [1].

Figure 5

Revue MODULAD, 2006

-3-

Numro 35

3) Calcul du normit On applique aux frquences cumules la rciproque de la fonction de rpartition de la loi de Gauss standard : fonction LOI.NORMALE.STANDARD.INVERSE.

Figure 6

4) Reprsentation des couples (x ; y), avec y = normit de x, par un nuage de points On slectionne la plage des x et celle des normits (slection de plages discontinues avec la touche Ctrl), on clique sur licne Assistant graphique et on choisit Nuage de points. Pour lexemple, on obtient le graphique de la page 1.

Cas dobservations regroupes en classes


Les intervalles des classes doivent tre ferms droite (bornes suprieures incluses). Les valeurs x sont alors les limites suprieures des classes. On les entre par ordre croissant et on entre les effectifs des classes correspondantes. Voir la feuille Exemple 2.

Figure 7

Note : Dans la feuille dexemple, les effectifs des classes nont pas t saisis mais calculs partir des valeurs observes et des limites des classes. On a utilis la fonction FREQUENCE. On aurait pu utiliser la fonction NB.SI (voir la fiche Comment faire un histogramme dans le manuel [3]) ou passer par lUtilitaire danalyse Histogramme . Les effectifs cumuls se calculent en additionnant les effectifs depuis la premire classe.

Revue MODULAD, 2006

-4-

Numro 35

Figure 8

On revient ensuite ltape 2) de la procdure prcdente.

Interprtation partir dexemples


Voir dans le document Excel les feuilles Exemple 1 Exemple 5.

Exemple 1
Leffectif (38 observations) ne justifie pas un regroupement en classes. Reprsentons la distribution des valeurs observes par un nuage de points.
65 60 55 50 45 40 35 0 10 20 30 40 Numro d'observation x

Figure 9

Peut-on faire lhypothse que ces valeurs sont des ralisations dune variable gaussienne ? On construit le diagramme de Henry. On obtient le diagramme de la Figure 1 (page 1). Le nuage tant proche dune droite, on na pas de raison de rejeter lhypothse.

Exemple 2
On a maintenant suffisamment dobservations pour regrouper les valeurs observes en classes et reprsenter leur distribution par un histogramme.

Revue MODULAD, 2006

-5-

Numro 35

0,12 Densit de frquence 0,1 0,08 0,06 0,04 0,02 0 15 20 25 30 35 40 45 50 Valeur observe

Figure 10

La distribution est symtrique, en forme de cloche. A premire vue, il semblerait quon puisse la modliser par une loi de Gauss. Pour le confirmer, on construit le diagramme de Henry (avec les mmes classes mais en regroupant les classes de faible effectif).
3 2 Normit de x 1 0 -1 -2 -3 x 20 25 30 35 40 45 50

Figure 11

Le nuage de points tant proche dune droite, on peut modliser la distribution observe par une loi de Gauss. Remarque : Le diagramme de Henry permet dapprocher la moyenne et lcart-type des ralisations dune variable gaussienne lorsquon ne dispose que de la distribution des valeurs regroupes en classes. On repre la droite de tendance du nuage des points, ou droite de Henry , et on approche la moyenne par lintersection lorigine, m, et lcart-type par, s, linverse de la pente (voir la norme AFNOR [1]).

Revue MODULAD, 2006

-6-

Numro 35

Normit de x

0 25 -1 30 35 40 45 x

m+s

-2

Figure 12

Pour lexemple, on obtient m = 33,2 et s = 4,2 (valeurs trs proches de la moyenne et de lcart-type des valeurs observes). On peut gnralement dterminer la droite au jug, les points tant quasi aligns dans le cas o les observations sont issues dune variable gaussienne et regroupes en classes. Attention : la fonction graphique dExcel Ajouter une courbe de tendance ne donne pas la droite de tendance dun nuage de points mais la droite de rgression. La droite de tendance dun nuage de points (x ; y) est la droite dquation y* = x* o y* et x* sont les valeurs de y et de x centres et rduites (pour la droite de Henry, il faut pondrer la moyenne et lcart-type par leffectif de la classe correspondante).

Exemple 3
La distribution observe est trs dissymtrique pour cet exemple.
0,2 Densit de frquence

0,15

0,1

0,05

0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 Valeur observe

Figure 13

Cette dissymtrie se traduit sur le diagramme de Henry par une tendance non linaire du nuage de points :

Revue MODULAD, 2006

-7-

Numro 35

3 2,5 2 Normit de x 1,5 1 0,5 0 -0,5 0 -1 -1,5 x 20 40 60 80

Figure 14

Une tendance dont la pente diminue avec x traduit une rpartition dissymtrique tale vers les valeurs importantes de x. La pente augmenterait dans le cas dun talement vers les faibles valeurs de x. Remarque : Un passage une chelle logarithmique (Clic double sur laxe des abscisses / Format / Echelle / Slectionnez Echelle logarithmique) donne une tendance linaire.
3 2,5 2 Normit de x 1,5 1 0,5 0 -0,5 1 -1 -1,5 x 10 100

Figure 15

Pour lexemple, on pourrait modliser la distribution par une loi de Gauss sur les logarithmes des observations.

Exemple 4
Comme pour lExemple 1, on travaille sur les donnes non regroupes parce que leffectif est faible.

Revue MODULAD, 2006

-8-

Numro 35

75 70 65 60 55 50 45 40 35 30 25 0 5 10 15 20 25 30 35 40 45 50 55 Numro d'observation

Figure 16

La distribution est symtrique. Peut-on ici aussi supposer que les valeurs observes sont des ralisations dune variable gaussienne ? Construisons le diagramme de Henry.
2,5 2 1,5 1 Normit de x 0,5 0 -0,5 25 -1 -1,5 -2 -2,5 x 30 35 40 45 50 55 60 65 70

Figure 17

La forme de nuage traduit une distribution symtrique mais non gaussienne (ici, la distribution est plus proche de la loi uniforme que de la loi de Gauss).

Exemple 5
Le problme nest plus de tester ladquation une loi de Gauss. On a repr des valeurs extrmes (les observations n 16, 19 et 31) et on voudrait juger si ces observations sont aberrantes sous lhypothse dune distribution gaussienne.

Revue MODULAD, 2006

-9-

Numro 35

25 23 21 19 17 15 13 11 9 7 5 0 5 10 15 20 25 30 35 40 Numro d'observation

Figure 18

Ces observations s'cartent de l'alignement dans le diagramme de Henry. On peut par consquent considrer quelles sont aberrantes sous lhypothse dune rpartition gaussienne.
2,5 2 1,5 1 Normit de x 0,5 0 -0,5 5 -1 -1,5 -2 -2,5 x
Figure 19

n 16

10

15

20

25

n 19 n 31

Remarques : Une observation nest pas aberrante en soi mais sous une hypothse de loi. Cette mthode est utilise pour dpouiller les rsultats des plans de criblage de facteurs. On parle alors de diagramme de Daniel . Voir le chapitre Plans dexpriences dans le manuel du groupe Les cercles dExcelense [3].

Revue MODULAD, 2006

- 10 -

Numro 35

Rfrences
[1] AFNOR - Etude de la normalit d'une distribution. NF X 06-050, dcembre 1995 [2] Goldfarb B., Pardoux C. - Mthodes dajustements graphiques. Excel'ense - MODULAD n33, juillet 2005. www.modulad.fr [3] Morineau A., Chatelin Y.-M. (Coordinateurs) L'analyse statistique des donnes. Apprendre, comprendre et raliser avec Excel. Editions Ellipses, 2005.

Revue MODULAD, 2006

- 11 -

Numro 35

Vous aimerez peut-être aussi