Vous êtes sur la page 1sur 26

Analyse des donnes Hamburgers laide de SPSS (v2, janvier 2011) Auteur : Andr Berchtold Le site web The

The Fast Food Explorer (www.fatcalories.com) propose des donnes relatives la composition des produits vendus dans les fast-foods aux Etats-Unis. Le 3 juin 2008, il a t extrait de ce site des donnes concernant la composition des 117 types de hamburgers rpertoris. Ces donnes sont accessibles sur le site web www.andreberchtold.com. Notre objectif est de prsenter au travers de ce fichier des exemples danalyses statistiques ralises laide de SPSS. Il sentend que ces analyses ont t choisies dans un but pdagogique et quelles ne constituent pas une vraie analyse exhaustive de cette base de donnes. En ce sens, nous ne donnons quune partie des rsultats, notamment univaris et bivaris. Par ailleurs, les tableaux et rsultats redondants dune analyse lautre ont gnralement t supprims. Variables Le fichier Hamburgers.sav contient les variables suivantes : Nom : Marque et nom du hamburger ID : Identificateur numrique (de 1 117) Marque : Chane de fast-food proposant ce hamburger (1 : Wendys, 2 : McDonalds, 3 : Jack in the Box, 4 : Burger King, 5 : Sonic, 6 : Hardees, 7: Dairy Queen) Calories_totales : Nombre total de calories Calories_totales_r2 : Nombre total de calories recod en 2 catgories (1 : <=620, 2 : >620) Calories_totales_r4 : Nombre total de calories recod en 4 catgories (1 : <=400, 2 : 401-620, 3 : 621-820, 4 : >820) Calories_graisses : Nombre de calories des graisses Calories_graisses_p : Pourcentage du total des calories d aux graisses Graisses : Quantit de graisses en grammes Graisses_r2 : Quantit de graisses recode en 2 catgories (1 : <=32, 2 : >32) Graisses_satures : Quantit de graisses satures en grammes Cholestrol : Quantit de cholestrol en milligrammes Sodium : Quantit de sodium en milligrammes Carbone : Quantit de carbone en grammes Fibres : Quantit de fibres en grammes Protines : Quantit de protines en grammes

Toutes ces donnes ont t extraites du site web, lexception des variables Calories_totales_r2, Calories_totales_r4 et Graisses_r2 qui ont t calcules partir des autres informations disposition. Les variables Nom et Marque sont nominales. La variable ID est aussi nominale, car les valeurs de 1 117 ont t attribues de faon arbitraire. La variable Calories_totales_r4 est ordinale. Les variables Calories_totales_r2 et Graisses_r2 sont dichotomiques et peuvent tre considres soit comme nominales, soit comme ordinales. Les autres variables sont numriques (nous ne ferons pas de diffrence entre variables numriques discrtes et continues).

Echantillon et population Les 117 observations dont nous disposons sont considres comme un chantillon de tous les types de hamburgers vendus par les grandes chanes de fast-food aux Etats-Unis. Lensemble de tous les types de hamburgers vendus constitue alors la population que nous cherchons tudier. Analyse univarie La premire tape de lanalyse consiste tudier les caractristiques individuelles de chaque variable. Cela peut tre fait en utilisant des tableaux de frquence, des graphiques et des rsums numriques. Analyse dune variable nominale : Marque Analyse Statistiques descriptives
Statistiques Chane de fast food proposant ce hamburger N Valide Manquante Mode 117 0 5

Effectifs

Chane de fast food proposant ce hamburger Pourcentage Effectifs Valide Wendy's McDonald's Jack in the Box Burger King Sonic Hardee's Dairy Queen Total 14 9 19 25 26 15 9 117 Pourcentage 12.0 7.7 16.2 21.4 22.2 12.8 7.7 100.0 Pourcentage valide 12.0 7.7 16.2 21.4 22.2 12.8 7.7 100.0 cumul 12.0 19.7 35.9 57.3 79.5 92.3 100.0

Commentaire : Les calculs ont t raliss sur 117 observations valides. Le mode de la distribution (valeur la plus frquente est 5, ce qui correspond la chane Sonic). Le tableau de frquence nous apprend quil y a effectivement 26 hamburgers de Sonic dans nos donnes. A lautre extrme, McDonalds et Dairy Queen nont chacun que 9 hamburgers. La colonne Pourcentage cumul nest pas interprtable ici, car les donnes sont nominales, leur ordre est arbitraire et il nest donc pas possible de les cumuler. Les 2 graphiques nous montrent aussi la rpartition des 117 hamburgers entre les 7 chanes de fast-food en faisant apparatre clairement les diffrences dune chane lautre. Au niveau des rsums numriques, le seul pertinent ici est bien le mode, car nous avons affaire des donnes nominales, donc non-numriques et nonordonnes.

Analyse dune variable ordinale : Calories_totales_r4 Analyse Statistiques descriptives Effectifs

Statistiques Nombre total de calories recod en 4 catgories N Valide Manquante Mdiane Mode Minimum Maximum 117 0 3.00 4 1 4

Nombre total de calories recod en 4 catgories Pourcentage Effectifs Valide <=400 401-620 621-820 >820 Total 28 30 28 31 117 Pourcentage 23.9 25.6 23.9 26.5 100.0 Pourcentage valide 23.9 25.6 23.9 26.5 100.0 cumul 23.9 49.6 73.5 100.0

Commentaire : Le mode de cette variable est 4 (cest--dire >820), mais sa mdiane vaut 3. On peut donc admettre que la moiti de lchantillon prend le code 3 (621-820) ou infrieur et lautre moiti le code 3 ou suprieur. Le minimum et le maximum sont aussi donns, mais les valeurs 1 et 4 ne sont que des codes arbitraires associs aux deux catgories les plus extrmes. Le tableau de frquence donne les mmes informations que pour lanalyse prcdente, mais cette fois le pourcentage cumul est interprtable, car les donnes sont ordinales (les 4 modalits de la variable ont un ordre prcis). Par exemple, 49.6% signifie que 49.6% des donnes sont dans lune des deux premires modalits de la variable. Cela nous permet de voir que mme si formellement la mdiane (pourcentage cumul = 50%) correspond la 3me modalit, elle est en fait trs proche de la deuxime. Finalement, le diagramme en bton montre aussi que les 4 modalits ont des frquences presque gales. Analyse dune variable numrique : Graisses Analyse Statistiques descriptives Explorer (La plupart des rsultats peuvent aussi tre obtenu partir de Descriptives .)
Descriptives Statistique Quantit de graisses [g] Moyenne Intervalle de confiance 95% pour la moyenne Moyenne tronque 5% Mdiane Variance Ecart-type Minimum Maximum Intervalle Intervalle interquartile Asymtrie Aplatissement .710 Borne infrieure Borne suprieure 37.83 34.07 41.58 36.79 34.00 420.660 20.510 8 97 89 32 .224 -.273 .444 Erreur standard 1.896

Tests de normalit Kolmogorov-Smirnov Statistique Quantit de graisses [g] .112 ddl


a

Shapiro-Wilk Statistique .939 ddl Signification 117 .000

Signification 117 .001

a. Correction de signification de Lilliefors

Commentaire : Cette variable tant numrique, on dispose de beaucoup plus de rsums numriques. La moyenne vaut 37.83. Cest la quantit de graisses par hamburger de lchantillon en cas de rpartition galitaire de toute la graisse des 117 hamburgers. Lintervalle de confiance 95% va de 34.07 41.58. Cest la zone de valeurs dans laquelle il est probable 95% dobserver la moyenne des graisses pour lensemble de la population de tous les hamburgers (et non les seuls 117 de lchantillon). La mdiane (34) est un peu infrieure la moyenne, ce qui indique que la distribution nest pas parfaitement symtrique. Cela peut sobserver facilement sur lhistogramme. La variance et lcart-type (racine carre de la variance) sont des mesures de la dispersion (talement) des donnes. Plus la variance est grande, plus les donnes sont disperses. Deux tests de normalit ont t effectus afin de vrifier si lon peut admettre quau niveau de la population, la distribution de la variable est similaire une loi normale. Pour les deux tests, la p-valeur (Signification) est nettement infrieure 5% et lhypothse nulle de normalit est donc rejete. Etant donn que la variable prend un grand nombre de valeurs diffrentes, il nest pas indiqu de calculer un tableau de frquences. Analyse dune variable numrique : Graisses dcompose en 2 catgories en fonction de Calories_totales_r2 Analyse Statistiques descriptives Explorer

Rcapitulatif du traitement des observations Nombre total de calories recod en 2 catgories Quantit de graisses [g] <=620 >620 N 58 59 Pourcent 100.0% 100.0% N Pourcent 0 .0% 0 .0% N 58 59 Pourcent 100.0% 100.0% Valide Observations Manquante Total

Descriptives Nombre total de calories recod en 2 catgories Quantit de graisses [g] <=620 Moyenne Intervalle de confiance 95% Borne infrieure pour la moyenne Moyenne tronque 5% Mdiane Variance Ecart-type Minimum Maximum Intervalle Intervalle interquartile Asymtrie Aplatissement >620 Moyenne Intervalle de confiance 95% Borne infrieure pour la moyenne Moyenne tronque 5% Mdiane Variance Ecart-type Minimum Maximum Intervalle Intervalle interquartile Asymtrie Aplatissement .617 Borne suprieure .255 Borne suprieure Statistique Erreur standard

21.40 .960 19.47 23.32 21.24 20.50 53.436 7.310 8 39 31 11 .314 -.633 .618 53.98 49.84 58.13 53.23 53.00 253.327 15.916 31 97 66 25 .311 -.332 .613 2.072

Commentaire : Nous avons repris la variable Graisses, mais nous lavons dcoupe en deux groupes en fonction du facteur Calories_totales_r2 et nous disposons dinformations individuelles pour les hamburgers appartenant chacun des deux groupes. Nous pouvons notamment constater que la moyenne de graisses est nettement infrieure dans le premier groupe (peu de calories) que dans le second (21.40 contre 53.98). Les observations sont aussi moins disperses dans le premier groupe que dans le second (cart-type de 7.31 contre 15.916).

Analyse bivarie La deuxime tape de lanalyse consiste mettre en relation les variables par paires. Cela peut se faire laide de tables de contingence et de rsums numriques dans le cas de variables catgorielles, et de graphiques de dispersion et de rsums numriques dans le cas de variables numriques. Marque et Calories_totales_r2 (2 variables catgorielles) Analyse Statistiques descriptives Tableaux croiss
Tableau crois Chane de fast food proposant ce hamburger * Nombre total de calories recod en 2 catgories Nombre total de calories recod en 2 catgories <=620 Chane de fast food proposant ce hamburger Wendy's Effectif % dans Chane de fast food proposant ce hamburger McDonald's Effectif % dans Chane de fast food proposant ce hamburger Jack in the Box Effectif % dans Chane de fast food proposant ce hamburger Burger King Effectif % dans Chane de fast food proposant ce hamburger Sonic Effectif % dans Chane de fast food proposant ce hamburger Hardee's Effectif % dans Chane de fast food proposant ce hamburger Dairy Queen Effectif % dans Chane de fast food proposant ce hamburger Total Effectif % dans Chane de fast food proposant ce hamburger 10 >620 4 Total 14

71.4%

28.6%

100.0%

88.9%

11.1%

100.0%

11

19

42.1%

57.9%

100.0%

11

14

25

44.0%

56.0%

100.0%

11

15

26

42.3%

57.7%

100.0%

15

46.7%

53.3%

100.0%

33.3%

66.7%

100.0%

58

59

117

49.6%

50.4%

100.0%

Tests du Khi-deux Signification asymptotique Valeur Khi-deux de Pearson Rapport de vraisemblance Association linaire par linaire Nombre d'observations valides 10.524
a

ddl 6 .104 6 .077 1 .019

(bilatrale)

11.386 5.510 117

a. 4 cellules (28.6%) ont un effectif thorique infrieur 5. L'effectif thorique minimum est de 4.46.

Mesures symtriques Signification Valeur Nominal par Nominal Phi V de Cramer Nombre d'observations valides .300 .300 117 approxime .104 .104

Commentaire : La table de contingence met en vidence la rpartition des hamburgers au sein de chaque chane entre basses calories (<=620) et hautes calories (>620). Par exemple, pour Wendys, 14 hamburgers ont t analyss, dont 10 (71.4%) sont considrs comme basses calories . Le khi-deux (chi-2) permet de tester sil existe un lien significatif entre les deux variables. Au niveau de lchantillon, le khi-deux vaut 10.524. Lorsque lon teste lhypothse dindpendance entre les deux variables, on obtient une p-valeur (significativit) de 0.104 (10.4%). Lhypothse dindpendance est donc accepte et il ny a pas de relation dans la population entre les deux variables. La relation observe au niveau de lchantillon relve donc du hasard. Finalement, le v de Cramer est une transformation du chi-deux destine le rendre plus facile interprter. Ici, on a V=0.3, le minimum (indpendance) tant 0 et le maximum 1. Il y a donc, au niveau de lchantillon, une relation faible entre les deux variables. La p-valeur donne ct est la mme que celle associe au khi-deux.

Graisses_r2 et Calories_totales_r2 (2 variables catgorielles dichotomiques) Analyse Statistiques descriptives Tableaux croiss
Tableau crois Quantit de graisses recode en 2 catgories * Nombre total de calories recod en 2 catgories Nombre total de calories recod en 2 catgories <=620 Quantit de graisses recode en <=32 2 catgories Effectif % dans Quantit de graisses recode en 2 catgories >32 Effectif % dans Quantit de graisses recode en 2 catgories Total Effectif % dans Quantit de graisses recode en 2 catgories 54 >620 3 Total 57

94.7%

5.3%

100.0%

56

60

6.7%

93.3%

100.0%

58

59

117

49.6%

50.4%

100.0%

Tests du Khi-deux Signification asymptotique Valeur Khi-deux de Pearson Correction pour la continuit Rapport de vraisemblance Test exact de Fisher Association linaire par linaire Nombre d'observations valides 89.921 117 1 .000
b

Signification exacte Signification exacte (bilatrale) (unilatrale)

ddl
a

(bilatrale) 1 .000 1 .000 1 .000 .000

90.696

87.207 109.290

.000

a. 0 cellules (.0%) ont un effectif thorique infrieur 5. L'effectif thorique minimum est de 28.26. b. Calcul uniquement pour un tableau 2x2

Mesures symtriques Signification Valeur Nominal par Nominal Phi V de Cramer Nombre d'observations valides .880 .880 117 approxime .000 .000

10

Estimation du risque Intervalle de confiance de 95% Valeur Odds Ratio pour Quantit de graisses recode en 2 catgories (<=32 / >32) Pour cohorte Nombre total de calories recod en 2 catgories = <=620 Pour cohorte Nombre total de calories recod en 2 catgories = .056 >620 Nombre d'observations valides 117 .019 .170 14.211 5.503 36.698 252.000 53.867 1178.908 Infrieur Suprieur

Commentaire : La principale diffrence entre cette analyse et la prcdente rside dans le fait que les deux variables sont ici dichotomiques, il est donc en plus possible de calculer un odds ratio. Il vaut ici 252 (avec un intervalle de confiance pour la population allant de 53.867 1178.908), ce qui signifie quil est 252 fois plus probable dtre dans la catgorie hautes calories si lon a >32 graisses plutt que <=32. Pour le reste, le khi-deux et le V de Cramer montrent une forte association entre les deux variables au niveau de lchantillon, et le test montre que cette association se retrouve aussi au niveau de la population (p-valeur = 0.000).

11

Cholestrol et Protines (2 variables numriques) Graphique : Graphes Dispersion/Points Dispersion simple Corrlation : Analyse Corrlation Bivarie

Corrlations Quantit de cholestrol [mg] Quantit de cholestrol [mg] Corrlation de Pearson Sig. (bilatrale) N Quantit de protines [g] Corrlation de Pearson Sig. (bilatrale) N **. La corrlation est significative au niveau 0.01 (bilatral). .966 .000 117 117
**

Quantit de protines [g]


**

1.000 .966 .000 117

117 1.000

Commentaire : Le graphique montre une relation linaire positive entre les deux variables : Plus il y a de cholestrol dans un hamburger, plus il y a de protines. Le coefficient de corrlation de Pearson vaut 0.966, ce qui montre bien une relation forte, mais pas tout--fait parfaite. Cette valeur est significativement diffrente de zro (p-valeur=0.000), donc cette relation se retrouve au niveau de la population.

12

Cholestrol et Carbone (2 variables numriques) Graphique : Graphes Dispersion/Points Dispersion simple Corrlation : Analyse Corrlation Bivarie

Corrlations Quantit de cholestrol [mg] Quantit de cholestrol [mg] Corrlation de Pearson Sig. (bilatrale) N Quantit de carbone [g] Corrlation de Pearson Sig. (bilatrale) N **. La corrlation est significative au niveau 0.01 (bilatral). .342 .000 117 117
**

Quantit de carbone [g]


**

1.000 .342 .000 117

117 1.000

Commentaire : Dans ce cas, la relation est toujours positive, mais beaucoup moins vidente que dans lanalyse prcdente. La corrlation ne vaut que 0.342, mais cette valeur est encore fortement significative au niveau de la population.

13

Tests statistiques Certains tests statistiques, permettant de vrifier si ce qui a t trouv au niveau de lchantillon est galement vrai pour lensemble de la population, ont dj t utiliss prcdemment (normalit, chi-2, corrlation). Nous prsentons maintenant des exemples de plusieurs autres tests courants. Test de Student pour 2 populations apparies : Protines et Carbone Analyse Comparer les moyennes Test T pour chantillons apparis

Statistiques pour chantillons apparis Erreur standard Moyenne Paire 1 Quantit de carbone [g] Quantit de protines [g] 43.26 32.10 N 117 117 Ecart-type 12.376 14.618 moyenne 1.144 1.351

Test chantillons apparis Diffrences apparies Erreur standard Moyenne Ecart-type Paire 1 Quantit de carbone [g] - Quantit de protines [g] 11.154 14.498 1.340 8.499 13.809 8.322 116 .000 moyenne Intervalle de confiance 95% de la diffrence Infrieure Suprieure t ddl Sig. (bilatrale)

Commentaire : Nous comparons la quantit de carbone et de protine dans chaque hamburger (donnes apparies). Le premier tableau donne les informations de base sur les deux variables. Le second tableau donne le test de Student avec la diffrence des moyennes entre les deux chantillons (11.154) et surtout la p-valeur du test (0.000). Cette p-valeur tant infrieure 5%, lhypothse nulle dgalit des moyennes est rejete. Il y a donc bien une moyenne de carbone suprieure celle des protines et cela est vrai non seulement pour notre chantillon, mais aussi dans la population.

14

Test de Student pour 2 populations indpendantes : Protines en fonction de Calories_totales_r2 Analyse Comparer les moyennes Test T pour chantillons indpendants
Statistiques de groupe Nombre total de calories recod en 2 catgories Quantit de protines [g] <=620 >620 N 58 59 Moyenne 21.40 42.63 Ecart-type 5.982 .786 12.841 1.672 Erreur standard moyenne

Test d'chantillons indpendants Test de Levene sur l'galit des variances Test-t pour galit des moyennes Intervalle de confiance 95% de la diffrence Sig. F Quantit de protines [g] Hypothse de variances gales Hypothse de variances ingales -11.494 82.353 .000 -21.231 1.847 -24.905 -17.556 Sig. t ddl Diffrence Diffrence Suprieur e

(bilatrale) moyenne cart-type Infrieure

26.937 .000

-11.430

115 .000

-21.231

1.857

-24.910

-17.551

Commentaire : Ici, nous ne considrons que les protines, mais nous divisons notre chantillon en deux parties : les hamburgers avec 620 calories ou moins et les autres, et nous comparons la moyenne des protines entre les deux groupes. Tout dabord, le test de Levene nous indique que les variances sont diffrentes dans les deux groupes (p-valeur = 0.000). Il faut alors lire la dernire ligne du tableau (Hypothse de variances ingales), et nous voyons que le test de Student a aussi une p-valeur de 0.000, ce qui indique le rejet de lhypothse dgalit des moyennes entre les deux groupes.

15

Test de normalit de Kolmogorov-Smirnov : 5 variables numriques Analyse Tests non paramtriques K-S 1 chantillon
Test de Kolmogorov-Smirnov un chantillon Nombre de Nombre total de calories N Paramtres normaux
a

calories des graisses 117 340.92 184.235 .117 .117

Quantit de carbone [g] 117 43.26 12.376 .153 .132

Quantit de fibres [g] 117 2.72 1.382 .171 .171

Quantit de protines [g] 117 32.10 14.618 .148 .148

117 Moyenne Ecart-type 643.93 265.307 .104 .104 -.062 1.122 .161 .082

Diffrences les plus extrmes

Absolue Positive Ngative

-.078 1.263 .008

-.153 1.655 .002

-.130 1.853 .012

-.091 1.602

Z de Kolmogorov-Smirnov Signification asymptotique (bilatrale) a. La distribution tester est gaussienne.

Commentaire : Le test de normalit de Kolmogorov-Smirnov a t effectu pour 5 variables numriques. Lhypothse nulle dit que la variable est normale. Dans deux cas (calories et calories des graisses), on accepte cette hypothse nulle, car les p-valeurs (0.161 et 0.082) sont > 5%. Pour les 3 autres variables, on rejette lhypothse de normalit (p-valeurs infrieures 5%). Le rejet de la normalit implique que les tests paramtriques habituels comme le test de Student, sont moins fiables et quil est prfrable dutiliser des tests non-paramtriques.

16

Test de Wilcoxon pour 2 populations apparies : Protines et Carbone Analyse Tests non paramtriques 2 chantillons lis
Test
b

Quantit de protines [g] Quantit de carbone [g] Z Signification asymptotique (bilatrale) a. Base sur les rangs positifs. b. Test de Wilcoxon .000 -6.548
a

Commentaire : Comme les variables protines et carbone ne sont pas normales (cf. test de KolmogorovSmirnov), il est prfrable dutiliser un test non-paramtrique. Le test de Wilcoxon est lquivalent non-paramtrique du test de Student pour donnes apparies. Dans un test paramtrique, on vrifie lgalit des mdianes et non celle des moyennes. Ici, la p-valeur du test est trs faible (0.000) et lon rejette donc lgalit des mdianes entre les quantits de protines et de carbone dans les hamburgers. Test de Mann-Whitney pour 2 populations indpendantes : Protines en fonction de Calories_totales_r2 Analyse Tests non paramtriques 2 chantillons indpendants

Test

Quantit de protines [g] U de Mann-Whitney W de Wilcoxon Z Signification asymptotique (bilatrale) .000 153.000 1864.000 -8.503

a. Critre de regroupement : Nombre total de calories recod en 2 catgories

Commentaire : Le tes de Mann-Whitney est lquivalent non-paramtrique du test de Student pour donnes non-apparies. Le W de Wilcoxon est un autre test qui donne strictement le mme rsultat. Ici, la p-valeur (0.000) nous amne rejetter lhypohse dgalit des mdianes de protines entre les deux groupes (basses calories et hautes calories).

17

Modles statistiques Nous essayons maintenant de mettre en relation de faon plus gnrale diffrentes variables de notre base de donnes. Analyse de variance (ANOVA) : Fibres en fonction Calories_totales_r4 Analyse Comparer les moyennes ANOVA 1 facteur
Descriptives Quantit de fibres [g] Intervalle de confiance 95% pour la moyenne N <=400 401-620 621-820 >820 Total 28 30 28 31 117 Moyenne Ecart-type Erreur standard .140 1.331 .243 1.541 .291 1.128 .203 1.382 .128 Borne infrieure Borne suprieure 1.28 2.27 2.72 2.75 2.46 1.86 3.26 3.92 3.58 2.97 Minimum 1 1 1 1 1 Maximum 3 5 5 5 5

1.57 .742 2.77 3.32 3.16 2.72

Test d'homognit des variances Quantit de fibres [g] Statistique de Levene 6.255 ddl1 3 ddl2 Signification 113 .001

ANOVA Quantit de fibres [g] Moyenne des Somme des carrs Inter-groupes Intra-groupes Total 53.168 168.525 221.692 ddl 3 113 116 carrs 17.723 1.491 F Signification

11.883 .000

18

Comparaisons multiples Quantit de fibres [g] Test de Tukey (I) Nombre total de calories recod en 4 catgories <=400 (J) Nombre total de calories recod en 4 catgories 401-620 621-820 >820 401-620 <=400 621-820 >820 621-820 <=400 401-620 >820 >820 <=400 401-620 621-820 .395 .555 .160
*

Intervalle de confiance 95%

Diffrence de moyennes (I-J)


*

Erreur standard

Signification .002 .000 .000 .002 .314 .589 .000 .314 .958 .000 .589 .958

Borne infrieure -2.03 -2.60 -2.42 .36

Borne suprieure -.36 -.90 -.76 2.03

-1.195 .321 -1.750 .326 -1.590 .318 1.195 .321 -.555 .321 -.395 .313 1.750 .326 .321 .318 1.590 .318 .313 -.160 .318
* * * *

-1.39 .28 -1.21 .42 .90 -.28 -.67 .99 .76 -.42 -.99 .67 2.42 1.21 2.60 1.39

*. La diffrence moyenne est significative au niveau 0.05.

Commentaire : Lanalyse de variance (ANOVA) est une gnralisation du test de Student au cas o lon veut comparer plus de deux groupes. Nous comparons ici la quantit de fibres au sein des hamburgers de chacune des 4 groupes dfinis par la variable Calories_totales_r4. Le premier tableau donne des informations sur la distribution de la variable Fibres dans chacun des 4 groupes. Le deuxime tableau donne le rsultat du test dgalit des variances de Levene. Ici, lhypothse nulle du test (galit des variances des 4 groupes) est rejete (p-valeur = 0.001), ce qui implique que les rsultats de lANOVA peuvent perdre un peu en fiabilit. Le troisime tableau donne le rsultat de lANOVA elle-mme. Lhypothse nulle (galit de la moyenne des fibres au sein de chacun des 4 groupes) est nettement rejete (p=0.000). On peut donc admettre quau moins 1 des 4 groupes une moyenne de fibres diffrente de celle dun autre groupe. Pour affiner ce rsultat, des tests post-hoc de Tukey ont t effectus pour comparer 2 2 toutes les paires de groupes. Lanalyse des p-valeurs (signification) montre que le groupe <=400 a une moyenne de fibres diffrente de celle de chacun des 3 autres groupes. En revanche, il ny a pas de diffrence significative entre les moyennes au sein des 3 autres groupes (401-620, 521-820 et >820).

19

Rgression linaire : Variable dpendante = Calories_totales Analyse Rgression Linaire


Rcapitulatif du modle Erreur standard de Modle 1 .999
a

R-deux .998

R-deux ajust .997

l'estimation 13.363

a. Valeurs prdites : (constantes), Quantit de protines [g], Quantit de fibres [g], Quantit de sodium [mg], Quantit de carbone [g], Quantit de graisses [g], Quantit de cholestrol [mg]

Coefficients

Coefficients Coefficients non standardiss standardiss Erreur Modle 1 (constante) Quantit de graisses [g] Quantit de cholestrol [mg] Quantit de sodium [mg] Quantit de carbone [g] Quantit de fibres [g] Quantit de protines [g] B 1.535 8.697 .153 standard 5.394 .672 Bta .285 t Signification .776

Intervalle de confiance 95% de B Borne infrieure -9.154 8.393 Borne suprieure 12.225 9.000

56.811 .000

.686

.129

.135

5.299 .000

.429

.942

-.001 .007 4.599 .220 -3.340 1.808 .407 1.557 .100 .215

-.002

-.165 .869 20.914 .000

-.015 .012 4.163 -6.425 1.000 5.034 -.255 2.615

-.017

-2.146 .034 4.438 .000

a. Variable dpendante : Nombre total de calories

Commentaire : La rgression linaire est utilise pour expliquer le comportement dune variable dpendante numrique (ici le nombre total de calories) laide dune ou plusieurs autres variables explicatives (ici : graisses, cholestrol, sodium, carbone, fibres, protines). Globalement, le modle obtenu est de trs bonne qualit, puisque le R2 ajust vaut 0.997, ce qui est proche de son maximum possible de 1. On linterprte en disant que le 99.7% de linformation de la variable dpendante est explique laide de la rgression. Le second tableau nous indique (colonne B) la valeur des coefficients liant chaque variable explicative la variable dpendante. Par exemple celui du carbone vau 4.599, ce qui signifie que pour 1 gramme de carbone en plus dans un hamburger, on sattend y trouver 4.599 calories en plus. La colonne signification donne la p-valeur du test de significativit individuel de chaque paramtre. Lhypothse nulle dit que le paramtre vaut zro au niveau de la population. Si on laccepte, alors la variable correspondante est inutile et elle peut tre supprime du modle. Ici, si on excepte la constante qui nest quun paramtre dchelle et qui na pas besoin dtre vraiment analyse, on voit que la seule variable non-significative qui pourrait tre supprime du modle actuel est le sodium (p-valeur=0.869 > 5%). Toutes les autres variables semblent utiles pour comprendre le comportement de la variable dpendante. 20

Rgression logistique : Variable dpendante = Calories_totales_r2 Analyse Rgression Logistique binaire


Codage de variables dpendantes Valeur d'origine <=620 >620 Valeur interne 0 1

Bloc 0 : bloc de dpart


Tableau de classement
a,b

Prvu Nombre total de calories recod en 2 catgories Pourcentage Observ Etape 0 Nombre total de calories recod en 2 catgories <=620 >620 Pourcentage global a. La constante est incluse dans le modle. b. La valeur de csure est .500 <=620 0 0 >620 58 .0 59 100.0 50.4 correct

Variables dans l'quation B Etape 0 Constante .017 .185 E.S. .009 Wald ddl 1 .926 Signif. Exp(B) 1.017

Variables hors de l'quation Score Etape 0 Variables Cholestrol Sodium Carbone Protines Statistiques globales 58.879 62.580 39.879 62.228 77.000 ddl 1 .000 1 .000 1 .000 1 .000 4 .000 Signif.

21

Block 1 : Mthode = Entre


Rcapitulatif du modle R-deux de Cox & Etape 1 -2log-vraisemblance 38.761 .652
a

R-deux de Nagelkerke .869

Snell

a. L'estimation a t interrompue au numro d'itration 9 parce que les estimations de paramtres ont chang de moins de .001.

Tableau de classement

Prvu Nombre total de calories recod en 2 catgories Pourcentage Observ Etape 1 Nombre total de calories recod en 2 catgories <=620 >620 Pourcentage global a. La valeur de csure est .500 <=620 56 4 >620 2 55 correct 96.6 93.2 94.9

Variables dans l'quation IC pour Exp(B) 95.0% B Etape 1 Cholestrol Sodium Carbone Protines Constante .046 .004 .172 .186 -21.103 E.S. .052 .003 .058 .212 5.460 .772 14.941 Wald .788 1.758 8.903 ddl Signif. 1 .375 1 .185 1 .003 1 .380 1 .000 .000 Exp(B) Infrieur Suprieur 1.160 1.009 1.061 1.329 1.826

1.047 .946 1.004 .998 1.187 1.205 .795

Commentaire : La rgression logistique binaire est lquivalent de la rgression linaire, mais pour une variable dpendante catgorielles ne prenant que deux valeurs. Ici, nous cherchons expliquer la variable Calories_totales_r2. Formellement, le modle va chercher prdire la probabilit quun hamburger appartienne la catgorie >620 calories. Cest la catgorie code 1 par SPSS (cf. premier tableau).

22

Le Bloc 0 donne des informations sur un modle ne comportant que la constante et aucune variable explicative. Cest une sorte de point de rfrence. Le tableau de classement permet de voir comment le modle reclasse les observations de la variable dpendante entre ses deux catgories. Sans variable explicative, on narrive classer correctement que 50.4% des observations, ce qui est trs faible. Les deux tableaux suivants donnent des informations sur respectivement le modle (compos de la seule constante) et les variables explicative, pas encore dans le modle mais qui y seront introduites ltape suivante. Le Bloc 1 donne les informations relatives au modle calcul avec 4 variables explicatives (cholestrol, sodium, carbone, protines). Globalement, le modle est bon, mais pas parfait. Le R2 de Nagelkerke est lev (0.869 pour un maximum de 1) et le modle permet maintenant didentifier correctement la catgorie de 94.9% de tous les hamburgers de lchantillon. Seuls 2 hamburgers ayant rellement moins de 620 calories ont t classifis comme en ayant plus de 620, et 4 hamburgers sont dans le cas inverse. Au niveau des 4 variables explicatives du modle, on constate que 3 dentre-elles ne sont pas significatives (pvaleur suprieure 5%) et quelles pourraient tre sorties du modle. La seule variable significative ici (en plus de la constante) est le carbone. La colonne Exp(B) donne lodds ratio correspondant chaque variable du modle. Pour essayer de simplifier le modle, nous avons appliqu une procdure de slection automatique des variables de type descendante permettant dliminer une une les variables inutiles :
Rcapitulatif du modle Etape 1 2 3 -2log-vraisemblance
a

R-deux de Cox & Snell

R-deux de Nagelkerke .869 .866 .855

38.761 .652 39.587 .649 42.336 .641


b b

Tableau de classement

Prvu Nombre total de calories recod en 2 catgories Observ Etape 1 Nombre total de calories recod en 2 catgories <=620 >620 Pourcentage global Etape 2 Nombre total de calories recod en 2 catgories <=620 >620 Pourcentage global Etape 3 Nombre total de calories recod en 2 catgories <=620 >620 Pourcentage global a. La valeur de csure est .500 53 5 5 54 54 5 4 54 <=620 56 4 >620 2 55 Pourcentage correct 96.6 93.2 94.9 93.1 91.5 92.3 91.4 91.5 91.5

23

Variables dans l'quation IC pour Exp(B) 95.0% B Etape 1


a

E.S. .052 .003 .058 .212

Wald .788 1.758 8.903 .772

ddl

Signif. 1 .375 1 .185 1 .003 1 .380

Exp(B)

Infrieur

Suprieur 1.160 1.009

Cholestrol Sodium Carbone Protines Constante

.046 .004 .172 .186 -21.103 .081 .004 .183 -19.658 .119 .200 -19.229

1.047 .946 1.004 .998 1.187 1.205 .795 .000 1.085 1.004 .999 1.201 .000 1.126 1.222 .000 1.060 1.098 1.080 1.012 1.061

1.329 1.826

5.460 .035 .003 .054 4.770 .031 .055 4.813

14.941 5.355 2.483 11.388 16.985 14.650 13.478 15.963

1 .000 1 .021 1 .115 1 .001 1 .000 1 .000 1 .000 1 .000

Etape 2

Cholestrol Sodium Carbone Constante

1.162 1.009 1.335

Etape 3

Cholestrol Carbone Constante

1.197 1.360

a. Variable(s) entres l'tape 1 : Cholestrol, Sodium, Carbone, Protines.

Commentaire : A partir du modle initial (Etape 1), il y a eu deux tapes supplmentaires (Etapes 2 et 3). Comme on peut le voir dans le dernier tableau, la variable Protines, qui tait la variable la moins significative (plus forte p-valeur) lors de ltape 1, est sortie du modle lEtape 2, et la variable Sodium (la moins significative ltape 2) est sortie lEtape 3. On peut noter que le cholestrol, qui ntait pas significatif ltape 1, lst devenu ltape 2 suite la suppression des protines. Le modle final ne comporte donc plus que deux variables explicatives : cholestrol et carbone. Globalement, le fait davoir supprim une partie des variables explicatives a lgrement pjor le modle, puisque le R2 de Nagelkerke est pass de 0.869 0.855 et le taux de classement correct est descendu de 94.1% 91.5%. Cependant, comme le modle a gagn en simplicit, on peut considrer que le rsultat final est tout--fait acceptable.

24

Analyse en composantes principales (ACP) : Toutes les variables numriques Analyse Factorisation Analyse factorielle

Qualit de reprsentation Initial Nombre total de calories Nombre de calories des graisses Pourcentage du total des calories du aux graisses Quantit de graisses [g] Quantit de cholestrol [mg] Quantit de sodium [mg] Quantit de carbone [g] Quantit de fibres [g] Quantit de protines [g] Extraction

1.000 .986 1.000 .966 1.000 .741 1.000 .966 1.000 .884 1.000 .825 1.000 .918 1.000 .899 1.000 .842

Mthode d'extraction : Analyse en composantes principales.

Variance totale explique Compos ante 1 2 3 4 5 6 7 8 9 .468 .252 .179 .054 .018 .002 .000 .600 .195 .019 .003 Total 6.528 1.498 Valeurs propres initiales % de la variance 72.538 16.650 5.199 2.804 1.993 % cumuls 72.538 89.188 94.386 97.191 99.184 99.784 99.979 99.997 100.000 Extraction Sommes des carrs des facteurs retenus Total 6.528 1.498 % de la variance 72.538 16.650 % cumuls 72.538 89.188

Mthode d'extraction : Analyse en composantes principales.

25

Matrice des composantes

Composante 1 Nombre total de calories .992 .051 -.070 -.265 -.067 -.253 -.116 .747 .870 -.157 2

Nombre de calories des graisses .980 Pourcentage du total des calories du aux graisses Quantit de graisses [g] Quantit de cholestrol [mg] Quantit de sodium [mg] Quantit de carbone [g] Quantit de fibres [g] Quantit de protines [g] .819 .981 .905 .901 .600 .378 .904

Mthode d'extraction : Analyse en composantes principales. a. 2 composantes extraites.

Commentaire : Lanalyse en composantes principales a pour objectif de rduire le nombre de variables numriques analyser en regroupant leurs informations sur un nombre strictement infrieur de nouvelles variables appeles composantes principales. Dans cet exemple, nous avons introduit 9 variables dans lanalyse. Le premier tableau donne dans la colonne Extraction, le pourcentage de linformation de chacune des 9 variables qui st reproduit par le modle. Globalement, cest trs bon, puisquune seule variable est reproduite moins de 80%. Le second tableau donne deux informations importantes : 1) Seules deux composantes ont t utilises dans le modle (on le sait, car seules les deux premires lignes sont remplies dans la partie de droite du tableau). On a donc remplac un ensemble de 9 variables par seulement deux nouvelles variables, ce qui est un gain considrable. 2) A elles-deux, ces composantes reproduisent 89.188% de linformation de dpart contenue dans les 9 variables originales. La premire composante reprsente 72.438% de linformation et la seconde 16.650%. Le dernier tableau donne la corrlation entre chacune des 9 variables dorigine et chacune des deux composantes principales. En gnral, on associe chaque variable de dpart la composante avec laquelle elle est la plus fortement corrle (en valeur absolue). Ici, les 6 premires variables et les protines sont clairement associes la premire composante. On peut donc admettre que les informations de ces 7 variables sont fortement lies. La variable fibres est associe la seconde composante principale. La variable carbone aussi, mais dans ce dernier cas, la diffrence entre les eux corrlations (0.600 et 0.747) est plus rduite et on pourrait aussi dire que cette variable est associe aux deux composantes. En conclusion, nous avons 7 variables qui ont beaucoup dinformations en commun, une variable (fibres) qui reprsente une information clairement distincte, et une variable (carbone) qui semble lis aux deux types dinformations.

26