Vous êtes sur la page 1sur 18

INTN0C – Santé humaine et prévention des maladies H-22

Table des matières


Statistiques et méthode quantitative..........................................................................................................2
1. Déterminer la nature de vos variables.................................................................................................2
2. L’analyse statistique de vos données...................................................................................................4
2.1 Une variable qualitative.....................................................................................................................4
2.2 Une variable quantitative...................................................................................................................6
2.3 Deux variables qualitatives................................................................................................................7
2.4 Deux variables quantitatives............................................................................................................10
Calcul du coefficient de corrélation r de Pearson avec un tableur Excel..........................................11
Test de signification du r de Pearson.................................................................................................11
2.5 Une variable quantitative et une variable qualitative binaire..........................................................13
Annexe I – Régression linéaire..................................................................................................................16
Relation linéaire.................................................................................................................................16

Page 1 sur 18
INTN0C – Santé humaine et prévention des maladies H-22

Statistiques et méthode quantitative


Ce document présente la méthode qui vous permettra de concrétiser convenablement la méthode
quantitative dans votre travail de recherche.

Selon ce que vous voulez démontrer à partir de votre méthode quantitative, vous avez plusieurs choix
de variables que vous pourrez mettre en relation les unes avec les autres :
- Une variable qualitative, utilisation de la loi binomiale.
- Une variable quantitative, intervalle de confiance de la moyenne.
- Deux variables qualitatives, test de chi carré.
- Deux variables quantitatives, régression linéaire simple.
- Une variable qualitative binaire et une quantitative, test du t de student.

Ce document vous aidera donc d’abord à déterminer quels sont les types de variables que vous
analysez et ensuite expliquera la façon adéquate de faire l’analyse.

1. Déterminer la nature de vos variables

Variable qualitative

C’est une variable décrite par un mot. Il peut y avoir plusieurs réponses possibles, mais les gens ne vont
répondre qu’à une seule question.

Tableau 1. Exemples de variables qualitatives liées à une question et les choix de réponses possibles

Variables Questions Choix de réponse

Couleur préférée Quelle est votre couleur préférée? Bleu, rouge, jaune

Nationalité Quel est le pays d’origine de vos parents? Canada, Viet Nam, Liban, ...

Habitude de fumer Avez-vous fumé dans la dernière année? Oui, non

Il est important de limiter les choix de réponses sinon l’analyse statistique devient très complexe ou
impossible. Aussi, pour l’exemple de la nationalité, vous pourriez regrouper les nationalités par
continent. À vous de juger. Vous pouvez faire ces regroupements à posteriori.

Page 2 sur 18
INTN0C – Santé humaine et prévention des maladies H-22

Variable quantitative

C’est une variable décrite par une valeur numérique. Il y a une infinité de réponses possibles. Vous
devrez mesurer ou demander une valeur numérique à la personne. Il ne faut pas oublier les unités de
mesure et toujours mesurer de la même façon et avec le même instrument de mesure.

Tableau 2. Exemples de variables quantitatives liées à une question et les réponses possibles

Variable Question ou moyen de l’obtenir Réponses possibles

mesure en
Grandeur Coller un ruban à mesurer sur un mur et mesurer les gens.
centimètres

Âge Quel est votre âge en années? nombre d’années

Utilisation de la
Combien d’heures passez-vous par semaine devant la télé? nombre d’heures
télé

Variable semi-quantitative

Une variable semi-quantitative se révèle lorsque vous avez des réponses quantitatives que vous
décidez de regrouper par classe. Les gens qui répondent à votre question ont donc des choix de
réponse par classe et ne donnent donc pas la valeur numérique exacte qui les concerne.

Une variable semi-quantitative se traite comme une variable qualitative. Statistiquement, vous
perdez de l’information et ce n’est pas toujours souhaitable. Dans la mesure du possible, évitez cette
situation.

Exemple : Pour l’âge, vous pouvez demander : Votre âge se situe entre 0-5 ans, 5-10 ans, 10-15 ans, ...

Une fois que vous avez déterminé le type de variable que vous analysez, vous devez déterminer la
façon adéquate à utiliser pour analyser vos variables. Les prochaines sections présentent les méthodes
d’analyse ainsi que des exemples qui vous aideront à mieux comprendre la façon de faire.

Page 3 sur 18
INTN0C – Santé humaine et prévention des maladies H-22

2. L’analyse statistique de vos données

2.1 Une variable qualitative

Si vous avez posé une seule question aux gens avec un choix de réponses, l’analyse des données est
assez limitée. Vous allez présenter vos résultats dans un tableau de fréquences relatives (%).

Tableau 3. Fréquences relatives du plat préféré à la cafétéria de 60 étudiants du collège Jean-de-


Brébeuf. Données recueillies le 1 mars 2015 par sondage.

Plat Fréquence relative

Sandwich 50 %

Pizza 20 %

Salade 10 %

Pâtes 10 %

Menu du jour 10 %

À partir de cet exemple, nous allons voir comment interpréter ces résultats.

Vous allez vous intéresser à la classe la plus importante, soit le sandwich. Votre fréquence relative est
50%. Si vous aviez sondé d’autres personnes, cette fréquence aurait été différente. Ce que vous voulez
savoir est entre quelles valeurs se retrouverait votre fréquence relative si vous faisiez un autre sondage
avec d’autres personnes.

Nous sommes familiers avec ce genre d’interprétation lors des sondages politiques. Ainsi, on peut
entendre: «Si les élections avaient eu lieu hier, le parti Libéral aurait eu 31% des votes plus ou moins
3% 19 fois sur 20». Ceci veut dire que lors du sondage on a eu 31%, mais l’intervalle de confiance est
entre 28% et 34% et que le hasard aurait fait qu’on peut être en dehors de cet intervalle dans 5% des
cas.

Comment faire pour déterminer l’intervalle de confiance?

Le 19 fois sur 20 est choisi à l’avance. C’est un standard dans les tests statistiques. Il représente le fait
qu’il y a 5% de chance que ce que vous affirmerez est erroné ; c’est donc une marge d’erreur.

Page 4 sur 18
INTN0C – Santé humaine et prévention des maladies H-22

Une estimation rapide de l’intervalle de confiance se calcule par la formule suivante :

Intervalle = p ±1,96
√ p ( 1− p )
n

p = fréquence d’occurrence de la variable (50% pour les sandwiches de l’exemple précédent).


n = nombre de participants au sondage (60 dans l’exemple précédent)

Cette formule fournit une estimation de l’intervalle de confiance de la fréquence et est suffisante pour
le calcul dans le cadre de ce cours. Vous devez calculer l’intervalle de confiance pour une fréquence
donnée. Ainsi pour notre exemple nous obtenons pour les sandwiches :

0,98
Intervalle de confiance=0,5 ±
√ 60
L’intervalle se situe donc entre 37% et 63%.

Donc les étudiants ont choisi le sandwich (50 ± 13)% du temps pour cet échantillon. Dans la population,
ils vont choisir le sandwich entre 37% et 63% du temps 19 fois sur 20. Ce même calcul est répété pour
les autres classes.

Si l’échantillon n est très faible, il se peut que vous ayez des intervalles de confiances plus petits que
zéro. C’est illogique. Dans ces cas, vous devrez regrouper des classes de façon logique et devrez
justifier les facteurs vous permettant de les classer de la manière dont vous le faites. Ainsi vous pouvez
regrouper la salade, les pâtes et le menu du jour car ils sont considérés comme plus santé que les
sandwiches et la pizza que vous mettriez dans la malbouffe, car leur teneur en lipides dépasse un
certain seuil que vous avez déterminé.

Ainsi, 70% des étudiants de cet échantillon ont choisi la malbouffe, ce qui veut dire que dans la
population, les étudiants vont choisir la malbouffe entre 57% et 82% du temps 19 fois sur 20, et vont
choisir un menu santé (fréquence de l’échantillon de 30%) entre 17% et 43% du temps 19 fois sur 20.

Pour plus de détails sur les intervalles de confiance pour un sondage multinomial, vous pouvez
consulter:

Fitzpatrick, Simon et Alastair, Scott. Quick simultaneous confidence interval for multinomial
proportions. Journal of the American Statistical Association, septembre 1987, vol 82 no 399.

Page 5 sur 18
INTN0C – Santé humaine et prévention des maladies H-22

2.2 Une variable quantitative

Vous avez posé une seule question dans votre sondage ou votre expérience, la valeur est quantitative
et vous voulez regrouper et interpréter ce résultat. Deux indicateurs sont très efficaces pour décrire
votre ensemble de données. Le premier est la moyenne et le second est l’écart type. Ces valeurs vous
sont familières et les calculs sont programmés d’avance dans votre calculatrice et dans Excel. Pour
l’écart type, vous devez choisir l’écart type pour un échantillon qui est exprimé par la lettre s. Ne pas
prendre celui exprimé par la lettre grecque sigma σ qui est pour un recensement de l’ensemble de la
population.

Comme vous travaillez avec un échantillon, il est très possible que si vous aviez fait votre sondage avec
d’autres personnes, le résultat serait différent. Aussi, vous voulez savoir entre quelles valeurs se
situerait votre moyenne peu importe l’échantillon. Cet intervalle s’appelle un intervalle de confiance
de la moyenne.

Vous êtes familier avec les intervalles de confiance quand vous écoutez certains résultats de sondages.
Ainsi, on peut entendre : «Le volume d’air expiré par un homme est en moyenne de 6,5 litres ± 0,5
litres 19 fois sur 20». En langage plus clair, ceci veut dire que vous avez trouvé une moyenne de 6,5
litres et que l’intervalle de confiance est de 6 à 7 litres. Le 19 fois sur 20 correspond à la marge d’erreur
possible d’un test statistique, soit α = 5% qui est la marge d’erreur standard pour un test statistique
n’impliquant aucune question de vie ou de mort. Vous allez donc utiliser cette marge de α = 5%.

Calcul de l’intervalle de confiance de la moyenne :

sx x : moyenne de l’échantillon
Borne inférieure : x−t 0,05 ;(x−1 ) × n : taille de l’échantillon
√n
s x: écart type de l’échantillon (=ECARTTYPE dans Excel)
sx t 0,05 ;(n−1): valeur du t de Student lue dans une table pour
Borne supérieure : x +t 0,05; (x−1) × α=0,05 et ν = n-1, ou en utilisant Excel
√n

Excel peut déterminer automatiquement la valeur du facteur de Student avec ν = n – 1 degrés de


liberté; cette fonction est =LOI.STUDENT.INVERSE(probabilité;degrés_liberté).

À partir de cette formule, vous pourrez vous aussi dire : la moyenne observée de ... ± ... 19 fois sur 20.

Page 6 sur 18
INTN0C – Santé humaine et prévention des maladies H-22

2.3 Deux variables qualitatives

Lors de votre sondage, vous avez posé deux questions et obtenu des réponses qualitatives. Par
exemple, vous avez demandé le plat préféré des étudiants à la cafétéria en tenant compte du genre.
Vous voulez savoir s’il y a un lien entre ces deux variables, autrement dit, est-ce que le choix du repas à
la cafétéria va changer selon que ce soit un garçon ou une fille. Vos données vont être regroupées dans
un tableau de fréquences.

Tableau 4. Fréquences absolues observées du plat préféré à la cafétéria de 60 étudiants du collège


Jean-de-Brébeuf en tenant compte du genre. Données recueillies le 1 mars 2015 par sondage.

Garçon Fille Total

Sandwich 10 9 19

Pizza 8 5 13

Salade 3 9 12

Pâtes 5 4 9

Menu du jour 4 3 7

Total 30 30 60

Le test de Xhi carré vérifie si vos fréquences observées suivent une distribution au hasard entre les
garçons et les filles : les fréquences attendues. Vous devez créer votre tableau des fréquences
attendues avant de continuer.

Tableau 5. Fréquences absolues attendues du plat préféré à la cafétéria de 60 étudiants du collège


Jean-de-Brébeuf en tenant compte du genre.
Garçon Fille Total

Sandwich 19x30/60 = 9,5 19x30/60 = 9,5 19

Pizza 13x30/60 = 6,5 13x30/60 = 6,5 13

Salade 12x30/60 = 6 12x30/60 = 6 12

Pâtes 9x30/60 = 4,5 9x30/60 = 4,5 9

Menu du jour 7x30/60 = 3,5 7x30/60 = 3,5 7

Total 30 30 60

Page 7 sur 18
INTN0C – Santé humaine et prévention des maladies H-22

Pour déterminer s’il y a un lien entre vos deux variables quantitatives, vous allez faire un test du Xhi
carré. Vous avez appris ce test en BION01 avec votre travail sur les drosophiles. Le test que vous allez
faire ne suit pas un modèle préétabli. Voici donc les étapes à suivre. Toutes ces étapes doivent se
trouver en annexe de votre travail.

Étape 1 : La question biologique


Est-ce que le choix des aliments varie selon que ce soit un garçon ou une fille?

Étape 2: Les hypothèses statistiques


H0 : Il n’y a pas de différence entre le choix des aliments selon le genre des étudiants.
H1 : Il y a une différence entre le choix des aliments selon le genre des étudiants.
Rappelez-vous que le test statistique vise à vérifier H0 et que s’il est improbable que H0 soit vraie alors
on doit en conclure que c’est H1 qui est vraie.

Étape 3 : Choix du test

Le test choisi est le test du Xhi carré. Toutefois, ce test a des limites. Pour savoir si vous pouvez utiliser
vos données tel quel, vous devez faire deux petites vérifications avec votre tableau des fréquences
attendues :

1- Toutes les fréquences attendues doivent être supérieures ou égales à 1.

n
2- ≥6 où n = échantillon, l = nombre de lignes et c = nombre de colonnes
l× c

60
Dans notre cas : =6 donc c’est correct.
5× 2

Si nous avions obtenu une valeur < 6 alors il aurait fallu regrouper soit des lignes, soit des colonnes, de
façon logique, comme regrouper toute la malbouffe et tous les repas sains.

Étape 4 : Seuil de tolérance


À moins d’avis contraire, votre seuil de tolérance est fixé à α=0,05. Ceci veut dire que si la probabilité
que H0 soit vraie est plus grande que 0,05 alors peut dire que H0 est vraie. Vous pouvez chercher la

Page 8 sur 18
INTN0C – Santé humaine et prévention des maladies H-22

valeur de Xhi carré correspondant à votre situation dans la table du Xhi carré, ou utiliser une fonction
préétablie d’Excel.

Étape 5 : Le calcul


Le calcul se fait à partir des tableaux de fréquences observées et attendues et peut se faire dans Excel.
La fonction à utiliser est CHISQ.TEST et s’écrit de la façon suivante :

Étape 6 : La décision


Dans le cas de notre exemple, la valeur calculée par Excel est 0.076532514. Puisque 0.076532514 >
0.05, H0 est donc vraie.

Étape 7 : L’interprétation


Je n’ai pas rejeté H0 donc il n’y a pas de différence significative dans les choix de menu à la cafétéria
selon le genre de l’étudiant.

À partir de ces étapes, vous pouvez maintenant discuter de vos résultats dans votre travail. Vous
pouvez affirmer statistiquement comment vous avez répondu à votre question de départ, puis faire des
liens entre ce que vous avez observé et ce que vous avez trouvé dans la littérature.

Page 9 sur 18
INTN0C – Santé humaine et prévention des maladies H-22

2.4 Deux variables quantitatives

Beaucoup d’échantillons visent à démontrer un lien entre deux variables quantitatives x et y. Ainsi,
vous voulez peut-être voir s’il y a un lien entre l’âge et l’indice de masse corporelle (IMC) chez les
humains. Quand vous représentez vos données vous avez un diagramme de dispersion et il semble y
avoir une pente positive ou négative (dans notre exemple, cette pente semble positive). N’oubliez pas
de placer en abscisse la donnée qui peut influencer l’autre. Ici, il est plus logique de croire que l’âge
influence l’IMC et non l’inverse donc l’âge est placé en abscisse.

Graphique 1. Corrélation entre l’âge et l’IMC (kg/m2) chez 30 sujets masculins sélectionnés
aléatoirement

Une fois que vous avez déterminé ce qui est en x et en y vous pouvez commencer les calculs vous
permettant de retrouver la relation linéaire entre 2 variables. Ceux-ci se feront dans Excel et la façon
de faire est montrée dans l’Annexe I de ce document. Ces calculs permettent de déterminer la pente
de la relation, avec ses incertitudes, existant entre vos variables x et y.

Maintenant, vous avez calculé votre pente. Mais, est-ce que cette pente veut vraiment dire quelque
chose? Est-elle due au hasard? Pour le savoir, vous allez faire un test statistique : vous calculerez le
coefficient de corrélation de Pearson.

Tous ces calculs peuvent être effectués sur Excel. Vous obtiendrez le coefficient de corrélation r et le
coefficient de détermination r2. Ce dernier donne une mesure de la proportion des variations de la
variable y qui sont « expliquées » par la variable x.

Page 10 sur 18
INTN0C – Santé humaine et prévention des maladies H-22

Calcul du coefficient de corrélation r de Pearson avec un tableur Excel

On continue avec l’exemple de l’âge et de l’indice de masse corporelle (IMC), avec X = âge et Y  = IMC où
les données proviennent de 30 sujets masculins. La fonction Excel PEARSON donne le coefficient de
corrélation linéaire « r » calculé à l’aide des deux plages de données X et Y. Le coefficient de corrélation
varie entre -1,0 et 1,0 et reflète la puissance de la relation linéaire entre les deux variables. Un
coefficient négatif indique une corrélation négative et un coefficient positif une corrélation positive.
Plus la valeur de r est près de 1, plus la corrélation linéaire positive est forte.

Dans l’exemple, nous avons obtenu une valeur de r = 0,601982708 et donc un r 2 = 0,6019827082=
0,3624. Cela signifie que 36,24% de la variation dans les données concernant l’IMC en Y est expliqué
par le lien linéaire avec l’âge du mâle en X.

Test de signification du r de Pearson

Lorsque la valeur absolue du coefficient de corrélation de Pearson est près de 1, on peut aisément
conclure qu’il y a une relation entre les deux variables. Lorsque le r s’éloigne de 1, il est possible
d’effectuer un test signification du r de Pearson. Ce test nous permet de conclure s’il existe vraiment un
lien linéaire entre les variables X et Y dans la population.

Dans l’exemple précédent, la valeur du coefficient de corrélation linéaire est de r = 0,601982708. Cette
valeur ne permet pas de déterminer si effectivement, il y a une relation entre les deux variables. Il faut
donc faire le test de signification de Pearson.

Page 11 sur 18
INTN0C – Santé humaine et prévention des maladies H-22

Étape 1 : Question biologique


Est-ce que l’âge d’une personne influence son indice de masse corporel (IMC)?

Étape 2 : Hypothèses statistiques


H0 : Il n’y a pas de lien entre l’âge et l’IMC.
H1 : Il y a un lien entre l’âge et l’IMC.

Rappelez-vous que le test statistique vise à vérifier H0 et que s’il est improbable que H0 soit vraie alors
on doit en conclure que c’est H1 qui est vraie.

Étape 3 : Calculs


La formule Excel à inscrire est la suivante :

Où r est coefficient de corrélation et n représente la taille de l’échantillon (nombre de données en Y).


Ici, n-2 représente le nombre degré de liberté.

Cette fonction donne un résultat p qui correspond à la probabilité associée au test.

En faisant ce calcul avec les données de l’exemple de l’IMC en fonction de l’âge, nous obtenons un
p=0.0004

Étape 4 : Prise de décision

La valeur de p est largement inférieure au seuil de significativité généralement fixé à 0,05 (5%) et même
inférieure à 0,01 (1%). Par conséquent, on rejette l’hypothèse H0 et on peut affirmer qu’il existe un lien
linéaire entre les deux variables X et Y.

Page 12 sur 18
INTN0C – Santé humaine et prévention des maladies H-22

2.5 Une variable quantitative et une variable qualitative binaire

Dans cette situation, vous voulez comparer deux groupes, par exemple les garçons et les filles. Et vous
voulez comparer deux moyennes pour une variable : la moyenne des garçons et la moyenne des filles.

Vos deux variables sont :


1- le groupe d’appartenance et
2- la mesure prise pour chaque groupe.

Le test statistique pour comparer deux moyennes s’appelle le test du t de Student de comparaison de
moyennes.

Étape 1 : Question biologique


Est-ce qu’il y a une différence de grandeur entre les garçons et les filles?

Étape 2 : Hypothèses statistiques


H0 : Il n’y a pas de différence entre la grandeur moyenne des garçons et des filles.
H1 : Il y a une différence entre la grandeur moyenne des garçons et des filles.

Rappelez-vous que le test statistique vise à vérifier H0 et que s’il est improbable que H0 soit vraie alors
on doit en conclure que c’est H1 qui est vraie.

Étape 3 : Choix du test


Comme nous voulons comparer 2 moyennes, nous allons faire le test du t de Student de comparaison
de moyennes. Certaines conditions doivent être remplies pour pouvoir remplir ce test mais nous ne les
verrons pas dans le cadre de ce cours.

Étape 4 : Seuil de tolérance


À moins d’avis contraire, votre seuil de tolérance est fixé à α=0,05. Ceci veut dire que si la probabilité
que H0 soit vraie est plus petite que 0,05 alors on ne peut pas dire que H0 est vraie et on rejette H0.

Étape 5 : Calculs
Les calculs se feront avec Excel.

Il y a 4 arguments dans la fonction :

Matrice1 = plage de données pour la taille des hommes

Matrice2 = plage de données pour la taille des femmes

Page 13 sur 18
INTN0C – Santé humaine et prévention des maladies H-22

Uni/bilatéral1 = Vous devez inscrire « 1 » si le test est unilatéral ou « 2 » si le test est bilatéral. Dans cet
exemple, on veut savoir si les tailles des filles et des garçons sont différentes (m 1≠m2) et le test est donc
bilatéral. Si la question avait plutôt été : Est-ce que les hommes sont plus grands que les filles, alors
nous aurions inscrit 1 puisqu’il aurait s’agit d’un test unilatéral.

Type = Il est possible d’inscrire « 1 » si les données des deux groupes sont appariées; c’est-à-dire que
les valeurs ont été prises 2 fois sur les mêmes individus du type avant/après. Si les individus dans les
deux groupes sont différents, on doit inscrire « 2 » lorsque les variances deux groupes sont égales et
« 3 » lorsque les variances deux groupes sont inégales. Nous avons inscrit « 2 », car les variances des
groupes sont égales.2

La fonction donne un résultat p qui correspond à la probabilité associée au test de Student. Dans
l’exemple, la valeur de p = 0.02050379.

1
Deux moyennes peuvent être différentes de deux manières : soit m1 est supérieure à m2 soit m1 est inférieure à m2. On
réalise un test bilatéral lorsqu’on veut montrer que m 1>m2 ou que m1<m2. Voici un exemple de question de recherche où un
test bilatéral doit être utilisé : Est-il vrai que les flexibilités des filles (m 1) et des garçons (m2) sont différentes; m1≠m2? On
réalise plutôt un test unilatéral lorsqu’on ne s’intéresse qu’aux différences dans une seule direction, c’est-à-dire que la zone
de rejet de H0 se situe à une seule extrémité de la distribution de probabilités. Voici un exemple de question de recherche
où un test unilatéral doit être utilisé : Est-il vrai que la flexibilité des filles (m 1) et plus grande que celle des garçons (m 2);
m1>m2?

2
Un test de Fisher (F.TEST) peut être effectué pour vérifier si les variances de chacune des populations à l’étude sont égales
ou différentes. Pour considérer qu’il y a une différence significative entre les deux variances, la valeur de p doit être
inférieure à 0,05.

Page 14 sur 18
INTN0C – Santé humaine et prévention des maladies H-22

Étape 6 : Décision statistique

On dit que la différence entre les deux groupes est statistiquement significative lorsque p est plus petit
de 0,05, soit 5%. Pour simplifier, cela signifie qu'il y a moins de 5% de chance que la différence est due
au hasard. On peut aussi dire que p est la probabilité de se tromper en disant que la différence est
significative. Avec une valeur de p < 0,05, on peut rejeter l’hypothèse H0. On peut alors postuler que
la différence entre les deux groupes est significative et qu’il y a de bonnes chances que cette
différence soit due au facteur étudié. Une valeur de p inférieure à 0,01 (1%) sera jugée très
significative.

Une valeur de p > 0,05 ne nous permet pas de rejeter l'hypothèse nulle H0. On dira que la différence
entre les deux groupes n'est pas significative. Les scientifiques choisissent généralement 5% comme
seuil de significativité ou seuil de confiance. 

Dans l’exemple, nous avons obtenu un p = 0.02050379. Comme la valeur de p est inférieure au seuil de
significativité de 0,05, nous pouvons rejeter l’hypothèse statistique H0. Notre conclusion statistique
dans la présente étude est : Il y a une différence statistique entre la taille des garçons et la tailles des
filles.

Étape 7 : Interprétation biologique


Comme nous avons rejeté H0, nous concluons qu’il y a une différence significative entre la taille des
garçons et des filles. À partir de cette interprétation, vous pouvez discuter dans votre travail.
Commentez si vos résultats correspondent à vos lectures théoriques ou s’ils apportent un élément
intéressant à votre étude.

Sachez qu’il est possible d’utiliser un test statistique lorsque vous avez une variable quantitative sous la
forme d’une moyenne par exemple, analysée pour plusieurs groupes, catégories ou classes. Le test
s’appelle ANOVA. Ce test n’est pas au programme, mais vous pouvez consulter un livre de référence 3,
des professeurs ou Wikipédia pour vous aider. Rappelez-vous de mettre toutes les étapes de la
démarche en annexe.

3
Scherrer, B., Biostatistique, 2ème édition, Chenelière Éducation (en réserve à la bibliothèque ou au bureau de Mme Denis)

Page 15 sur 18
INTN0C – Santé humaine et prévention des maladies H-22

Annexe I – Régression linéaire

Lorsqu’on utilise Excel pour tracer la droite de tendance y(x) qui s’ajuste le mieux aux données
expérimentales, le logiciel utilise la méthode statistique des moindres carrés. Avec comme seule variable
dépendante y, qu’on suppose suivre une distribution normale, on peut alors écrire que y = mx + b, où :

et
Lorsque les incertitudes de mesure ne sont pas précisément évaluées, ou encore, lorsque les données
reportées sur un graphique présentent des incertitudes trop petites pour utiliser la méthode des extrêmes,
il reste quand même possible de déterminer statistiquement les incertitudes sur les paramètres de la
droite (m ± m et b ± b) en estimant ces incertitudes à partir de l’erreur type, notée s, des points
expérimentaux autour de la droite de tendance.

Dans Excel, c’est ce que la fonction régression linéaire permet d’effectuer. La syntaxe de cette fonction
est la suivante :
=DROITEREG(y_connus;x_connus;constante;statistiques), où
 y_connus est la série des valeurs des ordonnées;
 x_connus est la série des valeurs des abscisses;
 constante représente une valeur logique (vrai ou faux) précisant si l’ordonnée à l’origine est
différente de zéro;
 statistiques représente une valeur logique (vrai ou faux) indiquant si d’autres paramètres statistiques
de régression, comme l’écart type, doivent être envoyés.

Relation linéaire

Considérons comme exemple les données du tableau ci-dessous.


Tableau 1. Données expérimentales d’une relation linéaire
X Y
0,2 0,0
1,0 2,0
2,0 4,0
2,1 6,0
3,0 7,0
3,2 9,0
4,5 10,5
5,0 12,0

Page 16 sur 18
INTN0C – Santé humaine et prévention des maladies H-22

Le but est de trouver les paramètres statistiques de la relation sans nécessairement devoir tracer le
graphique. Comme on cherche les valeurs de pente, d’ordonnée à l’origine, leur écart type respectif,
ainsi que possiblement d’autre paramètres statistiques, il faut entrer la fonction régression linéaire dans
une matrice deux colonnes par trois lignes.

Pour les 2 premières lignes, la première colonne correspond aux paramètres de la pente m et la seconde à
ceux de l’ordonnée à l’origine b, puis la première ligne correspond aux valeurs des paramètres et la
seconde aux écarts type recherchés. La troisième ligne indique tout d’abord le coefficient de corrélation
(R2) puis l’écart type calculé par DROITEREG pour les valeurs de Y.

Comme le montre la capture d’écran de droite, lorsqu’on sélectionne la plage de cellules pour la matrice
(ici les cellules B16 :C18), il faut effectuer le glissement de souris du coin supérieur gauche vers le coin
inférieur droit. Une fois la matrice sélectionnée, on tape la fonction régression linéaire (voir capture
d’écran de droite). On remarque que les deux arguments logiques de la fonction sont VRAI; le premier
indique que l’ordonnée à l’origine est bien différente de zéro, et le second indique que l’on désire
obtenir d’autres paramètres statistiques que les valeurs de m et b (pour nous l’écart type ainsi que les
coefficients R2 et σ y ). Pour faire apparaître le résultat, il faut appuyer sur CTRL+MAJ+ENTRÉE.
Le résultat est :

Si on avait souhaité imposer 0 comme ordonnée à l’origine, alors le premier argument logique
aurait dû être FAUX.

Page 17 sur 18
INTN0C – Santé humaine et prévention des maladies H-22

Finalement, pour calculer l’incertitude sur m et sur b, on utilise l’approximation qu’elle correspond
environ au double de l’écart type (σ), soit m ≈ 2.σm et b ≈ 2.σb.

Lorsqu’on trace le graphique et qu’on y fait apparaître la courbe de tendance linéaire ainsi que son
équation, on obtient m = 2,5027 et b = -0,257, ce qui correspond au cas où l’ordonnée à l’origine serait
différente de 0. On a donc m ± m = 2,50 ± 0,36 et b ± b = -0,3 ± 1,1.

L’incertitude sur y pour tracer les barres d’erreur est donnée par . Habituellement, ce
graphique doit être tracé en plus de celui où apparaît les points expérimentaux avec leurs incertitudes
obtenues au laboratoire. Le graphique avec permet d’illustrer la courbe de régression linéaire
avec les incertitudes statistiques en y associées à chacun des points.

Page 18 sur 18

Vous aimerez peut-être aussi