Vous êtes sur la page 1sur 61

IPMSH Analyse statistique des données quantitatives CEM

L'ANALYSE STATISTIQUE DE DONNÉES

1. Introduction
L'analyse des données de recherche en sciences humaines et sociales peut prendre deux formes :
l'analyse de données quantitatives et l'analyse de données qualitatives. Ce document portera plus
spécifiquement sur l'analyse de données quantitatives. Un autre document traitera des stratégies
utilisées dans l'analyse de données qualitatives.

Nous entendons ici par données quantitatives toute donnée qui se présente sous la forme de
nombres, de chiffres, qu'il s'agisse de variables dites qualitatives (nominales et ordinales) ou de
variables quantitatives (à intervalle et à rapport). Nous entendons par données qualitatives toute
donnée qui se présente sous une forme langagière ou narrative (compte-rendu d'une entrevue, notes
de terrain d'une observation naturelle, éléments d'information provenant d'archives historiques,
etc.).

L'analyse quantitative de données en sciences humaines et sociales fait généralement appel aux
statistiques. Toutefois, selon les besoins particuliers d'une recherche, d'autres formes d'analyses
quantitatives de données s'offrent aussi au chercheur en sciences humaines : l'analyse de
l'incertain en communication (logarithmes), les analyses de Fourier pour la modélisation de réponses
analogiques en psychophysiologie, etc.

On retrouve trois grandes familles de statistiques ou d'analyses statistiques : 1) les statistiques


descriptives; 2) les statistiques corrélationnelles; 3) les statistiques inférentielles. Voyons
brièvement de quoi il s'agit.

1.1 Statistiques descriptives


Comme leur nom l'indique, les statistiques descriptives ont pour principale fonction de décrire des
données quantitatives. En général, les statistiques descriptives sont utilisées pour décrire une
distribution de données, c'est-à-dire un regroupement ou un ensemble de données provenant d'une
même mesure ou d'une même collecte de données (ex. : les responses à une question de sondage, les
scores moyens à un examen, la distribution des salaires des employés d'une entreprise, etc.). On
retrouve trois princpaux types de statistiques descriptives, soit les indices de tendance centrale
(moyenne, médiane, mode, etc.), les indices de dispersion (étendue, écart-type, variance, espace
inter-quartile, etc.) et les indices de forme (coefficient de symétrie, kurtose, etc.).

Session Hiver 2004 1 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

1.2 Statistiques corrélationnelles


Les statistiques corrélationnelles réunissent un ensemble de tests statistiques qui permettent de
quantifier la relation entre deux ou plusieurs variables. Ces statistiques nous informent de la nature
et de la force de cette relation. Parmi les tests corrélationnels les mieux connus, on retrouve la
corrélation linéaire de Bravais-Pearson, la régression linéaire, la corrélation de Spearman et celle
de Kendall. On peut inclure aussi dans cette section, les mesures d'association comme le test du
Khi-deux et les analyses factorielles.

1.3 Statistiques inférentielles


Les statistiques inférentielles réunissent un répertoire très important de tests statistiques dont la
principale caractéristique est qu'ils sont basés sur l'inférence statistique, elle-même construite
autour de la notion de probabilité. Ces tests servent à mesure la probabilité qu'une différence
entre deux moyennes, qu'une corrélation entre deux variables, qu'une dépendance statistique entre
une variable et une autre variable soient dues au hasard. Parmi les tests inférentiels les mieux
connus, on retrouve les tests de comparaison de moyennes d'échantillon (test t de Student, analyse
de variance, etc.), les mesures d'association telles que le Khi-deux.

Dans les pages qui suivent, nous allons présenter une stratégie d'analyse statistique des données
quantitatives à l'aide du logiciel Excel de Microsoft. Il peut être intéressant à ce moment-ci
d'expliquer le choix du logiciel Excel comme outil d'analyse statistique. Il existe, sur le marché,
plusieurs logiciels spécifiquement conçus pour le traitement statistique des données (Statview,
SPSS, Mystat, etc.) et même des logiciels spécifiquement conçus pour le traitement des données
provenant d'une enquête par questionnaire ou d'un sondage. Pourquoi ne pas utiliser un de ces
logiciels plutôt que le logiciel Excel? Voici les principales raisons.

D'abord, le logiciel Excel est un chiffrier, c'est-à-dire un logiciel conçu pour le traitement de
données chiffrées. À l'origine, il a été conçu pour le traitement de données comptables, se
présentant sous la forme de tableau de nombres. Avec le temps, les concepteurs d'Excel ont
modifié ce logiciel pour inclure des fonctions plus spécifiques comme les tableaux dynamiques, les
fonctions graphiques et les tests statistiques. Bien qu'Excel sera utilisé ici comme logiciel d'analyse
statistique, il peut servir à de multiples fonctions d'analyse de données chiffrées. Le tableau
suivant réunit les principales raisons qui ont guidé le choix du logiciel Excel pour le cours
d'Initiation pratique à la méthodologie des sciences humaines.

Session Hiver 2004 2 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Les avantages du logiciel Excel comme outil


d'analyse statistique de données quantitatives
 Après le logiciel de traitement de texte Microsoft Word, il est probablement un des logiciels
les plus utilisés dans le monde;
 Il fait partie de l'ensemble Microsoft Office, ce qui le rend accessible à un très grand nombre
de personnes;
 En faisant partie de l'ensemble Microsoft Office, sa compatibilité avec les autres logiciels de
cet ensemble (Word, Power Point, etc.) est optimisée;
 Il s'agit d'un logiciel dont les fonctions sont très larges et qui peut se prêter à une grande
variété d'applications dont l'analyse statistique est une partie seulement;
 L'utilisation de ses fonctions de base est relativement facile et son temps d'apprentissage est
souvent plus court que pour la plupart des logiciels spécialisés;
 La structure de ses opérations est relativement transparente et ouverte ce qui veut dire qu'il
est possible de suivre et de comprendre facilement le déroulement de ses principales
opérations. De plus, il se prête facilement à des modifications puisqu'il est accompagné de
divers langages de programmation;
 Son coût d'utilisation est relativement abordable si on le compare aux autres logiciels d'analyse
statistique. L'achat d'une licence Microsoft Office (qui comprend le logiciel Excel) se compare
très avantageusement avec les licences des autres logiciels d'analyse statistique;
 La plupart des ordinateurs, dont les ordinateurs des laboratoires du collège et les ordinateurs
personnels de nombreux étudiants, sont équipés de la suite Microsoft Office. Ceci a comme
conséquence de permettre à un étudiant de traiter ses données de recherche dans la plupart
des laboratoires du collège ou d'en faire le traitement sur son ordinateur personnel ou sur
l'ordinateur familial. Cela a comme effet de réduire significativement l'engorgement des locaux
de laboratoire en fin de session et d'éliminer les retards causés par la non-disponibilité des
laboratoires informatiques en fin de session.
 Le logiciel Excel est un des logiciels les plus utilisés dans le monde ce qui veut dire que
l'apprentissage d'Excel pourra être rentabilisé à de nombreuses reprises par la suite (à
l'université, sur le marché du travail, etc.), ce qui n'était pas nécessairement le cas pour les
autres logiciels d'analyse statistique dont l'utilisation était souvent limitée aux seuls cours de
Méthodes quantitatives et d'Initiation pratique à la méthodologie des sciences humaines au
Cégep.

Session Hiver 2004 3 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

2. Une stratégie d'analyse statistique des données sur Excel


L'analyse statistique des données sur le logiciel Excel doit être guidée par une stratégie explicite
et une certaine connaissance de la nature des données, du type de variables et du type d'analyses
que l'on souhaite effectuer. Commençons par identifier les trois niveaux de décision à travers
lesquels doit cheminer toute analyse de données :

2.1 Les trois niveaux de toute analyse de données

2.1.1. Type d'analyse à effectuer


Une première étape consiste à déterminer le type d'analyse qui sera effectué. On identifie
généralement deux grandes catégories d'analyses : l'analyse univariée (qui ne s'adresse qu'à une
variable à la fois); l'analyse bivariée (qui analyse la relation entre deux variables).

2.1.1.1 L'analyse univariée


L'analyse univariée a pour objet de décrire une variable à l'aide de différents indices statistiques.
Il s'agit en quelque sorte de dresser un portrait statistique de la variable en question. L'analyse
univariée peut porter autant sur des variables indépendantes que dépendantes bien qu'en général,
elle est surtout utilisée pour analyser les variables dépendantes.

2.1.1.2 L'analyse bivariée


Comme l'indique son nom, l'analyse bivariée porte sur deux variables dont elle cherche à déterminer
la relation. En général, une analyse bivariée met en relation une variable indépendante et une
variable dépendante. Ainsi, on cherche à déterminer s'il existe une relation entre la variable
indépendante et la variable dépendante qui n'est pas due au hasard ou encore si la variable
indépendante exerce réellement une influence sur la variable dépendante (ex. : effet de la
technique de relaxation sur la gestion du stress). L'analyse peut aussi mettre en mettre en relation
deux variables indépendantes (ex. : secteur d'étude en fonction du sexe) ou deux variables
dépendantes (ex. : résultats scolaires en fonction du nombre d'heures travaillées à temps partiel
par semaine), mais dans ce cas, l'une des variables est temporairement considérée comme une
variable explicative et l'autre comme variable expliquée. Il est aussi possible de réaliser des
analyses multivariées (analyse simultanée de plusieurs variables), mais la complexité de ce type
d'analyse dépasse la portée de ce cours.

2.1.2 Nature de la variable analysée


Une deuxième étape consiste à identifier la nature de la variable que l'on s'apprête à analyser. Dans
ce sens, il faut distinguer les variables indépendantes des variables dépendantes.
Session Hiver 2004 4 Alain Saumier ©
IPMSH Analyse statistique des données quantitatives CEM

2.1.2.1 Variable indépendante


La variable indépendante est, dans une recherche, la variable ou le phénomène dont le chercheur
souhaite étudier l'influence sur d'autres facteurs. On la définit aussi comme la variable étudiée ou
explicative. On reconnaît généralement deux types de variables indépendantes : la variable
indépendante manipulée qui correspond à des facteurs externes à l'individu (ex.: niveau de bruit,
nature du matériel à mémoriser, présence ou absence d'un médicament) que le chercheur peut
manipuler de façon systématique dans le cadre d'une expérience; la variable indépendante assignée
qui correspond à une caractéristique a priori de l'individu (ex.: sexe, âge, intelligence) que le
chercheur ne peut manipuler mais qu'il peut assigner à une des conditions de son étude.

2.1.2.2 Variable dépendante


La variable dépendante est, dans une recherche, la variable qui subit l'effet ou l'influence d'une
variable indépendante. On la définit aussi comme la variable mesurée ou expliquée. Elle correspond
généralement au comportement ou à l'état d'un individu, comportement ou état qui sera affecté ou
influencé par le comportement d'une variable indépendante. Prenons quelques exemples pour
illustrer ce que l'on entend par variable indépendante et dépendante :

Exemple # 1 : L'impact d'une technique de relaxation sur la gestion du stress


Une chercheure souhaite évaluer l'impact d'une technique de relaxation sur la gestion du stress.
Elle souhaite aussi voir si la technique de relaxation peut aussi être utile pour des adolescents et
des personnes âgées. Elle constitue donc trois groupes de 30 personnes en fonction des catégories
d'âge suivantes : 13-17 ans, 25-45 ans, 65-75 ans. Elle répartit les sujets entre les deux conditions
expérimentales de manière à constituer des groupes équivalents en ce qui concerne le niveau moyen
de stress. À la moitié des sujets de chaque groupe elle enseigne une technique de relaxation et les
incite à l'utiliser lorsqu'ils ressentent une forte tension ou un stress élevé. Les sujets de l'autre
groupe ne reçoivent aucune consigne. Les sujets sont évalués périodiquement par des observateurs
qui ne savent pas quelles personnes utilisent la technique de relaxation. Après 5 mois, la chercheure
constate une meilleure gestion du stress chez les sujets du groupe qui ont utilisé une technique de
gestion du stress. L'efficacité de la technique augmente avec l'âge du sujet.

1) Variable indépendante manipulée : utilisation ou non utilisation d'une technique de relaxation


2) Variable indépendante assignée : âge des individus (adolescents, adultes, aînés)
3) Variable dépendante : Qualité de la gestion du stress

Session Hiver 2004 5 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Exemple # 2 : L'importance du travail à temps partiel chez les étudiant(e)s


Le service de recherche d'un cégep de la région de Montréal se propose de réaliser une étude sur
l'importance du travail à temps partiel auprès de sa clientèle étudiante. Il développe donc un
questionnaire qu'il adresse à un échantillon représentatif de la population étudiante de jour à temps
complet. Afin de voir si le phénomène du travail à temps partiel varie selon certaines
caractéristiques des étudiants, on inclut des questions sur le sexe, le niveau et le secteur d'étude
du répondant. Les autres questions portent sur l'expérience du travail à temps partiel.
1) Variables indépendantes assignées : • sexe des répondants
• niveau d'étude (cégep I, II ou III)
• secteur d'étude (général ou technique)
2) Variable dépendante : • expérience du travail à temps partiel

Dans le traitement des variables indépendantes et dépendantes dans une étude, on convient de
placer les variables indépendantes en X et les variables dépendantes en Y (tableau, graphique,
sélection des variables dans un logiciel).

2.1.3. Type de données à analyser


Une troisième étape consiste à déterminer le type de données qui sera analysé. On identifie
généralement deux grandes catégories de données : les données qualitatives et les données
quantitatives. Sur ce point, les spécialistes sont divisés quant à la façon exacte de distinguer les
données qualitatives des données quantitatives. Certains auteurs appellent données qualitatives
toute donnée s'inscrivant dans une échelle nominale (noms, étiquettes) ou ordinale (rangs) et
données quantitatives toute donnée s'inscrivant dans une échelle à intervalle ou à rapport. Nous
distinguerons les données qualitatives des données quantitatives en associant au premier groupe
toute fréquence s'inscrivant dans un choix de réponse, par exemple, le nombre d'individus ayant
opté pour un choix de réponse (ex. : 55 OUI, 45 NON; 39% LIBÉRAL, 42% PÉQUISTE, 12%
ACTION DÉMOCRATIQUE, etc.) et au deuxième groupe toute donnée correspondant à une mesure
ou à un résultat chiffré associé à un individu ou à un groupe d'individus (ex. : salaire horaire :
6,40 $; 7,25 $; 8,10 $; 6,60 $; 9,50 $; 7,20 $; 6,00 $; etc.).

L'ordinogramme présenté dans la figure 1 illustre visuellement une stratégie d'analyse statistique
des données quantitatives à l'aide du logiciel Excel. Il permet de guider l'usager à travers les trois
niveaux d'analyse déjà présentés en indiquant les choix de tests statistiques appropriés pour
chaque forme d'analyse.

Session Hiver 2004 6 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Figure 1 : Ordinogramme de l'analyse statistique sur Excel

2.2 Les trois étapes de toute analyse de données

Grâce à cette classification, il nous est maintenant possible de développer une stratégie d'analyse
statistique des données en trois étapes distinctes, stratégie qui peut s'appliquer autant à l'analyse
statistique des résultats d'une enquête par questionnaire qu'à l'analyse statistique des résultats
d'une expérimentation ou d'une observation systématique. Ces trois étapes sont : 1) l'analyse
descriptive de la variable indépendante (ou des variables indépendantes); 2) l'analyse descriptive de
la variable dépendante (ou des variables dépendantes); 3) l'analyse comparée de la variable
dépendante en fonction des conditions de la variables indépendante. Les deux premières étapes
correspondent généralement à une analyse univariée alors que la dernière étape correspond
généralement à une analyse bivariée.

Session Hiver 2004 7 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Tableau I
Application de la stratégie d'analyse à différentes méthodes de recherche et d'investigation

Étapes de l'analyse Enquête par Observation Expérimentation


statistique des questionnaire systématique
données quantitatives
1. Analyse Analyse descriptive Analyse descriptive Analyse descriptive
descriptive de la des caractéristiques des caractéristiques des caractéristiques
variable des répondants (ex. : des personnes des sujets à une
indépendante (ou sexe, âge, niveau de observées (ex. : sexe, expérience (ex. : sexe,
des variables scolarité, etc.) type de véhicule, etc.) etc.) et des conditions
indépendantes) d'une variable
indépendante
manipulée (ex. :
présence ou absence
d'une musique
distrayante)
2. Analyse Analyse descriptive Analyse descriptive Analyse descriptive
descriptive de la des réponses au des comportements des résultats obtenus
variable questionnaire (ex. : le observés (ex. : le pendant l'expérience
dépendante (ou travail à temps partiel comportement des (ex. : le nombre de
des variables pendant les études) automobilistes à un feu mots correctement
dépendantes) de circulation) mémorisés)
3. Analyse comparée Analyse comparée des Analyse comparée des Analyse comparée des
de la variable réponses au comportements résultats obtenus
dépendante (ou questionnaire (ex. : le observés (ex. : le pendant l'expérience
des variables travail à temps partiel comportement des (ex. : le nombre de
dépendantes) en pendant les études) en automobilistes à un feu mots correctement
fonction des fonction des de circulation) en mémorisés) en fonction
conditions de la caractéristiques des fonction des des caractéristiques
variable répondants (ex : sexe, caractéristiques des des sujets à une
indépendante (ou âge, niveau de personnes observées expérience (ex. : sexe,
des variables scolarité, etc.) (ex. : sexe, type de etc.) et des conditions
indépendantes) véhicule, etc.) d'une variable
indépendante
manipulée (ex. :
présence ou absence
d'une musique
distrayante)

Session Hiver 2004 8 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Ainsi, selon l'information contenue dans le tableau I, l'analyse statistique des données d'une
enquête par questionnaire consistera alors, dans une première étape, à dresser un portrait des
caractéristiques des répondants (variables indépendantes assignées), à faire, dans une deuxième
étape, l'analyse descriptive des réponses de l'ensemble des répondants à l'enquête (variables
dépendantes) et, enfin, à faire, dans une troisième étape, l'analyse des réponses à l'enquête
(variables dépendantes) en fonction des caractéristiques des répondants (variables indépendantes).

Voyons de façon plus précise comment il est possible de mener à terme une analyse de données à
l'aide de cette stratégie en trois temps.

3. La réalisation d'une stratégie d'analyse statistique des données sur Excel

La réalisation d'une stratégie d'analyse statistique des données sur Excel repose sur les trois
étapes déjà présentées mais requiert aussi la réalisation d'un certain nombre d'étapes
préliminaires dont la création d'une matrice d'encodage de données, l'encodage des données de
recherche et la vérification des données encodées. Voici une description de chacune de ces étapes
préliminaires :

3.1 La création d'une matrice d'encodage de données sur Excel

3.1.1 Le lancement du logiciel Excel


À l’aide de la fonction Démarrer, lancer l’application Microsoft Excel de Office 2000 dans le sous
menu Programmes. Ceci devrait produire l'écran suivant :

Session Hiver 2004 9 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

3.1.2 La création d'une matrice d'encodage sur Excel


Par convention, il est suggéré d'associer chaque variable d'une collecte de données à une colonne et
chaque cas observé à une rangée. Par exemple, les questions d'un questionnaire sont inscrites dans
chacune des colonnes de la matrice (en respectant la règle d'une variable par colonne) et les
réponses d'un individu à l'enquête correspondent à une rangée. Donc, vous aurez autant de colonnes
que vous avec de variables distinctes dans les questions du questionnaire et autant de rangées que
vous aurez de répondants à l'enquête (taille de l'échantillon). En suivant le modèle présenté dans le
schème de classification (voir l'Annexe 1), procédez à la définition de chacune des variables de
l’enquête. Il est important de rappeler ici que chaque question peut correspondre à une ou plusieurs
variables et que chaque variable correspond à une colonne distincte dans la matrice d’encodage. Il
est important d’écrire le nom de la variable en lettres majuscules. Ceci facilitera votre
identification des variables dans les tableaux de données.

Conseils pratiques
 Commencez par numéroter chaque copie de l'instrument de recherche qu'il faudra encoder
(numéroter chaque questionnaire ou chaque grille d'observation ou encore chaque personne
observée dans une grille d'observation). Ce numéro d'unité de traitement devrait correspondre
à une colonne spécifique dans votre matrice d'encodage (ex. : numéro du répondant).
 Commencez par identifier et définir chacune de vos variables sur une copie vide de votre
instrument de recherche (questionnaire, grille d'observation, etc.);
 Assurez-vous de bien distinguer les choix de réponse exclusifs (A ou B ou C ou D; VRAI ou

Session Hiver 2004 10 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

FAUX, etc.) des choix de réponse inclusifs (A et/ou B et/ou C et/ou D, etc.) puisque un choix de
réponse exclusif ne correspond qu'à une seule variable et donc à une seule colonne sur Excel
alors qu'un choix de réponse inclusif correspond à autant de variables qu'il y a de choix de
réponse et à autant de colonnes sur Excel qu'il y a de choix de réponse;
 Encodez toujours vos données par rangées et non par colonnes, par sujet ou répondant et non
par variable. Cela réduira significativement la possibilité d'erreurs de décalages dans les
données.

Lorsque l’encodage des différentes variables est terminé, procédez à une vérification minutieuse
de chaque variable en comparant votre matrice d’encodage avec les informations contenues dans
votre instrument de recherche (ex.: le schème de classification dans l'enquête «Mes choix de vie»).
Lorsque les informations de la matrice d’encodage ont été vérifiées et dûment corrigées, il est
important de procéder à une sauvegarde de votre matrice d’encodage sur le disque dur de votre
ordinateur. Vous pouvez sauvegarder votre matrice en lui donnant le nom de famille d’un des
membres de l’équipe (ex. : choixDubois.xls). Vous pouvez maintenant procéder à l’encodage des
données de votre recherche (ex. : les questionnaires «Mes choix de vie»). Commencez par
numéroter chacune des copies de l'instrument de recherche (ex. : chacun des questionnaires de
l'enquête «Mes choix de vie») de 1 à n à l’aide d’un crayon à la mine. Vous inscrirez ce numéro dans
une colonne intitulée Numéro (ex. : la colonne CODE INITIAL dans le cas de l'enquête «Mes choix
de vie») à la fin de votre matrice d’encodage. Ceci vous permettra d’associer une rangée de la
matrice (et ses données) à une copie donnée de l'instrument de recherche. N’oubliez pas d’inscrire
le nom de l'encodeur dans la dernière colonne de votre matrice. Tous les membres d’une même
équipe devraient enregistrer leurs données dans la même matrice d’encodage.

Session Hiver 2004 11 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

3.1.3 La vérification de la matrice d'encodage sur Excel


Lorsque toutes les données de la recherche ont été encodées dans la matrice, il est important de
procéder à une nouvelle sauvegarde de la matrice. Une fois la matrice encodée et sauvegardée sur
le disque dur de votre ordinateur, il faut maintenant procéder à la vérification des données de la
matrice. L'encodage de plusieurs centaines ou de plusieurs milliers de données entraîne
inévitablement l'encodage de données erronnées (oublier une valeur, entrer le mauvais chiffre ou
encore entrer une partie seulement du chiffre). Certaines procédures de vérification d'une matrice
d'encadage permettent d'éliminer les erreurs les plus importantes.

3.1.3.1 L'utilisation de filtres statistiques


Il est possible d'inscrire à la fin de chaque colonne de données une suite de statistiques
descriptives qui vous aideront à identifier les principales erreurs d'encodage. Parmi ces filtres, on
retrouve les statistiques suivantes : le nombre, la moyenne, la valeur minimum et la valeur maximum
de la colonne. La figure suivante montre une matrice à laquelle on a ajouté une série de filtres en
bas de colonnes.

Il s'agit alors de comparer les indices statistiques avec le comportement prévu de chaque variable.
Ainsi, si la deuxième variable correspond à l'âge du répondant et qu'il s'agit de cégépiens, une
valeur minimale inférieure à 16 ou 17 ans devrait correspondre à une erreur d'encodage. Lorsqu'il
s'agit de variables qualitatives, il suffit de comparer les choix de réponses possible avec la valeur
minimale et maximale. Ainsi, si une variable comporte trois choix de réponses (OUI, NON, NE SAIS
PAS), la valeur maximale devrait être 3. La présence d'une valeur maximale supérieure à trois

Session Hiver 2004 12 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

constitue fort probablement une erreur d'encodage. Lorsque l'on constate la présence dans une
colonne d'une erreur d'encodage, il peut être long de la répérer si on se contente de faire dérouler
la colonne jusqu'à la découverte de la valeur fautive. On peut utiliser la fonction Cherche et
remplace du logiciel Excel pour retrouver plus rapidement les valeurs erronées dans une colonne. La
figure suivante illustre cette procédure de recherche.

Dans l'exemple ci dessus, l'analyse des filtres a permis de constater que la valeur minimale de la
colonne ÂGE était 1, cequi serait plutôt surprenant au collégial. Il s'agit vraisemblablement d'une
erreur d'encodage ou une valeur de 16, 17, 18 , 19 ou 21 ans a été entrée de façon incomplète. La
fonction Cherche et remplace permet alors de répérer très rapidement le chiffre 1 dans la colonne
ÂGE et de l'éliminer ou de le remplacer par la valeur de la moyenne d'âge. Il est important de
choisir l'option Par colonne dans la zone de dialogue lorsque l'on recherche une valeur erronée dans
une colonne.

3.1.3.2 La vérification de l'encodage par échantillonnage


Une autre procédure de vérification de la matrice d'encodage consiste à calculer le dixième du
nombre total de cas, puis à tirer au sort un nombre entre le chiffre 1 et la valeur du dixième du
total des cas dans la matrice (ou des rangées). On procède alors à la vérification des données de la
rangée qui correspond à ce nombre puis on compare chaque donnée entrée dans cette rangée avec
celle du cas en question ( questionnaire ou grille d'observation). On recommence en ajoutant dix à
ce premier nombre et on vérifie les données de la rangée qui correspond à ce nombre et ainsi de

Session Hiver 2004 13 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

suite jusqu'à la fin de la matrice. Prenons un exemple avec les données d'une enquête par
questionnaire. L'échantillon total est de 120 questionnaires complétés et la matrice contient donc
120 rangées de données (plus une rangée pour les titres de variables). Le dixième de cet échantillon
étant 12 (120/10 = 12), on tire au sort un nombre entre 1 et 12 (ex. : 9) et on procède à la
comparaison des données de la neuvième rangée avec celles du questionnaire # 9. Puis on vérifie de
la même manière les rangées 19, 29, 39, etc.. Cette procédure a l'avantage de permettre
l'identification d'erreurs systématiques d'encodage dans la matrice (ex. : à partir de la rangée 77,
les valeurs ont été décalées d'une colonne). Lorsque plusieurs erreurs ont été identifiées suite à la
vérification par échantillonnage, on procède alors à la vérification de l'ensemble de la matrice. Bien
que laborieuses, ces procédures de vérification garantissent que l'analyse des données portera sur
des données correctement encodées et c'est ce qui correspond à la rigueur d'une recherche (voir
les qualités d'un bon chercheur).

Lorsque les opérations d'encodage et de vérification de la matrice de données ont été complétées,
on peut maintenant procéder à l'analyse statistique des données de la matrice.

3.2 L'analyse statistique de données de recherche sur Excel

Comme il a été mentionné au début de ce document, l'analyse statistique de données de recherche


sur Excel comprend trois étapes distinctes, soit 1) l'analyse descriptive de la variable indépendante
(ou des variables indépendantes); 2) l'analyse descriptive de la variable dépendante (ou des
variables dépendantes; 3) l'analyse comparée de la variable dépendante (ou des variables
dépendantes) en fonction des caractéristiques de la variable indépendante (ou des variables
indépendantes). Voici comment réaliser la première étape de toute analyse statistique de données
de recherche sur Excel.

3.2.1. L'analyse descriptive de la variable indépendante (ou des variables indépendantes)


La première étape de toute analyse consiste à dresser le portrait des individus (sujets, répondants,
cas, etc.) qui ont été l'objet d'étude d'une recherche. Dans le cas d'une enquête sur les choix de
vie, la description des répondants à l'enquête permet de mettre en évidence la distribution et le
poids des différentes caractéristiques de la population dans l'échantillon global ou de montrer dans
quelle mesure la distribution des différentes caractéristiques des répondants qui constituent
l'échantillon correspond aux caractéristiques des individus qui constituent la population à l'étude.

Session Hiver 2004 14 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Pour mener cette analyse descriptive des variables indépendantes, il y a lieu de se poser deux
questions :
1. S'agit-il d'une analyse univariée ou bivariée? Dans le cas d'une analyse descriptive, il s'agit
généralement d'une analyse univariée.
2. S'agit-il d'une variable indépendante qualitative ou quantitative? En général, les variables
indépendantes correspondent à des variables qualitatives (ex. : sexe, âge, avec musique
distrayante).

3.2.1.1. L'analyse descriptive d'une variable indépendante qualitative


Selon l'ordinogramme de la page 7 de ce document, pour réaliser l'analyse descriptive d'une
variable indépendante qualitative, il faut choisir le test statistique Histogramme dans le logiciel
Excel. Ce test est ici mal nommé puisqu'il s'agit en réalité d'une analyse de distribution de
fréquences et non d'un histogramme. Un histogrammecorrespond plutôt à un type de graphique, soit
un diagramme en bâtonnets continus. Nous retiendrons l'expression «analyse de distribution de
fréquences» pour l'analyse statistique en question mais nous choisirons l'option Histogramme dans
le logiciel Excel. Pour commander l'analyse de distribution de fréquences dans Excel, il faut
sélectionner le menu déroulant Outils et dans ce menu l'item Utilitaire d'analyse. Si l'item
Utilitaire d'analyse n'apparaît pas dans votre version du logiciel Excel, c'est probablement parce
qu'il n'a pas été installé au moment de l'installation originale de Microsoft Word sur votre
ordinateur. Si vous avez une version «officielle» de Microsoft Office, vous pouvez installer
l'utilitaire d'analyse en choisissant l'installation sur mesure et en sélectionnant dans les choix
offerts l'item Utilitaire d'analyse. Office ajoutera simplement cette option à votre installation
existante d'Excel.

Donc. pour procéder à l'analyse univariée d'une variable qualitative, il suffit de sélectionner l'item
Utilitaire d'analyse dans le menu déroulant Outils.

Session Hiver 2004 15 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Cette opération aura pour effet d'activer un menu déroulant dans lequel on retrouve les principaux
tests statistiques contenus dans l'utilitaire d'analyse. Il suffit alors de sélectionner l'Histogramme
et de cliquer sur OK.

Session Hiver 2004 16 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Une zone de dialogue vous invitera alors à préciser un certain nombre d'informations, soit
l'emplacement des données à analyser et, dans le cas d'une variable qualitative, les champs de
réponse de cette variable.

Il s'agit alors de sélectionner la colonne de la variable qualitative à analyse (ex. : la colonne de la


variable SEXE) en partant de la première valeur au haut de la colonne et en déplaçant le curseur
(avec le bouton de la souris déprimé) jusqu'au bas de la colonne (mais en excluant les filtres
statistiques). Puis, on sélectionne les cellules dans lesquelles on retrouve les champs de réponse de
cette variable (ex. : 1 = masculin; 2 = féminin). La fonction Intitulé présent permet d'indiquer à
Excel que la première rangée d'une colonne contient le nom de la variable. Normalement, on
activerait cette option en sélectionnant la colonne de la première rangée jusqu'à la dernière.
Toutefois, cette option ne semble pas fonctionner correctement dans le cas du test Histogramme.
Il est préférable dans ce cas ci de ne pas sélectionner l'option Intitulé présent et de plutôt de
définir la base de données en commençant par la deuxième rangée de la colonne de la variable
SEXE. Cette opération aura pour effet de produire un tableau comportant la distribution de
fréquences de la variable en question.

Session Hiver 2004 17 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

À première vue, ce tableau ne semble pas très impressionnant. Avec quelques améliorations, il sera
possible d'en faire un tableau de fréquences tout à fait respectable. Il s'agit dans un premier
temps de remplacer les chiffres correpondant aux choix de réponse par leurs étiquettes. Ainsi, la
condition 1 de la variable SEXE deviendra le mot Masculin et la condition 2 de la variable SEXE
deviendra Féminin. On remplace ensuite l'étiquette en dessous de Féminin par Total. Maintenant, il
s'agit de demander à Excel de calculer le total des répondants pour la variable SEXE et d'insérer
cette valeur au bas de la colonne Fréquences. Pour ce faire, il existe deux procédure distinctes
mais pertinentes. La première consiste à définir une formule dans la cellule qui recevra le total des
répondants à la question «De quel sexe êtes-vous?». Pour définir manuellement une formule, il
suffit de placer le curseur dans la cellule en question et de taper le symbole mathématique pour
l'égalité, soit =. Excel assume que toute cellule dont le premier symbole est = contient une formule
mathématique qu'il devra interpréter et calculer. Dans le cas suivant, il suffit d'inscrire la formule
=(B2+B3) et de cliquer sur le petit crochet vert dans la zone d'entrée de données au haut de la
fenêtre Excel. Ceci aura pour effet de calculer la somme totale des répondants des deux sexes et
de l'inscrire dans la cellule en question. Il existe une autre procédure qui donnera le même résultat
mais qui peut s'avérer préférable à la formulée définie manuellement et c'est la fonction. Il s'agit
de sélectionner l'item Fonction dans le menu déroulant Insérer.

Session Hiver 2004 18 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Puis, il s'agit de sélectionner la fonction pour la SOMME dans la fenêtre de droite de la zone de
dialogue intitulée Insérer une fonction. Si cette fonction n'est pas disponible dans la fenêtre de
droite, il suffit alors de sélectionner la catégorie Tous, ce qui dressera dans la fenêtre de droite la
liste de toutes les fonctions disponibles.

Session Hiver 2004 19 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

En cliquant sur OK, une nouvelle zone de dialogue apparaîtra qui invitera l'usager à définir la zone
des données sur laquelle doit s'effectuer le calcul de la fonction SOMME. Il s'agit alors de
sélectionner correctement les cellules du début et de la fin de la zone de données en question et
de séparer ces deux cellules par le symbole de ponctuation :. Le symbole : signifie dans le langage
Excel à comme dans B2 à B3.

En cliquant sur OK, Excel calculera la somme des valeurs contenues dans les cellules en question et
l'insérera dans la cellule à partir de laquelle a été définie la formule.

Un tableau de fréquences est toujours plus facile à analyser lorsqu'on ajoute pour chaque valeur
absolue sa valeur relative (proportion ou pourcentage). Pour calculer les fréquences relatives de
chaque valeur absolue du tableau, on peut utiliser soit la définition manuelle de la formule du
Pourcentage ou insérer la fonction appropriée. Dans le cas d'un petit tableau, il est généralement
plus rapide de calculer manuellement la formule du pourcentage.

Session Hiver 2004 20 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Pour calculer les valeurs relatives de cette distribution de fréquences, il s'agit d'inscrire dans le
haut de la troisième colonne le titre Pourcentage, puis dans chacune des cellules pertinentes de
définir manuellement la formule du pourcentage (ex. : =B2/B4). Le résultat en sera une proportion
(ex. : 0,5) et il suffira de changer le format de cette proportion en la sélectionnant puis en activant
l'item Cellule dans le menu déroulant Format et de choisir l'item Pourcentage dans la zone de
dialogue avec 2 décimales après le point.

Session Hiver 2004 21 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Une fois que la mise au point du tableau est terminée (calcul des totaux et des fréquences
relatives), on peut le copier d'Excel à Word. Il suffit de sélectionner les éléments du tableau, de
sélectionner l'item Copier dans le menu déroulant Édition et puis de le coller dans un fichier Word.

Une fois collé dans le logiciel de traitement de texte Word, le tableau demandera encore un peu
travail de mise en page. Il s'agit d'abord de centrer le tableau, de centrer les valeurs mais pas les
titres, de lui associer un numéro et un titre et de tramer la barre des titres. Le résultat de ces
différentes opérations pourrait ressembler à ceci :

Tableau II
Distribution de fréquences de la variable SEXE

SEXE Fréquence Pourcentage


Masculin 231 50,00%
Féminin 231 50,00%
Total 462 100,00%

Dans l'exemple qui précède, on constate qu'une proportion identique de répondants de sexe
masculin et de sexe féminin ont répondu à la question «De quel sexe êtes-vous dans l'enquête «Mes
choix de vie». Le nombre de répondants de chaque sexe s'élève à 231 personnes pour 50,00% de
l'échantillon total. La présentation d'un tableau de données statistiques dans Word peut se faire de

Session Hiver 2004 22 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

différentes façons. Voici une autre façon de présenter les fréquences abolues (en caractère
normal) et les fréquences relatives (en gras) et une autre formulation du titre.

Tableau III
Répartition des répondants à l'enquête Mes choix de vie
en fonction de leur sexe

Sexe Fréquence
Pourcentage
Féminin 231
50,00%
Masculin 231
50,00%
Total 462
100%

3.2.1.1.1 La création d'un graphique pour une distribution de fréquences


Le logiciel Excel nous offre aussi la possibilité de produire du même coup un graphique des résultats
de l'analyse descriptive d'une variable qualitative à l'aide de la fonction Graphique dans le menu
Insérer. Pour ce faire, il faut sélectionner les cellules comportant les données brutes du tableau
ainsi que les titres des variables mais en omettant les cellules contenant les totaux et les
fréquences relatives. Puis on active la fonction Graphique.

Session Hiver 2004 23 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

La sélection de la fonction Graphique active une zone de dialogue qui nous invite à choisir un type de
graphique. On peut alors choisir parmi différents types de graphique mais il faut s'assurer que le
type de graphique retenu convienne à la nature des données. Pour ce genre de données, on peut
retenir le diagramme à barres verticales, à barres horizontales et le diagramme circulaire.

Les étapes suivantes de la procédure de création d'un graphique nous permettent de configurer le
graphique selon nos besoins : titre, légende, inscription des valeurs, etc. Il peut être utile d'essayer
quelques unes des options offertes pour voir ce qu'elles permettent de faire, la fonction Précédent
nous permet de faire marche arrière.

Session Hiver 2004 24 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Voici le résultat final de la configuration du graphique pour les données de la variable SEXE de
l'enquête «Mes choix de vie»:

Lorsque l'on est satisfait du résultat final, il nous reste à copier-coller le graphique dans notre
fichier Word. Il est recommandé, lors de l'opération du «copier-coller» de choisir l'option Collage

Session Hiver 2004 25 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

spécial plutôt que l'option Coller. L'option Collage spécial est spécifiquement conçue pour le
transfert de données graphiques. Voici le résultat du graphique dans le logiciel de traitement de
texte Word :

Fréquence

250 231
231
200

150

100
Fréquence
50

0
Fréquence
Masculin
Féminin

Figure 2 : Diagramme en bâtonnets de la variable SEXE

Il existe des conventions pour guider le titrage des tableaux et des figures dans un rapport
scientifique. L'encadré qui suit explique ce qu'il faut savoir sur le titrage des tableaux et des
figures. Les tableaux et figures de ce document respectent ces conventions.

Conseils pratiques La numérotation et le titrage des tableaux et des figures


 L'apellation des tableaux et des graphiques dans un rapport de recherche suit des règles
différentes :
 d'abord, la numérotation des tableaux et des figures est indépendante, c'est-à-dire que l'on
numérote les tableaux de 1 à N et les figures de 1 à N dans le même rapport;
 ensuite, la numérotation des tableaux fait appel aux chiffres romains (I, II, II, IV, V, VI, VII,
etc.);
 alors que la numérotation des figures fait appel aux chiffres arabes (1, 2, 3, 4, 5, 6, 7, etc.);
 la numérotation et le titrage des tableaux

Session Hiver 2004 26 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Ces mêmes données peuvent êtres présentées à l'aide d'un autre type de graphique tel qu'un
diagramme circulaire ou diagramme en pointes de tarte. Voici les mêmes données sur le sexe
présentées à l'aide de ce type de graphique.

Diagramme circulaire

Féminin
Masculin

Figure 3 : Diagramme circulaire illustrant les fréquences obtenues pour chaque sexe

La même analyse peut être effectuée pour la répartition des répondants selon leur programme
d'étude. On constate que la majorité des répondants, soit 212 répondants (45,89%) sont inscrits en
Sciences humaines, que 101 des répondants (21,86%) sont inscrits en Sciences de la nature, que
seulement 45 répondants (9,74%) sont inscrits en Arts et Lettres et que les répondants du
Secteur technique correspondent à 104 répondants (22,51%). On constate dans l'exemple ci-
dessous que les répondants du secteur pré-universitaire représentent près de 78% de l'échantillon
(45,89% + 21,86% + 9,74%), alors que les répondants du secteur professionnel représentent un peu
plus de 15% de l'échantillon.

Tableau IV
Répartition des répondants à l'enquête Mes choix de vie en fonction de leur programme
d'étude

Programme Fréquence
Sciences Humaines 212
45,89%
Sciences de la nature 101
21,86%
Arts et Lettres 45
9,74%
Secteur technique 104
22,51%
Total 462
100%

Session Hiver 2004 27 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

3.2.1.2. L'analyse descriptive d'une variable indépendante quantitative


En général, dans une recherche en sciences humaines, la majorité des variables indépendantes
correspondent à des variables qualitatives (échelle nominale). Toutefois, il peut arriver qu'une
variable indépendante soit quantative, comme c'est le cas pour la variable Âge de l'enquête par
questionnaire «Mes choix de vie». L'analyse descriptive univariée d'une variable indépendante
quantitative consiste à calculer les principales statistiques descriptives de cette variable : indices
de tendance centrale de cette variable (moyenne, médiane, mode); indices de dispersion de cette
variable (étendue, écart-type, variance, coefficient de variation); indices de forme (kurtose et
symétrie). Voici un exemple d'analyse quantitative de l'âge des répondants à l'enquête «Mes choix
de vie». Il s'agit d'abord de choisir l'item Statistiques descriptives dans l'Utilitaire d'analyse.

Lorsque la zone de dialogue de l'item Statistiques descriptives s'affiche, il s'agit de définir la base
de données qui correspond à la variable ÀGE (colonne C) en inscrivant les coordonnées de la cellule
de début ($C$1) et de fin ($C463$) de la colonne en question. Comme il s'agit d'une variable
quantitative, il n'est pas pertinent de définir les cellules où se trouvent les champs de réponse,
puisqu'Excel accepte comme champ de réponse valide tous les nombres réels. Dans le cas de
l'utilitaire Statistiques descriptives, il est suggéré d'activer l'option Intitulés en première ligne. Si
l'on active l'option Intitulés en première ligne, il faut établir la cellule de la première rangée
($C$1) comme borne inférieure de la base de données. Dans le cas contraire, il faut choisir la
cellule de la deuxième rangée ($C$2) comme borne inférieure de la base de données. On complète
la configuration de la zone de dialogue en sélectionnant l'option Rapport détaillé.

Session Hiver 2004 28 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

En cliquant sur OK, Excel produit dans une nouvelle feuille (si la configuration l'a indiqué) un
tableau des principales statistiques descriptives de la variable ÂGE. Commençons par définir
brièvement les statistiques produites par cet utilitaire.

Définition des principales statistiques de l'utilitaire d'analyse Statistiques


descriptives
Moyenne (M) La statistique Moyenne est une mesure de tendance centrale qui
correspond à la somme arithmétique des valeurs de la distribution
divisée par le nombre de cas dans cette distribution.Nombre (N)
La statistique Nombre d'échantillons est certainement le plus simple
de tous les indices calculés. Il s'agit du nombre de cas sur lequel porte
l'analyse. Il s'agit d'une des statistiques qu'il est important de
mentionner lorsque l'on fait une analyse descriptive d'une variable
quantitative.
Erreur type La statistique Erreur-type ou Erreur-type de la moyenne correspond à
l'écart vraisemblable entre la moyenne échantillonale et la moyenne de
la population.
Médiane (Md) La statistique Médiane est une mesure de tendance centrale qui
correspond à la valeur qui occupe le milieu de la distribution lorsque les
valeurs sont ordonnées dans l'ordre croissant ou décroissant. La
méthode de calcul utilisée est la méthode pour des données brutes ou
non-groupées.
Mode (Mo) Le Mode est la valeur la plus fréquente.
Écart type (s) La statistique Écart-type est une mesure de dispersion qui correspond à
Session Hiver 2004 29 Alain Saumier ©
IPMSH Analyse statistique des données quantitatives CEM

la racine carrée de la variance. Elle présente l'avantage de s'exprimer


dans la même échelle que les valeurs brutes.
Variance (s2) La statistique Variance est une mesure de dispersion qui correspond à la
somme des écarts entre chaque valeur et la moyenne élevés au carré,
cette somme étant divisée par le nombre de cas dans la distribution. Elle
est aussi l'écart-type au carré.
Kurtosis (K) La Kurtose correspond à l'angle de la courbe du milieu d'une
distribution. Ainsi, si l'angle est aigü, on parle d'une distribution
leptokurtiquem si l'angle est normal, on parle d'une distribution
mesokurtique et lorsque la pente est aplatie, on parle d'une distribution
platykurtique.
Coeff. d'asymétrie (CA) Le Coefficient d'asymétrie ou le Coefficient de dissymétrie indique à la
fois de degré d'asymétrie d'une distribution et la direction de cette
asymétrie (positive ou négative). Ainsi, un coefficient d'asymétrie dont
la valeur est zéro décrit une distribution symétrique. Si le coefficient
d'asymétrie est positif, c'est que la distribution est plus allongée vers la
droite. Si le coefficient d'asymétrie est négatif, c'est que la
distribution est plus allongée vers la gauche.
Plage La plage correspond au nombre de valeurs contenues entre la plus petite
valeur et la plus grande de la distribution. Elle correspond à l'Étendue
qui est définie comme la différence entre la valeur maximale (Xmax) et
la valeur minimale (Xmin) d'une distribution.
Minimum (Xmin) La statistique Minimum correspond à la plus petite valeur observée dans
la distribution.
Maximum (Xmax) La statistique Maximum correspond à la plus grande valeur observée
dans la distribution.
Somme (∑) La statistique Somme ou Sommation correspond à la somme
arithmétique de toutes les valeurs de la variable ou de l'ensemble sur
lequel porte l'analyse.
Nombre (N) La statistique Nombre correspond au nombre de valeurs observées dans
la distribution.
Coeff. de variation (CV) La statistique Coefficient de variation est une mesure relative de la
dispersion des résultats qui correspond au rapport de l'écart-type
divisé par la moyenne, multiplié par 100. Le coefficient de variation
s'interprète comme un pourcentage. On considère, en général, que
0%<CV<15% indique une distribution homogène, que 15%<CV<30%
indique une distribution normale alors que 30%<CV indique une
distribution hétérogène.

Session Hiver 2004 30 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Les statistiques descriptives contenues dans ce tableau ne sont pas toutes utiles à l'analyse
descriptive d'une variable quantitative et leur présentation laisse quelque peu à désirer. De
plus, il manque une statistique importante, le coefficient de variation, qui est relativement
facile à calculer à la main, soit Coefficient de variation = (Écart-type/Moyenne) * 100.

ÂGE
Moyenne 18,5
Erreur type 0,06157435
Médiane 18
Mode 18
Écart-type 1,32349042
Variance de 1,7516269
l'échantillon
Kurtosis 11,3734541
Coefficient 2,34566178
d'asymétrie
Plage 14
Minimum 15
Maximum 29
Somme 8547
Nombre 462
d'échantillons

Commençons par regrouper les statistiques par groupes de statistiques, c'est-à-dire les indices
de tendance centrale, les indices de dispersion, les indices de forme et les indices généraux :

Session Hiver 2004 31 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Statistiques descriptives de la variable ÂGE


Indices de tendance Indices de dispersion Indices de forme Indices généraux
centrale
Moyenne = 18,5 Étendue = 14 Kurtosis = 11,373 Nombre = 462
Médiane = 18 Xmin = 15 Coeff. d'asymétrie = Somme = 8547
Mode = 18 Xmax = 29 2,346
Écart-type = 1,323
Variance = 1,752
Coeff. de variation =
7,15%

Est-ce que tous ces indices sont nécessaires pour décrire sommairement une variable
quantitative? Non! On peut décrire adéquatement une distribution avec les statistiques
suivantes : la moyenne et le mode, la valeur minimale, la valeur maximale, l'écart-type, le
coefficient de variation et le nombre. Voici donc un tableau simplifié des statistiques
descriptives de la variable ÂGE.
Tableau V
Statistiques descriptives de la variable ÂGE pour l'ensemble
des répondants au sondage Mes choix de vie

Indices de tendance centrale Indices de dispersion Indices généraux


Moyenne = 18,5 Xmin = 15 Nombre = 462
Mode = 18 Xmax = 29
Écart-type = 1,323
Coeff. de variation = 7,15%

Les valeurs minimales et maximales nous donnent les bornes supérieures et inférieures de la
distribution des âges et nous permettent de mener une analyse qualitative descriptive de la variable
ÂGE en regroupant ses données à l'intérieur des 14 plages de la distribution(15 à 19). L'utilitaire
d'analyse Histogramme produit l'analyse suivante :

Session Hiver 2004 32 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

15 1
16 1
17 66
18 225
19 98
20 42
21 12
22 10
23 5
24 0
25 0
26 1
27 0
28 0
29 1

Ces données peuvent être regroupées à l'intérieur d'un nombre plus restreint de classes tel que
présenté dans le tableau IV.
Tableau VI
Distribution de fréquences de la variable ÂGE pour l'ensemble
des répondants au sondage Mes choix de vie

ÂGE Fréquence
%
17 et moins 68
14,72%
18 225
48,70%
19 98
21,21%
20 42
9,1%
21 12
2,6%
22 10
2,16%
23 et plus 7
1,51%
Total 462
100%

Session Hiver 2004 33 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Voici les fréquences pour chacune des catégories d'âge reprises dans un diagramme en bâtonnets.

250

200

150
Fréquences
100

50

17 et
18
moins 19
20
21
Catégories d'âge 22
23 et S1
plus

Figure 4 : Diagramme circulaire illustrant les fréquences obtenues pour chaque catégorie d'âge

3.2.2. L'analyse descriptive de la variable dépendante (ou des variables dépendantes)

L'analyse descriptive (univariée) de la variable dépendante (ou des variables dépendantes)


s'effectue de la même manière que pour l'analyse descriptive (univariée) de la variable
indépendante (ou des variables indépendantes). Nous ne reprendrons pas ici toutes les explications
que nous avons accordées à la première étape. Nous nous contenterons de donner des exemples
d'analyses de la variable dépendante, selon que celle-ci est qualitative ou quantitative.

La seconde étape de toute analyse de données consiste à décrire la variable dépendante d'une
recherche soit les réponses que l'ensemble des répondants ont fournies aux questions portant sur
le thème de la recherche dans le cas d'une enquête par questionnaire, les comportements observés
à l'aide d'une grille d'observation fermée dans le cas d'une observation systématique ou les
résultats à une tâche quelconque dans le cas d'une recherche expérimentale. Dans le cas de la
plupart des recherches, l'analyse descriptive de la variable dépendante correspond à la partie clé
de l'analyse des résultats puisqu'elle porte sur l'objet même de la recherch.

Session Hiver 2004 34 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Encore une fois, il s'agit d'une analyse univariée qui peut porter, selon le cas, sur des données
qualitatives (par exemple, l'état de la situation affective des répondants dans une enquête, le fait
de faire un arrêt ou non à une intersection dans le cas d'une observation systématique ou encore le
jugement qu'un sujet porte sur la conduite d'un complice dans une recherche expérimentale) ou
quantitatives (par exemple, le nombre d'enfants désirés dans une enquête, le nombre de secondes
d'arrêt complet à une intersection dans une observation systématique, le nombre de mots
correctement mémorisés dans une expérimentation sur la mémoire). Voici quelques exemples pour
illustrer cette partie de l'analyse d'un sondage.

3.2.2.1. L'analyse descriptive (univariée) d'une variable dépendante qualitative


Commençons par l'analyse descriptive des données qualitatives .Supposons qu'une première question
demandait aux répondants s'ils désiraient des enfants. Le tableau V ci-dessous indique que 87,4%
des répondants disent désirer des enfants alors que seulement 12,6% des répondants disent ne pas
en vouloir.

Tableau VII
Distribution de fréquences de la variable Désir d'enfants pour l'ensemble
des répondants au sondage Mes choix de vie

Désirez-vous des enfants Fréquences


Oui 403
87,42%
Non 58
12,58%
Total 461
100%

Le graphique de la figure 5 illustre la répartition des répondants au sondage Mes choix de vie selon
qu'ils désirent ou non des enfants.

Session Hiver 2004 35 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Désir d'enfant?

100,00%
87,40%
80,00%

60,00%

40,00%

20,00%

0,00%
12,60%

Oui

Non

Figure 5 : Diagramme en bâtonnets illustrant les fréquences obtenues pour la


variable Désir d'enfants

3.2.2.2. L'analyse descriptive (univariée) d'une variable dépendante quantitative


Le nombre d'enfants désirés par les répondants qui souhaitent avoir des enfants peut être traité
comme une variable quantitative ou comme une variable qualitative. Ainsi, le chercheur peut
souhaiter connaître le nombre moyen d'enfants désiré par les répondants au sondage ou encore
connaître le nombre ou le pourcentage de répondants qui désirent 1, 2 ou encore 3 enfants. Voici le
résultat de ces deux analyses distinctes pour le nombre d'enfants désiré.

Tableau VIII
Statistiques descriptives de la variable Si oui, combien? pour l'ensemble
des répondants au sondage Mes choix de vie

Indices de tendance centrale Indices de dispersion Indices généraux


Moyenne = 2,39 Xmin = 1 Nombre = 404
Mode = 2 Xmax = 10
Écart-type = 0,969
Coeff. de variation = 40,48%

Session Hiver 2004 36 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Cette première analyse nous donne les bornes inférieures et supérieures de la distribution de
fréquences du nombre d'enfants désiré. De plus, cette première analyse quantitative nous permet
de répérer des erreurs d'encodage ou des réponses atypiques (comme un répondant qui indique 10
enfants). Transposons ces données dans une distribution de fréquences (voir tableau VII).

Ces données peuvent facilement être transposées dans un graphique de type diagramme en
bâtonnets pour illustrer la répartition du nombre d'enfants désiré par l'ensemble des répondants
au sondage Mes choix de vie. Notons que les personnes qui ne désirent pas d'enfants ont été omis
de l'analyse quantitative parce que leur réponse (0) aurait modifié la moyenne d'enfants désiré mais
que leur réponse a été inclue dans l'analyse qualitative et dans le diagramme en bâtonnets (voir
Figure 6).

Tableau IX
Distribution de fréquences de la variable Nombre d'enfants désirés des répondants au sondage
Mes choix de vie

Nombre d'enfants désirés Fréquences


0 58
12,55%
1 44
9,52%
2 219
47,40%
3 94
20,35%
4 41
8,87%
5 et plus 6
1,30%
Total 462
100%

Lorsque l'on transforme un variable quantitative (données non-groupées) en variable qualitative


(données groupées), il est possible de définir les classes autrement qu'en définissant une classe à
partir de chaque unité numérique. Cela permet de réduire le nombre de classes dans la
classification finale et de faciliter l'analyse des données et leur représentation graphique. Une
règle simple pour déterminer le nombre idéal de classes est la capacité de la mémoire à court
terme ou l'empan d'appréhension de la conscience humaine. Selon les études de nombreux
psychologues cognitifs, dont George Armitrage Miller, la capacité de la mémoire à court terme

Session Hiver 2004 37 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

s'établit à 7 ± 2 éléments. Il es ressort donc que le nombre idéal de classes pour une analyse
qualitative est de 5 à 9 classes.

Les données contenues dans le tableau VII ont été transposées dans un diagramme en bâtonnets
verticaux contenu dans la figure 6. On voit bien alors la valeur du mode (mode = 2) dans la
distribution des données non-groupées qui devient maintenant la classe modale, soit la classe qui
contient le plus grand nombre de répondants et qui est de 2 enfants.

Nombre d'enfants désiré

50,00%
47,40%
40,00%

30,00%

20,00%
12,55% 20,35%
10,00%
9,52%
0,00%
8,87%
0
1
2 1,30%
3
4
5 et
plus

Figure 6 : Diagramme en bâtonnets illustrant les fréquences obtenues


pour la variable Nombre d'enfants désirés

3.2.3. L'analyse comparée (bivariée) de la variable dépendante (ou des variables dépendantes)
en fonction de la variable indépendante (ou des variables indépendantes

La troisième étape de l'analyse statistique des données concerne l'analyse comparée de la variable
dépendante en fonction de la variable indépendante. Comme il s'agit d'une analyse qui porte sur
deux variables, on parle d'analyse bivariée. Encore une fois, la distinction entre une variable
qualitative et une variable quantitative vient modifier la stratégie d'analyse comparée. Il y a
plusieurs scénarios d'analyse. Le tableau VIII présente les principaux scénarios observés :

Session Hiver 2004 38 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Tableau X
Stratégies d'analyse comparée des variables en fonction du type de données (qualitatives ou
quantitatives) et des variables (indépendantes ou dépendantes)

Variable indépendante
Qualitative Quantitative
Tableau de Très rarement observé
Variable Qualitative contingence dans un plan de
dépendante Test du Khi-deux recherche
Analyse de variance Corrélation de Bravais-
Quantitative Anova Pearson

Comme, dans la plupart des recherche, les variables indépendantes sont rarement quantitatives,
nous allons essentiellement regarder les deux premiers types de tests statistiques, soit ceux qui
sont associés à une variable indépendante qualitative et à une variable dépendante qualitative (Test
du Khi-deux) ou quantitative (Anova). Par exemple, dans une enquête, il peut s'agir de comparer les
stratégies de financement des études universitaires (variables dépendantes) en fonction des
variables indépendantes (sexe et niveau d'étude des répondants). Dans une observation
systématique, il peut s'agir de comparer le fait de réaliser un arrêt complet à une intersection
(variable dépendante) avec le sexe de l'automobiliste (variable indépendante). Dans une recherche
expérimentale, il peut s'agir de vérifier l'effet d'une interférence (variable indépendante) sur la
réussite d'une tâche (variable dépendante).

3.2.3.1. L'analyse comparée (bivariée) d'une variable dépendante qualitative en fonction d'une
variable indépendante qualitative

Dans le cas d'une enquête par questionnaire ou même dans le cas d'une observation systématique, il

s'agit du type le plus fréquence d'analyse bivariée. Par exemple, dans une enquête par

questionnaire sur la pratique régulière de l'exercice physique, on met en relation le fait de

pratiquer régulièrement une activité physique (OUI ou NON) avec le sexe du répondant

(MASCULIN ou FÉMININ). Dans le cas d'une observation systématique portant sur la conduite

automobile, on met en relation le type d'arrêt à une intersection (COMPLET LONG, COMPLET

COURT, RALENTISSEMENT ou AUCUN ARRÊET) avec la présence de passagers dans la voiture

(CONDUCTEUR SEUL ou AVEC PASSAGERS).

Session Hiver 2004 39 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Commençons par l'analyse bivariée d'une variable dépendante qualitative en fonction d'une variable
indépendante qualitative. Dans l'enquête «Mes choix de vie», une variable indépendante qualitative
serait une caractéristique des répondants telle que le SEXE du répondant. Comme variable
dépendante qualitative, nous avons plusieurs choix. Nous pourrions comparer la RELATION
PRÉFÉRÉE en fonction du SEXE du répondant. Pour mettre en relation ces deux variables, il faut
utiliser un autre outil d'analyse du logiciel Excel qui s'appelle un Tableau croisé dynamique, auquel
tableau peut venir s'ajouter le calcul du test de Chi-deux à l'aide d'une macro Excel développée par
Suzanne Viau, professeure au département de mathématiques du collège Édouard-Montpetit. Ce
tableau permet de mettre en relation deux variables qualitatives.

La procédure à suivre pour réaliser un tableau croisé dynamique est un peu plus complexe que pour
les opérations précédentes et demandera une bonne compréhension de ce qui doit être réalis.é. La
fonction Tableau croisé dynamique se trouve dans le menu déroulant Outils. Il s'agit de
sélectionner cette fonction dans la liste disponible du menu déroulant Outils. Avant d'enclencher
cette procédure, il est toutefois important de ne pas pré-sélectionner une partie quelconque de la
matrice des données. Pour éviter certains problèmes avec la sélection des données, on suggère de
placer le curseur dans la première cellule en haut et à gauche de la matrice et de ne pas
sélectionner cette cellules. Il peut être nécessaire aussi de s'assurer qu'il y a une rangée vide ou
tramée entre la dernière rangée de données de la matrice et les filtres statistiques.

Session Hiver 2004 40 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

La sélection de la fonction Tableau croisé dynamique amènera une première zone de dialogue qui
invitera l'usager à préciser la provenance des données. Comme la valeur par défaut est que les
données proviennent d'une matrice Excel, il suffit de cliquer sur Suivant.

La deuxième zone de dialogue nous invite à définir les limites de la matrice de données. En général,
le système expert d'Excel définit correctement la matrice et il suffisant de cliquer sur Suivant.

Session Hiver 2004 41 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

La troisième zone de dialogue nous invite à préciser la destination du tableau croisé dynamique et
nous offre l'option qui nous permet de préciser les variables qui seront soumis à l'analyse croisée.
Il faut donc cliquer sur le bouton Disposition.

La prochaine étape de la configuration d'un tableau croisé dynamique est la plus importante et aussi
la plus complexe. Elle nous demande de préciser les variables qui sont analysées et de préciser
quelle variable devra être considérée comme variable indépendante et quelle variable devra être
considérée comme variable dépendante.

Session Hiver 2004 42 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Par convention, Excel demande que l'on place la variable indépendante dans la case COLONNE et la
variable dépendante dans la case LIGNE. Pour ce faire, il suffit de cliquer sur la variable dans la
liste des variables à la droite de la zone de dialogue et de la faire glisser dans la case appropriée.
On termine en glissant à nouveau le bouton de la variable dépendante dans la case DONNÉES du
diagramme. Avant de passer à la dernière opération, il faut s'assurer que le bouton de la variable
dépendante dans la case DONNÉES se lit comme suit : NB VARIABLE DÉPENDANTE. Si ce n'est
pas le cas, il faut double-cliquer sur ce bouton et sélectionner dans la zone de dialogue soit la
statistique Nombre ou Nombre de valeurs. Les autres statistiques disponibles ne produiront pas un
tableau de fréquences.

Session Hiver 2004 43 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Lorsque les variables ont été correctement sélectionnées et disposées dans le diagramme au centre
de la zone de dialogue, il reste à cliquer sur OK. Excel produira alors le tableau croisé dynamique
que nous appellerons dorénavant un tableau de contingence (il s'agit du terme statistique
approprié). Comme ce fut le cas pour le tableau de la distribution de fréquences, le résultat brut de
la fonction Tableau croisé dynamique ne produit pas un tableau de contingence complet et
facilement utilisable.

Pour produire un tableau complet et utile pour une analyse croisée des deux variables, il faut encore
faire un certain nombre d'opérations :

Session Hiver 2004 44 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

1) il faut éliminer les colonnes et les rangées vides. Dans le cas qui nous intéresse, la variable
relation préférée contient au bas une rangée vide (avant celle du Total). Pour éliminer cette rangée,
il suffit de cliquer sur le petit triangle inversé à droite du nom de la variable et de désélectionner
la rangée en question. On procède de la même manière pour les autres rangées et colonnes vides
(s'il y a lieu).

Session Hiver 2004 45 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

2) On procède ensuie au remplacement des nombres dans les colonnes de titre par le nom complet
des étiquettes (ex. : 1 -> Masculin).
Ensuite, il s'agit de demander à Excel de calculer pour chaque fréquence du tableau de contingence
les fréquences relatives et les indices du test du Khi-deux. C'est ici qu'entre en jeu la macro
développée par Mme Viau. Pour commander cette macro, il suffit de sélectionner l'item Macros
dans le menu déroulant Outils et de sélectionner la macro du Khi-deux.

Ensuite, il suffit de cliquer sur Exécuter.

Session Hiver 2004 46 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

La procédure enclenchée par la macro nous demande de préciser l'emplacement du tableau de


contingence sur lequel doit s'effectuer le calcul du test du Khi-deux. Il suffit alors de sélectionner
complètement le tableau de contingence et de cliquer sur OK.

Ceci aura pour effet de produire une série de tableau correspondant au calcul du Khi-deux. La
procédure nous demandera alors si nous désirons obtenir le calcul des pourcentages et il faut
répondre oui.

Session Hiver 2004 47 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Lorsque les opérations de calcul du test du Khi-deux et des tableaux de pourcentages sont
terminés, il s'agit de copier dans un document Word les sections pertinentes produites par
l'utilitaire Tableau croisé dynamique et la macro du Khi-deux. Les sections pertinentes sont le
tableau de contingence sont : 1) le tableau de contingence; 2) le sommaire du résultat du test du
Khi-deux; 3) le tableau des pourcentages sur colonnes.

Voici les résultats dans un document Word de ces opérations de copier-coller.

Le tableau de contingence :
Session Hiver 2004 48 Alain Saumier ©
IPMSH Analyse statistique des données quantitatives CEM

NB RELATION PRÉFÉRÉE SEXE


RELATION PRÉFÉRÉE Masculin Féminin Total
Union libre 104 70 174
Mariage religieux 85 123 208
Mariage civil 42 37 79
Total 231 230 461

Le tableau des Distributions conditionnelles (% colonne)


Distributions conditionnelles (% colonne)
NB RELATION PRÉFÉRÉE SEXE
RELATION PRÉFÉRÉE Masculin Féminin Total
Union libre 45,02 30,43 37,74
Mariage religieux 36,80 53,48 45,12
Mariage civil 18,18 16,09 17,14
Total 100,00 100,00 100,00

Session Hiver 2004 49 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Le tableau du Calcul du khi-deux


Calcul du khi-deux
NB RELATION PRÉFÉRÉE SEXE  
RELATION PRÉFÉRÉE Masculin Féminin
Union libre 3,241 3,256
Mariage religieux 3,546 3,562
Mariage civil 0,147 0,148
Khi deux 13,900
Nombre de degrés de liberté 2
p-value 0,0010
Valeur critique (1%) 9,21
Valeur critique (5%) 5,99
Coefficient de contingence C 0,17
Coefficient de contingence de Cramer V 0,17

En partant du tableau de contingence, il devient alors possible de produire le tableau de

contingence complet qui est présenté ci-dessous. Pour construire ce tableau, il a suffit d'insérer

les valeurs relatives de chaque fréquence en dessous de cette dernière et de l'inscrire en

caractères gras pour différencier la fréquence relative de la fréquence absolu. Puis, trois valeurs

précises du tableau du calcul du Khi-deux ont été inscrites dans la cellule supérieure gauche du

tableau de contingenceet sont venues remplacer l'inscription NB RELATION PRÉFÉRÉE.

Tableau XI
Analyse croisée de la variable RELATION PRÉFÉRÉE en fonction de la variable SEXE

Khi deux = 13,9


Degrés de liberté = 2
Probabilité = 0,0010 (S***) SEXE
RELATION PRÉFÉRÉE Masculin Féminin Total
104 70 174
Union libre 45,02% 30,43% 37,74%
85 123 208
Mariage religieux 36,80% 53,48% 45,12%
42 37 79
Mariage civil 18,18% 16,09% 17,14%
231 230 461
Total 100% 100% 100%

Ce type d'analyse (tableau croisé dynamique) permet de mettre en relation deux variables
qualitatives dans un tableau de contingence. Dans ce tableau, la variable indépendante (sexe des
répondants) est placée à la verticale (colonnes du tableau) et la variable dépendante qualitative

Session Hiver 2004 50 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

(relation préférée) est placée à l'horizontale (rangées du tableau). Ainsi, les résultats contenus
dans ce tableau nous permettent de constater que les répondants masculins sont
proportionnellement plus nombreux à préférer l'union libre (45,02% vs 30,43%), que les répondants
féminins sont proportionnellement plus nombreux à préférer le mariage religieux (53,48% vs
36,80%) et que les répondants des deux sexes choisissent dans des proportions similaires le
mariage civil (18,18% vs 16,09%). L'analyse du test du Khi-deux nous permet de constater qu'il
existe une relation de dépendance statistique entre les deux variables (la variable dépendante
RELATION PRÉFÉRÉE dépend, pour sa distribution, de la variable indépendante SEXE) et que cette
dépendance statistique n'est pas due au hasard (la valeur de P < 0,001).

Il est possible de transposer les données du tableau de contingences dans un graphique à trois
dimensions, soit un graphique à bâtonnets 3D. De cette façon, il est facile de voir que les deux
choix préférés des répondants sont l'union libre et le mariage religieux mais que les hommes
préfèrent l'union libre alors que les femmes préfèrent le mariage religieux.

60,00 53,48

50,00
45,02
40,00 30,43
36,80
30,00

20,00 16,09
18,18
10,00
SEXE Féminin
0,00
SEXE Masculin
Union libre
Mariage
Mariage civil
religieux

Figure 7 : Diagramme en bâtonnets illustrant la relation entre la variable RELATION


PRÉFÉRÉE et la variable SEXE des répondants.

Session Hiver 2004 51 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

3.2.3.2. L'analyse comparée (bivariée) d'une variable dépendante quantitative en fonction


d'une variable indépendante qualitative

Le deuxième type d'analyse croisée que nous allons aborder est le cas de l'analyse comparée
(bivariée) d'une variable dépendante quantitative en fonction d'une variable indépendante
qualitative. Parmi les réponses recueillies dans le cadre du sondage, certaines impliquent des
données quantitatives. Dans le sondage «Mes choix de vie», on peut être intéressé à vérifier si les
répondants masculins et les répondants féminins (variable indépendante qualitative) désirent le
même nombre d'enfants (variable dépendante quantitative). Dans une observation systématique, on
pourrait être intéressé à comparer la durée d'un arrêt-stop au dixième de seconde près (variable
dépendante quantitative) avec le sexe du conducteur du véhicule automobile (variable indépendante
qualitative). Dans une recherche expérimentale, on pourrait être intéressé à comparer l'impact de
la présence ou de l'absence d'une mnémotechnique (variable indépendante qualitative) sur le
nombre de mots correctement mémorisés (variable dépendante quantitative) par les sujets de
l'expérience.

Il importe alors de faire appel à un test statistique pour l'analyse bivariée de données
quantitatives. Le logiciel Excel met à notre disposition plusieurs tests statistiques pour données
quantitatives dont les tests t de Student et les différentes formes d'analyse de variance, tests
qui sont spécifiquement conçus pour la comparaison de moyennes et donc de données quantitatives.
La logique de ce genre de test est relativement simple. Ils commencent par supposer que les
échantillons qui feront l'objet d'une comparaison sont tirés de la même population statistique et
que, par conséquent, leurs moyennes devraient être semblables (moyenne de l'échantillon ~
moyenne de la population). Supposons que nous tirions au hasard une multitude de paires
d'échantillons d'une même population. Nous obtiendrons alors une multitude de paires de moyennes.
Le plus souvent, la valeur de la différence entre une moyenne d'échantillon et la moyenne de la
population devrait se situer autour de 0. De plus, la probabilité d'obtenir une différence très
grande entre deux moyennes d'échantillon est plus faible que la probabilité d'obtenir une petite
différence, et plus la différence est grande, plus sa probabilité d'occurrence est faible. Cette
distribution de la probabilité d'obtenir différents écarts entre les moyennes de deux paires
d'échantillons provenant de la même population est appelée la distribution d'échantillonnage des
différences de moyennes. Elle détermine, pour chaque écart entre les moyennes de deux
échantillons tirés d'une même population, la probabilité d'occurrence d'un tel événement. Cette
distribution d'échantillonnage des différences de moyennes suit une distribution normale où nous
nous attendons à trouver 95% des écarts des moyennes des paires d'échantillons ne s'écartant pas
plus de ± 1,96 de 0. Ceci est vrai si les conditions suivantes sont respectées : 1) la population d'où

Session Hiver 2004 52 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

sont tirés les échantillons est distribuée normalement; 2) le nombre de cas dans chaque échantillon
est supérieur à 30. Les scientifiques ont convenu de commencer à considérer des écarts dont la
probabilité d'occurrence est plus faible que 5% (P ≤ 0,05) comme étant significatifs au premier
degré et des écarts dont la probabilité d'occurrence est plus faible que 1% (P ≤ 0,01) comme étant
significatifs au second degré. Ils considèrent alors que la probabilité que ces deux échantillons
soient tirés d'une même population est beaucoup trop faible et qu'ils proviennent probablement de
deux échantillons différents. Voici en résumé les différentes conventions de la valeur P de tout
test d'inférence statistique (tFr , etc.)

Les différents seuils de signification d'un test statistique


P ≥ 0,05 N.S. Non significatif S'explique par le hasard
P ≤ 0,05 S* Significatif au 1er degré Différence ou relation significative
P ≤ 0,01 S** Significatif au 2e degré Différence ou relation significative
P ≤ 0,001 S*** Significatif au 3e degré Différence ou relation significative

Reprenons maintenant une analyse bivariée des réponses au sondage «Mes choix de vie» comprenant
des données quantitatives. Une question de recherche avait pour but de vérifier le nombre
d'enfants désiré par les répondants de sexe féminin et masculin. Il est possible d'utiliser le test F
de l'analyse de variance ou Anova.

Voyons maintenant comment produire une analyse de variance ou Anova à l'aide du logiciel Excel. Il
faut commencer par copier-coller la colonne de données de chaque variable dans une nouvelle feuille
Excel. Il faut transférer que les données et non les filtres statistiques au bas de chaque colonne.

Session Hiver 2004 53 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Une fois la colonne de données sélectionnée et copiée, il suffit d'ouvrir une nouvelle feuille Excel
et d'y copier la colonne en question, soit celle de la variable indépendante qualitative SEXE.

On fait de même pour la deuxième variable, soit la variable dépendante quantitative NOMBRE
D'ENFANTS DÉSIRÉ. Il estimportant de disposer par collage les deux colonnes l'une à côté de
l'autre et de s'assurer que chaque valeur de la variable dépendante (NOMBRE D'ENFANTS
DÉSIRÉ) soit associée à sa valeur correspondante de la variable indépendante (SEXE).

Session Hiver 2004 54 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Ensuite, il s'agit de sélectionner les deux colonnes de données et d'activer la fonction Trier dans le
menu déroulant Données. Le tri doit être fait sur la variable indépendante (SEXE) et de façon
ascendante. La conséquence de cette opération sera que les répondants masculins et le nombre
d'enfants que chacun désire se retrouveront dans la partie supérieure de la matrice alors que les
répondants féminins et le nombre d'enfants que chacune désire se retrouveront dans la partie
inférieure de la matrice.

Session Hiver 2004 55 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

La prochaine étape consiste à transposer à la verticale des données qui sont disposées à
l'horizontale où chaque rangée correspond au sexe de l'individu et au nombre d'enfants qu'il désire.

Pour ce faire, on inscrit dans le haut de la colonne D l'étiquette Masculin puis dans le haut de la
colonne E l'étiquette Féminin. Ensuite, on sélectionne la partie de la colonne NOMBRE D'ENFANTS
DÉSIRÉ qui correspond aux répondants de sexe masculin (partie supérieure de la colonne B) et on
copie-colle cette demi colonne sous l'étiquette masculin. On fait de même pour la partie de la
colonne NOMBRE D'ENFANTS DÉSIRÉ qui correspond aux répondants de sexe féminin (partie
inférieure de la colonne B) et on copie-colle cette demi colonne sous l'étiquette féminin. En
conséquence, on devrait retrouver dans la colonne D le nombre d'enfants désiré par chacun des
répondants de sexe masculin et dans la colonne E le nombre d'enfants désiré par chacun des
répondants de sexe féminin.

Session Hiver 2004 56 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Les données initiales qui se présentaient sous forme de rangées se présentent maintenant sous la
forme de colonnes. Ces données sont maintenant prêtes pour être traitées par l'analyse de variance.
Il s'agit alors de sélectionner complètement les deux nouvelles colonnes de données, soit les
colonnes D (Masculin) et E (Féminin) et de choisir l'utilitaire d'analyse Analyse de variance : un
facteur. Le choix de l'analyse de variance à un seul facteur est déterminé par le nombre de
variables indépendendantes qui sont soumises à l'analyse. Dans ce cas-ci, il y a une seule variable
indépendante, soit le sexe des répondants et cela correspond à une analyse de variance à un seul
facteur. Une analyse de variance à deux facteurs serait requise si on voulait voir l'impact respectif
du sexe des répondants (variable indépendante 1) et de l'état matrimonial de leurs parents
(variable indépendante 2) sur le nombre d'enfants qu'ils désirent(variable dépendante). L'analyse
de variance est un outil d'analyse statistique assez flexible qui peut tolérer des nombres inégaux
de données pour chaque condition de la variable indépendante et des valeurs manquantes.

Session Hiver 2004 57 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

La sélection de l'utilitaire d'analyse Analyse de variance : un facteur aura pour effet d'activer une
zone de dialgoque qui invitera l'usager à identifier les données sur lesquelles sera effectuée
l'analyse de variance. On procède la même manière que pour une distribution de fréquences ou les
statistiques descriptives en se rappelant que, dans ce cas, l'option Intitulés en première ligne est
opérationnelle. Les autres choix par défaut peuvent être retenus (Seuil de signification, etc.). Le
seuil de signification par défaut correspond au premier seuil de signification (P < 0,05)présenté
dans le tableau Les différents seuils de signification d'un test statistique.

Session Hiver 2004 58 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Le résultat produit par une analyse de variance peut sembler, à première vue, plutôt complexe et
intimidant. Il suffit de se rappeler que l'analyse de variance fournit deux séries d'information, soit
celle qui concerne les statistiques descriptives des deux conditions de la variable indépendante
(partie du haut du tableau) : Nombre d'échantillons (N), Somme (∑), Moyenne (µ) et Variance (s2);
et celle qui concerne les indices spécifiques à l'analyse de variance : degrés de liberté (DL), valeur
de F, valeur de P.

Il suffit alors de copier-coller l'information produite par l'analyse de variance dans un document
Word.

Analyse de variance: un facteur

RAPPORT DÉTAILLÉ
Nombre
Groupes d'échantillons Somme Moyenne Variance
Masculin 194 464 2,39175258 1,192885
Féminin 210 503 2,3952381 0,70906812

ANALYSE DE VARIANCE
Degré de Moyenne des Valeur critique pour
Source des variations Somme des carrés liberté carrés F Probabilité F
Entre Groupes 0,00122511 1 0,00122511 0,00130144 0,97124009 3,864698783
A l'intérieur des
groupes 378,422042 402 0,94134836

Total 378,423267 403       

Session Hiver 2004 59 Alain Saumier ©


IPMSH Analyse statistique des données quantitatives CEM

Il est nécessaire de procéder à la mise en page du tableau Excel pour en faciliter la lecture. Parmi

les modifications à apporter, il est important de supprimer les rangées vides, de centre les valeurs

numériques et d'augmenter la différenciation des deux sections du tableau. Voici le tableau final,

résultat de certains efforts de mise en page et de l'ajout d'un tite et d'une numérotation.

Tableau XII
Analyse croisée de la variable NOMBRE D’ENFANTS DÉSIRÉ en fonction de la variable SEXE

Analyse de variance: un facteur


Statistiques desciptives
Groupes Nombre d'échantillons Somme Moyenne Variance Coefficient de variation
Masculin 194 464 2,391 1,193 45,66%

Féminin 210 503 2,395 0,709 35,16%


Analyse de variance
Degrés de Valeur critique
Source des variations Somme des carrés liberté Moyenne des carrés F Probabilité pour F
Entre Groupes 0,00122511 1 0,001 0,001 0,971 3,864
A l'intérieur des
groupes 378,422042 402 0,941

Total 378,423267 403

Pour interpréter ce test, il faut commencer par supposer qu'il n'existe pas de différence
significative entre le nombre moyen d'enfants désiré par chacun des sexes et que ces deux sous-
groupes (hommes et femmes) proviennent de la même population statistique (se comportent de la
même manière en ce qui concerne le nombre d'enfants désiré) et veulent le même nombre
d'enfants. Le tableau IX présente les moyennes et variances d'enfants désirés par chaque sexe.
Rappelons que la variance est égale au carré de l'écart-type. À partir de cette information il est
possible de calculer le coefficient de variation du nombre d'enfants désiré pour chaque sexe. Il
s'agit de calculer la racine carré de la variance pour obtenir l'écart-type, puis de diviser l'écart-
type par la moyenne et de multiplier le tout par 100 (ou d'en transformer le résultat en
pourcentage). Une fois ces données calculées, il devient possible de faire l'analyse des données
contenues dans ce tableau.

Commençons par l'analyse des statistiques descriptives. Les données contenues dans la partie
supérieure du tableau nous indiquent que 194 répondants de sexe masculin veulent en moyenne
2,391 enfants et que le coefficient de variation de 45,66% témoigne d'une distribution assez
hétérogène (CV > 30%). En ce qui concerne les répondants de sexe féminin, elles sont 210 à vouloir
en moyenne 2,395 enfants et le coefficient de variation (35,16%) témoigne d'une distribution
moins hétérogène que celle des garçons. Donc, suite à l'analyse descriptive, il est possible de
Session Hiver 2004 60 Alain Saumier ©
IPMSH Analyse statistique des données quantitatives CEM

constater que les filles sont plus nombreuses que les garçons à vouloir des enfants (210 vs 194), que
le nombre d'enfants désiré par les garçons est plus hétérogène que celui des filles (45,66% vs
35,16%) mais aussi que les répondants de deux sexes veulent en moyenne des nombres très
similaires d'enfants (2,391 vs 2,395).

La section du tableau portant sur l'analyse de variance nous permettra d'établir la probabilité que
la différences observée entre les deux moyennes d'enfants désiré est significative (réelle) ou due
au hasard. L'analyse de variance compare les variations inter-groupes (différence entre le nombre
moyen d'enfants désiré par les garçons et celui désiré par les filles) avec les variations intra-
groupes (différence dans le nombre d'enfants désiré à l'intérieur de chaque sexe) afin de
déterminer si la différence entre les groupes (garçons vs filles) est plus grande que la différence à
l'intérieur de chaque groupe (garçons vs garçons et filles vs filles). Pour ce faire, l'analyse de
variance calcule la somme des carrés de chaque différence (Somme des carrés), les degrés de
liberté de chaque comparaison (inter-groupes et intra-groupe), la déviation moyenne des carrés.
Enfin, l'analyse de variance calcule trois statistiques qui nous seront utiles pour déterminer si la
différence observée entre les moyennes est significative sur le plan statistique ou non. La première
statistique est la valeur calculée de F qui détermine le rapport des déviations des carrés moyens
inter-groupes sur les déviations des carrés moyens intra-groupes. Plus sa valeur est grande, plus on
peut supposer que la différence entre les moyennes est significative sur le plan statistique. Ensuite,
l'analyse de variance calcule la valeur critique de F en fonction du nombre de degrés de liberté
calculés (estimation de la taille des échantillons). Si la valeur calculée (observée) de F est plus
grande que la valeur critique de F, on peut postuler que la différence observée entre les moyennes
est significative. Enfin, l'analyse de variance estime la probabilité que cette différence observée
entre les deux moyennes soit due au hasard.

Si on prend l'exemple du tableau IX, on constate que le nombre total des degrés de liberté (n-1)
est de 403, ce qui témoigne de la présence d'échantillons d'assez grandes tailles (194 et 210). La
valeur calculée de F de 0,001 est nettement inférieure à la valeur critique de F de 3,864, ce qui
nous permet de conclure que la différence observée entre les deux moyennes n'est significative
(elle s'explique par le hasard). Enfin, le calcul de la probabilité de F (Valeur de P) nous permet
d'estimer la probabilité que la différence observée entre les deux moyennes ne soit pas
significative et cette probabilité est de 97,1% (P = 0,971), ce qui nous situe largement à l'intérieur
de la zone non significative (P > 0,05). Nous pouvons donc conclure à la suite de cette analyse de
variance que le nombre moyen d'enfants désiré par les garçons et les filles est similaire et que les
garçons veulent en moyenne le même nombre d'enfants que les filles.

Session Hiver 2004 61 Alain Saumier ©

Vous aimerez peut-être aussi