Académique Documents
Professionnel Documents
Culture Documents
1. Introduction
L'analyse des données de recherche en sciences humaines et sociales peut prendre deux formes :
l'analyse de données quantitatives et l'analyse de données qualitatives. Ce document portera plus
spécifiquement sur l'analyse de données quantitatives. Un autre document traitera des stratégies
utilisées dans l'analyse de données qualitatives.
Nous entendons ici par données quantitatives toute donnée qui se présente sous la forme de
nombres, de chiffres, qu'il s'agisse de variables dites qualitatives (nominales et ordinales) ou de
variables quantitatives (à intervalle et à rapport). Nous entendons par données qualitatives toute
donnée qui se présente sous une forme langagière ou narrative (compte-rendu d'une entrevue, notes
de terrain d'une observation naturelle, éléments d'information provenant d'archives historiques,
etc.).
L'analyse quantitative de données en sciences humaines et sociales fait généralement appel aux
statistiques. Toutefois, selon les besoins particuliers d'une recherche, d'autres formes d'analyses
quantitatives de données s'offrent aussi au chercheur en sciences humaines : l'analyse de
l'incertain en communication (logarithmes), les analyses de Fourier pour la modélisation de réponses
analogiques en psychophysiologie, etc.
Dans les pages qui suivent, nous allons présenter une stratégie d'analyse statistique des données
quantitatives à l'aide du logiciel Excel de Microsoft. Il peut être intéressant à ce moment-ci
d'expliquer le choix du logiciel Excel comme outil d'analyse statistique. Il existe, sur le marché,
plusieurs logiciels spécifiquement conçus pour le traitement statistique des données (Statview,
SPSS, Mystat, etc.) et même des logiciels spécifiquement conçus pour le traitement des données
provenant d'une enquête par questionnaire ou d'un sondage. Pourquoi ne pas utiliser un de ces
logiciels plutôt que le logiciel Excel? Voici les principales raisons.
D'abord, le logiciel Excel est un chiffrier, c'est-à-dire un logiciel conçu pour le traitement de
données chiffrées. À l'origine, il a été conçu pour le traitement de données comptables, se
présentant sous la forme de tableau de nombres. Avec le temps, les concepteurs d'Excel ont
modifié ce logiciel pour inclure des fonctions plus spécifiques comme les tableaux dynamiques, les
fonctions graphiques et les tests statistiques. Bien qu'Excel sera utilisé ici comme logiciel d'analyse
statistique, il peut servir à de multiples fonctions d'analyse de données chiffrées. Le tableau
suivant réunit les principales raisons qui ont guidé le choix du logiciel Excel pour le cours
d'Initiation pratique à la méthodologie des sciences humaines.
Dans le traitement des variables indépendantes et dépendantes dans une étude, on convient de
placer les variables indépendantes en X et les variables dépendantes en Y (tableau, graphique,
sélection des variables dans un logiciel).
L'ordinogramme présenté dans la figure 1 illustre visuellement une stratégie d'analyse statistique
des données quantitatives à l'aide du logiciel Excel. Il permet de guider l'usager à travers les trois
niveaux d'analyse déjà présentés en indiquant les choix de tests statistiques appropriés pour
chaque forme d'analyse.
Grâce à cette classification, il nous est maintenant possible de développer une stratégie d'analyse
statistique des données en trois étapes distinctes, stratégie qui peut s'appliquer autant à l'analyse
statistique des résultats d'une enquête par questionnaire qu'à l'analyse statistique des résultats
d'une expérimentation ou d'une observation systématique. Ces trois étapes sont : 1) l'analyse
descriptive de la variable indépendante (ou des variables indépendantes); 2) l'analyse descriptive de
la variable dépendante (ou des variables dépendantes); 3) l'analyse comparée de la variable
dépendante en fonction des conditions de la variables indépendante. Les deux premières étapes
correspondent généralement à une analyse univariée alors que la dernière étape correspond
généralement à une analyse bivariée.
Tableau I
Application de la stratégie d'analyse à différentes méthodes de recherche et d'investigation
Ainsi, selon l'information contenue dans le tableau I, l'analyse statistique des données d'une
enquête par questionnaire consistera alors, dans une première étape, à dresser un portrait des
caractéristiques des répondants (variables indépendantes assignées), à faire, dans une deuxième
étape, l'analyse descriptive des réponses de l'ensemble des répondants à l'enquête (variables
dépendantes) et, enfin, à faire, dans une troisième étape, l'analyse des réponses à l'enquête
(variables dépendantes) en fonction des caractéristiques des répondants (variables indépendantes).
Voyons de façon plus précise comment il est possible de mener à terme une analyse de données à
l'aide de cette stratégie en trois temps.
La réalisation d'une stratégie d'analyse statistique des données sur Excel repose sur les trois
étapes déjà présentées mais requiert aussi la réalisation d'un certain nombre d'étapes
préliminaires dont la création d'une matrice d'encodage de données, l'encodage des données de
recherche et la vérification des données encodées. Voici une description de chacune de ces étapes
préliminaires :
Conseils pratiques
Commencez par numéroter chaque copie de l'instrument de recherche qu'il faudra encoder
(numéroter chaque questionnaire ou chaque grille d'observation ou encore chaque personne
observée dans une grille d'observation). Ce numéro d'unité de traitement devrait correspondre
à une colonne spécifique dans votre matrice d'encodage (ex. : numéro du répondant).
Commencez par identifier et définir chacune de vos variables sur une copie vide de votre
instrument de recherche (questionnaire, grille d'observation, etc.);
Assurez-vous de bien distinguer les choix de réponse exclusifs (A ou B ou C ou D; VRAI ou
FAUX, etc.) des choix de réponse inclusifs (A et/ou B et/ou C et/ou D, etc.) puisque un choix de
réponse exclusif ne correspond qu'à une seule variable et donc à une seule colonne sur Excel
alors qu'un choix de réponse inclusif correspond à autant de variables qu'il y a de choix de
réponse et à autant de colonnes sur Excel qu'il y a de choix de réponse;
Encodez toujours vos données par rangées et non par colonnes, par sujet ou répondant et non
par variable. Cela réduira significativement la possibilité d'erreurs de décalages dans les
données.
Lorsque l’encodage des différentes variables est terminé, procédez à une vérification minutieuse
de chaque variable en comparant votre matrice d’encodage avec les informations contenues dans
votre instrument de recherche (ex.: le schème de classification dans l'enquête «Mes choix de vie»).
Lorsque les informations de la matrice d’encodage ont été vérifiées et dûment corrigées, il est
important de procéder à une sauvegarde de votre matrice d’encodage sur le disque dur de votre
ordinateur. Vous pouvez sauvegarder votre matrice en lui donnant le nom de famille d’un des
membres de l’équipe (ex. : choixDubois.xls). Vous pouvez maintenant procéder à l’encodage des
données de votre recherche (ex. : les questionnaires «Mes choix de vie»). Commencez par
numéroter chacune des copies de l'instrument de recherche (ex. : chacun des questionnaires de
l'enquête «Mes choix de vie») de 1 à n à l’aide d’un crayon à la mine. Vous inscrirez ce numéro dans
une colonne intitulée Numéro (ex. : la colonne CODE INITIAL dans le cas de l'enquête «Mes choix
de vie») à la fin de votre matrice d’encodage. Ceci vous permettra d’associer une rangée de la
matrice (et ses données) à une copie donnée de l'instrument de recherche. N’oubliez pas d’inscrire
le nom de l'encodeur dans la dernière colonne de votre matrice. Tous les membres d’une même
équipe devraient enregistrer leurs données dans la même matrice d’encodage.
Il s'agit alors de comparer les indices statistiques avec le comportement prévu de chaque variable.
Ainsi, si la deuxième variable correspond à l'âge du répondant et qu'il s'agit de cégépiens, une
valeur minimale inférieure à 16 ou 17 ans devrait correspondre à une erreur d'encodage. Lorsqu'il
s'agit de variables qualitatives, il suffit de comparer les choix de réponses possible avec la valeur
minimale et maximale. Ainsi, si une variable comporte trois choix de réponses (OUI, NON, NE SAIS
PAS), la valeur maximale devrait être 3. La présence d'une valeur maximale supérieure à trois
constitue fort probablement une erreur d'encodage. Lorsque l'on constate la présence dans une
colonne d'une erreur d'encodage, il peut être long de la répérer si on se contente de faire dérouler
la colonne jusqu'à la découverte de la valeur fautive. On peut utiliser la fonction Cherche et
remplace du logiciel Excel pour retrouver plus rapidement les valeurs erronées dans une colonne. La
figure suivante illustre cette procédure de recherche.
Dans l'exemple ci dessus, l'analyse des filtres a permis de constater que la valeur minimale de la
colonne ÂGE était 1, cequi serait plutôt surprenant au collégial. Il s'agit vraisemblablement d'une
erreur d'encodage ou une valeur de 16, 17, 18 , 19 ou 21 ans a été entrée de façon incomplète. La
fonction Cherche et remplace permet alors de répérer très rapidement le chiffre 1 dans la colonne
ÂGE et de l'éliminer ou de le remplacer par la valeur de la moyenne d'âge. Il est important de
choisir l'option Par colonne dans la zone de dialogue lorsque l'on recherche une valeur erronée dans
une colonne.
suite jusqu'à la fin de la matrice. Prenons un exemple avec les données d'une enquête par
questionnaire. L'échantillon total est de 120 questionnaires complétés et la matrice contient donc
120 rangées de données (plus une rangée pour les titres de variables). Le dixième de cet échantillon
étant 12 (120/10 = 12), on tire au sort un nombre entre 1 et 12 (ex. : 9) et on procède à la
comparaison des données de la neuvième rangée avec celles du questionnaire # 9. Puis on vérifie de
la même manière les rangées 19, 29, 39, etc.. Cette procédure a l'avantage de permettre
l'identification d'erreurs systématiques d'encodage dans la matrice (ex. : à partir de la rangée 77,
les valeurs ont été décalées d'une colonne). Lorsque plusieurs erreurs ont été identifiées suite à la
vérification par échantillonnage, on procède alors à la vérification de l'ensemble de la matrice. Bien
que laborieuses, ces procédures de vérification garantissent que l'analyse des données portera sur
des données correctement encodées et c'est ce qui correspond à la rigueur d'une recherche (voir
les qualités d'un bon chercheur).
Lorsque les opérations d'encodage et de vérification de la matrice de données ont été complétées,
on peut maintenant procéder à l'analyse statistique des données de la matrice.
Pour mener cette analyse descriptive des variables indépendantes, il y a lieu de se poser deux
questions :
1. S'agit-il d'une analyse univariée ou bivariée? Dans le cas d'une analyse descriptive, il s'agit
généralement d'une analyse univariée.
2. S'agit-il d'une variable indépendante qualitative ou quantitative? En général, les variables
indépendantes correspondent à des variables qualitatives (ex. : sexe, âge, avec musique
distrayante).
Donc. pour procéder à l'analyse univariée d'une variable qualitative, il suffit de sélectionner l'item
Utilitaire d'analyse dans le menu déroulant Outils.
Cette opération aura pour effet d'activer un menu déroulant dans lequel on retrouve les principaux
tests statistiques contenus dans l'utilitaire d'analyse. Il suffit alors de sélectionner l'Histogramme
et de cliquer sur OK.
Une zone de dialogue vous invitera alors à préciser un certain nombre d'informations, soit
l'emplacement des données à analyser et, dans le cas d'une variable qualitative, les champs de
réponse de cette variable.
À première vue, ce tableau ne semble pas très impressionnant. Avec quelques améliorations, il sera
possible d'en faire un tableau de fréquences tout à fait respectable. Il s'agit dans un premier
temps de remplacer les chiffres correpondant aux choix de réponse par leurs étiquettes. Ainsi, la
condition 1 de la variable SEXE deviendra le mot Masculin et la condition 2 de la variable SEXE
deviendra Féminin. On remplace ensuite l'étiquette en dessous de Féminin par Total. Maintenant, il
s'agit de demander à Excel de calculer le total des répondants pour la variable SEXE et d'insérer
cette valeur au bas de la colonne Fréquences. Pour ce faire, il existe deux procédure distinctes
mais pertinentes. La première consiste à définir une formule dans la cellule qui recevra le total des
répondants à la question «De quel sexe êtes-vous?». Pour définir manuellement une formule, il
suffit de placer le curseur dans la cellule en question et de taper le symbole mathématique pour
l'égalité, soit =. Excel assume que toute cellule dont le premier symbole est = contient une formule
mathématique qu'il devra interpréter et calculer. Dans le cas suivant, il suffit d'inscrire la formule
=(B2+B3) et de cliquer sur le petit crochet vert dans la zone d'entrée de données au haut de la
fenêtre Excel. Ceci aura pour effet de calculer la somme totale des répondants des deux sexes et
de l'inscrire dans la cellule en question. Il existe une autre procédure qui donnera le même résultat
mais qui peut s'avérer préférable à la formulée définie manuellement et c'est la fonction. Il s'agit
de sélectionner l'item Fonction dans le menu déroulant Insérer.
Puis, il s'agit de sélectionner la fonction pour la SOMME dans la fenêtre de droite de la zone de
dialogue intitulée Insérer une fonction. Si cette fonction n'est pas disponible dans la fenêtre de
droite, il suffit alors de sélectionner la catégorie Tous, ce qui dressera dans la fenêtre de droite la
liste de toutes les fonctions disponibles.
En cliquant sur OK, une nouvelle zone de dialogue apparaîtra qui invitera l'usager à définir la zone
des données sur laquelle doit s'effectuer le calcul de la fonction SOMME. Il s'agit alors de
sélectionner correctement les cellules du début et de la fin de la zone de données en question et
de séparer ces deux cellules par le symbole de ponctuation :. Le symbole : signifie dans le langage
Excel à comme dans B2 à B3.
En cliquant sur OK, Excel calculera la somme des valeurs contenues dans les cellules en question et
l'insérera dans la cellule à partir de laquelle a été définie la formule.
Un tableau de fréquences est toujours plus facile à analyser lorsqu'on ajoute pour chaque valeur
absolue sa valeur relative (proportion ou pourcentage). Pour calculer les fréquences relatives de
chaque valeur absolue du tableau, on peut utiliser soit la définition manuelle de la formule du
Pourcentage ou insérer la fonction appropriée. Dans le cas d'un petit tableau, il est généralement
plus rapide de calculer manuellement la formule du pourcentage.
Pour calculer les valeurs relatives de cette distribution de fréquences, il s'agit d'inscrire dans le
haut de la troisième colonne le titre Pourcentage, puis dans chacune des cellules pertinentes de
définir manuellement la formule du pourcentage (ex. : =B2/B4). Le résultat en sera une proportion
(ex. : 0,5) et il suffira de changer le format de cette proportion en la sélectionnant puis en activant
l'item Cellule dans le menu déroulant Format et de choisir l'item Pourcentage dans la zone de
dialogue avec 2 décimales après le point.
Une fois que la mise au point du tableau est terminée (calcul des totaux et des fréquences
relatives), on peut le copier d'Excel à Word. Il suffit de sélectionner les éléments du tableau, de
sélectionner l'item Copier dans le menu déroulant Édition et puis de le coller dans un fichier Word.
Une fois collé dans le logiciel de traitement de texte Word, le tableau demandera encore un peu
travail de mise en page. Il s'agit d'abord de centrer le tableau, de centrer les valeurs mais pas les
titres, de lui associer un numéro et un titre et de tramer la barre des titres. Le résultat de ces
différentes opérations pourrait ressembler à ceci :
Tableau II
Distribution de fréquences de la variable SEXE
Dans l'exemple qui précède, on constate qu'une proportion identique de répondants de sexe
masculin et de sexe féminin ont répondu à la question «De quel sexe êtes-vous dans l'enquête «Mes
choix de vie». Le nombre de répondants de chaque sexe s'élève à 231 personnes pour 50,00% de
l'échantillon total. La présentation d'un tableau de données statistiques dans Word peut se faire de
différentes façons. Voici une autre façon de présenter les fréquences abolues (en caractère
normal) et les fréquences relatives (en gras) et une autre formulation du titre.
Tableau III
Répartition des répondants à l'enquête Mes choix de vie
en fonction de leur sexe
Sexe Fréquence
Pourcentage
Féminin 231
50,00%
Masculin 231
50,00%
Total 462
100%
La sélection de la fonction Graphique active une zone de dialogue qui nous invite à choisir un type de
graphique. On peut alors choisir parmi différents types de graphique mais il faut s'assurer que le
type de graphique retenu convienne à la nature des données. Pour ce genre de données, on peut
retenir le diagramme à barres verticales, à barres horizontales et le diagramme circulaire.
Les étapes suivantes de la procédure de création d'un graphique nous permettent de configurer le
graphique selon nos besoins : titre, légende, inscription des valeurs, etc. Il peut être utile d'essayer
quelques unes des options offertes pour voir ce qu'elles permettent de faire, la fonction Précédent
nous permet de faire marche arrière.
Voici le résultat final de la configuration du graphique pour les données de la variable SEXE de
l'enquête «Mes choix de vie»:
Lorsque l'on est satisfait du résultat final, il nous reste à copier-coller le graphique dans notre
fichier Word. Il est recommandé, lors de l'opération du «copier-coller» de choisir l'option Collage
spécial plutôt que l'option Coller. L'option Collage spécial est spécifiquement conçue pour le
transfert de données graphiques. Voici le résultat du graphique dans le logiciel de traitement de
texte Word :
Fréquence
250 231
231
200
150
100
Fréquence
50
0
Fréquence
Masculin
Féminin
Il existe des conventions pour guider le titrage des tableaux et des figures dans un rapport
scientifique. L'encadré qui suit explique ce qu'il faut savoir sur le titrage des tableaux et des
figures. Les tableaux et figures de ce document respectent ces conventions.
Ces mêmes données peuvent êtres présentées à l'aide d'un autre type de graphique tel qu'un
diagramme circulaire ou diagramme en pointes de tarte. Voici les mêmes données sur le sexe
présentées à l'aide de ce type de graphique.
Diagramme circulaire
Féminin
Masculin
Figure 3 : Diagramme circulaire illustrant les fréquences obtenues pour chaque sexe
La même analyse peut être effectuée pour la répartition des répondants selon leur programme
d'étude. On constate que la majorité des répondants, soit 212 répondants (45,89%) sont inscrits en
Sciences humaines, que 101 des répondants (21,86%) sont inscrits en Sciences de la nature, que
seulement 45 répondants (9,74%) sont inscrits en Arts et Lettres et que les répondants du
Secteur technique correspondent à 104 répondants (22,51%). On constate dans l'exemple ci-
dessous que les répondants du secteur pré-universitaire représentent près de 78% de l'échantillon
(45,89% + 21,86% + 9,74%), alors que les répondants du secteur professionnel représentent un peu
plus de 15% de l'échantillon.
Tableau IV
Répartition des répondants à l'enquête Mes choix de vie en fonction de leur programme
d'étude
Programme Fréquence
Sciences Humaines 212
45,89%
Sciences de la nature 101
21,86%
Arts et Lettres 45
9,74%
Secteur technique 104
22,51%
Total 462
100%
Lorsque la zone de dialogue de l'item Statistiques descriptives s'affiche, il s'agit de définir la base
de données qui correspond à la variable ÀGE (colonne C) en inscrivant les coordonnées de la cellule
de début ($C$1) et de fin ($C463$) de la colonne en question. Comme il s'agit d'une variable
quantitative, il n'est pas pertinent de définir les cellules où se trouvent les champs de réponse,
puisqu'Excel accepte comme champ de réponse valide tous les nombres réels. Dans le cas de
l'utilitaire Statistiques descriptives, il est suggéré d'activer l'option Intitulés en première ligne. Si
l'on active l'option Intitulés en première ligne, il faut établir la cellule de la première rangée
($C$1) comme borne inférieure de la base de données. Dans le cas contraire, il faut choisir la
cellule de la deuxième rangée ($C$2) comme borne inférieure de la base de données. On complète
la configuration de la zone de dialogue en sélectionnant l'option Rapport détaillé.
En cliquant sur OK, Excel produit dans une nouvelle feuille (si la configuration l'a indiqué) un
tableau des principales statistiques descriptives de la variable ÂGE. Commençons par définir
brièvement les statistiques produites par cet utilitaire.
Les statistiques descriptives contenues dans ce tableau ne sont pas toutes utiles à l'analyse
descriptive d'une variable quantitative et leur présentation laisse quelque peu à désirer. De
plus, il manque une statistique importante, le coefficient de variation, qui est relativement
facile à calculer à la main, soit Coefficient de variation = (Écart-type/Moyenne) * 100.
ÂGE
Moyenne 18,5
Erreur type 0,06157435
Médiane 18
Mode 18
Écart-type 1,32349042
Variance de 1,7516269
l'échantillon
Kurtosis 11,3734541
Coefficient 2,34566178
d'asymétrie
Plage 14
Minimum 15
Maximum 29
Somme 8547
Nombre 462
d'échantillons
Commençons par regrouper les statistiques par groupes de statistiques, c'est-à-dire les indices
de tendance centrale, les indices de dispersion, les indices de forme et les indices généraux :
Est-ce que tous ces indices sont nécessaires pour décrire sommairement une variable
quantitative? Non! On peut décrire adéquatement une distribution avec les statistiques
suivantes : la moyenne et le mode, la valeur minimale, la valeur maximale, l'écart-type, le
coefficient de variation et le nombre. Voici donc un tableau simplifié des statistiques
descriptives de la variable ÂGE.
Tableau V
Statistiques descriptives de la variable ÂGE pour l'ensemble
des répondants au sondage Mes choix de vie
Les valeurs minimales et maximales nous donnent les bornes supérieures et inférieures de la
distribution des âges et nous permettent de mener une analyse qualitative descriptive de la variable
ÂGE en regroupant ses données à l'intérieur des 14 plages de la distribution(15 à 19). L'utilitaire
d'analyse Histogramme produit l'analyse suivante :
15 1
16 1
17 66
18 225
19 98
20 42
21 12
22 10
23 5
24 0
25 0
26 1
27 0
28 0
29 1
Ces données peuvent être regroupées à l'intérieur d'un nombre plus restreint de classes tel que
présenté dans le tableau IV.
Tableau VI
Distribution de fréquences de la variable ÂGE pour l'ensemble
des répondants au sondage Mes choix de vie
ÂGE Fréquence
%
17 et moins 68
14,72%
18 225
48,70%
19 98
21,21%
20 42
9,1%
21 12
2,6%
22 10
2,16%
23 et plus 7
1,51%
Total 462
100%
Voici les fréquences pour chacune des catégories d'âge reprises dans un diagramme en bâtonnets.
250
200
150
Fréquences
100
50
17 et
18
moins 19
20
21
Catégories d'âge 22
23 et S1
plus
Figure 4 : Diagramme circulaire illustrant les fréquences obtenues pour chaque catégorie d'âge
La seconde étape de toute analyse de données consiste à décrire la variable dépendante d'une
recherche soit les réponses que l'ensemble des répondants ont fournies aux questions portant sur
le thème de la recherche dans le cas d'une enquête par questionnaire, les comportements observés
à l'aide d'une grille d'observation fermée dans le cas d'une observation systématique ou les
résultats à une tâche quelconque dans le cas d'une recherche expérimentale. Dans le cas de la
plupart des recherches, l'analyse descriptive de la variable dépendante correspond à la partie clé
de l'analyse des résultats puisqu'elle porte sur l'objet même de la recherch.
Encore une fois, il s'agit d'une analyse univariée qui peut porter, selon le cas, sur des données
qualitatives (par exemple, l'état de la situation affective des répondants dans une enquête, le fait
de faire un arrêt ou non à une intersection dans le cas d'une observation systématique ou encore le
jugement qu'un sujet porte sur la conduite d'un complice dans une recherche expérimentale) ou
quantitatives (par exemple, le nombre d'enfants désirés dans une enquête, le nombre de secondes
d'arrêt complet à une intersection dans une observation systématique, le nombre de mots
correctement mémorisés dans une expérimentation sur la mémoire). Voici quelques exemples pour
illustrer cette partie de l'analyse d'un sondage.
Tableau VII
Distribution de fréquences de la variable Désir d'enfants pour l'ensemble
des répondants au sondage Mes choix de vie
Le graphique de la figure 5 illustre la répartition des répondants au sondage Mes choix de vie selon
qu'ils désirent ou non des enfants.
Désir d'enfant?
100,00%
87,40%
80,00%
60,00%
40,00%
20,00%
0,00%
12,60%
Oui
Non
Tableau VIII
Statistiques descriptives de la variable Si oui, combien? pour l'ensemble
des répondants au sondage Mes choix de vie
Cette première analyse nous donne les bornes inférieures et supérieures de la distribution de
fréquences du nombre d'enfants désiré. De plus, cette première analyse quantitative nous permet
de répérer des erreurs d'encodage ou des réponses atypiques (comme un répondant qui indique 10
enfants). Transposons ces données dans une distribution de fréquences (voir tableau VII).
Ces données peuvent facilement être transposées dans un graphique de type diagramme en
bâtonnets pour illustrer la répartition du nombre d'enfants désiré par l'ensemble des répondants
au sondage Mes choix de vie. Notons que les personnes qui ne désirent pas d'enfants ont été omis
de l'analyse quantitative parce que leur réponse (0) aurait modifié la moyenne d'enfants désiré mais
que leur réponse a été inclue dans l'analyse qualitative et dans le diagramme en bâtonnets (voir
Figure 6).
Tableau IX
Distribution de fréquences de la variable Nombre d'enfants désirés des répondants au sondage
Mes choix de vie
s'établit à 7 ± 2 éléments. Il es ressort donc que le nombre idéal de classes pour une analyse
qualitative est de 5 à 9 classes.
Les données contenues dans le tableau VII ont été transposées dans un diagramme en bâtonnets
verticaux contenu dans la figure 6. On voit bien alors la valeur du mode (mode = 2) dans la
distribution des données non-groupées qui devient maintenant la classe modale, soit la classe qui
contient le plus grand nombre de répondants et qui est de 2 enfants.
50,00%
47,40%
40,00%
30,00%
20,00%
12,55% 20,35%
10,00%
9,52%
0,00%
8,87%
0
1
2 1,30%
3
4
5 et
plus
3.2.3. L'analyse comparée (bivariée) de la variable dépendante (ou des variables dépendantes)
en fonction de la variable indépendante (ou des variables indépendantes
La troisième étape de l'analyse statistique des données concerne l'analyse comparée de la variable
dépendante en fonction de la variable indépendante. Comme il s'agit d'une analyse qui porte sur
deux variables, on parle d'analyse bivariée. Encore une fois, la distinction entre une variable
qualitative et une variable quantitative vient modifier la stratégie d'analyse comparée. Il y a
plusieurs scénarios d'analyse. Le tableau VIII présente les principaux scénarios observés :
Tableau X
Stratégies d'analyse comparée des variables en fonction du type de données (qualitatives ou
quantitatives) et des variables (indépendantes ou dépendantes)
Variable indépendante
Qualitative Quantitative
Tableau de Très rarement observé
Variable Qualitative contingence dans un plan de
dépendante Test du Khi-deux recherche
Analyse de variance Corrélation de Bravais-
Quantitative Anova Pearson
Comme, dans la plupart des recherche, les variables indépendantes sont rarement quantitatives,
nous allons essentiellement regarder les deux premiers types de tests statistiques, soit ceux qui
sont associés à une variable indépendante qualitative et à une variable dépendante qualitative (Test
du Khi-deux) ou quantitative (Anova). Par exemple, dans une enquête, il peut s'agir de comparer les
stratégies de financement des études universitaires (variables dépendantes) en fonction des
variables indépendantes (sexe et niveau d'étude des répondants). Dans une observation
systématique, il peut s'agir de comparer le fait de réaliser un arrêt complet à une intersection
(variable dépendante) avec le sexe de l'automobiliste (variable indépendante). Dans une recherche
expérimentale, il peut s'agir de vérifier l'effet d'une interférence (variable indépendante) sur la
réussite d'une tâche (variable dépendante).
3.2.3.1. L'analyse comparée (bivariée) d'une variable dépendante qualitative en fonction d'une
variable indépendante qualitative
Dans le cas d'une enquête par questionnaire ou même dans le cas d'une observation systématique, il
s'agit du type le plus fréquence d'analyse bivariée. Par exemple, dans une enquête par
pratiquer régulièrement une activité physique (OUI ou NON) avec le sexe du répondant
(MASCULIN ou FÉMININ). Dans le cas d'une observation systématique portant sur la conduite
automobile, on met en relation le type d'arrêt à une intersection (COMPLET LONG, COMPLET
Commençons par l'analyse bivariée d'une variable dépendante qualitative en fonction d'une variable
indépendante qualitative. Dans l'enquête «Mes choix de vie», une variable indépendante qualitative
serait une caractéristique des répondants telle que le SEXE du répondant. Comme variable
dépendante qualitative, nous avons plusieurs choix. Nous pourrions comparer la RELATION
PRÉFÉRÉE en fonction du SEXE du répondant. Pour mettre en relation ces deux variables, il faut
utiliser un autre outil d'analyse du logiciel Excel qui s'appelle un Tableau croisé dynamique, auquel
tableau peut venir s'ajouter le calcul du test de Chi-deux à l'aide d'une macro Excel développée par
Suzanne Viau, professeure au département de mathématiques du collège Édouard-Montpetit. Ce
tableau permet de mettre en relation deux variables qualitatives.
La procédure à suivre pour réaliser un tableau croisé dynamique est un peu plus complexe que pour
les opérations précédentes et demandera une bonne compréhension de ce qui doit être réalis.é. La
fonction Tableau croisé dynamique se trouve dans le menu déroulant Outils. Il s'agit de
sélectionner cette fonction dans la liste disponible du menu déroulant Outils. Avant d'enclencher
cette procédure, il est toutefois important de ne pas pré-sélectionner une partie quelconque de la
matrice des données. Pour éviter certains problèmes avec la sélection des données, on suggère de
placer le curseur dans la première cellule en haut et à gauche de la matrice et de ne pas
sélectionner cette cellules. Il peut être nécessaire aussi de s'assurer qu'il y a une rangée vide ou
tramée entre la dernière rangée de données de la matrice et les filtres statistiques.
La sélection de la fonction Tableau croisé dynamique amènera une première zone de dialogue qui
invitera l'usager à préciser la provenance des données. Comme la valeur par défaut est que les
données proviennent d'une matrice Excel, il suffit de cliquer sur Suivant.
La deuxième zone de dialogue nous invite à définir les limites de la matrice de données. En général,
le système expert d'Excel définit correctement la matrice et il suffisant de cliquer sur Suivant.
La troisième zone de dialogue nous invite à préciser la destination du tableau croisé dynamique et
nous offre l'option qui nous permet de préciser les variables qui seront soumis à l'analyse croisée.
Il faut donc cliquer sur le bouton Disposition.
La prochaine étape de la configuration d'un tableau croisé dynamique est la plus importante et aussi
la plus complexe. Elle nous demande de préciser les variables qui sont analysées et de préciser
quelle variable devra être considérée comme variable indépendante et quelle variable devra être
considérée comme variable dépendante.
Par convention, Excel demande que l'on place la variable indépendante dans la case COLONNE et la
variable dépendante dans la case LIGNE. Pour ce faire, il suffit de cliquer sur la variable dans la
liste des variables à la droite de la zone de dialogue et de la faire glisser dans la case appropriée.
On termine en glissant à nouveau le bouton de la variable dépendante dans la case DONNÉES du
diagramme. Avant de passer à la dernière opération, il faut s'assurer que le bouton de la variable
dépendante dans la case DONNÉES se lit comme suit : NB VARIABLE DÉPENDANTE. Si ce n'est
pas le cas, il faut double-cliquer sur ce bouton et sélectionner dans la zone de dialogue soit la
statistique Nombre ou Nombre de valeurs. Les autres statistiques disponibles ne produiront pas un
tableau de fréquences.
Lorsque les variables ont été correctement sélectionnées et disposées dans le diagramme au centre
de la zone de dialogue, il reste à cliquer sur OK. Excel produira alors le tableau croisé dynamique
que nous appellerons dorénavant un tableau de contingence (il s'agit du terme statistique
approprié). Comme ce fut le cas pour le tableau de la distribution de fréquences, le résultat brut de
la fonction Tableau croisé dynamique ne produit pas un tableau de contingence complet et
facilement utilisable.
Pour produire un tableau complet et utile pour une analyse croisée des deux variables, il faut encore
faire un certain nombre d'opérations :
1) il faut éliminer les colonnes et les rangées vides. Dans le cas qui nous intéresse, la variable
relation préférée contient au bas une rangée vide (avant celle du Total). Pour éliminer cette rangée,
il suffit de cliquer sur le petit triangle inversé à droite du nom de la variable et de désélectionner
la rangée en question. On procède de la même manière pour les autres rangées et colonnes vides
(s'il y a lieu).
2) On procède ensuie au remplacement des nombres dans les colonnes de titre par le nom complet
des étiquettes (ex. : 1 -> Masculin).
Ensuite, il s'agit de demander à Excel de calculer pour chaque fréquence du tableau de contingence
les fréquences relatives et les indices du test du Khi-deux. C'est ici qu'entre en jeu la macro
développée par Mme Viau. Pour commander cette macro, il suffit de sélectionner l'item Macros
dans le menu déroulant Outils et de sélectionner la macro du Khi-deux.
Ceci aura pour effet de produire une série de tableau correspondant au calcul du Khi-deux. La
procédure nous demandera alors si nous désirons obtenir le calcul des pourcentages et il faut
répondre oui.
Lorsque les opérations de calcul du test du Khi-deux et des tableaux de pourcentages sont
terminés, il s'agit de copier dans un document Word les sections pertinentes produites par
l'utilitaire Tableau croisé dynamique et la macro du Khi-deux. Les sections pertinentes sont le
tableau de contingence sont : 1) le tableau de contingence; 2) le sommaire du résultat du test du
Khi-deux; 3) le tableau des pourcentages sur colonnes.
Le tableau de contingence :
Session Hiver 2004 48 Alain Saumier ©
IPMSH Analyse statistique des données quantitatives CEM
contingence complet qui est présenté ci-dessous. Pour construire ce tableau, il a suffit d'insérer
caractères gras pour différencier la fréquence relative de la fréquence absolu. Puis, trois valeurs
précises du tableau du calcul du Khi-deux ont été inscrites dans la cellule supérieure gauche du
Tableau XI
Analyse croisée de la variable RELATION PRÉFÉRÉE en fonction de la variable SEXE
Ce type d'analyse (tableau croisé dynamique) permet de mettre en relation deux variables
qualitatives dans un tableau de contingence. Dans ce tableau, la variable indépendante (sexe des
répondants) est placée à la verticale (colonnes du tableau) et la variable dépendante qualitative
(relation préférée) est placée à l'horizontale (rangées du tableau). Ainsi, les résultats contenus
dans ce tableau nous permettent de constater que les répondants masculins sont
proportionnellement plus nombreux à préférer l'union libre (45,02% vs 30,43%), que les répondants
féminins sont proportionnellement plus nombreux à préférer le mariage religieux (53,48% vs
36,80%) et que les répondants des deux sexes choisissent dans des proportions similaires le
mariage civil (18,18% vs 16,09%). L'analyse du test du Khi-deux nous permet de constater qu'il
existe une relation de dépendance statistique entre les deux variables (la variable dépendante
RELATION PRÉFÉRÉE dépend, pour sa distribution, de la variable indépendante SEXE) et que cette
dépendance statistique n'est pas due au hasard (la valeur de P < 0,001).
Il est possible de transposer les données du tableau de contingences dans un graphique à trois
dimensions, soit un graphique à bâtonnets 3D. De cette façon, il est facile de voir que les deux
choix préférés des répondants sont l'union libre et le mariage religieux mais que les hommes
préfèrent l'union libre alors que les femmes préfèrent le mariage religieux.
60,00 53,48
50,00
45,02
40,00 30,43
36,80
30,00
20,00 16,09
18,18
10,00
SEXE Féminin
0,00
SEXE Masculin
Union libre
Mariage
Mariage civil
religieux
Le deuxième type d'analyse croisée que nous allons aborder est le cas de l'analyse comparée
(bivariée) d'une variable dépendante quantitative en fonction d'une variable indépendante
qualitative. Parmi les réponses recueillies dans le cadre du sondage, certaines impliquent des
données quantitatives. Dans le sondage «Mes choix de vie», on peut être intéressé à vérifier si les
répondants masculins et les répondants féminins (variable indépendante qualitative) désirent le
même nombre d'enfants (variable dépendante quantitative). Dans une observation systématique, on
pourrait être intéressé à comparer la durée d'un arrêt-stop au dixième de seconde près (variable
dépendante quantitative) avec le sexe du conducteur du véhicule automobile (variable indépendante
qualitative). Dans une recherche expérimentale, on pourrait être intéressé à comparer l'impact de
la présence ou de l'absence d'une mnémotechnique (variable indépendante qualitative) sur le
nombre de mots correctement mémorisés (variable dépendante quantitative) par les sujets de
l'expérience.
Il importe alors de faire appel à un test statistique pour l'analyse bivariée de données
quantitatives. Le logiciel Excel met à notre disposition plusieurs tests statistiques pour données
quantitatives dont les tests t de Student et les différentes formes d'analyse de variance, tests
qui sont spécifiquement conçus pour la comparaison de moyennes et donc de données quantitatives.
La logique de ce genre de test est relativement simple. Ils commencent par supposer que les
échantillons qui feront l'objet d'une comparaison sont tirés de la même population statistique et
que, par conséquent, leurs moyennes devraient être semblables (moyenne de l'échantillon ~
moyenne de la population). Supposons que nous tirions au hasard une multitude de paires
d'échantillons d'une même population. Nous obtiendrons alors une multitude de paires de moyennes.
Le plus souvent, la valeur de la différence entre une moyenne d'échantillon et la moyenne de la
population devrait se situer autour de 0. De plus, la probabilité d'obtenir une différence très
grande entre deux moyennes d'échantillon est plus faible que la probabilité d'obtenir une petite
différence, et plus la différence est grande, plus sa probabilité d'occurrence est faible. Cette
distribution de la probabilité d'obtenir différents écarts entre les moyennes de deux paires
d'échantillons provenant de la même population est appelée la distribution d'échantillonnage des
différences de moyennes. Elle détermine, pour chaque écart entre les moyennes de deux
échantillons tirés d'une même population, la probabilité d'occurrence d'un tel événement. Cette
distribution d'échantillonnage des différences de moyennes suit une distribution normale où nous
nous attendons à trouver 95% des écarts des moyennes des paires d'échantillons ne s'écartant pas
plus de ± 1,96 de 0. Ceci est vrai si les conditions suivantes sont respectées : 1) la population d'où
sont tirés les échantillons est distribuée normalement; 2) le nombre de cas dans chaque échantillon
est supérieur à 30. Les scientifiques ont convenu de commencer à considérer des écarts dont la
probabilité d'occurrence est plus faible que 5% (P ≤ 0,05) comme étant significatifs au premier
degré et des écarts dont la probabilité d'occurrence est plus faible que 1% (P ≤ 0,01) comme étant
significatifs au second degré. Ils considèrent alors que la probabilité que ces deux échantillons
soient tirés d'une même population est beaucoup trop faible et qu'ils proviennent probablement de
deux échantillons différents. Voici en résumé les différentes conventions de la valeur P de tout
test d'inférence statistique (tFr , etc.)
Reprenons maintenant une analyse bivariée des réponses au sondage «Mes choix de vie» comprenant
des données quantitatives. Une question de recherche avait pour but de vérifier le nombre
d'enfants désiré par les répondants de sexe féminin et masculin. Il est possible d'utiliser le test F
de l'analyse de variance ou Anova.
Voyons maintenant comment produire une analyse de variance ou Anova à l'aide du logiciel Excel. Il
faut commencer par copier-coller la colonne de données de chaque variable dans une nouvelle feuille
Excel. Il faut transférer que les données et non les filtres statistiques au bas de chaque colonne.
Une fois la colonne de données sélectionnée et copiée, il suffit d'ouvrir une nouvelle feuille Excel
et d'y copier la colonne en question, soit celle de la variable indépendante qualitative SEXE.
On fait de même pour la deuxième variable, soit la variable dépendante quantitative NOMBRE
D'ENFANTS DÉSIRÉ. Il estimportant de disposer par collage les deux colonnes l'une à côté de
l'autre et de s'assurer que chaque valeur de la variable dépendante (NOMBRE D'ENFANTS
DÉSIRÉ) soit associée à sa valeur correspondante de la variable indépendante (SEXE).
Ensuite, il s'agit de sélectionner les deux colonnes de données et d'activer la fonction Trier dans le
menu déroulant Données. Le tri doit être fait sur la variable indépendante (SEXE) et de façon
ascendante. La conséquence de cette opération sera que les répondants masculins et le nombre
d'enfants que chacun désire se retrouveront dans la partie supérieure de la matrice alors que les
répondants féminins et le nombre d'enfants que chacune désire se retrouveront dans la partie
inférieure de la matrice.
La prochaine étape consiste à transposer à la verticale des données qui sont disposées à
l'horizontale où chaque rangée correspond au sexe de l'individu et au nombre d'enfants qu'il désire.
Pour ce faire, on inscrit dans le haut de la colonne D l'étiquette Masculin puis dans le haut de la
colonne E l'étiquette Féminin. Ensuite, on sélectionne la partie de la colonne NOMBRE D'ENFANTS
DÉSIRÉ qui correspond aux répondants de sexe masculin (partie supérieure de la colonne B) et on
copie-colle cette demi colonne sous l'étiquette masculin. On fait de même pour la partie de la
colonne NOMBRE D'ENFANTS DÉSIRÉ qui correspond aux répondants de sexe féminin (partie
inférieure de la colonne B) et on copie-colle cette demi colonne sous l'étiquette féminin. En
conséquence, on devrait retrouver dans la colonne D le nombre d'enfants désiré par chacun des
répondants de sexe masculin et dans la colonne E le nombre d'enfants désiré par chacun des
répondants de sexe féminin.
Les données initiales qui se présentaient sous forme de rangées se présentent maintenant sous la
forme de colonnes. Ces données sont maintenant prêtes pour être traitées par l'analyse de variance.
Il s'agit alors de sélectionner complètement les deux nouvelles colonnes de données, soit les
colonnes D (Masculin) et E (Féminin) et de choisir l'utilitaire d'analyse Analyse de variance : un
facteur. Le choix de l'analyse de variance à un seul facteur est déterminé par le nombre de
variables indépendendantes qui sont soumises à l'analyse. Dans ce cas-ci, il y a une seule variable
indépendante, soit le sexe des répondants et cela correspond à une analyse de variance à un seul
facteur. Une analyse de variance à deux facteurs serait requise si on voulait voir l'impact respectif
du sexe des répondants (variable indépendante 1) et de l'état matrimonial de leurs parents
(variable indépendante 2) sur le nombre d'enfants qu'ils désirent(variable dépendante). L'analyse
de variance est un outil d'analyse statistique assez flexible qui peut tolérer des nombres inégaux
de données pour chaque condition de la variable indépendante et des valeurs manquantes.
La sélection de l'utilitaire d'analyse Analyse de variance : un facteur aura pour effet d'activer une
zone de dialgoque qui invitera l'usager à identifier les données sur lesquelles sera effectuée
l'analyse de variance. On procède la même manière que pour une distribution de fréquences ou les
statistiques descriptives en se rappelant que, dans ce cas, l'option Intitulés en première ligne est
opérationnelle. Les autres choix par défaut peuvent être retenus (Seuil de signification, etc.). Le
seuil de signification par défaut correspond au premier seuil de signification (P < 0,05)présenté
dans le tableau Les différents seuils de signification d'un test statistique.
Le résultat produit par une analyse de variance peut sembler, à première vue, plutôt complexe et
intimidant. Il suffit de se rappeler que l'analyse de variance fournit deux séries d'information, soit
celle qui concerne les statistiques descriptives des deux conditions de la variable indépendante
(partie du haut du tableau) : Nombre d'échantillons (N), Somme (∑), Moyenne (µ) et Variance (s2);
et celle qui concerne les indices spécifiques à l'analyse de variance : degrés de liberté (DL), valeur
de F, valeur de P.
Il suffit alors de copier-coller l'information produite par l'analyse de variance dans un document
Word.
RAPPORT DÉTAILLÉ
Nombre
Groupes d'échantillons Somme Moyenne Variance
Masculin 194 464 2,39175258 1,192885
Féminin 210 503 2,3952381 0,70906812
ANALYSE DE VARIANCE
Degré de Moyenne des Valeur critique pour
Source des variations Somme des carrés liberté carrés F Probabilité F
Entre Groupes 0,00122511 1 0,00122511 0,00130144 0,97124009 3,864698783
A l'intérieur des
groupes 378,422042 402 0,94134836
Il est nécessaire de procéder à la mise en page du tableau Excel pour en faciliter la lecture. Parmi
les modifications à apporter, il est important de supprimer les rangées vides, de centre les valeurs
numériques et d'augmenter la différenciation des deux sections du tableau. Voici le tableau final,
résultat de certains efforts de mise en page et de l'ajout d'un tite et d'une numérotation.
Tableau XII
Analyse croisée de la variable NOMBRE D’ENFANTS DÉSIRÉ en fonction de la variable SEXE
Pour interpréter ce test, il faut commencer par supposer qu'il n'existe pas de différence
significative entre le nombre moyen d'enfants désiré par chacun des sexes et que ces deux sous-
groupes (hommes et femmes) proviennent de la même population statistique (se comportent de la
même manière en ce qui concerne le nombre d'enfants désiré) et veulent le même nombre
d'enfants. Le tableau IX présente les moyennes et variances d'enfants désirés par chaque sexe.
Rappelons que la variance est égale au carré de l'écart-type. À partir de cette information il est
possible de calculer le coefficient de variation du nombre d'enfants désiré pour chaque sexe. Il
s'agit de calculer la racine carré de la variance pour obtenir l'écart-type, puis de diviser l'écart-
type par la moyenne et de multiplier le tout par 100 (ou d'en transformer le résultat en
pourcentage). Une fois ces données calculées, il devient possible de faire l'analyse des données
contenues dans ce tableau.
Commençons par l'analyse des statistiques descriptives. Les données contenues dans la partie
supérieure du tableau nous indiquent que 194 répondants de sexe masculin veulent en moyenne
2,391 enfants et que le coefficient de variation de 45,66% témoigne d'une distribution assez
hétérogène (CV > 30%). En ce qui concerne les répondants de sexe féminin, elles sont 210 à vouloir
en moyenne 2,395 enfants et le coefficient de variation (35,16%) témoigne d'une distribution
moins hétérogène que celle des garçons. Donc, suite à l'analyse descriptive, il est possible de
Session Hiver 2004 60 Alain Saumier ©
IPMSH Analyse statistique des données quantitatives CEM
constater que les filles sont plus nombreuses que les garçons à vouloir des enfants (210 vs 194), que
le nombre d'enfants désiré par les garçons est plus hétérogène que celui des filles (45,66% vs
35,16%) mais aussi que les répondants de deux sexes veulent en moyenne des nombres très
similaires d'enfants (2,391 vs 2,395).
La section du tableau portant sur l'analyse de variance nous permettra d'établir la probabilité que
la différences observée entre les deux moyennes d'enfants désiré est significative (réelle) ou due
au hasard. L'analyse de variance compare les variations inter-groupes (différence entre le nombre
moyen d'enfants désiré par les garçons et celui désiré par les filles) avec les variations intra-
groupes (différence dans le nombre d'enfants désiré à l'intérieur de chaque sexe) afin de
déterminer si la différence entre les groupes (garçons vs filles) est plus grande que la différence à
l'intérieur de chaque groupe (garçons vs garçons et filles vs filles). Pour ce faire, l'analyse de
variance calcule la somme des carrés de chaque différence (Somme des carrés), les degrés de
liberté de chaque comparaison (inter-groupes et intra-groupe), la déviation moyenne des carrés.
Enfin, l'analyse de variance calcule trois statistiques qui nous seront utiles pour déterminer si la
différence observée entre les moyennes est significative sur le plan statistique ou non. La première
statistique est la valeur calculée de F qui détermine le rapport des déviations des carrés moyens
inter-groupes sur les déviations des carrés moyens intra-groupes. Plus sa valeur est grande, plus on
peut supposer que la différence entre les moyennes est significative sur le plan statistique. Ensuite,
l'analyse de variance calcule la valeur critique de F en fonction du nombre de degrés de liberté
calculés (estimation de la taille des échantillons). Si la valeur calculée (observée) de F est plus
grande que la valeur critique de F, on peut postuler que la différence observée entre les moyennes
est significative. Enfin, l'analyse de variance estime la probabilité que cette différence observée
entre les deux moyennes soit due au hasard.
Si on prend l'exemple du tableau IX, on constate que le nombre total des degrés de liberté (n-1)
est de 403, ce qui témoigne de la présence d'échantillons d'assez grandes tailles (194 et 210). La
valeur calculée de F de 0,001 est nettement inférieure à la valeur critique de F de 3,864, ce qui
nous permet de conclure que la différence observée entre les deux moyennes n'est significative
(elle s'explique par le hasard). Enfin, le calcul de la probabilité de F (Valeur de P) nous permet
d'estimer la probabilité que la différence observée entre les deux moyennes ne soit pas
significative et cette probabilité est de 97,1% (P = 0,971), ce qui nous situe largement à l'intérieur
de la zone non significative (P > 0,05). Nous pouvons donc conclure à la suite de cette analyse de
variance que le nombre moyen d'enfants désiré par les garçons et les filles est similaire et que les
garçons veulent en moyenne le même nombre d'enfants que les filles.