Vous êtes sur la page 1sur 58

MarienAufcorrSTATnov2004

Bruno Marien

Principes díanalyse statistique pour sociolinguistes

Agence universitaire de la Francophonie RÈseau Sociolinguistique et dynamique des langues QuÈbec Novembre 2004

PrÈface

Le prÈsent fascicule est la suite du Guide pratique pour líutilisation de la statistique en recherche : le cas des petits Èchantillons (QuÈbec, AUF, 2003; tÈlÈchargeable ‡ líadresse : http://www.sdl.auf.org/documents/Guide_de_statistiques. pdf). Plusieurs collËgues nous avaient alors remerciÈ de cette initiative et avaient souhaitÈ que, dans le fascicule qui devait complÈter ce guide, les exemples tiennent davantage compte des recherches qui se font en sociolinguistique. L'auteur, Bruno Marien (UniversitÈ du QuÈbec ‡ MontrÈal), a tenu compte de cette demande de mÍme que des interactions avec les participants au sÈminaire de formation qu'il a donnÈ ‡ Ouagadougou en juin 2004. On se souviendra que les rÈseaux de langue de l'Agence universitaire de la Francophonie avaient offert diverses formations ‡ la suite de leurs JournÈes scientifiques communes et que le rÈseau Sociolinguistique et dynamique des langues, en plus du sÈminaire de statistiques assurÈ par le professeur Bruno Marien, avait offert une formation sur l'analyse acquisitionnelle de productions d'ÈlËves et l'Èvaluation scolaire et certificative, donnÈe par le professeur Colette Noyau (UniversitÈ de Paris X - Nanterre). La premiËre partie du prÈsent ouvrage reprend donc une partie du sÈminaire de Ouagadougou. Les exemples utilisÈs proviennent d'enquÍtes sociolinguistiques ou ont ÈtÈ adaptÈs ‡ la sociolinguistique. La deuxiËme partie montre comment, ‡ l'aide d'un logiciel courant (Excel de la suite Office), on peut faire certains tests statistiques parmi les plus communs. L'objectif du prÈsent ouvrage est de fournir au sociolinguiste francophone un outil qui lui donne une certaine autonomie en lui permettant de faire une premiËre analyse statistique des donnÈes de ses enquÍtes; en effet, des tests comme celui de la diffÈrence des pourcentages ou le χ 2 permettent de faire une grande partie de l'analyse des donnÈes et de dÈgager les principales tendances, ce qui ne dispense Èvidemment pas d'avoir recours par la suite aux services d'un expert de la statistique si l'on souhaite une analyse plus raffinÈe. Rappelons que Bruno Marien enseigne les statistiques au dÈpartement de science politique de líUniversitÈ du QuÈbec ‡ MontrÈal et quíil a contribuÈ ‡ mettre sur pied líInstitut national de la statistique du Cap-Vert. En plus de plusieurs emplois dans le secteur privÈ, il a aussi travaillÈ ‡ Statistique Canada, le grand institut de sondage du gouvernement canadien, o˘ il a coordonnÈ líintÈgration des mÈthodes statistiques ‡ líintÈrieur du programme de tÈlÈdÈtection. Le ComitÈ scientifique du rÈseau Sociolinguistique et dynamique des langues sera heureux de prendre connaissance des commentaires qui lui parviendront sur le prÈsent ouvrage et il s'attend ‡ ce que les chercheurs francophones lui fassent part de leurs besoins, ce qui pourrait donner lieu ‡ la publication d'autres manuels du mÍme type.

Jacques M AURAIS, coordonnateur RÈseau Sociolinguistique et dynamique des langues Agence universitaire de la Francophonie Courriel du rÈseau : info@sdl.auf.org

QuÈbec, le 29 novembre 2004

3

1. Introduction

PremiËre partie

Líobjectif

de

ce

document

est

de

fournir

aux spÈcialistes

du

domaine

de

la

líanalyse des donnÈes

statistiques. Le document a ÈtÈ conÁu ‡ partir de líhypothËse que la culture mathÈmatique

et statistique du lecteur est minimale. Nous invitons ce dernier ‡ faire preuve de patience dans les parties plus techniques et qui sont parfois nÈcessaires pour la comprÈhension du sujet. Nous recommandons Ègalement au lecteur de se rÈfÈrer au texte de Marien et Beaud (2003) 1 pour un rappel de certaines notions de base. Dans le cadre du prÈsent document et dans le but díillustrer nos propos, nous avons utilisÈ des exemples propres ‡ la sociolinguistique. Parmi les textes utilisÈs ou dont nous nous sommes inspirÈ, mentionnons le rapport Savoir Ècrire au secondaire : …tude auprËs de quatre populations

sociolinguistique un outil de rÈfÈrence dans le traitement

et

francophones díEurope et díAmÈrique du

ainsi que les ouvrages Les

. Líutilisation de ces

documents níimplique pas une critique de contenu de notre part, mais sert díexercice dans la lecture de certains tableaux et líutilisation des diffÈrents tests statistiques.

QuÈbÈcois et leurs mots 3 et Analyse linguistique de 4000 courriels

groupe DIEPE 2

4

Le texte se concentre principalement sur líapplication des tests appropriÈs dans certaines situations ainsi que sur líanalyse et les limites de líinterprÈtation des rÈsultats. Nous avons privilÈgiÈ une approche systÈmatique o˘ tous les ÈlÈments de líanalyse sont examinÈs.

Líobjectif secondaire est de permettre aux spÈcialistes de la sociolinguistique díÈviter les piËges mÈthodologiques, notamment en ce qui concerne líutilisation díapproches ou de tests qui portent flanc ‡ la contestation lorsquíils sont utilisÈs de faÁon inadÈquate. Les Ètapes prÈalables ‡ líanalyse, notamment la justification et la sÈlection de líÈchantillon dío˘ sont issues les donnÈes, font Ègalement líobjet díune courte rÈflexion.

Il est important de rappeler quíune analyse statistique, ou encore líutilisation de tests statistiques, ne reprÈsente quíune partie díun processus. Le simple fait de demander une information par le biais díun questionnaire est insuffisant si la ou les questions ne sont pas construites en fonction díun plan díanalyse prÈalable. Il est essentiel de bien dÈfinir non seulement líobjectif de la recherche, mais Ègalement les tests qui seront ut ilisÈs ultÈrieurement lors de líanalyse statistique. Aussi le caractËre qualitatif ou quantitatif des variables utilisÈes est-il de premiËre importance dans cette planification.

Dans le document Guide pratique pour líutilisation de la statistique en recherche : le cas des petits Èchantillons, nous avons soulignÈ líimportance de la sÈlection de

1 Guide pratique pour líutilisation de la statistique en recherche : le cas des petits Èchantillons, QuÈbec,

AUF, 2003. Il est tÈlÈchargeable ‡ líadresse : http://www.sdl.auf.org/documents/Guide_de_statistiques.pdf
2

De Boeck UniversitÈ, s.l., s.d. 3 Annette Paquot, Les QuÈbÈcois et leurs mots, …tude sÈmiologique et sociolinguistique des rÈgionalismes lexicaux au QuÈbec, QuÈbec, Conseil de la langue franÁaise et Presses de líUniversitÈ Laval, 1 988.

TÈlÈchargeable ‡ líadresse : http://www.cslf.gouv.qc.ca/publications/PubF 1 05/F 105ch1 .html
4

Jacques Maurais, Analyse linguistique de 4 000 courriels, QuÈbec, Conseil de la langue franÁaise, 2003. TÈlÈchargeable ‡ líadresse : http://www.cslf.gouv.qc.ca/publications/PubF200/F200.pdf

5

líÈchantillon lors des enquÍtes. Il faut en effet garder ‡ líesprit que, si les informations qui servent ‡ produire les statistiques sont díorigine mÈthodologiquement faible, alors les rÈsultats qui en dÈcoulent le seront aussi. Il est donc essentiel, dans un premier temps, pour le chercheur de bien identifier la population qui fait líobjet de líÈtude et, dans un deuxiËme temps, de sÈlectionner correctement son Èchantillon afin díÈviter tout biais. Il est Ègalement essentiel díavoir une idÈe prÈalable du plan díanalyse statistique avant mÍme la construction du questionnaire. Par plan díanalyse statistique, nous entendons les tests qui seront privilÈgiÈs lors de líanalyse. La construction des questionnaires et/ou des questions, notamment au niveau de la structure des choix de rÈponses, pourra en effet influencer la structure de líanalyse statistique.

2. Définitions

Il est important, dans un premier temps, de bien dÈfinir les termes que nous utiliserons dans ce document. Bien que ce soit un rappel pour les personnes qui possËdent une base en statistique, nous croyons nÈcessaire díÈtablir ce que nous entendons par certains termes afin díÈviter toute confusion.

Population

La population 5 reprÈsente líensemble des personnes ou sujets qui font líobjet díune Ètude. Líobjectif díune Ètude Ètant, entre autres, de comprendre les caractÈristiques de cette population et de projeter sur cette derniËre les rÈsultats de la recherche. Une Ètude peut donc Ítre lÈgitimement contestÈe si la population qui fait líobjet de la recherche est mal dÈfinie ou encore si líanalyste tente de projeter sur une autre population les rÈsultats. Cela est une erreur frÈquente. Ainsi, les rÈsultats díune Ètude portant sur líutilisation des anglicismes et dont la population est quÈbÈcoise ne reprÈsentent que cette population. Il serait en effet hasardeux díattribuer le comportement des QuÈbÈcois ‡ díautres communautÈs francophones (et vice versa). Et si líÈchantillon de cette population níest pas reprÈsentatif de líensemble de la population, les mÍmes critiques envers líanalyste pourraient Ítre formulÈes. Ainsi, si líÈchantillon utilisÈ ne reprÈsentait en fait quíune partie de la population et non son ensemble, il serait tout ‡ fait inappropriÈ díÈtendre les rÈsultats ‡ líensemble de la population. En clair, ce níest pas parce que les QuÈbÈcois demeurant ‡ MontrÈal se comportent díune certaine maniËre que toute la francophonie en fait autant. Dans le mÍme genre díidÈes, si líÈchantillon níÈtait composÈ que de femmes, nous ne pourrions conclure que les rÈsultats síappliquent Ègalement aux hommes. Cela semble aller de soi mais des glissements de ce type peuvent facilement survenir si on níy prend garde lors de líinterprÈtation des donnÈes.

5 En statistique existe la convention de dÈsigner par N la population, cíest-‡-dire le nombre de personnes sur lequel porte líanalyse.

6

…chantillon

LíÈchantillon 6 reprÈsente une partie de la population. On dira que líÈchantillon est probabiliste lorsque chaque membre de la population a une chance connue díÍtre sÈlectionnÈ dans líÈchantillon. Un Èchantillon est dit non probabiliste lorsque les personnes qui sont sÈlectionnÈes ne respectent pas ce critËre. Il devient donc impossible díeffectuer les calculs pertinents et ainsi de projeter, avec un certain degrÈ de prÈcision, les rÈsultats de líenquÍte sur líensemble de la population. ConsÈquemment, les rÈsultats issus des calculs qui sont effectuÈs ‡ partir de ces donnÈes ouvrent toute grande la porte ‡ la contestation.

Tests paramÈtriques et non paramÈtriques

Dans le texte, nous faisons rÈfÈrence ‡ des tests paramÈtriques ainsi quí‡ des tests non paramÈtriques. Un test paramÈtrique est une mÈthode díinfÈrence qui suppose que la distribution de la population suit une courbe normale. ¿ líopposÈ, le chercheur utilisera des tests non paramÈtriques lorsque les donnÈes se prÈsentent selon une Èchelle nominale ou ordinale 7 et que la distribution des donnÈes níexige pas une distribution connue, ou tout simplement que la distribution est effectivement inconnue.

Test díindÈpendance

Le test díindÈpendance porte Ègalement le nom de test díhomogÈnÈitÈ. Cíest un test non paramÈtrique qui vise ‡ Ètablir si deux variables díune mÍme population sont indÈpendantes líune de líautre. Par exemple, un chercheur dÈsire connaÓtre síil y a une diffÈrence entre la frÈquence de lecture et le sexe du lecteur. Si on ne remarque aucune diffÈrence, on dira alors que la frÈquence de lecture est indÈpendante du sexe du lecteur. Si, au contraire, il y a une dÈpendance entre les deux variables, le chercheur pourra alors affirmer que la frÈquence de lecture observÈe dÈpend du sexe du lecteur. Il síagit donc de comparer líobservation simultanÈe des deux variables en fonction de leur rÈpartition thÈorique sous líhypothËse díindÈpendance. On reprÈsente symboliquement par H 0 (prononcez : hypothËse nulle) líindÈpendance des variables.

6 En statistique existe la convention de dÈsigner par n líÈchantillon.

7 Pour la dÈfinition de ces notions, cf. Marien et Beaud (note 1 ).

7

3. Les étapes d’une recherche statistique

Il est Ègalement utile, dans un premier temps, de rappeler les principales Ètapes nÈcessaires ‡ une recherche statistique. Bien que ce sujet puisse faire líobjet díune longue discussion, nous ne retiendrons ici que les principaux ÈlÈments.

…tape 1 - Bien identifier le problËme ou la situation

¿ premiËre vue, cette Ètape peut sembler banale. Elle est cependant ‡ líorigine des ÈlÈments qui vont suivre dans la recherche. Il est donc essentiel, en premier lieu, de síinterroger sur la raison díÍtre de líÈtude. Que veut-on prouver? Pourquoi une recherche sur ce sujet en particulier? Quelles sont les particularitÈs de la population ‡ líÈtude? Quelles sont les bases thÈoriques qui soutiennent la recherche? Est-ce que líobjectif est de trouver des paramËtres ou des points de rÈfÈrence, díidentifier des diffÈrences et des liens ou une combinaison des deux? Ce dernier point est important puisquíil va influencer le choix dans líanalyse statistique que nous ferons.

…tape 2 - Recueillir les donnÈes internes et externes afin de rÈpondre aux interrogations de la premiËre Ètape

Cíest ‡ cette Ètape quíil faut bien dÈterminer :

1 ) la population ainsi que les sous-populations ‡ líÈtude;

2) le type díÈchantillon et la technique díÈchantillonnage la plus appropriÈe;

3) le type et la mÈthode díenquÍte : sondage (auto-administrÈ, par entrevue, etc.) ainsi que la nature des informations (quantitatives ou qualitatives);

4) les outils statistiques (ou autres) qui seront privilÈgiÈs.

…tape 3 ñ Le classement et la prÈsentation des rÈsultats

Il síagit

prÈsentation.

ici díorganiser les donnÈes afin de faciliter leur utilisation et

…tape 4 ñ InterprÈter les donnÈes

leur

Cíest ‡ cette Ètape que les donnÈes seront traitÈes. Il est donc essentiel que, dËs la deuxiËme Ètape, líanalyste ait dÈj‡ une idÈe du traitement quíil compte donner aux chiffres. Cela influencera la maniËre dont les donnÈes seront recueillies ó notamment le type díÈchelle utilisÈe ó puisque, comme nous le verrons, cela conditionnera les tests

8

statistiques quíil sera possible díutiliser. LíinterprÈtation des donnÈes mËnera vers les conclusions. Il est important de mentionner que les conclusions doivent síinscrire dans le respect des limites mÈthodologiques. On ne peut, par exemple, estimer la frÈquence de lecture, en heures, ‡ líaide díun test non paramÈtrique. Il síagit donc de dÈterminer si le chercheur tente díÈtablir des liens entre diffÈrentes variables ou plutÙt díÈtablir des paramËtres.

4. L’utilisation des statistiques

Les statistiques les plus simples sont de nature descriptive. On parle ici de lí‚ge moyen, du nombre díindividus qui possËdent certaines caractÈristiques, de líopinion ou de la perception díun groupe díindividus. Ces statistiques ont leur utilitÈ, mais Ègalement leurs limites. Ce níest pas parce quíil y a plus díhommes, en nombre, qui utilisent des anglicismes ou des mots díargot que nÈcessairement les hommes utilisent significativement plus les anglicismes et les mots argotiques que les femmes. Dans un cas comme celui-ci, le fait de retrouver plus díhommes peut Ítre d˚ simplement ‡ un nombre díhommes plus ÈlevÈ dans la population ÈtudiÈe. La simple utilisation de la statistique descriptive ne rÈpond pas aux questions de fond, mais offre plutÙt un aperÁu gÈnÈral de la situation. Cela est Ègalement vrai lorsque les pourcentages sont utilisÈs. Dans un mÍme ordre díidÈes, que rÈpondriez-vous ‡ un professeur qui affirme que sa mÈthode díenseignement rÈduit de 1 00 % líutilisation des anglicismes ‡ líÈcrit? Avec pareil rÈsultat, un chercheur pourrait síintÈresser ‡ cette mÈthode rÈvolutionnaire. Cependant, si on síen tient ‡ la statistique descriptive, sans renforts mÈthodologiques, le chercheur risque díÍtre fort dÈÁu lorsquíil apprendra que le professeur nía quíun seul ÈlËve. Comme cet ÈlËve a ÈliminÈ les anglicismes de sa langue, il est tout ‡ lÈgitime díaffirmer que son taux de rÈussite est de 1 00 %. Cependant, ce rÈsultat, on le devine, ne mÈrite pas de retenir líattention de la communautÈ scientifique. La statistique descriptive a son utilitÈ, mais Ègalement ses limites. Cíest pourquoi il est important díutiliser, avant de conclure, des tests un peu plus sophistiquÈs.

Il existe deux grandes familles de tests statistiques : les tests paramÈtriques et les tests non paramÈtriques. Essentiellement, les tests paramÈtriques sont utilisÈs pour Ètablir des valeurs alors que les tests non paramÈtriques sont ut ilisÈs pour Ètablir des liens ou des associations.

9

Quelques tests non paramÈtriques

Le χ 2

Le test du χ 2 (prononcez ´qui deuxª ou ´qui carrȪ) est un des plus connus dans le monde de la statistique. Ce test est utilisÈ pour des variables de type nominal 8 et vise essentiellement ‡ Ètablir une association entre deux variables. Le test du χ 2 est basÈ sur la diffÈrence entre les frÈquences observÈes (Fo) et les frÈquences thÈoriques (Ft) 9 . Ce calcul permet díÈtablir si la diffÈrence entre les Fo et les Ft síÈcarte de faÁon significative, ce qui impliquerait que les rÈsultats obtenus sont diffÈrents de ce ‡ quoi nous nous serions attendu si les variables Ètaient indÈpendantes líune de líautre.

Les tableaux suivants proviennent du document Les QuÈbÈcois et leurs mots 1 0 . Nous avons relevÈ certaines incongruitÈs mineures dans les rÈsultats. Ces diffÈrences níinfluencent pas le rÈsultat gÈnÈral, mais dÈmontrent líimportance díun examen attentif des chiffres.

TABLEAU 1 11

díun examen attentif des chiffres. TABLEAU 1 1 1 8 Pour une dÈfinition complËte, consultez le

8 Pour une dÈfinition complËte, consultez le texte de Marien et Beaud (voir note 1 ).

9 On trouve Ègalement la notation algÈbrique Fe qui reprÈsente líexpression anglaise Expected frequency. 1 0 Op.cit., pp.45-46. 11 Op. cit., p.45.

1 0

Analyse prÈliminaire du tableau 1

Ce tableau contient plusieurs informations.

Ce qui prÈcËde se nomme ´ tableau de contingence ª. On remarque que le tableau contient des informations sur le nombre díobservations et sur le pourcentage des observations en fonction du total de la colonne. Dans la rÈalitÈ, il y a plus de gens qui rÈsident ‡ MontrÈal quí‡ QuÈbec. LíÈchantillon tient compte de cette diffÈrence. Cependant, compte tenu des diffÈrences dans les populations, il est particuliËrement difficile de comparer les rÈsultats en níutilisant que les frÈquences observÈes (Fo) qui sont identifiÈes par les chiffres se trouvant dans la rangÈe correspondant ‡ la lettre n. Ainsi, il y a 291 personnes dont líidentification des canadianismes est infÈrieure ‡ la moyenne et qui rÈsident dans la rÈgion de MontrÈal. On en trouve 98 dont líidentification des canadianismes est Ègalement infÈrieure ‡ la moyenne, mais qui rÈsident dans la rÈgion de QuÈbec. Il y a donc un total de 389 individus dont líidentification des canadianismes est infÈrieure ‡ la moyenne. Pour la deuxiËme catÈgorie, on dÈnombre 255 personnes dont líidentification des canadianismes est supÈrieure ‡ la moyenne et qui rÈsident ‡ MontrÈal alors quíil y en a 56 ‡ QuÈbec. On remarque quíil y a un total de 546 rÈpondants qui rÈsident dans la rÈgion de MontrÈal et 1 54 dans la rÈgion de QuÈbec pour un total de 700 rÈpondants. Afin de mesurer la diffÈrence en terme díÈchantillon entre les deux rÈgions, nous pouvons dire que 78% de líÈchantillon rÈside dans la rÈgion de MontrÈal (546 divisÈ par 700) et 22% dans la rÈgion de QuÈbec (1 54 divisÈ par 700).

Dans ce tableau il níy a que deux classes : infÈrieure ‡ la moyenne et supÈrieure ‡

la

moyenne. Nous pouvons considÈrer cette classification comme Ètant ordinale puisquíil

y

a un ordre dÈcroissant dans les catÈgories (infÈrieur et supÈrieur). Le χ 2 est obtenu en

comparant les frÈquences observÈes et les frÈquences thÈoriques. Ces derniËres sont obtenues en calculant les rÈsultats thÈoriques que líon obtiendrait síil níy avait aucune diffÈrence entre le niveau díidentification des canadianismes et la rÈgion de rÈsidence. On pose ainsi líhypothËse, líhypothËse nulle dans le jargon statistique, quíil níy a pas de diffÈrences entre les observations et la thÈorie. Cependant, on admet quíil est pratiquement impossible de toujours observer ce qui devrait arriver en thÈorie. Par exemple, on sait que lorsquíon lance un dÈ ‡ six faces nous avons une chance sur six díobtenir le chiffre 6 (ou 1 , 2, 3, 4, 5). Si on rÈpËte líexpÈrience plusieurs fois, nous devrions (notez le conditionnel) observer des rÈsultats identiques pour tous les chiffres. Cependant, la rÈalitÈ est tout autre. Il est trËs rare díobserver des rÈsultats aussi parfaits. Il est alors lÈgitime de se poser la question suivante : ´ A quel moment dois-je commencer ‡ míinquiÈter lorsque les rÈsultats síÈcartent des rÈsultats que nous devrions observer ? ª Nous acceptons quíil y ait des Ècarts entre les observations mais jusquí‡ une certaine limite. Ce questionnement est tout aussi lÈgitime dans un cas comme líidentification des canadianismes. Nous ne nous attendons pas ‡ ce que les gens identifient exactement dans les mÍmes proportions les canadianismes mais nous acceptons quíil y ait des diffÈrences. ¿ quel moment ces diffÈrences deviennent-elles si grandes que nous pouvons lÈgitimement dire que les deux rÈgions se comportent de faÁon diffÈrente ?

11

Le rÈsultat du χ 2 de 4,51 avec un seuil de 0,03 (s 0,03) nous indique que la diffÈrence que nous observons entre les catÈgories est significative. Nous pouvons ainsi affirmer que nous ne risquons pas de nous tromper dans 97 % des cas en affirmant quíil y a une diffÈrence significative.

Toutefois, il est important de bien observer les rÈsultats du tableau avant mÍme de commencer ‡ faire les calculs. Le tableau 2 nous offre un exemple intÈressant ‡ cet Ègard.

TABLEAU 2 1 2

un exemple intÈressant ‡ cet Ègard. TABLEAU 2 1 2 Les flËches associÈes aux totaux indiquent

Les flËches associÈes aux totaux indiquent que ces derniers ne correspondent pas aux parties. Aussi on devrait lire 390, 31 2, 1 38, 266 et 702 (= 390 + 3 1 2). Bien que les diffÈrences soient nÈgligeables, elles auront une influence sur le calcul du χ 2 ainsi que sur les pourcentages qui sont inscrits dans le tableau. Aussi, les pourcentages de la premiËre rangÈe ne concordent pas avec les rÈsultats prÈsentÈs dans le tableau. Sur la base des totaux qui apparaissent dans le tableau, ces derniers devraient se lire : 51 ,6 %; 51 ,7 %; 43,8 % et 66,4 %. Certes les diffÈrences sont marginales, ‡ peine quelques dizaines de points. Ainsi, le pourcentage 66,2 % níest pas Ègal ‡ 1 76 divisÈ par 265 (66,4 %) mais bien ‡ 1 76 divisÈ par 266 (66,2 %). En fait, ces apparentes incongruitÈs proviennent du fait que les donnÈes ont ÈtÈ pondÈrÈes; normalement, en pareil cas, on ne donne dans le tableau que le n (la taille de l'Èchantillon) et les pourcentages.

On observe le mÍme genre de problËme dans le tableau 3.

1 2 Op. cit., p.45.

1 2

TABLEAU 3 1 3

TABLEAU 3 1 3 Encore une fois on note quíil existe une diffÈrence entre les totaux

Encore une fois on note quíil existe une diffÈrence entre les totaux du tableau et les totaux rÈels. On remarque que le χ 2 est trËs ÈlevÈ et quíun s de 0,00 avec un degrÈ de libertÈ de 2 est trËs significatif puisquíil nous permet díaffirmer, aprËs consultation díune table de rÈfÈrence, que le risque de se tromper en affirmant quíil y a une forte association entre les deux variables est trËs faible 1 4 . Cela veut dire quíil existe une diffÈrence significative entre le nombre díannÈes díÈtudes et líindentification des canadianismes. Plus on a díannÈes díÈtudes, plus grande est la capacitÈ díidentification.

On notera aussi que les tableaux, que nous avons reproduit tels quels, ut ilisent la notation anglaise chi plutÙt que la notation franÁaise khi.

Dans la deuxiËme partie de l'ouvrage, le lecteur trouvera une section o˘ on lui explique, pas ‡ pas, comment faire un test de χ 2 ‡ l'aide d'un logiciel couramment utilisÈ en statistique.

1 3

Op cit., p.46. 1 4 On trouvera, dans la deuxiËme partie de líouvrage, une table de rÈfÈrence du χ 2 dans la section traitant de ce test.

1 3

Les tests associÈs au χ 2

Le coefficient de contingence

Le coefficient de contingence (C) mesure la force relative du χ 2 . Son interprÈtation est subjective et nous aide ‡ comprendre si les diffÈrences entre les frÈquences thÈoriques et les frÈquences observÈes sont diffÈrentes partout dans le tableau ou seulement ‡ quelques endroits dans ce dernier.

On obtient le C en prenant la racine carrÈe du rÈsultat du χ 2 divisÈ par le χ 2 plus le nombre de personnes dans le tableau. Par exemple, dans le tableau 4, le coefficient de contingence est Ègal ‡ 0,08. 1 5 Plus le C est prËs de 1 , plus la ´ relation ª est forte. Aussi on remarque que le C serait de 0,1 75 pour le tableau 3. Cela veut dire que les diffÈrences entre les frÈquences thÈoriques et les frÈquences observÈes sont plus importantes dans le cas du tableau 3 et que la relation entre les variables est en consÈquence.

TABLEAU 4 1 6

entre les variables est en consÈquence. TABLEAU 4 1 6 1 5 Nous obtenons ce rÈsultat

1 5 Nous obtenons ce rÈsultat en prenant la racine carrÈe de la division suivante : 4,51 / (4,51 + 700) (ou 704,5 1 ). 1 6 Op cit., p.46.

1 4

Le V de Cramer

Le V de Cramer (mathÈmaticien suisse) est plus utile que le coefficient de contingence, notamment pour comparer deux rÈsultats du χ 2 . On utilise donc ce test pour comparer diffÈrents rÈsultats de χ 2 sur des Èchantillons diffÈrents. Cela permet díÈvaluer la ´ force relative ª des χ 2 entre eux, notamment lorsque ces derniers sont pratiquement semblables.

Les tests de signe

MÍme síils sont non paramÈtriques, ils ne font pas partie des tests associÈs au χ 2 .

La mÈthode díÈvaluation non paramÈtrique la plus simple est le test de signe. Un test de signe mesure si les rÈsultats sont supÈrieurs (signe positif) ou infÈrieurs (signe nÈgatif) par rapport ‡ la moyenne ou ‡ la mÈdiane. On compare par la suite les rÈsultats entre les diffÈrentes sous-populations. Les tests de signe sont non paramÈtriques puisquíils níexaminent que les signes + ou ñ par rapport ‡ la moyenne ou ‡ la mÈdiane des donnÈes.

Les tests de rangs

Il existe plusieurs tests de rangs. Comme le nom líindique, ces derniers sont utilisÈs lorsque les donnÈes se prÈsentent sous forme de rangs. On trouve des tests de rangs pour les diffÈrents types díÈchelles. Ainsi, le rho de Spearman est utilisÈ pour des donnÈes qui se prÈsentent selon une Èchelle nominale alors que le t de Student et le t de Welch sont appliquÈes pour des donnÈes qui se prÈsentent selon une Èchelle díintervalle ou mÈtrique. Enfin, le Mann-Whitney U et le Wilcoxon síutilisent avec des Èchelles ordinales 1 7 . Nous prÈsenterons briËvement le Wilcoxon.

Le Wilcoxon

Dans le document ´ Analyse linguistique de 4000 courriels ª, líauteur utilise un test de la somme des rangs de Wilcoxon 1 8 . On utilise ce test lorsque líanalyste dÈsire comparer les distributions de deux populations. Dans le cas de líÈtude ci-haut mentionnÈe, nous avons affaire ‡ deux populations, les hommes et les femmes, dont la taille est diffÈrente. On dira que les donnÈes sont appariÈes lorsque deux mesures diffÈrentes seront prises pour chaque individu. Le test de Wilcoxon pour des donnÈes appariÈes est donc utilisÈ ‡ partir de deux sÈries de mesures qui utilisent une Èchelle díintervalle ou mÈtrique. Ce test est donc basÈ sur des rÈsultats o˘ il est possible de faire

1 7

Nous avons offert une dÈfinition des quatre types díÈchelles dans Marien et Beaud (voir note 1 ). 1 8 Maurais, Jacques ´ Analyse linguistique de 4000 courriels ª, Conseil supÈrieur de la langue franÁaise, 2003. Nous utilisons ‡ titre díexemple le tableau 2. 1 qui se trouve ‡ la page 28 du document.

1 5

une moyenne. Ces mesures doivent donc Ítre quantitatives. Il síagit par la suite de noter la somme des rangs des diffÈrences des rangs.

Tableau 5 1 9

DiffÈrence du nombre total de fautes par 100 mots selon le sexe (Test de la somme des rangs de Wilcoxon, avec une correction de 0,5 pour la continuitÈ; entre parenthËses, une faute par x mots)

 

Homme

Femme

z

p

n

1 536

2 225

   

MÈdiane

1

0,5

 

8,2

   
 

(9,5)

(

1 2,2)

   

a

W

3 1 8 1 753

3 892 688

8,937

0,000 1

a Líindice W est Ègal ‡ la somme des rangs pour une catÈgorie donnÈe

Dans le cas du test de la somme des rangs de Wilcoxon 20 , on suppose que la distribution de deux populations est identique. Le Wilcoxon est utilisÈ comme test alternatif au t de Student. ¿ partir des Èchantillons de deux populations, toutes les donnÈes sont combinÈes comme si les deux Èchantillons ne formaient quíune seule population. Il síagit par la suite de mettre en rangs toutes les observations et le rÈsultat (z) est la somme des rangs du plus petit Èchantillon : ainsi, il y avait des hommes qui occupaient, par exemple, le rang 1 , le rang 233, le rang 432, etc., et la somme de tous ces rangs donne 3 1 8 1 753. Le rÈsultat (z = 8,937) doit Ítre interprÈtÈ en fonction du p qui reprÈsente le seuil de signification. Comme díhabitude on se satisfait díun seuil de signification de 0,05, dans le tableau 5 le rÈsultat est trËs significatif puisque p = 0,0001 .

Ce test a son utilitÈ en sociolinguistique mais sa complexitÈ dÈpasse le cadre de la vulgarisation envisagÈe dans le prÈsent ouvrage.

Le rho de Spearman

Le rho ( ρ ) de Spearman 2 1 est un coefficient de corrÈlation de rangs. Il est possible díutiliser le ρ pour des donnÈes nominales. Ce test est particuliËrement utile lorsque líon veut comparer, par exemple, des pays ou des rÈgions entre elles en fonction de deux variables. Ainsi, on pourrait se demander síil existe une relation entre le nombre díÈlËves dans une classe et le nombre de fautes dans les copies. Par ce test de rang, le chercheur tente de prouver quíil existe une relation positive entre ces deux variables, cíest-‡-dire que plus il y a díÈlËves dans une classe et plus il y a de fautes dans les textes. Le ρ prend une valeur entre + 1 et - 1 . Lorsque le ρ est Ègal ‡ + 1 , cela signifie que les rangs des deux variables sont dans le mÍme ordre. Si le ρ est Ègal ‡ ñ 1 , cela signifie que les rangs sont

1 9

Voir le tableau 2.3 in Jacques Maurais ´ Analyse linguistique de 4000 courriels ª, p 28. 20 On utilise Ègalement le nom de Mann-Whitney pour identifier ce test. 2 1 On utilise la lettre grecque ρ (rho).

1 6

inversÈs. Enfin, lorsque le rÈsultat donne 0, cela signifie quíil níy a pas de relation entre les deux variables.

La formule du ρ est la suivante :

ρ = 1 ñ

6 * D i

2

n (n 2 ñ 1 )

D i : DiffÈrence dans les rangs n : Population (nombre de personnes ou autres)

…cole

Nombre

Rang selon

Rang selon le nombre de fautes 22

   

díÈlËves

le nombre

D i

D i

2

díÈlËves

 

A

35

1

1

0

0

B

20

2

3

-

1

1

C

1

9

3

2

1

1

D

1

8

4

5

1

1

E

 

1 7

5

4

1

1

F

 

1 6

6

9

-3

9

G

 

1 5

7

7

0

0

H

1

4

8

9

-

1

1

I

1

3

9

6

3

9

J

1

2

1

0

1

0

0

0

Total

 

-

-

-

0

24

1 ñ

6 * 24

1 0 ( 1 0 2 ñ 1 )

Ce qui nous donne 6*24 = 1 44 divisÈ par 1 0 * 99 (ou 990) = 0, 1 454

1 ñ 0, 1 454 = - 0,8546

Un

rÈsultat

de

+ 0,8546

signifie

quíil

existe

une

relation

positive,

assez

importante puisque prËs de + 1 , entre les deux variables. Cela signifie que plus il y a

22 Le rang est donnÈ par ordre dÈcroissant du nombre de fautes.

1 7

díÈlËves, plus il y a de fautes. LíinterprÈtation du rÈsultat est Èvidemment en partie subjective et dÈpend largement díune connaissance du sujet ‡ líÈtude.

Le t de Student 23

On utilise le t de Student afin de comparer deux Èchantillons ou un Èchantillon en fonction des valeurs connues díune population. Le t de Student síutilise surtout lorsquíil est question de petits Èchantillons ou de petites populations et vise ‡ Ètablir si les diffÈrences observÈes entre ces Èchantillons et/ou populations sont significatives ou non. Pour cela, líutilisation díune table est nÈcessaire 24 . Les conditions díapplication pour le t de Student sont les suivantes :

Le test t implique que la variable dÈpendante est une mesure díintervalles ou mÈtriques. Comme nous mesurons des moyennes, cette distinction est tout ‡ fait appropriÈe. De plus, le test t postule que la variable dÈpendante est distribuÈe normalement dans la population. Le test t suppose Ègalement que les variances sont connues.

On pourrait donc utiliser un t de Student pour examiner líÈvolution dans le temps díun programme ou pour comparer deux rÈgions ou deux pays ou encore pour examiner síil y a une diffÈrence dans les rÈponses ou les comportements des hommes et des femmes. Nous avons adaptÈ un exemple tirÈ du livre de Fox pour illustrer une application possible ‡ la sociolinguistique 25 . Dans la deuxiËme partie de líouvrage, on trouvera une section montrant, Ètape par Ètape, comment se servir du logiciel Excel pour calculer un t de Student.

Supposons quíune Ètude est effectuÈe auprËs de 855 femmes et de 1 085 hommes et quíelle porte sur le nombre díanglicismes dans un texte de 20 pages. Supposons aussi que les hommes utilisent, en moyenne, 3,01 anglicismes et les femmes 2,75. Les Ècarts- types pour les deux groupes sont de 2,225 et 2,030. ¿ premiËre vue, les chiffres sont assez semblables. Il níy a quíune petite diffÈrence au niveau des anglicismes et les Ècarts- types sont trËs similaires. Seuls les Èchantillons sont quelque peu diffÈrents. Si líanalyse se limite ‡ examiner les rÈsultats bruts quant ‡ líutilisation moyenne des anglicismes, nous serions tentÈs de conclure quíil níy a que peu de diffÈrences entre les hommes et les femmes. En effet, líÈcart de seulement 0,26 anglicisme est infime. Le t de Student va nous permettre de confirmer ou díinfirmer cette perception.

23 Le t de Student a ÈtÈ mis au point par William Gosset, qui travaillait pour la brasserie Guiness. Pour des raisons contractuelles, il ne pouvait publier sous son nom. Il emprunta ainsi le nom de Student, qui signifie tout simplement ´ Ètudiant ª, pour ses publications. On lui doit le test t qui examine la diffÈrence entre les moyennes de deux Èchantillons de petite taille. LíhypothËse ‡ la base du test t est que la distribution pour de petits Èchantillons sí Ècarte díune distribution normale.

24 Toutefois, lorsque le traitement se fait par ordinateur, les programmes spÈcialisÈs comme SPSS, SAS et mÍme Excel vont calculer le seuil de signification.

25 William Fox, Statistiques sociales, Les Presses de líUniversitÈ Laval, Ste-Foy, 1 999. Nous avons modifiÈ le contexte de líexemple qui se trouve ‡ la page 21 4.

1 8

Moyenne des anglicismes pour un texte de 20 pages par sexe

Femmes

Hommes

X

1 = 2,75

X 2 = 3,01

s 1 = 2,030

s 2 = 2,225

N

1 = 855

N 2 = 1 085

X

1 = Signifie la moyenne des anglicismes chez les femmes

X

2 = Signifie la moyenne des anglicismes chez les hommes

s

1 = Signifie líÈcart-type des anglicismes chez les femmes

s

2 = Signifie líÈcart-type des anglicismes chez les hommes

N

1 = Le nombre de femmes dans líÈchantillon

N

2 = Le nombre díhommes dans líÈchantillon

La formule du t utilisÈe ici est la suivante 26 :

t =

(X 1 ñ X2)

S X 1 ñ X2

Le terme S X 1 ñ X2 signifie líerreur type de la diffÈrence entre les moyennes. En terme simple, cela reprÈsente líerreur commise lorsquíon compare la diffÈrence des moyennes entre les deux rÈsultats.

ici).

On obtient S X 1 ñ X2 comme suit :

S 2 p

(

1

N 1

+

1

N 2

)

Mais que signifie un t de 2,653 ? (Nous ne tenons pas compte du signe nÈgatif

Supposons quíune nouvelle politique est mise en place pour diminuer líutilisation de termes anglais ‡ líÈcrit. Une premiËre Èvaluation est effectuÈe et on obtient une moyenne du nombre díanglicismes de 1 5 pour un texte de 20 pages. LíÈvaluation est refaite aprËs un certain temps afin díÈvaluer le degrÈ de succËs du programme. Lors de cette deuxiËme Èvaluation, on note que líutilisation moyenne des anglicismes est de 1 0 pour 20 pages.

La question est donc de savoir si la diffÈrence avant et aprËs líapplication du programme est significative ou non. Il est tout ‡ fait juste de dire quíil y a eu une baisse

de 33,3 % dans líutilisation des anglicismes. Si líanalyse se limite ‡ ce constat, il est tout

‡ fait possible que nous commettions une erreur. La simple diffÈrence níest pas suffisante

26 Selon la situation, la formule du t est diffÈrente. Dans notre exemple, nous comparons deux moyennes. Nous pourrions cependant comparer la moyenne díun Èchantillon avec la moyenne de la population. Cela serait utile dans les cas o˘ cette derniËre est connue. Dans ce cas, nous utiliserions la lettre grecque µ.

1 9

pour affirmer que cette derniËre est telle que nous puissions affirmer quíelle est significative. Il ne faut pas oublier que, dans le jargon statistique, on doit interprÈter le fait que la diffÈrence est significative comme quoi la diffÈrence observÈe síÈcarte du simple hasard.

Dans notre exemple, la moyenne des anglicismes Ètait de 1 5 alors quíaprËs la moyenne se situe ‡ 1 0. On remarque quíil y a effectivement une diffÈrence dans les moyennes. Cependant, il est tout ‡ fait lÈgitime de síinterroger sur le caractËre significatif de cette diffÈrence. Nous pourrions conclure que la baisse du nombre díanglicismes est une preuve du succËs du programme. Bref, cet Ècart de 5 anglicismes de moins est-il suffisant pour Ètablir que le programme est un succËs ? Cíest le rÈsultat du t de Student qui va nous informer que la diffÈrence est significative ou non.

Pour rÈpondre ‡ cette question, il est essentiel de comparer les deux moyennes obtenues. Il est Ègalement important de dÈterminer le degrÈ de libertÈ afin de se rapporter ‡ une table. Cependant, si le calcul est effectuÈ ‡ líaide díun logiciel comme Excel le rÈsultat s'affiche avec líindication du seuil critique puisque le logiciel comprend une table interne.

20

DeuxiËme partie

Dans cette partie, nous prÈsentons quelques tests statistiques que l'on peut faire sans trop de difficultÈs avec le logiciel Excel. Le lecteur dÈsireux de poursuivre sa formation pourra consulter avec avantage l'ouvrage suivant :

M ARTIN, Louise. Statistique avec applications aux sciences du loisir, de la culture, du tourisme et des communications : traitement de donnÈes avec Microsoft Excel 2000, Trois-RiviËres (QuÈbec), Les …ditions SMG, 2001 , 452 p.

Toutefois, il aurait ÈtÈ trop compliquÈ de recourir ‡ Excel pour faire le test du χ 2 ; aussi avons-nous choisi d'utiliser plutÙt le logiciel SPSS, l'un des plus courants en sciences humaines.

2 1

Le r de Pearson

Le r, ou coefficient de corrÈlation díÈchantillonnage, de Pearson est un indice dont la valeur varie entre ñ 1 ,0 et 1 ,0. La formule permettant díobtenir cet indice est prÈdÈfinie dans Excel : dans la barre díoutils, il suffit de cliquer sur f x , qui signifie ´ coller une fonction ª, pour avoir accËs ‡ líensemble des fonctions disponibles.

pour avoir accËs ‡ líensemble des fonctions disponibles. Dans le tableau suivant, provenant díune Ètude 2

Dans le tableau suivant, provenant díune Ètude 27 portant sur la langue de la publicitÈ, nous constatons que la proportion des anglicismes lexicaux diminue au fil des ans et que celle des anglicismes sÈmantiques (des traductions directes) augmente au fil des ans. Pour un linguiste, il ne serait pas surprenant quíil y ait un lien entre ces deux sÈries de donnÈes. Le test de Pearson permettra de confirmer ce lien.

Années Anglicismes Anglicismes

lexicaux

sémantiques

1951

1,681

1,163

1961

1,316

1,589

1974

0,837

1,987

1980

0,44

2,08

Une fois que les donnÈes sont retranscrites dans un fichier Excel,

27 Jacques Maurais, La langue de la publicitÈ des chaÓnes díalimentation, QuÈbec, Conseil de la langue franÁaise, 1 984, p. 7 1 . TÈlÈchargeable : http://www.cslf.gouv.qc.ca/Publications/PubB 11 6/B 11 6ch1 .html

22

nous cliquons sur une cellule vide et nous allons ensuite cliquer, dans la barre díoutils,

nous cliquons sur une cellule vide et nous allons ensuite cliquer, dans la barre díoutils, sur f x . ApparaÓt alors une nouvelle fenÍtre :

sur f x . ApparaÓt alors une nouvelle fenÍtre : Nous choisissons le test de Pearson

Nous choisissons le test de Pearson en cliquant sur ´ OK ª. Une nouvelle fenÍtre apparaÓt :

23

Dans la matrice 1 , nous mettrons les donnÈes concernant les anglicismes lexicaux (colonne B)

Dans la matrice 1 , nous mettrons les donnÈes concernant les anglicismes lexicaux (colonne B) et dans la matrice 2, celles concernant les anglicismes sÈmantiques. Pour ce faire, il suffit, pour chaque matrice, de cliquer dans le carrÈ de couleur situÈ ‡ droite

de cliquer dans le carrÈ de couleur situÈ ‡ droite Nous pouvons ensuite sÈlectionner, avec la

Nous pouvons ensuite sÈlectionner, avec la souris, la partie de la colonne o˘ apparaissent les donnÈes.

24

Puis nous cliquons sur le petit carrÈ de couleur qui apparaÓt ‡ la droite des

Puis nous cliquons sur le petit carrÈ de couleur qui apparaÓt ‡ la droite des donnÈes sÈlectionnÈes dans líillustration suivante :

donnÈes sÈlectionnÈes dans líillustration suivante : Nous faisons de mÍme avec les donnÈes de la colonne

Nous faisons de mÍme avec les donnÈes de la colonne C que nous introduisons dans la matrice 2.

Puis nous cliquons sur ´ OK ª.

25

Le rÈsultat apparaÓt alors : 26

Le rÈsultat apparaÓt alors :

Le rÈsultat apparaÓt alors : 26

26

Le rÈsultat de ñ 96849844 est fortement nÈgatif, cíest-‡-dire quíil est trËs prËs de la limite de ñ 1 . Il signifie que les anglicismes sÈmantiques varient en proportion inverse des anglicismes lexicaux.

27

Tests de la diffÈrence des pourcentages et de la diffÈrence des moyennes

On peut utiliser ces tests quand, par exemple, on veut comparer les rÈsultats de deux enquÍtes. Voici une faÁon trËs simple de faire ces tests : il síagit simplement de recopier le tableau suivant dans Excel, en prenant bien soin díÈcrire exactement dans les mÍmes cellules que celles de líexemple puisque la formule quíil faudra dactylographier tout ‡ líheure fera rÈfÈrence aux cellules de líexemple. La formule du test de diffÈrence des pourcentages sera donc entrÈe dans la cellule E6 et les donnÈes, elles, seront dactylographiÈes dans les cellules A6, B6, C6 et D6.

DiffÈrence des pourcentages

les cellules A6, B6, C6 et D6. DiffÈrence des pourcentages La formule ‡ dactylographier dans la

La formule ‡ dactylographier dans la cellule E6 est la suivante :

28

ou, plus clairement : = 1 ,96*RACINE((A6*( 1 -A6)/B6)+(C6*( 1 -C6)/D6)) ( 1 ,96 est

ou, plus clairement :

= 1 ,96*RACINE((A6*( 1 -A6)/B6)+(C6*( 1 -C6)/D6))

( 1 ,96 est souvent utilisÈ.)

ce qui Èquivaut ‡ un seuil de 0,05 ou 95

%, le seuil qui est

le plus

Pour illustrer la faÁon de se servir de cette formule, nous allons nous servir díun exemple provenant díune communication de Pierre Bouchard et Jacques Maurais, ´ …volution des perceptions des QuÈbÈcois sur la norme ª.

Le tableau ne permet pas, tel quíil est prÈsentÈ, de faire le test de diffÈrence des pourcentages puisquíil y manque deux ÈlÈments essentiels : le n (la population enquÍtÈe) de 1 983 et celui de 1 998. Mais nous savons par ailleurs que ceux qui ont rÈpondu ‡ cette question Ètaient au nombre de 1 53 en 1 983 et de 248 en 1 998.

´ Beaucoup de mots que nous utilisons au QuÈbec nous empÍchent de communiquer avec les francophones des autres pays ª Pourcentage díinformateurs qui se disent díaccord avec cet ÈnoncÈ selon que líon voyage ou pas en francophonie, par annÈe

Voyage en francophonie

1

983

1

998

Oui

79,4 %

33,3 %*

Non

68,7 %

44,2 %*

* DiffÈrence significative entre les deux annÈes

Il faut faire le test sur le ´ oui ª et ´ le ´ non ª et les pourcentages doivent Ítre prÈsentÈs sous forme de dÈcimales : donc, 79,4 % devient 0,794.

Explication des symboles :

p 1 : rÈponse de la premiËre enquÍte exprimÈe en pourcentage N 1 : population de la premiËre enquÍte qui a répondu à cette question p 2 : rÈponse de la deuxiËme enquÍte exprimÈe en pourcentage

29

N 2 : population de la deuxiËme enquÍte qui a répondu à cette question

de la deuxiËme enquÍte qui a répondu à cette question Le rÈsultat qui apparaÓt dans la

Le rÈsultat qui apparaÓt dans la cellule E6 est la marge díerreur et est toujours ‡ interprÈter en terme de plus ou de moins : ± 8,7. En díautre termes, le rÈsultat de 1 983 varie entre 79,4 + 8,7 et 79,4 ñ 8,7, soit entre 70,7 et 88,1 ; de mÍme pour celui de 1 998 :

il varie entre 33,3 + 8,7 et 33,3 ñ 8,7.

Nous recommenÁons la mÍme opÈration avec les rÈsultats pour le ´ non ª.

la mÍme opÈration avec les rÈsultats pour le ´ non ª. La marge díerreur des rÈponses

La marge díerreur des rÈponses ´ non ª est donc de ± 9,6 (pour 1 983 : 68,7 + 9,6 et 68,7 ñ 9,6; pour 1 998 : 44,2 + 9,6 et 44,2 ñ 9,6).

Les diffÈrences sont donc significatives dans les deux cas.

30

DiffÈrence des moyennes Le mÍme principe síapplique au test de la diffÈrence des moyennes, sauf que, dans ce cas-ci, il faut utiliser la variance (quíExcel permet de calculer ó mais il faut, pour la calculer, que le fichier Excel contienne toutes les donnÈes de líenquÍte ou du sondage et non uniquement les moyennes).

líenquÍte ou du sondage et non uniquement les moyennes). La formule ‡ saisir dans la cellule

La formule ‡ saisir dans la cellule E1 5 est donc :

= 1 ,96*RACINE((A1 5/B1 5)+(C1 5/D1 5))

et les donnÈes doivent Ítre saisies dans les cellules A 1 5, B1 5, C1 5 et D 1 5.

Explication des symboles :

p 1 : variance de la premiËre enquÍte N 1 : population de la premiËre enquÍte qui a répondu à cette question p 2 : variance de la deuxiËme enquÍte N 2 : population de la deuxiËme enquÍte qui a répondu à cette question

3 1

Excel offre diffÈrentes faÁons de calculer la variance :

Excel offre diffÈrentes faÁons de calculer la variance : Deux sont particuliËrement intÈressantes pour les

Deux sont particuliËrement intÈressantes pour les sociolinguistes :

VAR : si líon a affaire ‡ un Èchantillon (par exemple : quelques ÈlËves choisis au hasard dans les classes díune Ècole)

VAR.P : si líon a affaire ‡ toute une population (par exemple : tous les enseignants dans une Ècole).

32

Le t de Student

Comme nous líavons signalÈ dans le Guide pratique pour líutilisation de la statistique en recherche : le cas des petits Èchantillons, le test t de Student est trËs utile lorsque nous avons affaire ‡ de petits Èchantillons.

Pour illustrer líapplication du t de Student, nous nous inspirerons díun exemple tirÈ du livre díAnnette Paquot, que nous simplifierons pour ne pas avoir trop de donnÈes dans les colonnes. Il ne faudra donc pas síÈtonner que nous níarrivions pas aux mÍmes rÈsultats. Retranscrivons la problÈmatique sous-tendant cet exemple, telle quíelle est exposÈe par Annette Paquot dans Les QuÈbÈcois et leurs mots (pp. 39 et 42) : ´ Puisque le caractËre conscient des canadianismes est variable, il convient de se demander ‡ quoi cette variation est liÈe. On peut, ‡ notre avis, ‡ titre d'hypothËse de dÈpart, supposer qu'elle est liÈe ‡ des facteurs de nature linguistique, comme le type de canadianisme dont il s'agit et la faÁon, orale ou Ècrite, dont ils ont ÈtÈ prÈsentÈs aux sujets. [Ö] nous avons [Ö] divisÈ l'Èchantillon en deux groupes de rÈpondants : ‡ la moitiÈ d'entre eux, les enquÍteurs demandaient de lire les textes eux mÍmes tandis qu'ils les lisaient ‡ voix haute ‡ l'autre moitiÈ. Cela devait permettre de vÈrifier le lien Ètabli par plusieurs spÈcialistes entre franÁais rÈgional et franÁais parlÈ. Ainsi, G. Straka Ècrivait en 1 977 : ë on a pu se demander si le concept de franÁais rÈgional n'Ètait pas en fin de compte identique ‡ celui de franÁais parlÈ ou si, au moins, dans une certaine mesure, ces deux notions ne se recouvraient pas í. Si tel Ètait le cas, en effet, les canadianismes devraient Ítre significativement moins repÈrÈs ‡ l'oral qu'‡ l'Ècrit. ª

Dans le tableau simplifiÈ qui suit, la deuxiËme colonne donne le nombre de canadianismes repÈrÈs par chaque personne enquÍtÈe lorsquíelle lisait le texte qui lui Ètait soumis. La troisiËme colonne donne le nombre de canadianismes reconnus quand on lisait ‡ voix haute le texte ‡ la personne enquÍtÈe.

N o de la personne enquêtée

Lecture

Audition

 

1 15

12

 

2 16

16

 

3 16

11

 

4 17

15

 

5 12

12

 

6 14

9

 

7 19

11

 

8 20

17

 

9 13

13

Première étape Nous copions les donnÈes du tableau prÈcÈdent sur la feuille díun fichier Excel :

33

Puis nous calculons la moyenne, qui sera nÈcessaire dans une Ètape ultÈrieure. Pour ce faire,

Puis nous calculons la moyenne, qui sera nÈcessaire dans une Ètape ultÈrieure. Pour ce faire, nous cliquons díabord sur la cellule A 11 et nous allons chercher la fonction ´ moyenne ª parmi les fonctions de la barre díoutils supÈrieure (icÙne f x ) :

de la barre díoutils supÈrieure (icÙne f x ) : Puis nous cliquons sur ´ OK

Puis nous cliquons sur ´ OK ª. Nous faisons de mÍme pour la colonne suivante.

34

Pour faire le test de Student, nous cliquons díabord dans une cellule vierge puis nous

Pour faire le test de Student, nous cliquons díabord dans une cellule vierge puis nous allons chercher la fonction TEST.STUDENT (f x dans la barre díoutils) :

TEST . STUDENT ( f x dans la barre díoutils) : Nous cliquons sur ´ OK

Nous cliquons sur ´ OK ª. La fenÍtre suivante apparaÓt alors :

35

Nous avons vu, dans líexplication du r de Pearson, comment aller sÈlectionner les plages des

Nous avons vu, dans líexplication du r de Pearson, comment aller sÈlectionner les plages des matrices :

Nous avons vu, dans líexplication du r de Pearson, comment aller sÈlectionner les plages des matrices

36

Ensuite, il faut choisir entre ´ unilatÈral ª et ´ bilatÈral ª. Dans notre exemple, nous Ècrivons 1 parce que líhypothËse de travail implique que nous nous attendons ‡ ce quíil y ait une diffÈrence positive.

attendons ‡ ce quíil y ait une diffÈrence positive. Enfin, pour ´ Type ª, nous choisissons

Enfin, pour ´ Type ª, nous choisissons 3 parce que nous comparons deux observations ‡ variance inÈgale (cíest-‡-dire quíon ne peut pas prÈsumer que les deux groupes vont avoir la mÍme variance) :

variance inÈgale (cíest-‡-dire quíon ne peut pas prÈsumer que les deux groupes vont avoir la mÍme

37

Le rÈsultat apparaÓt dÈj‡ dans la fenÍtre mais, en cliquant sur ´ OK ª, il síÈcrit dans la cellule prÈalablement choisie :

ª, il síÈcrit dans la cellule prÈalablement choisie : Puis, nous aurons aussi besoin de líÈcart-type

Puis, nous aurons aussi besoin de líÈcart-type des donnÈes de la colonne A. Nous cliquons sur la cellule A 1 2 pour y coller une fonction, celle de lí Ècart-type, en allant la chercher dans la barre díoutils (icÙne f x ) :

y coller une fonction, celle de lí Ècart-type, en allant la chercher dans la barre díoutils

38

Une fois la fonction ECARTYPE choisie, nous cliquons sur ´ OK ª et apparaÓt alors la fenÍtre suivante :

sur ´ OK ª et apparaÓt alors la fenÍtre suivante : Nous prenons bien garde de

Nous prenons bien garde de ne pas cliquer sur ´ OK ª tout de suite parce que le logiciel a automatiquement sÈlectionnÈ, en plus des donnÈes de la premiËre colonne, la ligne o˘ figure la moyenne, dont nous níavons pas besoin ici. Nous allons donc corriger la sÈlection en cliquant sur le petit carrÈ bleu-blanc-rouge de la matrice Nombre1, ce qui nous ramËne ‡ la feuille des donnÈes o˘ nous corrigeons la sÈlection :

la feuille des donnÈes o˘ nous corrigeons la sÈlection : Puis, nous revenons ‡ la matrice

Puis, nous revenons ‡ la matrice en cliquant sur le petit carrÈ bleu-blanc-rouge :

39

Le rÈsultat apparaÓt dÈj‡ au bas de la nouvelle fenÍtre; nous cliquons sur ´ OK

Le rÈsultat apparaÓt dÈj‡ au bas de la nouvelle fenÍtre; nous cliquons sur ´ OK ª et le rÈsultat vient síinscrire dans la cellule A 1 2.

et le rÈsultat vient síinscrire dans la cellule A 1 2. Deuxième étape Dans la deuxiËme

Deuxième étape Dans la deuxiËme Ètape, nous aurons recours ‡ la loi de Student.

Comme prÈcÈdemment, nous choisissons une cellule vierge avant díaller faire notre choix parmi les fonctions accessibles ‡ partir de la barre díoutils :

40

Puis nous cliquons sur ´ OK ª : 4 1

Puis nous cliquons sur ´ OK ª :

Puis nous cliquons sur ´ OK ª : 4 1

4 1

Il est ‡ noter que la loi de Student síutilise lorsquíon veut comparer la moyenne ‡ un standard. Dans notre exemple, ce standard peut Ítre líune ou líautre des moyennes. Notez quíil existe un autre test qui compare les deux moyennes. Dans notre exemple, nous pourrions supposer que le standard est líaudition (moyenne de 1 2,89). La moyenne ‡ líÈcrit est de 1 5,78. Nous avons donc : 1 2,89 ñ 1 5,78 = ñ 2,89. La question est donc de savoir si cette diffÈrence est significative.

Dans la cellule D 1 2, entrer la formule :

= (A 11 ñ B11 ) * racine (9) / A 1 2.

La premiËre partie de la formule indique la diffÈrence entre la moyenne et le standard multipliÈ par la racine carrÈe du nombre díobservations qui est divisÈ par líÈcart type des observations ‡ la lecture.

Le rÈsultat devrait Ítre 3,288876877.

Cíest ce rÈsultat que nous Ècrivons dans la matrice de X (alternativement, nous sÈlectionnons la cellule D 1 2 o˘ se trouve le rÈsultat) :

la cellule D 1 2 o˘ se trouve le rÈsultat) : On inscrit 8 sur la

On inscrit 8 sur la ligne degrÈs de libertÈ. Le degrÈ de libertÈ est calculÈ comme suit : le nombre díobservations moins 1 (N ñ 1 ). Comme nous avons 9 observations, le d.l. (degrÈ de libertÈ) est Ègal ‡ 9 ñ 1 = 8.

On inscrit 1 sur la ligne unilatÈral/bilatÈral puisque nous dÈsirons examiner le rÈsultat dans un sens seulement.

42

Le rÈsultat du test donne 0,00552 11 5. Líobjectif de ce test est de dÈterminer

Le rÈsultat du test donne 0,0055211 5.

Le rÈsultat du test donne 0,00552 11 5. Líobjectif de ce test est de dÈterminer si

Líobjectif de ce test est de dÈterminer si la moyenne du nombre de canadianismes repÈrÈs par chaque personne enquÍtÈe lorsquíelle lisait le texte qui lui Ètait soumis est significativement diffÈrent du nombre de canadianismes reconnus quand on lisait ‡ voix haute le texte ‡ la personne enquÍtÈe.

On pose donc líhypothËse suivante :

43

Ho : µ = 1 5,78

H 1 : µ ≠ 1 5,78

Le niveau de signification du test est de 0,025 (le test est unilatÈral).

La rËgle de dÈcision est la suivante : On doit rejeter Ho (líhypothËse qui dit quíil níy a pas une diffÈrence significative entre la moyenne ‡ la lecture et le standard) si le rÈsultat r (dans ce cas-ci 0,0055211 5) est plus petit que 0,025 (r < 0,025). Nous avons donc ici 0,00552 11 5 < 0,025. Comme r est plus petit, on rejette Ho pour retenir H 1 qui indique quíil y a une diffÈrence significative dans líidentification des canadianismes avec un risque de 2,5 % de se tromper.

La conclusion : Le rÈsultat nous permet de conclure que le nombre de canadianismes identifiÈs ‡ la lecture est diffÈrent du nombre de canadianismes identifiÈs ‡ líaudition et quíen faisant cette affirmation on court un risque de 2,5 % de se tromper.

44

Table pour le t de Student Seuil de signification ‡ 0,025 pour un test unilatÈral et ‡ 0,05 pour un test bilatÈral

DegrÈ de libertÈ

 

1

1

2,706

2

 

4,303

3

 

3, 1 82

4

 

2,776

5

 

2,571

6

 

2,447

7

 

2,365

8

 

2,306

9

 

2,262

10

 

2,228

11

 

2,20 1

1

2

 

2, 1 79

1

3

 

2, 1 60

1

4

 

2, 1 45

15

 

2,131

 

1 6

 

2, 1 20

 

1 7

 

2, 11 0

 

1 8

 

2, 1 0 1

 

1 9

 

2,093

20

 

2,086

2

1

 

2,080

22

 

2,074

23

 

2,069

24

 

2,064

25

 

2,060

26

 

2,056

27

 

2,052

28

 

2,048

29

 

2,045

30

 

2,042

40

 

2,02 1

60

 

2,000

1

20

 

1 ,980

 

 

1 ,960

Source : William Fox, Statistiques Sociales, traduit de líanglais et adaptÈ par Louis M. Imbeau, Les Presses de líUniversitÈ Laval et De Boeck UniversitÈ, 1 999.

45

2

Exemple díapplication du test du χ

Nous allons prendre comme exemple díapplication du test du χ 2 une question provenant díun sondage analysÈ par Pierre Bouchard et Jacques Maurais (dont certains rÈsultats ont ÈtÈ publiÈs dans ´ La norme et líÈcole. Líopinion des QuÈbÈcois ª, Terminogramme 9 1 -92, septembre 1 999, pp. 9 1 - 11 6). Et nous nous servirons du logiciel SPSS (Statistics Package for Social Sciences), dont il existe maintenant une version franÁaise. Nous pourrions toujours faire le test avec Excel, mais ce serait beaucoup plus compliquÈ. Dans le cas qui nous occupe, les donnÈes du sondage avaient ÈtÈ transmises sous forme de tableau Excel et ont ÈtÈ importÈes dans SPSS. Nous níentrerons pas dans ces procÈdures et nous níexpliquerons pas non plus la faÁon de saisir des donnÈes dans SPSS : elles sont bien dÈcrites dans les manuels díutilisation de SPSS. Nous allons prendre comme exemple les rÈponses ‡ la question : ´ Selon vous, y a-t-il plus de points communs que de points diffÈrents entre le franÁais de France et le franÁais quÈbÈcois? ª La premiËre Ètape consistera a obtenir les rÈsultats globaux ‡ cette question. Pour ce faire, il faut cliquer, dans la barre díoutils supÈrieure, sur líonglet ´ Analyse ª, puis aller sur ´ statistiques descriptives ª et choisir ´ frÈquences ª. Ce qui fera apparaÓtre ‡ líÈcran une boÓte de dialogue.

descriptives ª et choisir ´ frÈquences ª. Ce qui fera apparaÓtre ‡ líÈcran une boÓte de

46

Dans la boÓte de dialogue apparaissent, dans un rectangle situÈ ‡ gauche, líensemble des variables (des questions) du sondage. Il faut ensuite transfÈrer dans le rectangle de droite la question que nous voulons Ètudier au moyen de la flËche bidirectionnelle apparaissant entre les deux rectangles. On peut aussi, en cliquant sur le bouton ´ statistiques ª, choisir díobtenir, du mÍme coup, diverses donnÈes complÈmentaires comme la moyenne, líÈcart-type, etc. Un autre bouton permet de produire des diagrammes. Dans notre exemple, nous demandons seulement la liste des frÈquences en cliquant sur le bouton ´ OK ª.

diagrammes. Dans notre exemple, nous demandons seulement la liste des frÈquences en cliquant sur le bouton

47

Le rÈsultat affichÈ montre quíil y a une diffÈrence de 4,8 points entre les deux

Le rÈsultat affichÈ montre quíil y a une diffÈrence de 4,8 points entre les deux rÈponses. Nous voulons maintenant savoir síil y a une diffÈrence statistiquement significative entre les rÈponses des hommes et celles des femmes.

48

Pour ce faire, nous retournons ‡ líonglet ´ analyse ª et, dans le menu qui apparaÓt, nous choisissons ‡ nouveau ´ statistiques descriptives ª. Puis, au lieu de ´ frÈquences ª, nous choisissons cette fois-ci ´ tableaux croisÈs ª, ce qui fera ouvrir une nouvelle fenÍtre.

de ´ frÈquences ª, nous choisissons cette fois-ci ´ tableaux croisÈs ª, ce qui fera ouvrir

49

Dans cette fenÍtre, gr‚ce ‡ la flËche bidirectionnelle, nous transfÈrons notre question dans le rectangle

Dans cette fenÍtre, gr‚ce ‡ la flËche bidirectionnelle, nous transfÈrons notre question dans le rectangle apparaissant sous ´ ligne ª; nous faisons de mÍme avec la variable ´ sexe ª dans le rectangle apparaissant sous ´ colonne ª. Puis nous avons le choix de cliquer sur ´ OK ª. Mais, comme nous voulons savoir síil y a une diffÈrence significative, avant díaller plus loin, nous cliquerons sur les boutons ´ statistiques ª et ´ cellules ª.

50

Quand nous avons cliquÈ sur le bouton ´ statistiques ª, une fenÍtre apparaÓt. Comme nous

Quand nous avons cliquÈ sur le bouton ´ statistiques ª, une fenÍtre apparaÓt.

Comme nous avons utilisÈ une Èchelle nominale (oui / non, homme / femme), nous nous contenterons de demander les statistiques du χ 2 et nous cliquerons ensuite sur

´ poursuivre ª.

Nous revenons alors ‡ la fenÍtre qui Ètait en arriËre-plan o˘ nous cliquons sur

´ cellules ª.

5 1

Dans la nouvelle fenÍtre qui apparaÓt, nous choisirons les catÈgories suivantes :

effectif observÈ, thÈorique, pourcentage en ligne et en colonne. Puis nous cliquerons sur ´ poursuivre ª.

: effectif observÈ, thÈorique, pourcentage en ligne et en colonne. Puis nous cliquerons sur ´ poursuivre

52

Ensuite, nous cliquons tout simplement sur ´ OK ª.

Ensuite, nous cliquons tout simplement sur ´ OK ª. 53

53

Ce qui produit le te tableau de rÈsultats suivants ó tableau qui peut Ítre recopiÈ dans un logiciel de traitement de textes, comme nous le verrons plus loin.

suivants ó tableau qui peut Ítre recopiÈ dans un logiciel de traitement de textes, comme nous

54

En faisant dÈfiler le tableau ‡ líÈcran, on dÈcouvre, sous lui, le tableau des tests statistiques.

on dÈcouvre, sous lui, le tableau des tests statistiques. Nous utiliserons, pour notre exemple, seulement la

Nous utiliserons, pour notre exemple, seulement la premiËre ligne du tableau. La valeur du χ 2 est donnÈe dans la deuxiËme colonne : 39,401 . La troisiËme colonne est intitulÈe ´ ddl ª, ce qui signifie ´ degrÈ de libertÈ ª, qui est de 1 dans notre exemple (donc, avec ce logiciel, nous níavons pas ‡ calculer le degrÈ de libertÈ; ce calcul a ÈtÈ expliquÈ dans le premier fascicule, page 41 ). Nous pouvons ensuite aller consulter une table de rÈfÈrence qui nous indiquera que, pour un de degrÈ de libertÈ, le point critique est de 3,84 si, comme cela est le plus frÈquent en sciences sociales, nous prenons comme seuil de confiance 0,05, ou 95 %.

En díautres termes, dans cet exemple, nous pouvons affirmer avec un degrÈ díassurance de 95 % quíil y a association entre les deux variables.

55

Points critiques pour χ 2

DegrÈs

de

Point

DegrÈs

de

Point

DegrÈs

de

Point

libertÈ

critique

libertÈ

critique

libertÈ

critique

 

1

 

3,84

 

11

1

9,68

 

21

32,67

 

2

 

5,99

 

12

2

1 ,03

 

22

33,92

 

3

 

7,82

 

13

22,36

 

23

35, 1 7

 

4

 

9,49

 

14

23,68

 

24

36,42

 

5

 

11

,07

 

15

25,00

 

25

37,65

 

6

 

1 2,59

 

16

26,30

 

26

38,89

 

7

 

1 4,07

 

17

27,59

 

27

40, 11

 

8

 

1 5,5 1

 

18

28,87

 

28

4

1 ,34

 

9

 

1 6,93

 

19

30, 1 4

 

29

42,56

 

10

 

1 8,3 1

 

20

3

1 ,4 1

 

30

43,77

Avec ces points critiques, la probabilité de rejeter l’hypothèse nulle, si elle est vraie, est de 5 %.

Mais, avec SPSS, il níest pas nÈcessaire de consulter une table de rÈfÈrence puisque la quatriËme colonne, intitulÈe ´ signification asymptotique (bilatÈrale) ª, nous indique 0,000, donc quíil y a une association entre le sexe et les rÈponses donnÈes. Si la signification asymptotique avait ÈtÈ de, mettons, 0,06, il aurait fallu conclure quíil níy avait pas association entre les deux variables parce que 0,06 est supÈrieur au seuil de 0,05 que nous avons adoptÈ.

56

Nous donnerons maintenant un exemple o˘ le test du χ 2 montre quíil ne faut pas conclure ‡ une association entre les deux variables. Comme la capture díÈcran ne permettait pas díavoir tout le tableau, nous avons tout simplement, en cliquant sur le bouton droit de la souris, copiÈ le tableau SPSS dans le traitement de texte. On peut par aprËs formater le tableau ‡ sa guise.

Tableau croisé « Les mots utilisés seulement au Québec devraient-ils être marqués d'une façon spéciale dans les dictionnaires? » * SEXE

     

SEXE

 

Total

     

fémi nin

masculin

 

Les mots utilisés seulement au Québec devrai ent-ils êtr e marqués d'une façon spéciale dans les dicti onnaires?

oui

 

Effectif

562

429

991

     

Effectif théorique

578,5

412,5

991,0

   

%

dans Les mots utilisés seulement au Québec

56,7%

43,3%

100,0%

devraient-ils être marqués d'une façon spéciale dans les dicti onnaires?

     

%

dans SEXE

64,0%

68,5%

65,9%

 

non

 

Effectif

316

197

513

     

Effectif théorique

299,5

213,5

513,0

   

%

dans Les mots utilisés seulement au Québec

61,6%

38,4%

100,0%

devraient-ils être marqués d'une façon spéciale

dans les dicti onnaires?

     

%

dans SEXE

36,0%

31,5%

34,1%

Total

   

Effectif

878

626

1504

     

Effectif théorique

878,0

626,0

1504,0

   

%

dans Les mots utilisés seulement au Québec

58,4%

41,6%

100,0%

devraient-ils être marqués d'une façon spéciale dans les dicti onnaires?

     

%

dans SEXE

100,0%

100,0%

100,0%

Ou on peut tout simplement dÈcider díimporter le tableau sous forme díimage :

Tableau croisé Il faudrait éliminer les mots anglais du français d'ici, accord=1, SEX fémini masculi
Tableau croisé Il faudrait éliminer les mots anglais du français d'ici, accord=1,
SEX
fémini
masculi
Tota
Il faudrait éliminer
mots anglais du
d'ici, accord=1,
1,00
Effectif
289 170
459
%
d ans Il
éliminer les
anglais du fran çais
63,0
37,0
100,0
accord=1,
%
d ans
61,1
51,2
57,0
2,00
Effectif
184 162
346
%
d ans Il
éliminer les
anglais du fran çais
53,2
46,8
100,0
accord=1,
%
d ans
38,9
48,8
43,0
Tota
Effectif
473 332
805
% d ans Il
éliminer les
anglais du fran çais
58,8
41,2
100,0
accord=1,
% d ans
100,0
100,0
100,0

57

En suivant suivants pour le χ 2 :

la

procÈdure prÈcÈdemment

dÈcrite, nous obtenons les rÈsultats

prÈcÈdemment dÈcrite, nous obtenons les rÈsultats Dans la quatriËme colonne de la premiËre ligne, la

Dans la quatriËme colonne de la premiËre ligne, la signification asymptotique est de 0,68, ce qui est supÈrieur ‡ 0,05, le seuil de confiance que nous avons dÈcidÈ díadopter. Par consÈquent, il níy a pas association entre les deux variables.

58