MASTER 1
Dr Romuald Tchieuzing
1
Bien vouloir nous faire parvenir les coquilles à l’adresse tarf2002@yahoo.fr
1
Introduction Générale
POURQUOI UN COURS SUR LES MÉTHODES DE TRAITEMENT DE
DONNÉES?
Avec les développements de l'informatique, les entreprises mais aussi les institutions
économiques et sociales, nationales et internationales, engrangent actuellement dans
tous les domaines (économie, finance, marketing, industrie, distribution, etc) des
quantités énormes de données (informations financières, bases de données clients,
suivis de procédés industriels, résultats de programmes de recherche…).
Ces données sont d'abord organisées et stockées dans des bases de données. Le
statisticien peut alors intervenir pour répondre aux questions stratégiques de sa société,
de son institution ou de son environnement immédiat à l'aide de méthodes statistiques
adaptées (analyse statistique, régression linéaire, analyse multidimensionnelle).
L’analyse de données multidimensionnelles lui fournira en particulier des outils
performants pour extraire des informations pertinentes des nombreuses données
disponibles.
Ce cours entend donc préparer l’étudiant à utiliser les techniques statistiques vues au
cours dans le cadre futur de sa situation professionnelle (en entreprise, en cabinet ou
dans une institution). Toutefois, dans le court terme, un tel cours se veut aussi une
précieuse aide pour l’étudiant qui réalise un mémoire de fin d’études qui faisant
intervenir une analyse plus approfondie de données.
2
- Questionnaire et méthodes d’échantillonnage ;
- Régressions linéaires simple et multiple ;
- Analyses statistiques à une dimension et à deux dimensions (utilisations des
tests statistiques à des fins de décision) ;
- Analyse multidimensionnelle en particulier l’Analyse en Composantes
Principales (ACP).
Pour analyser les données il faut tout d’abord les avoirs. En termes de sources des
données on distingue les données de sources primaires et les données de sources
secondaires. Les données de sources secondaires sont celles qui existent déjà dans
certaines bases de données et dont on utilise pour mener à bien d’autres études. Par
contre, lorsqu’on descend sur le terrain pour collecter les données qui seront par la
suite traitées et utilisées, on dit qu’elles sont de sources primaires. Le chapitre 1 du
présent cours est dédié aux méthodes de collectes de telles données et aux techniques
d’échantillonnage.
3
ramener cette représentation complexe à un espace de dimension réduit (à un plan en
général) en déformant le moins possible la réalité. Très souvent on fera des
rapprochements entre des groupes de variables et des groupes d’individus.
I. Le QUESTIONNAIRE
1. DEFINITION
C’est un document administré auprès d’une population cible en vue d’obtenir des
informations quantifiables sur un thème de recherche précis (recherche
académique ; études de marché).
4
La méthodologie quantitative utilise l’enquête par questionnaire pour atteindre ses
objectifs. Le questionnaire constitue un des éléments essentiels de l’enquête. Il est
l’instrument d’enregistrement et de stockage de l’information.
C’est par l’intermédiaire du questionnaire que s’opère la liaison entre les quatre parties
prenantes (intervenants) de toute étude de marché par exemple :
- Le décideur, qui sur la base de l’enquête doit trouver une réponse à ses besoins
d’information et doit prendre la décision adéquate ;
- Le chargé d’études ou l’analyste dont le rôle est de répondre aux besoins du
décideur ; de transformer les besoins d’informations en question de recherche et
de développer la méthodologie adéquate ;
- L’enquêteur, chargé d’administrer le questionnaire et d’interroger le répondant ;
- Le répondant qui communique l’information recherchée par l’enquêteur.
Décideur
(1)
(6)
Analyste QUESTIONNAIRE Enquêteur
(2) (3)
(5) (4)
Répondant
5
2. ETAPES D’UNE ENQUETE PAR QUESTIONNAIRE
6
un petit groupe d’individus qui soit toutefois représentatif de la population à étudier.
Les résultats de ce test, bien que ne seront pas retenus dans l’analyse finale,
permettrons de revoir l’ordre ou la compréhension des questions, d’améliorer le
questionnaire. Il fait également apparaitre le temps nécessaire pour effectuer les
enquêtes et il faudrait éviter les enquêtes trop longues car elles fatiguent tant
l’enquêteur que le répondant et peut conduire à des erreurs dans les réponses. Dans ce
cas, il parait important de supprimer les questions inutiles et trouver les moyens plus
directs d’obtenir l’information souhaitée.
Administrez le questionnaire aux personnes sélectionner tout en évitant de les
restreindre aux amis car pouvant sérieusement biaiser les résultats. Ce questionnaire
doit être maniable, facile à lire, facile à remplir, agréable à l’œil, et facile à
dépouiller.Toutefois, le Chargé d’étude devra avant cette étape, résoudre quelques
questions d’ordre matérielles à savoir :
- Quelles sont les instructions à donner aux enquêteurs?
- Quel matériel distribue-t-on aux enquêteurs ?
- Quelles sont les consignes spécifiques transmises ?
Le traitement des données recueillies débute par leur codage en vue de leur
inscription sur un support adapté à un traitement informatique. Il s’agit ici de proposer
une traduction simple, en termes chiffrés, d’une expression rédigée en clair, qu’il
s’agisse d’un fait ou d’un jugement. Une fois les données codées et saisies, il faut
dégager les résultats pertinents s’inscrivant dans le cadre défini par les hypothèses de
travail. Pour cela, un plan de dépouillement est nécessaire.
Des tests doivent par la suite être faits afin de garantir le fait que l’enquête ait été
menée avec rigueur et donc que les résultats sont valides. L’analyse des résultats fait
appel à des connaissances statistiques et psychologiques bien précises.
Le rapport d’enquête conclut le travail. Après une présentation de l’enquête, et des
principaux résultats (il reprend l’essentiel des points dégagés lors de l’analyse
proprement dite), il contient les principales conclusions (présenter de manière
synthétique les résultats fondamentaux obtenus), les annexes, références
bibliographiques (elle doit être succincte et ne présenter que les ouvrages présentant
une véritable utilité en rapport avec le sujet traité) et une table des matières.
7
3.1. Questions sur les faits et sur le comportement.
Les questions de faits portent sur les aspects précis, vérifiables, qui ont trait au
domaine personnel des individus interrogés (âge, sexe, degré d’instruction) ou au
domaine de leur environnement (habitat, composition du ménage, milieu de travail).
Plutôt que de porter sur des faits ponctuels, ces questions peuvent aussi porter sur des
faits répétitifs: lecture des journaux, consommation de produits. On parle alors de
questions sur le comportement.
Le caractère objectif de ces données n’empêche pas que les réponses puissent être
mensongères ou qu’il y ait des faits que le répondant veuille cacher ou dont il ne se
souvient plus. Ainsi l’enquêté peut avoir plusieurs raisons de ne pas vouloir donner
une réponse exacte à une question :
- Crainte que la réponse n’amène l’enquêteur à porter un jugement défavorable
sur lui (question relative à la santé, à l’hygiène ou au prestige) ;
- Volonté du répondant de donner une meilleure image de soi ;
- Questions jugées indiscrètes (fortune, salaire, vote politique, comportement sexuel,
etc.)
8
réaction qui peut être isolée ou accidentelle. Les attitudes sont en ensemble d’opinions
stables, liées entre elles et correspondant à une composante importante de la
personnalité.
Ce type de question suscite souvent une proportion de « sans opinion » qui peut varier
d’une question à l’autre au sein d’un même questionnaire.
En général, bien que chacun ait une opinion, l’interrogé sera tenté de dissimuler la
sienne dans le cas où :
- Il n’a pas une connaissance suffisante du sujet sur lequel on l’interroge et il
préfère indiquer qu’il n’a pas d’opinion afin de masquer son ignorance ;
- Il n’a pas de préférence marquée pour l’une ou l’autre opinion ;
9
compte du fait que la personne interrogée répond en faisant abstraction des
circonstances liées à l’acte d’achat : habitudes, influences extérieures, publicité,
entourage.
Exemple :
1) Lors d’une étude consacrée à la fraude fiscale auprès des indépendants, le
chargé d’études a constaté des résultats contradictoires. A la question
« fraudez-vous ? », 10% des répondants l’affirmaient. Ailleurs dans le
questionnaire, une question demandait « pensez-vous que les indépendants
fraudent ? » Plus de 80% des répondants ont répondu par l’affirmative. La
vérité devait se situer entre ces deux extrêmes.
2) Dans un questionnaire consacré à la notoriété des banques, on a demandé aux
répondants s’ils connaissaient des banques qui s’appelaient Danone ou
Chococam. Le répondant qui répondait affirmativement voyait son enquête
écartée.
3.6. Quelques Exemples sur les types d’informations que l’on peut obtenir
Non
10
- Question sur les attitudes
Je vais vous citer à présent une série de phrases que des consommateurs nous ont dites
concernant l’achat de produits alimentaires. A chaque fois, je vais vous demander de
me donner une cote de 1 à 4. 1 signifie que ce n’est pas important du tout, 4 signifie
que c’est tout à fait important. Ainsi, si je vous dis que …
Enquêteur : Cote
Je vais citer à présent une série de phrases que des consommateurs nous ont dites à
propos de l’entretien de leur maison. A chaque fois, je vais vous demander de me
donner une cote de 1 à 4. 1 signifie que ce n’est pas important du tout, 4 signifie que
c’est tout à fait important. Ainsi, si je vous dis que…
Enquêteur : Cote
Lire les Pour qu’une maison soit propre, elle doit être nettoyée
tous les jours
11
Dans les prochaines semaines, comptez-vous essayer le produit ?
Oui, certainement
Oui, peut-être
Non
Exemple.
Un chargé d’études veut savoir pourquoi les répondants utilisent une marque de pâte
dentifrice donnée. A la question « Pourquoi utilisez-vous la pâte dentifrice X ? », il
pourra se voir répondre : « parce qu’elle rend mes dents plus saines » ou « parce
qu’une collègue me l’a recommandé. »
La compréhension du but de la question est manifestement différente pour les deux
individus. Le premier évalue la performance de la marque par rapport à ses attentes : il
donne les raisons pour lesquelles Il utilise actuellement la marque. Le second indique
ce qui l’a amené à utiliser la marque.
12
De même certaines questions sont doubles et doivent alors être décomposées en deux
questions simples :
Exemple.
« Pensez-vous que les entreprises de distribution se préoccupent aujourd’hui de
leurs clients et de leurs employés ? ».
Pour lever l’ambiguïté, on pourrait scinder la question en deux :
Q1 : “Pensez-vous que les entreprises de distribution se préoccupent aujourd’hui de
leurs clients » ?
Q2: “Pensez-vous que les entreprises de distribution se préoccupent aujourd’hui de
leurs employés »?
Les répondants peuvent ne pas répondre à la question qui leur est posée parce qu’ils ne
comprennent pas, ne savent pas ou ne se souviennent pas.
Incompréhension : vocabulaire utilisé, abstraction trop importante de la question,
etc.
Ignorance : mauvaise adaptation du questionnaire aux personnes interrogées.
Oubli : répondant possède ou a possédé l’information demandée, mais est
incapable de s’en souvenir.
Exemple :
« Combien de pots yaourts avez-vous consommés au cours des six derniers mois? »
13
4. FORMULATION DES QUESTIONS
Les questions peuvent être explicites (Combien ? Pourquoi ?) ou implicites (citez les
raisons de ; ce qui revient à dire : Quelles sont les raisons de?)
Plusieurs types de questions se retrouvent au sein d’un même questionnaire. D’un
point de vue technique, les spécialistes différencient et cataloguent les questions selon
deux grandes catégories
- Les questions ouvertes et,
- Les questions fermées.
Ce sont des questions pour lesquelles aucune réponse n’est formulée. La personne
interrogée est libre de répondre dans ses termes.
14
- Montrer à l’interrogé que son avis compte.
Une question est dite fermée lorsque l’on enferme la personne interrogée dans un
choix, parmi plusieurs réponses possibles.
15
Inconvénients : danger de dicter la réponse ; les possibilités fournies ne correspondent
pas nécessairement à l’attitude réelle de la personne interrogée. De plus, une réponse
possible peut être oubliée.
Une seule alternative est proposée au répondant. Il a le choix entre deux réponses
exhaustives et mutuellement exclusives.
Mutuellement exclusive signifie que le choix de l’une de ces deux modalités exclut
l’autre.
En raison de sa simplicité, ce type de question est très souvent utilisé dans les
enquêtes.
16
4.2.2. Questions multichotomiques mais à réponse unique
Parfois, quand il n’est pas possible de choisir de toutes les réponses, une catégorie
« autre» sera ajoutée. Ces questions sont parfois appelées questions « cafétéria » car
dans Autre, tout type de réponses peuvent y figurer.
C’est une question qui oriente le répondant vers les questions suivantes ou sur
d’autres questions en fonction de la réponse donnée. La notion de filtre intervient à
plusieurs niveaux :
17
- Niveau global ou filtre général
Il s’agit des questions d’introduction qui déterminent si l’individu correspond ou non à
la cible.Si la personne ne correspond pas au profil recherché, l’enquêteur la remerciera.
- Niveau intermédiaire
Une partie du questionnaire est filtrée. Il est fréquent d’observer que seules certaines
parties du questionnaire sont à poser à l’ensemble des répondants. Plusieurs questions
filtrées sont réparties dans le questionnaire et aiguillent l’enquêteur vers telle ou telle
partie.
La nécessité est apparue très vite, pour cerner une opinion, d’introduire une série de
nuances. Toutes visent à nuancer une opinion entre le plus et le moins, soit par des
18
mots du langage courant ; soit par une note. Les échelles d’attitude ont pour objectif
de rendre opérationnelle des informations d’ordre qualitatif en les transformant
en données quantifiées. Pour arriver à ce résultat, l’enquêteur demande à la personne
interrogée de se situer le long d’une échelle, selon qu’elle est plus ou moins favorable
à un produit, à un concept ou à une opinion. A ces différentes positions sur l’échelle
correspondent des chiffres permettant d’attribuer une note à chaque concept.
Si les échelles d’attitudes sont d’utilisation courante dans les études de marchés, elles
posent au chargé d’études un certain nombre de problèmes :
- Le principal est la construction d’échelles appropriées à chaque domaine
étudié ;
- Le second est celui de la détermination de la place occupée sur l’échelle par
chaque répondant.
Sur le degré d’accord à une proposition on peut avoir comme éventualité : Tout à fait
d’accord ; Modérément d’accord ; Indifférent ; Tout à fait en désaccord.
Concernant le niveau de satisfaction à un produit, on peut avoir : Insatisfait ; Un peu
satisfait ; Indifférent ; Tout à fait satisfait.
S’agissant des niveaux de satisfaction d’un bien pour l’enquêté, on a comme réponse
possible : Pas du tout important ; Un peu important ; Indifférent ; Tout à fait important.
Le chargé d’études part de l’expression des opinions pour arriver aux attitudes. Les
répondants expriment leurs avis sur une série d’items proposés sous la forme binaire
19
(oui-non, vrai-faux, d’accord-pas d’accord) ou sous forme d’échelle (tout à fait
d’accord-modérément en d’accord-indifférent- tout à fait en désaccord).
On utilise aussi une échelle en cinq ou sept catégories quoique d’autres auteurs
proposent 4 ou 6 possibilités ou une cotation sur 10. L’important est de conserver le
même nombre de niveaux tout au long de l’étude et d’une étude à l’autre de manière à
garantir des comparaisons fiables (c'est-à-dire si on débute avec une échelle à 4
possibilités, il faut tenir sur les quatre possibilités tout au long de l’étude).
Différents experts ont conçu des échelles spécifiques. Parmi ceux-ci, citons :
Echelle de GUTTMAN. Elle utilise une série de propositions telles que l’adhésion à
un degré supérieur implique nécessairement l’adhésion à tous les niveaux du dessous.
20
- Segmentation de marché ;
- Test de produit concept/service ;
- Bilan de campagne ;
- Toute étude exigeant la quantification d’un continuum.
5. REDACTION DU QUESTIONNAIRE
Dès que les questions ont été définies et formulées, l’analyste passe à la phase de
rédaction proprement dite.
Tout questionnaire doit intégrer une accroche, un remerciement final ainsi que les
textes de liaison nécessaires. Ceux-ci doivent être concis, compréhensibles, univoques
et conviviaux. L’accroche initiale est déterminante. Elle doit inciter le répondant à
participer à l’enquête.
21
- Des formules de précaution et de rassurance du répondant ;
- Des formules de présentation de l’enquêteur et de l’étude ;
- Des formules d’incitation à la réponse.
5.1.3. Instructions
22
- Permettre une analyse des résultats en fonction de certaines caractéristiques
sociodémographiques.
Les renseignements demandés sont :
- Le sexe ;
- L’âge ;
- La profession ;
- Le niveau d’études ;
- Le code postal ;
Etes-vous la personne qui fait habituellement les courses dans les magasins ?
Oui Non
Sexe ? H F
Age ?
De combien de personnes se compose votre ménage y compris vous-même ?
Adultes Enfants de 0-5 ans
Enfants de 6-11 ans Enfants de 12-17 ans
Etes-vous ? :
Francophone
Anglophone
23
- Son adresse et son numéro de téléphone ;
- L’heure de début, de fin d’entretien et la date.
24
- La peur de certains mots ;
- L’influence des références à des personnalités ;
- La réaction défensive à l’engagement dans le questionnaire ;
- La réaction défensive aux chargements brusques de thème.
L’ordre dans lequel les questions sont posées n’est pas sans influencer les résultats de
l’enquête.
Les différentes questions ne doivent pas être présentées au hasard. Un ordre précis doit
être respecté. Plus le répondant est livré à lui-même, plus un certain ordre est
nécessaire.
- En acceptant de répondre, l’interrogé fait une concession à l’enquêteur. Il faut
donc, après avoir contacté l’interlocuteur, pouvoir, dès les premières questions,
le motiver.
- Les questions doivent se succéder dans un ordre logique. La notoriété doit
précéder l’utilisation. Ainsi « Quelles marques connaissez-vous? » précède la
question « Quelles marques utilisez-vous ? ». Chaque sujet doit être couvert
entièrement dans une séquence de questions. Il faut éviter ces « aller-retour »
qui fatiguent et énervent la personne interrogée.
- Toute question doit avoir un caractère plus général et plus large que la question
suivante. Il s’agit de développer une approche en entonnoir.
- Des questions filtres doivent être placées à plusieurs endroits du questionnaire.
25
Ensuite le questionnaire sera donné. Les questions doivent être organisées les unes par
rapport aux autres. Le cheminement du questionnaire doit être de manière à éviter que
la réponse à une question ne soit influencée par la réponse à la question précédente
(effet d’ordre).
Le questionnaire se termine, si possible, sur l’identification de l’interrogé et le
remercie pour sa participation.
6. TEST DU QUESTIONNAIRE
26
Le test sera réalisé auprès de la même population qui sert de base au tirage de
l’échantillon. Il ne s’agit pas d’interroger les mêmes personnes deux fois, mais de
retenir des individus semblables en fonction des critères de définition de la population.
Le nombre de questionnaire à tester variera en fonction de l’objectif poursuivi.
Si le contenu seul est testé, 20 à 30 questionnaires suffisent :
Si le chargé d’études souhaite disposer d’une prévision de réponses, pour pro-coder
une question, un minimum de 100 entretiens est nécessaire.
Afin de recueillir des données sur le terrain deux principales méthodes existent :
soit faire un recensement de la population, soit effectué un sondage. Le
recensement serait idéal car elle consiste à interroger tous les individus de la
population. Seulement, il est très souvent irréalisable peut-être du fait de la trop
grande taille de la population, des ressources humaines et financières limitées
pour la conduite de l’enquête, ou encore du fait des contraintes géographiques et
climatiques. Aussi un recensement de la population entière n’entraine pas
automatiquement un risque zéro car il peut être faussé par un grand nombre
d’erreurs ou être pratiquement irréalisable. Dans de tels cas, nous sommes
contraints de n’étudier qu’une partie de la population et d’extrapoler les résultats
obtenus à l’ensemble de la population car ce n’est pas l’échantillon en lui qui
intéresse l’enquêteur, mais ce qu’il est possible d’apprendre sur ce dernier et la
possibilité d’appliquer ces informations à l’ensemble de la population.
27
villes,… le candidat,…est favoris,… ». Ou encore selon la troisième enquête sur
les ménages au Cameroun,… » ou « Selon le recensement de la population du
Cameroun effectué en 2005, le pays compte 17 463 836 habitants ». Aussi
effectuer une étude sur les 170 entreprises de transport au Cameroun avec un
taux de sondage de 1/10 consiste à interroger 17 de ces entreprises.
Si l’échantillonnage est fait de sorte que chaque unité de la population ait des
chances égales de faire partie de l’échantillon et si la probabilité de sélection de
chacune des unités est connue, on parle de méthode d’échantillonnage aléatoire
probabiliste.Les lois statistiques et de probabilités associées assurent la
représentativité des échantillons formés à l’aide de telles méthodes. Parmi ces
méthodes, les plus courantes sont :
Elle consiste à énumérer puis à numéroter tous les éléments de la population (de
1 à N) et enfin à choisir aléatoirement n numéros. Seulement cette démarche
n’est applicable que si c’est la taille de la population et de l’échantillon sont à la
fois connues, dans le cas contraire on détermine la taille de l’échantillon en
28
fonction de la marge d’erreur qu’on souhaite avoir. Elle s’applique en général
sur des populations de petites tailles et disposant d’une faible dispersion
géographique.
Avantage de cette méthode : On peut espérer un échantillon « représentatif »
puisque la méthode donne à chaque individu de la population une chance égale.
Difficultés : la méthode n’est applicable que lorsqu’il existe une liste exhaustive
de toute la population.
Exemple : Dans le cadre d’une étude portant sur les performances des Micro
finances au Cameroun, un étudiant aimerait appliquer cette méthode pour former
un échantillon. Il vous contacte et vous donne N=10.000 et T=5%.
n 5 5
T= = ⇒ n= . N=500
Solution. N 100 100
2
C’est une table dans laquelle chacun des chiffres ou chaque séquence de chiffres à la même chance
d’apparaitre.
29
échantillonnage aléatoire simple. Cette méthode est très utilisée dans les contrôles de
qualité.
30
Avantages : Il est peu probable de choisir un échantillon absurde puisqu’on
s’assure de la présence proportionnelle de tous les divers sous-groupes
composant la population.
Désavantages : La méthode suppose l’existence d’une liste de la population. Il
faut aussi connaitre comment cette population se répartit selon certaines strates.
Elle est similaires à la stratification à la différence qu’ici ce sont les groupes (et
non les unités) qui sont choisis de manière aléatoire. Une grappe désigne tout
sous ensemble non homogène de la population d’intérêt. On s‘applique
généralement quand il est très difficile d’atteindre toutes les unités statistiques
de la population du fait d’une grande dispersion géographique. Elle possède
l’avantage d’être économique. On peut retenir un échantillon de 2 filières en
Master et 1 filière en HND dans le cadre d’une étude sur le revenu des étudiants
de l’IUC.
Avantages : la méthode de nécessite pas une liste globale de la population
puisque seules les individus inclus dans les grappes comptent. Elle permet de
limiter l’échantillon à des groupes compacts ce qui permet de réduire les coûts
de déplacement, de suivi et de supervision.
Désavantages : la méthode peut entrainer des résultats imprécis (moins précis
que les méthodes précédentes) puisque les unités voisines ont tendance de se
rassembler. Elle ne permet pas de contrôler la taille finale de l’échantillon.
2) Echantillonnage non probabiliste ou non aléatoire.
31
réduire les coûts ou quand il est impossible ou non envisageable d’utiliser la
méthode aléatoire.
32
Désavantages : Beaucoup de non-réponses ; difficulté de trancher lorsqu’il
s’agit de sélectionner des individus d’un groupe d’âge ouvert (Exemple : 65 ans
et plus : faut-il rendre 66 ans, 70 ans …).
Exemple
Appliquez la méthode des quotas pour former un échantillon issu d’une population ayant les
caractéristiques suivantes. On donne T=0.2.
Sexe Tranche d’âge Niveau
Homme 800 -16ans 400 CEP 600
Femme 1200 Entre 16 et 18ans 800 BEPC 800
Entre 19 et 22 ans 600 Probatoire 400
Plus de 22ans 200 BACC 200
Eléments de réponses.
Puisque N=2 000 et T=0.2 alors notre échantillon sera de taille n=N*T=400.
Suivant le critère Sexe on devra interroger 0.2*800=160 hommes et
0.2*1200=240 femmes.
33
doivent être des hommes et 72 des femmes. Enfin sur les 40 âgées de plus de 22
ans, on aura 40*800/2000=16 hommes et 24 femmes. D’autres cas, peuvent être
analysés afin d’avoir un échantillon plus précis.
34
Après avoir présenté la forme générale d’un modèle de régression linéaire
simple, nous procèderons à une estimation de ses paramètres, puis testerons tant
la significativité de ces paramètres que celui du modèle globalement.
1. Présentation du modèle
Si nous nous en tenons à la fonction de consommation keynésienne décrite par :
C=cY +C 0 , où C est la consommation autonome, c la propension marginale à
0
a) Spécification du modèle
b) Le terme d’erreur
35
consommation d’un individu. C’est ainsi que les relations précédentes ne
deviendront un modèle de régression linéaire simple que lorsqu’on y
introduira le terme d’erreur, soit : Ct =C0 +cY t +ε t si nous retenons le modèle
en série temporelle.
Le terme d’erreur dans la relation précédente désignera l’ensemble des
phénomènes explicatifs de la consommation non liés au revenu. Il regroupe
très souvent trois types d’erreurs :
- Les erreurs de mesures :elle prend en compte les imperfections issues du
processus de collecte et de traitement des données.
- Les erreurs de spécifications : elle tient compte des omissions de certaines
variables clés dans le modèle.
- Les erreurs de fluctuations d’échantillonnage. Elle intègre le fait que d’un
échantillon à l’autre les observations et donc les estimations faites,
peuvent êtres différentes.
Afin de s’assurer que le modèle représentera le plus fidèlement possible la
réalité, ce terme d’erreur doit posséder les propriétés suivantes :
Propriétés : Le terme d’erreur doit être un bruit blanc, c’est-à-dire une variable
aléatoire normale centrée, non auto corrélée et de variance constante et fini.
36
minimisant la sommes des carrées des erreurs commises. Ainsi en résolvant le
n n n
Min ∑ ε 2t = ∑ ( y t − y t ) = ∑ ( y t −( a0 + a1 x t ))2
2
{a1 =
Cov(xt ,y t )
Var(xt )
¿ ¿¿¿
où
n n n n
1 1 1 1
ȳ= ∑ y t ; x̄= ∑ x t Cov( x t , y t )= ∑ x t . y t − x̄ . ȳ Var ( x t )= ∑ x 2t − x̄ 2
n t=1 n t =1 ; n t=1 ; n t =1
Exemple
On s’intéresse au lien qui existerait entre le rendement agricole (y) et les surfaces cultivées
(x). On a récolté les données suivantes auprès de 10 cultivateurs.
y 16 18 23 24 28 29 26 31 32 34
x 20 24 28 22 32 28 32 36 41 41
Eléments de réponse : on a
y t =4.39+0. 714 x t et
y 11=4 . 39+0 . 714∗38=31 . 522. Cette droite
de régression nous renseigne qu’une augmentation d’une unité de surface
cultivée entraine une augmentation du rendement de 0.714 unité.
Exercice : Répondre aux questions précédentes pour chacun des tableaux ci-dessous.
Epargne (y) 65 77 89 101 113 125 137 149 161 173
Revenu 80 100 120 140 160 180 200 220 240 260
Consommatio
n 55 88 90 80 118 120 145 135 145 175
Revenu 80 100 120 140 160 180 200 220 240 260
Eléments de réponses Et=0.6Rt+17 ; Ct=0.5761Rt+17,17.
3. Test de robustesse des paramètres.
Une fois l’estimation des paramètres achevée, il est bon de vérifier si les valeurs
obtenues sont statistiquement significatifs.
37
Remarque:
- Ces deux estimateurs sont sans biais.
2
1 x̄
Var (a0 )=σ 2a =Var (ε t )( + n )
0 n
∑ ( x t − x̄ )2
- On a t =1 ;
Var (ε t ) n n
Var ( a1 )=σ 2a = n ∑ y 2t −n ȳ 2
−a21 ( ∑ x2t −n x̄ 2 )
1
SCR
∑ ( xt − x̄ )2 Var ( ε t )=
n−k−1
= t=1
n−k−1
t=1
- t =1 ;
Pour les valeurs lues, on se servira de la table de la loi normale lorsque n≥30 et la
table de la loi de Studentsi n≺30 .
|t a |≻t lu
S’agissant de la règle de décision, si i alors on rejette H0 et le paramètre ai est
significativement différent de 0.
Exemple. Tester la robustesse de chacun des paramètres estimés à l’aide de chacun
des 3 tableaux.
Eléments de réponses :
Pour le tableau sur les rendements agricoles, on a
a1 0. 714
t a1 = = =5 . 609≻t 0. 975;(8 ) =2 .306
σ a 1 √ 0. 0162 donc la pente de notre droite de régression
est significativement différente de zéro. Aussi on constate que
a 0 4 .39277
ta = = =1 .105≺t 0 .975 ;(8 ) =2. 306
0 σ a √15 .774
0 ainsi nous n’avons pas suffisamment
d’éléments pour rejeter l’hypothèse selon laquelle la constante du modèle n’est pas
significative.
38
a) Les coefficients de détermination.
n−1
R̄2 =1−( )(1−R2 )
n−k −1 = coefficient de détermination ajusté où k est le nombre de
variables explicatives dans le modèle et n le nombre d’observations.
Remarques.
2 2
- R̄ ≺R .
2
- Si R̄ ≻0. 7 alors le pouvoir explicatif est bon et il y a présomption d’une
relation de cause à effet. On dit que la variable exogène contribue
significativement à l’explication des variations de la variable endogène
- R2 =ρ2 . Le coefficient de détermination est le carré du coefficient de
corrélation.
- De manière générale, les variables explicatives permettent d’expliquer
2
100∗R % de la variabilité totale de la variable expliquée.
Exemple. Calculer les coefficients de détermination dans chacun des trois tableaux ci-
dessus.
39
Eléments de réponses : les R² sont respectivement de 0.79727 ; 0.9116 et 1
respectivement.
b) Test de significativité globale
NB :
√ F Cal =t a .
1
REMARQUES.
A partir des modèles de régression linéaire, on peut définir d’autres types de modèles
de régression à savoir :
a
- Le modèle log-linéaire qui est de la forme : Y =bX
βX
- Le modèle exponentiel qui est de la forme : Y =α . e
- Le modèle logarithme qui est de la forme : Y == a ln( X )+b.
Il peut paraitre tout aussi intéressant d’étudier des modèle de type particulier tels que
le modèle Logit et celui Probit.
Exercice :
A l'aide du tableau suivant, peut-on dire que l’homme (y) a un salaire plus élevé que sa
conjointe (x) lorsque les 2 sont salariés ? On a une série de 30 observations.
y 7,4 6,8 6,9 7,8 7,4 7,8 7,4 7,8 7,3 7,2 7,5 8,4 7,4 7,4 7,3 7,8 7,5
40
3 3 7 5 8 6 4 3 6 8 3 0 8 6 3 0 7
x 7,2 7,0 7,1 7,3 6,9 7,5 7.1 7,7 7,7 7,4 7,5 8,0 7,2 6,7 7,1 7,3 7,5
0 6 9 7 6 7 8 7 1 7 5 9 4 8 3
y 6,0 7,2 8,4 7,4 7,4 7,1 7,2 8,2 6,9 8,03 7,6 6,6 7,9
2 8 2 2 7 4 9 8 8 9 7 2
x 6,0 7,0 8,0 7,2 7,5 7,2 6,9 7,8 7,2 7,94 7,1 6,7 7,7
3 5 1 5 9 3 5 9 1 6 2
Eléments de réponses :
Un premier aperçu peut être obtenu en les représentants graphiquement :
7,43 6,83 6,97 7,85 7,48 7,86 7,44 7,2 7,06 7,1 7,39 6,97 7,5 7.16
( x, ȳ)=(47 . 3 ;21. 2) ; t =1
∑ ( y t − ȳ ) =8857 ∑ ( xt − x̄ )2=102924
2
; t=1 ;
n
∑ ( y t − ȳ )( x t − x̄ )=26466
t=1
41
1. Estimez par les MCO, les paramètres dans le modèle : y t =a 0 +a 1 xt +ε
2. Calculer le coefficient de détermination ajusté et commentez la qualité de
l’ajustement linéaire.
n
SCR =∑ ( y t − y t )2=2052
3. Avec ces estimateurs, on a eu t=1 . Déduisez un
2
estimateur de σ ε .
4. Peut-on dire au seuil de 5%, que la circonférence d’un arbre à 1.30m du sol a
une influence significative sur la hauteur de l’arbre ?
Exercice
Une entreprise commerciale, voulant faire une prévision de ses ventes, vous contacte
et met à votre disposition les informations suivantes :
t 1 2 3 4 5 6 7 8 9 10
Ventes 12 15 20 24 18 16 19 21 27 30
Dpse Pub 2 2.8 3.4 3.9 3.1 2.9 3.2 3.6 4 4.5
42
12 .1991
σ 2ε = =1. 5249
entreprise et ses ventes. 5)on a 10−1−1 ;
σa =
1
√ 1 . 5247
116 . 08−10∗3 . 34
2
=√ 0 .33=0 . 5805
et
σ a =1. 9778
0 . Les statistiques des tests
−5 .2855
t a =13. 1438≻t 0 .975 ;8 =2. 306 |t a |=| |=2. 6724≻t0 . 975;8 =2 .306
sont : 1 et 01 1. 9778 . Ainsi
tous les coefficients de cette droite sont significativement différents de zéro. 6)
10−1
R̄2 =1− . (1−0 . 9557)=0 .9502≻0. 7
10−2 on dit que le pouvoir explicatif de ce modèle
10−1−1 0 . 9557
F= . =172. 5869≻F 0. 975 (1 ;8 )=7 . 57
est très élevé. 7) 1 1−0 . 9557 ce modèle est
donc globalement significatif au seuil de 5%.
Exercice.
Le tableau ci-dessous donne les dépenses en milliers de francs d’un ménage moyen
en produits alimentaires au cours des 10 dernières années.
Année 200 200 200 200 201 201 201 201 201 201
6 7 8 9 0 1 2 3 4 5
Rang, xi de 0 1 2 3 4 5 6 7 8 9
l’année
Dépenses 398 451 423 501 673 956 107 128 142 149
7 5 7 0
1. Représentez le nuage de point associé à ce tableau dans un repère orthogonal
avec pour unités 1cm pour un rang en abscisse et 1cm pour 200. 000 en
ordonnée.
2. Déterminez les coordonnées du point moyen de ce nuage de point. Placez-le.
3. Appliquez la méthode des moindres carrées ordinaires pour trouver l’équation de
la droite de régression de y en x.
4. Calculez la somme des carrées des résidus pour cet ajustement. Que constatez-
vous?
5. En utilisant cet ajustement, effectuez une prévision sur les dépenses de l’année
2016.
6. La croissance semblant ralentir ces 3 dernières années, on envisage un ajustement
logarithmique. Pour cela on définit la variable ti ainsi ti = ln(xi) à partir de l’année
2011.
(a) Dressez un tableau donnant les valeurs de ti avec les valeurs correspondantes
de yi. (On arrondira à 10−3 près).
(b) Ecrivez l’équation de la droite d’ajustement de y en t.
43
(c) Servez-vous en pour prédire la valeur des dépenses de ce ménage en 2018.
7. Si au contraire on ne s’intéresse qu’à la période 2006 - 2012, la forme du nuage
suggère plutôt un ajustement exponentiel. Pour 0 ≤ i ≤ 6 on pose zi= ln(yi).
(a) Dressez un tableau donnant les valeurs de zi avec les valeurs
correspondantes de xi. ( On arrondira à 10 près). −3
Un étudiant attentif a du constaté que la plus part des notions définies dans la section
précédente faisaient intervenir un certains k dans les formules. En effet, lorsque k sera
plus de 1, on sera dans les problèmes de régression multiples et la plus part de ces
formules resteront valables.Cette partie sera essentiellement aborder en TP toutefois
présentons sommairement le principe.
Dans un modèle régression linéaire multiple, la variable endogène est expliquée par au
moins deux variables exogènes de sorte que le modèle puisse prendre la forme
suivante :
A présent passons à quelques illustrations sur un logiciel très souvent à notre portée :
Excel 2010. Pour cela débutons par la régression simple.
44
Afin de représenter le nuage de points on sélectionne les données, puis un clic droit
fait apparaitre une nouvelle page sur laquelle un clic sur analyse rapide puis sur
graphiques et enfin sur nuage de points nous donne le nuage de points voulu. Il est
possible d’aller dans graphiques sous Insertion pour avoir ce nuage de points.
Après avoir eu votre nuage de points, vous cliquez dessus, puis allez dans
dispositions rapide sur la barre d’outils standards puis sélectionner celle qui vous
donner l’équation de la droite de régression et la valeur du coefficient de
détermination.
Exemple. Aux données suivantes correspond le graphe suivant :
14, 12, 14, 11, 14, 12,
x 1 16 8 4,1 15 8,8 4 16,6 9 15,1 7,8 4 9 17 15,8 5 8,6 8 12
0,8 1,0 0,9 1,0 0,7 0,7 1,2 1,0 0,6 1,0 0,8
y 6 1,06 0,67 0,4 4 0,76 5 1,12 2 0,9 0,57 8 4 6 0,96 1 9 8 2
Nuage de Points
1.4
1.2
f(x) = 0.0577409186207306 x + 0.16527511783861
1 R² = 0.92139889966695
0.8
Series2
0.6
y
Linear (Series2)
0.4
0.2
0
0 2 4 6 8 10 12 14 16 18
x
Le tableau d’analyse de la variance associé à cette table est obtenu en cliquant sur
utilitaire d’analyse sous Données, puis sur ANOVA à un facteur. Dans plage d’entrée
vous sélectionnerez toutes les données, vous fixerez un seuil de confiance, et
sélectionnerez une cellule comme plage de sortie. Vous obtiendrez :
RAPPORT DÉTAILLÉ
Nombre
d'échantillo Som Moyen Varianc
Groupes ns me ne e
11,483 19,493
x 24 275,6 33 62
0,8283 0,0705
y 24 19,88 33 36
Et
ANALYSE DE VARIANCE
Degré
Somme des de Moyenne Valeur critique
Source des variations carrés liberté des carrés F pour F
45
Entre Groupes 1362,3483 1 1362,3483 139,2698 4,051748692
A l'intérieur des groupes 449,975667 46 9,78207971
Total 1812,32397 47
Données
NICOTINE WEIGHT CO
TAR (mg) (mg) (g) (mg)
14,1 0,86 0,9853 13,6
16 1,06 1,0938 16,6
8 0,67 0,928 10,2
4,1 0,4 0,9462 5,4
15 1,04 0,8885 15
8,8 0,76 1,0267 9
12,4 0,95 0,9225 12,3
16,6 1,12 0,9372 16,3
14,9 1,02 0,8858 15,4
13,7 1,01 0,9643 13
15,1 0,9 0,9316 14,4
7,8 0,57 0,9705 10
11,4 0,78 1,124 10,2
9 0,74 0,8517 9,5
1 0,13 0,7851 1,5
17 1,26 0,9186 18,5
12,8 1,08 1,0395 12,6
15,8 0,96 0,9573 17,5
4,5 0,42 0,9106 4,9
14,5 1,01 1,007 15,9
7,3 0,61 0,9806 8,5
8,6 0,69 0,9693 10,6
15,2 1,02 0,9496 13,9
12 0,82 1,1184 14,9
46
Matrice de Variance Covariance.
NICOTINE WEIGHT CO
TAR (mg) (mg) (g) (mg)
TAR (mg) 1
NICOTINE (mg) 0,959895255 1
WEIGHT (g) 0,283516652 0,286105718 1
0,3101955
CO (mg) 0,966158326 0,930506369 1 1
Statistiques de la régression
Coefficient de détermination
multiple 0,98047834
Coefficient de détermination R^2 0,96133778
Coefficient de détermination R^2 0,95553845
Erreur-type 0,93097619
Observations 24
ANALYSE DE VARIANCE
Degr
é de Valeur
libert Somme Moyenne critique de
é des carrés des carrés F F
165,76697 2,7122E-
Régression 3 431,019 143,673 5 14
17,334333 0,8667166
Résidus 20 3 7
448,35333
Total 23 3
Coefficient Statistique
s Erreur-type t Probabilité
-
Constante 0,77474777 2,38076552 -0,3254196 0,74824339
NICOTINE (mg) 7,53857332 1,99559266 3,77761126 0,00118271
- -
WEIGHT (g) 0,92431027 2,57012701 0,35963603 0,72288881
CO (mg) 0,57187219 0,12594977 4,54047821 0,00019909
TAF. Commentez ces tableaux et reprendre ces analyses avec un autre tableau qui
vous sera fourni en TP.
47
Chapitre 3 : ANALYSE UNIVARIEE ET
BIVARIEE
I. ANALYSE UNIVARIEE
Une variable est une caractéristique étudiée pour une population donnée. Elle peut être
soit quantitative soit qualitative. Le cas où la variable d’intérêt est quantitative
(discrète ou continue a été étudier dans les cycles antérieurs. Nous y reviendrons qu’au
travers de certains des exercices. Une attention particulière est accordée l’étude d’une
variable qualitative.
1. Variable Quantitative
Exercice1
Lors d’un examen écrit, un correcteur a obtenu les notes
suivantes :11,11,11,7,6,13,13,7,4,9,5,10,11,8,14,15,8,10,4,9,10,14,10,11,9,7,7,6,10,6,1
1,10,8,8, 11,7,6,8,11,12,14,9,12,7,8,8,16,14,9,10,7,10,10,12.
1. De quel type de variable s’agit-il?
2. Ressortir son tableau statistique et déterminer son mode.
3. Quelle est la note moyenne à cet examen?
4. Calculer l’écart-type de cette série statistique.
5. Ressortir son tableau statistique après avoir regroupé les données en 5 classes.
48
6. Quelle est la classe modale? La classe médiane ?
7. Quelle est le pourcentage des élèves ayant une note inférieure à 16.
Exercice 2
On a consigné les primes de fin d’année attribuées aux salariés d’une entreprise dans le
tableau
P(1um=1000fcfa) [0; 6[ [6; 10[ [10; 12[ [12; 14[ [14; 16[
suivant :
ni 42 72 102 69 15
1. Quelle est la population étudiée? Quel est le caractère étudié? Quelle est la nature de
ce caractère?
2. Déterminer la moyenne et l’écart-type de cette série statistique.
3. Tracer l’histogramme des effectifs.
4. Déterminer la courbe cumulative des fréquences
5. Déterminer graphiquement la médiane et interpréter.
2. Variable Qualitative
Les variables nominales sont des variables qui offrent le moins de possibilités en
matière de traitement statistique. L’analyse graphique repose sur les fréquences
relatives ou absolues. Le type de graphique peut être un diagramme en tuyau d’orgue
ou un camembert. L’analyse statistique repose sur un test qui est le test de Khi deux.
Exemple
On voudrait savoir si les clients d’un magasin apprécient plus les produits alimentaires
ou non. Ils peuvent acheter soit uniquement les produits alimentaires ; soit les produits
non alimentaires ou alors les deux. Une enquête est réalisée auprès d’un échantillon de
60 clients de ce magasin. On a obtenu les informations suivantes :
Produits Achetés ni
Alimentaires 26
Non alimentaires 18
49
Les deux 16
n 60
Tester si la fréquence d’achat est répartie de façon égale dans ces trois niveaux de
fréquence au seuil α = 5% et α = 1%
Eléments de réponses.
Le test statistique utilisé est le Khi-deux. Il permet de savoir au seuil de α si les clients
du supermarché achètent à égale fréquence ou non.
i=1 Ti
n
Où T i= , la fréquence théorique de lacatégorie i
k
O i est la fréquence observée de la catégorie i ; k est le nombre total de catégories
n est la fréquence totale ou effectif total de l’étude,
La règle de décision
Sous Ho, la statistique χ 2 suit une loi de Khi-deux à (k-1) degré de liberté. Ainsi, pour
un coefficient de risque α fixé, la valeur critique χ αk−1 est lue dans la table du khi-deux
à (k-1) degré de liberté. Ainsi, si χ 2 > χ αk−1 , on accepte H1.
60
En revenant à l’exemple, T i= =20
3
On a le tableau ci-après :
Produits Achetés Fréquences observées ( Fréquences théoriques
O i) (T i)
Alimentaires 26 20
Non alimentaires 18 20
Les deux 16 20
total 60 60
50
Pour α = 1%, χ αk−1= χ 13−1
%
=9,2
On constate que, quel que soit le seuil, on a χ 2 < χ αk−1 ; on accepte Ho. Les clients de ce
supermarché achète à égale fréquences les produits alimentaires, les produits non
alimentaires ou alors les deux. On ne peut pas dire qu’ils préfèrent plus exclusivement
les produits alimentaires que d’autres.
Exemple :
Une enquête porte sur les marques de pâtes dentifrices utilisées par les ménages. On a
le tableau statistique ci-après :
Nom de
la U V X Y Z Autres Total
marque
possédée
Effectif 30 40 30 30 50 40 220
observé
y a-t-il une différence significative entre les marques de pates dentifrice au seuil de
5% ?
Ces sont des variables dont les modalités sont ordonnées. En plus des fréquences
relatives, les variables ordinales permettent de calculer les cumuls (effectifs cumulés ;
fréquences cumulées).
51
D = max|PcO−PcT|
Exemple :
On veut tester, au seuil de 1%, si la répartition des fréquences d’achat d’un
produit est significativement différente d’une répartition théorique où les produits
seraient achetés à proportion égale à chaque niveau de fréquence. Une enquête sur un
échantillon de 46 consommateurs de ce produit a donné les résultats suivants :
Solution
Niveau Fréquence Proportion Proportion Proportion Proportion
Observée observée Observée théorique théorique Différence
cumulée ( 1 cumulée
PcO ¿ k ( PcT )
1 21 0,46 0,46 0,25 0,25 0,21
2 16 0,35 0,81 0,25 0,50 0,31
3 8 0,17 0,98 0,25 0,75 0,23
4 1 0,02 1 0,25 1 0
D = 0,31
1,63
Pour α = 1%, D α = =0,24
√ 46
D > D α , on accepte H1 c'est-à-dire que la répartition des achats du produit est
significativement différente d’une répartition théorique. Cette répartition est très
importante chez les consommateurs dont les fréquences d’achats sont faibles.
Exercice :
Le tableau statistique ci-après donne le niveau d’utilité des pâtes dentifrices pour un
groupe de personnes enquêtées.
Niveau Inutile Utile Très utile Indispensabl Total
d’utilité e
Fréquence 10 90 80 60 240
52
II. ANALYSE BIVARIE
En statistique uni varié, nous avons remarquez qu’une variable pouvait être soit
quantitative, soit qualitative. Lorsque nous étudions le lien entre deux variables, trois
situations sont donc possibles : soit elles sont
- toutes quantitatives ;
- toutes qualitatives ;
- de types différents.
Rang, X 0 1 2 3 4 5 6
Il est bon de rappeler que quand nous voulons mesurer le degré de liaison entre de
variables, il est toujours recommandé de débuter par une représentation graphique.
Lorsque ces variables seront de types différents, on ne parlera plus de nuage de points
mais de boite à moustache ou de diagramme en boite parallèles. Puis l’indicateur
utilisé pour quantifier le degré de liaison ne sera plus le coefficient de corrélation ni le
coefficient d’amélioration mais le rapport de corrélation.
a) Boite à moustache
53
Etant donnée une variable quantitative Y et une variable qualitative X ayant r
modalités, l’évolution des valeurs moyennes de Y au sein de chacune des classes
formées des r modalités de X donne une idée du lien entre X et Y. Ceci est perçut
dans cette.
Illustrons ce diagramme au travers d’un exemple :
Exemple.
L’on aimerait savoir si les recettes des micro-finances sont fonction du type de
quartiers dans lequel elles sont implantées. Ayant recensé 4 types possibles de
quartiers (x1 ; x2 ;x3 et x4) et ayant interrogé 19 de ces micro-finances on a eu les
résultats suivants :
Modalités de X
X1 X2 X3 X4
1 426 609 556 600 TAF : Représentez le diagramme en boîtes
parallèle associé à ce diagramme
2 253 236 392 395
Eléments de réponses. Ce diagramme sera fait
3 359 433 349 357
en classe.
4 432 431 522 600
Plus les boites seront positionnées différemment,
5 405 426 513 513 plus les valeurs de Y seront fonction de X, et
6 324 438 507 539 donc plus fort sera le lien entre Y et X.
2 2
Où σ y est la variance de Y, σ l la variance de Y dans la classe l ; ȳ la valeur moyenne
de Y, ȳ l la moyenne de Y dans la classe l nl l’effectif de la classe l ;
r r
1 1
σ 2E =
n
∑ nl ( ȳ l − ȳ ) 2
σ 2R=
n
∑ nl σ 2l
l=1 la variance expliquée par la partition de X et l=1 est la
variance résiduelles, ou intra-classe.
Une fois ces formules connues, le rapport de corrélation est donné par :
SY / X =
√ σ 2E
σ 2y
Interprétations
- Il est toujours positif et inférieur 1.
- Plus il est grand, plus fort est le lien entre les deux variables.
- Aussi s’il est nul alors on conclut que X et Y sont indépendants.
- S’il vaut 1 on dit qu’il existe une liaison totale entre X et Y.
Exemple
Ce servir des données ci-dessus pour calculer le rapport de corrélation.
Eléments de réponses :
On a
SY / X =
√ 2973 . 94
8305. 9
≈0 . 6
. La liaison entre X et Y est donc supérieur à la moyenne.
Dans ce cas, après présenté les données sous la forme d’un tableau de contingence, la
construction d’un diagramme de profil ligne ou de profil colonne nous donnera une
première idée du niveau de liaison entre ces variables. Idée devant plus tard être
confirmé par le calcul du khi-2 et de ses dérivées. Nous considérons deux variables
qualitatives ayant r et c modalités respectivement.
a) Diagramme des profils
Pour le profil ligne, à chaque ligne du tableau de contingence correspond un profil qui
est obtenu à l’aide des fréquences marginales. Idem pour le profil colonne. Nous
l’illustrerons dans l’exemple ci-dessous.
55
b) Calcul des Indices
NB. Plus il est grand, plus fort est le lien entre les deux variables. Seulement sa
dépendance à n et le fait qu’il soit non borné en sont ses principales limites.
2
χ 2
Φ=
- Le phi – deux : Il est définit par : n
NB on a 0≤T ≤1.
- Le C de Cramer
C=
Φ2
√
d −1 où d=min (r, c).
NB. On a toujours 0≤T ≤C≤1. Dans la pratique ils sont rarement supérieur à 0.5.
Exemple
Le tableau ci-dessous donne la répartition des groupes sanguins dans trois villages V1,
V2 et V3. On se demande si cette répartition diffère selon le lieu géographique.
A B AB O
V1 220 50 30 200
V2 390 90 70 450
V3 310 70 40 380
Eléments de réponses :
56
1. A dessiner en classe.
2. Les variables sont : village (de 3 modalités) et groupe sanguin (de 4 modalités)
Il s’agit pour nous de faire un test d’indépendance du Khi deux dont les hypothèses :
H0 : Village et groupe sanguin sont indépendants
(H1) : Village et groupe sanguin sont liés.
Calculons la statistique du test :
Le tableau suivant donne le calcul du 𝜒2 khi-deux.
Gpe sanguin A B AB O
Villages ObservThéoriq Observé Observé Théoriq Observé Théoriq Totaux
Théoriq
57
Taxi 250 1300
Train 200 250
Bus 200 200
Total 465 1100 435 2000
Après avoir complété le tableau, dites-nous s’il existe un lien entre la destination et le
moyen de transport utilisé à l’aide d’un test du Khi-deux.
Exercice.
Un savant prétend avoir inventé un médicament qui traite une certaine maladie. Sur
une population de 2000 personnes supposées malades, on a eu les données suivantes :
Traité Non Traité Total
Guéris 38.1 % 21.9% 60%
Non Guéris 18.9% 21.1% 40%
Total 57% 43% 100%
1. Déterminez les tableaux des effectifs et des effectifs théoriques.
Peut-on dire que le caractère guérison est indépendant du caractère traitement ?
Utiliser le C de Cramer.
58
L’analyse multidimensionnelle vise à synthétiser le comportement de n individus sur p
variables. Lorsque les variables sont quantitatives, on utilise l’Analyse en
Composantes Principales (ACP). Et lorsqu’elles sont qualitatives, on utilise l’Analyse
Factorielle de Correspondance (AFC).
Les données étant très souvent hétérogènes, il faut les rendre homogènes c'est-à-dire
les centrer (réduction de la moyenne) et les réduire (c'est-à-dire diviser la moyenne
réduite par l’écart type). La matrice de corrélation linéaire (R) : un préalable à
l’utilisation de l’ACP
Les données étant très souvent hétérogènes, il faut les rendre homogènes c'est-à-
dire les centrer (réduction de la moyenne) et les réduire (c'est-à-dire diviser la
moyenne réduite par l’écart type).
Nous allons travailler à partir des exemples.
59
Anne 06 06 05 05,5
Bertrand 08 08 08 08
Carine 06 07 11 09,5
Didier 14,5 14,5 15,5 15
Elsa 14 14 12 12,5
Fabienne 11 10 05,5 07
Gustave 05,5 07 14 11,5
Hélène 13 12,5 08,5 09,5
Isabelle 09 09,5 12,5 12
i=1 à 9 i= 1à 6
J= 1à 4 J=1 à 3
60
1 87
X 1 = ( 6+8+ 6+14,5+14+ 11+5,5+ 13+9 )= =9,67
9 9
1 88,5
X 2 = ( 6+8+ 7+14,5+14+10+ 7+12,5+9,5 )= =9,83
9 9
1 92
X 3 = ( 5+8+11+15,5+12+5,5+14 +8,5+12,5 ) = =10,22
9 9
1 90,5
X 4= (5,5+ 8+9,5+15+12,5+7 +11,5+9,5+12 )= =10,06
9 9
On constate qu’il y a en moyenne des différences de niveau de notation entre la
matière qui semble la plus exigeante (analyse des données) à la moins exigeante (le
droit).
Calcul des moyennes des variables pour les l’exemple 2
1 36
X 1 = ( 8+ 4+6+ 10+8 )= =6
6 6
1 24
X 2 = ( 1+6+8+ 4+ 2+ 3 )= =4
6 6
1 30
X 3 = ( 5+7+7 +5+6 ) = =5
6 6
Les données centrées sont obtenues dans les matrices ci-après
Pour le 1er exemple pour l’exemple 2
~
X =X ij −X j
-3,67 -3,83 -5,22 -4,56 2 -3 -5
-1,67 -1,83 -2,22 -2,06 -2 2 0
-3,67 -2,83 0,78 -0,56 0 4 2
4,83 4,67 5,28 4,94 4 0 2
~ ~
X =¿ 4,33 4,17 1,78 2,44 X =¿ 2 -2 0
1,33 0,17 -4,72 -3,06 -6 -1 1
-4,17 -2,83 3,78 1,44
3,33 2,67 -1,72 -0,56
-0,67 -0,33 2,28 1,94
Pour réduire les variables, on divise celles qui sont centrées par les leur écart type. La
formule de l’écart type est donnée par :
√
❑
1
δ j=
n
∑ ( Xij− X j )2
√
❑
1
δ j = ∑ X 2ij −( X j )
2
n
δ 1=
1
9 √
¿¿¿
1
√
δ 2= ¿ ¿ ¿
9
δ 3=
√ 1 = 3,47
9
¿¿
δ 4=
√ 1
9
¿ ¿¿
61
Les données centrées et réduites s’obtiennent en faisant l’opération
~N X ij −X j
X =
δj
-1,089 -1,281 -1,504 -1,589
-0,496 -0,612 -0,640 -0,718 0,613 -1,26 -2,1
-1,089 -0,946 0,225 -0,195 -0,613 0,84 0
~N = ~N
X 1,433 1,562 1,522 1,721 X =¿ 0 1,68 0,84
1,285 1,395 0,513 0,850 1,227 0 0,84
0,395 0,057 -1,360 -1,066 0,613 -0,84 0
-1,237 -0,946 1,089 0,502 -1,84 -0,42 0,42
0,988 0,893 -0,496 -0,195
-0,199 -0,110 0,657 0,676
Exp 1 : δ 1=3,37 δ 2=2,99 δ 3=3,47 δ 4=2,87 Exp 2 :δ 1=3,26 δ 2=2,38 δ 3=2,3
- La somme des carrés des valeurs d’une même colonne devrait donner n (nombre
d’individus)
- La moyenne des données centrées et réduites par variables est presque nulle
62
-4,17 -2,83 3,78 1,44
3,33 2,67 -1,72 -0,56
-0,67 -0,33 2,28 1,94
1
Pour la cov ( X ) = ¿
9
1
cov ( X ) = *
9
-3,67 -1,67 -3,67 4,83 4,33 1,33 -4,17 3,33 -0,67
-3,83 -1,83 -2,83 4,67 4,17 0,17 -2,83 2,67 -0,33
-5,22 -2,22 0,78 5,28 1,78 -4,72 3,78 -1,72 2,28
-4,56 -2,06 -0,56 4,94 2,44 -3,06 1,44 -0,56 1,94
-3,67 -3,83 -5,22 -4,56
-1,67 -1,83 -2,22 -2,06 11,39 9,92 2,66 4,82
-3,67 -2,83 0,78 -0,56 9,92 8,94 4,12 5,48
4,83 4,67 5,28 4,94 2,66 4,12 12,06 9,29
4,33 4,17 1,78 2,44 = 4,82 5,48 9,29 7,91
1,33 0,17 -4,72 -3,06
-4,17 -2,83 3,78 1,44
3,33 2,67 -1,72 -0,56
-0,67 -0,33 2,28 1,94
Interprétation :
On constate que toutes les valeurs sont positives dans la matrice. Les variables
évoluent donc dans le même sens positif deux à deux.
Produit de 2 matrices
63
-1,087 -1,282 -1,504 -1,619
-0,494 -0,613 -0,640 -0,731 1 0,983 0,227 0,508
-1,087 -0,947 0,224 -0,197 0,983 1 0,397 0,652
1,432 1,560 1,520 1,758 = 0,227 0,397 1 0,951
1,284 1,393 0,512 0,869 0,508 0,652 0,951 1
0,395 0,056 -1,360 -1,086
-1,235 -0,947 1,088 0,513
0,988 0,892 -0,496 -0,197
-0,198 -0,111 0,656 0,691
( )( ) ( )
ad ag+ dj ah+ dk ai +dl
ghi
be = bg +ej bh+ek bi +el
jkl
cf cg+ fj ch+fk ci+fl
0,983 veut dire qu’il y’a une forte corrélation positive entre les notes d’analyse de
données (X1) et les notes de statistique décisionnelle (X2)
0,227 veut dire qu’il y’a une faible corrélation positive entre les notes d’analyse de
données et les notes de droit.
0,508 veut dire qu’il y’a une corrélation moyenne et positive entre les notes d’analyse
de données et les notes de comptabilité.
0,397 veut dire qu’il y’a une faible corrélation positive entre les notes de statistique
décisionnelle et les notes de droit
0,652 veut dire qu’il y’a une corrélation moyenne positive entre les notes de statistique
décisionnelle et les notes de comptabilité.
0,951 veut dire qu’il y’a une forte corrélation entre les notes de droit et les notes de
comptabilité.
64
Le calcul des vecteurs propres (U α ¿
Les valeurs propres étant choisies, on calcule les vecteurs propres en faisant
l’opération.
⃗∝
RX=λ α X cette opération permet de trouver les vecteurs propres U
Ces vecteurs propres doivent être normées par l’opération ci-après :
1 ⃗
U ∝= ∗U ∝ avec ‖⃗
U ∝‖ = √ somme des coordonnées du vecteur au carré
‖⃗
U ∝‖
U∝ est la composante principale (axe ou facteur ou dimension).
Il faut maintenant déterminer les coordonnés des variables et des individus dans le
repère constitué des composantes principales (axes).
o Pour les variables la formule est : X ∝=U ∝ . √ λ α
o Pour les individus, la formule est I i=~ N
X . U∝
Il faut enfin, construire sur un graphique constitué des deux axes principaux pour les
variables et pour les individus.
TRAVAIL A FAIRE
1. Rendez homogène ces données
2. Déterminez la matrice de corrélation linéaire R
3. Calculez les valeurs propres liées à cette matrice R
4. Déterminez les vecteurs propres normés à partir des valeurs propres
5. Déterminez les coordonnées sur les axes principaux des variables et des individus
6. Représentez sur un même graphique les variables et les individus en fonction des axes
principaux
Solution
Calcul des moyennes et écart types
X1 X2
Moyenne 24 16
Ecart type 3,27 2,38
65
X ij −X j
1 -Matrice des données centrées et normées ~
X
N
= . Ces données sont
δj
homogènes.
0,612 -1,261
~N = -0,612 0,840
X
0 1,681
1,223 0
0,612 -0,840
-1,835 -0,420
66
Pour calculer les vecteurs propres, on applique la formule RX=λ α X avec X ()
x1
x2
Pour λ 1 = 1,1715 ( 1
on a −0,1715
−0,1715 x 1
1 x2 )( )
= 1,1715
x1
x2 ()
{−0,1715
X 1−0,1715 X 2=1,1715 X 1
X 1+ X 2=1,1715 X 2 {−0,1715
(1−1,1715 ) X 1−0,1715 X 2=0
X 1+ ( 1−1,1715 ) X 2=0
( )(
√2
√2 1 = 2
U 1= ( )
2 −1 −√ 2
=
0,707
−0,707 )
2
Pour λ 2 = 0,82 85
(−0,1715
1
)( X 2)= 0,8285( XX 12)
−0,1715 X 1
1
{−0,1715
X 1−0,1715 X 2=0,8285 X 1
X 1+ X 2=0,8285 X 2 {−0,1715
(1−0,8285 ) X 1−0,1715 X 2=0
X 1+ ( 1−0,8285 ) X 2=0
{−0,1715
0,1715 X 1−0,1715 X 2=0
X 1+ 0,1715 X 2=0 {0,1715 X 1=0,1715 X 2
X 1=X 2
⃗
()
U 2 1 est le deuxième vecteur propre. Pour le normer, on fait :
1
( )( )
√2
1 1
U 2=
‖ 2‖
⃗
U
∗⃗
U 2=
() () ()
1 = 1 1 = √2 1
√1 ¿ 1 √2 1 2 1 =
2+¿1
2
2
√2
0,707
= 0,707
2
( ) ()
√2 √2
2 2
Donc les vecteurs propres normés sont : U 1= U 2=
−√ 2 √2
2 2
67
X2 (nbre d’employés) -0,7653 0,6436
( )
√2
U1 . √λ 1 ¿
2
− √2
. √ 1,1716 = (
0,7653
−0,7653 )
2
()
√2
U 2 . √ λ 2=
2
√2
. √ 0,8284= (
0,6436
0,6436 )
2
~
Pour les individus, on fait : X N U ∝
individus Axe1 Axe2
~N ~N
X U1 X U2
A 1,3242 -0,4588
B -1,0265 0,1612
C -1,1884 1,1885
D 0,8646 0,8646
E 1,0265 -0,1612
F -1,0004 -1,5942
E Axe 1
69