Vous êtes sur la page 1sur 71

ENQUETES ET ANALYSE DES DONNEES1

MASTER 1 FINANCE

Dr Romuald Tchieuzing
Chargé de Cours

1
Bien vouloir nous faire parvenir les coquilles à l’adresse awoutchafernand@gmail.com

1
Introduction Générale
POURQUOI UN COURS SUR LES MÉTHODES DE TRAITEMENT DE
DONNÉES?

Avec les développements de l'informatique, les entreprises mais aussi les institutions
économiques et sociales, nationales et internationales, engrangent actuellement dans
tous les domaines (économie, finance, marketing, industrie, distribution, etc) des
quantités énormes de données (informations financières, bases de données clients,
suivis de procédés industriels, résultats de programmes de recherche…).

Ces données sont d'abord organisées et stockées dans des bases de données. Le
statisticien peut alors intervenir pour répondre aux questions stratégiques de sa société,
de son institution ou de son environnement immédiat à l'aide de méthodes statistiques
adaptées (analyse statistique, régression linéaire, analyse multidimensionnelle).
L’analyse de données multidimensionnelles lui fournira en particulier des outils
performants pour extraire des informations pertinentes des nombreuses données
disponibles.

Ce cours entend donc préparer l’étudiant à utiliser les techniques statistiques vues au
cours dans le cadre futur de sa situation professionnelle (en entreprise, en cabinet ou
dans une institution). Toutefois, dans le court terme, un tel cours se veut aussi une
précieuse aide pour l’étudiant qui réalise un mémoire de fin d’études qui faisant
intervenir une analyse plus approfondie de données.

QUELS SONT LES OBJECTIFS DU COURS D’ANALYSE DES DONNÉES ?

Le cours présente les techniques modernes de l'analyse de grands ensembles de


données et développe les outils de base de l’analyse de données. A l'issue de ce cours,
l'étudiant sera capable de :

- Traiter et décrire l'information contenue dans des grands ensembles de


données ;
- Comprendre les mécanismes qui justifient l'emploi de telle ou telle méthode ;
A cet effet, le cours couvrira les aspects suivants :

2
- Questionnaire et méthodes d’échantillonnage ;
- Régressions linéaires simple et multiple ;
- Analyses statistiques à une dimension et à deux dimensions (utilisations des
tests statistiques à des fins de décision) ;
- Analyse multidimensionnelle en particulier l’Analyse en Composantes
Principales (ACP).

QUEL CONTENU POUR CE COURS D’ANALYSE DES DONNÉES ?

Pour analyser les données il faut tout d’abord les avoirs. En termes de sources des
données on distingue les données de sources primaires et les données de sources
secondaires. Les données de sources secondaires sont celles qui existent déjà dans
certaines bases de données et dont on utilise pour mener à bien d’autres études. Par
contre, lorsqu’on descend sur le terrain pour collecter les données qui seront par la
suite traitées et utilisées, on dit qu’elles sont de sources primaires. Le chapitre 1 du
présent cours est dédié aux méthodes de collectes de telles données et aux techniques
d’échantillonnage.

Le chapitre 2 est dédié à l’analyse statistique des données à une et à deux dimensions,
le but étant de permettre la prise de décision à partir des tests statistiques sur les
données.

Le chapitre 3 est consacré aux régressions Linéaires.L’objet de ce chapitre est de


permettre à l’étudiant de construire une relation robuste entre les phénomènes socio-
économiques. La relation portera sur une variable dépendante et, soit une variable
indépendante (régression linéaire simple) ou des variables indépendantes (régression
linéaire multiple). L’objectif final étant de proposer une prévision à partir d’une
relation de sens et robuste.

Le chapitre 4traite de l’analyse multidimensionnelle. Seul le concept d’analyse


factorielle et plus précisément celui d’Analyse en Composante Principale (ACP).
Lorsque nous avons à faire à 2 variables, une analyse visuelle est possible et aisé car
représentable dans un plan. Lorsqu’une étude mobilise plus de 4 variables, une
représentation visuelle est plus complexe. L’ACP est utilisé dans de tels cas pour

3
ramener cette représentation complexe à un espace de dimension réduit (à un plan en
général) en déformant le moins possible la réalité. Très souvent on fera des
rapprochements entre des groupes de variables et des groupes d’individus.

Chapitre1.Questionnaires et Méthodes d’échantillonnage.

Le traitement des données a pour objectifs :


- De décrire, d’agréger et de synthétiser les données collectées sur le terrain à des
fins d’analyse sous forme de tableau et de graphiques ;
- D’expliquer et d’analyser les données ainsi prétraitées.
Cette analyse part de la construction et de l’administration d’un questionnaire sur un
échantillon prédéfini ou à définir.

Il faut distinguer chaque fois la variable qualitative (non mesurable) de la variable


quantitative (mesurable).
Parmi les variables qualitatives, on a le caractère nominale (pas de classement ;
définition d’un état) et le caractère ordinale (classement, hiérarchisation, échelles). Et
parmi les variables quantitatives, on a le caractère discret (une valeur unique) et le
caractère continu (une valeur possible dans un intervalle) Ce chapitre part de la
compréhension du questionnaire (I) pour s’achever sur les méthodes d’échantillonnage
(II).

I. Le QUESTIONNAIRE

1. DEFINITION
C’est un document administré auprès d’une population cible en vue d’obtenir des
informations quantifiables sur un thème de recherche précis (recherche
académique ; études de marché).

4
La méthodologie quantitative utilise l’enquête par questionnaire pour atteindre ses
objectifs. Le questionnaire constitue un des éléments essentiels de l’enquête. Il est
l’instrument d’enregistrement et de stockage de l’information.

La confection d’un questionnaire soulève de problèmes nombreux et complexes. Il doit


conjuguer plusieurs contraintes :
- L’objet de l’enquête ;
- La méthode de recueil adoptée ;
- La population interrogée ;
- Le travail des enquêteurs ;
- Les moyens financiers mis à disposition (délais, budget, etc.)

C’est par l’intermédiaire du questionnaire que s’opère la liaison entre les quatre parties
prenantes (intervenants) de toute étude de marché par exemple :
- Le décideur, qui sur la base de l’enquête doit trouver une réponse à ses besoins
d’information et doit prendre la décision adéquate ;
- Le chargé d’études ou l’analyste dont le rôle est de répondre aux besoins du
décideur ; de transformer les besoins d’informations en question de recherche et
de développer la méthodologie adéquate ;
- L’enquêteur, chargé d’administrer le questionnaire et d’interroger le répondant ;
- Le répondant qui communique l’information recherchée par l’enquêteur.

Rôle central du questionnaire

Décideur
(1)

(6)
Analyste QUESTIONNAIRE Enquêteur
(2) (3)

(5) (4)
Répondant

5
2. ETAPES D’UNE ENQUETE PAR QUESTIONNAIRE

Les 8 étapes sont les suivantes :


- Définition des objectifs de l’enquête
- Structure du questionnaire
- Rédaction des questions
- Choix des modalités d’administration
- Test questionnaire
- Administration
- Traitement (dépouillement)
- Rédaction du rapport d’enquête.
En ce qui concerne l’objectif de l’enquête, elle doit être clairement définit dès le
départ de sorte que le questionnaire ne permettra que de quantifier ses composantes.
Dans la structure du questionnaire, il faudrait prendre en compte le fait qu’il est
plus simple pour le répondant de parler de ce qu’il fait (comportement) ou de ce qu’il
pense (opinions). C’est seulement après çà que les questions plus personnelles
pourront lui être posées. Il faudrait que le langage, le choix des termes, les tournures
des phrases soient adaptées au public.Chaque question posée doit avoir un but bien
précis, en rapport avec l’objectif général de l’enquête. Soyez le plus clair possible,
éviter le plus possible les sous-entendus, les ambiguïtés, les offenses, proposer les
réponses pertinentes. Aussi elles doivent se suivre de façon logique et appropriée.
Par ailleurs on débute très souvent par des questions fermées (à choix multiple)
avant d’arriver progressivement aux questions ouvertes. Il est aussi intéressant d’y
introduire les questions ordonnées dans lesquelles réponses possibles sont
hiérarchisées. De plus la formulation des questions ne doit pas induire une réponse.
Enfin il faut surtout éviter lors de la rédaction du questionnaire de provoquer chez les
personnes interrogées la crainte de se faire mal juger, le désir de se conformer à la
norme sociale, le refus de se laisser impliquer personnellement,…
S’agissant des modalités d’administrations, vous pourrez utiliser l’une des
techniques d’échantillonnage pour sélectionner les personnes à interroger après avoir
défini leur profil. Les toutes premières questions doivent être de nature à éliminer toute
personne non concernée par l’étude. Le chargé d’études va aussi décider :
- Du mode de contact retenu : enquête par téléphone ? en face à face ? par
courrier ou télématique ?
- De la population à interroger ? l’univers de référence ? taille de l’échantillon ?
Avant de débuter la collecte d’informations, vous devez pré tester et finaliser votre
questionnaire. L’étude pilote ou le pré test consiste à mener l’étude à titre d’essai sur

6
un petit groupe d’individus qui soit toutefois représentatif de la population à étudier.
Les résultats de ce test, bien que ne seront pas retenus dans l’analyse finale,
permettrons de revoir l’ordre ou la compréhension des questions, d’améliorer le
questionnaire. Il fait également apparaitre le temps nécessaire pour effectuer les
enquêtes et il faudrait éviter les enquêtes trop longues car elles fatiguent tant
l’enquêteur que le répondant et peut conduire à des erreurs dans les réponses. Dans ce
cas, il parait important de supprimer les questions inutiles et trouver les moyens plus
directs d’obtenir l’information souhaitée.
Administrez le questionnaire aux personnes sélectionner tout en évitant de les
restreindre aux amis car pouvant sérieusement biaiser les résultats. Ce questionnaire
doit être maniable, facile à lire, facile à remplir, agréable à l’œil, et facile à
dépouiller.Toutefois, le Chargé d’étude devra avant cette étape, résoudre quelques
questions d’ordre matérielles à savoir :
- Quelles sont les instructions à donner aux enquêteurs?
- Quel matériel distribue-t-on aux enquêteurs ?
- Quelles sont les consignes spécifiques transmises ?
Le traitement des données recueillies débute par leur codage en vue de leur
inscription sur un support adapté à un traitement informatique. Il s’agit ici de proposer
une traduction simple, en termes chiffrés, d’une expression rédigée en clair, qu’il
s’agisse d’un fait ou d’un jugement. Une fois les données codées et saisies, il faut
dégager les résultats pertinents s’inscrivant dans le cadre défini par les hypothèses de
travail. Pour cela, un plan de dépouillement est nécessaire.
Des tests doivent par la suite être faits afin de garantir le fait que l’enquête ait été
menée avec rigueur et donc que les résultats sont valides. L’analyse des résultats fait
appel à des connaissances statistiques et psychologiques bien précises.
Le rapport d’enquête conclut le travail. Après une présentation de l’enquête, et des
principaux résultats (il reprend l’essentiel des points dégagés lors de l’analyse
proprement dite), il contient les principales conclusions (présenter de manière
synthétique les résultats fondamentaux obtenus), les annexes, références
bibliographiques (elle doit être succincte et ne présenter que les ouvrages présentant
une véritable utilité en rapport avec le sujet traité) et une table des matières.

3. CHOIX DES THEMES ET DES QUESTIONS

On peut différencier les questions en fonction du contenu des réponses.

7
3.1. Questions sur les faits et sur le comportement.

Les questions de faits portent sur les aspects précis, vérifiables, qui ont trait au
domaine personnel des individus interrogés (âge, sexe, degré d’instruction) ou au
domaine de leur environnement (habitat, composition du ménage, milieu de travail).

Plutôt que de porter sur des faits ponctuels, ces questions peuvent aussi porter sur des
faits répétitifs: lecture des journaux, consommation de produits. On parle alors de
questions sur le comportement.
Le caractère objectif de ces données n’empêche pas que les réponses puissent être
mensongères ou qu’il y ait des faits que le répondant veuille cacher ou dont il ne se
souvient plus. Ainsi l’enquêté peut avoir plusieurs raisons de ne pas vouloir donner
une réponse exacte à une question :
- Crainte que la réponse n’amène l’enquêteur à porter un jugement défavorable
sur lui (question relative à la santé, à l’hygiène ou au prestige) ;
- Volonté du répondant de donner une meilleure image de soi ;
- Questions jugées indiscrètes (fortune, salaire, vote politique, comportement sexuel ,
etc.)

Pour obtenir des réponses précises, le chargé d’études veille à :


- Réduire l’effort de mémoire
- Stimuler la mémoire (en aidant le répondant à se souvenir)
- Modifier la formulation de la question et l’adapter aux capacités de réponse de
l’interrogé.

3.2. Questions sur les attitudes et opinions


Les attitudes et opinions représentent des jugements subjectifs sur des faits, des idées,
des personnes. Il s’agit en fait d’obtenir des informations sur la manière habituelle
dont le répondant vit son expérience quotidienne.
Si elles ont toutes les deux pour but la prévision des comportements en marketing,
l’attitude est différente de l’opinion. L’opinion est plus rationalisée et constitue une

8
réaction qui peut être isolée ou accidentelle. Les attitudes sont en ensemble d’opinions
stables, liées entre elles et correspondant à une composante importante de la
personnalité.

Ce type de question suscite souvent une proportion de « sans opinion » qui peut varier
d’une question à l’autre au sein d’un même questionnaire.
En général, bien que chacun ait une opinion, l’interrogé sera tenté de dissimuler la
sienne dans le cas où :
- Il n’a pas une connaissance suffisante du sujet sur lequel on l’interroge et il
préfère indiquer qu’il n’a pas d’opinion afin de masquer son ignorance ;
- Il n’a pas de préférence marquée pour l’une ou l’autre opinion ;

3.3. Questions sur les motivations


Les questions peuvent également porter sur des motivations c'est-à-dire les raisons de
comportement, de préférence, d’habitude. Ces raisons peuvent être avouables et
perçues par l’enquêté.
Cela se produit, en général, chaque fois que les raisons d’agir sont rationnelles, car un
répondant n’hésite pas à expliciter si cette explication est raisonnable.
Parfois, même s’il connaît les raisons pour lesquelles il agit de telle ou telle façon, il
arrive qu’un répondant se refuse à en donner l’explication réelle.
Cette attitude se rencontre chez certaines ménagères qui ne fréquentent pas le magasin
populaire de leur quartier. Craignant d’y rencontrer des amies ; elles veulent laisser
croire qu’elles fréquentent des magasins plus luxueux. Les raisons invoquées sont
alors des raisons rationnelles (qualité inférieure, mauvais service à la clientèle) alors
que dans la réalité elles ont des moyens financiers limités.

3.4. Questions sur les intentions


Les questions portant sur les intentions, comme les intentions d’achat d’un nouveau
produit, sont fréquentes pour les études de marché.
Il faut toutefois considérer les intentions d’achat comme un indicateur plus que comme
une mesure précise de la consommation future. Leur valeur prédictive doit tenir

9
compte du fait que la personne interrogée répond en faisant abstraction des
circonstances liées à l’acte d’achat : habitudes, influences extérieures, publicité,
entourage.

3.5. Questions pièges


Si le questionnaire contient des questions difficiles ou délicates qui peuvent provoquer
des biais, le chargé d’études peut introduire des questions destinées à vérifier la
cohérence des réponses fournies. Ainsi l’enquêteur proposera la même question, sous
des formes différentes à deux endroits. Ces questions permettent le contrôle des
réponses déjà données. Le seul but de ces questions est de fournir un indice sur
l’honnêteté de l’enquêteur, de l’enquêté ou des deux.

Exemple :
1) Lors d’une étude consacrée à la fraude fiscale auprès des indépendants, le
chargé d’études a constaté des résultats contradictoires. A la question
« fraudez-vous ? », 10% des répondants l’affirmaient. Ailleurs dans le
questionnaire, une question demandait « pensez-vous que les indépendants
fraudent ? » Plus de 80% des répondants ont répondu par l’affirmative. La
vérité devait se situer entre ces deux extrêmes.
2) Dans un questionnaire consacré à la notoriété des banques, on a demandé aux
répondants s’ils connaissaient des banques qui s’appelaient Danone ou
Chococam. Le répondant qui répondait affirmativement voyait son enquête
écartée.

3.6. Quelques Exemples sur les types d’informations que l’on peut obtenir

- Question sur les faits


Au cours des dernières semaines, avez-vous fait les soldes ?
Oui

Non

10
- Question sur les attitudes

Je vais vous citer à présent une série de phrases que des consommateurs nous ont dites
concernant l’achat de produits alimentaires. A chaque fois, je vais vous demander de
me donner une cote de 1 à 4. 1 signifie que ce n’est pas important du tout, 4 signifie
que c’est tout à fait important. Ainsi, si je vous dis que …

Enquêteur : Cote

Lire les En général, je recherche des produits de qualité

Propositions En général, je choisis les produits les meilleurs marchés

En général, je choisis des produits respectueux de


l’environnement.

- Question sur les motivations

Je vais citer à présent une série de phrases que des consommateurs nous ont dites à
propos de l’entretien de leur maison. A chaque fois, je vais vous demander de me
donner une cote de 1 à 4. 1 signifie que ce n’est pas important du tout, 4 signifie que
c’est tout à fait important. Ainsi, si je vous dis que…
Enquêteur : Cote

Lire les Pour qu’une maison soit propre, elle doit être nettoyée
tous les jours

Propositions Pour qu’une maison ne contienne pas de microbes, elle


doit être nettoyée régulièrement avec des produits
désinfectants comme l’eau de javel ou un détergent
hygiéniste.

- Question sur les intentions

11
Dans les prochaines semaines, comptez-vous essayer le produit ?

Oui, certainement

Oui, peut-être

Non

3.7. Check-List du concepteur du questionnaire


Avant de formuler une question, le concepteur doit la soumettre à quatre
interrogations.

1) Cette question est-elle strictement nécessaire ?


En d’autres termes, fournira-t-elle une information utile pour atteindre l’objectif de
l’étude ? Ou à l’inverse, l’objectif de l’étude « X » peut-il être atteint si j’enlève la
question « 2 » ? Si la réponse est oui parce que l’information est obtenue ailleurs dans
le questionnaire, la question peut être enlevée.

2) Pour l’information recherchée, une seule question suffira-t-elle ?


Il existe des situations où plusieurs questions sont nécessaires du fait de la complexité
de l’information recherchée, comme dans le cas d’une question « pourquoi ? ».

Exemple.
Un chargé d’études veut savoir pourquoi les répondants utilisent une marque de pâte
dentifrice donnée. A la question « Pourquoi utilisez-vous la pâte dentifrice X ? », il
pourra se voir répondre : « parce qu’elle rend mes dents plus saines » ou « parce
qu’une collègue me l’a recommandé. »
La compréhension du but de la question est manifestement différente pour les deux
individus. Le premier évalue la performance de la marque par rapport à ses attentes : il
donne les raisons pour lesquelles Il utilise actuellement la marque. Le second indique
ce qui l’a amené à utiliser la marque.

12
De même certaines questions sont doubles et doivent alors être décomposées en deux
questions simples :

Exemple.
« Pensez-vous que les entreprises de distribution se préoccupent aujourd’hui de
leurs clients et de leurs employés ? ».
Pour lever l’ambiguïté, on pourrait scinder la question en deux :
Q1 : “Pensez-vous que les entreprises de distribution se préoccupent aujourd’hui de
leurs clients » ?
Q2: “Pensez-vous que les entreprises de distribution se préoccupent aujourd’hui de
leurs employés »?

3) La personne interrogée pourra-elle fournir l’information?

Les répondants peuvent ne pas répondre à la question qui leur est posée parce qu’ils ne
comprennent pas, ne savent pas ou ne se souviennent pas.
Incompréhension : vocabulaire utilisé, abstraction trop importante de la question,
etc.
Ignorance : mauvaise adaptation du questionnaire aux personnes interrogées.
Oubli : répondant possède ou a possédé l’information demandée, mais est
incapable de s’en souvenir.
Exemple :
« Combien de pots yaourts avez-vous consommés au cours des six derniers mois? »

4) La personne interrogée voudra-t-elle fournir l’information exacte?

Les informations à caractère sensible que les personnes maquillent ou souhaitent


cacher : Cas des sujets socialement sensibles, sujets touchant de trop près à la vie
privée ou sujets demandant un gros effort de recherche.

13
4. FORMULATION DES QUESTIONS

Le choix des formulations des questions dépend de plusieurs facteurs :


- Le mode d’administration qui conditionne notamment la possibilité ou non de
présenter des documents ;
- La compétence et la formation des enquêteurs ;
- Le mode traitement prévu ;
- La connaissance ou l’ignorance des réponses possibles à la question qui
conditionne la possibilité de rédiger les options proposées dans une question
fermée.

Les questions peuvent être explicites (Combien ? Pourquoi ?) ou implicites (citez les
raisons de ; ce qui revient à dire : Quelles sont les raisons de?)
Plusieurs types de questions se retrouvent au sein d’un même questionnaire. D’un
point de vue technique, les spécialistes différencient et cataloguent les questions selon
deux grandes catégories
- Les questions ouvertes et,
- Les questions fermées.

4.1. Questions ouvertes

Ce sont des questions pour lesquelles aucune réponse n’est formulée. La personne
interrogée est libre de répondre dans ses termes.

Exemple. : Pourquoi avez-vous acheté le produit B ? :


Ces questions permettent de :
- Procéder à une demande exploratoire pour vérifier si l’analyste a bien envisagé
au départ toutes les hypothèses de base ;
- Obtenir le maximum d’informations en évitant d’enfermer l’interviewé dans un
questionnaire trop fermé ;
- Déceler les causes profondes d’une croyance ou d’une attitude ;

14
- Montrer à l’interrogé que son avis compte.

Cette forme de question présente cependant deux formes de limites :


- Risque de réponses superficielles (le répondant n’a pas encore pensé à la
question et peut répondre qu’il ne sait pas ou donner la première raison qui lui
vient à l’esprit sans qu’il s’agisse là des raisons véritables ou profondes) ;
- Nécessité de coder les réponses (pour pouvoir les dénombrer ; l’opération sera
longue et coûteuse en présentant des risques d’ambiguïté).

Toutefois on peut énumérer trois conseils pratiques :


- Les questions ouvertes sont particulièrement utiles pour mesurer les opinions
des répondants. Il est parfois pratique de remplacer une interminable question
fermée (c'est-à-dire avec plusieurs propositions) par une question ouverte ;
- Remplacer une question ouverte par un ensemble de questions fermées permet
un traitement rapide de l’information mais limite considérablement la qualité de
l’information obtenue. C’est pourquoi, il appartient à l’analyste d’arbitrer entre
la qualité des résultats recherchés et la facilité de traitement des données.

4.2. Questions fermées

Une question est dite fermée lorsque l’on enferme la personne interrogée dans un
choix, parmi plusieurs réponses possibles.

Les questions fermées se prêtent le mieux au dépouillement et à l’analyse statistique.


La codification est tacite, le dépouillement simple et peu onéreux.
Les réponses étant prévues, il ne peut y avoir, dans la réaction de la personne
interrogée, aucune ambiguïté. Les questions fermées maintiennent le répondant dans
les limites du sujet et évitent la transcription de réponses déformées, de termes mal
interprétés. Elles facilitent grandement le recueil de l’information.

15
Inconvénients : danger de dicter la réponse ; les possibilités fournies ne correspondent
pas nécessairement à l’attitude réelle de la personne interrogée. De plus, une réponse
possible peut être oubliée.

Un certain nombre de règles doivent être respectées :


- La rédaction des réponses possibles doit s’appuyer sur une phase exploratoire
permettant l’identification de toutes les possibilités. Dans le cas contraire, le
risque de distorsion est réel.
- Un code peut être prévu pour l’item « Autre »
- Dans certains cas, les items « ne sais pas», « sans opinion » ou même « refus de
répondre » doivent être prévus.
- Les choix offerts au répondant doivent être mutuellement exclusifs. Ils ne
peuvent prêter à confusion.
- L’ordre de présentation des solutions possibles doit être alterné car l’attractivité
pour la première réponse est un phénomène bien connu.

4.2.1. Questions fermées dichotomiques

Une seule alternative est proposée au répondant. Il a le choix entre deux réponses
exhaustives et mutuellement exclusives.
Mutuellement exclusive signifie que le choix de l’une de ces deux modalités exclut
l’autre.

Lisez-vous des périodiques ?


Oui non
Genre / Sexe ? (ne pas poser la question)
Féminin masculin

En raison de sa simplicité, ce type de question est très souvent utilisé dans les
enquêtes.

16
4.2.2. Questions multichotomiques mais à réponse unique

L’alternative n’étant pas toujours possible, des questions amènent le répondant à


choisir la réponse entre plusieurs possibilités mais, seule une case peut être cochée.

Quel est votre état-civil?


Célibataire Marié(e)Veuf (ve) Divorcé(e) Séparé (e)

4.2.3. Questions multichotomiques à choix multiples


Les réponses sont codées à l’avance et la personne interrogée peut en choisir une ou
plusieurs.

Exemple:Quel (s) jour (s) fréquentez-vous les supermarchés?


Lundi
Mardi
Mercredi
Jeudi
Vendredi
Samedi
Dimanche

Parfois, quand il n’est pas possible de choisir de toutes les réponses, une catégorie
« autre» sera ajoutée. Ces questions sont parfois appelées questions « cafétéria » car
dans Autre, tout type de réponses peuvent y figurer.

4.2.4. Questions filtres

C’est une question qui oriente le répondant vers les questions suivantes ou sur
d’autres questions en fonction de la réponse donnée. La notion de filtre intervient à
plusieurs niveaux :

17
- Niveau global ou filtre général
Il s’agit des questions d’introduction qui déterminent si l’individu correspond ou non à
la cible.Si la personne ne correspond pas au profil recherché, l’enquêteur la remerciera.

- Niveau intermédiaire
Une partie du questionnaire est filtrée. Il est fréquent d’observer que seules certaines
parties du questionnaire sont à poser à l’ensemble des répondants. Plusieurs questions
filtrées sont réparties dans le questionnaire et aiguillent l’enquêteur vers telle ou telle
partie.

4.2.5. QUESTIONS FERMEES # QUESTIONS OUVERTES

- Exemple de question ouverte : notoriété spontanée de marques


« Quelles marques de motos connaissez-vous, ne serait-ce que de nom ? ».
- Exemple de question fermée : notoriété assistée de marques
« Parmi les marques de lessives en poudre ci-dessous, cochez celles que vous
connaissez, ne serait-ce que de nom. »
Ariel Fresha Gamme Persil Omo
Madar Skip Super croix Tomate Pax

Le choix entre questions fermées et questions ouvertes.

Il est déconseillé pour élaborer un questionnaire d’avoir recours essentiellement aux


questions fermées. De même, une série de questions ouvertes témoignent le plus
souvent d’un manque de réflexion sur le sujet étudié et d’une préparation insuffisante
du questionnaire.

4.2.6. Questions avec échelles d’attitudes

La nécessité est apparue très vite, pour cerner une opinion, d’introduire une série de
nuances. Toutes visent à nuancer une opinion entre le plus et le moins, soit par des

18
mots du langage courant ; soit par une note. Les échelles d’attitude ont pour objectif
de rendre opérationnelle des informations d’ordre qualitatif en les transformant
en données quantifiées. Pour arriver à ce résultat, l’enquêteur demande à la personne
interrogée de se situer le long d’une échelle, selon qu’elle est plus ou moins favorable
à un produit, à un concept ou à une opinion. A ces différentes positions sur l’échelle
correspondent des chiffres permettant d’attribuer une note à chaque concept.

Si les échelles d’attitudes sont d’utilisation courante dans les études de marchés, elles
posent au chargé d’études un certain nombre de problèmes :
- Le principal est la construction d’échelles appropriées à chaque domaine
étudié ;
- Le second est celui de la détermination de la place occupée sur l’échelle par
chaque répondant.

Les principaux types d’échelles sont :


- Les échelles nominales où aucune position sur cette échelle n’est supérieure ou
inférieure à une autre. Par exemple, la nationalité ;
- Les échelles ordinales qui permettent un certain classement des items ;

Quelques exemples d’échelle ordinale servant de base à une typologie

Sur le degré d’accord à une proposition on peut avoir comme éventualité : Tout à fait
d’accord ; Modérément d’accord ; Indifférent ; Tout à fait en désaccord.
Concernant le niveau de satisfaction à un produit, on peut avoir : Insatisfait ; Un peu
satisfait ; Indifférent ; Tout à fait satisfait.
S’agissant des niveaux de satisfaction d’un bien pour l’enquêté, on a comme réponse
possible : Pas du tout important ; Un peu important ; Indifférent ; Tout à fait important.

Le chargé d’études part de l’expression des opinions pour arriver aux attitudes. Les
répondants expriment leurs avis sur une série d’items proposés sous la forme binaire

19
(oui-non, vrai-faux, d’accord-pas d’accord) ou sous forme d’échelle (tout à fait
d’accord-modérément en d’accord-indifférent- tout à fait en désaccord).

On utilise aussi une échelle en cinq ou sept catégories quoique d’autres auteurs
proposent 4 ou 6 possibilités ou une cotation sur 10. L’important est de conserver le
même nombre de niveaux tout au long de l’étude et d’une étude à l’autre de manière à
garantir des comparaisons fiables (c'est-à-dire si on débute avec une échelle à 4
possibilités, il faut tenir sur les quatre possibilités tout au long de l’étude).

Différents experts ont conçu des échelles spécifiques. Parmi ceux-ci, citons :

 Echelle d’attitudes de BOGARDUS Conçue en 1925. Cette échelle d’attitudes mesure


l’intensité des préjugés nationaux et raciaux.

 Les échelles répertoriées de LIKERT. Il s’agit d’un ensemble de propositions


évaluatives d’un produit, service ou d’un concept, positives ou négatives pour
lesquelles l’interrogé exprime un degré d’approbation ou de désapprobation en se
référant à une échelle comportant 4 niveaux d’évaluation (tout à fait d’accord-
modérément d’accord-indifférent- tout à fait en désaccord).

 Echelle de GUTTMAN. Elle utilise une série de propositions telles que l’adhésion à
un degré supérieur implique nécessairement l’adhésion à tous les niveaux du dessous.

 Différentiel sémantique d’OSGPOD. Cette échelle bipolaire mesure l’attitude à partir


des mots qui discriminent les interrogés. Le répondant positionne sa réponse sur
l’échelle entre chaque paire d’adjectifs opposés.

Ces échelles servent notamment dans plusieurs applications marketing et en recherche


pharmaceutique-médecine :
- Etude d’image de marque ;
- Etude de positionnement des marques/produits ;
- Etude de satisfaction/évaluation des produits/services ;

20
- Segmentation de marché ;
- Test de produit concept/service ;
- Bilan de campagne ;
- Toute étude exigeant la quantification d’un continuum.

5. REDACTION DU QUESTIONNAIRE
Dès que les questions ont été définies et formulées, l’analyste passe à la phase de
rédaction proprement dite.

5.1. Contenu du questionnaire


Le contenu doit être mis en forme en fonction du mode d’administration du
questionnaire.
Un questionnaire peut se compose de cinq parties :
 Les textes d’accroche initiale, finale et de liaison ;
 Les questions et les aides visuelles y afférentes ;
 Les instructions ;
 Les renseignements signalétiques ;
 Les données d’identification.

5.1.1. L’accroche initiale, l’accroche finale et les liaisons

Tout questionnaire doit intégrer une accroche, un remerciement final ainsi que les
textes de liaison nécessaires. Ceux-ci doivent être concis, compréhensibles, univoques
et conviviaux. L’accroche initiale est déterminante. Elle doit inciter le répondant à
participer à l’enquête.

Le vocabulaire utilisé va dépendre du type d’enquête, de son mode d’administration,


de la cible visée.
Globalement, les textes vont comprendre :
- Des indications sur le sujet traite ;
- Des formules de politesse ;

21
- Des formules de précaution et de rassurance du répondant ;
- Des formules de présentation de l’enquêteur et de l’étude ;
- Des formules d’incitation à la réponse.

5.1.2. Questions et aides visuelles


Certaines questions nécessitent une présentation simultanée d’aides visuelles. Ainsi,
l’enquêteur présente, au répondant, une liste de noms, de propositions, de mots, de
dessins, de photos. La lecture ne suffit pas quand :
- Le nom peut prêter à confusion ;
- Le répondant doit choisir entre une série de propositions ou dans une listede noms
;
- Le nom recouvre un concept mal établit.

La liste est généralement intégrée dans le questionnaire (par correspondance).

5.1.3. Instructions

Destinées à l’enquêteur (ou au répondant lui-même, en cas d’enquête par


correspondance), elles veillent à assurer l’enchaînement logique de l’entretien selon les
réponses.
Les instructions doivent également assurer le bon déroulement de l’enquête en ce qui
concerne les visualisations à montrer, les listes à citer, les notations à respecter etc… et
éviter toute interprétation personnelle ou initiative personnelle de l’enquêteur.

5.1.4. Renseignements signalétiques

La première partie du questionnaire est le plus souvent consacrée aux questions


appelées caractéristiques sociodémographiques, dont l’objet est double :
- Permettre une comparaison avec les statistiques de base pour juger de la
représentativité ou non de l’échantillon ;

22
- Permettre une analyse des résultats en fonction de certaines caractéristiques
sociodémographiques.
Les renseignements demandés sont :
- Le sexe ;
- L’âge ;
- La profession ;
- Le niveau d’études ;
- Le code postal ;

En fonction des demandes particulières du commanditaire ou des objectifs de l’étude,


d’autres critères peuvent apparaître comme la composition du ménage, l’état-civil, la
nationalité, le revenu, etc.

Etes-vous la personne qui fait habituellement les courses dans les magasins ?
Oui Non

Sexe ? H F
Age ?
De combien de personnes se compose votre ménage y compris vous-même ?
Adultes Enfants de 0-5 ans
Enfants de 6-11 ans Enfants de 12-17 ans

Etes-vous ? :
Francophone
Anglophone

5.1.5. Les données d’identification

Afin de permettre le contrôle des enquêtes, le chargé d’études demande à l’enquêteur


de noter, très soigneusement :
- Le nom du répondant ;

23
- Son adresse et son numéro de téléphone ;
- L’heure de début, de fin d’entretien et la date.

Ces éléments permettent d’informer le chargé d’études de la qualité de l’interview et


l’enquêteur ne devra pas négliger cet aspect lorsque cela est demandé par l’analyste.
(Notons toutefois qu’il existe des enquêtes anonymes).

5.2. Construction du questionnaire


Après que les questions aient été préparées et libellées une à une, le
questionnaire est prêt à être construit.
5.2.1. Principes généraux
Le langage, le choix des termes, les tournures des phrases doivent être adaptées
au public.
La validité des résultats obtenus est déterminée par la rédaction des questions.
5.2.2. Nombre de questions
Seules les questions nécessaires aux informations recherchées seront retenues.
Les questions qui n’ont pas de lien direct avec les objectifs de l’étude doivent être
supprimées.
5.2.3. Libellé des questions
Plusieurs risques menacent le rédacteur d’un questionnaire :
Le premier risque est de ne pas être compris ou mal compris par la personne
interrogée.
Le deuxième risque consiste à demander aux répondants des informations trop
difficiles.
Le troisième risque est de provoquer la lassitude du répondant par un questionnaire
long.

5.2.4. Déformation des réponses : une attention particulière


Le problème de la déformation doit retenir toute l’attention de l’analyste.
La formulation des questions doit prévenir tout biais lié au répondant :
- Les réponses dues à la formulation des questions ;

24
- La peur de certains mots ;
- L’influence des références à des personnalités ;
- La réaction défensive à l’engagement dans le questionnaire ;
- La réaction défensive aux chargements brusques de thème.

5.3. Structure du questionnaire

L’ordre dans lequel les questions sont posées n’est pas sans influencer les résultats de
l’enquête.
Les différentes questions ne doivent pas être présentées au hasard. Un ordre précis doit
être respecté. Plus le répondant est livré à lui-même, plus un certain ordre est
nécessaire.
- En acceptant de répondre, l’interrogé fait une concession à l’enquêteur. Il faut
donc, après avoir contacté l’interlocuteur, pouvoir, dès les premières questions,
le motiver.
- Les questions doivent se succéder dans un ordre logique. La notoriété doit
précéder l’utilisation. Ainsi « Quelles marques connaissez-vous? » précède la
question « Quelles marques utilisez-vous ? ». Chaque sujet doit être couvert
entièrement dans une séquence de questions. Il faut éviter ces « aller-retour »
qui fatiguent et énervent la personne interrogée.
- Toute question doit avoir un caractère plus général et plus large que la question
suivante. Il s’agit de développer une approche en entonnoir.
- Des questions filtres doivent être placées à plusieurs endroits du questionnaire.

5.3.1. Cheminement et ordinogramme

Généralement, après un mot d’introduction, qui permet de garantir que l’objet de


l’enquête sera présenté de manière uniforme aux répondants, les premières questions
qui apparaissent sont les questions filtres qui servent à déterminer si l’interlocuteur
appartient ou non à la cible.

25
Ensuite le questionnaire sera donné. Les questions doivent être organisées les unes par
rapport aux autres. Le cheminement du questionnaire doit être de manière à éviter que
la réponse à une question ne soit influencée par la réponse à la question précédente
(effet d’ordre).
Le questionnaire se termine, si possible, sur l’identification de l’interrogé et le
remercie pour sa participation.

5.3.2. Présentation et mise en page

La présentation d’un questionnaire impose un certain nombre de règles simple


dont le respect a une incidence sur :
- Le temps et le coût d’impression ;
- La lisibilité et la clarté ;
- La bonne conduite de l’interview ;
- La saisie des données.
Il importe que le questionnaire apparaisse :
- Maniable ;
- Facile à lire ;
- Facile à remplir ;
- Agréable à l’œil ;
- Facile à dépouiller.

6. TEST DU QUESTIONNAIRE

Le test consiste à soumettre le questionnaire à quelques personnes. Il a pour but d’en


évaluer l’efficacité. Sa réalisation est indispensable car elle est susceptible d’améliorer
très sensiblement la qualité du questionnaire.
Le test ne s’intéresse pas seulement à la forme du questionnaire. Il s’intéresse aussi
aux modalités de déroulement de l’enquête : périodes, jours, heures les plus favorables
pour contacter les répondants potentiels.

26
Le test sera réalisé auprès de la même population qui sert de base au tirage de
l’échantillon. Il ne s’agit pas d’interroger les mêmes personnes deux fois, mais de
retenir des individus semblables en fonction des critères de définition de la population.
Le nombre de questionnaire à tester variera en fonction de l’objectif poursuivi.
Si le contenu seul est testé, 20 à 30 questionnaires suffisent :
Si le chargé d’études souhaite disposer d’une prévision de réponses, pour pro-coder
une question, un minimum de 100 entretiens est nécessaire.

II. TECHNIQUES D’ECHANTILLONNAGE

Afin de recueillir des données sur le terrain deux principales méthodes existent :
soit faire un recensement de la population, soit effectué un sondage. Le
recensement serait idéal car elle consiste à interroger tous les individus de la
population. Seulement, il est très souvent irréalisable peut-être du fait de la trop
grande taille de la population, des ressources humaines et financières limitées
pour la conduite de l’enquête, ou encore du fait des contraintes géographiques et
climatiques. Aussi un recensement de la population entière n’entraine pas
automatiquement un risque zéro car il peut être faussé par un grand nombre
d’erreurs ou être pratiquement irréalisable. Dans de tels cas, nous sommes
contraints de n’étudier qu’une partie de la population et d’extrapoler les résultats
obtenus à l’ensemble de la population car ce n’est pas l’échantillon en lui qui
intéresse l’enquêteur, mais ce qu’il est possible d’apprendre sur ce dernier et la
possibilité d’appliquer ces informations à l’ensemble de la population.

On désigne par techniques d’échantillonnage, l’ensemble des méthodes qui


permettent de choisir les échantillons issues d’une population donnée. Le terme
sondage sera utilisé lorsque l’enquête porte sur une partie de la population. Le
taux de sondage sera le rapporte entre la taille de l’échantillon (n) et celle de la
population (N). On a coutume d’entendre « selon les derniers sondages dans les

27
villes,… le candidat,…est favoris,… ». Ou encore selon la troisième enquête sur
les ménages au Cameroun,… » ou « Selon le recensement de la population du
Cameroun effectué en 2005, le pays compte 17 463 836 habitants ». Aussi
effectuer une étude sur les 170 entreprises de transport au Cameroun avec un
taux de sondage de 1/10 consiste à interroger 17 de ces entreprises.

On distingue les méthodes d’échantillonnages probabilistes des méthodes non


probabilistes.

1. Méthodes d’échantillonnage probabilistes.

L’essence même des techniques d’échantillonnage est de pouvoir fournir des


échantillons qui seraient suffisamment représentatif de la population, c’est-à-
dire qui reproduiraient aussi fidèlement que possible les principales
caractéristiques de la population étudiée.

Si l’échantillonnage est fait de sorte que chaque unité de la population ait des
chances égales de faire partie de l’échantillon et si la probabilité de sélection de
chacune des unités est connue, on parle de méthode d’échantillonnage aléatoire
probabiliste.Les lois statistiques et de probabilités associées assurent la
représentativité des échantillons formés à l’aide de telles méthodes. Parmi ces
méthodes, les plus courantes sont :

- L’échantillonnage aléatoire simple ;


- L’échantillonnage systématique ;
- La stratification ;
- L’échantillonnage par grappes.

a) L’échantillonnage aléatoire simple

Elle consiste à énumérer puis à numéroter tous les éléments de la population (de
1 à N) et enfin à choisir aléatoirement n numéros. Seulement cette démarche
n’est applicable que si c’est la taille de la population et de l’échantillon sont à la
fois connues, dans le cas contraire on détermine la taille de l’échantillon en

28
fonction de la marge d’erreur qu’on souhaite avoir. Elle s’applique en général
sur des populations de petites tailles et disposant d’une faible dispersion
géographique.
Avantage de cette méthode : On peut espérer un échantillon « représentatif »
puisque la méthode donne à chaque individu de la population une chance égale.
Difficultés : la méthode n’est applicable que lorsqu’il existe une liste exhaustive
de toute la population.
Exemple : Dans le cadre d’une étude portant sur les performances des Micro
finances au Cameroun, un étudiant aimerait appliquer cette méthode pour former
un échantillon. Il vous contacte et vous donne N=10.000 et T=5%.
n 5 5
T= = ⇒n= . N =500
Solution. N 100 100

Ainsi en s’intéressant aux numéros d’enregistrement de ces entreprises au


registre du commerce, on pourra utiliser la table des nombres aléatoires 2 pour
sélectionner 500 des 10.000 numéros d’enregistrement qu’on aura. Enfin on
interroge les 500 entreprises correspondant à chacun des 500 numéros choisit.
b) Echantillonnage systématique

Lorsque la taille de la population est très grande, la méthode précédente devient


très laborieuse, d’où la nécessité de recourir à l’échantillonnage systématique
qui consiste à choisirles unités, qui sont à intervalle régulier dans la base de
sondage.
Pour construire un tel échantillon, on numérote tout d’abord les éléments de la
N
k =E( )
population de 1 à N, puis on calcule le pas de sondage n , c’est la partie
entière du pas ; par la suite on choisit de manière aléatoire un numéro i entre 1 et k,
enfin l’échantillon est constitué en interrogeant les unités dont les numéros sont
i ; i+k ; i+2k ; i+3k ;…..i+(n-1)k.
Avantages : facile à sélectionner parce qu’un seul individu est choisi au hasard. On
peut obtenir une bonne précision parce que la méthode permet de répartir l’échantillon
dans l’ensemble de la liste.
Désavantages :Les données peuvent être biaisées à cause de la périodicité.

NB. Si la population est distribuée au hasard dans la base de sondage, un


échantillonnage systématique donnera des résultats similaires à ceux d’un

2
C’est une table dans laquelle chacun des chiffres ou chaque séquence de chiffres à la même chance
d’apparaitre.

29
échantillonnage aléatoire simple. Cette méthode est très utilisée dans les contrôles de
qualité.

Exemple : Appliquez la méthode d’échantillonnage systématique pour former


une sélection7 des 32 étudiants de Master 1 qui feront partie d’une certaine
commission.
SolutionEn supposant leurs numéros de matricule comme système de
N 32
k =E( )=E ( )=E (4 . 57 )=4 .
numérotation, et ayant comme pas n 7 En choisissant
comme numéro du 1er individu 4, alors les étudiants à retenir sont ceux dont les
numéros sont : 4 ; 8 ;12 ;16 ;20 ; 24 et28.
c) La stratification

Il arrive bien de fois qu’étant donnée l’objet et la spécificité de l’étude, certaines


caractéristiques majeures de la population doivent être considéré. Dans ce cas, la
population est maintenant vu comme un ensemble hétérogène dont il faudrait
tout d’abord subdiviser en différents sous ensemble homogènes à l’intérieurde
chacun desquels des sous échantillons peuvent être prélevé aléatoirement afin
d’avoir un échantillon représentatif de la population. Il s’agit là de la
stratification et les sous ensemble à l’intérieur des quels des sous échantillons
sont prélevés forment des strates.
Ainsi, dans le cadre d’une étude sur les revenus des camerounais, on pourrait
être tenté d’admettre qu’il serait judicieux de prendre en compte la région
d’origine du répondant. Dans ce cas, pour former notre échantillon, on devra
tout d’abord diviser le Cameroun en dix blocs (car on a 10 régions au
Cameroun), puis regrouper les individus par région de sorte qu’un bloc ne
contienne que les unités originaires de la même région. Enfin, en fonction du
taux de sondage, extraire aléatoirement des unités au sein de chacune des 10
strates afin de constituer son échantillon.
A la différence des deux précédentes méthodes, cette méthode n’est applicable
que si l’enquêteur dispose de suffisamment d’informations sur la population
d’intérêt.
Les variables de stratification doivent être :
- Simple à utiliser
- Facile à observer
- Etroitement reliées au thème de l’enquête

30
Avantages : Il est peu probable de choisir un échantillon absurde puisqu’on
s’assure de la présence proportionnelle de tous les divers sous-groupes
composant la population.
Désavantages : La méthode suppose l’existence d’une liste de la population. Il
faut aussi connaitre comment cette population se répartit selon certaines strates.

d) Echantillonnage par grappes.

Elle est similaires à la stratification à la différence qu’ici ce sont les groupes (et
non les unités) qui sont choisis de manière aléatoire. Une grappe désigne tout
sous ensemble non homogène de la population d’intérêt. On s‘applique
généralement quand il est très difficile d’atteindre toutes les unités statistiques
de la population du fait d’une grande dispersion géographique. Elle possède
l’avantage d’être économique. On peut retenir un échantillon de 2 filières en
Master et 1 filière en HND dans le cadre d’une étude sur le revenu des étudiants
de l’IUC.
Avantages : la méthode de nécessite pas une liste globale de la population
puisque seules les individus inclus dans les grappes comptent. Elle permet de
limiter l’échantillon à des groupes compacts ce qui permet de réduire les coûts
de déplacement, de suivi et de supervision.
Désavantages : la méthode peut entrainer des résultats imprécis (moins précis
que les méthodes précédentes) puisque les unités voisines ont tendance de se
rassembler. Elle ne permet pas de contrôler la taille finale de l’échantillon.
2) Echantillonnage non probabiliste ou non aléatoire.

A la différence des méthodes probabilistes, les méthodes non probabilistes ou


empiriques ne s’appuient pas sur le hasardpour former les échantillons. Encore
appelées méthodes par choix raisonnés ou empiriques, ces méthodes ont le
défaut de proposer des échantillons à l’aide des quels on ne saurait mesurer le
niveau de précision de leur estimateur.Elles ne nécessitent pas de base de
sondage et sont très souvent utilisées pour des études exploratoires ; pour

31
réduire les coûts ou quand il est impossible ou non envisageable d’utiliser la
méthode aléatoire.

Les plus courantes sont :

- La méthode accidentelle : L’unité statistique est formé à l’aveuglette, de


manière accidentelle. Les éléments sont choisis au fur et à mesure qu’ils
se présentent, sans tri. C’est le cas lorsqu’un étudiant remet son
questionnaire aux 10 premiers taximen qu’il croise s’il est en train de
mener une étude sur le comportement des hommes en jaunes.
- L’échantillonnage par choix raisonné (au jugé) : Ici l’échantillon est
formé sur la base de l’opinion d’un ou plusieurs spécialistes suffisamment
éclairés pour identifier les unités qui représentent adéquatement la
population. Son défaut est qu’il parait difficile d’évaluer objectivement le
niveau de représentativité de tels échantillons.
- L’échantillonnage volontaire : Elle est courante en biologie car c’est
l’unité statistique qui accepte de son plein gré de faire partir de
l’échantillon et lorsque la taille requise est atteint, on met fin au
processus. Il existe certain biais du fait que les volontaires ont très
souvent certains points communs.
- La méthode des quotas. Elle est largement utilisé dans les enquêtes
d’opinion et les études de marché notamment parce qu’il ne suppose pas
de liste des individus de la population. On parle aussi d’échantillonnage
dirigé ou par choix raisonné. On demande aux enquêteurs de faire un
nombre d’entrevues dans divers groupes établis en fonction du secteur
géographiques, de l’âge, du sexe ou d’autres caractéristiques…
L’enquêteur doit respecter son quota.

Avantages : Moins coûteuse et plus facile à réaliser.

32
Désavantages : Beaucoup de non-réponses ; difficulté de trancher lorsqu’il
s’agit de sélectionner des individus d’un groupe d’âge ouvert (Exemple : 65 ans
et plus : faut-il rendre 66 ans, 70 ans …).

Exemple
Appliquez la méthode des quotas pour former un échantillon issu d’une population ayant les
caractéristiques suivantes. On donne T=0.2.
Sexe Tranche d’âge Niveau
Homme 800 -16ans 400 CEP 600
Femme 1200 Entre 16 et 18ans 800 BEPC 800
Entre 19 et 22 ans 600 Probatoire 400
Plus de 22ans 200 BACC 200

Eléments de réponses.
Puisque N=2 000 et T=0.2 alors notre échantillon sera de taille n=N*T=400.
Suivant le critère Sexe on devra interroger 0.2*800=160 hommes et
0.2*1200=240 femmes.

Suivant la tranche d’âge, des 400 personnes à interroger, 0.2*400=80 doivent


avoir moins de 16ans, 0.2*800=160 doivent être âgés entre 16 et 18 ans,
0.2*600=120 entre 19 et 22 ans et 0.2*200=40 doivent avoir plus de 22 ans.
Suivant le niveau académique, des 400 personnes, 0.2*600=120 auront le CEP,
0.2*800= 160 doivent avoir le BEPC, 0.2*400=80 de niveau Probatoire et
0.2*200=40 doivent avoir le BACC.
En combinant sexe et tranche, il faudrait juste s’assurer que la proportion de
chaque sexe dans la population soit respectée dans chaque tranche d’âge. Ainsi
des 60 personnes de moins de 16 ans 60*800/2000=24 doivent être des hommes
et 36 des femmes ; sur les 160 âgés entre 16 et 18 ans 160*800/2000=64 doivent
être des hommes et 96 des femmes ; sur les 120 autres, 120*800/2000=48

33
doivent être des hommes et 72 des femmes. Enfin sur les 40 âgées de plus de 22
ans, on aura 40*800/2000=16 hommes et 24 femmes. D’autres cas, peuvent être
analysés afin d’avoir un échantillon plus précis.

34
Chapitre 2 : ANALYSE UNIVARIEE ET
BIVARIEE

I. ANALYSE UNIVARIEE
Une variable est une caractéristique étudiée pour une population donnée. Elle peut être
soit quantitative soit qualitative. Le cas où la variable d’intérêt est quantitative
(discrète ou continue a été étudier dans les cycles antérieurs. Nous y reviendrons qu’au
travers de certains des exercices. Une attention particulière est accordée l’étude d’une
variable qualitative.
1. Variable Quantitative

Exercice1
Lors d’un examen écrit, un correcteur a obtenu les notes
suivantes :11,11,11,7,6,13,13,7,4,9,5,10,11,8,14,15,8,10,4,9,10,14,10,11,9,7,7,6,10,6,1
1,10,8,8, 11,7,6,8,11,12,14,9,12,7,8,8,16,14,9,10,7,10,10,12.
1. De quel type de variable s’agit-il?
2. Ressortir son tableau statistique et déterminer son mode.
3. Quelle est la note moyenne à cet examen?
4. Calculer l’écart-type de cette série statistique.
5. Ressortir son tableau statistique après avoir regroupé les données en 5 classes.
6. Quelle est la classe modale? La classe médiane ?
7. Quelle est le pourcentage des élèves ayant une note inférieure à 16.
Exercice 2
On a consigné les primes de fin d’année attribuées aux salariés d’une entreprise dans le
tableau
P(1um=1000fcfa) [0; 6[ [6; 10[ [10; 12[ [12; 14[ [14; 16[
suivant :
ni 42 72 102 69 15

1. Quelle est la population étudiée? Quel est le caractère étudié? Quelle est la nature de
ce caractère?
2. Déterminer la moyenne et l’écart-type de cette série statistique.
3. Tracer l’histogramme des effectifs.

35
4. Déterminer la courbe cumulative des fréquences
5. Déterminer graphiquement la médiane et interpréter.

2. Variable Qualitative

L’analyse statistique unidimensionnelle a pour but d’apporter et de résumer au mieux


l’information concernant une variable déterminée à travers des graphiques (analyse
statistique) et de même, elle vise à tester si cette variable suit une loi théorique
(analyse explicative). La variable étudiée est qualitative (nominale ou ordinale).

2.1. variables nominales

Les variables nominales sont des variables qui offrent le moins de possibilités en
matière de traitement statistique. L’analyse graphique repose sur les fréquences
relatives ou absolues. Le type de graphique peut être un diagramme en tuyau d’orgue
ou un camembert. L’analyse statistique repose sur un test qui est le test de Khi deux.

Exemple

On voudrait savoir si les clients d’un magasin apprécient plus les produits alimentaires
ou non. Ils peuvent acheter soit uniquement les produits alimentaires ; soit les produits
non alimentaires ou alors les deux. Une enquête est réalisée auprès d’un échantillon de
60 clients de ce magasin. On a obtenu les informations suivantes :

Produits Achetés ni
Alimentaires 26
Non alimentaires 18
Les deux 16
n 60

Tester si la fréquence d’achat est répartie de façon égale dans ces trois niveaux de
fréquence au seuil α = 5% et α = 1%

Eléments de réponses.

Le test statistique utilisé est le Khi-deux. Il permet de savoir au seuil de α si les clients
du supermarché achètent à égale fréquence ou non.

Les hypothèses à tester sont :


Ho : il n’ya pas de différence significative entre les fréquences observées et les
fréquences théoriques
H1 : il y a des différences significatives entre les fréquences observées et les
fréquences théoriques

36
La statistique utilisée mesure l’écart entre la distribution observée et la distribution
théorique. Elle est donnée par :
2
k
( Oi −T i )
χ =∑
2

i=1 Ti
n
Où T i= , la fréquence théorique de la catégorie i
k
Oi est la fréquence observée de la catégorie i ; k est le nombre total de catégories
n est la fréquence totale ou effectif total de l’étude,

La règle de décision
Sous Ho, la statistique χ 2 suit une loi de Khi-deux à (k-1) degré de liberté. Ainsi, pour
un coefficient de risque α fixé, la valeur critique χ αk −1 est lue dans la table du khi-deux
à (k-1) degré de liberté. Ainsi, si χ 2 > χ αk−1, on accepte H1.

60
En revenant à l’exemple, T i= =20
3
On a le tableau ci-après :
Produits Achetés Fréquences observées ( Fréquences théoriques
Oi) (T i)
Alimentaires 26 20
Non alimentaires 18 20
Les deux 16 20
total 60 60

( 26−20 )2 ( 18−20 )2 ( 16−20 )2


2
χ= + + =2 ,8
20 20 20

Pour α = 5%, χ αk −1= χ 53−1


%
=5 , 9

Pour α = 1%, χ αk −1= χ 13−1


%
=9 , 2

On constate que, quel que soit le seuil, on a χ 2 < χ αk−1; on accepte Ho. Les clients de ce
supermarché achète à égale fréquences les produits alimentaires, les produits non
alimentaires ou alors les deux. On ne peut pas dire qu’ils préfèrent plus exclusivement
les produits alimentaires que d’autres.

Exemple :
Une enquête porte sur les marques de pâtes dentifrices utilisées par les ménages. On a
le tableau statistique ci-après :

Nom de
la U V X Y Z Autres Total
marque
possédée
Effectif 30 40 30 30 50 40 220

37
observé

y a-t-il une différence significative entre les marques de pates dentifrice au seuil de
5% ?

b)- Variables ordinales

Ces sont des variables dont les modalités sont ordonnées. En plus des fréquences
relatives, les variables ordinales permettent de calculer les cumuls (effectifs cumulés ;
fréquences cumulées).

La statistique utilisée pour savoir si les variables observées sont significativement


différentes des variables théoriques est le test de Kolmogorov-Smirnov.

Les hypothèses du test sont suivantes :


Ho : les valeurs observées dans l’échantillon ne sont pas significativement
différentes des valeurs théoriques
H1 : les valeurs observées sont significativement différentes des valeurs
théoriques.

Le principe du test consiste à calculer la distribution cumulée des proportions


théoriques et, à la comparer à la distribution cumulée des proportions observées de
l’échantillon. La statistique D est l’écart maximum en valeur absolue entre les
proportions cumulées observées (PcO) et les proportions cumulées théoriques (PcT).
1
(NB : Le calcul des fréquences relatives théoriques se fait par la formule avec
k
k, le nombre de modalités).

D = max|PcO−PcT |

La valeur critique Dα , au seuil α , pour un échantillon de taille n est donnée par


la table statistique de Kolmogorov.

Si D > Dα , on accepte l’hypothèse alternative

Exemple :
On veut tester, au seuil de 1%, si la répartition des fréquences d’achat d’un
produit est significativement différente d’une répartition théorique où les produits
seraient achetés à proportion égale à chaque niveau de fréquence. Une enquête sur un
échantillon de 46 consommateurs de ce produit a donné les résultats suivants :

Niveau Une fois Très peu souvent De temps en temps Régulièrement


Fréquence 21 16 8 1

38
Solution
Niveau Fréquence Proportion Proportion Proportion Proportion
Observée observée Observée théorique théorique Différence
cumulée ( 1 cumulée
PcO ¿ k ( PcT )
1 21 0,46 0,46 0,25 0,25 0,21
2 16 0,35 0,81 0,25 0,50 0,31
3 8 0,17 0,98 0,25 0,75 0,23
4 1 0,02 1 0,25 1 0

D = 0,31
1 ,63
Pour α = 1%, D α = =0,24
√ 46
D > Dα , on accepte H1 c'est-à-dire que la répartition des achats du produit est
significativement différente d’une répartition théorique. Cette répartition est très
importante chez les consommateurs dont les fréquences d’achats sont faibles.

Exercice :
Le tableau statistique ci-après donne le niveau d’utilité des pâtes dentifrices pour un
groupe de personnes enquêtées.
Niveau Inutile Utile Très utile Indispensabl Total
d’utilité e
Fréquence 10 90 80 60 240

Peut-on dire, au seuil de 1% et de 5%, qu’il y a une différence significative dans le


niveau d’utilisation des pâtes dentifrices ?

II. ANALYSE BIVARIE


En statistique uni varié, nous avons remarquez qu’une variable pouvait être soit
quantitative, soit qualitative. Lorsque nous étudions le lien entre deux variables, trois
situations sont donc possibles : soit elles sont
- toutes quantitatives ;
- toutes qualitatives ;
- de types différents.

1. CAS DE DEUX VARIABLES QUANTITATIVES


Ce cas a été abondamment développé dans les niveaux antérieurs et nous en
reviendrons dans le prochain chapitre. Toutefois voici quelques exemples illustratifs.
Exercice 1.

39
Une entreprise étudie l’évolution de son CA dont les valeurs observées en Milliers de
Francs sont contenues dans le tableau suivant :
Année 2009 2010 2011 2012 2013 2014 2015

Rang, X 0 1 2 3 4 5 6

CA, Y 400 432 472 508 552 596 652

1. Représentez graphiquement le nuage de points dans un repère dont l’origine


correspond au point (0;400). On prendra 2cm pour une année et 1mm pour
100 milliers de Francs. Commentez-le.
2. Calculez les moyennes et les variances marginales associées à X et à Y.
3. Calculez puis commenter les valeurs des coefficients de corrélation et
d’amélioration.
4. Déterminez la droite d’ajustement linéaire par la méthode de Mayer.
5. Quelle serait le CA estimé de cette entreprise à la fin de cette année ?

2. CAS DE DEUX VARIABLES DE TYPES DIFFERENTS

Il est bon de rappeler que quand nous voulons mesurer le degré de liaison entre de
variables, il est toujours recommandé de débuter par une représentation graphique.
Lorsque ces variables seront de types différents, on ne parlera plus de nuage de points
mais de boite à moustache ou de diagramme en boite parallèles. Puis l’indicateur
utilisé pour quantifier le degré de liaison ne sera plus le coefficient de corrélation ni le
coefficient d’amélioration mais le rapport de corrélation.
a) Boite à moustache

Etant donnée une variable quantitative Y et une variable qualitative X ayant r


modalités, l’évolution des valeurs moyennes de Y au sein de chacune des classes
formées des r modalités de X donne une idée du lien entre X et Y. Ceci est perçut
dans cette.
Illustrons ce diagramme au travers d’un exemple :
Exemple.
L’on aimerait savoir si les recettes des micro-finances sont fonction du type de
quartiers dans lequel elles sont implantées. Ayant recensé 4 types possibles de
quartiers (x1 ; x2 ;x3 et x4) et ayant interrogé 19 de ces micro-finances on a eu les
résultats suivants :

40
Modalités de X

X1 X2 X3 X4
1 426 609 556 600
2 253 236 392 395
3 359 433 349 357
4 432 431 522 600
5 405 426 513 513
6 324 438 507 539
7 310 312 410 456
8 326 326 350 504
9 375 447 547 548
10 286 286 403 422
11 349 382 473 497
12 429 410 488 547
13 348 377 447 514
14 412 473 472 446
15 347 326 455 468
16 434 458 637 524
17 364 367 432 469
18 420 395 508 531
19 397 556 645 625
TAF : Représentez le diagramme en boîtes parallèle associé à ce diagramme
Eléments de réponses. Ce diagramme sera fait en classe.
Plus les boites seront positionnées différemment, plus les valeurs de Y seront fonction
de X, et donc plus fort sera le lien entre Y et X.
Le diagramme associé aux données ci-dessus laisse entrevoir une relation relativement
importante entre les deux variables.

41
b) Le rapport de corrélation

Afin de définir cet indice, nous nous devons de connaitre les deux formules suivantes
dites formules de décomposition de la moyenne et de la variance de la variable
quantitative Y.
Formules de décomposition
r
1
ȳ= ∑ nl ȳ l
n l=1
r r
1 1
σ 2y = ∑
n l =1
nl ( ȳ l− ȳ )2 + ∑ nl σ 2l =σ 2E +σ 2R
n l=1
2 2
σ σ
Où est la variance de Y, l la variance de Y dans la classe l ; ȳ la valeur moyenne
y

de Y, l la
ȳ n
moyenne de Y dans la classe l l l’effectif de la classe l ;
r r
1 1
σ 2E = ∑ nl ( ȳl − ȳ )2 σ 2R = ∑ nl σ 2l
n l=1 la variance expliquée par la partition de X et n l=1 est la
variance résiduelles, ou intra-classe.
Une fois ces formules connues, le rapport de corrélation est donné par :

SY / X =
√ σ 2E
σ 2y

Interprétations
- Il est toujours positif et inférieur 1.
- Plus il est grand, plus fort est le lien entre les deux variables.
- Aussi s’il est nul alors on conclut que X et Y sont indépendants.
- S’il vaut 1 on dit qu’il existe une liaison totale entre X et Y.
Exemple
Ce servir des données ci-dessus pour calculer le rapport de corrélation.
Eléments de réponses :

On a
SY / X =
√ 2973. 94
8305 .9
≈0 .6
. La liaison entre X et Y est donc supérieur à la moyenne.

3. CAS DE DEUX VARIABLES QUALITATIVES

42
Dans ce cas, après présenté les données sous la forme d’un tableau de contingence, la
construction d’un diagramme de profil ligne ou de profil colonne nous donnera une
première idée du niveau de liaison entre ces variables. Idée devant plus tard être
confirmé par le calcul du khi-2 et de ses dérivées. Nous considérons deux variables
qualitatives ayant r et c modalités respectivement.
a) Diagramme des profils

Pour le profil ligne, à chaque ligne du tableau de contingence correspond un profil qui
est obtenu à l’aide des fréquences marginales. Idem pour le profil colonne. Nous
l’illustrerons dans l’exemple ci-dessous.

b) Calcul des Indices

Les indices les plus utilisés ici :


Le khi deux

où Oij est l’effectif observé et l’effectif théorique tij est définit


n. j .ni .
t ij=
par : n
NB. Plus il est grand, plus fort est le lien entre les deux variables. Seulement sa
dépendance à n et le fait qu’il soit non borné en sont ses principales limites.

χ2
Φ 2=
- Le phi – deux : Il est définit par : n

- Le T de Tschuprow :Il se donne par :


T=

nombres de modalités des variables qualitatives.


√ Φ2
(r−1 )(c−1) où r et c sont les

NB on a 0≤T ≤1.

- Le C de Cramer
C=
√ Φ2
d−1 où d=min (r, c).

NB. On a toujours0≤T ≤C≤1. Dans la pratique ils sont rarement supérieur à 0.5.

Exemple
Le tableau ci-dessous donne la répartition des groupes sanguins dans trois villages V1,
V2 et V3. On se demande si cette répartition diffère selon le lieu géographique.

43
A B AB O
V1 220 50 30 200
V2 390 90 70 450
V3 310 70 40 380

1. Représentez le diagramme des profils lignes associé à ce tableau.


2. Le groupe sanguin et la localisation géographique sont-ils liés ?

Eléments de réponses :
1. A dessiner en classe.
2. Les variables sont : village (de 3 modalités) et groupe sanguin (de 4 modalités)
Il s’agit pour nous de faire un test d’indépendance du Khi deux dont les hypothèses :
H0 : Village et groupe sanguin sont indépendants
(H1) : Village et groupe sanguin sont liés.
Calculons la statistique du test :
Le tableau suivant donne le calcul du 𝜒2 khi-deux.

Gpe sanguin A B AB O
Villages ObservThéoriq Observé Observé Théoriq Observé Théoriq Totaux
Théoriq

V1 220 200 50 45.65217 30 30.43478 200 223.91304 500

V2 390 400 90 91.30435 70 60.86957 450 447.82609 1 000

V3 310 320 70 73.04348 40 48.69565 380 358.26087 800

Totaux 920 210 140 1 030 2 300

Comme , on a le tableau suivant


2 0.414070393 6.21118*10-3 2.553820182 4.974101753

0.25 0.018633539 1.369565223 0.010552975 1.648751737

0.3125 0.126811597 1.55279504 1.319121988 3.311228625

2.5625 0.559515529 2.928571443 3.883495145 9.934082118

Soit une valeur calculée du khi deux de 9.9341.

44
Puisque N=2300≻30 et tous les effectifs théoriques sont supérieurs à 5, alors la
statistique du test suit la loi du Khi-2 à (4-1)(3-1)=6 degrés de liberté soit
χ 20 .05 ;6 =12.5916 . Comme χ 2cal ≺ χ 2lu alors on n’a pas suffisamment d’informations pour
rejeter H0 et donc le groupe sanguin serait indépendant de la localisation
géographique.
Exercice.
Après avoir interrogé 2000 personnes voulant voyager sur leur moyen de transport et
leur destination, on a eu les résultats suivants :
Village Plage Zoo Total
Taxi 250 1300
Train 200 250
Bus 200 200
Total 465 1100 435 2000
Après avoir complété le tableau, dites-nous s’il existe un lien entre la destination et le
moyen de transport utilisé à l’aide d’un test du Khi-deux.
Exercice.
Un savant prétend avoir inventé un médicament qui traite une certaine maladie. Sur
une population de 2000 personnes supposées malades, on a eu les données suivantes :
Traité Non Traité Total
Guéris 38.1 % 21.9% 60%
Non Guéris 18.9% 21.1% 40%
Total 57% 43% 100%
1. Déterminez les tableaux des effectifs et des effectifs théoriques.
Peut-on dire que le caractère guérison est indépendant du caractère traitement ?
Utiliser le C de Cramer.

45
Chapitre 3 : REGRESSIONS LINEAIRES

Lorsqu’on analysait le lien qui existerait entre 2 variables quantitatives en


statistique bi variée, nous avons considérez ces variables comme symétriques.
On parlera d’une régression linéaire simple lorsqu’il serait possible d’expliquer
l’évolution d’une variable (dite dépendante) à l’aide d’une seule autre variable
(dite exogène) ceci au travers d’une relation linéaire. On se souviendra de la
fonction de consommation keynésienne dans laquelle la consommation d’un
agent est expliquée par son revenu. Seulement, bien de phénomènes sociaux-
économiques ne sauraient être décrit ainsi car ne dépendant pas d’une seule,
mais de plusieurs autres variables. Cet aspect est abordé dans la régression
linéaire multiple. Une telle méthode serait appliquée si l’on aimerait par
exemple pouvoir expliquer le chiffre d’affaire d’une entreprise en fonction de
ses dépenses publicitaires et du montant des impôts qu’elle paie ou dans le cas
où on aimerait savoir si les performances d’un athlète sont fonction de son âge
sa taille et de son poids. Du fait que la régression linéaire multiple mobilise
assez d’outils mathématiques, seul le principe générale sera présenté et une
simulation de la démarche à suivre sur logiciel sera faite.

I. REGRESSION LINEAIRE SIMPLE

Après avoir présenté la forme générale d’un modèle de régression linéaire


simple, nous procèderons à une estimation de ses paramètres, puis testerons tant
la significativité de ces paramètres que celui du modèle globalement.

1. Présentation du modèle
Si nous nous en tenons à la fonction de consommation keynésienne décrite par :
C=cY +C0 , où C est la consommation autonome, c la propension marginale à
0
consommer, Y le revenu et C la consommation, alors puisse que la
consommation est expliquée par le revenu, la 1ere sera dite endogène ou
expliquée tandis que la variable revenu sera la variable exogène ou explicative.

a) Spécification du modèle

Dans la pratique, cette relation peut être implémentée de trois manières :

46
- soit on interroge un même agent sur plusieurs périodes et dans ce cas
l’analyse est dite en série temporelle et la relation devient t
C =cY +C
t 0 où à
tout instant t, Ct et Yt désignent respectivement la consommation et le
revenu dont dispose l’agent. Ce serait le cas si un étudiant aimerait étudier
son niveau de consommation sur le mois en fonction de ses revenus
journalier.
- Soit on interroge un grand nombre d’individus au même instant, et ceci
renvoi à une analyse en coupe instantané ce qui est traduit par une relation
du type i
C =cY +C
i 0 où i représente un agent donné. C’est le cas lorsqu’une
entreprise effectue une enquête de satisfaction à instant donnée.
- D’autres phénomènes ne sont mieux cernés que s’ils conduisent à une
observation d’un ensemble d’individus sur plusieurs périodes : on parle
dans ce cas d’analyse en panel une représentation est du type :
C it =cY it +C 0 où C représente la consommation de l’agent i à l’instant t.
it

b) Le terme d’erreur

Modéliser un phénomène c’est se servir des outils mathématiques pour le


représenter le mieux possible, pour représenter le mieux possible la réalité.
De ce fait, les relations précédentes paraissent illusoires car il ne serait pas
judicieux de penser que seul le revenu pourrait expliquer le niveau de
consommation d’un individu. C’est ainsi que les relations précédentes ne
deviendront un modèle de régression linéaire simple que lorsqu’on y
introduira le terme d’erreur, soit :
C t =C 0 +cY t +ε t si nous retenons le modèle
en série temporelle.
Le terme d’erreur dans la relation précédente désignera l’ensemble des
phénomènes explicatifs de la consommation non liés au revenu. Il regroupe
très souvent trois types d’erreurs :
- Les erreurs de mesures :elle prend en compte les imperfections issues du
processus de collecte et de traitement des données.
- Les erreurs de spécifications : elle tient compte des omissions de certaines
variables clés dans le modèle.
- Les erreurs de fluctuations d’échantillonnage. Elle intègre le fait que d’un
échantillon à l’autre les observations et donc les estimations faites,
peuvent êtres différentes.
Afin de s’assurer que le modèle représentera le plus fidèlement possible la
réalité, ce terme d’erreur doit posséder les propriétés suivantes :

47
Propriétés : Le terme d’erreur doit être un bruit blanc, c’est-à-dire une variable
aléatoire normale centrée, non auto corrélée et de variance constante et fini.

2. Estimation des paramètres

Les paramètres à estimer dans notre modèle de régression linéaire


y t =a0 +a1 x t +ε t sont :a 0 eta 1 .

Deux méthodes, donnant des estimateurs quasi identiques de ces paramètres,


sont souvent utilisées mais nous ne présenterons que la seconde de ces deux
méthodes :
- Le Maximum de vraisemblance
- Les moindres carrées ordinaires (MCO).

Les Moindres Carrées Ordinaires.

En supposant le modèle précédent dans lequel le terme d’erreur vérifie les


hypothèses susmentionnées, une estimation des paramètres 0 eta 1 est obtenue en
a
minimisant la sommes des carrées des erreurs commises. Ainsi en résolvant le
n n n
Min ∑ ε 2t = ∑ ( y t − y t )2 = ∑ ( y t −(a0 +a1 x t ))2
programme : t=0 t=1 t=1 on a :

{
a1=
Cov(xt , yt )
Var(xt )
¿ ¿¿¿

n n n n
1 1 1 1
ȳ= ∑ y t ; x̄= ∑ xt Cov ( xt , y t )= ∑ xt . y t − x̄ . ȳ Var ( x t )= ∑ x 2t − x̄ 2
n t=1 n t =1 ; n t=1 ; n t =1

Exemple
On s’intéresse au lien qui existerait entre le rendement agricole (y) et les surfaces cultivées
(x). On a récolté les données suivantes auprès de 10 cultivateurs.
y 16 18 23 24 28 29 26 31 32 34

x 20 24 28 22 32 28 32 36 41 41

48
1. Formulez le modèle de régression linéaire associé puis rappeler les
hypothèses faites sur son terme d’erreur.
2. Déterminez la droite d’ajustement par les moindres carrées ordinaires.
Quelle serait le rendement sur une surface de 38 ?

Eléments de réponse : on a
y t =4.39+0.714 x t et y 11 =4 . 39+0 . 714∗38=31 . 522. Cette

droite de régression nous renseigne qu’une augmentation d’une unité de surface


cultivée entraine une augmentation du rendement de 0.714 unité.
Exercice : Répondre aux questions précédentes pour chacun des tableaux ci-dessous.
Epargne (y) 65 77 89 101 113 125 137 149 161 173
Revenu 80 100 120 140 160 180 200 220 240 260

Consommatio
n 55 88 90 80 118 120 145 135 145 175
Revenu 80 100 120 140 160 180 200 220 240 260
Eléments de réponses Et=0.6Rt+17 ; Ct=0.5761Rt+17,17.
3. Test de robustesse des paramètres.

Une fois l’estimation des paramètres achevée, il est bon de vérifier si les valeurs
obtenues sont statistiquement significatifs.
Remarque:
- Ces deux estimateurs sont sans biais.
2 1 x̄2
Var ( a 0 )=σ a0 =Var ( ε t )( + n
)
n
∑ ( x t − x̄ ) 2

- On a t=1 ;
Var ( ε t ) n n
∑ y 2t −n ȳ 2−a21 (∑ x 2t −n x̄ 2 )
2
Var ( a 1 )=σ a = n
1
SCR
∑ ( x t − x̄ )2 Var (ε t )=
n−k−1
= t=1
n−k −1
t =1

- t =1 ;

Les hypothèses dans le cas de chacun des paramètres sont :


H0 : le paramètre estimé n’est pas significatif.
H1 : le paramètre estimé est significativement différent de zéro.
ai
ta =
i σa
La statistique du test est : i

Pour les valeurs lues, on se servira de la table de la loi normale lorsque n≥30 et la
table de la loi de Studentsi n≺30 .

49
|t a |≻t lu a i est
S’agissant de la règle de décision, si i alors on rejette H0 et le paramètre
significativement différent de 0.
Exemple. Tester la robustesse de chacun des paramètres estimés à l’aide de chacun
des 3 tableaux.
Eléments de réponses :
Pour le tableau sur les rendements agricoles, on a
a1 0 .714
ta = = =5 . 609≻t 0 .975 ;( 8) =2 . 306
1 σ a 1 √ 0 .0162 donc la pente de notre droite de régression
est significativement différente de zéro. Aussi on constate que
a0 4 .39277
ta = = =1 .105≺t 0. 975;(8 ) =2 .306
0 σ a √ 15 . 774
0 ainsi nous n’avons pas suffisamment
d’éléments pour rejeter l’hypothèse selon laquelle la constante du modèle n’est pas
significative.

4. Test de significativité globale du Modèle de régression linéaire.

Nous mesurerons tout d’abord la contribution de la variable exogène dans l’explication


de la variable endogène, puis le tableau d’analyse de la variance nous permettra
d’effectuer ce test.
a) Les coefficients de détermination.

On distingue le coefficient de détermination et le coefficient de détermination ajusté.


La différence étant que le second prend en compte le degré de liberté lié au nombre de
variables explicatives dans le modèle. Le coefficient de détermination donne la
contribution des variables explicatives dans la détermination de la variable endogène.
n n n
∑ ( y t − ȳ t )2= ∑ ( y t − ȳ t )2+∑ ( y t − y t )2
En remarquant que t=1 t=1 t=1 on aura la formule de
décomposition de la variance suivante : SCT=SCE+SCR où
n
SCT=∑ ( y t − ȳ t )2
t =1 = Somme des carrées totaux
n
SCE=∑ ( y t − ȳ t )2
t =1 = Somme des carrées dû à la régression
n n
SCR=∑ ( y t − y t )2 =∑ ε 2t
t=1 t=1 = Somme des carrées des résidus.

50
Cette formule nous permet d’avoir les formules des coefficients de détermination :
SCE SCR
R2 = =1−
SCT SCT = coefficient de détermination

n−1
R̄2 =1−( )(1−R2 )
n−k −1 = coefficient de détermination ajusté où k est le nombre de
variables explicatives dans le modèle et n le nombre d’observations.

Remarques.

- R̄2 ≺ R2 .
2
- Si R̄ ≻0 .7 alors le pouvoir explicatif est bon et il y a présomption d’une
relation de cause à effet. On dit que la variable exogène contribue
significativement à l’explication des variations de la variable endogène
- R2 =ρ2 . Le coefficient de détermination est le carré du coefficient de
corrélation.
- De manière générale, les variables explicatives permettent d’expliquer
100∗R2 % de la variabilité totale de la variable expliquée.

Exemple. Calculer les coefficients de détermination dans chacun des trois tableaux ci-
dessus.
Eléments de réponses : les R² sont respectivement de 0.79727 ; 0.9116 et 1
respectivement.
b) Test de significativité globale

Etant un test d’hypothèses, les hypothèses sont les suivantes :


H0 : Le modèle n’amène rien à l’explication de la variable endogène.
H1 : Le modèle est globalement significatif.
SCE
1 R2
F= =
SCR 1− R2
La statistique du test est : n−2 n−2 qui suit une loi de Fischer à (1 ;
n-2) degrés de liberté à un seuil donné.
L’hypothèse nulle est rejetée si le Fischer calculé est supérieur à la valeur lue sur la
table.
Exemple
En reprenant l’exemple sur les rendements agricoles, tester la significativité globale du
modèle obtenu.

51
Eléments de réponses. Au seuil de 5% le Fischer lu à (1,10-2) degrés de liberté est
F 0.95 (1;8)=5.37655 . On aFcal=31.4619 ce qui conduit au rejet de H0 et donc le modèle
formulé est globalement significatif.

NB : √
FCal =t a .
1

REMARQUES.
A partir des modèles de régression linéaire, on peut définir d’autres types de modèles
de régression à savoir :
a
- Le modèle log-linéaire qui est de la forme : Y =bX
βX
- Le modèle exponentiel qui est de la forme :Y =α . e
- Le modèle logarithme qui est de la forme : Y == a ln ( X )+b .
Il peut paraitre tout aussi intéressant d’étudier des modèle de type particulier tels que
le modèle Logit et celui Probit.
Exercice :
A l'aide du tableau suivant, peut-on dire que l’homme (y) a un salaire plus élevé que sa
conjointe (x) lorsque les 2 sont salariés ? On a une série de 30 observations.

y 7,4 6,8 6,9 7,8 7,4 7,8 7,4 7,8 7,3 7,2 7,5 8,4 7,4 7,4 7,3 7,8 7,5
3 3 7 5 8 6 4 3 6 8 3 0 8 6 3 0 7

x 7,2 7,0 7,1 7,3 6,9 7,5 7.1 7,7 7,7 7,4 7,5 8,0 7,2 6,7 7,1 7,3 7,5
0 6 9 7 6 7 8 7 1 7 5 9 4 8 3

y 6,0 7,2 8,4 7,4 7,4 7,1 7,2 8,2 6,9 8,03 7,6 6,6 7,9
2 8 2 2 7 4 9 8 8 9 7 2

x 6,0 7,0 8,0 7,2 7,5 7,2 6,9 7,8 7,2 7,94 7,1 6,7 7,7
3 5 1 5 9 3 5 9 1 6 2

Eléments de réponses :
Un premier aperçu peut être obtenu en les représentants graphiquement :

52
évoolution des salaires des hommes et de leur conjointes
9
8
7
6
5
4
3
2
1
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

7,43 6,83 6,97 7,85 7,48 7,86 7,44 7,2 7,06 7,1 7,39 6,97 7,5 7.16

Nous supposerons un modèle de régression linéaire sans constante ( y=ax+ ε ) à partir


duquel nous ferons un test unilatéral dont les hypothèses sont :

H0 : a=1 (il n’existe aucune différence de salaire selon le genre)

H1 : a≻1 (l’homme a un salaire supérieur à celui de sa conjointe).

L’application des MCO conduit à y=1 . 02 x . La statistique du test est :


a−1 1. 0213−1
t a= = =3. 126≻t 0 . 95 ;29=1 . 6991
σa 0. 00682 d’où le rejet de H0 et la conclusion selon
laquelle le salaire de l’homme est significativement supérieur à celui de sa conjointe.
Exercice :
On souhaite expliquer la hauteur (en cm) d’un arbre en fonction de sa circonférence x
(en cm) à 1.30m du sol. On a eu les informations suivantes : n=1429 ;
n n
∑ ( y t − ȳ ) =8857 ∑ ( x t − x̄ )2=102924
( x , ȳ )=( 47 .3 ;21 .2 ) ;t =1
2

;t=1 ;
n
∑ ( y t − ȳ )(x t − x̄ )=26466
t=1

y =a0 +a1 x t +ε
1. Estimez par les MCO, les paramètres dans le modèle : t
2. Calculer le coefficient de détermination ajusté et commentez la qualité de
l’ajustement linéaire.
n
SCR=∑ ( y t − y t )2 =2052
3. Avec ces estimateurs, on a eu t=1 . Déduisez un estimateur
2
deσ ε .
4. Peut-on dire au seuil de 5%, que la circonférence d’un arbre à 1.30m du sol a
une influence significative sur la hauteur de l’arbre ?
Exercice

53
Une entreprise commerciale, voulant faire une prévision de ses ventes, vous contacte
et met à votre disposition les informations suivantes :
t 1 2 3 4 5 6 7 8 9 10

Ventes 12 15 20 24 18 16 19 21 27 30
Dpse Pub 2 2.8 3.4 3.9 3.1 2.9 3.2 3.6 4 4.5

1. Représentez l’évolution de ces deux indicateurs sur deux graphes distincts en


fonction du temps. Que constatez-vous ?
2. Construisez le nuage de points (en abscisse, les dépenses de publicité et en
ordonné, les ventes). Placez le point moyen sur ce graphique.
3. Proposez une relation linéaire entre les 2 variables après avoir rappelé les
hypothèses émises sur les résidus pour appliquer les MCO. Quelles sont les
autres types de relation mathématique qui peuvent exister entre des variables ?
4. Mesurez l’intensité de la liaison qui existe entre ces deux variables et
interprétez-la.
5. Estimez les paramètres de la relation linéaire ci-dessus par la méthode des
MCO
6. Testez la robustesse de chacun des paramètres estimés au seuil de 5%
7. Quel est le pouvoir explicatif du modèle estimé ? Interprétez
8. Testez la significativité globale du modèle estimé au seuil de 5%
9. L’entreprise cherche à atteindre les ventes de 35 la 11ieme année, quelle est
l’effort en dépense de pub qu’elle devrait fournir ?
Eléments de réponses
1).On constate que les variables évoluent dans le même sens. 2) le nuage de points
y =a0 +a1 x t +ε t où le
n’est pas dispersé et l’allure des points donne une droite. 3) t
terme d’erreur est une variable aléatoire normale centrée, non auto corrélé et de
y =7.63 x t −5.2855 . 4)
variance constante et fini. L’application des MCO conduit à : t
on a
ρ xy =0.9786≻0.7 donc il existe fort lien entre les dépenses en pub de cette
12 .1991
σ 2ε = =1. 5249
entreprise et ses ventes. 5)on a 10−1−1 ;

σa =
1
√ 1 . 5247
116 . 08−10∗3 .34 2
=√ 0 .33=0 .5805 σ =1. 9778
et a0 . Les statistiques des tests
−5.2855
t a =13 .1438≻t 0 . 975;8 =2 .306 |t a |=| |=2.6724≻t 0.975 ;8 =2.306
sont : 1 et 01 1.9778 . Ainsi
tous les coefficients de cette droite sont significativement différents de zéro. 6)
10−1
R̄2 =1− .(1−0 . 9557 )=0 . 9502≻0 .7
10−2 on dit que le pouvoir explicatif de ce modèle

54
10−1−1 0. 9557
F= . =172 . 5869≻F0 . 975 (1 ; 8)=7 .57
est très élevé. 7) 1 1−0 . 9557 ce modèle est
donc globalement significatif au seuil de 5%.
Exercice.
Le tableau ci-dessous donne les dépenses en milliers de francs d’un ménage moyen
en produits alimentaires au cours des 10 dernières années.
Année 200 200 200 200 201 201 201 201 201 201
6 7 8 9 0 1 2 3 4 5
Rang, xi de 0 1 2 3 4 5 6 7 8 9
l’année
Dépenses 398 451 423 501 673 956 107 128 142 149
7 5 7 0
1. Représentez le nuage de point associé à ce tableau dans un repère orthogonal
avec pour unités 1cm pour un rang en abscisse et 1cm pour 200. 000 en
ordonnée.
2. Déterminez les coordonnées du point moyen de ce nuage de point. Placez-le.
3. Appliquez la méthode des moindres carrées ordinaires pour trouver l’équation de
la droite de régression de y en x.
4. Calculez la somme des carrées des résidus pour cet ajustement. Que constatez-
vous?
5. En utilisant cet ajustement, effectuez une prévision sur les dépenses de l’année
2016.
6. La croissance semblant ralentir ces 3 dernières années, on envisage un ajustement
logarithmique. Pour cela on définit la variable ti ainsi ti = ln(xi) à partir de l’année
2011.
(a) Dressez un tableau donnant les valeurs de ti avec les valeurs correspondantes
de yi. (On arrondira à 10−3 près).
(b) Ecrivez l’équation de la droite d’ajustement de y en t.
(c) Servez-vous en pour prédire la valeur des dépenses de ce ménage en 2018.
7. Si au contraire on ne s’intéresse qu’à la période 2006 - 2012, la forme du nuage
suggère plutôt un ajustement exponentiel. Pour 0 ≤ i ≤ 6 on pose zi= ln(yi).
(a) Dressez un tableau donnant les valeurs de zi avec les valeurs
−3
correspondantes de xi. ( On arrondira à 10 près).
(b) Ecrivez l’équation de la droite d’ajustement de zi en xi.
(c) Servez-vous en pour prédire la valeur des dépenses de ce ménage en 2015.

55
II. Régression linéaire multiple.

Un étudiant attentif a du constaté que la plus part des notions définies dans la section
précédente faisaient intervenir un certains k dans les formules. En effet, lorsque k sera
plus de 1, on sera dans les problèmes de régression multiples et la plus part de ces
formules resteront valables.Cette partie sera essentiellement aborder en TP toutefois
présentons sommairement le principe.
Dans un modèle régression linéaire multiple, la variable endogène est expliquée par au
moins deux variables exogènes de sorte que le modèle puisse prendre la forme
suivante :

(Xi=¿ xi1¿)(xi2¿)(xi3¿)(.¿) ¿ Y=¿(y1¿)(y2¿)(y3¿)(.¿) ¿ ε=¿(ε1¿)(ε2¿)(ε3¿)(.¿) ¿


Y =a0 +a1 X 1 +a 2 X 2 +a3 X 3 +.. .+a n X n +ε .Où ¿ ; ¿ et ¿ .

Ce modèle admet une représentation matricielle suivante : Y = XA + ε où A est le


vecteur colonne formé des paramètres à estimer et X est la matrices des valeurs
observées des variables exogènes à différents instants.Le terme d’erreur ici sera
supposé identiquement et indépendamment distribué, non auto corrélé et de matrice
variance covariance constante. Résoudre ce problème revient à estimer les
composantes de A. On utilisera toujours la méthode des moindres carrées ordinaires.
Comme dans le cas simple, des hypothèses seront émises sur le terme d’erreur.

En résolvant le programme : Min ∑ ε2=(Y −X . A )' (Y−X . A )on a A=( X ' X )−1( X ' Y )
A présent passons à quelques illustrations sur un logiciel très souvent à notre portée :
Excel 2010. Pour cela débutons par la régression simple.

REGRESSION LINEAIRE SUR EXCEL 2010


1. REGRESSION LINEAIRE SIMPLE.
Afin de représenter le nuage de points on sélectionne les données, puis un clic droit
fait apparaitre une nouvelle page sur laquelle un clic sur analyse rapide puis sur
graphiques et enfin sur nuage de points nous donne le nuage de points voulu. Il est
possible d’aller dans graphiques sous Insertion pour avoir ce nuage de points.
Après avoir eu votre nuage de points, vous cliquez dessus, puis allez dans
dispositions rapide sur la barre d’outils standards puis sélectionner celle qui vous
donner l’équation de la droite de régression et la valeur du coefficient de
détermination.

56
Exemple. Aux données suivantes correspond le graphe suivant :
14, 12, 14, 11, 14, 12,
x 1 16 8 4,1 15 8,8 4 16,6 9 15,1 7,8 4 9 17 15,8 5 8,6 8 12
0,8 1,0 0,9 1,0 0,7 0,7 1,2 1,0 0,6 1,0 0,8
y 6 1,06 0,67 0,4 4 0,76 5 1,12 2 0,9 0,57 8 4 6 0,96 1 9 8 2

Nuage de Points
1.4
1.2
f(x) = 0.0577409186207306 x + 0.16527511783861
1 R² = 0.92139889966695
0.8
Series2
0.6
y

Linear (Series2)
0.4
0.2
0
0 2 4 6 8 10 12 14 16 18
x

Le tableau d’analyse de la variance associé à cette table est obtenu en cliquant sur
utilitaire d’analyse sous Données, puis sur ANOVA à un facteur. Dans plage d’entrée
vous sélectionnerez toutes les données, vous fixerez un seuil de confiance, et
sélectionnerez une cellule comme plage de sortie. Vous obtiendrez :
RAPPORT DÉTAILLÉ
Nombre
d'échantillo Som Moyen Varianc
Groupes ns me ne e
11,483 19,493
x 24 275,6 33 62
0,8283 0,0705
y 24 19,88 33 36
Et
ANALYSE DE VARIANCE
Degré
Somme des de Moyenne Valeur critique
Source des variations carrés liberté des carrés F pour F
Entre Groupes 1362,3483 1 1362,3483 139,2698 4,051748692
A l'intérieur des groupes 449,975667 46 9,78207971

Total 1812,32397 47

En s’y rendant toujours mais en cliquant sur régression au lieu de ANOVA on a :


Coefficient Statistique
s t
Constante 0,16206473 3,81906956

57
a 0,05847997 16,7906018

2. Régression multiple sur EXCEL


Au tableau de données suivants correspond la matrice suivante de variance
covariance :

Données
NICOTINE WEIGHT CO
TAR (mg) (mg) (g) (mg)
14,1 0,86 0,9853 13,6
16 1,06 1,0938 16,6
8 0,67 0,928 10,2
4,1 0,4 0,9462 5,4
15 1,04 0,8885 15
8,8 0,76 1,0267 9
12,4 0,95 0,9225 12,3
16,6 1,12 0,9372 16,3
14,9 1,02 0,8858 15,4
13,7 1,01 0,9643 13
15,1 0,9 0,9316 14,4
7,8 0,57 0,9705 10
11,4 0,78 1,124 10,2
9 0,74 0,8517 9,5
1 0,13 0,7851 1,5
17 1,26 0,9186 18,5
12,8 1,08 1,0395 12,6
15,8 0,96 0,9573 17,5
4,5 0,42 0,9106 4,9
14,5 1,01 1,007 15,9
7,3 0,61 0,9806 8,5
8,6 0,69 0,9693 10,6
15,2 1,02 0,9496 13,9
12 0,82 1,1184 14,9

Matrice de Variance Covariance.


NICOTINE WEIGHT CO
TAR (mg) (mg) (g) (mg)
TAR (mg) 1
NICOTINE (mg) 0,959895255 1
WEIGHT (g) 0,283516652 0,286105718 1
0,3101955
CO (mg) 0,966158326 0,930506369 1 1

58
Statistiques de la régression
Coefficient de détermination
multiple 0,98047834
Coefficient de détermination R^2 0,96133778
Coefficient de détermination R^2 0,95553845
Erreur-type 0,93097619
Observations 24

ANALYSE DE VARIANCE
Degr
é de Valeur
libert Somme Moyenne critique de
é des carrés des carrés F F
165,76697 2,7122E-
Régression 3 431,019 143,673 5 14
17,334333 0,8667166
Résidus 20 3 7
448,35333
Total 23 3

Coefficient Statistique
s Erreur-type t Probabilité
-
Constante 0,77474777 2,38076552 -0,3254196 0,74824339
NICOTINE (mg) 7,53857332 1,99559266 3,77761126 0,00118271
- -
WEIGHT (g) 0,92431027 2,57012701 0,35963603 0,72288881
CO (mg) 0,57187219 0,12594977 4,54047821 0,00019909

TAF. Commentez ces tableaux et reprendre ces analyses avec un autre tableau qui
vous sera fourni en TP.

59
60
CHAPITRE 4 : L’ANALYSE MULTIDIMENSIONNELLE L’ACP

L’analyse multidimensionnelle vise à synthétiser le comportement de n individus sur p


variables. Lorsque les variables sont quantitatives, on utilise l’Analyse en
Composantes Principales (ACP). Et lorsqu’elles sont qualitatives, on utilise l’Analyse
Factorielle de Correspondance (AFC).

Différence entre l’ACP et l’AFC


L’ACP est utilisé sur un tableau de données où toutes les variables sur tous les
individus sont numériques. L’AFC par contre, s’utilise avec des variables qualitatives
qui possèdent deux ou plus de deux modalités.
L’ACP permet d’obtenir un résumé descriptif d’un ensemble d’observations
(individus) effectuées sur des variables quantitatives numériques.
L’AFC par contre, se fait sur des tableaux de contingences où le terme général f_ij est
une fréquence. Elle permet d’obtenir un résumé d’un ensemble d’observations
effectuées sur des variables qualitatives.
L’ACP part d’un tableau dissymétrique constitué des X_ij où i est l’observation
(individus) et j est la variable. Les X_ij peuvent être très hétérogènes et, avant
d’utiliser l’ACP, il faut les rendre homogènes. L’AFC par contre part d’un tableau de
contingence symétrique. Nous développons dans la suite uniquement l’ACP.

La matrice de corrélation linéaire (R) : un préalable à l’utilisation de


l’ACP

Les données étant très souvent hétérogènes, il faut les rendre homogènes c'est-à-dire
les centrer (réduction de la moyenne) et les réduire (c'est-à-dire diviser la moyenne
réduite par l’écart type). La matrice de corrélation linéaire (R) : un préalable à
l’utilisation de l’ACP

Les données étant très souvent hétérogènes, il faut les rendre homogènes c'est-à-
dire les centrer (réduction de la moyenne) et les réduire (c'est-à-dire diviser la
moyenne réduite par l’écart type).
Nous allons travailler à partir des exemples.

Exemple1 : on effectue un relevé de note de certains étudiants de la classe pour


certaines matières. Les étudiants ici sont les individus et les matières sont les variables.
On a le tableau ci-après.

61
Variables Note d’analyse Notes de Notes de Note de
de données statistique droit comptabilité
Individus
Anne 06 06 05 05,5
Bertrand 08 08 08 08
Carine 06 07 11 09,5
Didier 14,5 14,5 15,5 15
Elsa 14 14 12 12,5
Fabienne 11 10 05,5 07
Gustave 05,5 07 14 11,5
Hélène 13 12,5 08,5 09,5
Isabelle 09 09,5 12,5 12

Exemple2 : les données ci-après sont collectées auprès de certaines entreprises


(individus) sur 03 variables économiques et financières (X1, X2, X3)
Variables X1 X2 X3
Individus
Ese 1 08 01 00
Ese 2 04 06 05
Ese 3 06 08 07
Ese 4 10 04 07
Ese 5 08 02 05
Ese 6 00 03 06

Taf1 : la matrice des variables est donnée par


Pour le premier exemple : Pour le deuxième exemple
6 6 5 5,5
8 8 8 8 8 1 0
6 7 11 9,5 4 6 5
14,5 14,5 15,5 15 6 8 7
X= 14 14 12 12,5 X= 10 4 7
11 10 5,5 7 8 2 5
5,5 7 14 11,5 0 3 6
13 12,5 8,5 9,5
9 9,5 12,5 12

i=1 à 9 i= 1à 6
J= 1à 4 J=1 à 3

Exemple d’interprétation des Xij X62 = 10 X43 = 7


On constate que ces 2 matrices ne se prêtent pas directement à l’utilisation de l’ACP
car les données ne sont pas homogènes. En plus, la matrice X n’est pas symétrique. Il
faut donc les centrer et les réduire.
 Pour centrer les donner, on leur enlève leur moyenne. la formule utilisée est :

62
n
1
X̌ =X ij −X j avec X j= ∑X
n i =1 ij
 Calcule des moyennes des variables pour l’exemple 1
1 87
X 1 = ( 6+8+ 6+14 , 5+14 +11+5 , 5+13+9 )= =9 , 67
9 9
1 88 , 5
X 2 = ( 6+8+ 7+14 , 5+14 +10+7+12 , 5+9 , 5 )= =9 , 83
9 9
1 92
X 3 = ( 5+8+11+15 ,5+ 12+ 5 ,5+14 +8 , 5+12 ,5 )= =10 ,22
9 9
1 90 , 5
X 4= (5 , 5+8+ 9 ,5+ 15+12 ,5+7 +11, 5+9 , 5+12 )= =10 , 06
9 9
On constate qu’il y a en moyenne des différences de niveau de notation entre la
matière qui semble la plus exigeante (analyse des données) à la moins exigeante (le
droit).
 Calcul des moyennes des variables pour les l’exemple 2
1 36
X 1 = ( 8+ 4+6+ 10+8 )= =6
6 6
1 24
X 2 = ( 1+6+8+ 4+ 2+3 )= =4
6 6
1 30
X 3 = ( 5+7+7 +5+6 )= =5
6 6
 Les données centrées sont obtenues dans les matrices ci-après
Pour le 1er exemple pour l’exemple 2
~
X= X ij −X j
-3,67 -3,83 -5,22 -4,56 2 -3 -5
-1,67 -1,83 -2,22 -2,06 -2 2 0
-3,67 -2,83 0,78 -0,56 0 4 2
4,83 4,67 5,28 4,94 4 0 2
~ ~
X=¿ 4,33 4,17 1,78 2,44 X=¿ 2 -2 0
1,33 0,17 -4,72 -3,06 -6 -1 1
-4,17 -2,83 3,78 1,44
3,33 2,67 -1,72 -0,56
-0,67 -0,33 2,28 1,94
 Pour réduire les variables, on divise celles qui sont centrées par les leur écart type. La
formule de l’écart type est donnée par :



1
δ j=
n
∑ ( Xij− X j )
2



1
δ j= ∑ X ij −( X j )
2 2

n
δ 1=
1
9 √
¿¿¿

1

δ 2= ¿ ¿ ¿
9

δ 3=
√ 1 = 3,47
9
¿¿

63
δ 4=
√ 1
9
¿¿¿

Les données centrées et réduites s’obtiennent en faisant l’opération


~N X ij −X j
X =
δj
-1,089 -1,281 -1,504 -1,589
-0,496 -0,612 -0,640 -0,718 0,613 -1,26 -2,1
-1,089 -0,946 0,225 -0,195 -0,613 0,84 0
~N = ~N
X 1,433 1,562 1,522 1,721 X =¿ 0 1,68 0,84
1,285 1,395 0,513 0,850 1,227 0 0,84
0,395 0,057 -1,360 -1,066 0,613 -0,84 0
-1,237 -0,946 1,089 0,502 -1,84 -0,42 0,42
0,988 0,893 -0,496 -0,195
-0,199 -0,110 0,657 0,676

Exp 1 : δ 1=3 ,37 δ 2=2 , 99 δ 3=3 , 47 δ 4=2 ,87 Exp 2 :δ 1=3 , 26 δ 2=2 , 38 δ 3=2 ,3

- La somme des carrés des valeurs d’une même colonne devrait donner n (nombre
d’individus)
- La moyenne des données centrées et réduites par variables est presque nulle

 Calcul de la matrice variance-covariance


Pour calculer les données de la matrice variance-covariance, on utilise les données
centrées dans la matrice. On a 2 formules de calcul de la matrice variance-covariance
Formule1 :
n
1
cov ( Xj ; X j ' )= ∑ (X − X j)( X ij ' −X j ')
n i=1 ij
n
1
¿ ∑ X . X −X j . X j'
n i=1 ij ij '
Formule 2 :
'
~ 1~ ~
cov ( X )= ( X ) ( X )
n
 Calcul des composantes de la matrice de corrélation linéaire (R)
Il ya 2 formules de calcul. On utilise les données centrées et réduites dans la matrice.
- La 1ère est directe sur les données brutes et la formule est
'
cov ( Xj ; X j )
R=cor ( Xj ; X j ' )= avec j#j’
δj . δj '
1 ~N ' ~N
- 2ème formule R= ( X ) ( X )
n
Applications pour le calcul de la matrice variance – covariance.

-3,67 -3,83 -5,22 -4,56


-1,67 -1,83 -2,22 -2,06
~
X= -3,67 -2,83 0,78 -0,56

64
4,83 4,67 5,28 4,94
4,33 4,17 1,78 2,44
1,33 0,17 -4,72 -3,06
-4,17 -2,83 3,78 1,44
3,33 2,67 -1,72 -0,56
-0,67 -0,33 2,28 1,94

1
Pour la cov ( X ) = ¿
9
1
cov ( X ) = *
9
-3,67 -1,67 -3,67 4,83 4,33 1,33 -4,17 3,33 -0,67
-3,83 -1,83 -2,83 4,67 4,17 0,17 -2,83 2,67 -0,33
-3,67 -3,83 -5,22 -4,56
-1,67 -1,83 -2,22 -2,06 11,39 9,92 2,66 4,82
-3,67 -2,83 0,78 -0,56 9,92 8,94 4,12 5,48
4,83 4,67 5,28 4,94 2,66 4,12 12,06 9,29
4,33 4,17 1,78 2,44 = 4,82 5,48 9,29 7,91
1,33 0,17 -4,72 -3,06
-4,17 -2,83 3,78 1,44
3,33 2,67 -1,72 -0,56
-0,67 -0,33 2,28 1,94
-5,22 -2,22 0,78 5,28 1,78 -4,72 3,78 -1,72 2,28
-4,56 -2,06 -0,56 4,94 2,44 -3,06 1,44 -0,56 1,94

Interprétation :
On constate que toutes les valeurs sont positives dans la matrice. Les variables
évoluent donc dans le même sens positif deux à deux.
Produit de 2 matrices

(ba cd) X ( ef gh)=¿


~N ~N1 '
 Matrice de corrélation R= n ( X ) ( X )
1 ~N ' ~N
( X ) ( X )=¿ 1
9 9
-1,087 -0,494 -1,087 1,432 1,284 0,395 -1,235 0,988 -0,198
-1,282 -0,613 -0,947 1,560 1,393 0,056 -0,947 0,892 -0,111
-1,504 -0,640 0,224 1,520 0,512 -1,360 1,088 -0,496 0,656
-1,619 -0,731 -0,197 1,758 0,869 -1,086 0,513 -0,197
0,691

-1,087 -1,282 -1,504 -1,619


-0,494 -0,613 -0,640 -0,731 1 0,983 0,227 0,508

65
-1,087 -0,947 0,224 -0,197 0,983 1 0,397 0,652
1,432 1,560 1,520 1,758 = 0,227 0,397 1 0,951
1,284 1,393 0,512 0,869 0,508 0,652 0,951 1
0,395 0,056 -1,360 -1,086
-1,235 -0,947 1,088 0,513
0,988 0,892 -0,496 -0,197
-0,198 -0,111 0,656 0,691

Produit de deux matrices

( )( ) ( )
ad ag+ dj ah+dk ai +dl
ghi
be = bg+ej bh+ek bi+ el
j kl
cf cg+ fj ch+ fk ci+ fl

Interprétation des éléments de la matrice R

0,983 veut dire qu’il y’a une forte corrélation positive entre les notes d’analyse de
données (X1) et les notes de statistique décisionnelle (X2)
0,227 veut dire qu’il y’a une faible corrélation positive entre les notes d’analyse de
données et les notes de droit.
0,508 veut dire qu’il y’a une corrélation moyenne et positive entre les notes d’analyse
de données et les notes de comptabilité.
0,397 veut dire qu’il y’a une faible corrélation positive entre les notes de statistique
décisionnelle et les notes de droit
0,652 veut dire qu’il y’a une corrélation moyenne positive entre les notes de statistique
décisionnelle et les notes de comptabilité.
0,951 veut dire qu’il y’a une forte corrélation entre les notes de droit et les notes de
comptabilité.

Cette matrice de corrélation linéaire est très importante pour l’utilisation de


l’ACP. A la suite de cette matrice R, une série d’étapes est à respecter.
Ces étapes sont :
 Le calcul des valeurs propres
( λ α ¿ ; pour trouver les valeurs propres , on doit fairel ' opération
det |R− λI|=0 avec I lamatrice indentité
Lorsqu’on a plus de deux valeurs propres, on choisit celles qui expliquent plus
de 80% de la trace ou encore variance totale.
k
trace=∑ λ α k= nombre de variables
∝=1

 Le calcul des vecteurs propres (U α ¿

66
Les valeurs propres étant choisies, on calcule les vecteurs propres en faisant
l’opération.
RX=λ α X cette opération permet de trouver les vecteurs propres ⃗
U∝
Ces vecteurs propres doivent être normées par l’opération ci-après :
1 ⃗ ∝ avec ⃗
U ∝= ∗U ‖U ∝‖ = √ somme des coordonnées du vecteur au carré
‖ ∝‖

U
U∝ est la composante principale (axe ou facteur ou dimension).
 Il faut maintenant déterminer les coordonnés des variables et des individus dans le
repère constitué des composantes principales (axes).
o Pour les variables la formule est : X ∝ =U ∝ . √ λ α
~
o Pour les individus, la formule est I i= X N . U ∝
 Il faut enfin, construire sur un graphique constitué des deux axes principaux pour les
variables et pour les individus.

Application : on collecte les informations statistiques pour 06 entreprises sur leur


chiffre d’affaires et leur nombre d’employés.
on a le tableau ci-après.
Variables Chiffre d’affaires Nombre d’employés
Individus
A 26 13
B 22 18
C 24 20
D 28 16
E 26 14
F 18 15

TRAVAIL A FAIRE
1. Rendez homogène ces données
2. Déterminez la matrice de corrélation linéaire R
3. Calculez les valeurs propres liées à cette matrice R
4. Déterminez les vecteurs propres normés à partir des valeurs propres
5. Déterminez les coordonnées sur les axes principaux des variables et des individus
6. Représentez sur un même graphique les variables et les individus en fonction des axes
principaux

Solution
 Calcul des moyennes et écart types
X1 X2
Moyenne 24 16
Ecart type 3,27 2,38

67
X ij −X j
1 -Matrice des données centrées et normées ~
X
N
= . Ces données sont
δj
homogènes.

0,612 -1,261
~N = -0,612 0,840
X
0 1,681
1,223 0
0,612 -0,840
-1,835 -0,420

2. matrice de corrélation linéaire R


1 ~N ~N
R= ( X ) ' ( X )
n
1 0,612 -1,261
R=
6 0,612 -0,612 0 1,223 0,612 -0,612 0,840
-1,835 0 1,681
1,223 0
-1,261 0,840 1,681 0 -0,840 0,612 -0,840
-0,420 -1,835 -0,420
R= (−0,1715
1
1 )
−0,1715

Il existe une faible corrélation négative entre le chiffre d’affaire et le nombre


d’employés

3. valeurs propres liées à la matrice R


det |R− λI|=0 (−0,1715
R−λI =
1 −0,1715
1 )−λ ( )
10
01
R−λI = (−0,1715 1−λ )
1−λ −0,1715

det |R− λI|=0 det |−0,1715 1− λ |


1− λ −0,1715 2
=( 1−λ ) −(−0,1715 ) =0
2

→ [ ( 1−λ )−(−0,1715) ][ ( 1− λ ) +(−0,1715) ] = 0


( 1− λ+0,1715 ) ( 1−λ−0,1715 )=0
1+0,1715-λ= 0 ou 0,8285-λ=0
λ 1=1,1715 ou λ 2=0,8285
2
Trace = ∑ λα =¿ λ 1+ λ 2=1,1715+0,8285 ≅ 2 ¿
∝=1

4. vecteur propres normés

68
Pour calculer les vecteurs propres, on applique la formule RX=λ α X avec X ()
x1
x2

Pour λ 1 = 1,1715 ( 1
on a −0,1715
−0,1715 x1
1 x2
=)( )
1,1715
x1
x2 ()
{−0,1715
X 1−0,1715 X 2=1,1715 X 1
X 1+ X 2=1,1715 X 2 {−0,1715
( 1−1,1715 ) X 1−0,1715 X 2=0
X 1+ ( 1−1,1715 ) X 2=0

{−0,1715 X 1−0,1715 X 2=0


−0,1715 X 1−0,1715 X 2=0
−0,1715 X 1=0,1715 X 2
X 1=− X 2 ⃗
U1
1
−1 ( )
est le premier vecteur propre

Pour le normer, on fait :


1 1
U 1=
‖⃗
U 1‖
∗⃗
U 1= 1
( ) ( )
=
1 1
√ 1 ¿ −1 √ 2 −1
2+¿
2
1

( )(
√2
√2 1 = 2
U 1= ( )
2 −1 −√ 2
=
0,707
−0,707 )
2
Pour λ 2 = 0,82 85

(−0,1715
1
1 )( X 2)
−0,1715 X 1
= 0,8285( )
X1
X2

{−0,1715
X 1−0,1715 X 2=0,8285 X 1
X 1+ X 2=0,8285 X 2 { ( 1−0,8285 ) X 1−0,1715 X 2=0
−0,1715 X 1+ ( 1−0,8285 ) X 2=0

{−0,1715
0,1715 X 1−0,1715 X 2=0
X 1+0,1715 X 2=0 {0,1715 X 1=0,1715 X 2
X 1=X 2

U2()
1
1
est le deuxième vecteur propre. Pour le normer, on fait :

( )( )
√2
1 ⃗ 1 1 = 1 1 = √2 1
U 2=
‖ 2‖

U
∗U 2 =
() ()
√1 ¿ 1 √2 1 2 1
2+¿ 1
2 = () 2
√2
0,707
= 0,707
2

( ) ()
√2 √2
2 2
Donc les vecteurs propres normés sont : U 1= U 2=
−√ 2 √2
2 2

1. coordonnées sur les axes principaux des variables et des individus

Pour les variables, on fait U α . √ λ α


Axe 1 Axe 2
U 1 . √ λ1 U 2 . √ λ2
X1 (Chiffre d’affaire) 0,7653 0,6436

69
X2 (nbre d’employés) -0,7653 0,6436

( )
√2
U1 . √λ 1 ¿
2
− √2
. √ 1,1716 = (
0,7653
−0,7653 )
2

()
√2
U 2 . √ λ 2=
2
√2
. √ 0,8284= (
0,6436
0,6436 )
2

~
Pour les individus, on fait : X N U ∝
individus Axe1 Axe2
~N ~N
X U1 X U2

A 1,3242 -0,4588
B -1,0265 0,1612
C -1,1884 1,1885
D 0,8646 0,8646
E 1,0265 -0,1612
F -1,0004 -1,5942

Pour 0,612 -1,261 0,707 1,3242


Axe 1 -0,612 0,840 -1,0265
0 1,681 * -1,1884
1,223 0 = 0,8646
0,612 -0,840 - 0,707 1,0265
-1,835 -0,420 -1,0004

Pour 0,612 -1,261 0,707 -0,4588


Axe 2 -0,612 0,840 0,1612
0 1,681 * 1,1885
1,227 0 = 0,8646
0,612 -0,840 0,707 -0,1612
-1,835 -0,420 -1,5942

Représentation simultanée des variables et des individus


Axe 2
C
70
D
X2 X1
Par rapport à l’axe 1, les individus A, D et E ont un comportement opposé
aux individus B, C et F.
Par rapport à l’axe 2, les individus B, C et D ont un comportement opposé
aux individus A, E et F.

NB : L’ACP permet de grouper les individus qui ont le même profil

71

Vous aimerez peut-être aussi