Analyse Des Données 2021

UNIVERSITE DE DOUALA
Faculté des Sciences

Département de Mathématiques et Informatique
Année académique 2021/2022
COURS D’OUTILS D’AIDE A LA PRISE DE DECISION
SUPPORT DE COURS
Master 2
MIAGE
Programme :
Chapitre 1 : Méthodologie d’analyse des données

Chapitre 2 : Analyse univariée
Chapitre 3 : Analyse bivariée
Chapitre 4 : Analyse multivariée
Par :
Dr. Nana Yakam André
Chargé de Cours, Université de Douala
Email : nanayakam@gmail.com
CHAPITRE I
METHODOLOGIE D’ANALYSE DES DONNEES
INTRODUCTION
L’analyse de données est un processus d’extraction des connaissances des données (ECD). Elle vise à décrire, à
résumer et à interpréter des phénomènes dont le caractère essentiel est la variabilité. Elle fournit de la
manière la plus rigoureuse possible des éléments d'appréciation utiles à l'explication ou à la prévision de
ces phénomènes. L’analyse des données fournit à toutes les personnes confrontées à l'interprétation de
résultats d'observation ou d'expérimentation, un outil d'interprétation adapté aux conditions particulières de
leur domaine d'activité.
Avant de se lancer dans le processus d’analyse des données, l’analyste doit avoir un problème bien délimité à
résoudre. Il ne se lance pas dans l’analyse sans avoir une idée des objectifs de son opération et des moyens
informationnels et technologiques dont il dispose.
Une fois le problème posé, la première phase vise à cibler, même de façon grossière, l’espace des données qui va
être exploré. L’analyste définit de ce fait des zones de prospection, étant persuadé que certaines régions seront
probablement vite abandonnées si elles ne recèlent aucun ou peu d’intérêt. L’acquisition met en œuvre des
méthodes pour collecter les données potentiellement utiles selon le point de vue de l’analyste.
A l’issue de la phase de collecte des données, il convient de les nettoyer. Par exemple, si l’une des variables
retenues s’avère peu ou mal renseignée, on peut ne pas la prendre en considération. On peut également
explicitement chercher à limiter le nombre d’enregistrements que l’on souhaite traiter. Après cette phase de
prétraitement des données, l’analyste est, a priori, en possession d’un stock de données contenant potentiellement
l’information ou la connaissance recherchée. C’est en ce moment qu’il peut commencer son analyse.
La collecte et le nettoyage des données est la phase la plus déterminante en analyse de données, car toute analyse,
aussi sérieuse soit-elle, qui est faite sur des données de mauvaise qualité ne peut aboutir qu’à des mauvaises
conclusions : "dust can only produce dust ".
Le processus d’ECD n’est pas linéaire car il arrive aussi que l’analyste revienne, après analyse, rechercher de
nouvelles données. Selon que l’analyse porte sur une, deux ou plus de variables et en fonction de la nature de ces
variables, de nombreux outils statistiques sont à la disposition de l’analyste pour résoudre son problème. Le
schéma suivant résume la méthodologie d’analyse des données ainsi que les outils qui seront développés dans ce
cours.
Par Dr. Nana Yakam André, Chargé de Cours à l’Université de Douala 2

Problème à résoudre
Origine et Collecte des Données
Numérisation, Prétraitement, Mise des données en

tableaux
Analyse Uni-variée Analyse Bi-variée Analyse Multi-variée
- Estimation des paramètres de - Analyse Factorielle (ACP,

- Test d’association ou AFC, ACM, Classification,
tendance centrale (moyenne, mode,
médiane) d’indépendance, Analyse discriminante)
- Test de Corrélation
- Estimation et signification des - Test de conformité - Modélisation (modèle de
paramètres de Dispersion (variance, - Comparaison d’échantillons régression multiple)
écart type, intervalle interquartile) - Evaluation de l’efficacité des
actions - Prévision
- Graphiques - Modélisation
- Distribution d’échantillon - Prévision
- Tests d’inférence
- Comparaison des groupes
I. ORIGINE ET METHODES DE COLLECTE DES DONNEES
1. ORIGINE
Les données utilisées en statistiques peuvent provenir d’un recensement, d’une enquête statistique, des
données administratives ou des entrepôts de données des organisations.
a) Recensement
Le recensement est une opération statistique d’observation exhaustive de tous les éléments d’une
population. Les données individuelles de tous les éléments de la population sont prises en compte pour le
caractère étudié. C’est le cas par exemple des clients d’une banque, des salariés d’une entreprise, …
b) Enquête statistique
Une enquête statistique est la collecte de données sur une partie ou la totalité des unités d'une population à
l'aide de concepts, de méthodes et de procédures bien définis. Le sondage en est l’une de ces méthodes, qui
permet de construire un échantillon et qui ne prélève qu’une partie des informations existantes.
c) Données administratives
Les organismes et les Etats recueillent des données administratives dans le cadre de leurs activités
quotidiennes, ces données peuvent être utilisées à titre de substitut pour une enquête par sondage ou pour
un recensement.
d) Entrepôt de données
Grâce à l’évolution informatique, avec la fabrication des ordinateurs ayant des grandes capacités de
stockage, les entreprises, les institutions et les organisations conservent de nos jours, des quantités
importantes d’information dans leurs bases de données. Ces entrepôts de données renferment à n’en point
douter des informations dont la fouille par les techniques d’analyse de données peut permettre d’apporter
des réponses, même aux questions les complexes que se poses ces organisations.
II. ECHANTILLONNAGE
Dans une étude statistique, il est fréquent que l’on n’observe pas la population toute entière. L’enquête
(statistique) est l’opération consistant à observer (ou mesurer, ou questionner. . .) l’ensemble des individus
d’un échantillon (ou, éventuellement, de la population complète).
Le sondage est une enquête dans laquelle l’échantillon observé est un sous-ensemble strict de la population
(on parle, dans ce cas, d’enquête non exhaustive). La qualité des renseignements que l’on peut tirer d’un
échantillon, dépend d’une part de la définition de l’échantillon c’est à dire des procédures de désignation
des éléments constitutifs de l’échantillon (l’échantillonnage) et d’autre part de la saisie dans l’échantillon
de l’information recherchée.
Un échantillon est un sous-ensemble d’une population ou d’un groupe de sujets faisant partie d’une même
population. L’échantillon est représentatif de la population cible et contient un nombre suffisant de sujets
pour une étude descriptive de cette dernière ou pour l’analyse d’un problème donné.
La population est un groupe de sujets ou d’éléments qui ont des caractéristiques communes précises qui
correspondent aux buts de l’étude à faire.
La population cible est un ensemble de sujets ou d’éléments faisant partie de la population mais qui ont en
commun des caractéristiques plus précises par rapport à une définition des critères établis à l’avance et pour
lesquels le chercheur désire faire des généralisations. Elle représente l’ensemble de sujets ou d’éléments
qui sont accessibles au chercheur.
Lors du processus d’échantillonnage, le chercheur élabore et suit un plan, appelé plan d’échantillonnage.
Le plan d’échantillonnage sert à décrire la stratégie à utiliser pour choisir l’échantillon. Plusieurs étapes
doivent être faites durant le processus d’échantillonnage :
1- Définir la population et la population cible : taille et éléments ;

2- Déterminer l’unité d’observation, l’unité d’échantillonnage et leurs caractéristiques ;
3- Déterminer l’information nécessaire pour faire la sélection de l’échantillon ;
4- Déterminer la taille de l’échantillon ;
5- Déterminer la méthode de sélection de l’échantillon ;
6- Sélectionner l’échantillon.
Il existe deux grandes catégories de techniques d’échantillonnage:
 Les techniques d’échantillonnage probabiliste

 Les techniques d’échantillonnage non probabiliste (empiriques).
Dans la première catégorie, les ensembles sélectionnés ont une probabilité connue de faire partie de
l’échantillon (le cas le plus important est celui où l’on accorde à chaque élément de la population la même

probabilité d’appartenir à l’échantillon). Des formules permettent d’évaluer la qualité des estimations des
caractéristiques de la population fournie par les résultats de l’échantillon.
Dans la deuxième catégorie, les éléments sont inclus dans l’échantillon sans probabilité connue. Une
évaluation de l’exactitude des résultats ne peut pas être faite. Aussi une attention particulière doit être portée
à l’interprétation des résultats lorsque des méthodes d’échantillonnages non probabilistes sont utilisées.
III. TECHNIQUES DE SELECTION D’UN ECHANTILLON PROBABILISTE
Il existe plusieurs méthodes différentes permettant de sélectionner un échantillon probabiliste. La méthode

qu’on choisira dépendra d’un certain nombre de facteurs, comme la base de sondage dont on disposera, la
façon dont la population sera distribuée, ce que sonder les membres de la population coûtera et la façon
également dont les utilisateurs analyseront les données. Lorsque vous choisirez un plan d’échantillonnage
probabiliste, votre but devrait consister à réduire le plus possible l’erreur d’échantillonnage des estimations
pour les variables d’enquête les plus importantes, tout en réduisant le plus possible également le délai et le
coût de réalisation de l’enquête.
Les méthodes d’échantillonnage probabiliste les plus courantes sont:
 Echantillonnage aléatoire simple : l’échantillon est choisi de telle sorte que chaque unité de la
population ait la même probabilité d’être sélectionnée dans l’échantillon et que chaque échantillon
de même taille ait la même probabilité d’être tiré.
 Echantillonnage Systématique : On souhaite sélectionner n individus parmi N sujets numérotés de 1 à

N
N. pour ce faire, On calcule le pas : p  , puis on tire un nombre aléatoire entre 1 et Ent(p), c’est du
n
premier individu choisi. Les autres seront obtenus en ajoutant Ent(p) au numéro précédemment choisi.
 Échantillonnage avec probabilité proportionnelle à la taille : Si la base de sondage renferme de

l'information sur la taille de chaque unité (comme le nombre de filles) et si la taille de ces unités
varie, on peut utiliser cette information dans le cadre de la sélection de l'échantillonnage afin d'en
accroître l'efficacité.
 Échantillonnage stratifié : on divise la population en groupes homogènes appelés strates, qui sont
mutuellement exclusifs (comme l'âge, la ville de résidence, le revenu, etc.) puis on sélectionne à
partir de chaque strate des échantillons indépendants. On peut utiliser n'importe quelle des méthodes
d'échantillonnage pour sélectionner l'échantillon à l'intérieur de chaque strate.
IV. PRETRAITEMENT DES DONNEES
Les données issues des entrepôts ou des enquêtes ne sont pas nécessairement toutes exploitables par des
techniques d’analyse de données. Les données acquises peuvent être de types différents pour la même variable,

on peut avoir les données manquantes ou aberrantes. Dans certaines situations, les données exigent une
transformation telle qu’un centrage par rapport à la moyenne ou une normalisation. La préparation consiste à
homogénéiser les données et à les disposer en tableau lignes/colonnes. Car il s’agit presque toujours de la
structure la mieux adaptée à l’exploitation des données. Les principales opérations de préparation peuvent être
listées comme suit :
a) Sélection de ligne/colonne.
Elle s’effectue sur des données qui sont déjà sous forme tabulaire. Il s’agit de définir un filtre qui permet de
sélectionner un sous-ensemble de lignes ou de colonnes. L’objectif étant, soit de réduire le nombre de données
soit de sélectionner les lignes ou colonnes les plus pertinentes par rapport aux préoccupations de l’utilisateur. Les
techniques mises en œuvre dans ce but relèvent des méthodes statistiques d’échantillonnage. Cette sélection peut
également s’effectuer selon des conditions exprimées par l’utilisateur. Par exemple, il peut ne garder que les
attributs dont la moyenne est supérieure à un seuil donné ou ne conserver que les attributs qui ont un lien
statistique significatif avec un attribut particulier.
b) Le traitement des données manquantes ou aberrantes.
Certaines données peuvent être absentes ou aberrantes et gêner ainsi l’analyse. Il convient alors de définir des
règles pour gérer ces données manquantes et les valeurs aberrantes ou anormales.
i.) Valeurs manquantes

Lorsqu’on est en face d’une donnée manquante, une des solutions consiste à supprimer l’observation
correspondante, quand on en a suffisamment. On peut aussi envisager d’estimer cette dernière. De nombreuses
solutions sont proposées, comme le remplacement, dans le cas des variables qualitatives et quantitatives
continues, de toute donnée manquante par la valeur la plus fréquente de la variable concernée. On peut également
chercher à estimer ces valeurs manquantes par des méthodes d’induction comme la régression pour les variables
quantitatives.
ii.) Valeurs aberrantes

Selon la méthode de l’intervalle de confiance, est considérée comme valeur aberrante pour une variable

quantitative X donnée, toutes les données dont la valeur est extérieure à l’intervalle X  1.96 X ; X  1.96 X 
où X est la moyenne de X et  X son écart type.
La valeur détectée comme aberrante est ramenée à la limite haute ou basse de cet intervalle de confiance. On peut
également chercher à l’estimer par des méthodes régression.
c) Les transformations des variables
Il s’agit de transformer un attribut A en une autre variable A’ qui serait, selon les objectifs de l’étude, plus
appropriée. Différentes méthodes sont pratiquées comme la discrétisation qui consiste à transformer des attributs
continus en découpant le domaine de valeurs de ces attributs en intervalles afin d’obtenir des attributs qualitatifs.
On peut également centrer les valeurs des variables continues par rapport à la moyenne et réduire par l’écart type.
Ce traitement leur confère certaines propriétés mathématiques intéressantes lors de la mise en œuvre des méthodes
d’analyse des données multidimensionnelles.

CHAPITRE II
ANALYSE UNI-VARIEE
Introduction
L’analyse univariée porte sur une variable. Elle peut être subdivisée en deux grandes parties : l’analyse
descriptive et les tests d’inférence.
I. ANALYSE DESCRIPTIVE
Elle comprend les étapes suivantes :
- Représentations Graphiques
- l’estimation des paramètres de tendance centrale
- l’estimation des paramètres de dispersion
- l’estimation des paramètres de forme
1. Représentations graphiques
La représentation graphique des données relatives à une variable repose sur la proportionnalité des
longueurs (ou des aires) des graphiques par rapport aux effectifs ou aux fréquences, des différentes
modalités de la variable. A chaque type de variable correspond des types de graphiques. Parmi les graphes
les plus utilisés, nous pouvons citer :
- Diagramme en bâtons
- Histogramme
- Diagramme en secteurs
- Courbes
- Boite à moustache (ou Boxplot en Anglais)
2. Paramètres de position (ou de tendance centrale)
Ce sont principalement : la moyenne, le mode et la médiane. Ils permettent de savoir autour de quelles
valeurs se situent les modalités d'une variable statistique.
3. paramètres de dispersion
Ils permettent d’apprécier comment les valeurs d’une variable sont concentrer autour de la tendance
centrale. Il s’agit principalement de l’étendue, la variance, l’écart type et les quartiles.
4. Schéma d’un box plot

Valeurs aberrantes
Valeurs aberrantes
Minimum Maximum
1er Quartile Médiane 3e Quartile
Le box plot permet d’analyser :
 La symétrie de la courbe, (la symétrie du corps et la symétrie par rapport aux moustaches),
 L’existence de valeurs extrêmes (aberrantes). Ces valeurs méritent une attention toute
particulière car elles pourraient représenter une erreur de mesure, d’enregistrement des données
ou d’entrée des données. Tout comme il pourrait s’agir d’une valeur légitime qui est tout
simplement (et par hasard) extrême.
NB : la moyenne, l’écart type et la variance sont largement influencés par la présence de valeurs extrêmes.
5. Paramètres de formes
Ils permettent d’apprécier la distribution en comparaison à une loi normale de même moyenne et de
même écart-type. Ce principalement les coefficients d’asymétrie et d’aplatissement.
- Coefficients d’asymétrie (Skewness)
Il existe plusieurs coefficients d'asymétrie. Les principaux sont les suivants.

Le coefficient d'asymétrie de Pearson :
X  Mo
P
X
Le coefficient d'asymétrie de Yule :
Q1  Q3  2M e
Y
2(Q3  Q1 )
Lorsque le coefficient d'asymétrie est positif, la distribution est plus étalée à droite, lorsque le coefficient
d'asymétrie est négatif, la distribution est plus étalée à gauche.
- Coefficient d'aplatissement (Kurtosis).
Le coefficient permet de mesurer l’importance des queues d’une distribution ou son aplatissement.
 (X )
Le coefficient le plus utilisé est celui de Fisher :  2  4 4  3 , avec  4 ( X ) : le moment d’ordre 4 de
X
n
1
X,  4 ( X )  
n i 1
( x i  m) 4
Il est d’autant plus grand que les valeurs de la série statistique sont plus regroupées autour de la moyenne.
 Si  2  0 , la distribution a le même aspect qu’une loi normale de même moyenne et de même écart-
type

 Si  2  0 , la distribution est moins aplatie que la loi normale
 Si  2  0 , la distribution est plus aplatie que la loi normale
II. UTILISATION DE TESTS STATISTIQUES
Nous conduisons une recherche pour déterminer l'acceptabilité d'hypothèses découlant de nos
connaissances (théories). Après avoir sélectionné une hypothèse, qui nous paraît importante, nous
récoltons des données empiriques qui devraient nous apporter des informations directes sur l'acceptabilité
de cette hypothèse. Notre décision concernant la signification des données nous conduit soit à retenir, soit
à réviser ou soit à rejeter l'hypothèse et la théorie qui en est la source.
Pour atteindre une décision objective concernant une hypothèse particulière, nous devons suivre une
procédure objective (méthodes publiques et répétables par d'autres chercheurs) permettant soit d'accepter
soit de rejeter cette hypothèse. Cela consiste à formuler, en termes probabilistes, un jugement sur une
hypothèse relative à une population, à partir des résultats observés sur un échantillon extrait au hasard de
cette population.
Cette procédure suit les étapes suivantes :

1- établir l'hypothèse nulle (H0) [considérer l'hypothèse alternative H1].
2- choisir le test statistique approprié pour tester H0,
3- spécifier un niveau de signification (  ) et la taille de l'échantillon (n),
4- trouver la distribution d'échantillonnage du test statistique sous H0,
5- sur la base de 2, 3, 4, définir la région de rejet, (Valeur critique)
6- calculer la valeur de la statistique du test à l'aide des données de l'échantillon.
1. L'hypothèse nulle
L'hypothèse nulle H0 est généralement une hypothèse de non différence « il n'y a pas de différence
significative entre les échantillons A et B ». Elle est formulée de façon à être rejetée. Dans le cas de son
rejet, l'hypothèse alternative (H1) « il y a une différence significative entre les échantillons A et B » doit
être acceptée. Cette dernière est la prédiction dérivée de la théorie à tester.
2. Choix du test statistique
On dispose actuellement de nombreux tests statistiques différents qui peuvent être utilisés pour arriver à
une décision concernant une hypothèse. Le choix doit se faire sur des bases rationnelles.
Le plus souvent nous disposons de différents tests pour une recherche (validation d'hypothèse) donnée, il
est alors nécessaire d'employer une méthode rationnelle pour choisir le test le plus approprié. L’un des

critères de choix est la puissance du test utilisé. Mais d'autres critères sont importants pour déterminer
l'adéquation d'un test lors de l'analyse de données particulières. Ces critères concernent :
 La nature de la population de laquelle a été tiré l'échantillon ;

 La nature des mesures réalisées.
2.1. Le modèle statistique
Lorsque nous définissons la nature de la population et le mode d'échantillonnage, nous établissons un

modèle statistique (c'est à dire une formulation mathématique des hypothèses faites sur les observations).
A chaque test statistique est associé un modèle et des contraintes de mesure. Ce test n'est alors valide que
si les conditions imposées par le modèle et les contraintes de mesure sont respectées. Il est difficile de dire
si les conditions d'un modèle sont remplies, et le plus souvent nous nous contentons d'admettre qu'elles le
sont. Aussi devrions nous préciser, chaque fois : "Si le modèle utilisé et le mode de mesure sont corrects,
alors....).
Il est clair que moins les exigences imposées par le modèle sont nombreuses et restrictives, plus les
conclusions que l'on tire sont générales. De ce fait, les tests les plus puissants sont ceux qui ont les
hypothèses les plus strictes. Si ces hypothèses sont valides, ces tests sont alors les mieux à même de rejeter
H0 quand elle est fausse et de ne pas rejeter H0 quand elle est vraie.
2.2. Nature des observations et échelle de mesure
Les observations peuvent être soit quantitatives soit qualitatives.

Les données quantitatives comprennent les dénombrements (ou comptages) et les mesures ou variables
de nature continue (hauteur, poids, surface, prix, température..). Les valeurs possibles sont illimitées mais
du fait des méthodes de mesures et du degré de précision de l'appareil de mesure, les données varient
toujours de façon discontinue.
Les données qualitatives peuvent être réalisées dans deux échelles de mesure : échelle de rangement et
l'échelle nominale.
Dans l'échelle ordinale (de rangement), il existe une certaine relation entre les objets du type plus grand
que, supérieur à, plus difficile que, préférée à....
3. Tests paramétriques et non paramétriques
Un test paramétrique requiert un modèle à fortes contraintes (normalité des distributions, égalité des
variances) pour lequel les mesures doivent avoir été réalisées dans une échelle au moins d'intervalle. Ces
hypothèses sont d'autant plus difficiles à vérifier que les effectifs étudiés sont plus réduits.
Un test non paramétrique est un test dont le modèle ne précise pas les conditions que doivent remplir les
paramètres de la population dont a été extrait l'échantillon. Cependant certaines conditions d'application
doivent être vérifiées. Les échantillons considérées doivent être aléatoires et simples.
3.1. Avantages des tests non paramétriques
1. Leur emploi se justifie lorsque les conditions d'applications des autres méthodes ne sont pas
satisfaites, même après d'éventuelles transformations de variables.
2. Les probabilités des résultats de la plupart des tests non paramétriques sont des probabilités exactes
quelle que soit la forme de la distribution de la population dont est tiré l'échantillon.
3. Pour des échantillons de taille très faible jusqu'à N = 6, la seule possibilité est l'utilisation d'un test
non paramétrique, sauf si la nature exacte de la distribution de la population est précisément connue.
Ceci permet une diminution du coût ou du temps nécessaire à la collecte des informations.
4. Il existe des tests non paramétriques permettant de traiter des échantillons composés à partir
d'observations provenant de populations différentes. De telles données ne peuvent être traitées par
les tests paramétriques sans faire des hypothèses irréalistes.
5. Seuls des tests non paramétriques existent qui permettent le traitement de données qualitatives : soit
exprimées en rangs ou en plus ou moins (échelle ordinale), soit nominales.
6. Les tests non paramétriques sont plus faciles à apprendre et à appliquer que les tests paramétriques.
Leur relative simplicité résulte souvent du remplacement des valeurs observées soit par des
variables alternatives, indiquant l'appartenance à l'une ou à l'autre classe d'observation, soit par les
rangs, c'est-à-dire les numéros d'ordre des valeurs observées rangées par ordre croissant. C'est ainsi
que la médiane est généralement préférée à la moyenne, comme paramètre de position.
3.2. Désavantages des tests non paramétriques
1. Les tests paramétriques, quand leurs conditions sont remplies, sont les plus puissants que les tests
non paramétriques.
2. Un second inconvénient réside dans la difficulté à trouver la description des tests et de leurs tables
de valeurs significatives, surtout en langue française. Heureusement, les niveaux de significativité
sont donnés directement par les logiciels statistiques courants.
On choisira les tests appropriés en fonction du type de mesure, de la forme de la distribution de fréquences
et du nombre d'échantillons dont on dispose.
4. Niveau de signification et la taille de l'échantillon
4.1. Niveau de signification
L'ensemble des valeurs observées pour lesquelles l'hypothèse nulle est admissible forme la région
d'acceptation ou de non-rejet et les autres valeurs constituent la région de rejet ou domaine de rejet ou
région critique. Mais le hasard de l'échantillonnage peut fausser les conclusions. Quatre situations doivent
être envisagées :
Pratiquement, on se donne une limite supérieure du risque de première espèce, le plus souvent 5%
(significatif), 1% (très significatif) ou l°/00 (hautement significatif). Cette limite constitue aussi le niveau
de signification du test et permet de définir la condition de rejet de l'hypothèse nulle.
Le plus souvent, les logiciels de statistique donnent le niveau de signification réel. On rejette alors
l'hypothèse nulle au niveau de signification nominal choisi (par exemple 0,05) si (et seulement si) le

niveau de signification réel est inférieur ou égal au niveau de signification nominal (p = 0,003 < 0,05,
rejet de H0). Cette attitude est dite conservatrice.
4.2. Choix de la taille d’un échantillon
Dans la pratique, on choisit d’abord la précision (marge d’erreur absolue ou relative) et on en déduit la
𝜎
taille de l’échantillon à tirer pour atteindre cette précision. La marge d’erreur absolue étant 𝑡 𝑛
√
 Taille d’échantillon pour estimer une moyenne en contrôlant l’erreur absolue
Etant donné un niveau de confiance fixé et une marge d’erreur choisie, et si on suppose N grand on doit
prendre un échantillon de taille n vérifiant
𝑡𝜎 2
𝑛≥( )
𝜀
Une valeur initiale de l’écart type de la population, , doit être définie avant de pouvoir déterminer la taille
de l’échantillon. On peut faire une estimation de l’écart type en utilisant un échantillon ou une étude
antérieure sur les mêmes sujets.
 Taille d’échantillon pour estimer une proportion en contrôlant l’erreur absolue
Etant donné un niveau de confiance fixé et une marge d’erreur choisie, sur la proportion à estimer, si N est
suffisamment grand, on doit prendre un échantillon de taille n vérifiant
𝑡 2
𝑛 ≥ 𝑝(1 − 𝑝) ( )
𝜀
Puisque la proportion de la population p est ce que nous cherchons à estimer à partir d’un échantillon, une
valeur initiale de p doit être définie pour pouvoir déterminer n. On peut utiliser les méthodes suivantes :
 Utiliser la proportion d’échantillon pour faire une estimation;

 Utiliser une étude antérieure ou pilote;
 Si aucune procédure n’est applicable, utiliser la valeur p = 0,5.
III. TESTS STATISTIQUES DE NORMALITE

Avant donc toute étude formelle, il est nécessaire de tester l’adéquation ou la conformité d’une distribution
observée avec une distribution théorique associée à une loi de probabilité. Parmi ces tests d’adéquation, la
conformité à la loi normale est le test le plus utilisé, car elle sous-tend la plupart de tests paramétriques
utilisés en analyse des données.
Les principaux tests de normalité sont : les tests de Jarque-Bera (pour les grands échantillons, n >88) et le
test de Shapiro-Wilk (pour les petits échantillons, n < 50)

3.1. TEST DE JARQUE-BERA (JB)
Le test JB est fondé sur les coefficients d’asymétrie et d’aplatissement. Sa richesse consiste à ce qu’il permet
de conclure à la fois sur l’asymétrie et l’importance des queues (aplatissement) d’une distribution.
a) Hypothèses à tester
Les hypothèses du test sont les suivantes :
 H0 : La distribution est issue d’une population de loi Normale

 H1 : La distribution n’est pas issue d’une population de loi Normale
b) Statistique du test
La statistique du test est calculée comme suit :
𝑛 2 (𝐾 − 3)2
𝐽𝐵 = [𝑆 + ]
6 4
Où n est la taille de l’échantillon, S le Skewness et K le Kurtosis.
c) Valeur critique
Sous l’hypothèse de normalité de la série (H0), la statistique du test JB suit asymptotiquement une
distribution du Khi deux à 2 degrés de liberté. Ainsi, Pour un coefficient de risque α fixé, la valeur
critique est lue dans la table du Khi-2 à k=2 degrés de liberté [Vl = 𝜒𝛼2 (2)].
d) Règle de Décision
Si JB ≥ Vl , alors on rejette l’hypothèse H0 de normalité
3.2. TEST DE SHAPIRO-WILK
Les hypothèses du test sont les suivantes :
 H0 : La variable X est Gaussienne

 H1 : La variable X est non Gaussienne
La statistique de test est calculée comme suit :
𝑛 2
𝐸𝑛𝑡( )
2
[∑𝑖=1 𝑎𝑖 [𝑋(𝑛−𝑖+1) − 𝑋(𝑖) ]]
𝑊= 2
∑𝑛𝑖=1[𝑋(𝑖) − 𝑋̅]

Où
n : est la taille de l’échantillon
𝑛 𝑛
𝐸𝑛𝑡 ( 2 ) : est la partie entière de 2
𝑎𝑖 : sont les valeurs lus dans la table de coefficients de Shapiro-Wilk, connaissant n et i

𝑋(𝑖) : correspond à la série des données triées en ordre croissant.
c) Valeur critique
La statistique W est confrontée à une valeur lue dans la table des valeurs limites de W proposée par Shapiro
et Wilk, avec n le nombre d’observations et au seuil α [5% en général].
Critère de décision : Si W < WTable(n) au seuil α, alors on rejette l’hypothèse H0, et donc, la variable X est
non gaussienne.
3.3. Exemple
Un chercheur désire examiner la relation qui peut exister entre l’habilité en lecture (X) et le nombre d’heures
de lecture par semaine (Y). X est mesurée en laboratoire à l’aide d’un test d’habilité en lecture alors que Y
est estimé par les sujets eux-mêmes. 10 sujets ont été échantillonnés. Les résultats sont :
X 20 5 5 40 30 35 5 5 15 40
Y 5 1 2 7 8 9 3 2 5 8
Testons si la variable X est Gaussienne, sachant que Skweness = 0.23 et Kurtosis = -1.88
Test de Shapiro-Wilk
i X X(i) 𝑋(𝑖) − 𝑋̅ [𝑋(𝑖) − 𝑋̅]

2
𝑎𝑖 𝑋(𝑛−𝑖+1) − 𝑋(𝑖) 𝑎𝑖 [𝑋(𝑛−𝑖+1) − 𝑋(𝑖) ]
1 20 5 -15 225 0,5739 35 20,0865
2 5 5 -15 225 0,3291 35 11,5185
3 5 5 -15 225 0,2141 30 6,423
4 40 5 -15 225 0,1224 25 3,06
5 30 15 -5 25 0,0399 5 0,1995
6 35 20 0 0 Σ = 41,2875
𝑛 2
7 5 30 10 100 𝐸𝑛𝑡( )
[∑𝑖=1 2 𝑎𝑖 [𝑋(𝑛−𝑖+1) − 𝑋(𝑖) ]] (41,2875)²
8 5 35 15 225 𝑊= = = 0,8315
2
9 15 40 20 400 ∑𝑛𝑖=1[𝑋(𝑖) − 𝑋̅] 2050
10 40 40 20 400
𝑋̅ = 20 Σ =2050 Pour 𝛼 = 5% 𝑊𝑇𝑎𝑏𝑙𝑒 = 0.842
Puisque 𝑊 < 𝑊𝑇𝑎𝑏𝑙𝑒 , on rejette H0. La variable X n’est donc pas Gaussienne.
Test de Jarque-Bera
𝑛 2 (𝐾 − 3)2 10 (−1,88 − 3)2
𝐽𝐵 = [𝑆 + ]= [0,232 + ] = 10
6 4 6 4
Pour 𝛼 = 5%, Vl = 𝜒𝛼2 (2) = 5,99

Puisque JB ≥ Vl , alors on rejette l’hypothèse H0 de normalité. La variable X n’est donc pas Gaussienne.

IV. TEST D’INFERENCE POUR UNE VARIABLE
1. Test d’Ajustement du Khi-2
Ce test est applicable aux variables qualitatives nominales, il consiste à analyser un échantillon
d’observation d’une variable afin de tester l’ajustement à la distribution d’une population standard. On
peut chercher par exemple à tester si la fréquence ou la proportion observée dans les classes d’âge des
personnes interrogées lors d’une enquête sont significativement différents de celles observées pour les
mêmes classes d’âges dans la population de référence.
On teste l’hypothèse
Ho : il n’y a pas de différence significative entre les fréquences (ou proportions) observées et les
fréquences (ou proportion) théoriques.
Contre l’hypothèse
H1 : il y’a des différences significatives entre les fréquences observées et les fréquences théoriques
La statistique du test mesure les écarts entre la distribution observée et la distribution théorique. Elle
est donnée par :
k
Oi  Ti 2
 2
i 1 Ti
Où Ti est la fréquence théorique de la catégorie i,
Oi, la fréquence observée de la catégorie i
et k, le nombre total de catégories
c) Valeur critique
Sous l’hypothèse Ho, la statistique  suit une loi de Khi-2 à (k-1) degrés de liberté. Ainsi, Pour un
2
coefficient de risque α fixé, la valeur critique :  (k - 1) est lue dans la table du Khi-2 à (k-1) degrés
2
de liberté.
On compare  à la valeur critique :

2
 Si  2   (k - 1) , on rejette Ho
2
 Si non on accepte Ho
e) Exemple :
On voudrait savoir si les clients de ce magasin apprécient plus les produits Alimentaires ou non. Or les
clients de ce magasin peuvent acheter, soit uniquement les produits Alimentaires, soit les produits non
alimentaires ou alors les deux. On veut tester si la fréquence d’achat est répartie de façon égale dans

ces trois niveaux de fréquence. Une enquête faite sur un échantillon de 60 clients de ce magasin à
permis d’avoir les résultats suivants :
Produits achetés Fréquences observées

Alimentaire 26
Non Alimentaire 18
Les deux 16
Résolution :
Produits achetés Fréquences observées Fréquences théoriques

Alimentaire 26 20
Non Alimentaire 18 20
Les deux 16 20
Ici, k = 3, n = 60
(26  20) 2 (18  20) 2 (16  20) 2
2     2,8
20 20 20
Pour   5%,  (k - 1)   (2)  5,9
2 2
Pour   1%,  (k - 1)   (2)  9,21

2 2
On a  2   (k - 1) donc on accepte Ho. En d’autres termes, les clients de ce supermarché achètent

2
à égale fréquence les produits alimentaires, les produits non alimentaires ou alors les deux. On ne peut
donc conclure qu’ils apprécient plus les produits Alimentaires.
2. Test de Kolmogorov-Smirnov
C’est un test d’ajustement tout comme le test du Khi-2, qui s’applique aux variables qualitatives
ordinales.
Les hypothèses à tester sont les suivantes :
Ho : les valeurs observées dans l’échantillon ne sont pas significativement différentes des valeurs
théoriques.
H1 : ces valeurs sont significativement différentes.
Le principe du test consiste à calculer la distribution cumulée des proportions théoriques et à la

comparer avec celles observées de l’échantillon. On considère comme statistique du test : D, l’écart
maximum en valeur absolue entre les proportions cumulées observées et les proportions cumulées
théoriques
D  max PcO  PcT .  
c) Valeur critique
La valeur critique : D , au seuil α, pour un échantillon de taille n (n > 35) est donnée par :

 1% 5%
D 1.63 1.36
n n
d) Règle de décision :
Si D  D , on rejette Ho, si non, on accepte Ho
NB. Le Test de Kolmogorov-Smirnov s’applique aussi pour déterminer si les fréquences observées pour
deux échantillons indépendants sont significativement différentes.
a) Exemple :
Dans une enquête, on a interrogé 88 hommes et 91 femmes. Les sujets devaient indiquer leur degré
d'adhésion à une affirmation, sur une échelle en 5 points. Les résultats sont les suivants :
Hommes Femmes
Tout à fait d’accord 14 24
D’accord 15 15
Indifférent 19 21
Opposé 18 17
Tout à fait opposé 22 14
On veut tester s’il existe une différence d'opinion entre les hommes et les femmes.
Résolution :
Prop Cum
Hommes Femmes
Prop H H Prop F Prop cum F diff |diff|
Tout à fait
14 24 0,16 0,16 0,26 0,26 -0,10 0,10
d’accord
D’accord 15 15 0,17 0,33 0,16 0,43 -0,10 0,10
Indifférent 19 21 0,22 0,55 0,23 0,66 -0,11 0,11
Opposé 18 17 0,20 0,75 0,19 0,85 -0,10 0,10
Tout à fait opposé 22 14 0,25 1,00 0,15 1,00 0,00 0,00
D = 0.11
n = 88 + 91 = 179
Pour 𝛼 = 5%, 𝐷𝛼 = 1,36
√𝑛
1,36
= √179 = 0.10
D  D , on rejette Ho
Nous pouvons donc conclure qu’il existe une différence d'opinion entre les hommes et les femmes
3. Tests utilisant la loi normale ou de Student
Les tests de loi normale (Z) ou de Student permettent d’évaluer si la tendance centrale des données
d’un échantillon de taille n est significativement différente d’une norme standard. Ces tests s’appliquent
pour les variables quantitatives.

Le test de loi normale est approprié dans le cas où n>30 dans le cas contraire, on utilise le test de
Student.
a) Cas de la moyenne
Soit à tester l’hypothèse Ho : X  m contre H1 : X  m

X m X m
On prend comme statistique du test : Z  pour n>30 ou T  pour n<30
S n S n 1
1 n
Où S est l’écart type observé à partir de l’échantillon. ( S 2  
n i 1
( xi  X ) 2 )
La règle de décision est la suivante :
Pour n>30, Si Z  Z / 2 on rejette Ho, si non, on accepte Ho
Pour n<30, si T  t / 2 (n  1) on rejette Ho, si non, on accepte Ho

Où Z  / 2 et t / 2 (n  1) sont respectivement les fractiles de la loi normale et de la loi de Student.
 1% 5% 10%
Z 2 2.576 1.960 1.645
b) Exemple
Sur un échantillon de 90 emballages, tiré de la production d’une entreprise, on a observé que le

poids moyen est de 22,84 kg, avec un écart type de 3,22 kg on voudrait savoir si la production de cette
entreprise est conforme à la norme qui fixe le poids de l’emballage en question à 22 kg.
Résolution
Ici, n = 90 > 30,

22.84  22
Z  2.47
3.22 90
Au seuil   5% , Z  2  1,96
On a Z  Z  2 , on rejette Ho
Donc le poids moyen des emballages fabriqués par cette entreprise est significativement différent de la
norme.
4. Analyse de variance à un facteur pour échantillons indépendants.
Hypothèses à tester :
L'hypothèse nulle (H0) est l'égalité des moyennes des populations dont sont extraits les échantillons :
H0 : m1 = m2 = m3 =... = mk
L’hypothèse alternative (H1) est l’inégalité d’au moins deux de ces moyennes
H1 : il i, j (i  j ) tel que mi  m j
Statistique du test :

Considérons que le nombre d'échantillons est noté k, le nombre de mesures par échantillon est désigné par
n et le nombre total de mesures, kn. Le tableau des données étant le suivant :
échantillon 1 échantillon j échantillon k

x11 x1 j x1k
x 21 x2 j x2k
... ... ...
La détermination de la statistique du test passe par la construction du tableau d’analyse de la variance qui
se présente ainsi qu’il suit :
Source de variation ddl SCE CM (Variance) F

S V
Effet facteur k-1 SF VF  F F F
k 1 VR
SR
Effet Résiduel kn-k SR VR 
kn  k
Total kn-1 ST
Avec :
S F   n j x j  x  S R   xij  x j  ST   xij  x 
k n k n k
2 2 2
j 1 i 1 j 1 i 1 j 1
n k n
1 1
x  xij x j   xij
kn i 1 j 1 n i 1
NB : ST = SF + SR
VF , est la variance inter-groupe et VR, la variance intra-groupe
Manuellement, les calculs intermédiaires à réaliser pour construire le tableau de l’analyse de la variance
sont les suivants :
échantillon 1 échantillon j échantillon k

x11 x1 j x1k
x 21 x2 j x2k
... ... ...
xi1 x ij xik
... ... ...
xn1 x nj x nk Total
n n
 xij
i 1
T1 Tj Tk G   xij
i 1
T2 T12 T j2 Tk2 T 2
n n n n n

n n n n
 n 2
 x ij2  x 2i1  x 2ij  x 2ik    x1 j 
i 1 i 1 i 1 i 1 i 1 
SF 
T 2

G2   T 2
S R     xij2  
  G2
S T     xij  
 2
n kn   n   kn
Seuil critique :
Pour un seuil  fixé, la valeur critique est donnée par la table de Fisher Snedecor à [(k-1), (kn-k)] ddl.
Flu = F [(k - 1), (kn - k)]
Règle de décision : Si F > Flu, on rejette H0 .Si non on l’accepte
Exemple :
On veut savoir si les intérêts boursiers varient d'une place boursière à l'autre. Pour cela, on prélève les
intérêts mensuels moyens enregistrés lors des 10 premiers mois de l’année (n = 10) dans 3 places boursières
différentes (k = 3). Les données se présentent comme suit :
1ère place B 2e place B 3e place B

Janvier 50 162 120
Février 52 350 120
Mars 123 125 122
Avril 100 320 221
Mai 200 112 253
Juin 250 200 141
Juillet 220 40 182
Août 220 162 175
Septembre 300 160 160
Octobre 220 250 214
Résolution :
1ère place B 2e place B 3e place B
50 162 120
52 350 120
123 125 122
100 320 221
200 112 253
250 200 141
220 40 182
220 162 175
300 160 160
220 250 214 Total
n
T= x
i 1
ij 1735 1881 1708 5324
T2
301022,5 353816,1 291726,4 946565
n

n
x
i 1
2
ij
368033 435257 311560 1114850
S F  1732,47 S R  168285 ST  170017,47
Tableau d’analyse de la variance :

Source de variation ddl SCE CM F
Effet place boursière 2 1732,47 866,24 0,14
Effet Résiduel 27 168285 6232,78
Total 29 170017,47
Pour   5% , Flu = F [2, 27]  3,35

F < Flu on accepte H0, donc il n’y a pas de différence significative entre les intérêts des trois places
boursières

CHAPITRE III
ANALYSE BIVARIEE
Lorsque qu’une étude statistique porte sur deux variables, on parle d’analyse bivariée. Il est généralement
question ici de décrire l’évolution commune des deux variables, de rechercher d’éventuels liens entres elles
ou alors d’expliquer une variable par l’autre. Selon l’objectif de l’étude et de la nature des variables, les
techniques utilisées dans ce cas sont les suivantes :
Variable à Expliquer (Y)

Qualitative Quantitative
Correspondance Comparaison
Tableaux d’effectifs (tableau croisé) Tableau des moyennes

Qualitative
Test d’association (Chi-2)
Variable explicative (X)
Analyse de la variance
Description – modélisation - prévision Test de Fisher
Modélisation - Prévision
Comparaison Corrélation
Tableau de moyennes Nuage de points

Quantitative
Analyse de la variance (ANOVA) Test de corrélation
Test de Fisher Modélisation - Prévision
Modélisation - Prévision
I. THEORIE DE LA CORRELATION
Lorsque deux phénomènes ont une évolution commune, nous disons qu’ils sont corrélés. La corrélation
simple mesure le degré de liaison existant entre ces deux phénomènes. Cette corrélation peut être linéaire
ou non, négative ou positive.
1.1. Coefficient de corrélation de Pearson
Soient X et Y deux variables aléatoires quantitatives, le coefficient de corrélation linéaire entre X et Y

est donné par la relation :
 X i  X Yi  Y 
n n n n
n X iYi   X i  Yi
cov( X , Y )
rXY   i 1
 i 1 i 1 i 1
 XY
 X i  X  Y  Y 
n n 2 2
2 2 n
  n n
 n 
i n X    X i 
i
2
n Yi    Yi 
2
i 1 i 1 i 1  i 1  i 1  i 1 
On démontre que ce coefficient est compris entre -l et +1.
• S’il est proche de +1, les variables X et Y sont corrélés positivement

• S’il est proche de -1 les variables X et Y sont corrélés négativement
• S’il est proche de 0, les variables X et Y ne sont pas corrélés
Dans la pratique, ce coefficient est rarement proche de ces trois valeurs, on est alors amené à procéder
à un test pour vérifier la corrélation entre deux variables.
1.2.Coefficient de corrélation de rang de Spearman
Le coefficient de corrélation de Spearman, noté 𝜌𝑋𝑌 , est un coefficient non paramétrique qui quantifie,
comme le 𝑟𝑋𝑌 , de Pearson, le degré d’association linéaire entre deux variables quantitatives.
Il est particulièrement approprié lorsqu’au moins une de deux variables X et Y n’est pas normalement
distribuée. Son calcul nécessite que les données soient transformées en rang. Le rang de X est noté par 𝑅𝑖
et celui de Y par 𝑆𝑖 . Le 𝜌𝑋𝑌 , de Spearman n’est rien d’autre que le rapport entre la covariance (𝑅𝑖 , 𝑆𝑖 ) et le
produit non nul de leurs écarts-types. Il est donc un cas particulier du coefficient de corrélation de Pearson.
En tenant compte de certaines propriétés de rang, le 𝜌𝑋𝑌 , de Spearman peut être calculé de manière plus
simple par la formule :
6 ∑𝑛𝑖=1 𝐷𝑖2
𝜌𝑋𝑌 =1−
𝑛(𝑛2 − 1)
Où 𝐷𝑖 = 𝑅𝑖 − 𝑆𝑖 et n : le nombre d’observations.
1.3.Comparaison entre le 𝒓𝑿𝒀 de Pearson et le 𝝆𝑿𝒀 de Spearman
Le 𝒓𝑿𝒀 de Pearson Le 𝝆𝑿𝒀 de Spearman

Pour calculer 𝒓𝑿𝒀 , les variables doivent être gaussiennes. Le 𝝆𝑿𝒀 lève l’hypothèse de normalité. De plus, dans le cas
des variables distribuées normalement, 𝝆𝑿𝒀 reste adapté car
il fournit les mêmes résultats que le 𝒓𝑿𝒀 de Pearson.
Le 𝒓𝑿𝒀 donne une idée sur le sens de la liaison mais estime Dans ce cas, le 𝝆𝑿𝒀 est approprié, il estime mieux que le 𝒓𝑿𝒀
mal sa force ce type de liaison.
Le 𝒓𝑿𝒀 est fortement influencé par la présence des déviants Le 𝝆𝑿𝒀 résiste aux points aberrants. Dans ce cas, il est donc
[points aberrants]. préféré au 𝒓𝑿𝒀
Note : Lorsque la liaison entre les deux variables étudiées est non linéaire et non monotone, les deux coefficients 𝒓𝑿𝒀 et 𝝆𝑿𝒀
ne sont plus adaptés. On peut soit transformer les données avant de les calculer ou carrément, lorsqu’on dispose de plusieurs
valeurs de Y pour chaque valeur de X ou l’inverse, calculer le rapport de corrélation.
1.4.Exercice d’application
En utilisant les données de l’exemple 3.3 du premier chapitre, Estimons la corrélation entre X et Y.
Eu égard aux résultats des tests de linéarité et de normalité (X est non gaussienne), le coefficient de
corrélation approprié dans ce cas est le 𝝆𝑿𝒀 de Spearman. Les calculs sont confinés dans le tableau ci-après
:
X Y Rang de X (Ri) Rang de Y (Si) Di = Ri - Si Di²
20 5 6 5,5 0,5 0,25
5 1 2,5 1 1,5 2,25
5 2 2,5 2,5 0 0
40 7 9,5 7 2,5 6,25
30 8 7 8,5 -1,5 2,25
35 9 8 10 -2 4
5 3 2,5 4 -1,5 2,25
5 2 2,5 2,5 0 0
15 5 5 5,5 -0,5 0,25
40 8 9,5 8,5 1 1
Σ = 18,5
𝟔(𝟏𝟖,𝟓)
𝝆𝑿𝒀 = 𝟏 − 𝟏𝟎(𝟏𝟎𝟐 −𝟏 = 𝟎, 𝟖𝟖𝟕𝟗

1.5.Test de corrélation
 Les hypothèses à tester sont les suivantes
Ho : rXY  0
H1 : rXY  0
rXY
 La statistique du test est donnée par : t 
1  rXY2
n2
 On démontre que, sous l’hypothèse Ho, t suit une loi de Student, à n-2 degrés de liberté. Pour un
seuil  fixé, la valeur critique du test est donnée par :
t0  t (n  2)
2
 Si t  t 0 , on rejette Ho. Si non on l’accepte
II. MODELE DE REGRESSION SIMPLE
Ayant détecté une corrélation entre deux variables quantitatives X et Y, on peut matérialiser le lien sous
forme d’une équation mathématique : c’est la modélisation. Un des modèles qui s’adaptent sur la plupart
des données économiques est le modèle de régression simple.
Il est question ici de rechercher un lien entre X et Y sous la forme : Y = aX + b + ε (1)
où a et b sont les coefficients inconnus du modèle, et ε, une perturbation aléatoire, appelée aléa ou résidu.
On peut considérer que le terme aléatoire: rassemble toutes les influences autres que celle de la variable
~,
explicative : X d’incidence secondaire sur la variable à expliquer: Y, et non explicitement prises en compte
dans le modèle.
1. Estimation des coefficients du modèle
Ayant supposé X et Y liés par le modèle précédent, c’est à dire chaque couple d’observations dans
une relation : yi = = a.xi + b + εi
où les valeurs de a, b et εi sont à déterminer.
À partir des n couples de données observées: (x1,y), il faut estimer ces différentes quantités, et juger
de la pertinence du modèle.
On montre, par la méthode des moindres canés ordinaires, que les coefficients a et b peuvent être
estimés respectivement par :
n
cov(x, y )
x y
i 1
i i  n xy
 aˆ   n
x
var(x)
n x2
2
i
i 1
 bˆ  y  aˆ.x
On suppose que les aléas:  i , suivent la même loi normale: N 0,  et sont indépendants.
2
 
Remarque: L’estimateur des MCO est unique, sans biais et de moindre variance parmi les estimateurs
linéaires.
Après avoir estimé les coefficients a et b, il reste à vérifier s’ils peuvent être considérés comme nuls
ou pas. Pour cela on possède au test de Student.
2. Test de Student pour la significativité des coefficients a et b
a) hypothèses
Ayant obtenu le modèle (1) de la régression linéaire précédente, on désire tester les hypothèses
HO : a = 0 (resp. b = 0) contre
H1 : a ≠ 0 (resp. b ≠ 0)
Soient:
1 n 2
ˆ 2    i , une estimation de la variance du résidu   , avec
n  2 i 1
𝜀 = 𝑦 − 𝑦̂ et 𝑦̂ = 𝑎̂𝑥 + 𝑏̂
ˆ 2 ̂2
𝜎
ˆ a 
2
= , l’estimateur empirique de la variance du coefficient a
∑ 𝑥𝑖2 −𝑛𝑥̅ 2
 x  x
n
2
i
i 1
 
 
2 1 x2  , l’estimateur empirique de la variance du coefficient b
ˆ b 2  ˆ  n
n 
  xi  x 2 
 i 1 
aˆ  ˆ 
La statistique du test est : t * a   resp. t * b  b 
ˆ a  ˆ b 
 
c) Valeur critique
aˆ  a bˆ  b
On démontre que, sous H0 , et suivent une loi de Student à n- 2 degrés de liberté
ˆ a ˆ b
La valeur critique du test est donnée par : t 0  t n  2
2
d) Règle de décision
Pour un seuil α fixé,
- Si | t * a | > t n  2 , on rejette l’hypothèse Ho, et donc a est significativement différent de zéro.

2
- Si  t n  2   t * a  t n  2  , on accepte Ho
2 2
Il en est de même pour b
L’intervalle de confiance de a, au seuil α, est donné par a  aˆ  ˆ a .t n  2
2
e) Exemple
Revenu (X) 8 9 9.5 9.5 9.8 11 12 13 15 16

Consommation (Y) 7.5 8.2 8.0 8.6 8.8 10.5 10.6 11.5 12 14.8
Test de corrélation
 X  112.8 X 2
 1336.54 Y  100.5 Y 2
 1056.79  XY  1186.74
rxy = 0.969
t = 11.17
t n  2 = 2.3 (α = 5% et n = 10)
2
t > t n  2 , donc X et Y sont corrélées.

2
Estimation des coefficients de corrélation
a = 0,828
b = 0,714
Test de Student
n

2
i = 2,82
i 1
̂ 2 = 0,35196501
̂ 2 a = 0,00548608
̂ 2 b = 0,43221304
t * a = 11,1744494
t * b = 1,085886884
t*(a) > t n  2 , donc a est significativement différent de zéro

2
t*(b)<) t n  2 , donc b est n’est pas significativement différent de zéro

2
Le modèle de régression de la consommation en fonction du revenu est donc: Y  0.828X  
III. MESURE D’ASSOCIATION POUR DEUX VARIABLES QUALITATIVES
1. Test d’association du Khi-2
Etant donné deux variables qualitatives nominales X et Y, observées sur un échantillon de taille n,
l’on désire savoir si ces deux variables sont indépendantes ou s’il existe une liaison entre elles. Le test de
khi-2 permet de mettre en évidence une éventuelle liaison entre les deux variables.
a) Tableau de contingence
Supposons que la variable X ait k catégories : X1, X2, .,Xk et que Y ait , m catégories : Y1, …, Ym. La première
.
étape du test consiste à construire le tableau de contingence (ou tableau croisé) de la manière suivante :
X
X1 X2 … Xj … Xk Total
Y
Y1 O11 O12 … O1 j … O1k n1
Y2 O21 O22 … O2 j … O2 k n2
… … … … … … … …
Yi Oi 1 Oi 2 … Oij … Oik ni
… … … … … … … …
Ym Om1 … … O mj … Om k nm

Total t1 t2 … tj … tk n
Où Oij est l’effectif observé de la catégorie ( Yi , X j ),
t j , l’effectif total observé de la catégorie X j ,
ni, l’effectif total observé de la catégorie Yi
b) Construction du test
 Les hypothèses à tester sont les suivantes :

Ho : les deux variables X et Y sont indépendantes
H1 : les variables X et Y ne sont pas indépendantes
 La statistique du test est donnée par :
 k Oij  Tij 2
m 
  
2 
 j 1 Tij 
i 1
 
Où, Tij 
ni t j
, est l’effectif théorique de la catégorie X j , Yi  
n
On démontre que, sous l’hypothèse Ho, la statistique du test suit une loi de Khi-2 à v degrés de liberté.
(Avec v = (k-1)(m-1)).
 Pour un coefficient de risque α fixé, la valeur critique du test est donnée par :
 
 02   2   , valeur lue dans la table du Khi2 à v degrés de liberté
 Si  2   0 , on rejette Ho , Si non on l’accepte.

2
c) Exemple
Une enquête a été réalisée auprès de 332 touristes auxquels on a demandé leurs modes d’hébergement
durant le séjours dans un pays. Les données obtenues pour chaque catégorie socio professionnelle (CSP)
des personnes interrogées se présentent ainsi qu’il suit :
CSP
Agriculteur Cadre Ouvrier Profession libérale Autre
Hébergement
Camping 2 17 20 6 22
Famille / amis 6 32 9 24 34
Hôtel 1 12 7 23 31
Location / gîte 2 25 8 26 25
Peut-on rejeter l'hypothèse d'indépendance entre le mode d’hébergement et la CSP ?

Résolution
Calcul des effectifs théoriques :

Agriculteur Cadre Ouvrier P. libérale Autre
2 17 20 6 22
Camping 2,22 17,36 8,88 15,94 22,60
6 32 9 24 34
Famille / amis 3,48 27,20 13,92 24,98 35,42
1 12 7 23 31
Hôtel 2,45 19,17 9,81 17,61 24,96
2 25 8 26 25
Location / gîte 2,85 22,28 11,40 20,46 29,01
Statistique du test :
0,022 0,007 13,927 6,201 0,016

1,827 0,848 1,736 0,039 0,057
0,860 2,681 0,804 1,651 1,460
0,253 0,333 1,013 1,498 0,555
X 2  35,76
Valeur critique du test : k = 5 et m = 4 → (k-1)(m-1) = 12
 52% (12)  21
Décision : X   5% (12) , on rejette Ho, en d’autres termes on rejette l'hypothèse d'indépendance entre le
2 2
mode d’hébergement et la CSP.
2. Test de Kruskal-Wallis
Ce test est applicable, soit aux variables qualitatives ordinales, soit aux variables quantitatives, pour
déterminer si k groupes sont significativement différents aux fluctuations d’échantillonnage près. C’est un
test non paramétrique, comparable à au test d’analyse de la variance à un facteur.
Ho : les k échantillons indépendants proviennent de la population dont les mesures de tendance centrale
sont identiques
H1 : les k échantillons indépendants proviennent de la population dont les mesures de tendance centrale
ne sont pas identiques
Le processus d’exécution dudit test consiste tout d’abord à ordonner de 1 à n toutes les observations
combinées des k échantillons (en affectant un rang moyen en cas d’égalité), en suite on calcule la somme
des rangs Rj (j = 1,…,k) de chaque échantillons.
La statistique du test, donnée par :

k R 2
 3n  1
12
H 
j
nn  1 j 1 n j
k
Où nj est la taille de l’échantillon j (j = 1,…,k) et n  n
j 1
j
On démontre que, sous Ho, H suit une loi de khi-2 à (k-1) degrés de liberté lorsque nj > 5 j  1,...,k .
Pour un seuil α fixé, si H   k  1 alors on rejette Ho. Sinon on l’accepte.
Exemple:
Pour évaluer l’efficacité relative des différentes méthodes de promotion d’un produit de nettoyage
(Echantillons gratuit, Rabais de 30%, Annonce à la radio et Emission à la radio) appliquée à 4 groupes de
potentiels consommateurs, ces derniers devraient indiquer, dans chacune des situations de promotion, par
une note allant de 1 à 7 jusqu’à quel point ils croyaient à l’efficacité de ce produit. Les résultats se présentent
ainsi qu’il suit :
Echantillon gratuit Rabais de 30% Annonce à la radio Emission à la radio

1 1 5 5
3 2 6 7
4 2 4 6
2 3 3 5
5 1 5 7
1 2 7 6
1 1 6 7
Résolution:
Nous avons 4 échantillons et 28 observations au total. Après avoir combiné et ordonné les
observations on obtient :
Echantillon gratuit Rabais de 30% Annonce à la radio Emission à la radio
3.5 3.5 18 18
12 8.5 22.5 26.5
14.5 8.5 14.5 22.5
8.5 12 12 18
18 3.5 18 26.5
3.5 8.5 26.5 22.5
3.5 3.5 22.5 26.5
R1=63.5 R2=48 R3=134 R4=160.5
 63.52 482 1342 160.52 
H 
12
      328  1 
12
7150.36  87 18.67
2828  1  7 7 7 7  812
Or 1% k  1  1% 4  1  1% 3 11.34
H  1% 3 d’où rejet de Ho, en d’autres termes, les observations des 4 échantillons sont significativement
différentes et donc le degré de croyance dans l’efficacité de ce produit de nettoyage n’est pas le même pour
les quatre méthodes de promotion.
3. Test de Wilcoxon pour séries appariées
Ce test est utilisé lorsqu’on veut comparer deux séries d’une variable ordinale ou quantitatives, chaque
observation d’un échantillon étant liée à une observation homologue de l’autre échantillon. C’est un test
non paramétrique.
Ho : la différence entre les deux séries n’est pas significative

H1 : la différence entre les deux séries est significative
Pour déterminer la statistique du test, on calcule tout d’abord la différence di entre les scores de deux
observations jumelées (si la différence est nulle, on élimine l’observation correspondante), ensuite on
indique le rang de toutes les différences di en valeur absolue, de la plus petite à la plus grande et on affecte
à chaque rang le signe de la différence dont il provient (en cas d’égalité des |di|, les rangs sont attribués de
la même façon qu’au test précédent).
La statistique du test : T est la plus petite des deux sommes de rangs positifs ou de rangs négatifs.
Sous l’hypothèse Ho, lorsque n ≥ 8, on démontre que T suit une loi normale N (,  2 )
nn  1 nn  12n  1

Avec,   et  
4 24
T 
D’où Z  suit une loi normale N (0,1)

Pour un seuil  fixé, si |Z| > Z  2 , on rejette Ho, si non on l’accepte.
Le test de Wilcoxon est particulièrement utilisé pour évaluer si on observe un changement

statistiquement significatif dans un plan d’expérience «avant-après » sur les mêmes sujets, lorsque l’une
des deux variables est ordinale ou quantitative. C’est le cas par exemple lorsqu’on veut évaluer l’effet d’une
promotion sur les préférences des consommateurs à l’égard de certains produits.
L’hypothèse nulle dans ce cas est :

Ho : l’intention des individus ne change pas après l’expérience
Exemple:
Une firme étudie l’influence d’une interruption de travail permettant de prendre un café, sur la productivité
de ses ouvriers. Ayant choisi 16 ouvriers au hasard, on mesure leur productivité durant deux jours, le
premier sans interruption, le deuxième avec interruption. Les données se présentent ainsi qu’il suit :
Sans Avec Sans Avec

interruption interruption interruption interruption
80 85 87 88
77 75 93 95
88 90 72 77
85 80 80 83
70 76 85 85
95 100 75 76
83 87 87 92
68 65 55 55
Peut-on conclure au risque de 1% que l’interruption de travail améliore la productivité ?
Résolution :
Sans 80 77 88 85 70 95 83 68 87 93 72 80 85 75 87 55
Avec 85 75 90 80 76 100 87 65 88 95 77 83 85 76 92 55
di -5 2 -2 5 -6 -5 -4 3 -1 -2 -5 -3 0 -1 -5 0
|di| 5 2 2 5 6 5 4 3 1 2 5 3 0 1 5 0
rang 11 4 4 11 14 11 8 6,5 1,5 4 11 6,5 - 1,5 11 - Total
R- 11 4 14 11 8 1,5 4 11 6,5 1,5 11 83,5
R+ 4 11 6,5 21,5
T= 21,5
𝑛(𝑛+1) 𝑛(𝑛+1)(2𝑛+1) 𝑇−𝜇
𝜇= = 52,5 𝜎=√ = 15,93 𝑍= = −1,95
4 24 𝜎
|Z| < Zlu=2.57, on accepte H0
On peut conclure au risque de 1% que l’interruption de travail n’améliore pas la productivité
IV. ANALYSE DE LA VARIANCE A DEUX FACTEURS
Prenons l’exemple suivant pour illustrer cette partie du cours : Une entreprise a disposé ses produits
dans des magasins situés dans cinq quartiers de la ville de Douala, dans chaque magasin, les produits sont
disposés sur des étalages à trois niveaux de hauteur (Bas, moyen, haut). A l’issue d’une semaine
d’observation, les ventes dans ces quartiers se répartissent ainsi qu’il suit :
Hauteur étalage Bas moyen Haut Total

Quartier
Akwa 18 22 29 69
Bonandjo 17 20 26 63
Deido 16 17 24 57
New-Bell 15 16 21 52
Cité SIC 12 14 14 40
Total 78 89 114 281
Dans cet exemple, les ventes peuvent être influencées par le niveau d’appréciation du produit en
question dans le quartier ou par la hauteur de l’étalage.
L’analyse de la variance consiste à vérifier si ces effets sont significatifs ou pas.

La vente pour le Quartier i, hauteur de l’étalage j, peut être modélisée par la variable
Yij     i   j   ij
Où
  est la moyenne générale des ventes
  i , l’effet Quartier (i =1, …, n)
  j , l’effet de la hauteur de l’étalage (j =1, …, p)
  ij , l’erreur ou résidu (  ~ N (0, 2 ) )
1. Hypothèses du test
Le test statistique des différences dans les ventes causées par la hauteur de l’étalage va consister à tester
les hypothèses suivantes :
Ho :  j  0 pour tout j =1, …, p

H1 : il existe au moins un
. j  0
De même, le test des différences dans les ventes causées par le quartier consistera à tester
Ho :  j  0 pour tout i =1, …, n

H1 : il existe au moins un
. i  0
2. Statistique du test
La détermination des statistiques des deux tests en question ici passe par la construction du Tableau
d’analyse de la variance suivant :
Source de Degré de Somme des Carré moyen Fisher (F)

variation (SV) liberté (DDL) Carrés (SCE) (CM)
Effet étalage p-1 Se Se Ve

Ve  Fe 
p 1 Vr
Effet quartier n-1 Sq Sq Vq

Vq  Fq 
n 1 Vr
Résidu (p-1)(n-1) Sr Sr
Ve 
 p  1n  1
Total np-1 ST
Avec :
S e  n Y. j  Y 
p

2
j 1
S q  p  Yi.  Y 
n
2

i 1
S T   Yij  Y 
n p
2

i 1 j 1
 S r  ST  S e  S q
1 n p 1 n 1 p
Y  Y..   ij
np i 1 j 1
Y ; Y.j   ij i. p 
n i 1
Y ; Y 
j 1
Yij
La statistique du test des différences dans les ventes causées par la hauteur de l’étalage est donnée par Fe .
De même, la statistique du test des différences dans les ventes causées par le quartier est donnée par Fq
3. Seuil critique
Pour un seuil  fixé, la valeur critique du test des différences dans les ventes causées par la hauteur de
l’étalage est donnée par F ( 1 , 2 ) , Avec  1  p  1 et  2  (n  1)( p  1)
La valeur critique du test des différences dans les ventes causées par le quartier est donnée par F ( 3 , 2 ) ,
Avec  3  n  1 et  2  (n  1)( p  1)

4. Règle de décision
 Si Fe > F ( 1 , 2 ) , On rejette Ho, et donc la hauteur de l’étalage influence significativement les ventes.
 Si Fq > F ( 3 , 2 ) , On rejette Ho, et donc le produit est plus vendu dans certains quartiers que dans
d’autres.
 Dans le cas contraire, ces on accepte Ho et donc ces effets sont non significatifs.
5. Application à l’exemple précédent
i
j 1 2 3 Yi. Yi.  Y  2
1 18 22 29 23 18.2
2 17 20 26 21 5.14
3 16 17 24 19 0.07
4 15 16 21 17.33 1.96
5 12 14 14 13.33 29.16
Y. j 15.6 17.8 22.8 Y  18.73  Yi.  Y 
2
 54,53
Y . j  Y  9.82 0.87 16.54
 Y . j  Y 
2 2
 27,23
Tableau d’analyse de la variance
SV ddl SCE CM F
Effet étalage 2 136.13 68.07 18.65
Effet quartier 4 163.6 40.9 11.21
Résidu 8 29.2 3.65
Total 14 328.93
 Pour   5% F5% 2,8  4.46 et F5% 4,8  3.84
Fe  F5% 2,8 , donc la hauteur de l’étalage influence significativement les ventes.

Fq  F5% 4,8 , donc le quartier influence significativement les ventes
 Pour   1% F1% 2,8  8.65 et F1% 4,8  7.01
Fe  F5% 2,8 et Fq  F1% 4,8 , même conclusion que précédemment

CHAPITRE IV
ANALYSE MULTIVARIEE
INTRODUCTION
L’analyse des données multidimensionnelles recouvre un ensemble de méthodes destinées à synthétiser
l’information issue de plusieurs variables, pour mieux l’expliquer. Ces méthodes peuvent être regroupées
en deux grandes catégories : les méthodes descriptives et les méthodes explicatives.
Les méthodes descriptives visent à structurer et simplifier les données issues de plusieurs variables, sans
privilégier l’une d’entre elles. Les techniques les plus utilisées ici sont : l’analyse en composantes
principales (ACP), l’analyse factorielle des correspondances (AFC), l’analyse des correspondances
multiples (ACM), la typologie et la classification.
Les méthodes explicatives visent à expliquer une variable (variable à expliquer) par plusieurs variables
explicatives. Les principales méthodes utilisées sont : la régression multiple, l’analyse discriminante et la
segmentation.
Ces méthodes d’analyse multivariée permettent de résoudre des problèmes divers et variés. Le choix d’une
méthode dépend de l’objectif de l’étude, des types de variables manipulées et de la forme des résultats
obtenus (qui peuvent être plus ou moins faciles interpréter).Le tableau suivant présente les techniques
utilisées en analyse multivariée en fonction de l’objectif visé.
Objectif Types de variables Méthode

Variable quantitatives ou qualitative
ACP
Résumer l’information en ordinale
minimisant la déperdition Deux variables qualitatives AFC
Plus de deux variables qualitatives ACM
Tout type de variable
Analyse Typologique
Constituer des groupes (Nombre de groupes fixé au préalable)
d’individus similaires Tout type de variable
Classification
(Nombre de groupes non fixé)
Variable à expliquer numérique Régression multiple
Expliquer une variable Variable à expliquer qualitative et
Analyse Discriminante
par plusieurs autres variables explicatives quantitatives
variables Variable à expliquer qualitative et
Segmentation
variables explicatives qualitatives
I. LES METHODES DESCRIPTIVES

1. L’ACP
Le tableau de départ de l’ACP comporte les individus en ligne et les variables en colonne, avec dans chaque
cellule, la valeur observée de l’individu sur la variable correspondante. Les variables ordinales sont
recodifiées.
l’ACP permet de positionner les individus sur un ou plusieurs plans, en fonction de la proximité de leurs
valeurs observées sur les variables sélectionnées. Elle permet également de représenter les variables sur un

ou plusieurs plans, de manière indépendante des individus. Ce qui permet de mettre en évidence le
regroupement des individus ainsi que des variables.
Les axes du graphique correspondent généralement à un regroupement optimal de plusieurs variables. Par
exemple, le revenu et le niveau d’étude peuvent participer ensemble à la formation d’un axe si elles sont
fortement corrélées.
L’ACP est très pratique lorsque l’on travaille sur un ensemble limité et identifié d’individus. Par exemple,
si l’on désire analyser des points de ventes en fonction de plusieurs critères tels que la surface, le CA, les
quantités de vente, le personnel, l’ACP permet d’obtenir une cartographie qui regroupe les points de ventes
selon tous les critères retenus, ce qui peut permettre d’identifier les cas hors norme comme une surface et
un personnel important, mais un CA faible.
L’algorithme de l’ACP effectue sur la matrice Individus/variables les opérations telles que le centrage et la
réduction des données, la diagonalisation de la matrice, l’extraction des valeurs propres et vecteurs propres,
en vue de passer du nombre de variable initial à un petit nombre de variables obtenues par combinaison des
premières. Ces nouvelles composantes forment les axes du graphique. La première composante est celle
qui résume le mieux les informations contenues dans le tableau, la deuxième apporte un pourcentage
d’information inférieur, mais complémentaire et ainsi de suite.
Le graphique de l’ACP représente d’abord la première composante (axe horizontal) et la seconde (axe
vertical). La somme des pourcentages d’explication des deux composantes renseigne sur le taux de
déperdition d’information à partir des données initiales. Ainsi, si la première composante résume 60% du
tableau et la seconde 20%, l’information représentée sur le graphique est de 80%. L’information « perdue »
est donc de 20%.
Les points individus sont représentés sont représentés sur le graphique en fonction de leur coordonnées sur
les facteurs. Les points proches correspondent à des individus ayant des profils proches, à priori, quant aux
valeurs observées sur les variables prises en compte dans l’analyse.
Les points variables sont également représentés sur le graphique, mais de façon indépendante des individus.
Leur représentation indique leur corrélation avec les facteurs, à l’intérieur d’un cercle de rayon unité, avec
une échelle arbitraire. Ces points variables renseignent su le sens à donner aux axes : un point proche du
cercle de corrélation et proche d’un axe participe beaucoup à la formation de cet axe. Les angles inter-
variables (en partant de l’origine) renseignent sur les corrélations entre elles. Ainsi, deux variables formant
un petit angle sont fortement corrélés alors qu’un angle droit signifierait qu’elles sont indépendantes.
2. L’AFC
Le tableau de départ de l’AFC simple est un tableau croisé (tableau de contingence). L’AFC s’applique à
deux variables qualitatives nominales. Elle permet de positionner les modalités des deux variables sur un
graphique. Le graphique de l’AFC affiche les points modalités. On peut par exemple positionner une série
de marque d’automobile sur le même plan avec la caractéristique des clients (âges, CSP, Sexe,…), ce qui
permet de repérer les affinités entre chaque marque et les différentes cibles.
En pratique, on utilise l’AFC pour représenter graphiquement et expliquer le croisement de deux variables.
Si le test du khi-2 indique une dépendance entre ces deux variables, l’interprétation du graphique sera plus
aisée.
3. L’ACM
L’ACM est une généralisation de l’AFC à un nombre quelconque de variables. Elle permet de représenter
sur le même graphique, les modalités de plus de deux variables qualitatives. L’ACM part d’un tableau
disjonctif complet (tableau de Burt) qui présente en ligne les individus et en colonne toutes les modalités

des variables retenues pour l’analyse. Les cases d’intersection (cellules) comportent la valeur 1 si l’individu
répond au critère en colonne et 0 dans le cas contraire.
Comme l’ACP, les deux premiers axes du graphique de l’ACM fournissent une partie généralement
importante de l’information contenue dans les données. La proximité des points renseigne sur leurs
associations. La disposition des modalités de chaque variable les unes par rapport aux autres aide à donner
un sens à chaque axe.
4. LA TYPOLOGIE
L’analyse typologique s’applique à tous types de variables. Elle permet de répartir la population en un
nombre défini de sous groupes aussi différents que possible les uns des autres et dans lesquels les individus
sont aussi semblables que possible entre eux.
Les différentes méthodes d’analyse typologique partent des individus eux-mêmes et essaient de les classer
progressivement selon la ressemblance de leurs observations sur les variables retenues.
Il existe plusieurs méthodes d’analyse typologique, qui aboutissent toutes au classement des individus dans
le nombre de groupes défini initialement. L’effectif de ces groupes peut être très différent. La visualisation
graphique du résultat de l’analyse typologique est un graphique qui met en évidence les différents groupes.
Certains logiciels d’analyse de données permettent de créer à partir des résultats de la typologie, une
nouvelle variable indiquant, pour chaque individu, son numéro de groupe d’appartenance.
5. LA CLASSIFICATION
Tout comme la typologie, la classification est une méthode qui permet de regrouper les individus selon
leurs ressemblances. La différence ici est que le nombre de groupe n’est fixé d’avance et que le résultat est
représenté sous forme d’un arbre de classification.
L’élaboration de cet arbre peut être ascendante par regroupement successif des individus (méthode
fréquemment utilisé) ou descendante par divisions successives.
L’arbre de classification relie un individu à un autre ou à un sous-groupe d’individus issus eux-mêmes de

regroupements. Lorsque l’on coupe l’arbre à un niveau, on obtient les groupes d’individus. Par exemple,
en coupant l’arbre ai niveau du dernier regroupement, on obtient deux groupes, au niveau de l’avant-dernier
regroupement, on obtient trois groupes, ainsi de suite.
Il est également possible d’appliquer une classification pour regrouper des variables. On obtient ainsi des
groupes de variables dont les profils des valeurs/modalités observées se ressemblent.
II. LES METHODES EXPLICATIVES

1. LA REGRESSION MULTIPLE
Elle permet d’expliquer une variable quantitative (Y) par plusieurs autres variables quantitatives
indépendantes (X1, X2, …, Xp). Elle modélise la relation sous la forme : Y  a  b1X1  b 2 X 2    b p X p
, où a, b1, b2, …, bp sont les coefficients du modèle.
Si le modèle de régression est satisfaisant, On peut ainsi prédire les valeurs de la variable Y en fonction des
valeurs des variables explicatives.

L’appréciation de la qualité de la régression se fait grâce à plusieurs indicateurs tels que :
 Le coefficient de détermination multiple (R²) qui calcule le % de la variation de la variable Y dû

aux variables explicatives. (la régression est d’autant satisfaisante que R² est proche de 1).
 Le coefficient de corrélation multiple (R) qui mesure le degré de la liaison entre la variable à
expliquer et les différentes variables explicatives.
 Le test de Fisher qui permet d’estimer la qualité de l’ajustement dans la population.
Certains logiciels calculent directement la probabilité que aucune des variables explicatives n’aient d’effet
sur la variable à expliquer. Cette probabilité doit être très faible pour conclure que l’ajustement est valable.
2. L’ANALYSE DISCRIMINANTE (AD)
C’est une méthode factorielle qui cherche à expliquer une variable qualitative par plusieurs variables
quantitatives. Comme la régression, elle permet de mettre en équation une variable à expliquer et des
variables explicatives. C’est donc une méthode prédictive dans la mesure où elle permet de déterminer
quelle modalité prendra un individu pour la variable qualitative à expliquer, si on connaît ses valeurs
observées sur les variables quantitatives.
Par exemple, l’analyse discriminante peut être appliquée pour attribuer un score à un client d’une banque
ou d’une compagnie d’assurance, en déterminant automatiquement un niveau de risque en fonction de
différents paramètres connus tels que l’âge, le revenu, l’endettement,…
Les résultats de l’AD peuvent être visualisés sur un graphique similaire à celui de l’ACP où les points
individus sont réunis en fonction de leur appartenance aux groupes.
3. LA SEGMENTATION
Elle partage les mêmes objectifs que l’AD mais s’applique lorsque les variables explicatives sont
qualitatives. Elle consiste à découper une population en sous groupes homogènes, mais uniquement par
rapport à la variable à expliquer.
Le processus de la segmentation est itératif : à chaque étape, l’algorithme choisit la variable explicative la
plus corrélée la variable à expliquer pour réaliser une partition à partir des modalités de la première.
Le résultat de la segmentation est une sorte d’arbre de décision, avec un découpage de chaque groupe en
deux sous-groupes. La première partition permet d’obtenir les deux premiers groupes. Chacun de ces deux
groupes est ensuite divisée en deux à l’aide de la variable permettant la meilleure partition et qui n’est
généralement pas la même pour les deux groupes. Le processus se poursuit ainsi avec des interruptions
lorsque la taille du groupe tombe en dessous d’un seuil ou quand le découpage optimal expliquerait un
faible % de variance.

III. FORMALISATION DE L’ACP
L'analyse en composantes principales (ACP) consiste en une décomposition spectrale d'une matrice
particulière :
 soit la matrice de variance-covariance (S) ;
 soit la matrice de corrélation (R).
L'objectif est de réorganiser l'information de manière hiérarchique (avec l'idée que l'on veut réduire le
nombre de dimensions) de sorte à discriminer au mieux les individus (variance décroissante sur les
nouvelles dimensions).
Soient :
 X, la matrice initiale des données ;
 Xc, la matrice des données centrées ;
 Xcs, la matrice des données centrées et standardisée ;
1
 𝑆 = (𝑛−1) 𝑋𝑐′ 𝑋𝑐 , la matrice de covariance ;
1
 𝑅 = (𝑛−1) 𝑋𝑐𝑠
′
𝑋𝑐𝑠 , la matrice de corrélation
 Sjk = Cov(Xj ; Xk) ;
 Sjj = Var(Xj) ;
 Rjk = Cor(Xj ; Xk) ; et
 Rjj = 1.
Les valeurs propres correspondent aux p solutions possibles de l'équation
det(𝑆 − 𝜆𝐼𝑝 ) = 0
Ou bien
det(𝑅 − 𝜆𝐼𝑝 ) = 0
Le vecteur propre associé à la valeur propre 𝜆𝑖 est donné par
𝑆𝑎𝑖 = 𝜆𝑖 𝑎𝑖
Ou bien
𝑅𝑎𝑖 = 𝜆𝑖 𝑎𝑖
Les p couples de valeurs propres (𝜆𝑖 ) et de vecteurs propres (ai) forment la décomposition spectrale de la
matrice S ou R. Par défaut, on travaillera toujours avec la matrice R. L'idée est de ne conserver qu'un petit
nombre de dimensions (généralement 1, 2 ou 3) afin de pouvoir visualiser et analyser les liens entre les
variables. On peut alors tenter de projeter le nuage de points sur un espace en dimension 1 (une droite) ou
bien sur un espace en dimension 2 (un plan). L'analyse en composantes principales permet de déterminer
le meilleur choix comme espace final. Les nouvelles variables :
𝑦 𝑘 = 𝑋𝑐𝑠 𝑎𝑘
forment les composantes principales et les axes ak indiquent les directions. Ces composantes principales
sont hiérarchisées, c'est-à-dire que 𝜆1 ≥ 𝜆2 ≥ 𝜆3 ≥ ⋯ ≥ 𝜆𝑝 ≥ 0, et la variance d'une composante
principale est égale à la valeur propre associée à cette composante. La covariance entre la variable j et la
composante principale k est donnée par :
𝐶𝑜𝑣(𝑥 𝑗 , 𝑦 𝑘 ) = 𝜆𝑘 𝑎𝑗𝑘
et la corrélation entre la variable j et la composante principale k est donnée par :
𝐶𝑜𝑟(𝑥 𝑗 , 𝑦 𝑘 ) = √𝜆𝑘 𝑎𝑗𝑘
Lire et comprendre les résultats d’une ACP
 Le pourcentage d’inertie associé à une composante i est donné par :

𝜆𝑖
𝑝
∑𝑗=1 𝜆𝑗

Cette valeur est une mesure de la qualité de représentation des données par chacune des composantes.
Lorsque l'analyse est réalisée à partir de la matrice des corrélations (ACP normée) R, on a ∑𝑝𝑗=1 𝜆𝑗 = 𝑝
 Qualité de représentation d'un individu ou d'une variable
Ces valeurs sont des mesures (en pourcentage) de la qualité de la représentation des variables et des
individus par chacune des composantes. La proportion de la variabilité initiale de la variable j expliquée
par la composante k est donnée par
2
𝑝𝑟𝑜𝑝 = 𝜆𝑘 𝑎𝑗𝑘
En pratique, les variables s'inscrivent dans un cercle de rayon 1 (le cercle des corrélations) et sont d'autant
plus près de la circonférence du cercle que la variable est bien représentée par le plan (ou l'espace de
dimension q), c'est-à-dire que la variable est bien corrélée avec les deux composantes principales
constituant ce plan.
 Corrélation entre 2 variables

L'angle entre deux variables, X1 et X2, mesuré par son cosinus, est égal au coefficient de corrélation linéaire
entre les deux variables. Si les points sont très proches (angle proche de 0), le cosinus de l'angle est très
près de 1 et donc X1 et X2 sont très fortement corrélées positivement. Si l'angle est pratiquement droit, le
cosinus de l'angle est très près de 0 et alors il n'y a pas de corrélation linéaire entre les variables X1 et X2.
Enfin, si les points sont opposés, l'angle est pratiquement plat, le cosinus est très près de -1 et les variables
X1 et X2 sont très fortement corrélées négativement.
 Contribution d'un individu ou d'une variable à la construction d'une composante

Ces valeurs sont des mesures (en pourcentage) de l'importance de chacun des individus et de chacune des
variables pour les différents axes. La contribution de la variable j à la composante 𝑘 est donnée par :
𝑐𝑜𝑟(𝑥 𝑗 , 𝑦 𝑘 )²
𝑣𝑎𝑟(𝑦 𝑘 )
Elle permet de détecter les individus à forte influence sur les composantes principales.
Résumé de l’ACP
Données les données représente les valeurs de 𝑝 variables mesurées sur 𝑛 individus ; les individus peuvent
avoir un poids. En générale on travaille sur les donnés centrées réduites Xcs (on retranche la moyenne et on
divise par l’écart type).
Matrice de corrélation c’est la matrice R de variance-covariance des variables centrées réduites. Elle
possède 𝑝 valeur propres 𝜆1 ≥ ⋯ ≥ 𝜆𝑝 ≥ 0
Inertie totale c’est la moitié de moyenne des distances au carré entre les individus : elle mesure l’étendu
du nuage des points. C’est la gradeur qu’on cherche à garder maximale et elle peut s’écrire
𝐼𝑔 = 𝜆1 + 𝜆2 + ⋯ + 𝜆𝑝 = 𝑝
Facteur principaux 𝑢𝑘 ce sont des vecteurs propres orthonormés de R associés aux 𝜆𝑘 : 𝑹𝑢𝑘 = 𝜆𝑘 𝑢𝑘. leur
𝑗 −ième composante (sur 𝑝) est le poids de la variable 𝑗 dans la composante 𝑘.
Composantes principales 𝑦 𝑘 ce sont les vecteurs 𝑋𝑐𝑠 𝑢𝑘 de dimension 𝑛 leur 𝑖 −ième coordonnée est la
valeur de la composante 𝑘 pour l’individu 𝑖. Les 𝑦 𝑘 sont décorrelées et leur variance est 𝑣(𝑦 𝑘 ) = 𝜆𝑘.
Nombre d’axes on se contente en général de garder le nombre des axes interprétables de valeur propre
supérieure à 1.
Cercle de corrélations il permet de visualiser comment les variables sont corrélées (positivent ou
négativement) avec les composantes principales. A partir de là, on peut soit trouver une signification
physique à chaque composante, soit montrer que les composantes séparent les variables en chaque paquets.

Représentation des individus pour un plan principal donné, la représentation des projections des individus
permet de confirmer l’interprétation des variables. On peut aussi visualiser les individus aberrants (erreur
de donnée ou individu atypique).
Contribution d’un individu à une composante c’est la part de la variance d’une composante principale
qui provient d’un individu donné. Si cette contribution est supérieure à 2 à 4 fois à son poids, l’individu
définit la composante. Si elle est très supérieure aux autres, on dit qu’il est surreprésenté et on peut avoir
intérêt à mettre l’individu en donnée supplémentaire.
Quantité globale de la représentation c’est la part de l’inertie 𝐼𝑔 qui est expliqué par les axes principaux
qui ont été retenus. Elle permet de mesurer la précision et la pertinence de l’ACP.
Qualité de la représentation d’un individu elle permet de vérifier que tous les individus sont bien
représentés par le sous–espace principal choisi ; elle s’exprime comme le carré de cosinus de l’angle entre
individu et sa projection orthogonale.
Exemple : On étudie les données sur 50 clients d’un hypermarché constituées de l’âge, du revenu, du
montant des achats, du nombre d’enfants.
La taille de ce tableau est insuffisante pour que les interprétations soient intéressantes. Mais elle
permet de donner la totalité des résultats concernant les variables et d’effectuer des calculs sur
quelques unités statistiques à l’aide d’une simple calculatrice.
Nous donnons ci-dessous la représentation graphique des 50 clients sur le plan principal 1x2. Au
groupe (25, 31, 43) détecté par la représentation graphique des couples (âge, revenu) s’ajoute le
client de rang 28. On peut définir un groupe opposé au précédent : (9, 11, 37, 7, 6, 45). Le client de rang 10
est assez particulier.
Exemple : cercle de corrélation C1xC2 des données de l’hypermarché.

Ce cercle de corrélation montre que la seconde composante principale est fortement corrélée au revenu et
surtout à l’âge : un client de l’hypermarché dont la coordonnée est élevée sur l’axe 2 aura très
vraisemblablement un âge supérieur à la moyenne et inversement. C’est le cas des n°1 et 10. On retrouve
les clients n° 25, 31 et 43 dont la coordonnée élevée sur l’axe 1 montre que le nombre d’enfants et le
montant des achats sont faibles. Réciproquement, les clients 9 et 37 dont les coordonnées sur l’axe 2 sont
fortement négatives sont jeunes et ont un revenu faible. Rappelons que ces propriétés peuvent être inexactes
sur des cas particuliers, et que l’orientation des axes peut être inversée si l’on utilise un autre logiciel.

Exercice d’application : Une ACP sur le résultat du décathlon masculin des jeux olympiques a produit les
résultats suivants, interprétez les.

IV. FORMALISATION DE L’AFC
L’AFC est une forme particulière de l’ACP appliquée aux tableaux de contingence : non centrée-réduite,
avec pondérations, et utilisant la métrique dite du chi-deux (des inverses des fréquences marginales) au lieu
de la métrique euclidienne usuelle.
Les objectifs de l’analyse factorielle des correspondances (AFC) sont de

- Comparer les profils- lignes entre eux,
- Comparer les profils-colonnes entre eux,
- Repérer les cases du tableau où les effectifs observés 𝑛𝑖,𝑗 sont nettement différents des effectifs
⊥
théoriques (sous hypothèse d’indépendance) 𝑛𝑖,𝑗 , pour mettre en évidence les modalités
⊥ ⊥
𝑥𝑖 et 𝑦𝑗 qui 𝑠 ′ 𝑎𝑡𝑡𝑖𝑟𝑒𝑛𝑡(cas où 𝑛𝑖,𝑗 > 𝑛𝑖,𝑗 ) et celles qui se repoussent (cas où 𝑛𝑖,𝑗 < 𝑛𝑖,𝑗 )
L’AFC est une méthode faisant apparaitre les cartes de la situation d’indépendance, au niveau des lignes,
des colonnes, ou des cases du tableau de contingence.
Soient
𝑛𝑖. = ∑𝑗 𝑛𝑖𝑗 , 𝑛.𝑗 = ∑𝑖 𝑛𝑖𝑗 , 𝑛.. = ∑𝑖 ∑𝑗 𝑛𝑖𝑗 = 𝑛,
𝑛𝑖𝑗 𝑛𝑖. 𝑛.𝑗
𝑓𝑖𝑗 = , 𝑓𝑖. = , 𝑓.𝑗 =
𝑛 𝑛 𝑛
L'hypothèse nulle d'indépendance entre les lignes et les colonnes du tableau de contingence est donnée
par
𝐻0 : 𝑓𝑖𝑗 = 𝑓𝑖. 𝑓.𝑗 , ∀𝑖, 𝑗
La statistique du test du khi-2 est donnée par :
(𝑛𝑖𝑗 −𝐸𝑖𝑗 )² 𝑛𝑖. 𝑛.𝑗
Χ 2 = ∑𝑖 ∑𝑗 , avec 𝐸𝑖𝑗 =
𝐸𝑖𝑗 𝑛
Soient les matrices 𝑟 (marice des profils ligne), 𝑐 (matrice des profils colonnes) et 𝐺, tel que :
𝑛𝑖𝑗 𝑓𝑖𝑗 𝑛𝑖𝑗 𝑓𝑖𝑗 𝑓𝑖𝑗 −𝑓𝑖. 𝑓.𝑗
𝑟𝑖𝑗 = = , 𝑐𝑖𝑗 = = et 𝐺𝑖𝑗 =
𝑛𝑖. 𝑓𝑖. 𝑛.𝑗 𝑓.𝑗 √𝑓𝑖. 𝑓.𝑗
La matrice 𝐺 présente deux propriétés intéressantes :

 𝐺′𝐺= Variance des profils lignes
 𝐺𝐺′ = Variance des profils colonnes
En analyse des correspondances, les lignes et les colonnes ont un rôle symétrique. On tente, en suivant la
logique de l'analyse en composantes principales, de représenter les lignes (ou profils lignes) et les colonnes
(ou profils colonnes) sur un même graphique. Les poids sont basés sur la notion de relation pseudo-
barycentrique. L'objectif est donc d'obtenir une représentation graphique où toutes les modalités des deux
variables initiales sont représentées, où la proximité (l'éloignement) de deux modalités prend un sens
intrinsèque et où le centre du plan ou de l'axe (le zéro) a également du sens intrinsèque.
On définit les matrices :

𝑓1. 0 ⋯ 0 𝑓.1 0 ⋯ 0
0 𝑓2. ⋯ 0 0 𝑓.2 ⋯ 0
𝐷𝐼 = [ ] et 𝐷𝐽 = [ ]
⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯
0 0 ⋯ 𝑓𝐼. 0 0 ⋯ 𝑓.𝐽
Faire une analyse des correspondances revient à faire deux ACP ; une sur les profils ligne et l’autre sur les
profils colonnes.
Les composantes principales pour les lignes sont données par
⁄
𝜓𝑘 = 𝐷𝐼−1 2 𝐺𝑣𝑘
où 𝑣𝑘 correspond au vecteur propre associé à la 𝑘 𝑒 valeur propre non nulle de la matrice 𝐺′𝐺.
Les composantes principales pour les colonnes sont

⁄
𝜙𝑘 = 𝐷𝐽−1 2 𝐺′𝑢𝑘
où 𝑢𝑘 correspond au vecteur propre associé à la 𝑘 𝑒 valeur propre non nulle de la matrice 𝐺𝐺′.
On obtient toutes les modalités des deux variables représentées sur un même axe. La projection d'un profil
ligne (resp. colonne) est, à une constante prés, la moyenne pondérée des projections de tous les profils
colonnes (resp. lignes). Par conséquent, la proximité (resp. l'éloignement) d'un profil ligne et d'un profil
colonne indique une association positive (resp. négative) s'ils sont tous deux projetés loin du centre. Le
centre de l'axe correspond à la moyenne pondérée des projections des profils colonnes (resp. lignes)
𝜓̅𝑘 = 𝜙̅𝑘 = 0.
L'analyse des résultats de l’AFC se base sur plusieurs éléments :

 Profils lignes (resp. colonnes) proches  profils semblables
 Profils lignes (resp. colonnes) loin du centre  profils éloignés du profil moyen
 Profils lignes (resp. colonnes) = centre de gravité pondéré des projections des profils colonnes
(resp. lignes)  pseudo-barycentre
 Deux profils ligne et colonnes loin du centre et proche l'un de l'autre  association forte et
positive
 Deux profils ligne et colonnes loin du centre et éloignés l'un de l'autre  association forte et
négative
Exercice d’application : Une AFC réalisée sur les données « Touristes » du Chapitre 3 à produit le
graphique suivants. Interpréter ce résultat.

V. FORMALISATION DE LA REGRESSION MULTIPLE
La régression multiple permet d’expliquer une variable quantitative (Y) par plusieurs autres variables
quantitatives indépendantes (X1, X2, …, Xp).
Elle modélise la relation sous la forme : 𝑌 = 𝛽0 + 𝛽1 𝑋1 +𝛽2 𝑋2 + ⋯ + 𝛽𝑝 𝑋𝑝 + 𝜀, où 𝛽0, 𝛽1, 𝛽2, …, 𝛽𝑝

sont les coefficients du modèle.
Cette relation peut se mettre sous la forme : 𝑌 = 𝑋𝛽 + 𝜀.

𝑦1 1 𝑥11 ⋯ 𝑥𝑝1 𝛽0 𝜀1
𝑦2 1 𝑥12 ⋯ 𝑥𝑝2 𝛽 𝜀2
Avec 𝑌 = [ ⋮ ], 𝑋=[ ] , 𝛽 = [ 1] et 𝜀=[⋮]
⋯ ⋯ ⋯ ⋯ ⋮
𝑦𝑛 1 𝑥1𝑛 ⋯ 𝑥𝑝𝑛 𝛽𝑝 𝜀𝑛
L’estimateur des moindres carrés ordinaire (MCO) des coefficients inconnus est :
𝛽̂ = (𝑋′𝑋)−1 𝑋′𝑌
L’estimateur de la variance des erreurs (𝜀) est données par :
1
𝜎̂ 2 = 𝑆 2 = (𝑌 − 𝑋𝛽̂ )′(𝑌 − 𝑋𝛽̂ )
𝑛 − (𝑝 + 1)
Significativité des coefficients :
Il est question de tester les hypothèses

𝐻0 : 𝛽𝑗 = 0
{
𝐻1 : 𝛽𝑗 ≠ 0
La statistique du test est donnée par :

̂𝑗
𝛽
𝑇=𝑠 , où 𝑐𝑗𝑗 est l’élément (𝑗 + 1, 𝑗 + 1) de la matrice (𝑋′𝑋)−1
√𝑐𝑗𝑗
Sous l'hypothèse nulle, cette statistique a une distribution Student avec n - (p + 1) degrés de liberté.
Pour un seuil 𝛼 fixé, la valeur critique est donc donnée par 𝑉𝑐 = 𝑡𝛼⁄2 (𝑛 − (𝑝 + 1))
 Si |𝑇| ≥ 𝑉𝑐 , on rejette 𝐻0 et on conclut que le coefficient 𝛽𝑗 est significatif.
 Si non le coefficient 𝛽𝑗 n’est pas significatif
Significativité globale du modèle :
Il est question de tester les hypothèses

𝐻0 : 𝛽1 = 𝛽2 = ⋯ = 𝛽𝑝 = 0
𝐻1 : 𝐼𝑙 𝑒𝑥𝑖𝑠𝑡𝑒 𝑎𝑢 𝑚𝑜𝑖𝑛𝑠 𝑢𝑛 𝛽𝑗 ≠ 0
La statistique du test est donnée par :

(𝑆𝐶𝐸 − 𝑆𝐶𝑅)/𝑝
𝐹=
𝑆𝐶𝑅/(𝑛 − (𝑝 + 1))
Où 𝑆𝐶𝐸 est la somme des carrés expliqués : 𝑆𝐶𝐸 = ∑(𝑌 − 𝑌̅)2

2
et 𝑆𝐶𝑅 est la somme des carrés des résidus : 𝑆𝐶𝑅 = ∑(𝑌 − 𝑌̂)
Sous l'hypothèse nulle, cette statistique a une distribution Fisher avec p degrés de liberté au numérateur et
n - (p + 1) degrés de liberté au dénominateur.

Pour un seuil 𝛼 fixé, la valeur critique est donc donnée par 𝑉𝑐 = 𝐹𝛼 (𝑝; 𝑛 − (𝑝 + 1))
 Si 𝐹 ≥ 𝑉𝑐 , on rejette 𝐻0 et on conclut que le modèle est globalement significatif.
 Si non le modèle n’est pas globalement significatif
Exercice d’application :
Une régression linéaire sur les données « cars » a produit le résultat suivant : interpréter.
lm(formula = vit ~ cyl + pui + poi + lon + lar)
Residuals:
Min 1Q Median 3Q Max
-18.4094 -2.5448 0.3233 4.9894 10.7151
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 137.226028 52.913375 2.593 0.018352 *
cyl 0.004224 0.010656 0.396 0.696461
pui 0.735264 0.090108 8.160 1.85e-07 ***
poi -0.093859 0.022917 -4.096 0.000679 ***
lon 0.377893 0.133531 2.830 0.011099 *
lar -0.597165 0.456886 -1.307 0.207653
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.32 on 18 degrees of freedom
Multiple R-squared: 0.9148, Adjusted R-squared: 0.8911
F-statistic: 38.66 on 5 and 18 DF, p-value: 5.175e-09

Analyse Des Données 2021

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Analyse Des Données 2021

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSITE DE DOUALA

Faculté des Sciences

Année académique 2021/2022

COURS D’OUTILS D’AIDE A LA PRISE DE DECISION

Chapitre 1 : Méthodologie d’analyse des données

METHODOLOGIE D’ANALYSE DES DONNEES

Par Dr. Nana Yakam André, Chargé de Cours à l’Université de Douala 2

Origine et Collecte des Données

Numérisation, Prétraitement, Mise des données en

Analyse Uni-variée Analyse Bi-variée Analyse Multi-variée

- Estimation des paramètres de - Analyse Factorielle (ACP,

I. ORIGINE ET METHODES DE COLLECTE DES DONNEES

1- Définir la population et la population cible : taille et éléments ;

Il existe deux grandes catégories de techniques d’échantillonnage:

 Les techniques d’échantillonnage probabiliste

Par Dr. Nana Yakam André, Chargé de Cours à l’Université de Douala 4

III. TECHNIQUES DE SELECTION D’UN ECHANTILLON PROBABILISTE

Il existe plusieurs méthodes différentes permettant de sélectionner un échantillon probabiliste. La méthode

Les méthodes d’échantillonnage probabiliste les plus courantes sont:

 Echantillonnage Systématique : On souhaite sélectionner n individus parmi N sujets numérotés de 1 à

 Échantillonnage avec probabilité proportionnelle à la taille : Si la base de sondage renferme de

IV. PRETRAITEMENT DES DONNEES

Par Dr. Nana Yakam André, Chargé de Cours à l’Université de Douala 5

b) Le traitement des données manquantes ou aberrantes.

i.) Valeurs manquantes

ii.) Valeurs aberrantes

c) Les transformations des variables

Par Dr. Nana Yakam André, Chargé de Cours à l’Université de Douala 6

2. Paramètres de position (ou de tendance centrale)

4. Schéma d’un box plot

- Coefficients d’asymétrie (Skewness)

Il existe plusieurs coefficients d'asymétrie. Les principaux sont les suivants.

- Coefficient d'aplatissement (Kurtosis).

Par Dr. Nana Yakam André, Chargé de Cours à l’Université de Douala 8

II. UTILISATION DE TESTS STATISTIQUES

Cette procédure suit les étapes suivantes :

2. Choix du test statistique

Par Dr. Nana Yakam André, Chargé de Cours à l’Université de Douala 9

 La nature de la population de laquelle a été tiré l'échantillon ;

2.1. Le modèle statistique

Lorsque nous définissons la nature de la population et le mode d'échantillonnage, nous établissons un

2.2. Nature des observations et échelle de mesure

Les observations peuvent être soit quantitatives soit qualitatives.

3. Tests paramétriques et non paramétriques

3.1. Avantages des tests non paramétriques

3.2. Désavantages des tests non paramétriques

4. Niveau de signification et la taille de l'échantillon

4.1. Niveau de signification

Par Dr. Nana Yakam André, Chargé de Cours à l’Université de Douala 11

4.2. Choix de la taille d’un échantillon

 Taille d’échantillon pour estimer une moyenne en contrôlant l’erreur absolue

 Taille d’échantillon pour estimer une proportion en contrôlant l’erreur absolue

 Utiliser la proportion d’échantillon pour faire une estimation;

III. TESTS STATISTIQUES DE NORMALITE

Par Dr. Nana Yakam André, Chargé de Cours à l’Université de Douala 12

Les hypothèses du test sont les suivantes :

 H0 : La distribution est issue d’une population de loi Normale

La statistique du test est calculée comme suit :

Où n est la taille de l’échantillon, S le Skewness et K le Kurtosis.

Si JB ≥ Vl , alors on rejette l’hypothèse H0 de normalité

3.2. TEST DE SHAPIRO-WILK

Les hypothèses du test sont les suivantes :

 H0 : La variable X est Gaussienne

Par Dr. Nana Yakam André, Chargé de Cours à l’Université de Douala 13