Vous êtes sur la page 1sur 102

ANALYSE

DES DONNEES
NIVEAU 4
Filière : Comptabilité et Finances

Auteur : Docteur Andrée FOTIE

COURS

ANALYSE DES DONNEES

Niveau 4

Dr Andrée FOTIE

ANALYSE DES DONNEES

DUREE : 30 heures

OBJECTIF DU COURS

Comprendre les principes des analyses factorielles (via les CM et TD) Analyser
les tableaux de données de dimensions importantes au moyen d’un logiciel (via
les TP).

FICHE DE PROGRESSION

I- DEROULEMENT DE CHAQUE COURS

1- Présentation du chapitre

2- Rappels du cours précédent

3- Libellé du nouveau cours

4- Résoudre un exercice durant le cours magistral pour mieux illustrer le cours


SEQUENCES

THEMES DEVELOPPES
DUREE

SEQUENCE 1 :

1- Introduction générale

CM :1h

COMPREHENSION DE CE QU’EST L’ADD

Section1 : Description

Unidimensionnelle des Données

I- Le tableau

II- Les représentations

graphiques

III- Les résumés numériques

a) Caractéristiques de

tendance centrale

b) Caractéristiques de

SEQUENCE 2 :

CM :2h

dispersion

DESCRIPTION DES DONNEES (RAPPELS)

TD :2h

Section2 : Description

Bidimensionnelle des Données


I- Le tableau

II- La représentation

graphique

III- Les outils d’analyse

a) La droite de régression

b) Le coefficient de

corrélation

Section1 : Présentation des

principales lois usuelles

A- Variables discrètes

B- Variables continues

SEQUENCE 3 :

Section2 : Les estimations

RAPPEL DE BASE DE LA STATISTIQUE

CM :2h

A- Estimation ponctuelle

PARAMETRIQUE : LOIS, ESTIMATIONS

TD :2h

B- Estimation par intervalle

ET TESTS

de confiance
-

Pour une loi normale

Pour une loi de

Bernoulli

Section3 : Les tests

CM : 2h

Section1 : l’ACP

TD : 2h

TP : 3h

CM : 2h

SEQUENCE 4 :

Section2 : l’AFC

TD : 2h

STATISTIQUE EXPLORATOIRE

TP : 3h

MULTIDIMENSIONNELLE

CM : 2h

Section3 : l’ACM

TD : 2h

TP : 3h
SOURCES DOCUMENTAIRES

1- L’analyse des données. Arnaud MARTIN. Polycopié de cours ENSIETA-Ref :


1463

2- Statistiques et probabilité en économie-gestion. Christophe HURLIN, Valérie


MIGNON. Ed. DUNOD (2015)

3- Statistique La théorie et ses applications. Michel Lejeune. Springer (2002), 2e


édition 4- L’enquête et ses méthodes : l’analyse des données quantitative. 2e
édition Olivier Martin (2004). Ed Armand Colin.

SOMMAIRE

INTRODUCTION

Tous les jours et dans toutes les disciplines et même dans nos activités nous
sommes confronter à des situations qui nous amenées à porter une attention
particulière sur des phénomènes (comportements, des pratiques ou des opinions)
dans l’optique de comprendre ces phénomène.

Un outil permettant de mener à bien la compréhension de ces phénomène est le


recours à la statistique descriptive qui regroupe des méthodes exploratoires
simples dites uni- ou bidimensionnelle (qui au moyen des tableaux et des
graphique fournissent des informations simple et directement appréciable) et la
statistique exploratoire multidimensionnelle dans laquelle s’inscrit l'analyse de
données.

A- Méthodes exploratoires simple.

Face à de tel ensemble, la statistique dispose d’outils (tant théoriques que


pratiques) permettant d’analyser les phénomènes ou les variables (issues d’un
phénomène). Cette analyse passe par des étapes :

D’identifier le phénomène ou la variable à étudier (par exemple dans les


pratiques sportives des étudiants),

-
De comparer ces phénomènes ou variables entre divers groupes (les étudiants de
sexe masculin et les étudiants de sexe féminin ont-ils les mêmes pratiques
sportives ?),

De saisir les liens pouvant unir 2 ou plusieurs phénomène ou variables (relation


entre les pratiques sportive et les pratiques d’écoute de la musique des
étudiants),

D’identifier les groupes ayant des pratiques plutôt semblables (homogènes),


c’est-à-

dire présentant peu de variations (les étudiants du niveau 4 ont-ils des pratiques
sportives comparables ?),

D’expliquer les principes de variations (la diversité des pratiques sportives des
étudiants s’explique-elle par les différences d’âge, de niveau d’étude ?).

Ces notions de variation, de liens, de co-relation, d’explication, de typologie ou


encore de comparaison, dont les exemples ci-dessus illustré trouvent en
statistique des expressions et des formalisations pratiques pour avoir une
information quantifié.

Ainsi, à titre d’illustration,

l’idée de relation ou de lien s’exprime par les notions statistiques de corrélation,


de tableau croisé, de comparaison de pourcentages ou de test du khi2 ;

l’idée d’explication trouve une expression pratique dans la notion de régression ;

-
l’idée de variation est bien incarnée dans la notion de variance.

En somme, dans l’étude des phénomènes, la statistique offre des instruments


permettant d’opérationnaliser, c’est-à-dire de mettre en pratique, des questions
que pose un phénomène.

Elle permet ainsi interpréter ses données et fournir une synthèse des résultats et
des analyses.

B- Statistique exploratoire multi dimensionnelle : l’ADD

Les méthodes de l'analyse de données doivent donc permettre de représenter


synthétiquement de vastes ensembles de données numériques pour faciliter une
vue d’ensemble du phénomène et par là facilité les décideurs dans ses décisions.

Dans son challenge de répondre au problème posé par ces vastes ensembles
numériques (tableau de grande dimension). Ainsi, l’ADD se donne pour objectif
de permettre une meilleurs visualisation des données dans le meilleur espace
réduit possible et le meilleur regroupement possible dans tout l'espace. A chaque
objectif correspond une famille de méthode.

Pour la visualisation des données dans le meilleur espace réduit on a recours à


l’Analyse Factorielle dont l’ACP, AFC et ACM

Pour le regroupement dans tout l'espace, on a recours à l’analyse par


classification

CHAPITRE 1 : DESCRIPTION DES DONNEES

SECTION 1 : DESCRIPTION UNIDIMENSIONNELLE


DES DONNEES
La plupart du temps les données se présentent sous la forme suivante : on a
relevé sur n unités appelées « individus » et p variables numériques. Lorsque n et
p sont grands on cherche à synthétiser cette masse d’informations sous une
forme exploitable et compréhensible. Une première étape consiste à décrire
séparément les résultats obtenus pour chaque variable: c'est la description
unidimensionnelle, phase indispensable, mais insuffisante (voir section2), dans
toute étude statistique.

On considérera donc ici qu'on ne s'intéresse qu'à une variable X, appelée encore
caractère, dont on possède n valeurs x , x ,..., x .

La synthèse de ces données se fait sous forme de tableaux, de graphiques et de


résumés numériques. C'est ce que l'on appelle couramment la statistique
descriptive dont l'usage a été considérablement facilité par l'informatique.

I- Le tableau

Les peuvent être qualitatives ou quantitatives et les valeurs peuvent être


groupées ou non a) Valeur non groupées.

Tableau 1.2 : effectifs

modalités Effectifs ni

1
x

n n

i 1
b) Valeur groupées.

Tableau 1.3 : Nombre de pièce du logement xi modalités Effectifs ni

; a b

n 1

u; v

ni
y; z

np

n n

i 1

II- Représentation graphique.

Que les données soient regroupées par modalité (pour les valeurs qualitatives) ou
par valeur (pour les valeurs quantitatives), on dispose de nombreuses
représentations graphiques. Nous limiterons notre présentation aux plus connues,
à savoir : le diagramme en bâton, en barre et le nuage de point.

Figure 1.1 : Diagramme en bâtons

Figure 1.2 : Diagramme en barres verticales


Figure 1.3 : Diagramme en barres horizontales
Figure 1.4 : Nuage de points reliés et non reliés Figure 1.5 : Le camembert

Figure 1.6 : Histogramme

III- Résumés numériques de l’information.

Dans les études sur les populations, il est indispensable de résumer les
observations. Cela se fait aux moyens d’indicateurs. Ceux-ci sont regroupés en
deux classes :

les caractéristiques de tendances centrales. Ces nombres qui résume les


observations sont ainsi appelés car ils privilégient les valeurs principales de la
distribution. ces valeurs centrales sont la moyenne, la médiane et le mode.

les caractéristiques de dispersions. Une fois la moyenne connue, on peut


compléter la connaissance d’une série pour apprécier dans quelle mesure les
données sont dispersées ou au contraire concentrées autour de la moyenne.

A- Caractéristiques de tendances centrales.

La moyenne.

Tableau 1.4 : Les différentes moyennes

Moyennes

Simple

Pondéré

(M)

Soit x , x ,..., x

Soit x , x ,..., x
1

une série de chiffre et

n une série de

chiffre. La formule de la moyenne M

n , n ,..., n

h les effectifs correspondants. La

simple de cette série est données par :

formule de la moyenne M pondéré de cette série est données par :

arithmétique

1 n

1 h

X x

X ( n x )

n
i

i 1

n i 1

quadratique

1 n

1 h

( n x )

i 1

n i 1
géométrique

G x

G x

i
i 1

i 1

harmonique

i 1

i 1
i

La médiane.

La médiane d’une série est la valeur qui partage cette série préalablement classée
en deux séries aux effectifs égaux. Dans la première série, on trouve les valeurs
inférieures à la médiane et dans la seconde série, on trouve les valeurs
supérieures à la médiane.

Le mode.

Le mode d’une série est la valeur la plus fréquente de cette série. Une série peut
avoir plusieurs modes.

B- Caractéristiques de dispersion.

La variance, l’écart-type et le coefficient de variation sont les indicateurs les plus


fréquemment utilisés pour mesurer la dispersion d’une série. Ces indicateurs
renseignent sur

la dispersion des données autours de la moyenne. Plus les données sont


concentrés autours de la moyenne, plus les valeurs de ces trois indicateurs sont
faibles.

Tableau 1.5 : Les caractéristiques de dispersion.

Simple

Pondéré

Soit x , x ,..., x

Soit x , x ,..., x

2
n une série de chiffre et

n une série de chiffre.

La formule de la moyenne M simple de n , n ,..., n 1

h les effectifs correspondants. La

cette série est données par :

formule de la moyenne M pondéré de cette série est

données par :

variance

1 n

1 h

( x X )

n ( x X )

n
i

i 1

n i 1

Ecart type

1 n

1 n

( x X)

n ( x X)

i 1

n i 1
Coefficient

de variation

CV

100

CV

100

X
SECTION 2 : DESCRIPTION BIDIMENSIONNELLE
DES DONNEES
Il est fréquemment nécessaire d’étudier les liens qui peuvent exister entre les
deux (ou plusieurs) dimensions qui caractérisent une population statistique. Pour
qualifier ces liens, on parle de liaison statistique, de corrélation. Mais il est
important de préciser qu’il n’est jamais question de causalité car la statistique
descriptive n’ayant pas pour objet de prouver les causalités.

I- Le tableau

Tableau 2.1 :

Les données peuvent être qualitative ou quantitative. Les données quantitative


sont celles qui peuvent être dénombrable comme la taille, l’âge des individus et
les données qualitative sont celles qui ne peuvent pas être dénombré comme la
couleur des yeux, la catégorie socio-professionnelle, etc. Les valeurs pouvant
être groupées ou non groupées.

Le tableau ci-dessus présente le tableau de contingence sous forme symbolique.


A l’intersection de la modalité x et de la modalité y se trouve l’effectif
correspondant i

L’effectif n représente le nombre d’individus qui ont a la fois la modalité x et la


mosalité ij

y . On a ensuite les symboles suivant :

n : effectif des individus qui ont la modalité 2 de x et la modalité 2 de y 22

n : effectif des individus qui ont la modalité 2 de x et la modalité q de y 2 q

n : effectif des individus qui ont la modalité p de x et la modalité q de y pq


n : effectif des individus qui ont la modalité 1 de x 1

Effectif marginale de x : n n ; effectif de tous les individus qui ont la


modalité i de x i

ij

j 1

Effectif marginal de y : n n ; effectif de tous les individus qui ont la


modalité j de y

ij

i 1

effectif total: n n n

i 1
j 1

Fréquence partielle :

ij

ij

Fréquence marginale de x :

Fréquence marginale de y :

i
n

Tableau 2.5 : moyennes et variances marginales et conditionnelles moyenne

variance

marginale

1 p

1 p

n x

n ( x X)

i 1
i 1

1 q

1 q

n y

n ( y Y)

i 1

j 1
conditionnelle

1 p

1 p

n x

V ( x )

n ( x X )

ij i

ij

j i 1

j i 1

1 q
1 q

n y

V ( x )

n ( x Y )

ij

ij

i j 1

i j 1

II- Représentation graphique.

Figure 2.1 : Nuage de points


Ce graphique permet d’avoir un aperçu visuel de l’existence ou non d’une
corrélation entre la taille et le poids. On notera ici que les points se regroupent
assez bien autour de cette droite, ce qui semble confirmer qu’il existe une
relation positive entre la taille et le poids.

III- Outils d’analyse.

A- La droite de régression linéaire

L’équation de la droite de régression se calcul ainsi. Soit la droite d’équation : y


ax b

Si nous voulons que cette droite soit ajustée a un nuage de points dans le plan
(x,y), il faut calculer les coefficient a et b en appliquant les formules suivantes :
cov( x, y)

b y ax

2
x

1 n

cov( x, y) x y xy

i i

n i 1

B- Le coefficient de corrélation

Le coefficient de corrélation mesure la plus ou moins grande dépendance entre


les deux caractères x et y. on le désigne par la lettre r et varie entre -1 et +1

cov( x, y)

r xy

Plus r est proche de +1 ou de -1, les deux caractères sont dépendants. Plus il est
proche de 0, plus les deux caractères sont indépendants.

CHAPITRE 2 : RAPPEL DE BASE DE LA STATISTIQUE

PARAMETRIQUE : LOIS, ESTIMATIONS ET TESTS

Section 1 : Principales lois usuelles.

Tableau 1.1 : Principales lois

A- Variables Discrètes

Uniforme u( N )

Plage des valeurs :

1,2,..., N

Fonction de répartition :

P( X k) 1/ N
Espérance :

( N 1) / 2

Variance :

( N 1) /12

Interprétation :

Expérience avec N issues équiprobable possible

Bernoulli B( p)

Plage des valeurs :

0,

Fonction de répartition :

P( X 0) 1 p et P( X 1) p Espérance :

Variance :

p(1 p)

Interprétation :

Expérience qui n’a que 2 issues possibles : succès et echec

Binomiale B( ,

n p)

Plage des valeurs :


0,1,...,

Fonction de répartition :

P( X k)

C p (1 p) n k

Espérance :

np

Variance :

np(1 p)

Interprétation :

Nombre de tirages gagnant parmi N tirage

Géométrique G( p)

Plage des valeurs :

1,2,...,

Fonction de répartition :

(
)

(1

) k

P X

Espérance :

1/ p

Variance :

(1 p) / p

Interprétation :

Nombre de tirage nécessaire pour obtenir un succès

Hypergéométrique H ( N, n, p) Plage des valeurs :

0,1,...,

n k
C C

Fonction de répartition :

Np

N (1 p)

P( X k)

CN

Espérance :

np

N n

Variance :

np(1 p) N 1

Il y a N tickets et chaque ticket a une probabilité p d’être gagnant.

Interprétation :

On choisit au hasard n tickets. Combien sont gagnants ?

Poisson p( )

Plage des valeurs :

0,1,...,

Fonction de répartition :
P( X k) e k !

Espérance :

Variance :

Nombre de fois où un évènement ayant une faible probabilité de se Interprétation


:

réaliser va être observé sur un très grand nombre d’expérience B- Variables


Continues

Uniforme u( a, b)

Plage des valeurs :

[ a, b]

f ( x)

( x) ou désigne la fonction indicatrice

Fonction de densité :

[ a, b]

b a

( x) 1 si x A et 0 sinon A

Espérance :

( a b) / 2
Variance :

( b a) /12

Interprétation :
Normale
2

N ( ,

m )

Plage des valeurs :

( x m)

Fonction de densité :

f ( x)

exp(

Espérance :

Variance :
2

Interprétation :

Théorème central limite

Exponentielle ( )

Plage des valeurs :

Fonction de densité

( )

f x

Espérance

1/

Variance

1/

interprétation
Loi des durées de vie

Les principales lois obtenues lors de la manipulation de la loi normale sont la loi
du chi2 et la loi de Student. Elles apparaissent notamment dans le théorème de
Fisher suivant :

1 n

Soient x , x ,..., x indépendant et de même loi 2

N ( ,

m ) . Posons X x et

n i 1

'2

( x X ) . Alors :

n 1 i

n
-

X : N ( ,

m / n)

1 n

( x m) :

i 1

'2

( n 1) S

2
n 1

X et '2

S sont indépendantes

X m

: t( n 1)

'

S / n

Ces résultats servent à établir les intervalles de confiance et les procédures de


test dans le cas d’un échantillon issu d’une loi normale.

Section 2 : Les Estimations.

L’objectif d’une estimation est de révéler une information sur une caractéristique
de la population. On cherche à révéler la valeur d'un ou de plusieurs paramètres,
associés à la distribution de la caractéristique d'intérêt dans la population. On
construit pour cela un estimateur.

L’idée est d’analyser/de calculer certaines caractéristiques de la distribution


statistique comme son espérance, sa variance, etc. et de vérifier théoriquement si
les réalisations de cette variable aléatoire ont de grandes chances d'être«
proches» de la vraie valeur du paramètre que l'on souhaite estimer.

Une fois que l'on dispose d'un «bon» estimateur, on l'utilise pour obtenir une
estimation. Un bon estimateur possède un certain nombre de propriétés : être
sans biais, c’est-à-dire avoir une valeur moyenne (au sens d’espérance) égale au
paramètre à estimer. On souhaite ensuite qu’il soit le plus efficace possible,
c’est-à-dire qu’il ait une dispersion, mesurée par la variance, la plus petite
possible.

Une estimation ponctuelle n'est rien d'autre que la réalisation de l'estimateur


obtenue à partir des données statistiques ou des observations. Pour obtenir une
estimation, il suffit donc

d'appliquer sur les données la« formule» qui définit l'estimateur en fonction des
variables de l'échantillon. Il est aussi possible de fournir un intervalle de
confiance, c'est-à-dire un encadrement sur la valeur du paramètre que 1 'on
souhaite estimer.

A- Estimation ponctuelle

Tableau 2.1 : Estimation pour l’espérance et la variance.

La moyenne

La variance

Soit x , x ,..., x independantes et de même loi, tel que E( X ) m et 2

var( X ) alors,

i
i

Un estimateur sans biais convergent de m est Un estimateur sans biais


convergent de 2

donné par

est donné par

1 n

m X x

'2

( x X )

i
n

i 1

n 1 i 1

Il faut bien faire attention à distinguer la variance empirique 2

S de la variance estimée '2

S .

La première de ces grandeurs est la variance observée sur l’échantillon, et la


deuxième amène une correction pour annuler le biais. Lorsqu’on parle de la
variance des observations, on considère donc 2

S et non '2

S .

B- Estimation par intervalle de confiance.


Dans la section précédente, nous avons vue comment estimer une valeur
inconnue (proposer une valeur plausible pour une grandeur). Mais le fait que
nous ayons affaire à l’aléatoire fait que nous ne donnons pas la valeur exacte de
la grandeur, mais une valeur approchée. Cette section donc se donne pour but de
construire un intervalle dans lequel la grandeur recherchée à une probabilité
forte de s’y trouver.

Soit un paramètre donné. On appel intervalle de confiance de niveau un


intervalle aléatoire T , T

P T , T

2 tel que :

L’idée d’un intervalle de confiance est donc de donner une plage de valeur
possible avec un degré de confiance associé. Ainsi, un intervalle T , T

2 de niveau 95% pour

, signifie qu’il y

a une probabilité (chance) de 95% que soit bien compris entre T et T . Ou au


contraire, 1

qu’il y a une probabilité de 5% que ne soit pas compris entre T et T . En


général, il n’est 1

2
pas possible de donner un intervalle de longueur fini où l’on peut trouver avec
une probabilité de 100%. On se fixe donc un taux d’erreur acceptable (on admet
qu’on peut se tromper avec une probabilité de 5%, 1%, 0.5%, etc.)

a) Intervalle de confiance pour une loi normale (variable continue) Tableau


2.2 : Intervalle de Confiance pour l’espérance et la variance.

l’espérence

la variance

Soit x , x ,..., x independantes et de même loi 2

N ( ,

m ) , alors l’estimateur de m est donné 1

par ˆ

m X et l(estimateur de 2

est donnée par 2

'2

S . Les intervalles de niveau 1

des paramètres m et 2
valent respectivement :

'

'

'2

'2

( n 1) S ( n 1) S

IC ( m)

X t

X t

1
n

( n 1

, )

( n 1

, )

IC (

( n 1, /2)

( n 1

,1
/2)

Les notations t et z correspondent aux définitions suivantes : k ,

k ,

Si

T : t( k), alors p(| T | t ) , soit 2

k ,

Si Z : , alors P( Z

z )

k ,

encore P( T t )

k ,

b) Intervalle pour une proportion : une loi de Bernoulli (variable discrète).

Soit x , x ,..., x independantes et de même loi B( p) , alors l’estimateur de p est


donné par 1

2
n

ˆ p X . L’intervalle asymptotique de niveau 1 obtenu est : n

ˆ p u ˆ p (1 ˆ p ) / n; ˆ p u ˆ p (1 ˆ p ) / n

Où u est défini comme suit : Pour tout U : N

P U u , soit encore

(0,1), (|

)
P( U u ) / 2

Section 3 : Les tests

Notre but est maintenant de vérifier si une hypothèse est valide ou non, car la
prise d’une décision dépend de cette hypothèse. Il sera question de voir quelle
hypothèse importe dans la décision à prendre, puis de la formuler en fonction de
paramètres. Par exemple, Une

entreprise cherche à savoir si elle a intérêt à renouveler son parc informatique


pour améliorer sa rentabilité : le renouvellement des ordinateurs de l’entreprise
va-t-elle améliorer la rentabilité de celle-ci ?

Une fois formulée l’hypothèse qui nous intéresse, nous voulons étudier sa
vraisemblance.

Nous allons pour cela nous intéresser à la notion de test statistique. Un test est
une procédure qui permet de décider si à partir des observations obtenues nous
devons accepter ou rejeter l’hypothèse concernée. En raison des aléas, un tel test
ne peut être catégorique : il faut accepter de se tromper dans la conclusion, mais
en sachant avec quelle probabilité nous risquons de nous tromper.

Notons (H0) l’hypothèse que nous souhaitons tester. En fait, lorsque nous testons
une hypothèse (H0), nous testons en réalité si cette hypothèse est plus
vraisemblable qu’une hypothèse alternative (H1). Les conclusions d’un test
s’expriment toujours comme suit : “on rejette ( H0)” ou “on ne rejette pas (
H0)” . Un test de seuil est un test dont le risque de 1ère espèce vaut .
Autrement dit la probabilité de conclure que ( H0) est faux lorsque ( H0) est
vérifiée vaut .

Lorsqu’on effectue un test en utilisant une procédure basée sur la région critique,
deux types d’erreurs sont possibles. L’erreur de première espèce consiste à
rejeter à tort l’hypothèse H0.

Par opposition, l’erreur de deuxième espèce consiste à accepter à tort


l’hypothèse H0.

Détaillons en quoi consiste plus précisément un test. Nous avons une prise de
décision et un risque associé que nous voudrions contrôler. Comment au vu des
données allons-nous procéder ? Les étapes d’un test sont les suivantes :

1- Formaliser le problème et la décision à prendre.

2- Expliciter le risque que l’on cherche à minimiser. En déduire les hypothèses (


H0) et (

H1).

3- Choisir le seuil du risque a selon la gravité des conséquences : plus est petit
plus le risque associé est petit. On prend en général inférieur à 5%.

4- Construire une règle de décision, c’est-à-dire une procédure qui permette de


dire si on accepte ou non ( H0) au vu des données x , x ,..., x . Cette procédure
consiste à 1

trouver une région critique RC telle que

Si x , x ,..., x RC

on rejette (H0)

Si x , x ,..., x RC

1
2

on ne rejette pas (H0)

5- Les observations x , x ,..., x . appartiennent-elles à RC ? Conclure quant au


rejet ou 1

non-rejet de l’hypothèse ( H0).

6- Répondre au problème posé

Reste à construire la région critique. La région critique est en fait une condition
telle que si nos observations la vérifie, on rejette ( H0). Comment déterminer ces
conditions ? Nous allons distinguer deux types de tests pour la construction de
cette région :

Les tests paramétriques : les données que nous observons sont modélisées. Notre
hypothèse peut se formuler à l’aide d’un paramètre , que notre modèle permet
d’estimer. Nous n’avons pas accès à la vraie valeur de mais nous allons
prendre notre décision au vu de son estimation et de sa précision ((Exemple : le
degré de pesticides dans un légume suit une loi normale, d’espérance et le test
se formulera sur ).

Les tests non paramétriques : nous voulons tester une hypothèse


indépendamment de toute modélisation préalable de nos données. Par exemple,
nous voulons tester si les données suivent bien une loi normale ou une loi de
Poisson, nous voulons tester si deux %variables sont corrélées, etc.

A- Test sur un paramètre.

-
Variable continue
Ici nous nous intéressons aux tests ne faisant intervenir qu’une seule grandeur
estimée. Le but est de comparer un paramètre inconnu avec une grandeur
donnée, soit car elle 0

correspond à une grandeur physique connue que vous souhaitez vérifier, soit
parce que la comparaison permet d’aider dans la prise de décision qui vous
intéresse. Afin de réaliser ces tests, nous allons donc devoir estimer le paramètre
. La conclusion de notre test dépendra alors de la précision de notre
estimation.

Tableau 3.1 : test sur une loi Normale

Test sur l’espérance

Test sur la variance

Soient x , x ,..., x indépendantes et de même loi 2

N ( ,

m )

alors l’estimateur de m est donné par

alors l’estimateur de

est donné par

ˆ
m X .

'2

S .

Si m m , on a

Si , on a

X m

'2

( n 1) S

: t( n 1)

n
2

: ( n 1)

'

S / n

(H0)

(H1)

RC

(H0)

(H1)

RC

m m

m m

| T | t

K z( n 1, 1- /2)

( n 1

, )

m m

m m

T t

K z( n 1; /2)
( n 1

, )

m m

m m

T t

K z( n 1; 1- )

( n 1

, )

0
0

Test sur une proportion (variable discrète).

Soient x , x ,..., x indépendantes et de même loi B( p) alors l’estimateur de p est


donné par 1

ˆ p p

ˆ p X . Si p p , on a n

: N (0,1)

p (1 p ) / n

Tableau 3.2 :

(H0)

(H1)
RC

p p

p p

| U | u

p p

p p

U u 2

p p

p p

U u 2

CHAPITRE 3 : STATISTIQUE EXPLORATOIRE


MULTIDIMENTIONNELLE
L’étude des phénomènes issus des enquêtes fournissent des vastes données qui
sont dépouillés et présenté dans de vaste tableau. Cependant, comment ‘extraire
les connaissances que recèlent ces données que nous ne pouvons appréhender
directement.

La statistique classique nous a habitués à étudier les variables les unes après les
autres, à construire autant d’histogrammes que de variables. Comment faire pour
substituer à ces nombreux graphiques un seul graphique ? ; Comment donner
une vision globale de l’ensemble des résultats alors la statistique classique nous
a habituer avec des descriptions parcellaires fournies par l’analyse variable ? Les
techniques dites d’analyse des données permettent de répondre à ces questions.

L’Analyse Des Données (ADD) est un ensemble de techniques qui permettent de


traduire généralement au moyen de graphique la structure complexe d’un tableau
de nombres à plusieurs dimensions en une structure plus simple et qui la résume
au mieux.

Ces techniques qui sont essentiellement descriptives, ont pour but de décrire, de
réduire, de classer et de clarifier les données en tenant compte de nombreux
points de vue et d’étudier, en dégageant les grands traits, les liaisons, les
ressemblances ou les différences entre les variables ou groupes de variables.
Cette approche descriptive et multidimensionnelle permet de dire que l’ADD,
c’est de la ‘statistique descriptive multidimensionnelle.

L'objet de ce cours est de donner quelques outils couramment employées en


statistique pour traiter des données multidimensionnelles. Ces données
correspondent souvent à l'observation de nombreuses variables aléatoires sur
plusieurs individus, le mot individu étant à prendre en un sens très large.

Par ailleurs, il est important de relevé que si les variables auxquelles on


s'intéresse sont toutes des variables quantitatives, il s'agit d'un problème
d'analyse en composante principale (ACP).

S'il s'agit de deux variables qualitatives, on parle d'analyse factorielle des


correspondances (AFC). S'il s'agit de trois variables qualitatives et plus, on parle
d'analyse des correspondances multiples (ACM).
Section 1 : Analyse en Composante Principale (ACP).

L’ACP est une méthode pour synthétiser et résumer de vastes populations


décrites par plusieurs variables quantitatives. Elle permet entre autre de dégager
de grandes catégories d’individus et de réaliser un bilan des liaisons entre les
variables. Après cette analyse nous pouvons mettre en évidence de grandes
tendances dans les données telles que des regroupements d’individus ou des
oppositions entre individus (ce qui traduit un comportement radicalement
différent de ces individus) ou entre variables (ce qui traduit le fait que le
variables sont inversement corrélées).

Etape1 : elle concerne la mise en forme des données brutes Tableau 1.1 :
Représentation des données.

Les observations ou individus ou encore unités statistiques sont représentés en


ligne et sont chacun décrits par des variables ou caractères. x est donc la valeur
de la variable k pour ik

l’individu i avec k 1,, K et i 1,, I Pour atteindre les objectifs de l’ACP il


faut évaluer les ressemblances entre individus ainsi que les liaisons entre
variables. Deux individus se ressemblent s’ils possèdent des valeurs proches
pour l’ensemble des variables. Cette définition sous-entend une notion de
proximité se traduit par une distance. Nous définissons la distance entre deux
individus i et j par : d i j x x

ik
jk 2

2 ( , )

. Par ailleurs, deux variables sont liées si elles ont un fort coefficient k K

cov( k, h)

x x x x

de corrélation linéaire. Il est donné par : r( k, h) ik

ih

var( k) var( h)

I i I

s
k

Etape2 : elle consiste à centrer et réduire les données. Elles sont centrées afin
d’obtenir les propriétés intéressantes, et réduite pour uniformiser les unités de
mesure
L’analyse centrée réduite ou encore normée est liée à la transformation des
données du x x

tableau 1.1 en remplaçant les valeur de x par ik k . Réduire les données permet

ik

sk

d’uniformiser les unités de mesures.

Etape3 : le tableau est considéré comme juxtaposition de lignes Etape4 : le


tableau est considéré comme juxtaposition de colonnes Tableau 1.2 :
Représentation des données centrée-réduites pour l’ACP

Etape5 : les individus sont représentés dans un espace de K dimensions. Dans le


nuage N

nous nous intéressons aux distances inter-individus qui déterminent les


ressemblances. Le centre de gravité G représente un individu moyen Pour
l’analyse du nuage des individus, nous considérons le tableau des données
centrées réduites par lignes. Le fait d’avoir centré les données entraîne que
l’origine des axes est confondu avec le centre de gravité G. Il peut s’interpréter
comme l’individu moyen de la population. L’interprétation de ce nuage N va se
faire en décelant d’une part une partition de I

points et d’autre part des directions d’allongement.

Figure 1.1 : Nuage des individus N dans K

: .

Etape6 : les variables sont représentées dans un espace à I dimensions. Nous


nous intéressons ici aux angles des points ? Le cosinus de l’angle est le
coefficient de corrélation. Toutes les variables sont équidistantes de l’origine car
les données ont été réduites, ainsi le nuage N se K

situe sur une hyper sphère

L’analyse du nuage N des variables se fait toujours à partir du tableau des


données centrées K

réduites que nous considérons ici par colonne. Ici, le centre de gravité du nuage
N n’est pas K

le centre de gravité comme précédemment ou le centre de gravité correspond au


centre du repère lorsque les données sont centrées.

EtapeAnalyseFactorielle : cette phase permet de mettre en évidence une suite de


directions Etape7 : elle consiste à projeter les points du nuage N sur le premier
plan factoriel. Les K

coordonnées représentent les coefficients de corrélations avec les facteurs sur les
individus.

Les relations de transition expriment les résultats d’une analyse factorielle dans
un espace en fonction des résultats de l’autre.
Les relations de transitions entre les deux facteurs s’écrivent :

x G ( k)

ik

F ( i) x u ( k) k K

ik S

k K

x F ( i)

ik

S
G ( k) x v ( i) i I

ik S

i I

Etape8 : ici c’est la représentation simultanée de nuages de points qui se


trouvent initialement dans des espaces de dimensions différentes.

L’approche factorielle consiste à approcher les nuages N et N dans le sous-espace


I

vectoriel permettant de fournir quelques images de ces nuages. Pour l’ajustement


du nuage des individus, il faut chercher les axes factoriels appelés facteurs
principaux. Pour l’ajustement du nuage des variables nous cherchons à obtenir
des variables synthétiques ou nouvelles variables appelées les composantes
principales. L’ACP permet pour une interprétation simultanée du nuage N et du
nuage N de représenter ces deux nuages I

simultanément sur les plans issus des premiers axes factoriels.


Section 2 : Analyse Factorielle des Correspondance (AFC).

L’AFC utilise des tableaux de contingence et son principal objectif est de


dégager les liaisons entre deux variables.

Etape1 : elle donne le tableau de contingence des modalités communes aux deux
variables.

Les lignes et les colonnes jouent des rôles symétriques ?

Tableau : Représentation des données pour l’AFC

Les données brutes sont organisées de façon décrite par le tableau ci-dessus.
Dans ce cas, I représente le nombre de ligne et l’ensemble des lignes I 1,,
I , J représente le nombre de colonnes et l’ensemble des colonnes J 1,,
J , et X est le nombre d’individus possédant à la fois la modalité i de la
première variable et la modalité j de la seconde variable.

Nous avons donc :

k n
ij

i I

j J

Etape2 : elle consiste a modifié le tableau en fréquence. Ces fréquences font


apparaître des lois de probabilités

Tableau : Fréquences relative pour l’AFC.

Avec n le nombre total d’individus de la population initiale. De ce type de


tableau, nous avons k

les fréquences relatives données par

ij

f
et les marges par f f et f f .

ij

ij

ij

j J

i I

Nous avons aussi f f f 1

ij

i I

j J

i I

j J
Nous venons de voir que l’AFC considère un tableau de contingence ou de
fréquence pour étudier les liaisons entre les deux variables. Pour cela, nous ne
pouvons plus définir les liaisons par le coefficient de corrélation comme pour
l’ACP, mais plutôt par le concept d’indépendance. Il y a indépendance entre
deux variables considérées si : f f f , i

I, j

ij

Ainsi, nous dirons qu’il y a liaison entre ces deux variables, ou que ces deux
variables sont liées si elles ne sont pas indépendantes.

Nous pouvons ainsi dire que :

Si f est supérieur au produit des marges, les modalités i et j s’associent plus que
sous ij

l’hypothèse d’indépendance. Nous dirons que les deux modalités i et j s’attirent.

Si f est inférieur au produit des marges, les modalités i et j s’associent moins que
ij

sous l’hypothèse d’indépendance. Nous dirons qu’il a répulsion entre les deux
modalités i et j.

Etape3 : nous considérons ici le tableau comme une juxtaposition de lignes après
transformations en divisant par f . Ces lignes sont appelées profil-lignes et
peuvent être i
interprétées comme des probabilités conditionnelle

Etape4 : nous considérons ici le tableau comme une juxtaposition de colonnes


après transformations en divisant par f . Ces colonnes sont appelées profil-
colonnes et peuvent

être interprétées comme des probabilités conditionnelles

Sous l’hypothèse d’indépendance nous avons :

-
En considérant le tableau comme un ensemble de ligne :

fij f , i

I, j

(a)

En considérant le tableau comme un ensemble de colonnes : fij f , i

I, j

Dans l’équation (a), le terme de droite f s’interprète comme le pourcentage de la


population

f
totale possédant la modalité j, et le terme ij représente ce même pourcentage
dans la sous-fi

population possédant la modalité i. Ainsi, il y a indépendance lorsque les lignes


du tableau de fréquence sont proportionnelles. Par symétrie il en est de même
pour les colonnes.

Etape5 : les profils-lignes qui constituent le nuage N sont projetés dans l’espace
J

: . Le

nuage N se situe dans un hyperplan H . Le nuage N est analysé par rapport au


centre de J

gravité G qui constitue un profil moyen.

Figure 3.1 : Le nuage N dans l’espace J

: .

Etape6 : les profils-colonnes qui constituent le nuage N sont projetés dans


l’espace I

: . Le

nuage N se situe dans un hyperplan H . Le nuage N est analyser par rapport au


centre de J
J

gravité G qui constitue un profil moyen.

Figure 3.2 : Le nuage N dans l’espace I

: .

J
EtapeAnalyseFactorielle : elle permet de mettre en évidence une suite de
directions orthogonales, d’étudier les projections à l’étape7 et l’étape8 en
fonction de leurs proximités entre elles et par rapport à l’origine qui correspond
à un profil moyen Etape7 : elle consiste en la projection du nuage N sur le
premier plan factoriel. Les distances I

correspondent à des ressemblances entre les modalités.

Etape8 : elle consiste en la projection du nuage N sur le premier plan factoriel.


Les distances J

correspondent à des ressemblances entre les modalités.


La ressemblance entre deux lignes ou entre deux colonnes est définie par une
distance entre profils. La distance employés est celle du 2

et elle est définie de façon symétrique pour les lignes et les colonnes. Ainsi,
entre deux individus i et ' i elle est données par : f

f '

'

ij

i j 2

d ( i, i )

j J

f '

j
i

Et entre deux colonnes j et ' j par : f

f '

'

ij

ij

d ( j, j ) (

i I

f '

j
f

En portant une attention sur le nuage des profils-lignes, le barycentre est ij

f avec

i I

fi

pour inertie

ij

f (

) . Le barycentre s’interprète comme le profil-moyen. Dans i

i I

i
j

l’étude des lignes, il sert de référence pour étudier dans quelle mesure et de
quelle façon une

classe d’individus diffère de l’ensemble de la population. Pour le nuage des


profils-colonnes, f

le barycentre est

ij

f . Il s’interprète également comme un profil moyen et joue le

j J
f j

même rôle pour l’étude de la liaison entre deux variables.

Etape9 : les relations de transition permettent des interprétations simultanées des


axes La position relative de deux points d’un même ensemble (ligne ou colonne)
s’interprète en tant que distance et la position d’un point d’un ensemble et tous
les points d’un autre ensemble s’interprète en tant que barycentre.

Section 3 : Analyse Factorielle des Correspondance Multiples (ACM).

L’ACM est une analyse factorielle qui permet l’étude de plusieurs variables
qualitatives ; elle est une généralisation de l’AFC. Elle est applicable aux
tableaux de variables qualitatives, mais aussi quantitatives après construction de
classes à partir de celles-ci.

Etape1 : elle donne le tableau des données une fois que les variables qualitatives
sont codées de manière condensée. Les lignes représentent les individus et les
colonnes les variables Tableau 4.1 : Représentation des données sous forme de
codage condensé pour l’ACM.

L’ACM permet l’étude de tableaux décrivant une population de I individu et J


variables qualitatives. Ces variables qualitatives peuvent être codées par un
codage condensé qui attribue une valeur à chaque modalité. Les données peuvent
donc être représentées sous la forme d’une matrice X décrite par le tableau ci-
dessus où I représente à la fois le nombre d’individus et l’ensemble des individus
I 1,, I , J représente à la fois le nombre de
variables et l’ensemble de variables J 1,, J et x est le codage condensé
de l’individu i ij

pour la variable j. Les x représentant une codification, en prendre la moyenne n’a


aucun ij

sens. Ces données ne peuvent donc pas être traitées par l’ACP ou l’AFC
précédemment étudiées. Ce tableau présente donc des spécificités dont l’analyse
factorielle doit tenir compte par une méthode spécifique.

Etape2 : elle transforme le tableau de l’étape précédente en tableau disjonctif


complet. Les lignes représentent toujours les individus, mais les colonnes
représentent les modalités. Elle permet également la transformation du tableau
de Burt ; dans ce cas il y a symétrie entre les lignes et les colonnes qui
représentent une classe d’individus.

Tableau 4.2 : Représentation des données sous forme de tableau disjonctif


complet.
Une autre représentation du tableau 4.1 est le tableau disjonctif complet (tableau
4.2). il représente les individus en ligne, alors que les colonnes représentent les
modalités des variables (et non plus les variables). Ainsi, à l’intersection de la
ligne i avec la colonne k, la valeur x vaut 1 si l’individu i possède la modalité k
et 0 sinon. Ce tableau porte le nom de ik

disjonctif complet, car l’ensemble des valeurs x d’un même individu pour les
modalités ik

d’une même variable, comporte la valeur 1 une fois (complet) et une fois
seulement (disjonctif). Chaque modalité k est relié à une variable j. nous avons
ainsi trois familles d’élément les individus, les variables et les modalités.

Notons K le nombre de modalités de la variable j et également l’ensemble des


modalités de j
cette variables K 1,, K

K K

j . Ainsi,

est à la fois le nombre des modalités toutes

j J

variables confondus et l’ensemble K 1,, K . Nous avons donc les égalités


suivantes :

x 1, (

i, j)

x J, i

x I , k

ik

ik

ik

k K
j

k K

i I

Tableau 4.3 : Représentation des données sous forme du tableau de Burt.

De la même façon que les individus, nous pouvons chercher à établir un bilan de
ressemblance entre modalité. Les ressemblances entre modalités peuvent être
définies à partir du tableau disjonctif complet, ou bien à partir du tableau de
Burt. Dans le premier cas, une colonne est une variable indicatrice, ainsi deux
modalités se ressemblent si elles sont présentes ou absentes chez beaucoup
d’individus. Dans le cas du tableau de Burt, une ligne ou une colonne correspond
à une classe d’individus, ainsi deux modalités se ressemblent si elles s’associent
beaucoup ou peu aux mêmes modalités. Ainsi, l’ACM peut être vue comme une
AFC du tableau disjonctif complet ou comme une AFC du tableau de Burt.

Etape3 : A partir d’ici, nous appliquons l’AFC. Nous transformons le tableau


disjonctif complet en fréquences

Tableau 4.4 : Mise en fréquence du tableau disjonctif complet.


Comme pour l’AFC, nous allons considérer le tableau disjonctif complet en
profils-lignes et en profils-colonnes. Pour se faire nous modifions ce tableau
pour considérer les fréquences.

Les fréquences f sont données par

ik . De plus les marges sont données par ik

IJ

x
i

ik

et

ik

k K

IJ

i I

IJ

IJ

Etape4 : nous considérons ici le tableau comme une juxtaposition de lignes après
transformation en multipliant par I. Ces ligne sont appelées profils-ligne.

Etape5 : nous considérons ici le tableau comme une juxtaposition de colonnes


après IJ
transformation en multipliant par

. Ces colonnes sont appelées profils-colonnes.

Ik

Une fois les fréquences calculées, il faut considérer le tableau en profils-lignes et


profils-colonnes. Ainsi le tableau est de nouveau modifié de façon à ce que pour
les profils-lignes la marge des lignes soit 1 et pour les profils-colonnes la marge
des colonnes soit 1. Ainsi chaque x

case est composée respectivement de ik et ik .

Ik
Tableau 4.5 : Les profils-lignes et profils-colonnes pour l’ACM.
Etape6 : les profils lignes qui constituent le nuages N sont projetés dans l’espace
K

: . Le

nuage N se situe dans un hypercube H .

Figure 4.1 : Représentation du nuages des individus N dans l’espace K

: .

Etape7 : les profils-colonnes qui constituent le nuages N sont projetés dans


l’espace I

: . Le

nuage N se situe dans un hypercube H .

Figure 4.1 : Représentation du nuages des individus N dans l’espace I

: .

EtapeAnalyseFactorielle : elle permet de mettre en évidence une suite de


directions orthogonales, d’étudier les projections aux etape8 et etapes9 en
fonction de leurs proximités entre elles et par rapport à l’origine qui correspond
à un profil moyen

Etape8 : elle consiste en la projection du nuage N sur le premier plan factoriel.


Les distances I

correspondent à des ressemblances entre les individus.

Etape9 : elle consiste en la projection du nuage N sur le premier plan factoriel.


Les K

distances correspondent à des ressemblances entre les modalités la ressemblance


entre les individus présentent globalement les mêmes modalités, alors ils se
ressemblent. La distance qui caractérise cette ressemblance entre deux individus
i et l est définie par :

IJ x

d ( i, l)

ik

lk

=
x x

ik

lk 2

k K

I J

J I

k K

La ressemblance entre deux modalités k et h est données par la distance 2

d ( k, h)

ik

ih

I
k K

EtapeRelationDeTransition : ces relations expriment les résultats d’une analyse


factorielle en fonction des résultats de l’autre. Ce sont des relations de
barycentres Il est possible, comme pour l’AFC, de représenter simultanément les
deux nuages N et N

grâce à la dualité existant entre ces deux nuages. Les relations de transition
s’écrivent :

F ( i)

ik

G ( k)

S
k K

G ( k)

ik

F ( i)

i I I

Où F ( i) représente la projection de la ligne i sur l’axe de rang S de N , tandis


que G ( k) S
I

représente la projection de la ligne k sur l’axe de rang S de N . représente


toujours la K

valeur commune de l’inertie associée à chacun de ces axes de rang S des nuages
N et N .

Etape10 : les relations de transition permettent des interprétations simultanées


des axes

Vous aimerez peut-être aussi