Académique Documents
Professionnel Documents
Culture Documents
DES DONNEES
NIVEAU 4
Filière : Comptabilité et Finances
COURS
Niveau 4
Dr Andrée FOTIE
DUREE : 30 heures
OBJECTIF DU COURS
Comprendre les principes des analyses factorielles (via les CM et TD) Analyser
les tableaux de données de dimensions importantes au moyen d’un logiciel (via
les TP).
FICHE DE PROGRESSION
1- Présentation du chapitre
THEMES DEVELOPPES
DUREE
SEQUENCE 1 :
1- Introduction générale
CM :1h
Section1 : Description
I- Le tableau
graphiques
a) Caractéristiques de
tendance centrale
b) Caractéristiques de
SEQUENCE 2 :
CM :2h
dispersion
TD :2h
Section2 : Description
II- La représentation
graphique
a) La droite de régression
b) Le coefficient de
corrélation
A- Variables discrètes
B- Variables continues
SEQUENCE 3 :
CM :2h
A- Estimation ponctuelle
TD :2h
ET TESTS
de confiance
-
Bernoulli
CM : 2h
Section1 : l’ACP
TD : 2h
TP : 3h
CM : 2h
SEQUENCE 4 :
Section2 : l’AFC
TD : 2h
STATISTIQUE EXPLORATOIRE
TP : 3h
MULTIDIMENSIONNELLE
CM : 2h
Section3 : l’ACM
TD : 2h
TP : 3h
SOURCES DOCUMENTAIRES
SOMMAIRE
INTRODUCTION
Tous les jours et dans toutes les disciplines et même dans nos activités nous
sommes confronter à des situations qui nous amenées à porter une attention
particulière sur des phénomènes (comportements, des pratiques ou des opinions)
dans l’optique de comprendre ces phénomène.
-
De comparer ces phénomènes ou variables entre divers groupes (les étudiants de
sexe masculin et les étudiants de sexe féminin ont-ils les mêmes pratiques
sportives ?),
dire présentant peu de variations (les étudiants du niveau 4 ont-ils des pratiques
sportives comparables ?),
D’expliquer les principes de variations (la diversité des pratiques sportives des
étudiants s’explique-elle par les différences d’âge, de niveau d’étude ?).
-
l’idée de variation est bien incarnée dans la notion de variance.
Elle permet ainsi interpréter ses données et fournir une synthèse des résultats et
des analyses.
Dans son challenge de répondre au problème posé par ces vastes ensembles
numériques (tableau de grande dimension). Ainsi, l’ADD se donne pour objectif
de permettre une meilleurs visualisation des données dans le meilleur espace
réduit possible et le meilleur regroupement possible dans tout l'espace. A chaque
objectif correspond une famille de méthode.
On considérera donc ici qu'on ne s'intéresse qu'à une variable X, appelée encore
caractère, dont on possède n valeurs x , x ,..., x .
I- Le tableau
modalités Effectifs ni
1
x
n n
i 1
b) Valeur groupées.
; a b
n 1
u; v
ni
y; z
np
n n
i 1
Que les données soient regroupées par modalité (pour les valeurs qualitatives) ou
par valeur (pour les valeurs quantitatives), on dispose de nombreuses
représentations graphiques. Nous limiterons notre présentation aux plus connues,
à savoir : le diagramme en bâton, en barre et le nuage de point.
Dans les études sur les populations, il est indispensable de résumer les
observations. Cela se fait aux moyens d’indicateurs. Ceux-ci sont regroupés en
deux classes :
La moyenne.
Moyennes
Simple
Pondéré
(M)
Soit x , x ,..., x
Soit x , x ,..., x
1
n une série de
n , n ,..., n
arithmétique
1 n
1 h
X x
X ( n x )
n
i
i 1
n i 1
quadratique
1 n
1 h
( n x )
i 1
n i 1
géométrique
G x
G x
i
i 1
i 1
harmonique
i 1
i 1
i
La médiane.
La médiane d’une série est la valeur qui partage cette série préalablement classée
en deux séries aux effectifs égaux. Dans la première série, on trouve les valeurs
inférieures à la médiane et dans la seconde série, on trouve les valeurs
supérieures à la médiane.
Le mode.
Le mode d’une série est la valeur la plus fréquente de cette série. Une série peut
avoir plusieurs modes.
B- Caractéristiques de dispersion.
Simple
Pondéré
Soit x , x ,..., x
Soit x , x ,..., x
2
n une série de chiffre et
données par :
variance
1 n
1 h
( x X )
n ( x X )
n
i
i 1
n i 1
Ecart type
1 n
1 n
( x X)
n ( x X)
i 1
n i 1
Coefficient
de variation
CV
100
CV
100
X
SECTION 2 : DESCRIPTION BIDIMENSIONNELLE
DES DONNEES
Il est fréquemment nécessaire d’étudier les liens qui peuvent exister entre les
deux (ou plusieurs) dimensions qui caractérisent une population statistique. Pour
qualifier ces liens, on parle de liaison statistique, de corrélation. Mais il est
important de préciser qu’il n’est jamais question de causalité car la statistique
descriptive n’ayant pas pour objet de prouver les causalités.
I- Le tableau
Tableau 2.1 :
ij
j 1
ij
i 1
effectif total: n n n
i 1
j 1
Fréquence partielle :
ij
ij
Fréquence marginale de x :
Fréquence marginale de y :
i
n
variance
marginale
1 p
1 p
n x
n ( x X)
i 1
i 1
1 q
1 q
n y
n ( y Y)
i 1
j 1
conditionnelle
1 p
1 p
n x
V ( x )
n ( x X )
ij i
ij
j i 1
j i 1
1 q
1 q
n y
V ( x )
n ( x Y )
ij
ij
i j 1
i j 1
Si nous voulons que cette droite soit ajustée a un nuage de points dans le plan
(x,y), il faut calculer les coefficient a et b en appliquant les formules suivantes :
cov( x, y)
b y ax
2
x
1 n
cov( x, y) x y xy
i i
n i 1
B- Le coefficient de corrélation
cov( x, y)
r xy
Plus r est proche de +1 ou de -1, les deux caractères sont dépendants. Plus il est
proche de 0, plus les deux caractères sont indépendants.
A- Variables Discrètes
Uniforme u( N )
1,2,..., N
Fonction de répartition :
P( X k) 1/ N
Espérance :
( N 1) / 2
Variance :
( N 1) /12
Interprétation :
Bernoulli B( p)
0,
Fonction de répartition :
P( X 0) 1 p et P( X 1) p Espérance :
Variance :
p(1 p)
Interprétation :
Binomiale B( ,
n p)
Fonction de répartition :
P( X k)
C p (1 p) n k
Espérance :
np
Variance :
np(1 p)
Interprétation :
Géométrique G( p)
1,2,...,
Fonction de répartition :
(
)
(1
) k
P X
Espérance :
1/ p
Variance :
(1 p) / p
Interprétation :
0,1,...,
n k
C C
Fonction de répartition :
Np
N (1 p)
P( X k)
CN
Espérance :
np
N n
Variance :
np(1 p) N 1
Interprétation :
Poisson p( )
0,1,...,
Fonction de répartition :
P( X k) e k !
Espérance :
Variance :
Uniforme u( a, b)
[ a, b]
f ( x)
Fonction de densité :
[ a, b]
b a
( x) 1 si x A et 0 sinon A
Espérance :
( a b) / 2
Variance :
( b a) /12
Interprétation :
Normale
2
N ( ,
m )
( x m)
Fonction de densité :
f ( x)
exp(
Espérance :
Variance :
2
Interprétation :
Exponentielle ( )
Fonction de densité
( )
f x
Espérance
1/
Variance
1/
interprétation
Loi des durées de vie
Les principales lois obtenues lors de la manipulation de la loi normale sont la loi
du chi2 et la loi de Student. Elles apparaissent notamment dans le théorème de
Fisher suivant :
1 n
N ( ,
m ) . Posons X x et
n i 1
'2
( x X ) . Alors :
n 1 i
n
-
X : N ( ,
m / n)
1 n
( x m) :
i 1
'2
( n 1) S
2
n 1
X et '2
S sont indépendantes
X m
: t( n 1)
'
S / n
L’objectif d’une estimation est de révéler une information sur une caractéristique
de la population. On cherche à révéler la valeur d'un ou de plusieurs paramètres,
associés à la distribution de la caractéristique d'intérêt dans la population. On
construit pour cela un estimateur.
Une fois que l'on dispose d'un «bon» estimateur, on l'utilise pour obtenir une
estimation. Un bon estimateur possède un certain nombre de propriétés : être
sans biais, c’est-à-dire avoir une valeur moyenne (au sens d’espérance) égale au
paramètre à estimer. On souhaite ensuite qu’il soit le plus efficace possible,
c’est-à-dire qu’il ait une dispersion, mesurée par la variance, la plus petite
possible.
d'appliquer sur les données la« formule» qui définit l'estimateur en fonction des
variables de l'échantillon. Il est aussi possible de fournir un intervalle de
confiance, c'est-à-dire un encadrement sur la valeur du paramètre que 1 'on
souhaite estimer.
A- Estimation ponctuelle
La moyenne
La variance
var( X ) alors,
i
i
donné par
1 n
m X x
'2
( x X )
i
n
i 1
n 1 i 1
S .
S et non '2
S .
P T , T
2 tel que :
L’idée d’un intervalle de confiance est donc de donner une plage de valeur
possible avec un degré de confiance associé. Ainsi, un intervalle T , T
, signifie qu’il y
2
pas possible de donner un intervalle de longueur fini où l’on peut trouver avec
une probabilité de 100%. On se fixe donc un taux d’erreur acceptable (on admet
qu’on peut se tromper avec une probabilité de 5%, 1%, 0.5%, etc.)
l’espérence
la variance
N ( ,
par ˆ
m X et l(estimateur de 2
'2
des paramètres m et 2
valent respectivement :
'
'
'2
'2
( n 1) S ( n 1) S
IC ( m)
X t
X t
1
n
( n 1
, )
( n 1
, )
IC (
( n 1, /2)
( n 1
,1
/2)
k ,
Si
k ,
Si Z : , alors P( Z
z )
k ,
encore P( T t )
k ,
2
n
ˆ p u ˆ p (1 ˆ p ) / n; ˆ p u ˆ p (1 ˆ p ) / n
P U u , soit encore
(0,1), (|
)
P( U u ) / 2
Notre but est maintenant de vérifier si une hypothèse est valide ou non, car la
prise d’une décision dépend de cette hypothèse. Il sera question de voir quelle
hypothèse importe dans la décision à prendre, puis de la formuler en fonction de
paramètres. Par exemple, Une
Une fois formulée l’hypothèse qui nous intéresse, nous voulons étudier sa
vraisemblance.
Nous allons pour cela nous intéresser à la notion de test statistique. Un test est
une procédure qui permet de décider si à partir des observations obtenues nous
devons accepter ou rejeter l’hypothèse concernée. En raison des aléas, un tel test
ne peut être catégorique : il faut accepter de se tromper dans la conclusion, mais
en sachant avec quelle probabilité nous risquons de nous tromper.
Notons (H0) l’hypothèse que nous souhaitons tester. En fait, lorsque nous testons
une hypothèse (H0), nous testons en réalité si cette hypothèse est plus
vraisemblable qu’une hypothèse alternative (H1). Les conclusions d’un test
s’expriment toujours comme suit : “on rejette ( H0)” ou “on ne rejette pas (
H0)” . Un test de seuil est un test dont le risque de 1ère espèce vaut .
Autrement dit la probabilité de conclure que ( H0) est faux lorsque ( H0) est
vérifiée vaut .
Lorsqu’on effectue un test en utilisant une procédure basée sur la région critique,
deux types d’erreurs sont possibles. L’erreur de première espèce consiste à
rejeter à tort l’hypothèse H0.
Détaillons en quoi consiste plus précisément un test. Nous avons une prise de
décision et un risque associé que nous voudrions contrôler. Comment au vu des
données allons-nous procéder ? Les étapes d’un test sont les suivantes :
H1).
3- Choisir le seuil du risque a selon la gravité des conséquences : plus est petit
plus le risque associé est petit. On prend en général inférieur à 5%.
Si x , x ,..., x RC
on rejette (H0)
Si x , x ,..., x RC
1
2
Reste à construire la région critique. La région critique est en fait une condition
telle que si nos observations la vérifie, on rejette ( H0). Comment déterminer ces
conditions ? Nous allons distinguer deux types de tests pour la construction de
cette région :
Les tests paramétriques : les données que nous observons sont modélisées. Notre
hypothèse peut se formuler à l’aide d’un paramètre , que notre modèle permet
d’estimer. Nous n’avons pas accès à la vraie valeur de mais nous allons
prendre notre décision au vu de son estimation et de sa précision ((Exemple : le
degré de pesticides dans un légume suit une loi normale, d’espérance et le test
se formulera sur ).
-
Variable continue
Ici nous nous intéressons aux tests ne faisant intervenir qu’une seule grandeur
estimée. Le but est de comparer un paramètre inconnu avec une grandeur
donnée, soit car elle 0
correspond à une grandeur physique connue que vous souhaitez vérifier, soit
parce que la comparaison permet d’aider dans la prise de décision qui vous
intéresse. Afin de réaliser ces tests, nous allons donc devoir estimer le paramètre
. La conclusion de notre test dépendra alors de la précision de notre
estimation.
N ( ,
m )
alors l’estimateur de
ˆ
m X .
'2
S .
Si m m , on a
Si , on a
X m
'2
( n 1) S
: t( n 1)
n
2
: ( n 1)
'
S / n
(H0)
(H1)
RC
(H0)
(H1)
RC
m m
m m
| T | t
K z( n 1, 1- /2)
( n 1
, )
m m
m m
T t
K z( n 1; /2)
( n 1
, )
m m
m m
T t
K z( n 1; 1- )
( n 1
, )
0
0
ˆ p p
ˆ p X . Si p p , on a n
: N (0,1)
p (1 p ) / n
Tableau 3.2 :
(H0)
(H1)
RC
p p
p p
| U | u
p p
p p
U u 2
p p
p p
U u 2
La statistique classique nous a habitués à étudier les variables les unes après les
autres, à construire autant d’histogrammes que de variables. Comment faire pour
substituer à ces nombreux graphiques un seul graphique ? ; Comment donner
une vision globale de l’ensemble des résultats alors la statistique classique nous
a habituer avec des descriptions parcellaires fournies par l’analyse variable ? Les
techniques dites d’analyse des données permettent de répondre à ces questions.
Ces techniques qui sont essentiellement descriptives, ont pour but de décrire, de
réduire, de classer et de clarifier les données en tenant compte de nombreux
points de vue et d’étudier, en dégageant les grands traits, les liaisons, les
ressemblances ou les différences entre les variables ou groupes de variables.
Cette approche descriptive et multidimensionnelle permet de dire que l’ADD,
c’est de la ‘statistique descriptive multidimensionnelle.
Etape1 : elle concerne la mise en forme des données brutes Tableau 1.1 :
Représentation des données.
ik
jk 2
2 ( , )
. Par ailleurs, deux variables sont liées si elles ont un fort coefficient k K
cov( k, h)
x x x x
ih
var( k) var( h)
I i I
s
k
Etape2 : elle consiste à centrer et réduire les données. Elles sont centrées afin
d’obtenir les propriétés intéressantes, et réduite pour uniformiser les unités de
mesure
L’analyse centrée réduite ou encore normée est liée à la transformation des
données du x x
tableau 1.1 en remplaçant les valeur de x par ik k . Réduire les données permet
ik
sk
: .
réduites que nous considérons ici par colonne. Ici, le centre de gravité du nuage
N n’est pas K
coordonnées représentent les coefficients de corrélations avec les facteurs sur les
individus.
Les relations de transition expriment les résultats d’une analyse factorielle dans
un espace en fonction des résultats de l’autre.
Les relations de transitions entre les deux facteurs s’écrivent :
x G ( k)
ik
F ( i) x u ( k) k K
ik S
k K
x F ( i)
ik
S
G ( k) x v ( i) i I
ik S
i I
Etape1 : elle donne le tableau de contingence des modalités communes aux deux
variables.
Les données brutes sont organisées de façon décrite par le tableau ci-dessus.
Dans ce cas, I représente le nombre de ligne et l’ensemble des lignes I 1,,
I , J représente le nombre de colonnes et l’ensemble des colonnes J 1,,
J , et X est le nombre d’individus possédant à la fois la modalité i de la
première variable et la modalité j de la seconde variable.
k n
ij
i I
j J
ij
f
et les marges par f f et f f .
ij
ij
ij
j J
i I
ij
i I
j J
i I
j J
Nous venons de voir que l’AFC considère un tableau de contingence ou de
fréquence pour étudier les liaisons entre les deux variables. Pour cela, nous ne
pouvons plus définir les liaisons par le coefficient de corrélation comme pour
l’ACP, mais plutôt par le concept d’indépendance. Il y a indépendance entre
deux variables considérées si : f f f , i
I, j
ij
Ainsi, nous dirons qu’il y a liaison entre ces deux variables, ou que ces deux
variables sont liées si elles ne sont pas indépendantes.
Si f est supérieur au produit des marges, les modalités i et j s’associent plus que
sous ij
Si f est inférieur au produit des marges, les modalités i et j s’associent moins que
ij
sous l’hypothèse d’indépendance. Nous dirons qu’il a répulsion entre les deux
modalités i et j.
Etape3 : nous considérons ici le tableau comme une juxtaposition de lignes après
transformations en divisant par f . Ces lignes sont appelées profil-lignes et
peuvent être i
interprétées comme des probabilités conditionnelle
-
En considérant le tableau comme un ensemble de ligne :
fij f , i
I, j
(a)
I, j
f
totale possédant la modalité j, et le terme ij représente ce même pourcentage
dans la sous-fi
Etape5 : les profils-lignes qui constituent le nuage N sont projetés dans l’espace
J
: . Le
: .
: . Le
: .
J
EtapeAnalyseFactorielle : elle permet de mettre en évidence une suite de
directions orthogonales, d’étudier les projections à l’étape7 et l’étape8 en
fonction de leurs proximités entre elles et par rapport à l’origine qui correspond
à un profil moyen Etape7 : elle consiste en la projection du nuage N sur le
premier plan factoriel. Les distances I
et elle est définie de façon symétrique pour les lignes et les colonnes. Ainsi,
entre deux individus i et ' i elle est données par : f
f '
'
ij
i j 2
d ( i, i )
j J
f '
j
i
f '
'
ij
ij
d ( j, j ) (
i I
f '
j
f
f avec
i I
fi
pour inertie
ij
f (
i I
i
j
l’étude des lignes, il sert de référence pour étudier dans quelle mesure et de
quelle façon une
le barycentre est
ij
j J
f j
L’ACM est une analyse factorielle qui permet l’étude de plusieurs variables
qualitatives ; elle est une généralisation de l’AFC. Elle est applicable aux
tableaux de variables qualitatives, mais aussi quantitatives après construction de
classes à partir de celles-ci.
Etape1 : elle donne le tableau des données une fois que les variables qualitatives
sont codées de manière condensée. Les lignes représentent les individus et les
colonnes les variables Tableau 4.1 : Représentation des données sous forme de
codage condensé pour l’ACM.
sens. Ces données ne peuvent donc pas être traitées par l’ACP ou l’AFC
précédemment étudiées. Ce tableau présente donc des spécificités dont l’analyse
factorielle doit tenir compte par une méthode spécifique.
disjonctif complet, car l’ensemble des valeurs x d’un même individu pour les
modalités ik
d’une même variable, comporte la valeur 1 une fois (complet) et une fois
seulement (disjonctif). Chaque modalité k est relié à une variable j. nous avons
ainsi trois familles d’élément les individus, les variables et les modalités.
K K
j . Ainsi,
j J
x 1, (
i, j)
x J, i
x I , k
ik
ik
ik
k K
j
k K
i I
De la même façon que les individus, nous pouvons chercher à établir un bilan de
ressemblance entre modalité. Les ressemblances entre modalités peuvent être
définies à partir du tableau disjonctif complet, ou bien à partir du tableau de
Burt. Dans le premier cas, une colonne est une variable indicatrice, ainsi deux
modalités se ressemblent si elles sont présentes ou absentes chez beaucoup
d’individus. Dans le cas du tableau de Burt, une ligne ou une colonne correspond
à une classe d’individus, ainsi deux modalités se ressemblent si elles s’associent
beaucoup ou peu aux mêmes modalités. Ainsi, l’ACM peut être vue comme une
AFC du tableau disjonctif complet ou comme une AFC du tableau de Burt.
IJ
x
i
ik
et
ik
k K
IJ
i I
IJ
IJ
Etape4 : nous considérons ici le tableau comme une juxtaposition de lignes après
transformation en multipliant par I. Ces ligne sont appelées profils-ligne.
Ik
Ik
Tableau 4.5 : Les profils-lignes et profils-colonnes pour l’ACM.
Etape6 : les profils lignes qui constituent le nuages N sont projetés dans l’espace
K
: . Le
: .
: . Le
: .
IJ x
d ( i, l)
ik
lk
=
x x
ik
lk 2
k K
I J
J I
k K
d ( k, h)
ik
ih
I
k K
grâce à la dualité existant entre ces deux nuages. Les relations de transition
s’écrivent :
F ( i)
ik
G ( k)
S
k K
G ( k)
ik
F ( i)
i I I
valeur commune de l’inertie associée à chacun de ces axes de rang S des nuages
N et N .