Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
I I
= e =
I +
On a E(X) = a/(a+b) et V(X) = ab/[(a+b+1)(a+b)]
- Binomiale (n, p) : la densit de cette loi est donne par :
( ) | | | |
( ) 1 , avec n, N, n>0, 0, , 0,1
n x
x x
n
P X x C p p x x n p
= = e e e
On a E(X)= np et V(X) = np(1-p)
n est le nombre dessais, et p la probabilit de succs. La loi binomiale est la loi du
nombre de succs pour n essais, sachant que la probabilit de succs vaut p.
- Binomiale ngative (n, p) de type I : la densit de cette loi est donne par :
( ) | |
1
1
( ) 1 , avec n, N, n>0, k n, 0,1
x
x n
n x
P X x C p p x p
+
= = e s e
On a E(X) = n(1-p)/p et V(X) = n(1-p)/p
n est le nombre de succs et p la probabilit de succs. La loi binomiale ngative
de type I est la loi du nombre de tirages x sans succs ncessaires avant davoir
obtenus n succs.
- Binomiale ngative (k, p) de type II : la densit de cette loi est donne par :
( )
( )( )
( ) , avec N, , >0
! 1
x
k x
k x p
P X x x k p
x k p
+
I +
= = e
I +
31
On a E(X) = kp et V(X) = kp(p+1)
La loi binomiale ngative de type II permet de reprsenter des phnomnes
discrets fortement htrognes. Lorsque k tend vers linfini, la loi binomiale ngative
de type II tend vers une loi de Poisson de paramtre ( =kp).
- Khi (df) : la densit de cette loi est donne par :
( )
( )
/ 2
/ 2 1 / 2 *
1/ 2
( ) , avec 0, N
/ 2
df
df x
f x x e x df
df
= > e
I
On a E(X) = df et V(X) = 2df
La loi du Khi correspond la loi de la somme des carrs de df lois normales
centres rduites (lois normales standard). Elle est trs utilise pour tester des
hypothses.
- Erlang (k, ) : la densit de cette loi est donne par :
( )
1
( ) , avec 0 et , 0 et k N
1 !
x
k k
e
f x x x k
k
= > > e
On a E(X) = k/ et V(X) = k/
k est le paramtre de forme de la loi et est le paramtre de taux.
Cette distribution, dveloppe par le scientifique danois A. K. Erlang (1878-1929)
pour ltude du trafic tlphonique, est utilise de manire plus gnrale pour
ltude des files dattente.
Remarque : lorsque k=1, cette distribution est quivalente la distribution
exponentielle, et la loi Gamma deux paramtres est une gnralisation de la loi
dErlang au cas o k est un rel et non un entier (par ailleurs on utilise le paramtre
dchelle | = 1/).
- Exponentielle () : la densit de cette loi est donne par :
( ) ( ) exp , avec 0 et 0 f x x x = > >
On a E(X) = 1/ et V(X) = 1/
La loi exponentielle est souvent utilise pour tudier la dure de vie en contrle
qualit.
- Fisher (df
1
, df
2
) : la densit de cette loi est donne par :
32
( )
1 2
/ 2 / 2
1 1
1 2 1 2 1 2
*
1 2
1
( ) 1 ,
/ 2, / 2
avec 0 et , N
df df
df x df x
f x
xB df df df x df df x df
x df df
| | | |
=
| |
+ +
\ . \ .
> e
On a E(X) = df
2
/(df
2
-2) si df
2
>0, et V(X) = 2df
2
(df
1
+df
2
-2)/[df
1
(df
2
-2) (df
2
-4)]
La loi de Fisher, du nom du biologiste, gnticien et statisticien Ronald Aylmer
Fisher (1890-1962), correspond au rapport de deux lois du Khi. Elle est trs utilise
pour tester des hypothses.
- Fisher-Tippett (|, ) : la densit de cette loi est donne par :
1
( ) exp exp , avec 0
x x
f x |
| | |
| | | |
= >
|
|
\ . \ .
On a E(X) = +| et V(X) = (t|)/6 o est la constante de Euler-Mascheroni.
La loi de Fisher-Tippett, aussi appele loi Log-Weibull, ou loi gnralise des
valeurs extrmes, est utilise dans ltude de phnomnes extrmes. La loi de
Gumbel est un cas particulier de la loi de Fisher-Tippett avec |=1 et =0.
- Gamma (k, |, ) : la densit de cette loi est donne par :
( )
( )
( )
/
1
( ) , avec et , 0
x
k
k
e
f x x x k
k
|
|
|
= > >
I
On a E(X) = +k| et V(X) = k|
k est le paramtre de forme de la loi et | est le paramtre dchelle.
- GEV : la densit de cette loi est donne par :
1/ 1 1/
1
( ) 1 exp 1 , avec 0
k k
x x
f x k k |
| | |
| |
| | | |
| = >
| |
|
\ . \ .
\ .
( ) ( ) ( ) ( )
2
2
On a E(X) = 1 et V(X) = 1 2 1 k k k
k k
| | | |
+ I + I + I +
|
\ .
La loi GEV (Generalized Extreme Values) est trs utilise en hydrologie pour
modliser les phnomnes de crues. k est classiquement compris entre -0.6 et 0.6.
- Gumbel : la densit de cette loi est donne par :
( ) ( )
( ) exp exp f x x x =
33
On a E(X) = et V(X) = t/6 o est la constante de Euler-Mascheroni
(0.5772156649).
La loi de Gumbel, du nom de Emil Julius Gumbel (1891-1966), est un cas particulier
de la loi de Fisher-Tippett avec |=1 et =0. Elle est utilise dans ltude de
phnomnes extrmes comme les prcipitations ou les crues maximales et les
magnitudes maximales de tremblement de terre.
- Lognormale (,o) : la densit de cette loi est donne par :
( ) ( )
2
2
ln
2
1
( ) , avec , 0
2
x
f x e x
x
o
o
o t
= >
On a E(X) = exp( + o/2) et V(X) = [exp(o/2)-1]exp(2 + o)
- Normale (,o) : la densit de cette loi est donne par :
( )
2
2
2
1
( ) , avec 0
2
x
f x e
o
o
o t
= >
On a E(X) = et V(X) = o
- Normale standard : la densit de cette loi est donne par :
2
2
1
( )
2
x
f x e
t
=
On a E(X) = 0 et V(X) = 1
Cette loi est un cas particulier de la loi normale, avec =0 et o=1. Elle est aussi
appele normale centre rduite.
- Pareto (a, b) : la densit de cette loi est donne par :
1
( ) , avec , 0 et
a
a
ab
f x a b x b
x
+
= > >
On a E(X) = ab/(a-1) et V(X) = ab/[(a-1)(a-2)]
La loi de Pareto, du nom de lconomiste italien Vilfredo Pareto (1848-1923), est
aussi connue sous le nom de loi de Bradford. Cette loi a dabord t utilise pour
reprsenter la rpartition des richesses dans la socit, avec notamment le principe
de Pareto, selon lequel 80% des richesses dun pays sont dtenus par 20% de la
population.
- Poisson () : la densit de cette loi est donne par :
34
( ) exp
( ) , avec N et 0
!
x
P X x x
x
= = e >
On a E(X) = et V(X) =
La loi de Poisson, dcouverte par le mathmaticien et astronome Simon-Denis
Poisson (1781-1840) qui fut lve de Laplace, Lagrange et Legendre, est souvent
utilise pour tudier des phnomnes de file dattente.
- Student (df) : la densit de cette loi est donne par :
( ) ( )
( )
( )
( 1) / 2
2
1/ 2
( ) 1 / , avec 0
/ 2
df
df
f x x df df
df df t
+
I +
= + >
I
On a E(X) = 0 si df>1 et V(X) = df/(df -2) si df>2
La loi de Student, du nom que se donnait le chimiste et statisticien anglais William
Sealy Gosset (1876-1937) afin de prserver son anonymat (la brasserie Guinness
interdisait ses employs de publier, suite la publication par un autre chercheur
dinformations confidentielles) est la loi de la moyenne de df variables distribues
suivant une loi normale centre rduite. Lorsque df=1, la loi de Student est une loi
de Cauchy dont la particularit est de navoir ni esprance ni variance.
- Uniforme (a, b) : la densit de cette loi est donne par :
| |
1
( ) , avec et , f x b a x a b
b a
= > e
On a E(X) = (a+b)/2 et V(X) = (b-a)/12
La loi uniforme (0, 1) est trs utilise pour les simulations. Comme la fonction de
rpartition de toutes les lois est comprise entre 0 et 1, un chantillon tir dans une
loi Uniforme (0,1) permet dobtenir un chantillon dans toutes les lois dont on sait
calculer linverse.
- Weibull (|) : la densit de cette loi est donne par :
( )
1
( ) exp , avec 0 et 0 f x x x x
| |
| |
= > >
2
1 2 1
On a E(X) = 1 et V(X) = 1 1
| | |
| | | | | |
I + I + I +
| | |
\ . \ . \ .
Le paramtre | est le paramtre de forme de la loi de Weibull.
- Weibull (|, ) : la densit de cette loi est donne par :
35
1
( ) , avec 0, et , 0
x
x
f x e x
|
|
|
|
| |
|
\ .
| |
= > >
|
\ .
2 2
1 2 1
On a E(X) = 1 et V(X) = 1 1
| | |
( | | | | | |
I + I + I +
( | | |
\ . \ . \ .
Le paramtre | est le paramtre de forme et le paramtre est le paramtre
dchelle. Lorsque |=1, la loi de Weibull est une loi exponentielle de paramtre 1/.
- Weibull (|, , ) : la densit de cette loi est donne par :
1
( ) , avec , et , 0
x
x
f x e x
|
|
|
|
| |
|
\ .
| |
= > >
|
\ .
2 2
1 2 1
On a E(X) = 1 et V(X) = 1 1
| | |
( | | | | | |
+ I + I + I +
( | | |
\ . \ . \ .
La loi de Weibull, du nom du sudois Ernst Hjalmar Waloddi Weibull (1887-1979),
est trs utilise en contrle qualit et en analyse de survie. Le paramtre | est le
paramtre de forme et le paramtre est le paramtre dchelle. Lorsque |=1 et
=0, la loi de Weibull est une loi exponentielle de paramtre 1/.
Bote de dialogue
: cliquez sur ce bouton pour lancer les calculs.
: cliquez sur ce bouton pour fermer la bote de dialogue sans effectuer les
calculs.
: cliquez sur ce bouton pour afficher laide.
: cliquez sur ce bouton pour rtablir les options par dfaut.
: cliquez sur ce bouton pour effacer les slections de donnes.
Distribution thorique : activez cette option pour chantillonner des donnes dans une loi de
distribution thorique. Veuillez alors choisir la loi, puis entrez les paramtres de la loi si
ncessaire.
36
Distribution empirique : activez cette option pour chantillonner des donnes dans une loi
empirique. Slectionnez alors les donnes permettant de construire la loi empirique.
Libells des colonnes : activez cette option si la premire ligne des donnes
slectionnes (donnes et ventuellement poids) contient un libell.
Poids : activez cette option si vous voulez pondrer lchantillonnage. Les poids
doivent tre imprativement suprieurs ou gaux 0. Si un en-tte de colonne a t
slectionn, veuillez vrifier que loption Libells des colonnes est active.
Plage : si vous activez cette option, les rsultats seront affichs partir d'une cellule situe
dans une feuille existante. Vous devez alors slectionner la cellule.
Feuille : activez cette option pour afficher les rsultats dans une nouvelle feuille du classeur
actif.
Classeur : activez cette option pour afficher les rsultats dans un nouveau classeur.
Nombre dchantillons : entrez le nombre de colonnes gnrer.
Taille dchantillon : entrez le nombre de donnes gnrer pour chacun des chantillons.
Afficher len-tte du rapport : dsactivez cette option si vous souhaitez que le tableau des
donnes chantillonnes commence ds la premire ligne de la feuille Excel (cas dune sortie
dans une feuille ou un classeur), et non aprs len-tte du rapport.
Exemple
Un exemple de gnration dun chantillon alatoire tir dans une loi normale est disponible
sur le site dAddinsoft :
http://www.xlstat.com/demo-normf.htm
Bibliographie
Abramowitz M. and Stegun I.A. (1972). Handbook of Mathematical Functions. Dover
Publications, New York.
37
El-Shaarawi A.H., Esterby E.S. and Dutka B.J (1981). Bacterial density in water determined
by Poisson or negative binomial distributions. Applied an Environmental Microbiology, 41(1).
107-116.
Fisher R.A. and Tippett H.C. (1928). Limiting forms of the frequency distribution of the
smallest and largest member of a sample. Proc. Cambridge Phil. Soc., 24, 180-190.
Gumbel E.J. (1941). Probability interpretation of the observed return periods of floods. Trans.
Am. Geophys. Union, 21, 836-850.
Jenkinson A. F. (1955). The frequency distribution of the annual maximum (or minimum) of
meteorological elements. Q. J. R. Meteorol. Soc., 81, 158-171.
Perreault L. and Bobe B. (1992). Loi gnralise des valeurs extrmes. Proprits
mathmatiques et statistiques. Estimation des paramtres et des quantiles XT de priode de
retour T. INRS-Eau, rapport de recherche no 350, Qubec.
Weibull W. (1939). A statistical theory of the strength of material. Proc. Roy. Swedish Inst.
Eng. Res. 151(1), 1-45.
38
Transformation de variables
Utilisez cet outil pour transformer rapidement une ou plusieurs variables.
Bote de dialogue
La bote de dialogue est compose de plusieurs onglets correspondant aux diffrentes options
disponibles tant pour la gestion des calculs que pour laffichage des rsultats. Vous trouverez
ci-dessous le descriptif des diffrents lments de la bote de dialogue.
: cliquez sur ce bouton pour lancer les calculs.
: cliquez sur ce bouton pour fermer la bote de dialogue sans effectuer les
calculs.
: cliquez sur ce bouton pour afficher laide.
: cliquez sur ce bouton pour rtablir les options par dfaut.
: cliquez sur ce bouton pour effacer les slections de donnes.
: cliquez sur ce bouton pour changer la faon dont XLSTAT doit charger les
donnes. Si la flche est vers le bas, XLSTAT considre que les observations sont en lignes et
les variables en colonnes. Si la flche est vers la droite, XLSTAT considre que les variables
sont en lignes et les observations en colonnes.
Onglet Gnral :
Donnes : slectionnez les donnes sur la feuille Excel. Si des en-ttes ont t slectionns,
veuillez vrifier que loption Libells des colonnes est active.
Libells des colonnes : activez cette option si la premire ligne des donnes slectionnes
(donnes et tableau de codage) contient un libell.
Libells des observations : activez cette option si vous voulez utiliser des libells
dobservations disponibles sur une feuille Excel pour laffichage des rsultats. Si l'option
Libells des colonnes est active, la premire cellule de la slection doit comprendre un
en-tte. Si vous nactivez pas cette option, des libells seront automatiquement crs (Obs1,
Obs2, ).
39
Plage : si vous activez cette option, les rsultats seront affichs partir d'une cellule situe
dans une feuille existante. Vous devez alors slectionner la cellule.
Feuille : activez cette option pour afficher les rsultats dans une nouvelle feuille du classeur
actif.
Classeur : activez cette option pour afficher les rsultats dans un nouveau classeur.
Afficher len-tte du rapport : dsactivez cette option si vous souhaitez que le tableau des
rsultats commence ds la premire ligne de la feuille Excel (cas dune sortie dans une feuille
ou un classeur), et non aprs len-tte du rapport.
Transformation :
- Normaliser (n-1) : choisissez cette option pour normaliser les variables en utilisant
lcart-type non biais.
- Autre : choisissez cette option pour utiliser une autre transformation. Cliquez alors sur
longlet transformation pour choisir une autre transformation.
Onglet Transformations :
Normaliser (n) : choisissez cette option pour normaliser les variables en utilisant lcart-type
biais.
Centrer : choisissez cette option pour centrer les donnes.
/ Ecart-type (n-1) : choisissez cette option pour diviser les donnes par lcart-type non biais.
/ Ecart-type (n) : choisissez cette option pour diviser les donnes par lcart-type biais.
Remettre lchelle de 0 1 : choisissez cette option pour transformer les donnes de telle
sorte quelles soient comprises entre 0 et 1.
Remettre lchelle de 0 100 : choisissez cette option pour transformer les donnes de
telle sorte quelles soient comprises entre 0 et 100.
Binariser (0/1) : choisissez cette option pour transformer les donnes de telle sorte que les
donnes gales 0 soient gales 0, et les donnes diffrentes de 0 soient gales 1.
40
Signe (-1/0/1) : choisissez cette option pour transformer les donnes de telle sorte que les
donnes gales 0 soient gales 0, les donnes ngatives soient gales -1 et les
donnes positives soient gales 1.
Arcsin : choisissez cette option pour calculer larc-sinus des donnes slectionnes.
Transformation Box-Cox : activez cette option pour faire une transformation de Box-Cox.
Vous pouvez soit imposer une valeur de Lambda, soit dcider que XLSTAT doit loptimiser.
Cette transformation permet daugmenter la normalit des donnes; lquation de Box-Cox est
dfinie par :
( ) ( )
1
, 0, 0 ou 0, 0
ln( ), 0, 0
t
t t
t
t t
X
X X
Y
X X
> = > >
=
> =
Si loption doptimisation est choisie, XLSTAT maximise la vraisemblance de lchantillon,
tant suppos quaprs transformation lchantillon suit une loi normale.
Onglet Donnes manquantes :
Ne pas accepter les valeurs manquantes : activez cette option pour que XLSTAT empche
la poursuite des calculs si des valeurs manquantes sont dtectes.
Supprimer les observations : activez cette option pour supprimer les observations
comportant des donnes manquantes.
Ignorer les donnes manquantes : activez cette option pour ignorer les donnes
manquantes.
Estimer les donnes manquantes : activez cette option pour estimer les donnes
manquantes en utilisant la moyenne des variables.
41
Crer un tableau de contingence
Utilisez cet outil pour crer un ou plusieurs tableaux de contingence partir de deux ou plus
variables qualitatives. Un test dindpendance du Khi peut tre calcul.
Description
Un tableau de contingence est une manire efficace de rsumer la relation entre deux
variables qualitatives V1 et V2. Un tableau de contingence a la structure suivante :
V1 \ V2 Modalit 1 Modalit j Modalit m2
Modalit 1 n(1,1) n(1,j) n(1,m2)
Modalit i n(i,1) n(i,j) n(i,m2)
Modalit m1 n(m1,1) n(m1,j) n(m1,m2)
o n(i,j) est la frquence des observations prsentant la fois la caractristique i pour la
variable V1, et la caractristique j pour la variable V2.
Pour crer un tableau de contingence, la premire transformation consiste en un recodage des
deux variables qualitatives V1 et V2 en deux tableaux disjonctifs Z1 et Z2. Pour chaque
modalit de la variable Vj, une colonne est cre dans Zj. A chaque fois quune modalit m de
la variable Vj correspond un individu i, on affecte 1 X1(i,m). Les autres valeurs de Z1 et Z2
sont nulles. Le tableau de contingence des variables V1 et V2 nest autre que le produit Z1Z2
(o correspond la transposition dune matrice).
La distance du khi a t propose pour mesurer la distance entre les modalits. La somme de
ces distances pour lensemble des cases du tableau donne la statistique du khi qui suit
asymptotiquement une loi du khi (m1-1)(m2-1) degrs de libert. Cette statistique permet de
tester lhypthse dindpendance entre les lignes et les colonnes du tableau de contingence.
La notion dinertie inspire de la physique est utilise en Analyse Factorielle des
Correspondances. Linertie dun nuage de points est la moyenne pondre des carrs des
distances au centre de gravit. Linertie totale du nuage des modalits est donne par :
42
2
. .
2
2 1 2 2 1
2
. .
. . 1 1 1 1
2
, avec et
ij i j
m m m m
i ij j ij
i j i j j i
n n n
n n
n n n n
n n
n
n
_
= = = =
| |
|
\ .
= = = =
et o n est la somme des frquences du tableau de contingence. On voit ici que linertie totale
est proportionnelle la statistique du khi de Pearson mesure sur le tableau de contingence.
Bote de dialogue
La bote de dialogue est compose de plusieurs onglets correspondant aux diffrentes options
disponibles tant pour la gestion des calculs que pour laffichage des rsultats. Vous trouverez
ci-dessous le descriptif des diffrents lments de la bote de dialogue.
: cliquez sur ce bouton pour lancer les calculs.
: cliquez sur ce bouton pour fermer la bote de dialogue sans effectuer les
calculs.
: cliquez sur ce bouton pour afficher laide.
: cliquez sur ce bouton pour rtablir les options par dfaut.
: cliquez sur ce bouton pour effacer les slections de donnes.
: cliquez sur ce bouton pour changer la faon dont XLSTAT doit charger les
donnes. Si la flche est vers le bas, XLSTAT considre que les observations sont en lignes et
les variables en colonnes. Si la flche est vers la droite, XLSTAT considre que les variables
sont en lignes et les observations en colonnes.
Onglet Gnral :
Variable(s) ligne : slectionnez les donnes correspondant aux variables qualitatives qui
seront les variables en ligne des tableaux de contingence crs. Si les libells des variables
ont t slectionns, veillez ce que loption libells des variables soit bien active.
Variable(s) colonne : slectionnez les donnes correspondant aux variables qualitatives qui
seront les variables en colonne des tableaux de contingence crs. Si les libells des
43
variables ont t slectionns, veillez ce que loption libells des variables soit bien
active.
Poids : activez cette option si vous voulez pondrer les observations. Si vous nactivez pas
cette option, les poids seront tous considrs comme valant 1. Les poids doivent tre
imprativement suprieurs ou gaux 0. Si un en-tte de colonne a t slectionn, veuillez
vrifier que loption Libells des variables est active.
Plage : si vous activez cette option, les rsultats seront affichs partir d'une cellule situe
dans une feuille existante. Vous devez alors slectionner la cellule.
Feuille : activez cette option pour afficher les rsultats dans une nouvelle feuille du classeur
actif.
Classeur : activez cette option pour afficher les rsultats dans un nouveau classeur.
Libells des variables : activez cette option si la premire ligne des donnes slectionnes
contient un libell.
Onglet Options :
Tri alphabtique des modalits : activez cette option pour que dans les divers rsultats, les
modalits soient tries alphabtiquement pour les deux variables slectionnes.
Libells Variable-Modalit : activez cette option pour que les libells des lignes et des
colonnes du tableau de contingence utilisent le nom de la variable suivi du nom des modalits.
Si cette option nest pas active, les libells sont construits uniquement partir des noms des
modalits.
Test du khi : activez cette option pour effectuer le test du khi.
Niveau de signification (%) : entrez le niveau de signification utiliser pour les diffrents
tests (valeur par dfaut : 5%).
Onglet Donnes manquantes :
Ne pas accepter les valeurs manquantes : activez cette option pour que XLSTAT empche
la poursuite des calculs si des valeurs manquantes sont dtectes.
Supprimer les observations : activez cette option pour supprimer les observations
comportant des donnes manquantes.
44
Regrouper les valeurs manquantes dans une nouvelle modalit : activez cette option pour
regrouper les donnes manquantes dans une nouvelle modalit de la variable qualitative en
question.
Onglet Sorties :
Liste des combinaisons : activez cette option pour afficher la liste des diffrentes
combinaisons possibles des deux variables qualitatives, ainsi que les effectifs correspondants.
Tableau de contingence : activez cette option pour afficher le tableau de contingence.
Inertie par case : activez cette option pour afficher les inerties correspondant chacune des
cellules du tableau de contingence.
Khi par case : activez cette option pour afficher les Khi correspondant chacune des cases
du tableau de contingence.
Significativit par case : activez cette option pour afficher un tableau indiquant, pour chaque
case, si la valeur observe est gale (=), infrieure (<) ou suprieure (>) la valeur thorique,
et pour effectuer un test (test exact de Fisher sur un tableau 2x2 ayant le mme effectif total
que le tableau complet, et les mmes sommes marginales pour la case en question), afin de
dterminer si lcart la valeur thorique est significatif ou non.
Effectifs observs : activez cette option pour afficher le tableau des effectifs observs. Ce
tableau est presque identique au tableau de contingence, la diffrence venant des sommes
marginales pour les lignes et les colonnes.
Effectifs thoriques : activez cette option pour afficher le tableau des effectifs thoriques
estims partir des sommes marginales.
Proportions ou pourcentages / Ligne : activez cette option pour afficher le tableau des
proportions ou pourcentages par ligne qui correspondent aux effectifs observs diviss par les
sommes marginales des lignes.
Proportions ou pourcentages / Colonne : activez cette option pour afficher le tableau des
proportions ou pourcentages par colonne qui correspondent aux effectifs observs diviss par
les sommes marginales des colonnes.
Proportions ou pourcentages / Total : activez cette option pour afficher le tableau des
proportions ou pourcentages calculs comme les effectifs observs diviss par leffectif total.
Onglet Graphiques :
45
Vue 3D du tableau de contingence / du tableau crois : activez cette option pour afficher le
diagramme en bton en 3 dimensions correspondant au tableau de contingence ou au tableau
crois.
46
Tableaux disjonctifs complets
Utilisez cet outil pour crer un tableau disjonctif complet partir dune ou plusieurs variables
qualitatives.
Description
Un tableau disjonctif consiste en lclatement dun tableau dfini par n observations et q
variables qualitatives en un tableau dfini par n observations et p indicatrices o p est la
somme des nombres de modalits des q variables : chaque variable Q(j) est dcompose en
un sous-tableau q(j) colonnes o la colonne k contient des 1 pour les observations
correspondant la k-ime modalit et 0 pour les autres observations.
Bote de dialogue
: cliquez sur ce bouton pour lancer les calculs.
: cliquez sur ce bouton pour fermer la bote de dialogue sans effectuer les
calculs.
: cliquez sur ce bouton pour afficher laide.
: cliquez sur ce bouton pour rtablir les options par dfaut.
: cliquez sur ce bouton pour effacer les slections de donnes.
Donnes : slectionnez les donnes sur la feuille Excel.
Libells des variables : activez cette option si la premire ligne des donnes slectionnes
(donnes et libells des observations) contient un en-tte.
Libells des observations : activez cette option si vous voulez utiliser des libells
dobservations disponibles sur une feuille Excel pour laffichage des rsultats. Si l'option
Libells des variables est active, la premire cellule de la slection doit comprendre un
en-tte. Si vous nactivez pas cette option, des libells seront automatiquement crs (Obs1,
Obs2, ).
47
Plage : si vous activez cette option, les rsultats seront affichs partir d'une cellule situe
dans une feuille existante. Vous devez alors slectionner la cellule.
Feuille : activez cette option pour afficher les rsultats dans une nouvelle feuille du classeur
actif.
Classeur : activez cette option pour afficher les rsultats dans un nouveau classeur.
Statistiques descriptives : activez cette option pour calculer et afficher les statistiques
descriptives des variables qualitatives slectionnes.
Afficher len-tte du rapport : dsactivez cette option si vous souhaitez que le tableau
disjonctif complet commence ds la premire ligne de la feuille Excel (cas dune sortie dans
une feuille ou un classeur), et non aprs len-tte du rapport.
Exemple
Tableau initial :
Q1 Q2
Obs1 A C
Obs2 B D
Obs3 B E
Obs4 A D
Tableau disjonctif complet :
Q1-A Q1-B Q2-C Q2-D Q2-E
Obs1 1 0 1 0 0
Obs2 0 1 0 1 0
Obs3 0 1 0 0 1
Obs4 1 0 0 1 0
48
Discrtisation
Utilisez cet outil pour discrtiser une variable numrique. Plusieurs choix de discrtisation sont
proposs.
Description
Discrtiser une variable numrique revient la transformer en une variable ordinale. Ce
procd est trs communment utilis en marketing, o il est souvent appel
segmentation .
XLSTAT propose plusieurs mthodes de discrtisation plus ou moins automatiques. Le
nombre de classes (ou intervalles, ou segments) gnrs est fix soit par lutilisateur (par
exemple avec la mthode des amplitudes gales), soit par la mthode elle-mme (par
exemple, avec loption 80-20, o deux classes sont cres).
Lalgorithme de classification automatique de Fisher peut tre trs lent si le nombre de
donnes dpasse le millier. Cette mthode gnre un nombre de classes au plus gal au
nombre de classes demandes, la mthode permettant de dcouvrir automatiquement que
certaines classes peuvent tre fusionnes.
Bote de dialogue
La bote de dialogue est compose de plusieurs onglets correspondant aux diffrentes options
disponibles tant pour la gestion des calculs que pour laffichage des rsultats. Vous trouverez
ci-dessous le descriptif des diffrents lments de la bote de dialogue.
: cliquez sur ce bouton pour lancer les calculs.
: cliquez sur ce bouton pour fermer la bote de dialogue sans effectuer les
calculs.
: cliquez sur ce bouton pour afficher laide.
: cliquez sur ce bouton pour rtablir les options par dfaut.
: cliquez sur ce bouton pour effacer les slections de donnes.
49
: cliquez sur ce bouton pour changer la faon dont XLSTAT doit charger les
donnes. Si la flche est vers le bas, XLSTAT vous permet de slectionner les donnes par
colonnes ou par plage. Si la flche est vers la droite, XLSTAT vous permet de slectionner les
donnes par lignes ou par plage.
Onglet Gnral :
Tableau observations/variables : slectionnez un tableau comprenant N objets dcrits par P
descripteurs. Si des en-ttes de colonnes ont t slectionns, veuillez vrifier que loption
Libells des variables est active. Si plusieurs variables sont slectionnes, elles seront
chacune leur tour discrtises.
Mthode : choisissez la mthode de discrtisation:
- Amplitude constante : choisissez cette mthode pour crer des classes de mme
amplitude. Entrez alors lamplitude. Vous pouvez ensuite spcifier le minimum,
correspondant la borne infrieure de lintervalle correspondant la premire classe.
Cette valeur doit tre infrieure ou gale au minimum de la srie. Si le minimum nest
pas spcifi, la borne infrieure correspondra au minimum de la srie.
- Amplitude constante : choisissez cette mthode pour crer un nombre donn
dintervalles de mme amplitude. Entrez alors le nombre dintervalles. Lamplitude des
intervalles est dtermine partir de la diffrence entre les maximum et minimum de la
srie Vous pouvez aussi spcifier le minimum, correspondant la borne infrieure du
premier intervalle. Cette valeur doit tre infrieure ou gale au minimum de la srie. Si
le minimum nest pas spcifi, la borne infrieure correspondra au minimum de la srie.
- Effectifs gaux : choisissez cette mthode pour que les classes cres comprennent
toutes le mme nombre dobservations (dans la mesure du possible). Entrez alors le
nombre dintervalles (classes) crer.
- Automatique (Fisher) : choisissez cette mthode pour crer les classes en utilisant
lalgorithme de Fisher. Lorsque le nombre de donnes dpasse le millier, cet algorithme
peut tre trs lent. Entrez alors le nombre dintervalles (classes) crer. Le nombre de
classes cres peut tre ventuellement infrieur la valeur entre, lalgorithme
pouvant regrouper des classes non significativement diffrentes.
- Automatique (k-means) : choisissez cette mthode pour crer les intervalles en
utilisant lalgorithme k-means. Entrez alors le nombre dintervalles (classes) crer.
- Intervalles (dfinis par lutilisateur) : choisissez cette mthode pour slectionner une
colonne contenant en ordre croissant la borne infrieure du premier intervalle, et la
borne suprieure de tous les intervalles.
50
- 80-20 : choisissez cette mthode pour crer deux classes, la premire comprenant les
80 premiers % de la srie, cette dernire tant classe en ordre croissant, la seconde
contenant les 20% restant.
- 20-80 : choisissez cette mthode pour crer deux classes, la premire comprenant les
20 premiers % de la srie, cette dernire tant classe en ordre croissant, la seconde
contenant les 80% restant.
- 80-15-5 (ABC) : choisissez cette mthode pour crer trois classes, la premire
comprenant les 80 premiers % de la srie, cette dernire tant classe en ordre
croissant, la seconde contenant les 15% suivant, et la troisime contenant les 5%
restant. Cette classification est parfois appeles ABC.
- 5-15-80 : choisissez cette mthode pour crer trois classes, la premire comprenant les
5 premiers % de la srie, cette dernire tant classe en ordre croissant, la seconde
contenant les 15% suivant, et la troisime contenant les 80% restant.
Plage : si vous activez cette option, les rsultats seront affichs partir d'une cellule situe
dans une feuille existante. Vous devez alors slectionner la cellule.
Feuille : activez cette option pour afficher les rsultats dans une nouvelle feuille du classeur
actif.
Classeur : activez cette option pour afficher les rsultats dans un nouveau classeur.
Libells des variables : activez cette option si la premire ligne des donnes slectionnes
(Tableau observations/variables, libells des observations, poids) contient un libell.
Libells des observations : activez cette option si vous voulez utiliser des libells
dobservations pour laffichage des rsultats. Si l'option Libells des variables est active,
la premire cellule de la slection doit comprendre un en-tte. Si vous nactivez pas cette
option, des libells seront automatiquement crs (Obs1, Obs2, ).
Afficher len-tte du rapport : dsactivez cette option pour que len-tte du rapport ne soit
pas affich.
Onglet Options :
Poids : activez cette option si vous voulez pondrer les observations. Si vous nactivez pas
cette option, les poids seront tous considrs comme valant 1. Les poids doivent tre
51
imprativement suprieurs ou gaux 0. Si un en-tte de colonne a t slectionn, veuillez
vrifier que loption Libells des variables est active.
- Standardiser les poids : si vous activez cette option, les poids sont standardiss de
telle sorte que leur somme soit gale au nombre dobservations.
Onglet Donnes manquantes :
Ne pas accepter les valeurs manquantes : activez cette option pour que XLSTAT empche
la poursuite des calculs si des valeurs manquantes sont dtectes.
Supprimer les observations :
- Pour lchantillon correspondant : activez cette option pour ne pas prendre en
compte une observation dont lune des donnes est manquante, uniquement pour les
chantillons pour lesquels une donne est manquante.
- Pour tous les chantillons : activez cette option pour ne pas prendre en compte une
observation dont lune des donnes est manquante, pour tous les chantillons
slectionns.
Estimer les donnes manquantes : activez cette option pour estimer les donnes
manquantes en utilisant la moyenne de lchantillon.
Onglet Sorties :
Statistiques descriptives : activez cette option pour afficher les statistiques descriptives pour
les chantillons slectionns.
Barycentres : activez cette option pour afficher les coordonnes des barycentres des classes.
Objets centraux : activez cette option pour afficher les coordonnes de lobjet le plus proche
du barycentre de chaque classe.
Rsultats par classe : activez cette option pour afficher un tableau donnant les statistiques et
les objets correspondant chacune des classes.
Rsultats par objet : activez cette option pour afficher un tableau donnant pour chaque objet
sa classe daffectation dans lordre initial des objets.
Onglet Graphiques :
Histogrammes : activez cette option pour afficher les histogrammes des chantillons. Pour la
distribution thorique, la fonction de densit est affiche.
52
- Barres : choisissez cette option pour afficher des histogrammes avec une barre pour
chaque intervalle.
- Lignes continues : choisissez cette option pour afficher des histogrammes avec une
ligne continue.
Fonction de rpartition empirique : activez cette option pour afficher les histogrammes
cumuls des chantillons. Pour la distribution thorique, la fonction de rpartition est affiche.
- Bass sur lhistogramme : choisissez cette option pour afficher des histogrammes
cumuls bass sur la mme dfinition dintervalles que les histogrammes.
- Fonction de rpartition empirique : choisissez cette option pour afficher des
histogrammes cumuls qui correspondent en ralit la fonction de rpartition
empirique de lchantillon.
Ordonnes des histogrammes : choisissez quelle grandeur doit tre utilise pour les
histogrammes : densit, effectif ou frquence.
Rsultats
Statistiques simples : dans ce tableau sont affichs pour les variables slectionnes, le
nombre dobservations, le nombre de donnes manquantes, le nombre de donnes non
manquantes, la moyenne, et lcart-type.
Un histogramme et la fonction de rpartition empirique sont affichs si les options
correspondantes ont t actives. Les statistiques des diffrents intervalles sont affiches la
suite.
Barycentres des classes : dans ce tableau sont affiches les coordonnes des barycentres
des classes pour les diffrents descripteurs.
Distances entre les barycentres des classes : dans ce tableau sont affiches les distances
euclidiennes entre les barycentres des classes pour les diffrents descripteurs.
Objets centraux : dans ce tableau sont affiches pour chaque classe les coordonnes de
lobjet le plus proche du barycentre de la classe.
Distances entre les objets centraux : dans ce tableau sont affiches les distances
euclidiennes entre les objets centraux des classes pour les diffrents descripteurs.
Rsultats par classe : les statistiques descriptives des classes (nombre dobjets, somme des
poids, variance intra-classe, distance minimale au barycentre, distance maximale au
53
barycentre, distance moyenne au barycentre) sont affiches dans la premire partie du
tableau. Dans la seconde partie sont affichs les objets.
Rsultats par objet : dans ce tableau est indique, pour chaque objet, sa classe daffectation
dans lordre initial des objets.
Bibliographie
Arabie P., Hubert L.J. and De Soete G. (1996). Clustering and Classification. Wold Scientific,
Singapore.
Everitt B.S., Landau S. and Leese M. (2001). Cluster Analysis (4th edition). Arnold, London.
Fisher W.D. (1958). On grouping for maximum homogeneity. Journal of the American
Statistical Association, 53, 789-798.
54
Gestion des donnes
Utilisez cet outil pour transformer des tableaux de donnes. Quatre fonctions sont proposes :
ddoublonner, grouper, joindre (interne et externe). Ces mthodes sont communes dans les
systmes de gestion de base de donnes, mais ne sont pas proposes par Excel.
Description
Ddoublonner
Il est parfois ncessaire de ddoublonner un tableau de donnes : certaines observations
peuvent tre prsentes plusieurs fois (on parle alors de doublons) suite la fusion de plusieurs
sources de donnes, ou suite des erreurs de saisie.
Grouper
Le groupement est utile lorsque vous voulez agrger des donnes. Imaginez par exemple le
cas dun tableau contenant des enregistrements de ventes (une colonne pour lidentifiant
client, et une colonne avec le montant de la vente) que vous voudriez agrger pour avoir une
ligne par client, avec lidentifiant du client et le montant total des ventes pour ce client.
XLSTAT vous permet dobtenir ce tableau en quelques secondes. La somme nest que lune
des six possibilits proposes.
Joindre
La jointure est une opration courante en gestion de base de donnes. Elle permet de
fusionner horizontalement deux tables sur la base dune information commune dnomme
la clef. Par exemple, imaginez que vous avez mesur quelques indicateurs chimiques sur 150
sites. Ensuite, vous voulez ajouter l'information gographique sur ces mmes sites o les
donnes ont t recueillies. Votre table dinformations gographiques contient l'information sur
1000 sites, y compris les 150 sites tudis. Afin d'viter le travail fastidieux de fusionner
manuellement les deux tables, une jointure permet d'obtenir en quelques secondes la table
fusionne qui comprend la fois les donnes recueillies et l'information gographique. On
distingue deux types de jointure :
- Jointure interne : la table fusionne comprend uniquement les clefs communes aux
deux tables de dpart.
- Jointure externe : la table fusionne comprend une ligne par clef, quelle soit prsente
dans une seule des tables de dpart ou dans les deux.
55
Bote de dialogue
La bote de dialogue est compose de plusieurs onglets correspondant aux diffrentes options
disponibles tant pour la gestion des calculs que pour laffichage des rsultats. Vous trouverez
ci-dessous le descriptif des diffrents lments de la bote de dialogue.
: cliquez sur ce bouton pour lancer les calculs.
: cliquez sur ce bouton pour fermer la bote de dialogue sans effectuer les
calculs.
: cliquez sur ce bouton pour afficher laide.
: cliquez sur ce bouton pour rtablir les options par dfaut.
: cliquez sur ce bouton pour effacer les slections de donnes.
: cliquez sur ce bouton pour changer la faon dont XLSTAT doit charger les
donnes. Si la flche est vers le bas, XLSTAT vous permet de slectionner les donnes par
colonnes ou par plage. Si la flche est vers la droite, XLSTAT vous permet de slectionner les
donnes par lignes ou par plage.
Onglet Gnral :
Donnes : ce champ nest visible que si les mthodes Ddoublonner ou Grouper sont
actives. Slectionnez les donnes que vous voulez ddoublonner ou grouper. Si des en-ttes
de colonnes ont t slectionns, veuillez vrifier que loption Libells des variables est
active.
Libells des observations : ce champ nest visible que si la mthode Ddoublonner est
active. Activez cette option pour slectionner les libells dobservations qui seront ensuite
utiliss pour laffichage des rsultats. Si l'option Libells des variables est active, la
premire cellule de la slection doit comprendre un en-tte. Si vous nactivez pas cette option,
des libells seront automatiquement crs (Obs1, Obs2, ).
Deviner les types : cette option nest visible que si la mthode Grouper est active.
Activez cette option si vous souhaitez que XLSTAT devine le type des variables slectionnes
(numrique ou nominal). Si cette option nest pas active, XLSTAT vous demandera de
confirmer ou de modifier les types des variables.
56
Tableau 1 : ce champ nest visible que si la mthode Jointure est active. Slectionnez les
donnes correspondant la premire table de jointure. Si des en-ttes de colonnes ont t
slectionns, veuillez vrifier que loption Libells des variables est active.
Tableau 2 : ce champ nest visible que si la mthode Jointure est active. Slectionnez les
donnes correspondant la premire table de jointure. Si des en-ttes de colonnes ont t
slectionns, veuillez vrifier que loption Libells des variables est active.
Mthode : choisissez la mthode de gestion de donnes utiliser :
- Ddoublonner
- Grouper
- Jointure (Interne)
- Jointure (Externe)
Plage : si vous activez cette option, les rsultats seront affichs partir d'une cellule situe
dans une feuille existante. Vous devez alors slectionner la cellule.
Feuille : activez cette option pour afficher les rsultats dans une nouvelle feuille du classeur
actif.
Classeur : activez cette option pour afficher les rsultats dans un nouveau classeur.
Libells des variables : activez cette option si la premire ligne des donnes slectionnes
(Tableau observations/variables, libells des observations, poids) contient un libell.
Opration : cette option nest visible que si la mthode Grouper est active. Choisissez
lopration appliquer lors de lagrgation des donnes. Pour les variables nominales, le
mode est utilis comme rsultat.
Onglet Sorties :
Cet onglet nest visible que pour les mthodes Ddoublonner ou Grouper .
Statistiques descriptives : activez cette option pour calculer et afficher les statistiques
descriptives des variables slectionnes.
Les options suivantes ne sont visibles que pour la mthode Ddoublonner :
57
Tableau ddoublonn : activez cette option pour afficher le tableau ddoublonn.
Frquences : activez cette option pour afficher dans la dernire colonne du tableau la
frquence de chaque observation dans le tableau initial (1 correspond une donne non
duplique).
Doublons : activez cette option pour afficher les donnes prsentes au moins deux fois dans
le tableau initial.
Onglet Donnes manquantes :
Cet onglet nest visible que pour la mthode Grouper .
Ne pas accepter les valeurs manquantes : activez cette option pour que XLSTAT empche
la poursuite des calculs si des valeurs manquantes sont dtectes.
Supprimer les observations : activez cette option pour supprimer les observations
comportant des donnes manquantes.
Ignorer les donnes manquantes : si vous activez cette option, XLSTAT ne tiendra pas
compte des proximits correspondant des donnes manquantes pour la minimisation du
stress.
58
Codage
Utilisez cet outil pour recoder un tableau en utilisant un tableau de codage comprenant les
valeurs initiales et les codes qui doivent les remplacer dans le nouveau tableau.
Bote de dialogue
: cliquez sur ce bouton pour lancer les calculs.
: cliquez sur ce bouton pour fermer la bote de dialogue sans effectuer les
calculs.
: cliquez sur ce bouton pour afficher laide.
: cliquez sur ce bouton pour rtablir les options par dfaut.
: cliquez sur ce bouton pour effacer les slections de donnes.
Donnes : slectionnez les donnes sur la feuille Excel. Si des en-ttes ont t slectionns,
veuillez vrifier que loption Libells des colonnes est active.
Tableau de codage : slectionnez deux colonnes correspondant au tableau de codage. La
premire colonne doit contenir les valeurs telles qu'elles sont dans le tableau des donnes
slectionnes, et la seconde colonne les codes correspondants utiliser dans le tableau
recod. Si des en-ttes ont t slectionns, veuillez vrifier que loption Libells des
colonnes est active.
Libells des colonnes : activez cette option si la premire ligne des donnes slectionnes
(donnes et tableau de codage) contient un libell.
Plage : si vous activez cette option, les rsultats seront affichs partir d'une cellule situe
dans une feuille existante. Vous devez alors slectionner la cellule.
Feuille : activez cette option pour afficher les rsultats dans une nouvelle feuille du classeur
actif.
Classeur : activez cette option pour afficher les rsultats dans un nouveau classeur.
59
Afficher len-tte du rapport : dsactivez cette option si vous souhaitez que le tableau
disjonctif complet commence ds la premire ligne de la feuille Excel (cas dune sortie dans
une feuille ou un classeur), et non aprs len-tte du rapport.
60
Codage prsence/absence
Utilisez cet outil pour transformer un tableau de listes (ou attributs) en un tableau de
prsence/absence indiquant les frquences des diffrents lments pour chacune des listes.
Description
Cet outil permet par exemple de transformer un tableau contenant p colonnes correspondant
p listes dobjets en un tableau p lignes et q colonnes, o q est le nombre dobjets diffrents
contenu dans les p listes, et o pour chaque cellule du tableau, on a 1 si lobjet est prsent et
0 sil est absent.
Par exemple, dans le domaine de lcologie, si on a p relevs despces avec en colonne,
pour chaque relev, les diffrentes espces trouves, on obtiendra un tableau crois indiquant
la prsence ou labsence de chacune des espces pour chacun des relevs.
Bote de dialogue
: cliquez sur ce bouton pour lancer les calculs.
: cliquez sur ce bouton pour fermer la bote de dialogue sans effectuer les
calculs.
: cliquez sur ce bouton pour afficher laide.
: cliquez sur ce bouton pour rtablir les options par dfaut.
: cliquez sur ce bouton pour effacer les slections de donnes.
Donnes : slectionnez les donnes sur la feuille Excel. Si des en-ttes ont t slectionns,
veuillez vrifier que loption Libells des colonnes est active.
Libells des colonnes : activez cette option si la premire ligne des donnes slectionnes
contient un libell.
Codage prsence/absence par :
- Lignes : choisissez cette option si chaque ligne correspond une liste.
61
- Colonnes : choisissez cette option si chaque colonne correspond une liste.
Plage : si vous activez cette option, les rsultats seront affichs partir d'une cellule situe
dans une feuille existante. Vous devez alors slectionner la cellule.
Feuille : activez cette option pour afficher les rsultats dans une nouvelle feuille du classeur
actif.
Classeur : activez cette option pour afficher les rsultats dans un nouveau classeur.
Afficher len-tte du rapport : dsactivez cette option si vous souhaitez que le tableau de
prsence/absence commence ds la premire ligne de la feuille Excel (cas dune sortie dans
une feuille ou un classeur), et non aprs len-tte du rapport.
Exemple
Tableau initial :
Liste1 Liste2
E1 E3
E1 E1
E2 E4
E1
E3
Tableau de prsence/absence :
E1 E2 E3 E4
Liste1 1 1 1 0
Liste2 1 0 1 1
62
Codage en rangs
Utilisez cet outil pour recoder un tableau n observations et p variables quantitatives en un
tableau contenant le rang des valeurs, les rangs tant dtermins variable par variable.
Description
Cet outil vous permet de recoder un tableau n observations et p variables quantitatives en un
tableau contenant le rang des valeurs, les rangs tant dtermins variable par variable. Le
codage en rang peut vous permettre de convertir un tableau de variables quantitatives
continues en un tableau de variables quantitatives discrtes, si seule la relation dordre est
intressante et non les valeurs elles-mmes.
Deux stratgies sont possibles pour la prise en compte des ex aequo : soit on leur affecte un
rang moyen, soit on leur affecte le rang le plus faible.
Bote de dialogue
: cliquez sur ce bouton pour lancer les calculs.
: cliquez sur ce bouton pour fermer la bote de dialogue sans effectuer les
calculs.
: cliquez sur ce bouton pour afficher laide.
: cliquez sur ce bouton pour rtablir les options par dfaut.
: cliquez sur ce bouton pour effacer les slections de donnes.
Donnes : slectionnez les donnes sur la feuille Excel. Si des en-ttes ont t slectionns,
veuillez vrifier que loption Libells des colonnes est active.
Libells des colonnes : activez cette option si la premire ligne des donnes slectionnes
(donnes et libells des observations) contient un libell.
63
Libells des observations : activez cette option si vous voulez utiliser des libells
dobservations disponibles sur une feuille Excel pour laffichage des rsultats. Si l'option
Libells des colonnes est active, la premire cellule de la slection doit comprendre un
en-tte. Si vous nactivez pas cette option, des libells seront automatiquement crs (Obs1,
Obs2, ).
Plage : si vous activez cette option, les rsultats seront affichs partir d'une cellule situe
dans une feuille existante. Vous devez alors slectionner la cellule.
Feuille : activez cette option pour afficher les rsultats dans une nouvelle feuille du classeur
actif.
Classeur : activez cette option pour afficher les rsultats dans un nouveau classeur.
Tenir compte des ex aequo : activez cette option pour tenir compte de la prsence dex
aequo et pour adapter en consquence le rang des valeurs ex aequo.
- Rangs moyens : choisissez cette option pour remplacer le rang des valeurs ex aequo
par la moyenne des rangs.
- Minimum : choisissez cette option pour remplacer le rang des valeurs ex aequo par le
minimum de leur rang.
Afficher len-tte du rapport : dsactivez cette option si vous souhaitez que le tableau
chantillonn commence ds la premire ligne de la feuille Excel (cas dune sortie dans une
feuille ou un classeur), et non aprs len-tte du rapport.
Exemple
Tableau initial :
V1 V2
Obs1 1.2 12
Obs2 1.6 11
Obs3 1.2 10
Obs4 1.4 10.5
64
Tableau recod en rangs (rang moyen pour les ex aequo) :
R1 R2
Obs1 1 4
Obs2 4 3
Obs3 1 1
Obs4 3 2
Tableau recod en rangs (rang le plus faible pour les ex aequo) :
R1 R2
Obs1 1.5 4
Obs2 4 3
Obs3 1.5 1
Obs4 3 2
65
Statistiques descriptives et Graphiques univaris
Utilisez cet outil pour calculer des statistiques descriptives et afficher des graphiques univaris
(Box plots, Scattergrams, ) pour un ensemble de variables quantitatives et/ou qualitatives.
Description
Avant dutiliser des mthodes danalyse avances comme par exemple une analyse
discriminante ou une rgression multiple, il est ncessaire dans un premier temps, de
dcouvrir les donnes afin didentifier des tendances, de reprer des anomalies ou tout
simplement de disposer dinformations essentielles telles que le minimum, le maximum, ou la
moyenne dun chantillon de donnes.
XLSTAT vous propose un nombre important de statistiques descriptives et de graphiques qui
vous permettront davoir un premier aperu pertinent de vos donnes.
Bien que vous puissiez slectionner plusieurs variables (ou chantillons) la fois, XLSTAT
calcul lensemble des statistiques descriptives pour chacun des chantillons indpendamment.
Statistiques descriptives pour les donnes quantitatives :
Soit un chantillon compos de N donnes quantitatives {y1, y2, yN}, dont les poids
respectifs sont {W1, W2, WN}.
- Nombre dobservations : le nombre N de donnes dans lchantillon slectionn.
- Nombre de donnes manquantes : le nombre de donnes manquantes dans
lchantillon analys. Pour le calcul des statistiques qui suivent, les donnes identifies
comme manquantes sont ignores. On dfinit par n le nombre de donnes non
manquantes, et par {x1, x2, xn} le sous-chantillon des donnes non manquantes
dont les poids respectifs sont {w1, w2, wn}.
- Somme des poids *: la somme des poids, note Sw. Lorsque tous les poids valent 1,
ou lorsque les poids sont standardiss , on a Sw = n.
- Minimum : le minimum de la srie analyse.
- Maximum : le maximum de la srie analyse.
- Frquence du minimum * : la frquence du minimum de la srie.
- Frquence du maximum * : la frquence du maximum de la srie.
- Amplitude : lamplitude est la diffrence entre le maximum et le minimum de la srie.
66
- 1
er
quartile * : le premier quartile Q1 est dfini comme la valeur telle que 25% des
donnes lui sont infrieurs.
- Mdiane * : la mdiane Q2 est telle que 50% des donnes lui sont infrieurs.
- 3
me
quartile * : le troisime quartile Q3 est dfini comme la valeur telle que 75% des
donnes lui sont infrieurs.
- Somme * : la somme pondre des donnes est dfinie par :
1
n
i i
i
S w x
=
=
- Moyenne * : la moyenne de lchantillon est dfinie par = S / Sw.
- Variance n * : la variance de lchantillon est dfinie par :
( )
2
2 1
( )
n
i i
i
w x
s n
Sw
=
=
Remarque 1 : lorsque tous les poids valent 1, la variance est la somme des carts
quadratiques la moyenne, divise par n, do la dnomination.
Remarque 2 : la variance n est une estimation biaise de la variance, qui suppose que
lchantillon est bien reprsentatif de la population totale. La variance n-1 est calcule
au contraire en tenant compte dune approximation lie lchantillonnage.
- Variance n-1 * : la variance estime de lchantillon dfinie par :
( )
( )
2
2
1
1
/
n
i i
i
w x
s n
Sw Sw n
=
=
Remarque 1 : lorsque tous les poids valent 1, la variance est la somme des carts
quadratiques la moyenne, divise par n-1, do la dnomination.
Remarque 2 : la variance n est une estimation biaise de la variance, qui suppose que
lchantillon est bien reprsentatif de la population totale. La variance n-1 est calcule
au contraire en tenant compte dune approximation lie lchantillonnage.
- Ecart-type n * : lcart-type de lchantillon dfini par s(n).
- Ecart-type n-1 * : lcart-type estim de lchantillon dfini par s(n-1).
- Coefficient de variation * : ce coefficient nest calcul que si la moyenne de
lchantillon nest pas nulle. Il est dfini par CV = s(n) / . Ce coefficient mesure la
dispersion dun chantillon relativement sa moyenne. Il permet de comparer la
67
dispersion dchantillons dont les chelles ou les moyennes sont sensiblement
diffrentes.
- Asymtrie (Pearson) * : le coefficient dasymtrie de Pearson est dfini par :
( )
3
3 1
1 3
3
avec
( )
n
i i
i
w x
Sw s n
=
= =
Ce coefficient, appel skewness en anglais, donne une indication quant la forme de la
distribution de lchantillon. Dans le cas dune valeur ngative (respectivement positive) la
distribution est concentre gauche (respectivement droite) de la moyenne.
- Asymtrie (Fisher) * : le coefficient dasymtrie de Fisher est dfini par :
( )
1
1
/
2 /
Sw Sw Sw n
G
Sw Sw n
=
Contrairement au prcdent, ce coefficient est non biais sous hypothse de normalit
des donnes. Ce coefficient donne une indication quant la forme de la distribution de
lchantillon. Dans le cas dune valeur ngative (respectivement positive) la distribution est
concentre gauche (respectivement droite) de la moyenne.
- Asymtrie (Bowley) * : le coefficient dasymtrie de Bowley est dfini par :
1 2 3
3 1
2
( )
Q Q Q
A B
Q Q
+
=
- Aplatissement (Pearson) * : le coefficient daplatissement de Pearson est dfini par :
( )
4
1 4
2 4
4
-3 avec
( )
n
i i
i
w x
Sw s n
=
= =
Ce coefficient appel en anglais kurtosis ou parfois excess kurtosis donne une indication
quant la forme de la distribution de lchantillon. Dans le cas dune valeur ngative
(respectivement positive), le pic de la distribution de lchantillon est plus (respectivement
moins) aplati que celui dune loi normale.
- Aplatissement (Fisher) * : le coefficient daplatissement de Fisher est dfini par :
( )( )
( ) ( )
( )( )
( )
2 2
4
4
/
/ 6
2 / 3 /
/
= 3 /
2 / 3 / ( )
Sw Sw n
G Sw Sw n
Sw Sw n Sw Sw n
Sw Sw n
Sw sw n
Sw Sw n Sw Sw n s n
= + +
| |
|
\ .
68
Contrairement au prcdent, ce coefficient est non biais sous hypothse de normalit
des donnes. Ce coefficient appel en anglais kurtosis ou parfois excess kurtosis donne
une indication quant la forme de la distribution de lchantillon. Dans le cas dune valeur
ngative (respectivement positive), le pic de la distribution de lchantillon est plus
(respectivement moins) aplati que celui dune loi normale.
- Ecart-type de la moyenne * : cette statistique est dfinie par :
2
( 1)
s n
s
Sw
=
- Borne inf. de la moyenne (x%) * : cette statistique correspond la borne infrieure de
lintervalle de confiance x% de la moyenne. Cette statistique est dfinie par :
( ) 100 / 2 x
L s t
=
- Borne sup. de la moyenne (x%) * : cette statistique correspond la borne suprieure
de lintervalle de confiance x% de la moyenne. Cette statistique est dfinie par :
( ) 100 / 2 x
U s t
= +
- Ecart-type (Asymtrie (Fisher)) * : lcart-type du coefficient dasymtrie de Fisher est
dfini par :
( )
( )
( ) ( ) ( )
1
6 1
2 1 3
Sw Sw
se G
Sw Sw Sw
=
+ +
- Ecart-type (Aplatissement (Fisher)) * : lcart-type du coefficient daplatissement de
Fisher est dfini par :
( )
( ) ( ) ( )
( )( )
2
2
1
2
4 1
3 5
Sw se G
se G
Sw Sw
=
+
- Ecart absolu moyen * : comme lcart-type ou la variance, ce coefficient mesure la
dispersion (ou variabilit) de lchantillon. Il est dfini par :
1
( )
n
i i
i
w x
e
Sw
=
=
- Ecart absolu mdian * : cette statistique correspond la mdiane des carts absolus
la mdiane.
- Moyenne gomtrique * : cette statistique nest calcule que si toutes les donnes
sont strictement positives. Elle est dfinie par :
69
( )
1
1
exp
n
G i i
i
w Ln x
Sw
=
| |
=
|
\ .
Si tous les poids sont gaux 1, on a
1
n
n
G i
i
x
=
=
[
- Ecart-type gomtrique * : cette statistique est dfinie par :
( ) ( ) ( )
2
1
1
exp
n
G i i G
i
w Ln x Ln
Sw
o
=
| |
=
|
\ .
- Moyenne harmonique * : cette statistique est dfinie par :
1
H
n
i
i
i
Sw
w
x
=
=
(*) Les statistiques suivies dun astrisque tiennent compte du poids des observations.
Statistiques descriptives pour les donnes qualitatives :
Pour un chantillon compos de N donnes qualitatives, on dfinit :
- Nombre dobservations : le nombre N de donnes dans lchantillon slectionn.
- Nombre de donnes manquantes : le nombre de donnes manquantes dans
lchantillon analys. Pour le calcul des statistiques qui suivent, les donnes identifies
comme manquantes sont ignores. On dfinit par n le nombre de donnes non
manquantes, et par {w1, w2, wn} le sous-chantillon les poids des donnes non
manquantes.
- Somme des poids *: la somme des poids, note Sw. Lorsque tous les poids valent 1,
on a Sw = n.
- Mode *: le mode de lchantillon analys. Autrement dit, la modalit la plus frquente.
- Frquence du mode *: la frquence de la modalit laquelle correspond le mode
- Modalit : le nom des diffrentes modalits prsentes dans lchantillon.
- Frquence par modalit *: la frquence de chacune des modalits.
- Frquence relative par modalit *: la frquence relative de chacune des modalits.
70
(*) Les statistiques suivies dun astrisque tiennent compte du poids des observations.
Plusieurs types de graphiques sont disponibles pour les donnes quantitatives et les donnes
qualitatives :
Graphiques pour les donnes quantitatives :
- Box plots : ces reprsentations univaries dchantillons de donnes quantitatives sont
parfois appeles diagrammes botes et moustaches . Cest une reprsentation
simple et assez complte puisque dans la version propose par XLSTAT sont affichs
le minimum, le 1
er
quartile, la mdiane, la moyenne, le 3
ime
quartile, ainsi que les deux
limites (les extrmits des moustaches ) au-del desquelles on peut considrer que
les valeurs sont anormales. Les limites sont ainsi calcules :
Limite infrieure : Linf = Q1 1.5 (Q3 Q1)
Limite suprieure : Lsup = Q3 + 1.5 (Q3 Q1)
- Scattergrams : ces reprsentations univaries permettent de donner une ide de la
distribution et de la pluralit ventuelle des modes dun chantillon. Tous les points sont
reprsents, ainsi que la moyenne et la mdiane.
- Strip plots : ces diagrammes reprsentent sous forme de bandes (strip en anglais) les
donnes de lchantillon. Sur un intervalle donn, plus les bandes sont serres ou
paisses plus il y a de donnes.
- Graphiques P-P (loi normale) : les graphiques Probabilit-Probabilit (P-P plots en
anglais) permettent de comparer la fonction de rpartition empirique dun chantillon
celle dun chantillon distribu suivant une loi normale de mme moyenne et mme
variance. Si lchantillon suit une loi normale, les points doivent tre confondus avec la
premire bissectrice du plan.
- Graphiques Q-Q (loi normale) : les graphiques Quantile-Quantile (Q-Q plots en
anglais) permettent de comparer les quantiles de lchantillon ceux dun chantillon
distribu suivant une loi normale de mme moyenne et mme variance. Si lchantillon
suit une loi normale, les points doivent tre confondus avec la premire bissectrice du
plan.
Graphiques pour les donnes qualitatives :
Diagrammes en btons : activez cette option pour reprsenter sous forme de diagrammes en
btons les effectifs ou les frquences des diffrentes modalits des variables qualitatives.
71
Diagrammes en secteurs : activez cette option pour reprsenter sous forme de diagrammes
en secteurs (ou camemberts) les effectifs ou les frquences des diffrentes modalits des
variables qualitatives.
Diagrammes en secteurs doubles : ces graphiques permettent de comparer les effectifs ou
les frquences de sous-chantillons ceux dun chantillon complet.
Anneaux : cette option nest active que si une colonne de sous-chantillons a t
slectionne. Ces graphiques permettent de comparer les effectifs ou les frquences des
sous-chantillons ceux dun chantillon complet.
Barres empiles : cette option nest active que si une colonne de sous-chantillons a t
slectionne. Ces graphiques permettent de comparer les effectifs ou les frquences des
sous-chantillons ceux dun chantillon complet.
Bote de dialogue
La bote de dialogue est compose de plusieurs onglets correspondant aux diffrentes options
disponibles tant pour la gestion des calculs que pour laffichage des rsultats. Vous trouverez
ci-dessous le descriptif des diffrents lments de la bote de dialogue.
: cliquez sur ce bouton pour lancer les calculs.
: cliquez sur ce bouton pour fermer la bote de dialogue sans effectuer les
calculs.
: cliquez sur ce bouton pour afficher laide.
: cliquez sur ce bouton pour rtablir les options par dfaut.
: cliquez sur ce bouton pour effacer les slections de donnes.
: cliquez sur ce bouton pour changer la faon dont XLSTAT doit charger les
donnes. Si la flche est vers le bas, XLSTAT considre que les observations sont en lignes et
les variables en colonnes. Si la flche est vers la droite, XLSTAT considre que les variables
sont en lignes et les observations en colonnes.
Onglet Gnral :
72
Donnes quantitatives : activez cette option pour slectionner les chantillons de donnes
quantitatives pour lesquels vous voulez calculer les statistiques descriptives. Si des en-ttes
ont t slectionns, veuillez vrifier que loption Libells des chantillons est active.
Donnes qualitatives : activez cette option pour slectionner les chantillons de donnes
qualitatives pour lesquels vous voulez calculer les statistiques descriptives. Si des en-ttes ont
t slectionns, veuillez vrifier que loption Libells des chantillons est active.
Sous-chantillons : activez cette option pour slectionner une colonne indiquant les noms ou
les indices des sous-chantillons correspondant chacune des observations.
- Libells Variable-Modalit : activez cette option pour utiliser des libells longs pour
l'affichage des rsultats concernant les variables quantitatives. Les libells Variable-
Modalit sont composs du nom de la variable comme prfixe, et de la modalit du
sous-chantillon comme suffixe.
Plage : si vous activez cette option, les rsultats seront affichs partir d'une cellule situe
dans une feuille existante. Vous devez alors slectionner la cellule.
Feuille : activez cette option pour afficher les rsultats dans une nouvelle feuille du classeur
actif.
Classeur : activez cette option pour afficher les rsultats dans un nouveau classeur.
Libells des chantillons: activez cette option si la premire ligne des slections (donnes
quantitatives, qualitatives, sous-chantillons, poids) contient un libell.
Poids : activez cette option si vous voulez pondrer les observations. Si vous nactivez pas
cette option, les poids seront tous considrs comme valant 1. Les poids doivent tre
imprativement suprieurs ou gaux 0. Si un en-tte de colonne a t slectionn, veuillez
vrifier que loption Libells des variables est active.
- Standardiser les poids : si vous activez cette option les poids sont standardiss de
telle sorte que leur somme soit gale au nombre dobservations.
Onglet Options :
Statistiques descriptives : activez cette option pour calculer et afficher les statistiques
descriptives.
Graphiques : activez cette option pour afficher des graphiques.
73
Normaliser : activez cette option pour centrer-rduire les donnes avant de procder
lanalyse.
Remettre lchelle de 0 100 : activez cette option remettre les donnes lchelle en
faisant en sorte que le minimum soit 0 et le maximum 100.
Comparer lchantillon total : cette option nest active que si une colonne de sous-
chantillons a t slectionne. Activez cette option pour que les statistiques descriptives et
les graphiques soient aussi affichs pour lchantillon total.
Onglet Sorties :
Donnes quantitatives : activez les options pour les statistiques descriptives que vous voulez
calculer. Les diffrentes statistiques sont prsentes dans la section description.
- Toutes : cliquez sur ce bouton pour tout slectionner.
- Aucune : cliquez sur ce bouton pour tout dslectionner.
- Affichage vertical : activez cette option pour que le tableau des statistiques
descriptives soit affich verticalement (une ligne par statistique descriptive).
Donnes qualitatives : activez les options pour les statistiques descriptives que vous voulez
calculer. Les diffrences statistiques sont prsentes dans la section description.
- Toutes : cliquez sur ce bouton pour tout slectionner.
- Aucune : cliquez sur ce bouton pour tout dslectionner.
- Affichage vertical : activez cette option pour que le tableau des statistiques
descriptives soit affich verticalement (une ligne par statistique descriptive).
Onglet Graphiques (1) :
Cet onglet concerne les donnes quantitatives.
Box plots : activez cette option pour afficher les box plots (ou graphiques botes et
moustaches). Sur ces graphiques sont notamment affichs la moyenne (+ rouge), la mdiane
(trait rouge), le premier (Q1) et le troisime (Q3) quartiles (extrmits de la bote) et les limites
partir desquelles on peut considrer quil sagit de donnes potentiellement anormales. La
limite infrieure est gale Q1 - 1,5 (Q3 Q1), et la limite suprieure est gale Q3 + 1,5
(Q3 Q1. Si loption valeurs extrmes est active, les donnes se trouvant au-del de
ces limites sont affiches avec un cercle vid.
74
- Horizontaux : activez cette option pour afficher des box plots, scattergrams et strip
plots horizontaux.
- Verticaux : activez cette option pour afficher des box plots, scattergrams et strip plots
verticaux.
- Grouper les graphiques : activez cette option pour regrouper sur un mme graphique
les diffrents box plots, scattergrams et strip plots de manire pouvoir les comparer.
- Minimum/Maximum : activez cette option pour systmatiquement afficher les points
correspondant au minimum et au maximum (box plots).
- Valeurs extrmes : activez cette option pour afficher les points correspondant aux
valeurs extrmes (box plots) avec un cercle vid.
- Position des tiquettes : choisissez la position des tiquettes sur les graphiques
verticaux. Elles peuvent tre soit en bas, soit en haut, soit alternativement en bas et en
haut.
Scattergrams : activez cette option pour afficher les scattergrams. La moyenne (+ rouge) et la
mdiane (trait rouge) sont systmatiquement affiches.
Strip plots : activez cette option pour afficher les strip plots. Sur ces graphiques, une bande
correspond une observation.
Stem-and-leaf plots : activez cette option pour afficher les stem-and-leaf plots (ou diagramme
branches et feuilles).
Graphiques P-P (loi-normale) : activez cette option pour afficher les graphiques P-P.
Graphiques Q-Q (loi-normale) : activez cette option pour afficher les graphiques Q-Q.
Onglet Graphiques (2) :
Cet onglet concerne les donnes qualitatives.
Diagrammes en btons : activez cette option pour reprsenter sous forme de diagrammes en
btons les effectifs ou les frquences des diffrentes modalits des variables qualitatives.
Diagrammes en secteurs : activez cette option pour reprsenter sous forme de diagrammes
en secteurs (ou camemberts) les effectifs ou les frquences des diffrentes modalits des
variables qualitatives.
- Doubles : cette option nest active que si une colonne de sous-chantillons a t
slectionne. Ces graphiques permettent de comparer les effectifs ou les frquences
des sous-chantillons ceux dun chantillon complet.
75
Anneaux : cette option nest active que si une colonne de sous-chantillons a t
slectionne. Ces graphiques permettent de comparer les effectifs ou les frquences des
sous-chantillons ceux dun chantillon complet.
Barres empiles : cette option nest active que si une colonne de sous-chantillons a t
slectionne. Ces graphiques permettent de comparer les effectifs ou les frquences des
sous-chantillons ceux dun chantillon complet.
Valeurs utilises : choisissez le type de donnes afficher :
- Effectifs : choisissez cette option pour que lchelle des graphiques corresponde aux
effectifs des modalits.
- Frquences : choisissez cette option pour que lchelle des graphiques corresponde
aux frquences des modalits.
Exemple
Un exemple de calcul de statistiques descriptives et de gnration de biplots est disponible sur
le site d'Addinsoft l'adresse
http://www.xlstat.com/demo-bpf.htm
Bibliographie
Filliben J.J. (1975). The probability plot correlation coefficient Test for normality.
Technometrics, 17(1), 111-117.
DeCarlo L.T. (1997). On the meaning and Use of Kurtosis. Psychological Methods, 2(3), 292-
307.
Sokal R.R. and Rohlf F.J. (1995). Biometry. The Principles and Practice of Statistics in
Biological Research. Third Edition. Freeman, New York.
Tomassone R., Dervin C. and Masson J.P. (1993). Biomtrie. Modlisation de Phnomnes
Biologiques. Masson, Paris.
76
Histogrammes
Utiliser cet outil pour crer un histogramme partir dun chantillon de donnes quantitatives
continues ou discrtes.
Description
Lhistogramme est lun des outils de visualisation les plus utiliss car il permet davoir trs
rapidement une ide de la distribution dun chantillon de donnes quantitatives continues ou
discrtes.
Dfinition des intervalles
Lun des enjeux pour la cration dun histogramme est la dfinition des intervalles, car pour un
jeu de donnes dtermin, lallure de lhistogramme en dpend entirement. Entre les deux
extrmes de lintervalle unique comprenant toutes les donnes et donnant une seule barre, et
de lhistogramme o il y a un intervalle par donne, il existe autant dhistogrammes possibles
que de partitions des donnes.
Afin dobtenir un rsultat visuellement et/ou oprationnellement satisfaisant, la dfinition des
intervalles peut ncessiter plusieurs aller-retours.
La mthode la plus classique consiste utiliser des intervalles de mme amplitude, la valeur
du premier intervalle tant dtermine par la valeur minimale ou une valeur lgrement
infrieure.
Afin de faciliter lobtention dhistogrammes, XLSTAT vous propose de crer vos histogrammes
soit en dfinissant le nombre dintervalles, soit en dfinissant leur amplitude, soit en spcifiant
vous-mme les intervalles. Les intervalles sont considrs comme tant ferms pour la borne
infrieure et ouverts pour la borne suprieure.
Histogramme cumul
XLSTAT vous permet de crer des histogrammes cumuls qui correspondent soit au cumul
des valeurs de lhistogramme, soit la fonction de rpartition empirique. Lutilisation de la
fonction de rpartition empirique est recommande pour une comparaison une fonction de
rpartition dune distribution thorique.
Comparaison une distribution thorique
77
XLSTAT vous permet de comparer, si vous le souhaitez, lhistogramme une distribution
thorique dont vous pouvez fixer les paramtres. Nanmoins, si vous souhaitez vrifier si un
chantillon est distribu suivant une loi donne, vous pouvez utiliser loutil dajustement dune
loi de distribution pour estimer les paramtres de la loi et ventuellement vrifier si lhypothse
est acceptable.
XLSTAT permet lutilisation des lois suivantes :
- Bta (a, b) : la densit de cette loi (aussi appele Bta de type I) est donne par :
( )
( ) | |
1
1
1 ( ) ( )
( ) 1 , avec a,b>0, 0,1 et ( , )
, ( )
b
a
a b
f x x x x B a b
B a b a b
I I
= e =
I +
On a E(X) = a/(a+b) et V(X) = ab/[(a+b+1)(a+b)]
- Binomiale (n, p) : la densit de cette loi est donne par :
( ) | | | |
( ) 1 , avec n, N, n>0, 0, , 0,1
n x
x x
n
P X x C p p x x n p
= = e e e
On a E(X)= np et V(X) = np(1-p)
n est le nombre dessais, et p la probabilit de succs. La loi binomiale est la loi du
nombre de succs pour n essais, sachant que la probabilit de succs vaut p.
- Binomiale ngative (n, p) de type I : la densit de cette loi est donne par :
( ) | |
1
1
( ) 1 , avec n, N, n>0, k n, 0,1
x
x n
n x
P X x C p p x p
+
= = e s e
On a E(X) = n(1-p)/p et V(X) = n(1-p)/p
n est le nombre de succs et p la probabilit de succs. La loi binomiale ngative
de type I est la loi du nombre de tirages x sans succs ncessaires avant davoir
obtenus n succs.
- Binomiale ngative (k, p) de type II : la densit de cette loi est donne par :
( )
( )( )
( ) , avec N, , >0
! 1
x
k x
k x p
P X x x k p
x k p
+
I +
= = e
I +
On a E(X) = kp et V(X) = kp(p+1)
La loi binomiale ngative de type II permet de reprsenter des phnomnes
discrets fortement htrognes. Lorsque k tend vers linfini, la loi binomiale ngative
de type II tend vers une loi de Poisson de paramtre ( =kp).
- Khi (df) : la densit de cette loi est donne par :
78
( )
( )
/ 2
/ 2 1 / 2 *
1/ 2
( ) , avec 0, N
/ 2
df
df x
f x x e x df
df
= > e
I
On a E(X) = df et V(X) = 2df
La loi du Khi correspond la loi de la somme des carrs de df lois normales
centres rduites (lois normales standard). Elle est trs utilise pour tester des
hypothses.
- Erlang (k, ) : la densit de cette loi est donne par :
( )
1
( ) , avec 0 et , 0 et k N
1 !
x
k k
e
f x x x k
k
= > > e
On a E(X) = k/ et V(X) = k/
k est le paramtre de forme de la loi et est le paramtre de taux.
Cette distribution, dveloppe par le scientifique danois A. K. Erlang (1878-1929)
pour ltude du trafic tlphonique, est utilise de manire plus gnrale pour
ltude des files dattente.
Remarque : lorsque k=1, cette distribution est quivalente la distribution
exponentielle, et la loi Gamma deux paramtres est une gnralisation de la loi
dErlang au cas o k est un rel et non un entier (par ailleurs on utilise le paramtre
dchelle | = 1/).
- Exponentielle () : la densit de cette loi est donne par :
( ) ( ) exp , avec 0 et 0 f x x x = > >
On a E(X) = 1/ et V(X) = 1/
La loi exponentielle est souvent utilise pour tudier la dure de vie en contrle
qualit.
- Fisher (df
1
, df
2
) : la densit de cette loi est donne par :
( )
1 2
/ 2 / 2
1 1
1 2 1 2 1 2
*
1 2
1
( ) 1 ,
/ 2, / 2
avec 0 et , N
df df
df x df x
f x
xB df df df x df df x df
x df df
| | | |
=
| |
+ +
\ . \ .
> e
On a E(X) = df
2
/(df
2
-2) si df
2
>0, et V(X) = 2df
2
(df
1
+df
2
-2)/[df
1
(df
2
-2) (df
2
-4)]
La loi de Fisher, du nom du biologiste, gnticien et statisticien Ronald Aylmer
Fisher (1890-1962), correspond au rapport de deux lois du Khi. Elle est trs utilise
pour tester des hypothses.
79
- Fisher-Tippett (|, ) : la densit de cette loi est donne par :
1
( ) exp exp , avec 0
x x
f x |
| | |
| | | |
= >
|
|
\ . \ .
On a E(X) = +| et V(X) = (t|)/6 o est la constante de Euler-Mascheroni.
La loi de Fisher-Tippett, aussi appele loi Log-Weibull, ou loi gnralise des
valeurs extrmes, est utilise dans ltude de phnomnes extrmes. La loi de
Gumbel est un cas particulier de la loi de Fisher-Tippett avec |=1 et =0.
- Gamma (k, |, ) : la densit de cette loi est donne par :
( )
( )
( )
/
1
( ) , avec et , 0
x
k
k
e
f x x x k
k
|
|
|
= > >
I
On a E(X) = +k| et V(X) = k|
k est le paramtre de forme de la loi et | est le paramtre dchelle.
- GEV : la densit de cette loi est donne par :
1/ 1 1/
1
( ) 1 exp 1 , avec 0
k k
x x
f x k k |
| | |
| |
| | | |
| = >
| |
|
\ . \ .
\ .
( ) ( ) ( ) ( )
2
2
On a E(X) = 1 et V(X) = 1 2 1 k k k
k k
| | | |
+ I + I + I +
|
\ .
La loi GEV (Generalized Extreme Values) est trs utilise en hydrologie pour
modliser les phnomnes de crues. k est classiquement compris entre -0.6 et 0.6.
- Gumbel : la densit de cette loi est donne par :
( ) ( )
( ) exp exp f x x x =
On a E(X) = et V(X) = t/6 o est la constante de Euler-Mascheroni
(0.5772156649).
La loi de Gumbel, du nom de Emil Julius Gumbel (1891-1966), est un cas particulier
de la loi de Fisher-Tippett avec |=1 et =0. Elle est utilise dans ltude de
phnomnes extrmes comme les prcipitations ou les crues maximales et les
magnitudes maximales de tremblement de terre.
- Lognormale (,o) : la densit de cette loi est donne par :
80
( ) ( )
2
2
ln
2
1
( ) , avec , 0
2
x
f x e x
x
o
o
o t
= >
On a E(X) = exp( + o/2) et V(X) = [exp(o/2)-1]exp(2 + o)
- Normale (,o) : la densit de cette loi est donne par :
( )
2
2
2
1
( ) , avec 0
2
x
f x e
o
o
o t
= >
On a E(X) = et V(X) = o
- Normale standard : la densit de cette loi est donne par :
2
2
1
( )
2
x
f x e
t
=
On a E(X) = 0 et V(X) = 1
Cette loi est un cas particulier de la loi normale, avec =0 et o=1. Elle est aussi
appele normale centre rduite.
- Pareto (a, b) : la densit de cette loi est donne par :
1
( ) , avec , 0 et
a
a
ab
f x a b x b
x
+
= > >
On a E(X) = ab/(a-1) et V(X) = ab/[(a-1)(a-2)]
La loi de Pareto, du nom de lconomiste italien Vilfredo Pareto (1848-1923), est
aussi connue sous le nom de loi de Bradford. Cette loi a dabord t utilise pour
reprsenter la rpartition des richesses dans la socit, avec notamment le principe
de Pareto, selon lequel 80% des richesses dun pays sont dtenus par 20% de la
population.
- Poisson () : la densit de cette loi est donne par :
( ) exp
( ) , avec N et 0
!
x
P X x x
x
= = e >
On a E(X) = et V(X) =
La loi de Poisson, dcouverte par le mathmaticien et astronome Simon-Denis
Poisson (1781-1840) qui fut lve de Laplace, Lagrange et Legendre, est souvent
utilise pour tudier des phnomnes de file dattente.
- Student (df) : la densit de cette loi est donne par :
81
( ) ( )
( )
( )
( 1) / 2
2
1/ 2
( ) 1 / , avec 0
/ 2
df
df
f x x df df
df df t
+
I +
= + >
I
On a E(X) = 0 si df>1 et V(X) = df/(df -2) si df>2
La loi de Student, du nom que se donnait le chimiste et statisticien anglais William
Sealy Gosset (1876-1937) afin de prserver son anonymat (la brasserie Guinness
interdisait ses employs de publier, suite la publication par un autre chercheur
dinformations confidentielles) est la loi de la moyenne de df variables distribues
suivant une loi normale centre rduite. Lorsque df=1, la loi de Student est une loi
de Cauchy dont la particularit est de navoir ni esprance ni variance.
- Uniforme (a, b) : la densit de cette loi est donne par :
| |
1
( ) , avec et , f x b a x a b
b a
= > e
On a E(X) = (a+b)/2 et V(X) = (b-a)/12
La loi uniforme (0, 1) est trs utilise pour les simulations. Comme la fonction de
rpartition de toutes les lois est comprise entre 0 et 1, un chantillon tir dans une
loi Uniforme (0,1) permet dobtenir un chantillon dans toutes les lois dont on sait
calculer linverse.
- Weibull (|) : la densit de cette loi est donne par :
( )
1
( ) exp , avec 0 et 0 f x x x x
| |
| |
= > >
2
1 2 1
On a E(X) = 1 et V(X) = 1 1
| | |
| | | | | |
I + I + I +
| | |
\ . \ . \ .
Le paramtre | est le paramtre de forme de la loi de Weibull.
- Weibull (|, ) : la densit de cette loi est donne par :
1
( ) , avec 0, et , 0
x
x
f x e x
|
|
|
|
| |
|
\ .
| |
= > >
|
\ .
2 2
1 2 1
On a E(X) = 1 et V(X) = 1 1
| | |
( | | | | | |
I + I + I +
( | | |
\ . \ . \ .
Le paramtre | est le paramtre de forme et le paramtre est le paramtre
dchelle. Lorsque |=1, la loi de Weibull est une loi exponentielle de paramtre 1/.
- Weibull (|, , ) : la densit de cette loi est donne par :
82
1
( ) , avec , et , 0
x
x
f x e x
|
|
|
|
| |
|
\ .
| |
= > >
|
\ .
2 2
1 2 1
On a E(X) = 1 et V(X) = 1 1
| | |
( | | | | | |
+ I + I + I +
( | | |
\ . \ . \ .
La loi de Weibull, du nom du sudois Ernst Hjalmar Waloddi Weibull (1887-1979),
est trs utilise en contrle qualit et en analyse de survie. Le paramtre | est le
paramtre de forme et le paramtre est le paramtre dchelle. Lorsque |=1 et
=0, la loi de Weibull est une loi exponentielle de paramtre 1/.
Bote de dialogue
La bote de dialogue est compose de plusieurs onglets correspondant aux diffrentes options
disponibles tant pour la gestion des calculs que pour laffichage des rsultats. Vous trouverez
ci-dessous le descriptif des diffrents lments de la bote de dialogue.
: cliquez sur ce bouton pour lancer les calculs.
: cliquez sur ce bouton pour fermer la bote de dialogue sans effectuer les
calculs.
: cliquez sur ce bouton pour afficher laide.
: cliquez sur ce bouton pour rtablir les options par dfaut.
: cliquez sur ce bouton pour effacer les slections de donnes.
: cliquez sur ce bouton pour changer la faon dont XLSTAT doit charger les
donnes. Si la flche est vers le bas, XLSTAT considre que les observations sont en lignes et
les variables en colonnes. Si la flche est vers la droite, XLSTAT considre que les variables
sont en lignes et les observations en colonnes.
Onglet Gnral :
83
Donnes : slectionnez des donnes quantitatives. Si plusieurs chantillons sont
slectionns, XLSTAT fera les calculs pour chacun des chantillons indpendamment, tout en
vous permettant de superposer les histogrammes si vous le souhaitez (voir longlet
Graphiques). Si des en-ttes ont t slectionns, veuillez vrifier que loption Libells des
chantillons est active.
Type de donnes :
Continues : choisissez cette option pour que XLSTAT considre que vos donnes sont
continues.
Discrtes : choisissez cette option pour que XLSTAT considre que vos donnes sont
discrtes.
Sous-chantillons : activez cette option puis slectionnez une colonne (mode colonnes) ou
une ligne (mode lignes) contenant les descripteurs dchantillons. Lutilisation de cette option
permet dobtenir un histogramme par sous-chantillon et donc de comparer la distribution des
donnes entre les sous-chantillons. Si un en-tte a t slectionn, veuillez vrifier que
loption Libells des chantillons est active.
- Libells Variable-Modalit : activez cette option pour utiliser des libells longs pour
l'affichage des rsultats. Les libells Variable-Modalit sont composs du nom de la
variable comme prfixe, et de la modalit du sous-chantillon comme suffixe.
Plage : si vous activez cette option, les rsultats seront affichs partir d'une cellule situe
dans une feuille existante. Vous devez alors slectionner la cellule.
Feuille : activez cette option pour afficher les rsultats dans une nouvelle feuille du classeur
actif.
Classeur : activez cette option pour afficher les rsultats dans un nouveau classeur.
Libells des chantillons : activez cette option si la premire ligne des donnes
slectionnes (donnes, sous chantillons, poids) contient un libell.
Poids: activez cette option si vous voulez pondrer les observations. Si vous nactivez pas
cette option, les poids seront tous considrs comme valant 1. Les poids doivent tre
imprativement suprieurs ou gaux 0. Si un en-tte de colonne a t slectionn, veuillez
vrifier que loption Libells des chantillons est active.
Onglet Options :
84
Intervalles : choisissez lune des options suivantes pour dfinir les intervalles de
lhistogramme :
- Nombre : choisissez cette option pour entrer le nombre dintervalles crer.
- Amplitude : choisissez cette option pour dfinir une amplitude fixe pour les intervalles.
- Dfinis par lutilisateur : slectionnez une colonne contenant en ordre croissant la
borne infrieure du premier intervalle, et la borne suprieure de tous les intervalles.
- Minimum : activez cette option pour entrer la valeur de la borne infrieure du premier
intervalle. Cette valeur doit tre infrieure ou gale au minimum de la srie.
Comparer les sous-chantillons : cette option nest active que si une colonne de sous-
chantillons a t slectionne. Activez cette option pour afficher les diffrents sous-
chantillons sur un mme histogramme
- Comparer lchantillon total : activez cette option pour que les statistiques
descriptives et les graphiques soient aussi affichs pour lchantillon total.
Onglet Donnes manquantes :
Supprimer les observations :
- Pour lchantillon correspondant : activez cette option pour ne pas prendre en
compte une observation dont lune des donnes est manquante, uniquement pour les
chantillons pour lesquels une donne est manquante.
- Pour tous les chantillons : activez cette option pour ne pas prendre en compte une
observation dont lune des donnes est manquante, pour tous les chantillons
slectionns.
Estimer les donnes manquantes : activez cette option pour estimer les donnes
manquantes en utilisant la moyenne de lchantillon.
Onglet Sorties :
Statistiques descriptives : activez cette option pour afficher les statistiques descriptives des
chantillons.
Onglet Graphiques :
Histogrammes : activez cette option pour afficher les histogrammes des chantillons. Pour la
distribution thorique, la fonction de densit est affiche.
85
- Barres : choisissez cette option pour afficher des histogrammes avec une barre pour
chaque intervalle.
- Lignes continues : choisissez cette option pour afficher des histogrammes avec une
ligne continue.
Histogrammes cumuls : activez cette option pour afficher les histogrammes cumuls des
chantillons.
- Bass sur lhistogramme : choisissez cette option pour afficher des histogrammes
cumuls bass sur la mme dfinition dintervalles que les histogrammes.
- Fonction de rpartition empirique : choisissez cette option pour afficher des
histogrammes cumuls qui correspondent en ralit la fonction de rpartition
empirique de lchantillon.
Ordonnes des histogrammes : choisissez quelle grandeur doit tre utilise pour les
histogrammes : densit, effectif ou frquence.
Afficher une distribution : activez cette option pour comparer les histogrammes des
chantillons slectionns une fonction de densit et/ou pour comparer les histogrammes des
chantillons slectionns une fonction de rpartition. Choisissez alors la loi utiliser, puis, si
ncessaire, entrez la valeur de ses paramtres.
Rsultats
Statistiques simples : dans ce tableau sont affiches pour tous les chantillons les
statistiques descriptives suivantes : le nombre dobservations, le nombre de donnes
manquantes, le nombre de donnes non manquantes, la moyenne, et lcart-type (non biais).
Histogrammes : les histogrammes sont affichs. Si vous le souhaitez, vous pouvez modifier
la couleur des lignes, les chelles, et les titres comme avec nimporte quel graphique Excel.
Statistiques descriptives pour les intervalles : dans ce tableau sont affichs pour chaque
intervalle sa borne infrieure, sa borne suprieure, le nombre de valeurs de lchantillon tant
comprises dans lintervalle (effectif), la frquence (leffectif divis par leffectif total de
lchantillon), et la densit (le rapport de la frquence sur la taille de lintervalle).
86
Exemple
Un exemple de gnration dhistogramme est disponible sur le site Internet d'Addinsoft
l'adresse
http://www.xlstat.com/demo-histof.htm
Bibliographie
Chambers J.M., Cleveland W.S., Kleiner B. and Tukey P.A. (1983). Graphical Methods for
Data Analysis. Duxbury, Boston.
Jacoby W. G. (1997). Statistical Graphics for Univariate and Bivariate Data. Sage
Publications, London.
Wilkinson L. (1999). The Grammar of Graphics, Springer Verlag, New York.
87
Tests de normalit
Utilisez cet outil pour vrifier si un chantillon peut tre considr comme tant distribu
suivant une loi normale. L'outil ajustement d'une loi de probabilit permet d'estimer les
paramtres de la loi normale mais les tests qui sont proposs ne sont pas aussi bien adapts
que ceux proposs ici.
Description
Supposer la normalit dun chantillon ou dune statistique est commun en statistique.
Pourtant, la vrification de lhypothse de normalit est souvent nglige. Par exemple, la
normalit des rsidus obtenus lors dune rgression linaire est rarement teste, alors quelle
conditionne la qualit des intervalles de confiance autour des paramtres et des prdictions.
XLSTAT propose quatre tests pour tester la normalit dun chantillon :
- le test de Shapiro-Wilk bien adapt aux chantillons de moins de 5000 observations ;
- le test d'Anderson-Darling propos par Stephens (1974) est une modification du test de
Kolmogorov-Smirnov adapte plusieurs lois dont la loi normale, pour le cas o les
paramtres de la loi ne sont pas connus et doivent donc tre estims ;
- le test de Lilliefors est une modifiication du test de Kolmogorov-Smirnov adapt au cas de
la normalit dans le cas o les paramtres de la loi, la moyenne et la variance, ne sont
pas connus et doivent donc tre estims ;
- le test de Jarque-Bera qui est d'autant plus performant que le nombre de donnes est
important.
Afin de vrifier visuellement si un chantillon suit une loi normale, il est possible dutiliser les
graphiques P-P et les graphiques Q-Q :
- Graphiques P-P (loi normale) : les graphiques Probabilit-Probabilit (P-P plots en
anglais) permettent de comparer la fonction de rpartition empirique dun chantillon
celle dun chantillon distribu suivant une loi normale de mme moyenne et mme
variance. Si lchantillon suit une loi normale, les points doivent tre confondus avec la
premire bissectrice du plan.
- Graphiques Q-Q (loi normale) : les graphiques Quantile-Quantile (Q-Q plots en anglais)
permettent de comparer les quantiles de lchantillon ceux dun chantillon distribu
suivant une loi normale de mme moyenne et mme variance. Si lchantillon suit une loi
normale, les points doivent tre confondus avec la premire bissectrice du plan.
88
Bote de dialogue
La bote de dialogue est compose de plusieurs onglets correspondant aux diffrentes options
disponibles tant pour la gestion des calculs que pour laffichage des rsultats. Vous trouverez
ci-dessous le descriptif des diffrents lments de la bote de dialogue.
: cliquez sur ce bouton pour lancer les calculs.
: cliquez sur ce bouton pour fermer la bote de dialogue sans effectuer les
calculs.
: cliquez sur ce bouton pour afficher laide.
: cliquez sur ce bouton pour rtablir les options par dfaut.
: cliquez sur ce bouton pour effacer les slections de donnes.
: cliquez sur ce bouton pour changer la faon dont XLSTAT doit charger les
donnes. Si la flche est vers le bas, XLSTAT considre que les observations sont en lignes et
les variables en colonnes. Si la flche est vers la droite, XLSTAT considre que les variables
sont en lignes et les observations en colonnes.
Onglet Gnral :
Donnes : slectionnez des donnes quantitatives. Si plusieurs chantillons sont
slectionns, XLSTAT testera la normalit pour chacun des chantillons indpendamment. Si
des en-ttes ont t slectionns, veuillez vrifier que loption Libells des chantillons est
active.
Poids: activez cette option si vous voulez pondrer les observations. Si vous nactivez pas
cette option, les poids seront tous considrs comme valant 1. Les poids doivent tre
imprativement suprieurs ou gaux 0. Si un en-tte de colonne a t slectionn, veuillez
vrifier que loption Libells des chantillons est active.
Test de Shapiro-Wilk : activez cette option pour effectuer un test de Shapiro-Wilk.
89
Test dAnderson-Darling : activez cette option pour effectuer un test dAnderson-Darling.
Test de Lilliefors : activez cette option pour effectuer un test de Lilliefors.
Test de Jarque-Bera : activez cette option pour effectuer un test de Jarque-Bera.
Plage : si vous activez cette option, les rsultats seront affichs partir d'une cellule situe
dans une feuille existante. Vous devez alors slectionner la cellule.
Feuille : activez cette option pour afficher les rsultats dans une nouvelle feuille du classeur
actif.
Classeur : activez cette option pour afficher les rsultats dans un nouveau classeur.
Libells des chantillons : activez cette option si la premire ligne des donnes
slectionnes (donnes, sous chantillons, poids) contient un libell.
Niveau de signification (%) : entrez le niveau de signification pour les tests.
Sous-chantillons : activez cette option puis slectionnez une colonne (mode colonnes) ou
une ligne (mode lignes) contenant les descripteurs dchantillons. Lutilisation de cette option
permet de calculer les tests de normalit pour chacun des sous-chantillons. Si un en-tte a
t slectionn, veuillez vrifier que loption Libells des chantillons est active.
Onglet Donnes manquantes :
Supprimer les observations :
- Pour lchantillon correspondant : activez cette option pour ne pas prendre en
compte une observation dont lune des donnes est manquante, uniquement pour les
chantillons pour lesquels une donne est manquante.
- Pour tous les chantillons : activez cette option pour ne pas prendre en compte une
observation dont lune des donnes est manquante, pour tous les chantillons
slectionns.
Estimer les donnes manquantes : activez cette option pour estimer les donnes
manquantes en utilisant la moyenne de lchantillon.
Onglet Sorties :
Statistiques descriptives : activez cette option pour afficher les statistiques descriptives des
chantillons.
90
Onglet Graphiques :
Graphiques P-P : activez cette option pour afficher les graphiques probabilit-probabilit
bass sur la loi normale.
Graphiques Q-Q : activez cette option pour afficher les graphiques quantile- quantile bass
sur la loi normale.
Rsultats
Pour chaque test demand sont affiches les statistiques relatives au test, dont notamment la
p-value qui est ensuite utilise pour linterprtation du test par comparaison avec le seuil de
signification choisi.
Sils ont t demands, les P-P et Q-Q plots sont ensuite affichs.
Exemple
Un exemple de test de normalit est disponible sur le site Internet d'Addinsoft l'adresse
http://www.xlstat.com/demo-normf.htm
Bibliographie
Anderson T.W. and Darling D.A. (1952). Asymptotic theory of certain "Goodness of Fit"
criteria based on stochastic processes. Annals of Mathematical Statistic, 23, 193-212.
Anderson T.W. and Darling D.A. (1954). A test of goodness of fit. Journal of the American
Statistical Association, 49, 765-769.
D'Agostino R.B. and Stephens M.A. (1986). Goodness-of-fit techniques. Marcel Dekker,
New York.
Dallal G.E. and Wilkinson L. (1986). An analytic approximation to the distribution of
Lilliefors's test statistic for normality. Statistical Computing, 40, 294-296.
91
Jarque C.M. and Bera A.K. (1980). Efficient tests for normality, heteroscedasticity and serial
independence of regression residuals. Economic Letters, 6, 255-259.
Lilliefors H. (1967). On the Kolmogorov-Smirnov test for normality with mean and variance
unknown. Journal of the American Statistical Association, 62, 399-402.
Royston P. (1982). An extension of Shapiro and Wilk's W test for normality to large samples.
Applied Statistics, 31, 115-124.
Royston P. (1982). Algorithm AS 181: the W test for normality. Applied Statistics, 31, 176-180.
Royston P. (1995). A remark on Algorithm AS 181: the W test for normality. Applied Statistics,
44, 547-551.
Stephens M. A. (1974). EDF statistics for goodness of fit and some comparisons. Journal of
the American Statistical Association, 69, 730-737.
Stephens M. A. (1976). Asymptotic results for goodness-of-fit statistics with unknown
parameters. Annals of Statistics, 4, 357-369.
Shapiro S. S. and Wilk M. B. (1965). An analysis of variance test for normality (complete
samples). Biometrika, 52, 3 and 4, 591-611.
Thode H.C. (2002). Testing for normality. Marcel Dekker, New York, USA.
92
Matrices de similarit/dissimilarit (Corrlations, ...)
Utilisez cet outil pour calculer un indice de proximit entre les lignes ou les colonnes dun
tableau de donnes. Le cas le plus classique dutilisation de cet outil est le calcul dune
matrice de corrlation ou de covariance entre des variables quantitatives.
Description
Cet outil propose un nombre important de mesures de proximit entre une srie dobjets, quil
sagisse de lignes (en principe des observations) ou de colonnes (en principe des variables).
Le coefficient de corrlation est une mesure de similarit des variables : plus des variables
sont similaires, plus le coefficient de corrlation est lev.
Similarits et dissimilarits
La mesure de la proximit entre deux objets peut se faire en mesurant quel point ils sont
semblables (similarit) ou dissemblables (dissimilarit).
Les indices proposs dpendent de la nature de donnes :
- Donnes quantitatives :
Les indices de similarit proposs pour des calculs partir de donnes quantitatives sont les
suivants : Cosinus, Covariance (n-1), Covariance (n), Indice de Gower, Inertie, Coefficient de
corrlation de Kendall, Coefficient de corrlation de Pearson, Coefficient de corrlation de
Spearman.
Les indices de dissimilarit proposs pour des calculs partir de donnes quantitatives sont
les suivants : Distance de Bhattacharya, Distance de Bray et Curtis, Distance de Canberra,
Distance de Chebychev, Distance du Khi, Mtrique du Khi, Distance de la corde, Distance de
la corde au carr, Distance euclidienne, Distance godsique, Dissimilarit de Kendall,
Distance de Mahalanobis, Distance de Manhattan, Dissimilarit de Pearson, Dissimilarit de
Spearman.
- Donnes binaires :
Les indices de similarit et de dissimilarit (par simple transformation) proposs pour des
calculs partir de donnes binaires sont les suivants : Indice de Dice (aussi appel indice de
Sorensen), Indice de Jaccard, Indice de Kulczinski, Phi de Pearson, Indice dOchiai, Indice de
Rogers & Tanimoto, Indice de Sokal & Michener (simple matching coefficient), Indice de Sokal
& Sneath(1), Indice de Sokal & Sneath(2).
93
- Donnes qualitatives :
Les indices de similarit proposs pour des calculs partir de donnes qualitatives sont les
suivants : Cooccurrence, Similarit gnrale.
Lindice de dissimilarit propos pour des calculs partir de donnes qualitatives est le
suivant : Dissimilarit gnrale.
Bote de dialogue
La bote de dialogue est compose de plusieurs onglets correspondant aux diffrentes options
disponibles tant pour la gestion des calculs que pour laffichage des rsultats. Vous trouverez
ci-dessous le descriptif des diffrents lments de la bote de dialogue.
: cliquez sur ce bouton pour lancer les calculs.
: cliquez sur ce bouton pour fermer la bote de dialogue sans effectuer les
calculs.
: cliquez sur ce bouton pour afficher laide.
: cliquez sur ce bouton pour rtablir les options par dfaut.
: cliquez sur ce bouton pour effacer les slections de donnes.
Onglet Gnral :
Donnes : slectionnez un tableau comprenant N objets dcrits par P descripteurs. Si des en-
ttes de colonnes ont t slectionns, veuillez vrifier que loption Libells des colonnes
est active.
Type de donnes : choisissez le type des donnes slectionnes.
Remarque (1) : dans le cas o le type de donnes choisi est Binaires , si les donnes
dentre ne sont pas de type binaire, elles seront automatiquement binarises (les valeurs
gales 0 restent gales 0 et les valeurs diffrentes de 0 sont remplaces par 1).
Remarque (2) : dans le cas o le type de donnes choisi est Qualitatives , quelque soit leur
type rel, les donnes sont considres comme qualitatives.
94
Poids des lignes : activez cette option si vous voulez pondrer les lignes. Si vous nactivez
pas cette option, les poids seront tous considrs comme valant 1. Les poids doivent tre
imprativement suprieurs ou gaux 0. Si un en-tte de colonne a t slectionn, veuillez
vrifier que loption Libells des colonnes est active.
Type de proximit : similarits / dissimilarits : choisissez le type de proximit utiliser. Le
type de donnes et le type de proximit dterminent la liste des indices possibles pour le
calcul de la matrice de proximit.
Remarque : pour calculer un coefficient de corrlation classique (aussi appel coefficient de
corrlation de Pearson), vous devez slectionner le type de donnes quantitatives ,
similarits , et le Coefficient de corrlation de Pearson .
Plage : si vous activez cette option, les rsultats seront affichs partir d'une cellule situe
dans une feuille existante. Vous devez alors slectionner la cellule.
Feuille : activez cette option pour afficher les rsultats dans une nouvelle feuille du classeur
actif.
Classeur : activez cette option pour afficher les rsultats dans un nouveau classeur.
Libells des colonnes : activez cette option si la premire ligne des donnes slectionnes
(Tableau observations/variables, libells des lignes, poids des lignes, poids des colonnes)
contient un libell.
Libells des lignes : activez cette option si vous voulez utiliser des libells dobservations
pour laffichage des rsultats. Si l'option Libells des colonnes est active, la premire
cellule de la slection doit comprendre un en-tte. Si vous nactivez pas cette option, des
libells seront automatiquement crs (Obs1, Obs2, ).
Calculer les proximits pour les :
Colonnes : activez cette option si vous voulez mesurer la proximit entre les colonnes.
Lignes : activez cette option si vous voulez mesurer la proximit entre les lignes.
Onglet Donnes manquantes :
95
Ne pas accepter les valeurs manquantes : activez cette option pour que XLSTAT empche
la poursuite des calculs si des valeurs manquantes sont dtectes.
Supprimer les observations : activez cette option pour supprimer les observations
comportant des donnes manquantes.
Estimer les donnes manquantes : activez cette option pour estimer les donnes
manquantes avant le dbut des calculs.
- Moyenne ou mode : activez cette option pour estimer les donnes manquantes en
utilisant la moyenne (variables quantitatives) ou le mode (variables qualitatives) pour
les variables correspondantes.
- Plus proche voisin : activez cette option pour estimer les donnes manquantes d'une
observation en recherchant le plus proche voisin de l'observation.
Onglet Sorties :
Statistiques descriptives : activez cette option pour afficher les statistiques descriptives pour
les variables slectionnes.
Matrice de proximit : activez cette option pour afficher la matrice de proximit.
Identifier les objets similaires : activez cette option pour identifier dans la matrice de
proximit les objets similaires.
Lister les objets similaires : activez cette option pour afficher la liste des objets similaires.
Seuil de dissimilarit : entrez la valeur seuil de lindice partir de laquelle vous considrez
que les objets sont similaires. Si lindice choisi est une similarit, les donnes seront
considres comme tant similaires si elles sont suprieures cette valeur. Si vous avez
choisi un indice de dissimilarit, les donnes seront considres comme tant similaires si
elles sont infrieures cette valeur.
Alpha de Cronbach : activez cette option pour calculer le alpha de Cronbach.
Test de sphricit de Bartlett : activez cette option pour calculer le test de sphricit de
Bartlett (uniquement dans le cas de la corrlation de Pearson ou de la covariance).
Niveau de signification (%) : entrez le niveau de signification pour le test de sphricit.
96
Rsultats
Statistiques simples : dans ce tableau sont affiches les statistiques descriptives des
chantillons.
Matrice de proximit : dans ce tableau sont affiches les proximits entre lobjet pour lindice
choisi. Si loption Identifier les objets similaires a t active et que le seuil de dissimilarit
est dpass, les valeurs correspondant des objets similaires sont affiches en gras.
Liste des objets similaires : si loption lister les objets similaires est active et quau
moins une paire dobjets a une dissimilarit au-del de ce seuil, la liste des objets similaires
est affiche.
Bibliographie
Everitt B.S., Landau S. and Leese M. (2001). Cluster Analysis (4th edition). Arnold, London.
Gower J.C. and P. Legendre (1986). Metric and Euclidean properties of dissimilarity
coefficients. Journal of Classification, 3, 5-48.
Jobson J.D. (1992). Applied Multivariate Data Analysis. Volume II: Categorical and
Multivariate Methods. Springer-Verlag, New York.
Legendre P. and Legendre L. (1998). Numerical Ecology. Second English Edition. Elsevier,
Amsterdam.
Sokal R.R. and Rohlf F.J. (1995). Biometry. The Principles and Practice of Statistics in
Biological Research. Third edition. Freeman, New York.
97
Statistiques de multicolinarit
Utilisez cet outil pour identifier des multicolinarits entre vos variables.
Description
On dit que des variables sont multicolinaires sil existe une relation linaire entre elles. Cest
une extension du cas simple de la colinarit entre deux variables. Par exemple, pour trois
variables X1, X2, X3, on dira quelles sont multicolinaires si on peut crire
X1 = aX2 + bX3
o a et b sont deux nombres rels.
Si lAnalyse en Composantes Principales (ACP) permet de dtecter la prsence de
multicolinarits au sein des donnes (un nombre de facteurs non nuls infrieur au nombre de
variables indique la prsence dune multicolinarit), elle ne permet pas didentifier les
variables qui en sont responsables.
Pour dtecter les multicolinarits et identifier les variables impliques dans des
multicolinarits, on effectue des rgressions linaires de chacune des variables en fonction
des autres. On calcule ensuite :
- le R de chacun des modles. Si le R vaut 1, alors il existe une relation linaire entre la
variable dpendante du modle (le Y) et les variables explicatives (les X).
- la tolrance pour chacun des modles. La tolrance vaut (1-R). Elle est utilise dans
plusieurs mthodes (rgression linaire, rgression logistique, analyse factorielle
discriminante) comme un critre de filtrage des variables. Si une variable a une tolrance
infrieure un seuil fix (la tolrance est calcule en prenant en compte les variables dj
utilises dans le modle), on ne la laisse pas entrer dans le modle car sa contribution est
ngligeable et elle risquerait dentraner les problmes numriques.
- le VIF (Variance Inflation Factor) qui est gal linverse de la tolrance.
Il peut tre utile de dtecter des multicolinarits au sein dun groupe de variables notamment
dans les cas suivants :
- pour identifier des structures dans les donnes et en tirer des dcisions oprationnelles
(par exemple, arrter de mesurer une variable sur une chane de fabrication car elle est
fortement lie dautres qui sont aussi mesures) ;
- pour viter des problmes numriques lors de certains calculs. Certaines mthodes
utilisent des inversions de matrices. Linverse dune matrice (p x p) ne peut tre calcul
98
que si elle est de rang p (ou rgulire). Si elle est de rang infrieur, autrement dit sil existe
des relations linaires entre ses colonnes, alors elle est singulire et non inversible.
Bote de dialogue
La bote de dialogue est compose de plusieurs onglets correspondant aux diffrentes options
disponibles tant pour la gestion des calculs que pour laffichage des rsultats. Vous trouverez
ci-dessous le descriptif des diffrents lments de la bote de dialogue.
: cliquez sur ce bouton pour lancer les calculs.
: cliquez sur ce bouton pour fermer la bote de dialogue sans effectuer les
calculs.
: cliquez sur ce bouton pour afficher laide.
: cliquez sur ce bouton pour rtablir les options par dfaut.
: cliquez sur ce bouton pour effacer les slections de donnes.
: cliquez sur ce bouton pour changer la faon dont XLSTAT doit charger les
donnes. Si la flche est vers le bas, XLSTAT considre que les observations sont en lignes et
les variables en colonnes. Si la flche est vers la droite, XLSTAT considre que les variables
sont en lignes et les observations en colonnes.
Onglet Gnral :
Tableau observations/variables : slectionnez un tableau comprenant N objets dcrits par P
variables. Si des en-ttes de colonnes ont t slectionns, veuillez vrifier que loption
Libells des variables est active.
Libells des variables : activez cette option si la premire ligne des donnes slectionnes
contient un libell.
Poids : activez cette option si vous voulez pondrer les observations. Si vous nactivez pas
cette option, les poids seront tous considrs comme valant 1. Les poids doivent tre
imprativement suprieurs ou gaux 0. Si un en-tte de colonne a t slectionn, veuillez
vrifier que loption Libells des variables est active.
99
Plage : si vous activez cette option, les rsultats seront affichs partir d'une cellule situe
dans une feuille existante. Vous devez alors slectionner la cellule.
Feuille : activez cette option pour afficher les rsultats dans une nouvelle feuille du classeur
actif.
Classeur : activez cette option pour afficher les rsultats dans un nouveau classeur.
Onglet Donnes manquantes :
Ne pas accepter les valeurs manquantes : activez cette option pour que XLSTAT empche
la poursuite des calculs si des valeurs manquantes sont dtectes.
Supprimer les observations : activez cette option pour supprimer les observations
comportant des donnes manquantes.
Onglet Sorties :
Statistiques descriptives : activez cette option pour afficher les statistiques descriptives pour
les variables slectionnes.
Corrlations : activez cette option pour afficher la matrice de corrlations.
R : activez cette option pour afficher les R.
Tolrance : activez cette option pour afficher les tolrances.
VIF : activez cette option pour afficher les VIF.
Onglet Graphiques :
Diagrammes en btons : activez cette option pour afficher les diagrammes en bton des
statistiques suivantes :
- R
- Tolrance
- VIF
100
Rsultats
Les rsultats comprennent les statistiques descriptives des variables slectionnes, la matrice
de corrlation des variables et les statistiques de multicolinarit (R, Tolrance et VIF). Des
diagrammes en btons permettent de reprer les variables les plus multi-corrles dautres.
Lorsque la tolrance vaut 0, le VIF a une valeur infinie et nest pas affich.
Bibliographie
Belsley D.A., Kuh E. and Welsch R.E. (1980). Regression Diagnostics, Identifying Influential
Data and Sources of Collinearity. Wiley, New York.
101
Tableau de contingence (statistiques descriptives)
Utilisez cet outil pour calculer des statistiques descriptives sur un tableau de contingence. Un
test dindpendance du khi entre les lignes et les colonnes peut tre calcul.
Description
Un tableau de contingence est une manire efficace de rsumer la relation entre deux
variables qualitatives V1 et V2. Un tableau de contingence a la structure suivante :
V1 \ V2 Modalit 1 Modalit j Modalit m2
Modalit 1 n(1,1) n(1,j) n(1,m2)
Modalit i n(i,1) n(i,j) n(i,m2)
Modalit m1 n(m1,1) n(m1,j) n(m1,m2)
o n(i,j) est la frquence des observations prsentant la fois la caractristique i pour la
variable V1, et la caractristique j pour la variable V2.
La distance du khi a t propose pour mesurer la distance entre les modalits. La somme de
ces distances pour lensemble des cases du tableau donne la statistique du khi qui suit
asymptotiquement une loi du khi (m1-1)(m2-1) degrs de libert. Cette statistique permet de
tester lhypthse dindpendance entre les lignes et les colonnes du tableau de contingence.
La notion dinertie inspire de la physique est utilise en Analyse Factorielle des
Correspondances. Linertie dun nuage de points est la moyenne pondre des carrs des
distances au centre de gravit. Linertie totale du nuage des modalits est donne par :
2
. .
2
2 1 2 2 1
2
. .
. . 1 1 1 1
2
, avec et
ij i j
m m m m
i ij j ij
i j i j j i
n n n
n n
n n n n
n n
n
n
_
= = = =
| |
|
\ .
= = = =
et o n est la somme des frquences du tableau de contingence. On voit ici que linertie totale
est proportionnelle la statistique du khi de Pearson mesure sur le tableau de contingence.
102
Bote de dialogue
La bote de dialogue est compose de plusieurs onglets correspondant aux diffrentes options
disponibles tant pour la gestion des calculs que pour laffichage des rsultats. Vous trouverez
ci-dessous le descriptif des diffrents lments de la bote de dialogue.
: cliquez sur ce bouton pour lancer les calculs.
: cliquez sur ce bouton pour fermer la bote de dialogue sans effectuer les
calculs.
: cliquez sur ce bouton pour afficher laide.
: cliquez sur ce bouton pour rtablir les options par dfaut.
: cliquez sur ce bouton pour effacer les slections de donnes.
: cliquez sur ce bouton pour changer la faon dont XLSTAT doit charger les
donnes. Si la flche est vers le bas, XLSTAT considre que les observations sont en lignes et
les variables en colonnes. Si la flche est vers la droite, XLSTAT considre que les variables
sont en lignes et les observations en colonnes.
Onglet Gnral :
Tableau de contingence : slectionnez un tableau crois, avec les frquences correspondant
aux diffrentes catgories de deux variables qualitatives. Si les libells des lignes et des
colonnes du tableau ont t slectionns, veillez ce que loption libells inclus soit
active.
Plage : si vous activez cette option, les rsultats seront affichs partir d'une cellule situe
dans une feuille existante. Vous devez alors slectionner la cellule.
Feuille : activez cette option pour afficher les rsultats dans une nouvelle feuille du classeur
actif.
Classeur : activez cette option pour afficher les rsultats dans un nouveau classeur.
103
Libells inclus : activez cette option si la premire ligne et la premire colonne des donnes
slectionnes contient un libell.
Onglet Options :
Test du khi : activez cette option pour effectuer le test du khi.
Niveau de signification (%) : entrez le niveau de signification utiliser pour les diffrents
tests (valeur par dfaut : 5%).
Onglet Donnes manquantes :
Ne pas accepter les valeurs manquantes : activez cette option pour que XLSTAT empche
la poursuite des calculs si des valeurs manquantes sont dtectes.
Remplacer les valeurs manquantes par 0 : activez cette option si vous considrez que les
valeurs manquantes sont quivalentes des 0.
Remplacer les valeurs manquantes par lesprance : activez cette option si vous souhaitez
remplacer les valeurs manquantes par leur esprance. Lesprance dune valeur manquante
est donne par :
. .
( )
i j
ij
n n
E n
n
=
o n
i.
est la somme sur les colonnes pour la ligne i, n
.j
est la somme sur les lignes pour
colonne j, et n est leffectif total avant remplacement des valeurs manquantes.
Onglet Sorties :
Liste des combinaisons : activez cette option pour afficher la liste des diffrentes
combinaisons possibles des deux variables qualitatives, ainsi que les effectifs correspondants.
Tableau de contingence : activez cette option pour afficher le tableau de contingence.
Inertie par case : activez cette option pour afficher les inerties correspondant chacune des
cellules du tableau de contingence.
Khi par case : activez cette option pour afficher les Khi correspondant chacune des
cellules du tableau de contingence.
Significativit par case : activez cette option pour afficher un tableau indiquant, pour chaque
case, si la valeur observe est gale (=), infrieure (<) ou suprieure (>) la valeur thorique,
104
et pour effectuer un test (test exact de Fisher sur un tableau 2x2 ayant le mme effectif total
que le tableau complet, et les mmes sommes marginales pour la case en question), afin de
dterminer si lcart la valeur thorique est significatif ou non.
Effectifs observs : activez cette option pour afficher le tableau des effectifs observs. Ce
tableau est presque identique au tableau de contingence, la diffrence venant des sommes
marginales pour les lignes et les colonnes.
Effectifs thoriques : activez cette option pour afficher le tableau des effectifs thoriques
estims partir des sommes marginales.
Proportions ou pourcentages / Ligne : activez cette option pour afficher le tableau des
proportions ou pourcentages par ligne qui correspondent aux effectifs observs diviss par les
sommes marginales des lignes.
Proportions ou pourcentages / Colonne : activez cette option pour afficher le tableau des
proportions ou pourcentages par colonne qui correspondent aux effectifs observs diviss par
les sommes marginales des colonnes.
Proportions ou pourcentages / Total : activez cette option pour afficher le tableau des
proportions ou pourcentages calculs comme les effectifs observs diviss par leffectif total.
Onglet Graphiques :
Vue 3D du tableau de contingence / du tableau crois : activez cette option pour afficher le
diagramme en bton en 3 dimensions correspondant au tableau de contingence ou au tableau
crois.
105
XLSTAT-Pivot
Utilisez ce module pour transformer un tableau individus/variables en un tableau crois
dynamique optimis pour la comprhension et lanalyse dun phnomne mesur au travers
dune variable rponse.
Description
XLSTAT-Pivot sappuie sur composant IOLAP dvelopp par la socit franco-amricaine
KXEN, le spcialiste mondial des technologies issues de la thorie de l'apprentissage
statistique de Vapnik, un mathmaticien russe contemporain migr aux USA. Cest un outil
unique pour crer des tableaux croiss dynamiques intelligents.
Un tableau crois (ou tableau de contingence) est une reprsentation synthtique des
occurrences observes sur une population de taille N pour des croisements des diffrentes
catgories de deux variables.
Un tableau crois dynamique permet de prendre en compte plus de deux variables et de
hirarchiser la structure du tableau. Le dynamisme du tableau provient de fonctionnalits
informatiques qui permettent de naviguer dans la hirarchie et de ne voir ventuellement que
certaines classes de certaines variables.
XLSTAT-Pivot vous permet de construire des tableaux croiss dynamiques dont la structure
est optimise en fonction dune variable cible. Les variables numriques continues ou
discrtes explicatives (celles dont les catgories constituent les lignes et les colonnes du
tableau) sont automatiquement dcoupes en des classes qui permettent doptimiser la qualit
du tableau.
La variable cible peut tre une variable binaire (0/1 ou Oui/Non par exemple), ou une variable
quantitative.
Lorsque vous utiliserez XLSTAT-Pivot vous verrez successivement trois botes de dialogue :
- La premire bote de dialogue vous permet de slectionner les donnes et de choisir
quelques options.
- La deuxime bote de dialogue vous permet de confirmer ou modifier les types de
donnes tels quils ont t dtects par le moteur danalyse de XLSTAT-Pivot.
- La troisime bote de dialogue vous permet de slectionner les variables (4 au maximum)
que vous voulez utiliser dans le tableau crois dynamique. Afin de vous aider un indice de
106
robustesse (Kr) et de qualit de lajustement (Ki) correspondant chacune des variables
sont affichs.
NB : XLSTAT-Pivot accepte jusqu 250 variables pour la construction du tableau.
Bote de dialogue
La bote de dialogue est compose de plusieurs onglets correspondant aux diffrentes options
disponibles tant pour la gestion des calculs que pour laffichage des rsultats. Vous trouverez
ci-dessous le descriptif des diffrents lments de la bote de dialogue.
: cliquez sur ce bouton pour lancer les calculs.
: cliquez sur ce bouton pour fermer la bote de dialogue sans effectuer les
calculs.
: cliquez sur ce bouton pour afficher laide.
: cliquez sur ce bouton pour rtablir les options par dfaut.
: cliquez sur ce bouton pour effacer les slections de donnes.
: cliquez sur ce bouton pour changer la faon dont XLSTAT doit charger les
donnes. Si la flche est vers le bas, XLSTAT considre que les observations sont en lignes et
les variables en colonnes. Si la flche est vers la droite, XLSTAT considre que les variables
sont en lignes et les observations en colonnes.
Onglet Gnral :
Y / Variable rponse : Slectionnez la ou les variable(s) que vous voulez modliser. Si
plusieurs variables sont slectionnes, XLSTAT fera lanalyse pour chacune des variables
lune aprs lautre. Si un en-tte a t slectionn, veuillez vrifier que loption Libells des
variables est active.
Choisissez le format de la variable rponse que vous avez slectionne :
107
- Quantitative : si vous choisissez cette option, vous devez slectionner une variable
quantitative.
- Binaire : si vous choisissez cette option, vous devez slectionner une variable binaire,
comprenant exactement deux variables disctinctes.
X / Variables explicatives : slectionnez une ou plusieurs variables explicatives. Les
variables peuvent tre quantitatives et/ou qualitatives. Si des en-ttes ont t slectionn,
veuillez vrifier que loption Libells des variables est active.
Poids: activez cette option si vous voulez pondrer les observations. Si vous nactivez pas
cette option, les poids seront tous considrs comme valant 1. Les poids doivent tre
imprativement suprieurs ou gaux 0. Si un en-tte de colonne a t slectionn, veuillez
vrifier que loption Libells des variables est active.
Plage : si vous activez cette option, les rsultats seront affichs partir d'une cellule situe
dans une feuille existante. Vous devez alors slectionner la cellule.
Feuille : activez cette option pour afficher les rsultats dans une nouvelle feuille du classeur
actif.
Classeur : activez cette option pour afficher les rsultats dans un nouveau classeur.
Libells des variables : activez cette option si la premire ligne des donnes slectionnes
(donnes et libells des observations) contient un libell.
Libells des observations : activez cette option si vous voulez utiliser des libells
dobservations disponibles sur une feuille Excel pour laffichage des rsultats. Si l'option
Libells des variables est active, la premire cellule de la slection doit comprendre un
en-tte. Si vous nactivez pas cette option, des libells seront automatiquement crs (Obs1,
Obs2, ).
Onglet Donnes manquantes :
Ne pas accepter les valeurs manquantes : activez cette option pour que XLSTAT empche
la poursuite des calculs si des valeurs manquantes sont dtectes.
Supprimer les observations : activez cette option pour supprimer les observations
comportant des donnes manquantes.
108
Estimer les donnes manquantes : activez cette option pour estimer les donnes
manquantes avant le dbut des calculs.
- Moyenne ou mode : activez cette option pour estimer les donnes manquantes en
utilisant la moyenne (variables quantitatives) ou le mode (variables qualitatives) pour
les variables correspondantes.
- Plus proche voisin : activez cette option pour estimer les donnes manquantes d'une
observation en recherchant le plus proche voisin de l'observation.
Onglet Sorties :
Contributions : activez cette option pour afficher le tableau des contributions table et le
diagramme en btons correspondant.
Tableau crois : activez cette option pour afficher le tableau crois.
Rsultats
Ki: ce coefficient exprim en % mesure linformation apporte par les variables explicatives
pour expliquer la variable cible. Cest un concept proche du R de la rgression linaire.
Kr: ce coefficient mesure de la robustesse du modle sous-jacent. La robustesse dun modle
correspond sa capacit sadapter convenablement de nouveaux chantillons. XLSTAT-
Pivot utilise 75% des donnes pour ajuster le modle et 25% pour valider le modle. Un
modle est dit robuste si cet indicateur est au dessus de 95%.
Le premier tableau affich donne la contribution des variables (contribution brute, relative en
%, et cumule). Il permet de dtecter rapidement quelles sont les variables qui ont le plus
dimpact sur la variable cible. Un diagramme en btons correspondant aux contributions est
aussi affich.
Le rsultat principal fourni par XLSTAT-Pivot est le tableau crois dynamique. Chaque case du
tableau correspond une combinaison unique de valeurs des variables explicatives et est
dcrite par 4 valeurs qui peuvent tre affiches ou non en fonction des prfrences de
lutilisateur :
- Moyenne cible : cest le pourcentage de cas o la variable cible vaut 1 dans le cas
dune variable binaire, moyenne de la variable cible sur la sous-population
correspondant la combinaison dans le cas dune variable continue ;
109
- Taille cible : comptage des occurrences de 1 de la variable cible dans le dans le cas
dune variable binaire, somme de la variable cible sur la sous-population correspondant
la combinaison dans le cas dune variable continue ;
- Taille population % : pourcentage de la population totale qui correspondant la
combinaison ;
- Taille Population : effectif de la population correspondant la combinaison.
Exemple
Un exemple portant sur des donnes dun recensement effectu aux Etats-Unis est disponible
en permanence sur le site dAddinsoft :
http://www.xlstat.com/demo-pivotf.htm
Bibliographie
Vapnik V. (1995). The Nature of Statistical Learning Theory. Springer-Verlag, New York.
Vapnik V. (1998). Statistical Learning Theory. Wiley, New York.
Vapnik V. (1999). An overview of statistical learning theory. IEEE Transactions on Neural
Networks, 10, 988-999.
110
Nuages de points
Utilisez cet outil pour crer des graphiques en 2 dimensions ou en 3 dimensions (la 3
ime
dimension tant reprsente par la taille du point), voire en 4 dimensions (une variable
qualitative peut tre slectionne). Cet outil permet aussi la cration de matrices de
graphiques permettant dtudier en une seule fois une srie de graphiques deux dimensions.
Remarque : loutil XLSTAT-3DPlot permet de crer des graphiques beaucoup plus percutants
grce un grand nombre doptions, avec la possibilit de reprsenter les donnes sur un
troisime axe.
Bote de dialogue
: cliquez sur ce bouton pour lancer les calculs.
: cliquez sur ce bouton pour fermer la bote de dialogue sans effectuer les
calculs.
: cliquez sur ce bouton pour afficher laide.
: cliquez sur ce bouton pour rtablir les options par dfaut.
: cliquez sur ce bouton pour effacer les slections de donnes.
: cliquez sur ce bouton pour changer la faon dont XLSTAT doit charger les
donnes. Si la flche est vers le bas, XLSTAT considre que les observations sont en lignes et
les variables en colonnes. Si la flche est vers la droite, XLSTAT considre que les variables
sont en lignes et les observations en colonnes.
Onglet Gnral :
X : slectionnez dans ce champ les donnes utiliser comme coordonnes pour laxe des
abscisses.
Y : slectionnez dans ce champ les donnes utiliser comme coordonnes pour laxe des
ordonnes.
Z : activez cette option pour slectionner les donnes qui conditionneront la taille des points
sur les graphiques.
- Utiliser les bulles : activez cette option pour utiliser les graphiques avec bulles de MS
Excel.
111
Groupes : activez cette option pour slectionner les donnes qui correspondent lidentifiant
du groupe auquel appartient chaque observation. Sur le graphique, la couleur des points
dpend du groupe.
Plage : si vous activez cette option, les rsultats seront affichs partir d'une cellule situe
dans une feuille existante. Vous devez alors slectionner la cellule.
Feuille : activez cette option pour afficher les rsultats dans une nouvelle feuille du classeur
actif.
Classeur : activez cette option pour afficher les rsultats dans un nouveau classeur.
Libells des variables : activez cette option si la premire ligne des donnes slectionnes
(X, Y, Z, groups, poids et libells des observations) contient un libell.
Libells des observations : activez cette option si vous voulez utiliser des tiquettes de
lignes disponibles. Si l'option Libells des variables est active, la premire cellule de la
slection doit comprendre un en-tte. Si vous nactivez pas cette option, des libells seront
automatiquement crs (Obs1, Obs2, ).
Poids : activez cette option si vous voulez pondrer les observations. Si vous nactivez pas
cette option, les poids seront tous considrs comme valant 1. Les poids doivent tre
imprativement suprieurs ou gaux 0. Si un en-tte de colonne a t slectionn, veuillez
vrifier que loption Libells des variables est active.
Onglet Options :
Matrice de graphiques : activez cette option pour afficher lensemble des combinaisons
possibles de variables deux deux sous la forme dun tableau deux entres, avec en ligne
les variables Y et en colonne les X.
- Histogrammes : activez cette option pour que, si les variables X et Y sont identiques,
XLSTAT affiche les histogrammes des variables sur la diagonale de la matrice de
graphiques.
- Q-Q plots : activez cette option pour que, si les variables X et Y sont identiques,
XLSTAT affiche les Q-Q plots des variables sur la diagonale de la matrice de
graphiques.
Effectifs : activez cette option pour afficher les effectifs correspond chaque point sur les
graphiques.
- Seulement si >1 : activez cette option pour nafficher les effectifs que si ils sont
strictement suprieurs zro.
112
Ellipses de confiance : activez cette option pour afficher des ellipses de confiance. Les
ellipses de confiance correspondent un intervalle de confiance 95% pour une loi normale
bivarie de mmes moyennes et de mme matrice de covariance que les variables
reprsentes en abscisse et en ordonne.
Lgende : activez cette option pour afficher la lgende du graphique.
Exemple
Un exemple d'utilisation de l'outil Nuages de points est disponible sur le site Internet de
XLSTAT l'adresse
http://www.xlstat.com/demo-scatterf.htm
Bibliographie
Chambers J.M., Cleveland W.S., Kleiner B. and Tukey P.A. (1983). Graphical Methods for
Data Analysis. Duxbury, Boston.
Jacoby W. G. (1997). Statistical Graphics for Univariate and Bivariate Data. Sage
Publications, London.
Wilkinson L. (1999). The Grammar of Graphics, Springer Verlag, New York.
113
Graphiques en coordonnes parallles
Utilisez cet outil pour visualiser des donnes multidimensionnelles (dcrites par P variables
quantitatives et Q variables qualitatives) sur un mme graphique deux dimensions.
Description
Cette mthode de visualisation est particulirement utile en analyse de donnes pour dtecter
ou pour valider l'existence de groupes homognes. On peut par exemple utiliser cette
mthode lissue dune Classification Hirarchique Ascendante.
Si l'on considre que N individus sont dcrits par P variables quantitatives et Q variables
qualitatives, le graphique consiste en P+Q axes verticaux reprsentant chacun une variable, et
N lignes correspondant chacun des individus. Une ligne croise un axe la valeur que prend
l'individu correspondant la ligne pour la variable associe l'axe.
Si le nombre d'individus est trop important, la visualisation risque d'tre peu efficace ou mme
impossible compte tenu des limitations imposes par Excel (255 sries). Il est alors possible
d'chantillonner les donnes au hasard afin de rendre le graphique plus lisible.
Bote de dialogue
: cliquez sur ce bouton pour lancer les calculs.
: cliquez sur ce bouton pour fermer la bote de dialogue sans effectuer les
calculs.
: cliquez sur ce bouton pour afficher laide.
: cliquez sur ce bouton pour rtablir les options par dfaut.
: cliquez sur ce bouton pour effacer les slections de donnes.
: cliquez sur ce bouton pour changer la faon dont XLSTAT doit charger les
donnes. Si la flche est vers le bas, XLSTAT considre que les observations sont en lignes et
les variables en colonnes. Si la flche est vers la droite, XLSTAT considre que les variables
sont en lignes et les observations en colonnes.
114
Onglet Gnral :
Donnes quantitatives : activez cette option pour slectionner les chantillons de donnes
quantitatives pour lesquels vous voulez calculer les statistiques descriptives.
Donnes qualitatives : activez cette option pour slectionner les chantillons de donnes
qualitatives pour lesquels vous voulez calculer les statistiques descriptives.
Poids : activez cette option si vous voulez pondrer les observations. Si vous nactivez pas
cette option, les poids seront tous considrs comme valant 1. Les poids doivent tre
imprativement suprieurs ou gaux 0. Si un en-tte de colonne a t slectionn, veuillez
vrifier que loption Libells des variables est active.
Groupes : activez cette option pour slectionner les donnes qui correspondent lidentifiant
du groupe auquel appartient chaque observation. Sur le graphique, la couleur des points
dpend du groupe.
Plage : si vous activez cette option, les rsultats seront affichs partir d'une cellule situe
dans une feuille existante. Vous devez alors slectionner la cellule.
Feuille : activez cette option pour afficher les rsultats dans une nouvelle feuille du classeur
actif.
Classeur : activez cette option pour afficher les rsultats dans un nouveau classeur.
Libells des variables : activez cette option si la premire ligne des donnes slectionnes
(donnes quantitatives, qualitatives, poids et groupes et libells des observations) contient un
libell.
Libells des observations : activez cette option si vous voulez utiliser des libells
dobservations disponibles sur une feuille Excel pour laffichage des rsultats. Si l'option
Libells des variables est active, la premire cellule de la slection doit comprendre un
en-tte. Si vous nactivez pas cette option, des libells seront automatiquement crs (Obs1,
Obs2, ).
Remettre lchelle : activez cette option pour que toutes les variables soient reprsentes
sur la mme chelle 0%-100% (pour les variables numriques 0 correspond au minimum et
100 au maximum ; pour les variables nominales, les modalits sont rgulirement espaces,
et classes en ordre alphabtique.
Onglet Options :
Afficher autant de lignes que possible : activez cette option pour afficher autant de lignes
parallles que possible (le maximum est 250 du fait des limitations dExcel).
115
Afficher les lignes de statistiques: activez cette option pour nafficher que les lignes
correspondant aux statistiques suivantes :
- Minimum et maximum
- Mdiane
- Premier quantile (%) : entrez la valeur du premier quantile (2.5% par dfaut).
- Deuxime quantile (%) : entrez la valeur du deuxime quantile (97.5% par dfaut).
- Mode (pour les variables qualitatives)
Exemple
Un exemple de gnration dun graphique en coordonnes parallles est disponible sur le site
Internet de Addinsoft l'adresse suivante :
http://www.xlstat.com/demo-pcorf.htm
Bibliographie
Inselberg A. (1985). The Plane with Parallel Coordinates. The Visual Computer, 1, 69-91.
Eickemeyer J. S., Inselberg A., Dimsdale B. (1992). Visualizing p-flats in n-space Using
Parallel Coordinates. Technical Report G320-3581, IBM Palo Alto Scientific Center.
Wegman E.J. (1990). Hyperdimensional Data Analysis Using Parallel Coordinates. J. Amer.
Statist. Assoc., 85, 411, 664-675.
116
AxesZoomer
Utilisez cet outil pour modifier les valeurs minimales et maximales des axes des abscisses et
des ordonnes dune graphique.
Bote de dialogue
Important : avant de lancer cet outil, vous devez slectionner un graphique de type nuage de
points ou courbe.
: cliquez sur ce bouton pour appliquer les changements au graphique.
: cliquez sur ce bouton pour fermer la bote de dialogue.
: cliquez sur ce bouton pour afficher laide.
Min X : entrez la valeur minimale de laxe des abscisses.
Max X : entrez la valeur maximale de laxe des abscisses.
Min Y : entrez la valeur minimale de laxe des ordonnes.
Max Y : entrez la valeur maximale de laxe des ordonnes.
117
EasyLabels
Utilisez cet outil pour ajouter des tiquettes, ventuellement formates, une srie de
donnes sur un graphique.
Bote de dialogue
Important : avant de lancer cet outil, vous devez slectionner un graphique de type nuage de
points ou courbe ou une srie de points sur un graphique.
: cliquez sur ce bouton pour lancer les calculs.
: cliquez sur ce bouton pour fermer la bote de dialogue sans effectuer de
modification.
: cliquez sur ce bouton pour afficher laide.
: cliquez sur ce bouton pour rtablir les options par dfaut.
: cliquez sur ce bouton pour effacer les slections de donnes.
: cliquez sur ce bouton pour changer la faon dont XLSTAT doit charger les
donnes. Si la flche est vers le bas, XLSTAT considre que les tiquettes sont dans une
colonne. Si la flche est vers la droite, XLSTAT considre que les tiquettes sont dans une
ligne.
Etiquettes : slectionnez les tiquettes ajouter la srie de donnes slectionne sur le
graphique.
En-tte dans la premire cellule : activez cette option si la premire cellule des tiquettes
slectionnes correspond un en-tte et non une tiquette.
Utiliser les proprits du texte : activez cette option si vous souhaitez que le format appliqu
au texte contenu dans les cellules contenant les tiquettes soit aussi appliqu au texte des
tiquettes sur le graphique :
- Police : activez cette option pour utiliser la mme police de caractres.
- Taille : activez cette option pour utiliser la mme taille de police de caractres.
118
- Style : activez cette option pour utiliser le mme style de police de caractres (normal,
gras, italique).
- Couleur : activez cette option pour utiliser la mme couleur de police de caractres.
Utiliser les proprits des cellules : activez cette option si vous souhaitez que le format
appliqu aux cellules contenant les tiquettes soit aussi appliqu aux tiquettes sur le
graphique :
- Bordure : activez cette option pour utiliser la mme bordure.
- Motifs : activez cette option pour utiliser le mme motif.
Utiliser les proprits des points : activez cette option si vous souhaitez que la couleur des
tiquettes soit identique celle des points :
- Couleur de lintrieur : activez cette option pour utiliser la couleur de lintrieur des
points.
- Couleur de la bordure : activez cette option pour utiliser la couleur de la bordure des
points.
119
Repositionnement des tiquettes
Utilisez cet outil pour modifier la position des tiquettes des observations sur un graphique.
Bote de dialogue
: cliquez sur ce bouton pour lancer les calculs.
: cliquez sur ce bouton pour fermer la bote de dialogue sans effectuer de
modification.
: cliquez sur ce bouton pour afficher laide.
: cliquez sur ce bouton pour rtablir les options par dfaut.
Coins : activez cette option pour placer les tiquettes dans la direction du coin du quadrant
dans lequel se trouve le point.
Distance au point :
- Automatique : activez cette option pour que XLSTAT dtermine automatiquement la
distance au point la plus approprie.
- Dfinie par lutilisateur : activez cette option pour entrer la valeur (en pixels) de la
distance entre ltiquette et le point.
En haut : activez cette option pour placer les tiquettes au-dessus du point.
A droite : activez cette option pour placer les tiquettes droite du point.
En bas : activez cette option pour placer les tiquettes au-dessous du point.
A gauche : activez cette option pour placer les tiquettes gauche du point.
Appliquer uniquement la srie slectionne : activez cette option ne modifier
lemplacement des tiquettes que pour la srie slectionne.
120
Graphiques orthonorms
Utilisez cet outil pour ajuster le minimum et le maximum de laxe des abscisses et de laxe des
ordonnes dun graphique de telle sorte que le graphique soit orthonorm. Cet outil sera
particulirement utile si vous avez agrandi un graphique orthonorm produit par XLSTAT (par
exemple aprs une ACP), et si vous voulez vous assurer que le graphique est toujours
orthonorm.
Remarque : un graphique orthonorm est tel quune unit en abscisse est visuellement
identique une unit en ordonne. Les graphiques orthonorms permettent dviter des
erreurs dinterprtation dues des effets de dilatation ou dcrasement.
Bote de dialogue
: cliquez sur ce bouton pour appliquer la transformation au graphique.
: cliquez sur ce bouton pour annuler la transformation du graphique.
: cliquez sur ce bouton pour fermer la bote de dialogue.
: cliquez sur ce bouton pour afficher laide.
121
Redimensionner un graphique
Utilisez cet outil pour redimensionner un graphique, ou la zone du graphique dlimite par les
axes (zone de traage).
Bote de dialogue
: cliquez sur ce bouton pour redimensionner le graphique.
: cliquez sur ce bouton pour fermer la bote de dialogue.
: cliquez sur ce bouton pour afficher laide.
Choisissez le type de zone redimensionner :
- Graphique : activez cette option pour redimensionner tout le graphique.
- Zone de traage : activez cette option pour redimensionner uniquement la zone de
traage lintrieur du graphique.
Taille actuelle : la largeur et la hauteur affiches ici sont celles du graphique ou de la zone de
traage tels quils sont avant le redimensionnement.
Nouvelle taille : entrez la nouvelle largeur et la nouvelle hauteur du graphique, soit en
pourcentage de la taille actuelle, soit en pixels.
Verrouiller les proportions : activez cette option si vous voulez que les proportions initiales
du graphique soient respectes.
122
Transformations de graphiques
Utilisez cet outil pour appliquer une ou plusieurs transformations aux points contenus dans un
graphique.
Bote de dialogue
Important : avant de lancer cet outil, vous devez slectionner un graphique de type nuage de
points ou courbe.
: cliquez sur ce bouton pour lancer les calculs.
: cliquez sur ce bouton pour fermer la bote de dialogue sans effectuer de
transformation.
: cliquez sur ce bouton pour afficher laide.
: cliquez sur ce bouton pour rtablir les options par dfaut.
: cliquez sur ce bouton pour effacer les slections de donnes.
Symtrie :
- Axe horizontal : activez cette option pour appliquer une symtrie par rapport laxe
des abscisses.
- Axe vertical : activez cette option pour appliquer une symtrie par rapport laxe des
ordonnes.
Remarque : si vous slectionnez les deux options prcdentes, la symtrie applique sera
une symtrie centrale.
Translation :
- Horizontale : activez cette option pour entrer le nombre dunits pour la translation
horizontale.
- Verticale : activez cette option pour entrer le nombre dunits pour la translation
verticale.
123
Rotation :
- Angle () : entrez langle en degrs pour la rotation appliquer.
- Droite : si cette option est active la rotation est applique dans le sens des aiguilles
dune montre.
- Gauche : si cette option est active la rotation est applique dans le sens inverse des
aiguilles dune montre.
Homothtie :
- Facteur : entrez le facteur dhomothtie appliquer aux donnes.
Plage : si vous activez cette option, les rsultats seront affichs partir d'une cellule situe
dans une feuille existante. Vous devez alors slectionner la cellule.
Feuille : activez cette option pour afficher les rsultats dans une nouvelle feuille du classeur
actif.
Classeur : activez cette option pour afficher les rsultats dans un nouveau classeur.
Afficher les nouvelles coordonnes : activez cette option pour afficher les coordonnes une
fois toutes les transformations appliques.
Mettre jour le min et le max : activez cette option pour que XLSTAT adapte
automatiquement le minimum et le maximum de laxe des abscisses et de laxe des
ordonnes, une fois les transformations effectues, de telle sorte que tous les points soient
visibles.
Graphique orthonorm : activez cette option pour que XLSTAT adapte automatiquement le
minimum et le maximum de laxe des abscisses et de laxe des ordonnes, une fois les
transformations effectues, de telle sorte que le graphique soit orthonorm.
124
Fusion de graphiques
Utilisez cet outil pour fusionner plusieurs graphiques en un seul.
Bote de dialogue
Important : avant de lancer cet outil, vous devez slectionner au moins deux graphiques du
mme type (par exemple, deux graphiques nuages de points).
: cliquez sur ce bouton pour lancer les calculs.
: cliquez sur ce bouton pour fermer la bote de dialogue.
: cliquez sur ce bouton pour afficher laide.
: cliquez sur ce bouton pour rtablir les options par dfaut.
: cliquez sur ce bouton pour effacer les slections de donnes.
Afficher le titre : activez cette option pour afficher un titre sur le graphique fusionn.
- Titre du premier graphique : activez cette option pour utiliser le titre du premier
graphique.
- Nouveau titre : activez cette option pour entrer le titre du graphique fusionn.
Graphique orthonorm : activez cette option pour que XLSTAT vrifie aprs la fusion des
graphiques que le graphique rsultant est bien orthonorm.
Plage : si vous activez cette option, les rsultats seront affichs partir d'une cellule situe
dans une feuille existante. Vous devez alors slectionner la cellule.
Feuille : activez cette option pour afficher les rsultats dans une nouvelle feuille du classeur
actif.
Classeur : activez cette option pour afficher les rsultats dans un nouveau classeur.
Nouvelle feuille graphique : activez cette option pour afficher le graphique issu de la fusion
des graphiques dans une nouvelle feuille graphique.
125
Afficher len-tte du rapport : dsactivez cette option pour ne pas afficher len-tte du rapport
prcdant le graphique.
126
Analyse factorielle
L'analyse factorielle (factor analysis en anglais), aussi appele analyse factorielle des
variables latentes, permet de mettre en vidence, lorsque cela est possible, lexistence de
facteurs sous-jacents communs aux variables quantitatives mesures pour un ensemble
dobservations.
Description
La mthode de lanalyse factorielle date du dbut du 20
ime
sicle (Spearman, 1904) et a
connu de nombreux dveloppements, plusieurs mthodes de calcul ayant t proposes. Si
cette mthode a dabord t utilise par les psychomtriciens, son champ dapplication sest
peu peu tendu de nombreux autres domaines, par exemple en gologie, mdecine,
finance.
On distingue aujourdhui deux grands types danalyse factorielle :
- lanalyse factorielle exploratoire (en anglais, exploratory factor analysis ou EFA)
- lanalyse factorielle confirmatoire (en anglais, confirmatory factor analysis ou CFA)
LEFA correspond ce qui est dcrit ci-dessous et ce qui est utilis par XLSTAT. Il sagit
dune mthode qui permet de dcouvrir lexistence ventuelle de facteurs sous-jacents
synthtisant linformation contenue dans un plus grand nombre de variables mesures. La
structure liant les facteurs aux variables est inconnue a priori et seul ventuellement le nombre
de facteurs est suppos.
La CFA dans sa version traditionnelle sappuie sur un modle identique celui de lEFA, mais
la structure liant les facteurs sous-jacents aux variables mesures est suppose connue. Une
version plus rcente de la CFA est lie aux modles dquations structurelles.
Passer de p variables k facteurs
Lexemple historique de Spearman, mme sil a depuis fait lobjet de nombreuses critiques et
amliorations, permet de bien comprendre le principe et lutilit de la mthode. En analysant
les corrlations entre les notes obtenues par des enfants dans diffrentes matires, Spearman
a voulu faire lhypothse que les notes dpendaient finalement dun seul facteur, lintelligence,
avec une partie rsiduelle due un effet individuel, culturel ou autre.
Ainsi la note obtenue par lindividu (i) dans une matire (j) peut scrire x(i,j) = + b(j)F + e(i,j),
avec la note moyenne de lchantillon tudi, et o F est le niveau dintelligence de lindividu
(le facteur sous-jacent) et e(i,j) le rsidu.
127
En gnralisant cette criture p matires (les variables dentre) et k facteurs sous-jacents,
on obtient le modle suivant :
(1) x = + Af + u
o x est un vecteur de dimension (p x 1), est le vecteur moyen, A est la matrice (p x k) des
coordonnes factorielles (loadings en anglais) et f et u sont des vecteurs alatoires de
dimensions respectives (k x 1) et (p x 1), que lon suppose indpendants. Les lments de f
sont appels facteurs communs, et ceux de u facteurs spcifiques.
Si lon simpose que la norme de f vaut 1, alors la matrice de covariance des variables dentre
sur la base de lexpression (1) scrit
(2) E = AA + +
Ainsi, la variance de chacune des variables peut tre divise en deux parties : la communalit
(car provenant des facteurs communs),
(3)
2 2
1
k
i ij
j
h
=
=
,
et
ii
+ la variance spcifique ou variance unique (car spcifique la variable en question).
On peut montrer que la mthode qui permet de calculer la matrice A, enjeu essentiel de
lanalyse factorielle, est indpendante de lchelle. Il est donc quivalent de travailler partir
de la matrice de covariance ou de la matrice de corrlation.
Lenjeu de lanalyse factorielle est de permettre de trouver les matrices A et +, de telle sorte
que lquation (2) soit au moins approximativement vrifie.
Remarque : lanalyse factorielle est parfois rapproche de lAnalyse en Composantes
Principales (ACP), car lACP est un cas particulier de lanalyse factorielle (cas o k le nombre
de facteurs vaut p le nombre de variables). Nanmoins ces deux mthodes ne sont en gnral
pas utilises dans le mme contexte. En effet, lACP est avant tout utilise pour rduire le
nombre de dimensions tout en maximisant la variabilit conserve, pour obtenir des facteurs
indpendants (non corrls), ou pour visualiser les donnes dans un espace 2 ou trois
dimensions. Lanalyse factorielle est quant elle utilise pour identifier une structure latente, et
pour ventuellement rduire par la suite le nombre de variables mesures si elles sont
redondantes vis--vis des facteurs latents.
Extraction des facteurs
Trois mthodes dextraction des facteurs latents sont proposes par XLSTAT :
128
- Composantes principales : cette mthode est aussi celle utilise en Analyse en
Composantes Principales (ACP). Elle nest propose ici que dans un but de comparaison
entre les rsultats des trois mthodes, sachant que les rsultats proposs dans le module
ddi lACP sont plus complets.
- Facteurs principaux : cette mthode est probablement la plus utilise. Cest une
mthode itrative qui permet de faire converger progressivement les communalits. Les
calculs sont interrompus ds que le changement maximum des communalits est en
dessous dun seuil donn, ou lorsquun nombre maximal ditrations est atteint. Les
communalits initiales peuvent tre calcules suivant diffrentes mthodes.
- Maximum de vraisemblance : cette mthode a dabord t propose par Lawley (1940).
La proposition de lutilisation de lalgorithme de Newton-Raphson (mthode itrative) date
de Jennrich (1969). Elle a ensuite t amliore et gnralise par Jreskog (1977). Cette
mthode fait lhypothse que les variables dentre suivent une distribution normale. Les
communalits initiales sont calcules suivant la mthode propose par Jreskog (1977).
Dans le cadre de cette mthode, un test dajustement est calcul. La statistique utilise
pour le test suit une loi du Khi (p-k) / 2 (p+k) / 2 degrs de libert, o p est le nombre
de variables et k le nombre de facteurs.
Nombre de facteurs
La dtermination du nombre de facteurs retenir est lun des enjeux de lanalyse factorielle.
La mthode automatique propose par XLSTAT est uniquement base sur la
dcomposition spectrale de la matrice de corrlation et sur la dtection dun seuil partir
duquel lapport dinformation (au sens de la variabilit) nest pas significatif.
Si la mthode du maximum de vraisemblance propose un test dajustement pour aider
dterminer quel est le bon nombre de facteurs principaux, pour la mthode des facteurs
principaux les mthodes sont plus empiriques.
La rgle de Kaiser-Guttman propose de ne retenir que les facteurs pour lesquels les valeurs
propres associes sont suprieurs strictes 1 (les calculs doivent alors tre effectus sur la
matrice des corrlations). Le scree test (Cattell, 1966) est fond sur la courbe dcroissante
des valeurs propres. Le nombre de facteurs retenir correspond au premier point dinflexion
dtect sur la courbe. Des mthodes de validation croise ont aussi t proposes dans ce
but.
Cas problmatiques (Heywood cases)
Les communalits sont par dfinition des carrs de corrlations. Elles doivent donc tre
comprise entre 0 et 1. Nanmoins, il se peut que les algorithmes itratifs (mthode des
facteurs principaux ou du maximum de vraisemblance) engendrent des solutions pour
129
lesquelles les communalits sont gales 1 (Heywood cases) ou suprieures 1 (ultra
Heywood cases). Les raisons de telles anomalies peuvent tre multiples (trop de facteurs, pas
assez de facteurs, ). Lorsque de tels cas sont rencontrs XLSTAT fixe les communalits 1
et adapte en consquence les lments de A.
Rotations
Une fois les rsultats obtenus, il est possible de les transformer afin de les rendre plus
facilement interprtables, par exemple en essayant de faire en sorte que les coordonnes des
variables sur les facteurs soient ou leves (en valeur absolue), ou proches de zro. On
distingue deux grandes familles de rotations :
- les rotations orthogonales peuvent tre utilises lorsque les facteurs ne sont pas corrls
(do orthogonales). Les mthodes proposes par XLSTAT sont Varimax, Quartimax,
Equamax, Parsimax, Orthomax. La rotation Varimax est la plus utilise. Elle permet de
faire en sorte que pour chaque facteur, il y ait peu de coordonnes factorielles (loadings)
leves, et beaucoup de faibles. Linterprtation est ainsi facilite puisquen principe les
variables initiales seront surtout associes lun des facteurs.
- les transformations obliques peuvent tre utilises lorsque les facteurs sont corrls (do
obliques). Les mthodes proposes par XLSTAT sont Quartimin et Oblimin.
La mthode Promax, galement propose par XLSTAT, est une procdure mixte puisquelle
consiste dabord en une rotation Varimax, puis en une rotation oblique telle que les
coordonnes factorielles (loadings) leves et faibles soient les mmes, mais avec les valeurs
faibles encore plus faibles.
Bote de dialogue
La bote de dialogue est compose de plusieurs onglets correspondant aux diffrentes options
disponibles tant pour la gestion des calculs que pour laffichage des rsultats. Vous trouverez
ci-dessous le descriptif des diffrents lments de la bote de dialogue.
: cliquez sur ce bouton pour lancer les calculs.
: cliquez sur ce bouton pour fermer la bote de dialogue sans effectuer les
calculs.
: cliquez sur ce bouton pour afficher laide.
130
: cliquez sur ce bouton pour rtablir les options par dfaut.
: cliquez sur ce bouton pour effacer les slections de donnes.
: cliquez sur ce bouton pour changer la faon dont XLSTAT doit charger les
donnes. Si la flche est vers le bas, XLSTAT considre que les observations sont en lignes et
les variables en colonnes. Si la flche est vers la droite, XLSTAT considre que les variables
sont en lignes et les observations en colonnes.
Onglet Gnral :
Le champ principal de saisie des donnes vous permet de slectionner alternativement trois
types de tableaux :
Tableau observations/variables / Matrice de corrlation / Matrice de covariance :
choisissez loption qui correspond au format de vos donnes, puis slectionnez les donnes.
Dans le cas de loption Tableau observations/variables slectionnez un tableau comprenant
N observations dcrites par P variables quantitatives. Dans le cas dune matrice de
corrlation ou de covariance slectionnez une matrice carre. Si des en-ttes de colonnes
ont t slectionns, veuillez vrifier que loption Libells des variables est active. Dans le
cas dune matrice de corrlation ou de covariance, si les libells des colonnes sont
slectionns, ceux des lignes doivent ltre aussi.
Corrlation : choisissez le type de matrice qui doit tre utilis par lanalyse factorielle. Le cas
Pearson (n) se distingue du cas Pearson (n-1) par la faon dont sont normalises les
variables. Cela na dinfluence que sur les coordonnes des observations.
Mthode dextraction : choisissez la mthode dextraction des facteurs utiliser. Les trois
mthodes possibles sont (voir la section description pour plus de dtails) :
- Composantes principales
- Facteurs principaux
- Maximum de vraisemblance
Plage : si vous activez cette option, les rsultats seront affichs partir d'une cellule situe
dans une feuille existante. Vous devez alors slectionner la cellule.
Feuille : activez cette option pour afficher les rsultats dans une nouvelle feuille du classeur
actif.
Classeur : activez cette option pour afficher les rsultats dans un nouveau classeur.
131
Libells des variables : activez cette option si la premire ligne des donnes slectionnes
(Tableau observations/variables, libells des observations, poids) contient un libell. Dans le
cas o la slection est une matrice de corrlation ou de covariance, si cette option est active,
la premire colonne doit aussi comprendre le libell des variables.
Libells des observations : activez cette option si vous voulez utiliser des libells
dobservations pour laffichage des rsultats. Si l'option Libells des variables est active,
la premire cellule de la slection doit comprendre un en-tte. Si vous nactivez pas cette
option, des libells seront automatiquement crs (Obs1, Obs2, ).
Poids : activez cette option si vous voulez pondrer les observations. Si vous nactivez pas
cette option, les poids seront tous considrs comme valant 1. Les poids doivent tre
imprativement suprieurs ou gaux 0. Si un en-tte de colonne a t slectionn, veuillez
vrifier que loption Libells des variables est active.
Onglet Options :
Nombre de facteurs :
- Automatique : activez cette option pour que XLSTAT dtermine automatiquement le
nombre de facteurs.
- Dfini par lutilisateur : activez cette option pour indiquer XLSTAT quel est le
nombre de facteurs considrer pour les calculs.
Communalits initiales : choisissez la mthode de calcul des communalits initiales (cette
option nest visible que dans le cas de la mthode des facteurs principaux) :
- Carrs des corrlations multiples : les communalits initiales sont bases sur le
niveau de dpendance dune variable vis--vis des autres variables.
- Alatoires : les communalits initiales sont tires dans lintervalle ]0 ; 1[.
- 1 : les communalits initiales sont fixes 1.
- Maximum : les communalits initiales sont fixes la valeur maximum des carrs des
corrlations multiples.
Conditions darrt :
- Itrations : entrez le nombre maximal d'itrations pour lalgorithme. Les calculs sont
interrompus ds que le nombre maximal d'itrations est dpass. Valeur par dfaut :
50.
132
- Convergence : entrez la valeur seuil dvolution maximale des communalits dune
itration lautre, qui une fois atteinte permet de considrer que lalgorithme a
converg. Valeur par dfaut : 0,0001.
Rotation : activez cette option si vous voulez appliquer une rotation la matrice des
coordonnes factorielles.
- Nombre de facteurs : entrez le nombre de facteurs auxquels la rotation doit tre
applique.
- Mthode : choisissez la mthode de rotation utiliser. Pour certaines mthode la
valeur dun paramtre doit tre entre (Gamma pour Orthomax, Tau pour Oblimin, et la
puissance pour Promax).
- Normalisation de Kaiser : activez cette option pour appliquer la normalisation de
Kaiser pendant le calcul des rotations.
Onglet Donnes manquantes :
Ne pas accepter les valeurs manquantes : activez cette option pour que XLSTAT empche
la poursuite des calculs si des valeurs manquantes sont dtectes.
Supprimer les observations : activez cette option pour supprimer les observations
comportant des donnes manquantes.
Suppression par paire : activez cette option pour supprimer les observations comportant des
donnes manquantes uniquement lorsque les variables impliques dans les calculs
comportent des donnes manquantes. Par exemple lors du calcul dune corrlation entre deux
variables, une observation ne sera ignore que si la donne correspondant lune des deux
variables est manquante.
Estimer les donnes manquantes : activez cette option pour estimer les donnes
manquantes avant le dbut des calculs.
- Moyenne ou mode : activez cette option pour estimer les donnes manquantes en
utilisant la moyenne (variables quantitatives) ou le mode (variables qualitatives) pour
les variables correspondantes.
- Plus proche voisin : activez cette option pour estimer les donnes manquantes d'une
observation en recherchant le plus proche voisin de l'observation.
Onglet Sorties :
Statistiques descriptives : activez cette option pour afficher les statistiques descriptives pour
les variables slectionnes.
133
Corrlations : activez cette option pour afficher la matrice de corrlations ou de covariance en
fonction du type doptions choisi dans longlet Gnral . Si loption Tester la
significativit est active, les corrlations significatives au seuil de signification sont
affiches en gras.
Alpha de Cronbach : activez cette option pour calculer et afficher le alpha de Cronbach.
Valeurs propres : activez cette option pour afficher le tableau et le graphique (scree plot) des
valeurs propres.
Coordonnes factorielles : activez cette option pour afficher les coordonnes factorielles
(coordonnes des variables dans lespace des facteurs).
Corrlations Variables/Facteurs : activez cette option pour afficher les corrlations entre les
facteurs et les variables.
Coefficients du modle factoriel : activez cette option pour afficher les coefficients du
modle factoriel. La multiplication des coordonnes (centres et rduites) des observations
dans lespace dorigine par ces coefficients permet dobtenir les coordonnes des observations
dans lespace des facteurs.
Structure factorielle : activez cette option pour afficher les corrlations entre les variables et
les facteurs aprs rotation.
Onglet Graphiques :
Graphiques des variables : activez cette option pour afficher les graphiques de
reprsentation des variables dans le nouvel espace.
- Vecteurs : activez cette option pour afficher les variables dorigine sous forme de
vecteurs.
Graphiques de corrlations : activez cette option pour afficher les graphiques mettant en jeu
des corrlations entre des composantes et des variables initiales.
- Vecteurs : activez cette option pour afficher les variables dorigine sous forme de
vecteurs.
Graphiques des observations : activez cette option pour afficher les graphiques de
reprsentation des observations dans le nouvel espace.
- Etiquettes : activez cette option pour afficher les tiquettes des observations sur les
graphiques. Le nombre dtiquettes affiches peut tre modul laide de loption de
filtrage.
134
Etiquettes colores : activez cette option pour que les tiquettes soient de la mme couleur
que les points correspondants.
Filtrer : activez cette option pour fixer le nombre dobservations affiches :
- Alatoire : les observations afficher sont slectionnes de manire alatoire. Le
Nombre dobservations doit alors tre saisi.
- N premires lignes : les N premires observations sont affiches. Le Nombre
dobservations N doit alors tre saisi.
- N dernires lignes : les N dernires observations sont affiches. Le Nombre
dobservations N doit alors tre saisi.
- Variable de groupe : si vous choisissez cette option, vous devez ensuite slectionner
une variable indicatrice compose de 1 pour les observations afficher, et de 0 pour
les observations ne pas afficher.
Rsultats
Statistiques descriptives : le tableau de statistiques descriptives prsente pour toutes les
variables slectionnes des statistiques simples. Sont affichs le nombre dobservations, le
nombre de donnes manquantes, le nombre de donnes non manquantes, la moyenne, et
lcart-type (non biais).
Matrice de corrlation/de covariance : ce tableau correspond aux donnes qui sont ensuite
utilises pour les calculs. Le type de corrlation dpend de loption qui a t choisie dans
longlet Gnral de la bote de dialogue. Dans le cas de corrlations, les corrlations
significatives sont affiches en gras.
Alpha de Cronbach : si loption correspondante a t active, la valeur du Alpha de Cronbach
est affiche.
Changement maximum de communalit chaque itration : ce tableau permet dobserver
lvolution du changement maximum de communalit pour les 10 dernires itrations. Dans le
cas de la mthode du maximum de vraisemblance, lvolution dun critre proportionnel
loppos du maximum de vraisemblance est aussi affiche.
Test d'ajustement : le test dajustement nest affich que dans le cas o la mthode du
maximum de vraisemblance a t choisie.
Matrice des corrlations reproduites : cette matrice est le produit de la matrice des
coordonnes factorielles par sa transpose.
135
Matrice de corrlation rsiduelle : cette matrice est calcule comme la diffrence entre la
matrice de corrlation des variables, et la matrice des corrlations reproduites.
Valeurs propres : dans ce tableau sont affiches les valeurs propres associes aux diffrents
facteurs, ainsi que les pourcentages et pourcentages cumuls correspondants.
Vecteurs propres : dans ce tableau sont affiches les vecteurs propres.
Coordonnes factorielles : dans ce tableau sont affiches les coordonnes factorielles
(coordonnes des variables dans lespace des facteurs, appeles factor loadings ou factor
pattern en anglais). Le graphique correspondant est affich.
Corrlations Variables/Facteurs : dans ce tableau sont affiches les corrlations entre les
facteurs et les variables.
Coefficients du modle factoriel : dans ce tableau sont affichs les coefficients du modle
factoriel. La multiplication des coordonnes (centres et rduites) des observations dans
lespace dorigine par ces coefficients permet dobtenir les coordonnes des observations dans
lespace des facteurs.
Dans le cas o une rotation a t demande, les rsultats de la rotation sont affichs, avec en
premier la matrice de rotation applique aux coordonnes des variables. Suivent ensuite les
pourcentages modifis de variabilit associs chacun des axes concerns par la rotation.
Dans les tableaux suivants sont affiches les coordonnes des variables et des observations
aprs rotation.
Structure factorielle : dans ce tableau sont affiches les corrlations entre les variables et les
facteurs aprs rotation.
Exemple
Un exemple d'utilisation de l'Analyse Factorielle est disponible sur le site Internet de Addinsoft
l'adresse
http://www.xlstat.com/demo-faf.htm
136
Bibliographie
Cattell, R. B. (1966). The scree test for the number of factors. Multivariate Behavioral
Research, 1, 245-276.
Crawford C.B. and Ferguson G.A. (1970). A general rotation criterion and its use in
orthogonal rotation. Psychometrika, 35(3), 321-332.
Cronbach L. J. (1951). Coefficient Alpha and the internal structure of test. Psychometrika,
16(3), 297-334.
Cureton E.E. and Mulaik S.A. (1975). The weighted Varimax rotation and the Promax
rotation. Psychometrika, 40(2), 183-195.
Jennrich R.I. and Robinson S.M. (1969). A Newton-Raphson algorithm for maximum
likelihood factor analysis. Psychometrika, 34(1), 111-123.
Jreskog K.G. (1967). Some contributions to maximum likelihood factor analysis.
Psychometrika, 32(4), 443-481.
Jreskog K.G. (1977). Factor Analysis by Least-Squares and Maximum Likelihood Methods,
in Statistical Methods for Digital Computers, eds. K. Enslein, A. Ralston, and H.S. Wilf. John
Wiley and Sons, New York.
Lawley D.N. (1940). The estimation of factor loadings by the method of maximum likelihood.
Proceedings of the Royal Society of Edinburgh. 60, 64-82.
Loehlin J.C. (1998). Latent Variable Models: an introduction to factor, path, and structural
analysis, LEA, Mahwah.
Mardia K.V., Kent J.T. and Bibby J.M. (1979). Multivariate Analysis. Academic Press,
London.
Spearman C. (1904). General intelligence, objectively determined and measured. American
Journal of Psychology, 15, 201-293.
137
Analyse en Composantes Principales (ACP)
Utilisez lAnalyse en Composantes Principales pour analyser un tableau
observations/variables quantitatives ou une matrice de corrlations ou de covariance. Cette
mthode permet
- dtudier et visualiser les corrlations entre les variables,
- dobtenir des facteurs non corrls qui sont des combinaisons linaires des variables de
dpart,
- de visualiser les observations dans un espace deux ou trois dimensions.
Description
LAnalyse en Composantes Principales (ACP) est lune des mthodes danalyse de donnes
multivaries les plus utilises. Ds lors que lon dispose dun tableau de donnes quantitatives
(continues ou discrtes) dans lequel n observations (des individus, des produits, ) sont
dcrites par p variables (des descripteurs, attributs, mesures, ), si p est assez lev, il est
impossible dapprhender la structure des donnes et la proximit entre les observations en se
contentant danalyser des statistiques descriptives univaries ou mme une matrice de
corrlation.
Utilisations de lACP
Il existe plusieurs applications pour lACP, parmi lesquelles :
- ltude et la visualisation des corrlations entre les variables, afin dventuellement limiter
le nombre de variables mesurer par la suite ;
- lobtention de facteurs non corrls qui sont des combinaisons linaires des variables de
dpart, afin dutiliser ces facteurs dans des mthodes de modlisation telles que la
rgression linaire, la rgression logistique ou lanalyse discriminante ;
- la visualisation des observations dans un espace deux ou trois dimensions, afin
didentifier des groupes homognes dobservations, ou au contraire des observations
atypiques.
Principe de lACP
LACP peut tre considre comme une mthode de projection qui permet de projeter les
observations depuis lespace p dimensions des p variables vers un espace k dimensions
(k<p) tel quun maximum dinformation soit conserve (linformation est ici mesure au travers
138
de la variance totale du nuage de points) sur les premires dimensions. Si linformation
associe aux 2 ou 3 premiers axes reprsente un pourcentage suffisant de la variabilit totale
du nuage de points, on pourra reprsenter les observations sur un graphique 2 ou 3
dimensions, facilitant ainsi grandement linterprtation.
Corrlations ou covariance
LACP utilise une matrice indiquant le degr de similarit entre les variables pour calculer des
matrices permettant la projection des variables dans le nouvel espace. Il est commun dutiliser
comme indice de similarit le coefficient de corrlation de Pearson, ou la covariance. La
corrlation de Pearson et la covariance prsentent lavantage de donner des matrices semi-
dfinies positives dont les proprits sont utilises en ACP. Nanmoins on peut envisager
dutiliser dautres indices. XLSTAT propose dutiliser la corrlation de Spearman et de Kendall
ou les corrlations polychoriques pour les donnes ordinales (les corrlations ttrachoriques
sont un cas particulier des corrlations polychoriques qui concerne les donnes binaires).
Classiquement, on utilise un coefficient de corrlation et non la covariance car lutilisation du
coefficient de corrlation permet de supprimer les effets dchelle : ainsi une variable variant
entre 0 et 1 ne pse pas plus dans la projection quune variable variant entre 0 et 1000.
Toutefois, dans certains domaines, lorsque les variables sont supposes tre sur des chelles
identiques, ou lorsque lon veut que la variance des variables influe sur la construction des
facteurs, on utilise la covariance.
Dans le cas o ne serait disponible quune matrice de similarit, et non un tableau
observations/variables, ou dans le cas o vous voudriez utiliser un autre indice de similarit,
vous pouvez raliser une ACP en partant de la matrice de similarit. Les rsultats obtenus ne
concernent alors que les variables, aucune information sur les observations ntant disponible.
Remarque : dans le cas o lACP est ralise sur une matrice de corrlation, on parle dACP
norme.
Interprtation des rsultats
La reprsentation des variables dans lespace des k facteurs permet dinterprter visuellement
les corrlations entre les variables dune part, et entre les variables et les facteurs dautre part,
moyennant certaines prcautions.
En effet, quil sagisse de la reprsentation des observations ou des variables dans lespace
des facteurs, deux points trs loigns dans un espace k dimensions peuvent apparatre
proches dans un espace 2 dimensions en fonction de la direction utilise pour la projection
(voir figure ci-dessous).
139
On peut considrer que la projection dun point sur un axe, un plan ou un espace 3
dimensions est fiable si la somme des cosinus carrs sur les axes de reprsentation nest pas
trop loigne de 1. Les cosinus carrs sont affichs dans les rsultats proposs par XLSTAT
afin dviter toute mauvaise interprtation.
Si les facteurs doivent tre utiliss par la suite avec dautres mthodes, il est intressant
dtudier la contribution relative (exprime en % ou en proportion) des diffrentes variables
la construction de chacun des axes factoriels, afin de rendre les rsultats obtenus ensuite
facilement interprtables. Les contributions sont affiches dans les rsultats proposs par
XLSTAT.
Nombre de facteurs
Deux mthodes sont communment utilises pour dteminer quel nombre de facteurs doit tre
retenu pour linterprtation des rsultats :
- Le scree test (Cattell, 1966) est fond sur la courbe dcroissante des valeurs propres. Le
nombre de facteurs retenir correspond au premier point dinflexion dtect sur la courbe.
- On peut aussi se fonder sur le pourcentage cumul de variabilit reprsent par les axes
factoriels et dcider de se contenter dun certain pourcentage.
Reprsentations graphiques
Lun des avantages de lACP est quelle fournit la fois une visualisation optimale des
variables et des donnes, et des biplots mlangeant les deux (voir ci-dessous). Nanmoins,
ces reprsentations ne sont fiables que si la somme des pourcentages de variabilit associs
aux axes de lespace de reprsentation, est suffisamment leve. Si ce pourcentage est lev
(par exemple 80%), on peut considrer que la reprsentation est fiable. Si le pourcentage est
140
faible, il est conseill de faire des reprsentations sur plusieurs couples daxes afin de valider
linterprtation faite sur les deux premiers axes factoriels.
Biplots
Suite une ACP, il est possible de reprsenter simultanment dans lespace des facteurs la
fois les observations et les variables. Les premiers travaux sur ce sujet datent de Gabriel
(1971). Gower (1996) et Legendre (1998) ont synthtis les travaux prcdents et tendu
cette technique de reprsentation graphique dautres mthodes. Le terme biplot est rserv
aux reprsentations simultanes qui respectent le fait que la projection des observations sur
les vecteurs variables doit tre reprsentative des donnes dentre pour ces mmes
variables. Autrement dit, les points projets sur le vecteur variable, doivent respecter lordre et
les distances relatives des donnes de dpart correspondant la mme variable.
La reprsentation simultane des observations et des variables ne peut tre faite directement
en prenant les coordonnes des variables et des observations dans lespace des facteurs.
Une transformation est ncessaire afin de rendre linterprtation exacte. Trois mthodes sont
proposes en fonction du type dinterprtation que lon souhaite pouvoir faire partir de la
reprsentation graphique :
- biplot de corrlation (correlation biplot) : ce type de biplot permet dinterprter les angles
entre les variables car ils sont directement lis aux corrlations entre les variables