Vous êtes sur la page 1sur 108

i

IBM SPSS Missing Values 20

Remarque : Avant dutiliser ces informations et le produit quelles concernent, lisez les
informations gnrales sous Remarques sur p. 96.
Cette version sapplique IBM SPSS Statistics 20 et toutes les publications et modifications
ultrieures jusqu mention contraire dans les nouvelles versions.
Les captures dcran des produits Adobe sont reproduites avec lautorisation de Adobe Systems
Incorporated.
Les captures dcran des produits Microsoft sont reproduites avec lautorisation de Microsoft
Corporation.
Matriel sous licence - Proprit dIBM
Copyright IBM Corporation 1989, 2011.

Droits limits pour les utilisateurs au sein dadministrations amricaines : utilisation, copie ou
divulgation soumise au GSA ADP Schedule Contract avec IBM Corp.

Prface
IBM SPSS Statistics est un systme complet danalyse de donnes. Le module complmentaire
facultatif Missing Values fournit les techniques danalyse supplmentaires dcrites dans ce
manuel. Le module complmentaire Missing Values doit tre utilis avec le systme central
SPSS Statistics auquel il est entirement intgr.

A propos de IBM Business Analytics


Le logiciel IBM Business Analytics offre des informations compltes, cohrentes et prcises
permettant aux preneurs de dcision damliorer leurs performances professionnelles. Un
portefeuille complet de solutions de business intelligence, danalyses prdictives, de performance
financire et de gestion de la stratgie, et dapplications analytiques permet une connaissance
claire et immdiate et offre des possibilits dactions sur les performances actuelles et la capacit
de prdire les rsultats futurs. En combinant des solutions du secteur, des pratiques prouves et des
services professionnels, les entreprises de toute taille peuvent gnrer la plus grande productivit,
automatiser les dcisions en toute confiance et apporter de meilleurs rsultats.
Dans le cadre de ce portefeuille, le logiciel IBM SPSS Predictive Analytics aide les entreprises
prdire des vnements futurs et agir de manire proactive en fonction de ces prdictions pour
apporter de meilleurs rsultats. Des clients dans les domaines commerciaux, gouvernementaux et
acadmiques se servent de la technologie IBM SPSS comme dun avantage concurrentiel pour
attirer ou retenir des clients, tout en rduisant les risques lis lincertitude et la fraude. En
intgrant le logiciel IBM SPSS leurs oprations quotidiennes, les entreprises peuvent effectuer
des prvisions, et sont capables de diriger et dautomatiser leurs dcisions afin datteindre
leurs objectifs commerciaux et dobtenir des avantages concurrentiels mesurables. Pour plus
dinformations ou pour contacter un reprsentant, visitez le site http://www.ibm.com/spss.

Support technique
Un support technique est disponible pour les clients du service de maintenance. Les clients
peuvent contacter lassistance technique pour obtenir de laide concernant lutilisation des produits
IBM Corp. ou linstallation dans lun des environnements matriels pris en charge. Pour contacter
lassistance technique, visitez le site IBM Corp. ladresse http://www.ibm.com/support. Votre
nom, celui de votre socit, ainsi que votre contrat dassistance vous seront demands.

Support technique pour les tudiants


Si vous tes un tudiant qui utilise la version pour tudiant, personnel de lducation ou diplm
dun produit logiciel IBM SPSS, veuillez consulter les pages Solutions pour lducation
(http://www.ibm.com/spss/rd/students/) consacres aux tudiants. Si vous tes un tudiant utilisant
une copie du logiciel IBM SPSS fournie par votre universit, veuillez contacter le coordinateur
des produits IBM SPSS de votre universit.
Copyright IBM Corporation 1989, 2011.

iii

Service clients
Si vous avez des questions concernant votre livraison ou votre compte, contactez votre bureau
local. Veuillez prparer et conserver votre numro de srie porte de main pour lidentification.

Sminaires de formation
IBM Corp. propose des sminaires de formation, publics et sur site. Tous les sminaires
font appel des ateliers de travaux pratiques. Ces sminaires seront proposs rgulirement
dans les grandes villes. Pour plus dinformations sur ces sminaires, accdez au site
http://www.ibm.com/software/analytics/spss/training.

Documents supplmentaires
Les ouvrages SPSS Statistics : Guide to Data Analysis, SPSS Statistics : Statistical Procedures
Companion, et SPSS Statistics : Advanced Statistical Procedures Companion, crits par Marija
Noruis et publis par Prentice Hall, sont suggrs comme documentation supplmentaire. Ces
publications prsentent les procdures statistiques des modules SPSS Statistics Base, Advanced
Statistics et Regression. Que vous soyez novice dans les analyses de donnes ou prt utiliser des
applications plus avances, ces ouvrages vous aideront exploiter au mieux les fonctionnalits
offertes par IBM SPSS Statistics. Pour obtenir des informations supplmentaires y compris
le contenu des publications et des extraits de chapitres, visitez le site web de lauteur :
http://www.norusis.com

iv

Contenu
Partie I: Guide de l'utilisateur
1

Introduction aux valeurs manquantes

Analyse des valeurs manquantes

Affichage des patrons de valeurs manquantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5


Affichage des statistiques descriptives des valeurs manquantes . . . . . . . . . . . . . . . . . . . . . . . . . 7
Estimation des statistiques et imputation des valeurs manquantes . . . . . . . . . . . . . . . . . . . . . . . . 8
Options de lestimation EM . . . . . . . . . . . . . .
Options de lestimation de la rgression. . . . .
Variables dpendantes et variables prdites .
Commande MVA. Descriptives additionnelles . . . .

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

Imputation multiple

...
...
...
...

9
10
12
13

14

Analyser les modles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15


Imputer les valeurs de donnes manquantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Mthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Contraintes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Commande IMPUTATION MULTIPLE - Caractristiques additionnelles

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

20
22
24
25

Utilisation des donnes imputation multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25


Analyse de donnes imputation multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Options dimputation multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

Partie II: Exemples


4

Analyse des valeurs manquantes

37

Description du modle des donnes manquantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37


Excution de lanalyse pour afficher les statistiques descriptives . . . . . . . . . . . . . . . . . . . . . . . . . 37
Evaluation des statistiques descriptives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Rexcution de lanalyse pour afficher les modles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

Evaluation du tableau de modles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47


Rexcution de lanalyse pour le test MCAR Little. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

Imputation multiple

50

Utilisation de limputation multiple pour complter et analyser un ensemble de donnes. . . . . . . . 50


Analyse des modles de valeurs manquantes . . .
Imputation automatique des valeurs manquantes
Modle dimputation personnalis . . . . . . . . . . . .
Vrification de la convergence FCS . . . . . . . . . . .
Analyser les donnes compltes . . . . . . . . . . . . .
Rcapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . .

...
...
...
...
...
...

...
...
...
...
...
...

...
...
...
...
...
...

...
...
...
...
...
...

...
...
...
...
...
...

...
...
...
...
...
...

...
...
...
...
...
...

...
...
...
...
...
...

...
...
...
...
...
...

...
...
...
...
...
...

...
...
...
...
...
...

50
54
61
69
73
84

Annexes
A Fichiers dexemple

85

B Remarques

96

Index

99

vi

Partie I:
Guide de l'utilisateur

Chapitre

Introduction aux valeurs manquantes

Les observations ayant des valeurs manquantes reprsentent un dfi important car les procdures
de modlisation classiques liminent tout simplement ces observations des analyses. Lorsque les
valeurs manquantes sont peu nombreuses (trs approximativement, moins de 5% du nombre total
dobservations) et que ces valeurs peuvent tre considres comme alatoirement manquantes,
cest--dire quune valeur manquante ne dpend pas des autres valeurs, alors la mthode
traditionnelle dlimination est relativement sre. Loption Valeurs manquantes peut vous
aider dterminer si llimination est suffisante et vous proposer des mthodes de traitement des
valeurs manquantes lorsquelle ne suffit pas.
Analyse des valeurs manquantes ou procdures imputation multiple

Loption Valeurs manquantes propose deux ensembles de procdures permettant de traiter les
valeurs manquantes :

Les procdures dImputation multiple proposent des analyses de schmas de donnes


manquantes, orientes vers une imputation multiple finale des valeurs manquantes.
Cest--dire que plusieurs versions de lensemble de donnes sont produites, chacune delle
contenant son propre ensemble de donnes imputes. Lorsque des analyses statistiques sont
effectues, les estimations de paramtre pour tous les ensembles de donnes imputs sont
combines ce qui gnre des estimations gnralement plus prcises que celles provenant
uniquement de limputation.

LAnalyse des valeurs manquantes contient un ensemble lgrement diffrent doutils


descriptifs pour lanalyse de donnes manquantes (plus particulirement le test MCAR
Little) et comprend un grand nombre de mthodes dimputation simple. Veuillez noter que
limputation multiple est gnralement considre comme suprieure limputation simple.

Tches des valeurs manquantes

Vous pouvez commencer analyser des valeurs manquantes en suivant ces tapes de base :
E Examiner le caractre manquant. Utilisez lanalyse des valeurs manquantes et Analyser les

schmas pour explorer des schmas de valeurs manquantes dans vos donnes et dterminer si
limputation multiple est ncessaire.
E Inclure les valeurs manquantes. Utilisez Imputer des valeurs de donnes manquantes pour imputer

les valeurs manquantes.


E Analyser les donnes compltes. Utilisez nimporte quelle procdure prenant en charge les

donnes imputation multiple. Consultez Analyse de donnes imputation multiple sur p. 29


pour obtenir des informations sur lanalyse des ensembles de donnes imputation multiple et sur
une liste de procdures prenant en charge ces donnes.

Copyright IBM Corporation 1989, 2011.

Chapitre

Analyse des valeurs manquantes

La procdure danalyse de la valeur manquante excute trois fonctions principales :

Elle dcrit le type des donnes manquantes. Quel est lemplacement des valeurs manquantes ?
Quelle est limportance de leur nombre ? Les paires de variables ont-elles tendance contenir
des valeurs manquantes dans les observations multiples ? Les donnes ont-elles des valeurs
extrmes ? Les valeurs manquent-elles de faon alatoire ?

Estime les moyennes, carts-types, covariances et corrlations pour diffrentes


mthodes relatives aux valeur manquantes : par liste, par pair, rgression ou EM
(prvision-maximisation). La mthode concernant seulement les composantes non valides
affiche galement leffectif des observations compltes par paires.

Remplit (impute) les valeurs manquantes avec des valeurs estimes laide de mthodes de
rgression ou EM ; mais les rsultats de limputation multiple sont gnralement considrs
comme plus prcis.

Lanalyse des valeurs manquantes vous aide aborder de nombreux problmes causs par des
donnes incompltes. Si des observations avec valeurs manquantes sont systmatiquement
diffrentes dobservations sans valeurs manquantes, cela peut aboutir des rsultats errons.
De mme, les donnes manquantes peuvent rduire la prcision des statistiques calcules car
linformation disponible est infrieure celle initialement prvue. Un autre problme est que
les hypothses effectues en aval de nombreuses procdures statistiques sont bases sur des
observations compltes et que les valeurs manquantes peuvent compliquer la thorie requise.
Exemple : Lors de lvaluation dun traitement contre la leucmie, plusieurs variables sont
mesures. Cependant, toutes les mesures diffrentes ne sont pas disponibles pour chaque patient.
Le type des donnes manquantes est affich, mis en tableau et savre tre alatoire. Une analyse
EM est utilise afin destimer les moyennes, les corrlations et les covariances. Elle permet
galement de dterminer si les donnes sont des valeurs manquantes compltement alatoires. Les
valeurs manquantes sont remplaces par des valeurs imputes et enregistres dans un nouveau
fichier de donnes pour des analyses supplmentaires.
Statistiques : Statistiques univaries incluant le nombre de valeurs non manquantes, la moyenne et
lcart-type, et le nombre de valeurs manquantes et de valeurs extrmes. Moyennes estimes,
matrice de covariance, matrice de corrlation dtermines laide des mthodes de type toutes
observations incompltes, seulement les composantes non valides, des mthodes EM ou de
rgression. Le test MCAR avec les rsultats EM. Rcapitulatif des moyennes par diffrentes
mthodes. Pour les groupes dfinis par des valeurs manquantes par opposition ceux dfinis par
des valeurs non manquantes : Tests T. Pour toutes les variables : modles des valeurs manquantes
affiches observations-par-variable.

Copyright IBM Corporation 1989, 2011.

3
Analyse des valeurs manquantes

Analyse des donnes


Donnes. Les donnes peuvent tre nominales ou quantitatives (chelle ou continues). Toutefois,
vous ne pouvez estimer les statistiques et imputer les donnes manquantes que pour les variables
quantitatives. Pour chaque variable, les valeurs manquantes qui ne sont pas codes comme
Manquantes systme doivent tre dfinies comme Manquantes utilisateur. Par exemple, si dans un
questionnaire, lun des lments a pour rponse Ne sais pas, que cette rponse est code par le
chiffre 5 et que vous souhaitez traiter cette rponse comme manquante, llment concern se
verra alors attribuer 5 comme valeur manquante utilisateur.
Pondrations deffectif. Cette procdure utilise les pondrations deffectifs (rplication). Les

observations ayant une valeur de pondration de rplication ngative ou nulle sont ignores.
Les pondrations non entires sont tronques.
Hypothses : Lestimation selon lexclusion de toute observation incomplte, lexclusion

seulement des paires non valides ou lexclusion de rgression sont bases sur lhypothse que le
motif des valeurs manquantes ne dpend pas des valeurs des donnes. (Cette condition est connue
sous le terme Valeur manquante compltement alatoire ou MCAR.) Par consquent, toutes les
mthodes destimation (y compris la mthode EM) donnent des estimations cohrentes et non
biaises des corrlations et des covariances lorsque les donnes sont de type MCAR. La violation
de lhypothse MCAR peut aboutir des estimations biaises produites par les mthodes de
rgression, de type toutes observations incompltes ou de type seulement les composantes non
valides. Si les donnes ne sont pas de type MCAR, vous devez utiliser lestimation EM.
Les estimations EM sont bases sur lhypothse que le modle des donnes manquantes est
uniquement li aux donnes observes. (Cette condition est appele valeur manquante alatoire,
ou MAR.) Cette hypothse permet dajuster les estimations laide des informations disponibles.
Par exemple, dans une enqute portant sur les tudes et le revenu, il est possible que les sujets
ayant un bas niveau dtudes prsentent davantage de valeurs de revenu manquantes. Dans ce
cas, les donnes sont de type MAR, au lieu de MCAR. En dautres termes, pour le type MAR,
la probabilit que le revenu soit enregistr dpend du niveau dtudes du sujet. La probabilit
peut varier en fonction du niveau dtudes, mais pas en fonction du revenu au sein de chaque
niveau dtudes. Si la probabilit denregistrement du revenu varie aussi en fonction de la valeur
du revenu dans chaque niveau dtudes (par exemple, les personnes qui ont des revenus levs
sont susceptibles de ne pas les indiquer), les donnes ne sont ni de type MCAR, ni de type MAR.
Cette situation nest pas rare et, lorsquelle se prsente, aucune des mthodes nest approprie.
Procdures apparentes : De nombreuses procdures vous permettent dutiliser lestimation de
type toutes observations incompltes ou de type seulement les composantes non valides. Lanalyse
de rgression et facteur linaires autorise le remplacement des valeurs manquantes par les valeurs
moyennes. Dans le module complmentaire Prvisions, plusieurs mthodes sont disponibles afin
de remplacer les valeurs manquantes en sries chronologiques.

Pour obtenir une analyse des valeurs manquantes


E A partir des menus, slectionnez :
Analyse > Analyse des valeurs manquantes

4
Chapitre 2
Figure 2-1
Bote de dialogue Analyse des valeurs manquantes

E Slectionnez au moins une variable quantitative (chelle) pour lestimation des statistiques et,

ventuellement, pour limputation des valeurs manquantes.


Sinon, vous pouvez :

Slectionner des variables qualitatives (numriques ou chane) et entrer une limite relative au
nombre de modalits (Modalits maximales).

Cliquez sur Modles pour mettre en tableau les patrons de donnes manquantes. Pour plus
d'informations, reportez-vous la section Affichage des patrons de valeurs manquantes sur
p. 5.

Cliquez sur Descriptives pour afficher les statistiques descriptives des valeurs manquantes.
Pour plus d'informations, reportez-vous la section Affichage des statistiques descriptives
des valeurs manquantes sur p. 7.

Slectionnez une mthode destimation des statistiques (moyennes, covariances et


corrlations) et, ventuellement, dimputation des valeurs manquantes. Pour plus
d'informations, reportez-vous la section Estimation des statistiques et imputation des valeurs
manquantes sur p. 8.

Si vous slectionnez EM ou Rgression, cliquez sur Variables... pour spcifier le sous-ensemble


utiliser pour lestimation. Pour plus d'informations, reportez-vous la section Variables
dpendantes et variables prdites sur p. 12.

Slectionnez une variable dtiquette dobservation. Cette variable permet dtiqueter les
observations dans les tableaux de patrons qui affichent des observations individuelles.

5
Analyse des valeurs manquantes

Affichage des patrons de valeurs manquantes


Figure 2-2
Bote de dialogue Modles danalyses des valeurs manquantes

Vous pouvez choisir dafficher diffrents tableaux montrant les patrons et ltendue des donnes
manquantes. Ces tableaux vous permettent didentifier :

Lemplacement des valeurs manquantes.

Si les paires de variables ont tendance contenir des valeurs manquantes dans les observations
individuelles.

Si les valeurs de donnes sont extrmes.

Affichage

Trois types de tableaux sont disponibles pour laffichage des patrons de donnes manquantes.
Observations mises en tableau. Les patrons de valeurs manquantes dans les variables danalyse

sont mis en tableau, avec affichage des frquences pour chaque patron. Utilisez loption Trier
les variables par modle de valeur manquante pour indiquer si les effectifs et les variables sont
tris selon la similarit des patrons. Utilisez loption Omettez les modles avec moins de n %
dobservation pour liminer les patrons qui se produisent rarement.
Observations avec valeurs manquantes. Chaque observation contenant une valeur manquante ou
extrme est mise en tableau pour chaque variable danalyse. Utilisez loption Trier les variables
par modle de valeur manquante pour indiquer si les effectifs et les variables sont tris selon la
similarit des patrons.

6
Chapitre 2

Toutes les observations. Chaque observation est mise en tableau, avec indication des valeurs

manquantes et extrmes pour chaque variable. Les observations sont listes suivant lordre
dans lequel elles apparaissent dans le fichier de donnes, moins quune variable de tri ne soit
spcifie dans Trier par.
Les symboles suivants sont utiliss dans les tableaux qui affichent des observations individuelles :
+
-

Valeur extrmement haute


Valeur extrmement basse
Valeur manquante par dfaut
Premier type de valeur manquante utilisateur
Second type de valeur manquante utilisateur
Troisime type de valeur manquante utilisateur

S
A
B
C

Variables

Vous pouvez afficher des informations supplmentaires sur les variables incluses dans lanalyse.
Les variables que vous ajoutez loption Informations supplmentaires pour apparaissent
sparment dans le tableau des patrons manquants. Pour les variables quantitatives (chelle), cest
la moyenne qui apparat ; dans le cas des variables qualitatives, il sagit du nombre dobservations
correspondant un type dans chacune des modalits.

Trier par. Les observations sont listes selon lordre croissant ou dcroissant des valeurs de la

variable spcifie. Uniquement disponible pour Toutes les observations.


Pour spcifier les types de valeurs manquantes
E Dans la bote de dialogue principale Analyse des valeurs manquantes, slectionnez les variables

pour lesquelles vous souhaitez afficher les patrons de valeurs manquantes.


E Cliquez sur Modles.
E Slectionnez les tableaux de patron afficher.

7
Analyse des valeurs manquantes

Affichage des statistiques descriptives des valeurs manquantes


Figure 2-3
Analyse des valeurs manquantes Bote de dialogue Descriptives

Statistiques univaries

Les statistiques univaries vous permettent didentifier ltendue gnrale des donnes
manquantes. Pour chaque variable, les lments suivants apparaissent :

Nombre de valeurs non manquantes

Nombre et pourcentage de valeurs manquantes

Pour les variables quantitatives (chelle), les lments suivants apparaissent galement :

Moyenne

Ecart type

Nombre de valeurs extrmement leves et basses

Statistiques variable indicatrice

Pour chaque variable, une variable indicatrice est cre. Cette variable qualitative indique si la
variable est prsente ou manquante pour une observation individuelle. Les variables indicatrices
permettent de crer la disparit, le test t et les tableaux de frquences.
Pourcentage de disparit. Affiche, pour chaque paire de variables, le pourcentage dobservations
pour lesquelles une variable a une valeur manquante tandis que lautre variable a une variable
non manquante. Dans le tableau, chaque lment diagonal contient le pourcentage des valeurs
manquantes pour une seule variable.
t tests avec groupes forms daprs les variables dindication. Les moyennes de deux groupes

sont compares pour chaque variable quantitative, en utilisant les statistiques t de Student. Les
groupes indiquent si une variable est prsente ou manquante. Les statistiques t, les degrs de
libert, les effectifs des valeurs manquantes ou non manquantes et les moyennes des deux groupes
sont affichs. Vous pouvez galement afficher toutes les probabilits bilatrales associes aux
statistiques t. Si lanalyse aboutit au moins deux tests, nutilisez pas ces probabilits pour tester
la signification. Les probabilits ne sont appropries que lorsquun seul test est calcul.

8
Chapitre 2

Mises en tableau croiss de variables dindication et nominales. Un tableau est affich pour chaque

variable qualitative. Pour chacune des modalits, le tableau montre la frquence et le pourcentage
des valeurs non manquantes pour les autres variables. Les pourcentages de chaque type de valeur
manquante sont galement affichs.
Omettez les variables pour lesquelles il manque moins de n % dobservations.Pour rduire la

dimension des tableaux, vous pouvez omettre les statistiques qui ne sont calcules que pour un
petit nombre dobservations.
Pour afficher des statistiques descriptives
E Dans la bote de dialogue principale Analyse des valeurs manquantes, slectionnez les variables

pour lesquelles vous souhaitez afficher les statistiques descriptives des valeurs manquantes.
E Cliquez sur Descriptives.
E Slectionnez les statistiques descriptives afficher.

Estimation des statistiques et imputation des valeurs manquantes


Vous pouvez estimer les moyennes, les carts-types, les covariances et les corrlations laide
des mthodes de type toutes observations incompltes, de type seulement les composantes non
valides, EM (prvision-maximisation) et/ou de rgression. Vous pouvez galement imputer les
valeurs manquantes (valeurs de remplacement destimation). Notez que lImputation multiple est
gnralement considre comme suprieure limputation simple pour rsoudre le problme des
valeurs manquantes. Le test MCAR Little reste utile pour dterminer si limputation est ncessaire.
Mthode de type toutes observations incompltes

Cette mthode utilise uniquement des observations compltes. Si lune des variables danalyse
comprend des valeurs manquantes, lobservation est exclue du calcul.
Mthode de type seulement les composantes non valides

Cette mthode considre les paires de variables danalyse et nutilise une observation que si elle
possde des valeurs non manquantes pour les deux variables. Les frquences, les moyennes et
les carts-types sont calculs sparment pour chaque paire. Etant donn que les autres valeurs
manquantes dans lobservation sont ignores, les corrlations et les covariances pour deux
variables ne dpendent pas des valeurs faisant dfaut dans les autres variables.
Mthode EM

Cette mthode suppose une distribution pour les donnes partiellement manquantes et base les
infrences sur la probabilit sous cette distribution. Chaque itration se compose dune tape E et
dune tape M. Ltape E recherche la prvision conditionnelle des donnes manquantes , en
fonction des valeurs observes et des estimations en cours des paramtres. Ces prvisions sont
ensuite substitues aux donnes manquantes . Dans ltape M, les estimations du maximum
de vraisemblance des paramtres sont calcules comme si les donnes manquantes avaient t

9
Analyse des valeurs manquantes

remplies. Le terme manquantes est indiqu entre guillemets, car les valeurs manquantes
ne sont pas directement remplies. En fait, certaines de leurs fonctions sont utilises dans le
log-vraisemblance.
La statistique du Khi-deux de Roderick J. A. Little, qui permet de tester si les valeurs sont de
type valeur manquante compltement alatoire (MCAR), apparat sous la forme dune note de bas
de page dans les matrices EM. Pour ce test, lhypothse nulle est que les donnes sont de type
MCAR et la valeur p est significative au niveau 0,05. Si la valeur est infrieure 0,05, les donnes
ne sont pas des valeurs manquantes compltement alatoires. Les donnes peuvent tre de type
MAR ou NMAR (valeur non manquante alatoire). Vous ne pouvez pas supposer lun ou lautre
type et devez analyser les donnes pour dterminer dans quelle mesure elles sont manquantes.
Mthode de rgression :

Cette mthode calcule plusieurs estimations de rgression linaire et permet daugmenter les
estimations laide de composants alatoires. A chaque valeur prvue, la procdure peut ajouter
un rsidu partir dune observation complte slectionne alatoirement, un cart normal
alatoire ou un cart alatoire (redimensionn par la racine carre du carr moyen rsiduel)
partir de la distribution t.

Options de lestimation EM
Figure 2-4
Analyse des valeurs manquantes. Bote de dialogue EM.

En utilisant un processus itratif, la mthode EM estime la moyenne, la matrice de covariance et la


corrlation des variables quantitatives (chelle) prsentant des valeurs manquantes.
Distribution : La mthode EM effectue des infrences bases sur la vraisemblance sous la

distribution spcifie. Par dfaut, une distribution normale est suppose. Sil est tabli que les
extrmits de la distribution sont plus allonges que celles dune distribution normale, vous pouvez
demander que la procdure construise la fonction de vraisemblance partir dune distribution t de

10
Chapitre 2

Student avec n degrs de libert. En outre, la distribution mixte normale fournit une distribution
avec des extrmits plus longues. Spcifiez le ratio des carts-types de la distribution mixte
normale et la proportion du mlange des deux distributions. La distribution mixte normale suppose
que seuls les carts-types des distributions diffrent. Les moyennes doivent tre les mmes.
Nombre maximum ditrations : Fixe le nombre maximum ditrations pour estimer la vritable

covariance. La procdure sarrte lorsque ce nombre ditrations est atteint, mme si les
estimations nont pas converg.
Enregistre les donnes compltes. Vous pouvez enregistrer un ensemble de donnes avec les

valeurs imputes la place des valeurs manquantes. Toutefois, gardez lesprit que les statistiques
bases sur la covariance qui utilisent les valeurs imputes sous-estimeront leurs valeurs de
paramtre respectives. Le degr de sous-estimation est proportionnel au nombre dobservations
non observes conjointement.
Spcifier les options EM
E Dans la bote de dialogue principale Analyse des valeurs manquantes, slectionnez les variables

pour lesquelles vous souhaitez estimer les valeurs manquantes laide de la mthode EM.
E Slectionnez EM dans le groupe Estimation.
E Pour spcifier les variables dpendantes (prvues) et explicatives, cliquez sur Variables. Pour plus

d'informations, reportez-vous la section Variables dpendantes et variables prdites sur p. 12.


E Cliquez sur EM.
E Slectionnez les options EM souhaites.

Options de lestimation de la rgression


Figure 2-5
Analyse des valeurs manquantes. Bote de dialogue Rgression

11
Analyse des valeurs manquantes

La mthode de rgression estime les valeurs manquantes laide de plusieurs rgressions linaires.
La moyenne, la matrice de covariance et la matrice de corrlation des prvisions sont affiches.
Ajustement de lestimation. La mthode de rgression peut ajouter un composant alatoire aux

estimations de la rgression. Vous pouvez slectionner rsidus, normales, t de Student ou aucun


ajustement.

Rsidus. Les termes d'erreur sont choisis de manire alatoire partir des rsidus observs de

l'ensemble des observations ajouter aux estimations de la rgression.

Normale. Les termes d'erreur sont choisis de manire alatoire partir d'une distribution de

valeur thorique 0 et d'cart-type gal la racine carre du terme d'erreur sur la moyenne
des carrs de la rgression.

t de Student. Les termes d'erreur sont choisis de manire alatoire partir de la distribution

t(n), et redimensionns par l'erreur sur la racine de la moyenne des carrs (RMSE).
Nombre maximum de prdicteurs. Fixe une limite maximale pour le nombre de variables prdites

(indpendantes) utilises dans le processus destimation.


Enregistre les donnes compltes. Ecrit un ensemble de donnes dans la session en cours ou dans

un fichier de donnes externe IBM SPSS Statistics, avec les valeurs manquantes remplaces
par des valeurs estimes via la mthode de rgression.
Spcifier les options de rgression
E Dans la bote de dialogue principale Analyse des valeurs manquantes, slectionnez les variables

pour lesquelles vous souhaitez estimer les valeurs manquantes laide de la mthode de rgression.
E Slectionnez Rgression dans le groupe Estimation.
E Pour spcifier les variables dpendantes (prvues) et explicatives, cliquez sur Variables. Pour plus

d'informations, reportez-vous la section Variables dpendantes et variables prdites sur p. 12.


E Cliquez sur Rgression.
E Slectionnez les options de rgression souhaites.

12
Chapitre 2

Variables dpendantes et variables prdites


Figure 2-6
Analyse des valeurs manquantes. Bote de dialogue Variables pour EM et Rgression

Par dfaut, toutes les variables quantitatives sont utilises pour lestimation par EM et rgression.
Le cas chant, vous pouvez choisir des variables spcifiques en tant que variables dpendantes et
variables prdites dans les estimations. Une variable donne peut figurer dans les deux listes ;
cependant, dans certaines circonstances, vous pouvez tre amen limiter lutilisation dune
variable. Par exemple, certains analystes trouvent inconfortable destimer les valeurs des variables
de sortie. Il se peut galement que vous prfriez utiliser diffrentes variables pour diffrentes
estimations et excuter la procdure plusieurs fois. Par exemple, si un ensemble dlments
contient les valuations des infirmires et un autre les valuations des mdecins, vous pouvez
tre amen lancer un traitement laide des lments des infirmires pour estimer les lments
manquants des infirmires et un autre pour estimer les lments des mdecins.
Lutilisation de la mthode de rgression soulve un autre point. Dans la rgression multiple,
lutilisation dun sous-ensemble volumineux de variables indpendantes peut gnrer des valeurs
prvues moins pertinentes que celles produites par un sous-ensemble plus petit. Par consquent,
une variable ne peut tre utilise que si elle atteint une limite F pour introduire de 4,0. Cette
limite peut tre modifie laide dune syntaxe.
Pour spcifier les variables dpendantes et les variables prdites
E Dans la bote de dialogue principale Analyse des valeurs manquantes, slectionnez les variables

pour lesquelles vous souhaitez estimer les valeurs manquantes laide de la mthode de rgression.
E Slectionnez EM ou Rgression dans le groupe Estimation.

13
Analyse des valeurs manquantes
E Cliquez sur Variables.
E Si vous souhaitez utiliser des variables spcifiques, plutt que la totalit des variables, en guise
de variables dpendantes et de variables prdites, slectionnez Slectionner les variables, puis

dplacez les variables vers les listes appropries.

Commande MVA. Descriptives additionnelles


Le langage de syntaxe de commande vous permet aussi de :

Spcifier diffrentes variables descriptives pour les types de valeur manquante, les types de
donnes et les types mis en tableau laide du mot-cl DESCRIBE dans les sous-commandes
MPATTERN, DPATTERN ou TPATTERN.

Spcifier plusieurs variables de tri pour le tableau de types de donnes laide de la


sous-commande DPATTERN.

Spcifier plusieurs variables de tri pour les types de donnes laide de la sous-commande
DPATTERN.

Spcifier la tolrance et la convergence laide de la sous-commande EM.

Spcifier la tolrance et F pour introduire laide de la sous-commande REGRESSION.

Spcifier diffrentes listes de variables pour les paramtres EM et Rgression via les
sous-commandes EM et REGRESSION.

Spcifier diffrents pourcentages en vue de supprimer les observations affiches pour chaque
paramtre TTESTS, TABULATE et MISMATCH.

Reportez-vous la Rfrence de syntaxe de commande pour une information complte concernant


la syntaxe.

Chapitre

Imputation multiple

Le but de limputation multiple est de gnrer des valeurs possibles pour les valeurs manquantes
et de crer ainsi plusieurs ensembles de donnes complets. Les procdures analytiques qui
utilisent des ensembles de donnes imputation multiple produisent des rsultats pour chaque
ensemble de donnes complet en plus de rsultats combins qui valuent quels auraient t les
rsultats si lensemble de donnes dorigine ne contenait pas de valeurs manquantes. Ces rsultats
combins sont gnralement plus prcis que ceux des mthodes dimputation simple.
Variables danalyse. Les variables danalyse peuvent tre :

Nominal. Une variable peut tre traite comme tant nominale si ses valeurs reprsentent des

modalits sans classement intrinsque (par exemple, le service de la socit dans lequel
travaille un employ). La rgion, le code postal ou l'appartenance religieuse sont des
exemples de variables nominales.

Ordinal. Une variable peut tre traite comme tant ordinale si ses valeurs reprsentent des

modalits associes un classement intrinsque (par exemple, des niveaux de satisfaction


allant de Trs mcontent Trs satisfait). Exemples de variable ordinale : des scores
d'attitude reprsentant le degr de satisfaction ou de confiance, et des scores de classement
des prfrences.

Echelle. Une variable peut tre traite comme une variable d'chelle (continue) si ses valeurs

reprsentent des modalits ordonnes avec une mesure significative, de sorte que les
comparaisons de distance entre les valeurs soient adquates. L'ge en annes et le revenu en
milliers de dollars sont des exemples de variable d'chelle.
La procdure considre que le niveau de mesure appropri a t assign toutes les variables,
bien que vous puissiez changer provisoirement le niveau de mesure dune variable en cliquant
avec le bouton droit de la souris sur la variable dans la liste des variables source, puis en
slectionnant un niveau de mesure dans le menu contextuel.
Dans la liste des variables, une icne indique le niveau de mesure et le type de donnes :
Numrique
Echelle (continue).

Chane
n/a

Date

Heure

Ordinal
Nominal

Pondrations deffectif. Cette procdure utilise les pondrations deffectifs (rplication). Les

observations ayant une valeur de pondration de rplication ngative ou nulle sont ignores. Les
pondrations non entires sont arrondies lentier le plus proche.
Copyright IBM Corporation 1989, 2011.

14

15
Imputation multiple

Pondration danalyse. Les pondrations (de rgression ou dchantillon) danalyse sont intgres

aux rcapitulatifs des valeurs manquantes et aux modles dimputation appropris. Les
observations ayant une pondration danalyse ngative ou nulle sont exclues.
Echantillonnage. La procdure dImputation multiple ne traite pas de manire explicite les strates,
les classes ou les autres structures dchantillon complexes, bien quelle puisse accepter les
pondrations dchantillons finales sous la forme de variable de pondration danalyse. Remarque
: actuellement, les prodcures dchantillonage complexe nanalysent pas de manire automatique
les ensembles de donnes imputation multiple. Pour une liste complte des procdures prenant
en charge le regroupement, reportez-vous Analyse de donnes imputation multiple sur p. 29.
Valeurs manquantes : Les valeurs manquantes utilisateur et par dfaut sont traites comme des

valeurs non valides, cest--dire que ces deux types de valeurs manquantes sont remplacs lorsque
des valeurs sont imputes et les deux sont traits comme valeurs non valides de variables utilises
comme variables prdites dans les modles dimputation. Les valeurs manquantes utilisateur et
par dfaut sont galement traites comme manquantes dans les analyses de valeurs manquantes.
Rplication de rsultats (Imputer des valeurs de donnes manquantes). Si vous souhaitez rpliquer

exactement vos rsultats dimputation, outre les mmes paramtres de procdure, utilisez la mme
valeur dinitialisation pour le gnrateur de nombres alatoires, le mme ordre de donnes et le
mme ordre de variables.

Gnration de nombres alatoires. La procdure utilise la gnration de nombres alatoires

pendant le calcul des valeurs imputes. Pour reproduire les mmes rsultats alatoires
lavenir, utilisez la mme valeur dinitialisation pour le gnrateur de nombres alatoires
avant chaque excution de la procdure dimputation des valeurs de donnes manquantes.

Tri par observation. Les valeurs sont imputes suivant lordre des observations.

Ordre des variables. La mthode dimputation spcification entirement conditionnelle

(FCS) impute des valeurs dans lordre spcifi dans la liste Variables danalyse.
Il existe deux botes de dialogue associes limputation multiple.

Analyser les modles contient des mesures descriptives des modles de valeurs manquantes
dans les donnes et peut servir dtape dexploration avant limputation.

Imputer les valeurs de donnes manquantes permet de gnrer des imputations multiples. Les
ensembles de donnes complets peuvent tre analyss avec des procdures prenant en charge
des ensembles de donnes imputation multiple. Consultez Analyse de donnes imputation
multiple sur p. 29 pour obtenir des informations sur lanalyse des ensembles de donnes
imputation multiple et sur une liste de procdures prenant en charge ces donnes.

Analyser les modles


Analyser les modles contient des mesures descriptives des modles de valeurs manquantes dans
les donnes et peut servir dtape dexploration avant limputation.
Exemple : Un fournisseur de services de tlcommunication souhaite mieux comprendre les types

dutilisation des services dans sa base de donnes client. Il dispose de donnes compltes sur les
services utiliss par les clients, mais les informations dmographiques collectes par lentreprise
comportent certaines valeurs manquantes. Lanalyse des modles des valeurs manquantes

16
Chapitre 3

peut contribuer dterminer les tapes suivantes de limputation. Pour plus d'informations,
reportez-vous la section Utilisation de limputation multiple pour complter et analyser un
ensemble de donnes dans le chapitre 5 sur p. 50.
Pour analyser les modles de donnes manquantes

A partir des menus, slectionnez :


Analyse > Imputation multiple > Analyser les modles
Figure 3-1
Bote de dialogue Analyser les modles

E Slectionnez au moins deux variables danalyse. La procdure analyse les modles de donnes

manquantes pour ces variables.


Paramtres facultatifs
Pondration danalyse. Cette variable contient des pondrations (de rgression ou dchantillon)

danalyse. La procdure intgre des pondrations danalyse aux rcapitulatifs des valeurs
manquantes. Les observations ayant une pondration danalyse ngative ou nulle sont exclues.
Rsultats. Le rsultat facultatif suivant est disponible :

Rcapitulatif des valeurs manquantes. Il affiche un diagramme de panels en secteurs qui

indique le nombre et le pourcentage de variables danalyse, dobservations ou de valeurs de


donnes individuelles qui contiennent une ou plusieurs valeurs manquantes.

Modles de valeurs manquantes. Permet dafficher des modles mis en tableau de valeurs

manquantes. Chaque modle correspond un groupe dobservations avec le mme modle


de donnes compltes et incompltes dans les variables danalyse. Vous pouvez utiliser ces

17
Imputation multiple

rsultats pour dterminer si la mthode dimputation monotone peut tre utilise pour vos
donnes, et dans le cas contraire, si vos donnes sont proches dun modle monotone. La
procdure ordonne les variables danalyse pour rvler ou ressembler un modle monotone.
Si aucun modle monotone nexiste aprs la rorganisation, vous pouvez en conclure que les
donnes ont un modle monotone lorsque les variables danalyse sont ordonnes ainsi.

Variables avec leffectif le plus lev de valeurs manquantes. Affiche un tableau des variables

danalyse tries par pourcentage de valeurs manquantes dans lordre dcroissant. Ce tableau
comprend des statistiques descriptives (moyenne et cart-type) pour les variables dchelle.
Vous pouvez contrler le nombre de variables maximum afficher et le pourcentage minimum
manquant pour une variable afficher. Lensemble des variables qui rpondent aux deux
critres est affich. Par exemple, dfinir le nombre de variables maximum sur 50 et le
pourcentage minimum manquant sur 25 demande que le tableau affiche jusqu 50 variables
ayant au moins 25% de valeurs manquantes. Sil existe 60 variables danalyse mais que 15
seulement ont 25% ou plus de valeurs manquantes, le rsultat ne comprendra que 15 variables.

Imputer les valeurs de donnes manquantes


Imputer les valeurs de donnes manquantes permet de gnrer des imputations multiples. Les
ensembles de donnes complets peuvent tre analyss avec des procdures prenant en charge des
ensembles de donnes imputation multiple. Consultez Analyse de donnes imputation multiple
sur p. 29 pour obtenir des informations sur lanalyse des ensembles de donnes imputation
multiple et sur une liste de procdures prenant en charge ces donnes.
Exemple : Un fournisseur de services de tlcommunication souhaite mieux comprendre les types

dutilisation des services dans sa base de donnes client. Il dispose de donnes compltes sur les
services utiliss par les clients, mais les informations dmographiques collectes par lentreprise
comportent certaines valeurs manquantes. De plus, ces valeurs ne sont pas manquantes de faon
compltement alatoire. Par consquent, limputation multiple sera utilise pour complter
lensemble de donnes. Pour plus d'informations, reportez-vous la section Utilisation de
limputation multiple pour complter et analyser un ensemble de donnes dans le chapitre 5
sur p. 50.
Pour imputer les valeurs de donnes manquantes

A partir des menus, slectionnez :


Analyse > Imputation multiple > Imputer les valeurs des donnes manquantes

18
Chapitre 3
Figure 3-2
Imputer les valeurs de donnes manquantes Onglet Variables

E Slectionner au moins deux variables dans le modle dimputation. La procdure impute des

valeurs multiples pour les valeurs manquantes de ces variables.


E Spcifiez le nombre dimputations calculer. Par dfaut, cette valeur est 5.
E Spcifiez un ensemble de donnes ou un fichier de donnes au format IBM SPSS Statistics

dans lequel les donnes imputes devront tre crites.


Lensemble de donnes de sortie comprend les donnes dobservation initiales avec des donnes
manquantes, ainsi quun ensemble dobservations avec des valeurs imputes pour chaque
imputation. Par exemple, si lensemble de donnes initial comprend 100 observations et que vous
ayez 5 imputations, lensemble de donnes de sortie comportera 600 observations. Toutes les
variables dans lensemble de donnes dentre sont incluses dans lensemble de donnes de sortie.
Les proprits du dictionnaire (noms, tiquettes, etc.) des variables existantes sont copies dans le
nouvel ensemble de donnes. Le fichier contient galement une nouvelle variable, Imputation_,
une variable numrique qui indique limputation (0 pour les donnes dorigine, ou 1..n pour
les observations ayant des valeurs imputes).

19
Imputation multiple

La procdure dfinit automatiquement la variable Imputation_ comme variable de scission aprs


la cration de lensemble de donnes de sortie. Si des scissions sont actives lorsque la procdure
est excute, lensemble de donnes de sortie comprend un ensemble dimputations pour chaque
combinaison de valeurs de variables de scission.
Paramtres facultatifs
Pondration danalyse. Cette variable contient des pondrations (de rgression ou dchantillon)

danalyse. La procdure intgre des pondrations danalyse en rgression et des modles de


classification utiliss pour imputer les valeurs manquantes. Les pondrations danalyse sont
galement utilises dans les rcapitulatifs de valeurs imputes ; par exemple, la moyenne,
lcart-type et lerreur standard. Les observations ayant une pondration danalyse ngative
ou nulle sont exclues.
Champs avec un niveau de mesure inconnu

Lalerte du niveau de mesure apparat lorsque le niveau de mesure dune ou plusieurs variables
(champs) de lensemble de donnes est inconnu. Le niveau de mesure ayant une incidence sur
le calcul des rsultats de cette procdure, toutes les variables doivent avoir un niveau de mesure
dfini.
Figure 3-3
Alerte du niveau de mesure

Analysez les donnes. Lit les donnes dans lensemble de donnes actifs et attribue le niveau

de mesure par dfaut tous les champs ayant un niveau de mesure inconnu. Si lensemble de
donnes est important, cette action peut prendre un certain temps.

Attribuer manuellement. Ouvre une bote de dialogue qui rpertorie tous les champs ayant un

niveau de mesure inconnu. Vous pouvez utiliser cette bote de dialogue pour attribuer un
niveau de mesure ces champs. Vous pouvez galement attribuer un niveau de mesure dans
laffichage des variables de lditeur de donnes.
Le niveau de mesure tant important pour cette procdure, vous ne pouvez pas accder la bote
de dialogue dexcution de cette procdure avant que tous les champs naient des niveaux de
mesure dfinis.

20
Chapitre 3

Mthode
Figure 3-4
Imputer les valeurs de donnes manquantes Onglet Mthode

Longlet Mthode spcifie de quelle manire les valeurs manquantes seront imputes, y compris
les types des modles utiliss. Les valeurs prdites sont codes par indicateurs (factices).
Mthode dimputation. La mthode Automatique analyse les donnes et utilise la mthode monotone

si les donnes prsentent un modle de valeurs manquantes monotone ; le reste du temps, la


spcification entirement conditionnelle est utilise. Si vous tes certain de la mthode utiliser,
vous pouvez la spcifier comme mthode personnalise.

Spcification entirement conditionnelle. Il sagit dune mthode de Monte Carlo par chanes

de Markov (MCMC) itrative pouvant tre utilise lorsque le modle de donnes manquantes
est arbitraire (monotone ou non).
Pour chaque itration et pour chaque variable dans lodre spcifi par la liste de variables,
la mthode de spcification entirement conditionnelle (FCS) ajuste un modle univari
(variable dpendante unique) en utilisant toutes les autres variables du modle comme
variables prdites, et impute ensuite les valeurs manquantes pour la variable ajuster. Cette
mthode se poursuit jusqu ce que le nombre maximal ditrations soit atteint, et les valeurs
imputes litration maximale sont enregistres dans lensemble de donnes imput.

21
Imputation multiple

Nombre maximum ditrations : Spcifie le nombre ditrations, ou dtapes, utilises par les

chanes de Markov dans la mthode FCS. Si la mthode FCS a t choisie automatiquement,


elle utilise 10 itrations par dfaut. Lorsque vous avez prcisment choisi FCS, vous pouvez
spcifier un nombre ditrations personnalis. Vous pourriez avoir augmenter le nombre
ditrations si la chane de Markov na pas converg. Dans longlet Rsultats, vous pouvez
enregistrer les donnes de lhistorique des itrations FCS et les visualiser sous forme de
diagramme pour valuer la convergence.

Monotone. Mthode non-itrative pouvant tre utilise uniquement lorsque les donnes

prsentent un modle de valeurs manquantes monotone. Un modle monotone existe lorsquil


est possible dordonner les variables de faon ce que, si une variable a une valeur non
manquante, toutes les variables prcdentes auront galement des valeurs non manquantes.
Lorsque vous la spcifiez comme une mthode Personnalise, veillez spcifier les variables
de la liste dans un ordre faisant apparatre un modle monotone.
Pour chaque variable de lordre monotone, la mthode monotone ajuste un modle univari
(variable dpendante unique) en utilisant toutes les variables prcdentes comme variables
prdites, et impute ensuite les valeurs manquantes pour la variable ajuster. Ces valeurs
imputes sont enregistres dans lensemble de donnes imput.
Inclure les interactions bidirectionnelles. Lorsque la mthode dimputation est automatiquement
choisie, le modle dimputation de chaque variable comprend un terme constant et des effets
majeurs pour les variables prdites. Losquune mthode spcifique est choisie, vous pouvez, si
vous le dsirez, inclure toutes les interactions bidirectionnelles possibles parmi les variables
prdites catgorielles.
Type de modle pour les variables dchelle. Lorsque la mthode dimputation est automatiquement

slectionne, la rgression linaire est utilise comme modle univari pour les variables
dchelle. Lorsquune mthode spcifique est choisie, vous pouvez galement choisir lgalisation
par la moyenne prdictive (PMM) comme modle pour les variables dchelle. La mthode PMM
est une variante de rgression linaire qui faire concorder les valeurs imputes par le modle de
rgression et la valeur observe la plus proche.
La rgression logistique est toujours utilise comme modle univari pour les variables
catgorielles. Indpendamment du type de modle, les variables prdites qualitatives sont traites
laide du codage par indicateurs (factice).
Tolrance singularit : Les matrices singulires (ou non inversables) comportent des colonnes

linairement dpendantes, ce qui peut provoquer de graves problmes pour lalgorithme


destimation. Mme les matrices presque singulires peuvent gnrer des rsultats mdiocres.
Cest pourquoi la procdure traite une matrice dont le dterminant est infrieur la tolrance en
tant que matrice singulire. Indiquez une valeur positive.

22
Chapitre 3

Contraintes
Figure 3-5
Imputer les valeurs de donnes manquantes Onglet Contraintes

Longlet Contraintes vous permet de restreindre le rle dune variable pendant limputation et de
restreindre la plage des valeurs imputes dune variable dchelle afin quelles soient plausibles.
De plus, vous pouvez restreindre lanalyse aux variables avec moins dun pourcentage maximal
de valeurs manquantes.
Analyse des donnes pour le rcapitulatif des variables. En cliquant sur Analyse des donnes , la

liste affiche des variables danalyse et le pourcentage observ manquant, minimum et maximum
de chacune. Les rcapitulatifs peuvent tre bass sur toutes les observations ou limits une
analyse des n premires observations comme spcifi dans la zone de texte Observations. Pour
mettre jour les rcapitulatifs de distribution, cliquez sur Ranalyser les donnes.
Dfinir les contraintes

Rle. Vous permet de personnaliser lensemble des variables imputer et/ou traiter comme

variables prdites. Gnralement, chaque variable danalyse est considre la fois comme
une variable dpendante et comme une variable prdite dans le modle dimputation. Le Rle
peut servir dsactiver limputation pour les variables que vous souhaitez Utiliser comme

23
Imputation multiple
variable prdite uniquement ou pour que des variables ne soient pas utilises comme des
valeurs prdites (Imputer uniquement) et obtenir ainsi des modles plus compacts. Cest la
seule contrainte qui peut tre spcifie pour les variables catgorielles, ou pour les variables
qui sont uniquement utilises comme valeurs prdites.

Min et Max. Ces colonnes vous permettent de spcifier les valeurs imputes minimum et

maximum autorises pour les variables dchelle. Si une valeur impute dpasse cette plage,
la procdure essaie une autre valeur jusqu ce quelle en trouve une qui soit dans la plage ou
que le nombre maximum dessais soit atteint (Consultez Essais maximum ci-dessous). Ces
colonnes ne sont disponibles que si la rgression linaire est slectionne comme type de
modle de variable dchelle dans longlet Mthode.

Arrondi. Certaines variables peuvent tre utilises comme variables dchelle, mais elles

possdent des valeurs par nature davantage restreintes. Par exemple, le nombre de personnes
dans un mnage doit tre un entier, et le montant dpens lors dun passage dans une picerie
ne peut contenir de centimes fractionnels. Cette colonne vous permet de spcifier la coupure
la plus faible accepter. Par exemple, pour obtenir des valeurs entires, vous devez spcifier
1 comme la coupure darrondissement et pour obtenir les valeurs arrondies au centime le plus
proche, vous devez spcifier 0,01. Les valeurs sont gnrallement arrondies au multiple entier
le plus proche de la coupure darrondissement. Le tableau suivant montre de quelle manire
les valeurs arrondies agissent sur la valeur impute de 6,64823 (avant arrondissement).
Coupure darrondissement
10
1
0.25
0.1
0.01

Valeur laquelle 6,64832 est arrondie


10
7
6.75
6.6
6.65

Excluent les variables avec de nombreuses donnes manquantes. Gnralement, les variables

danalyse sont imputes et utilises comme valeurs prdites sans tenir compte du nombre de leurs
valeurs manquantes, tant quelles ont assez de donnes pour valuer un modle dimputation.
Vous pouvez choisir dexclure des variables ayant un pourcentage lev de valeurs manquantes.
Par exemple, si vous spcifiez 50 comme Pourcentage maximum manquant, les variables danalyse
qui contiennent plus de 50% de valeurs manquantes ne sont pas imputes et ne sont pas non plus
utilises comme valeurs prdites dans les modles dimputation.
Essais maximum. Si des valeurs minimum ou maximum sont spcifies pour les valeurs imputes

des variables dchelle (voir Min et Max ci-dessus), la procdure essaie de rechercher des valeurs
jusqu ce quelle trouve un ensemble de valeurs dans les limites des plages spcifies. Si
un ensemble de valeurs nest pas obtenu aprs avoir atteint le nombre dessais par observation
spcifi, la procdure essaie un autre ensemble de paramtres de modle et rpte la procdure
dessais dobservations. Une erreur se produit si un ensemble de valeurs dans la limite des plages
nest pas obtenu en respectant le nombre dessais dobservations et de paramtres spcifi.
Veuillez noter que laugmentation de ces valeurs peut augmenter la dure dexcution. Si la
procdure dure longtemps, ou nest pas capable de trouver des essais appropris, vrifiez les
valeurs minimum et maximum spcifies pour vous assurer quelles sont appropries.

24
Chapitre 3

Rsultats
Figure 3-6
Imputer les valeurs de donnes manquantes Onglet Rsultats

Afficher : Affichage des commandes de sortie. Un rcapitulatif gnral des imputations est toujours
affich et comprend des tableaux prsentant les spcifications des imputations, les itrations (pour
la mthode de spcification entirement conditionnelle) des imputations, les variables dpendantes
imputes, les variables dpendantes exclues de limputation et la squence dimputation. Si cette
option est slectionne, les contraintes des variables danalyse apparaissent galement.

Modle dimputation. Affiche le modle dimputation pour les variables dpendantes et pour

les variables prdites et contient le type de modle univari, les effets de modle et le nombre
de valeurs imputes.

Statistiques descriptives : Affiche les statistiques descriptives pour les variables dpendantes

dont les valeurs sont imputes. Pour les variables dchelle, les statistiques descriptives
comprennent la moyenne, leffectif, lcart-type, le minimum et le maximum pour les
donnes dentre dorigine (avant limputation), les valeurs imputes (par imputation) et les
donnes compltes ( la fois les valeurs dorigine et imputespar imputation). Pour les
variables catgorielles, les statistiques descriptives comprennent leffectif et le pourcentage
par catgorie pour les donnes dentre dorigine (avant limputation), les valeurs imputes

25
Imputation multiple

(par imputation) et les donnes compltes ( la fois les valeurs dorigine et imputespar
imputation).
Historique des itrations. Lorsque la mthode dimputation spcification entirement

conditionnelle est utilise, vous pouvez demander un ensemble de donnes contenant les
donnes de lhistorique des itrations pour limputation FCS. Lensemble de donnes contient
les moyennes et les carts-types par itration et par imputation pour chaque variable dchelle
dpendante dont les valeurs sont imputes. Vous pouvez visualiser les donnes sous forme de
graphique pour mieux valuer la convergence du modle. Pour plus d'informations, reportez-vous
la section Vrification de la convergence FCS dans le chapitre 5 sur p. 69.

Commande IMPUTATION MULTIPLE - Caractristiques additionnelles


Le langage de syntaxe de commande vous permet aussi de :

spcifier un sous-ensemble de variables dont les statistiques descriptives sont affiches


(sous-commandeRECAPITULATIFSIMPUTATIONS).

Spcifier la fois une analyse de modles manquants et de limputation en nexcutant la


procdure quune seule fois.

Spcifiez le nombre maximal de paramtres de modle autoris lors de limputation dune


variable (mot-clMAXMODELPARAM ).

Reportez-vous la Rfrence de syntaxe de commande pour une information complte concernant


la syntaxe.

Utilisation des donnes imputation multiple


Lorsquun ensemble de donnes imputation multiple (IM) est cr, une variable appele
Imputation_ avec une tiquette de variable Nombre dimputations est ajoute et lensemble de
donnes est tri dans lordre croissant. Les observations de lensemble de donnes dorigine ont
une valeur de 0. Les observations pour les valeurs imputes sont numrotes de 1 M, o M est
le nombre dimputations.
Lorsque vous ouvrez un ensemble de donnes, la prsence de la variable Imputation_ identifie
lensemble de donnes comme un ensemble de donnes IM possible.
Activation dun ensemble de donnes imputation multiple pour lanalyse

Lensemble de donnes doit tre scind laide de loption Comparer les groupes, avec Imputation_
comme variable de regroupement, afin dtre trait comme un ensemble de donnes imputation
multiple lors des analyses. Vous pouvez galement dfinir les scissions dans dautres variables.
A partir des menus, slectionnez :
Donnes > Scinder un fichier

26
Chapitre 3
Figure 3-7
Bote de dialogue Scinder un fichier

E Slectionnez Comparer les groupes.


E Slectionnez le nombre dimputations [Imputation_] comme variable de regroupement des

observations.
Egalement, lorsque vous activez le marquage (voir ci-dessous), le ficher est scind par rapport au
nombre dimputations [Imputation_].
Distinguer les valeurs imputes des valeurs observes

Vous pouvez distinguer les valeurs imputes des valeurs observes par la couleur darrire-plan
des cellules, la police et lcriture en gras (pour les valeurs imputes). Pour des dtails avec
marquage actif, consultez Options dimputation multiple sur p. 34. Lorsque vous crez un nouvel
ensemble de donnes dans la session actuelle avec loption Imputer les valeurs manquantes,
le marquage est activ par dfaut. Lorsque vous ouvrez un fichier de donnes enregistr qui
comprend des imputations, le marquage est dsactiv.

27
Imputation multiple
Figure 3-8
Lditeur de donnes avec marquage des imputations dsactiv (OFF)

Pour activer le marquage, dans les menus de lditeur de donnes, choisissez :


Affichage > Marquer les donnes imputes...
Figure 3-9
Lditeur de donnes avec marquage des imputations activ (ON)

Vous pouvez galement activer le marquage en cliquant sur le bouton dactivation du marquage
des imputations sur le ct droit de la barre ddition dans lAffichage des donnes de lditeur
de donnes.
Dplacement entre les imputations
E A partir des menus, slectionnez :
Edition > Aller limputation...
E Slectionnez limputation (ou donnes dorigine) dans la liste droulante propose.

28
Chapitre 3
Figure 3-10
Bote de dialogue Aller

Vous pouvez galement slectionner limputation dans la liste droulante de la barre ddition
dans lAffichage des donnes de lditeur de donnes.
Figure 3-11
Lditeur de donnes avec marquage des imputations activ (ON)

La position relative des observations est conserve lors de la slection des imputations. Par
exemple, si lensemble de donnes initial contient 1000 observations, lobservation 1034, la
34me observation de la premire imputation, apparat en haut de la grille. Si vous slectionnez
limputation 2 dans la liste droulante, lobservation 2034, 34me observation de limputation
2, apparat en haut de la grille. Si vous slectionnez Donnes dorigine dans la liste droulante,
lobservation 34 apparat en haut de la grille. La position des colonnes est galement conserve
lorsque vous naviguez entre les imputations, pour une comparaison facile des valeurs entre les
imputations.

29
Imputation multiple

Transformation et modification des valeurs imputes

Parfois, vous aurez besoin deffectuer des transformations sur les donns imputes. Par exemple,
vous pouvez dcider de prendre le log de toutes les valeurs dune variable de salaire et denregistrer
le rsultat dans une nouvelle variable. Une valeur calcule laide des donnes imputes sera
traite comme impute si elle diffre de la valeur calcule laide des donnes dorigine.
Si vous modifiez une valeur impute dans une cellule de lditeur de donnes, cette cellule sera
traite comme impute. Nous vous dconseillons de modifier des valeurs imputes de cette faon.

Analyse de donnes imputation multiple


De nombreuses procdures prennent en charge le regroupement de rsultats dune analyse
densembles de donnes imputation multiple. Lorsque le marquage des imputations est activ,
une icne spciale apparat ct des procdures qui prennent en charge le regroupement.
Dans le sous-menu Statistiques descriptives du menu Analyser par exemple, les procdures
Effectifs, Descriptives, Explorer et Tableaux croiss prennent toutes en charge le regroupement,
contrairement aux procdures Rapport, Diagrammes P-P et Diagrammes Q-Q .
Figure 3-12
Anlyser le menu avec marquage des imputations activ (ON)

30
Chapitre 3

Les tableaux de rsultats et les modles PMML peuvent tre regroups. Il nexiste pas de nouvelle
procdure permettant de demander des rsultats regroups, mais un nouvel onglet de la bote de
dialogue Options vous permet de contrler tous les rsultats dimputation multiple.

Regroupement des tableaux de rsultats. Par dfaut, lorsque vous excutez une procdure

prise en charge dans un ensemble de donnes dimputation multiple (IM), les rsultats
sont automatiquement produits pour chaque imputation, pour les donnes dorigine (non
imputes) et pour les rsultats regroups (finaux) qui prennent en compte les variations entre
les imputations. Les statisques qui sont combines varient selon la procdure.

Regroupement de PMML. Vous pouvez galement obtenir des PMML regroups partir des

procdures prises en charge qui exportent les PMML. Le PMML regroup est demand de la
mme faon que le PMML non regroup (quil remplace lorsquil est enregistr).
Les procdures non prises en charge ne produisent ni rsultats regroups ni fichiers PMML
regroups.
Niveaux de combinaison

Les rsultats sont regroups lun des deux niveaux suivants :

CombinaisonNave. Seul le paramtre regroup est disponible.

Combinaison univarie. Le paramtre regroup, son erreur standard, sa statistique de test

et ses degrs rels de libert, la valeur p, lintervalle de confiance et les diagnostiques de


regroupements (fraction des informations manquantes, efficacit relative, augmentation
relative de la variance) sont affichs lorsquils sont disponibles.
Les coefficients (rgression et corrlation), les moyennes (et diffrences moyennes) et les effectifs
sont gnralement combins. Lorsque lerreur standard dune statistique est disponible, le
regroupement univari est alors utilis. Autrement, cest le regroupement simpliste qui est utilis.
Procdures prenant en charge le regroupement

Les procdures suivantes prennent en charge les ensembles de donnes IM, avec le niveau de
regroupement spcifi pour chaque partie des rsultats.
Effectifs

Le tableau Statistiques prend en charge les Moyennes en regroupement univari (si la moyenne
E.S. est galement requise), ainsi que N Valide et N manquant pour le regroupement Nave.

Le tableau Effectifs prend en charge les effectifs en regroupement Nave.

Descriptifs

Le tableau Statistiques prend en charge les Moyennes en regroupement univari (si la


moyenne E.S. est galement requise), ainsi que N pour le regroupement Nave.

Tableaux croiss

Le tableau crois prend en charge les effectifs en regroupement Nave.

31
Imputation multiple

Moyennes

Le tableau Rapport prend en charge la moyenne en regroupement univari (si la moyenne E.S.
est galement requise), ainsi que N pour le regroupement Nave.

Test T pour chantillon unique

Le tableau Statistiques prend en charge la moyenne en regroupement univari et N en


regroupement Nave.

Le tableau Test prend en charge la diffrence moyenne en regroupement univari.

Test T pour chantillons indpendants

Le tableau Statistiques de groupes prend en charge les moyennes en regroupement univari et


N en regroupement Nave.

Le tableau Test prend en charge la diffrence moyenne en regroupement univari.

Test T pour chantillons apparis

Le tableau Statistiques prend en charge les moyennes en regroupement univari et N en


regroupement Nave.

Le tableau Corrlations prend en charge les corrlations et N en regroupement Nave.

Le tableau Test prend en charge la moyenne en regroupement univari.

ANOVA 1 facteur

Le tableau Statistiques descriptives prend en charge la moyenne en regroupement univari et


N en regroupement Nave.

Le tableau Tests de contraste prend en charge la valeur du contraste en regroupement univari.

Modles mixtes linaires

Le tableau Statistiques descriptives prend en charge la moyenne et N en regroupement Nave.

Le tableau Estimations des effets fixes prend en charge les estimations en regroupement
univari.

Le tableau Estimations des paramtres de covariance prend en charge les estimations en


regroupement univari.

Les moyennes marginales estimes : Le tableau Estimations prend en charge la moyenne


en regroupement univari.

Les moyennes marginales estimes : Le tableau Comparaisons par paire prend en charge la
diffrence moyenne en regroupement univari.

Modles linaires gnraliss et quations destimation gnralises. Ces procdures prennent en

charge le PMML regroup.

Le tableau Informations sur les variables catgorielles prend en charge N et les pourcentages
en regroupement Nave.

Le tableau Informations sur les variables continues prend en charge N et les pourcentages
en regroupement Nave.

32
Chapitre 3

La tableau Estimations de paramtre prend en charge le coefficient, B, en regroupement


univari.

Les moyennes marginales estimes : Le tableau Coefficients destimation prend en charge la


moyenne en regroupement Nave.

Les moyennes marginales estimes : Le tableau Estimations prend en charge la moyenne


en regroupement univari.

Les moyennes marginales estimes : Le tableau Comparaisons par paire prend en charge la
diffrence moyenne en regroupement univari.

Corrlations bivaries

Le tableau Statistiques descriptives prend en charge la moyenne et N en regroupement Nave.

Le tableau Corrlations prend en charge les corrlations et N en regroupement Univari.


Veuillez noter que les corrlations sont transformes laide de la transformation z de Fisher
avant le regroupement puis retransformes aprs le regroupement.

Corrlations partielles

Le tableau Statistiques descriptives prend en charge la moyenne et N en regroupement Nave.

Le tableau Corrlations prend en charge les corrlations en regroupement Nave.

Rgression linaire. Cette procdure prend en charge le PMML regroup.

Le tableau Statistiques descriptives prend en charge la moyenne et N en regroupement Nave.

Le tableau Corrlations prend en charge les corrlations et N en regroupement Nave.

Le tableau Coefficients prend en charge B en regroupement univari et les corrlations en


regroupement Nave.

Le tableau Coefficients de corrlation prend en charge les corrlations en regroupement Nave.

Le tableau Statistiques rsiduelles prend en charge la moyenne et N en regroupement Nave.

Rgression logistique binaire. Cette procdure prend en charge le PMML regroup.

Le tableau Variables dans lquation prend en charge B en regroupement univari.

Rgression logistique multinomiale. Cette procdure prend en charge le PMML regroup.

La tableau Estimations de paramtre prend en charge le coefficient, B, en regroupement


univari.

Rgression ordinale

La tableau Estimations de paramtre prend en charge le coefficient, B, en regroupement


univari.

Analyse discriminante. Cette procdure prend en charge le modle XML regroup.

Le tableau Statistiques de groupes prend en charge la moyenne et N Valide en regroupement


Nave.

Le tableau Matrices intra-classes globales prend en charge les corrlations en regroupement


Nave.

33
Imputation multiple

La tableau Coefficients de fonction discriminante canonique prend en charge les coefficients


non standardiss en regroupement Nave.

La tableau Fonctions aux barycentres des groupes prend en charge les coefficients non
standardiss en regroupement Nave.

Le tableau Coefficients de fonction de classification prend en charge les coefficients en


regroupement Nave.

Test du Khi-deux

Le tableau Descriptives prend en charge la moyenne et N en regroupement Nave.

Le tableau Effectifs prend en charge N observ en regroupement Nave.

Test binomial

Le tableau Descriptives prend en charge les moyennes et N en regroupement Nave.

Le tableau Test prend en charge N, la proportion observe et le test de proportion en


regroupement Nave.

Suites en squences

Le tableau Descriptives prend en charge les moyennes et N en regroupement Nave.

Test Kolmogorov-Smirnov pour un chantillon

Le tableau Descriptives prend en charge les moyennes et N en regroupement Nave.

Tests pour deux chantillons indpendants

Le tableau Rangs prend en charge le rang moyen et N en regroupement Nave.

Le tableau Effectifs prend en charge N en regroupement Nave.

Tests pour plusieurs chantillons indpendants

Le tableau Rangs prend en charge le rang moyen et N en regroupement Nave.

Le tableau Effectifs prend en charge les effectifs en regroupement Nave.

Tests pour deux chantillons lis

Le tableau Rangs prend en charge le rang moyen et N en regroupement Nave.

Le tableau Effectifs prend en charge N en regroupement Nave.

Tests pour plusieurs chantillons lis

Le tableau Rangs prend en charge le rang moyen en regroupement Nave.

Rgression de Cox. Cette procdure prend en charge le PMML regroup.

Le tableau Variables dans lquation prend en charge B en regroupement univari.

Le tableau Moyennes des covariables prend en charge la moyenne en regroupement Nave.

34
Chapitre 3

Options dimputation multiple


Figure 3-13
Bote de dialogue Options : Onglet Imputations multiples

Longlet Imputations multiples contrle deux sortes de prfrences asssocies aux imputations
multiples :
Lapparence des donnes imputes. Par dfaut, les cellules contenant des donnes imputes

auront un arrire-plan dune autre couleur que celui des cellules contenant des donnes
non-imputes. Cette diffrence dapparence des donnes imputes devrait faciliter la navigation
dans les ensembles de donnes et la recherche de ces cellules. Vous pouvez modifier la couleur
darrire-plan par dfaut des cellules, la police et afficher les donnes imputes en gras.
Rsultats danalyse. Ce groupe contrle le type de rsultats du Viewer produits lorsquun ensemble
de donnes imputation multiple est analys. Par dfaut, les rsultats seront produits pour
lensemble de donnes dorigine (pr-imputation) et pour chacun des ensembles de donnes
imputs. De plus, pour ce genre de procdures qui prennent en charge le regroupement de donnes
imputes, des rsultats combins finaux seront gnrs. Lorsquun regroupement univari sera
effectu, les diagnostiques de regroupement seront galement affichs. Mais vous pouvez
supprimer tous les rsultats que vous ne dsirez pas voir.

35
Imputation multiple

Pour dfinir les options dimputation multiple

A partir du menu, slectionnez :


Affichage > Options

Cliquez sur longlet Imputation multiple.

Partie II:
Exemples

Chapitre

Analyse des valeurs manquantes

Description du modle des donnes manquantes


Un fournisseur de services de tlcommunication souhaite mieux comprendre les types
dutilisation des services dans sa base de donnes client. La socit souhaite sassurer que les
donnes sont des valeurs manquantes compltement alatoires avant dexcuter dautres analyses.
Un chantillon alatoire issu de la base de donnes client figure dans le fichier
telco_missing.sav. Pour plus d'informations, reportez-vous la section Fichiers dexemple dans
l'annexe A dans IBM SPSS Missing Values 20.

Excution de lanalyse pour afficher les statistiques descriptives


E Pour excuter lanalyse des valeurs manquantes, slectionnez dans les menus :
Analyse > Analyse des valeurs manquantes
Figure 4-1
Bote de dialogue Analyse des valeurs manquantes

E Slectionnez Marital status [marital], Level of education [ed], Retired [retire] et Gender comme

variables qualitatives.
E Slectionnez Months with service [tenure] et Number of people in household [reside] comme

variables (dchelle) quantitatives.


Copyright IBM Corporation 1989, 2011.

37

38
Chapitre 4

A ce stade, vous pourriez excuter la procdure et obtenir des statistiques univaries, mais nous
allons slectionner des statistiques descriptives supplmentaires.
E Cliquez sur Descriptives.
Figure 4-2
Analyse des valeurs manquantes : Bote de dialogue Descriptives

Dans la bote de dialogue Descriptives, vous pouvez indiquer les statistiques descriptives afficher
dans le rsultat. Les statistiques univaries par dfaut vous permettent de dterminer ltendue
gnrale des donnes manquantes, mais les statistiques de variable indicatrice fournissent
davantage dinformations sur limpact du modle de donnes manquantes dune variable sur les
valeurs dune autre variable.
E Slectionnez t tests avec groupes forms daprs les variables dindication.
E Slectionnez Tableaux croiss de variables indicatrices et qualitatives.
E Cliquez sur Poursuivre.
E Dans la bote de dialogue principale Analyse des valeurs manquantes, cliquez sur OK.

Evaluation des statistiques descriptives


Dans cet exemple, les rsultats comprennent les lments suivants :

Statistiques univaries.

Tableau de tests t des variances spares, y compris les moyennes de sous-groupes si une autre
variable est prsente ou manquante

Tableaux pour chaque variable qualitative indiquant les effectifs des donnes manquantes
pour chaque modalit par variable (dchelle) quantitative

39
Analyse des valeurs manquantes
Figure 4-3
Tableau des statistiques univaries

Les statistiques univaries vous donnent un premier aperu, variable par variable, de ltendue
des donnes manquantes. Le nombre de valeurs non manquantes pour chaque variable apparat
dans la colonne N, tandis que le nombre de valeurs manquantes figure dans la colonne Nombre
valeurs manquantes. La colonne Pourcentage valeurs manquantes affiche le pourcentage
dobservations comportant des valeurs manquantes et permet de comparer ltendue des donnes
manquantes parmi les variables. La variable revenu (Revenu du mnage en milliers) prsente la
plus forte proportion dobservations avec valeurs manquantes (17,9 %), tandis que la variable
ge (ge en annes) affiche la plus faible (2.5%). La variable revenu prsente le nombre le plus
lev de valeurs extrmes.

40
Chapitre 4
Figure 4-4
Tableau des tests des variances spares

Le tableau des tests t des variances spares permet didentifier les variables dont le modle de
valeurs manquantes peut influencer les variables (dchelle) quantitatives. Le test t est calcul
laide dune variable indicatrice qui indique si une variable est prsente ou manquante pour
une observation individuelle. Les moyennes de sous-groupes pour la variable indicatrice sont
galement mises en tableau. Une variable indicatrice nest cre que si une variable possde des
valeurs manquantes dans au moins 5 % des observations.
Il semble que les rpondants plus gs soient moins disposs indiquer leurs niveaux de
revenu. Lorsque la variable revenu est manquante, lge moyen est 49,73, contre 40,01 lorsque la
variable revenu est non manquante. En effet, le descriptive manquant de la variable revenu semble
avoir un impact sur les moyennes de plusieurs variables (dchelle) quantitatives. Ceci est un signe
que les donnes ne sont pas ncessairement des valeurs manquantes compltement alatoires.

41
Analyse des valeurs manquantes
Figure 4-5
Tableau crois de la variable Situation familiale [marital]

Les tableaux croiss des variables qualitatives par rapport aux variables indicatrices prsentent
des informations similaires celles du tableau des tests t des variances spares. Des variables
indicatrices sont de nouveau cres. Nanmoins, elles serviront cette fois calculer les effectifs
dans chaque modalit pour chaque variable qualitative. Les valeurs vous permettent de dterminer
sil existe des diffrences dans les valeurs manquantes parmi les modalits.
Le tableau concernant marital (Situation familiale) indique que le nombre de valeurs
manquantes dans les variables indicatrices ne semble pas varier beaucoup entre les modalits de
marital. Le fait quune personne soit marie ou clibataire ne semble pas avoir dincidence sur
lexistence de donnes manquantes pour les variables (dchelle) quantitatives. Par exemple,
les personnes clibataires ont renseign la variable adresse (Nb dannes la mme adresse)
dans 85,5 % des cas, contre 83,4 % pour les personnes maries. La diffrence est minime et
vraisemblablement due au hasard.

42
Chapitre 4
Figure 4-6
Tableau crois de Niveau dducation [ed]

Maintenant, observons le tableau crois concernant ed (Niveau dducation). Si un rpondant a


poursuivi des tudes suprieures, une rponse pour la situation familiale est davantage susceptible
dtre manquante. Au moins 98,5 % des rpondants nayant pas poursuivi des tudes suprieures
ont indiqu leur situation familiale. A loppos, seuls 81,1 % de ceux titulaires dun diplme
universitaire ont indiqu leur situation familiale. Le nombre est encore moins lev pour ceux
ayant poursuivi des tudes suprieures, mais qui ne sont titulaires daucun diplme universitaire.

43
Analyse des valeurs manquantes
Figure 4-7
Tableau crois de Retrait [retire]

Une diffrence plus marque apparat dans retraite (retire). Les personnes la retraite sont
beaucoup moins susceptibles dindiquer leur revenu que celles en activit. Seuls 46,3 % des
clients la retraite ont indiqu le niveau de revenu, contre 83,7 % de ceux en activit.

44
Chapitre 4
Figure 4-8
Tableau crois pour Sexe [gender]

Une autre diffrence apparat pour sexe (Gender). Les informations dadresse sont plus souvent
manquantes pour les individus de sexe masculin que pour les individus de sexe fminin. Bien que
ces diffrences puissent tre dues au hasard, cela semble peu probable. Les donnes ne semblent
pas correspondre des valeurs manquantes compltement alatoires.
Nous allons examiner les modles de donnes manquantes afin den savoir plus.

45
Analyse des valeurs manquantes

Rexcution de lanalyse pour afficher les modles


Figure 4-9
Bote de dialogue Analyse des valeurs manquantes

E Rappeler la bote de dialogue Descriptives de lanalyse des valeurs manquantes. La bote de

dialogue conserve la variable utilise dans lanalyse prcdente. Ne la modifiez pas.


E Cliquez sur Modles.

46
Chapitre 4
Figure 4-10
Bote de dialogue Modles danalyses des valeurs manquantes

La bote de dialogue Modles vous permet de slectionner diffrents tableaux de modles. Nous
allons afficher les modles mis en tableau en les regroupant par modle de valeurs manquantes.
Etant donn que les modles manquants dans ed (Niveau dducation), retire (Retraite) et gender
(Sexe) semblent avoir influenc les donnes, nous allons afficher des informations supplmentaires
pour ces variables. Nous allons galement inclure des informations supplmentaires pour revenu
(Revenu du mnage en milliers), en raison de son nombre lev de valeurs manquantes.
E Slectionnez Observations mises en tableau, groupes par modles de valeurs manquantes.
E Slectionnez revenu, ed, retire et gender, puis ajoutez-les la liste Informations supplmentaires

pour.
E Cliquez sur Poursuivre.
E Dans la bote de dialogue principale Analyse des valeurs manquantes, cliquez sur OK.

47
Analyse des valeurs manquantes

Evaluation du tableau de modles


Figure 4-11
Tableau des modles mis en tableau

Le tableau des modles mis en tableau indique si les donnes ont tendance tre manquantes
pour plusieurs variables dans les observations individuelles. En dautres termes, il vous permet
de dterminer si les donnes sont manquantes conjointement.
Trois modles de donnes conjointement manquantes se produisent dans plus de 1 % des
observations. Les variablesNb dannes avec lemployeur actuel (employ) et retraite (retire)sont
conjointement manquantes plus souvent que les autres paires. Ce nest pas surprenant, car
retraite et emploi enregistrent des informations similaires. Si vous ignorez quun rpondant est
la retraite, il est probable que vous ignoriez galement depuis combien dannes le rpondant
travaille pour son employeur actuel.
Le revenu (Revenu du mnage en milliers) moyen semble varier considrablement en fonction
du modle de valeurs manquantes. En particulier, le Revenu moyen est beaucoup plus lev pour
6 % (60 sur 1 000) des observations lorsque marital (Situation familiale) est manquant. (Il est
galement plus lev lorsque tenure (Nb de mois de service) est manquant, mais ce modle ne
reprsente que 1,7 % des observations). Souvenez-vous que les personnes qui ont un niveau
dducation plus lev taient moins disposes rpondre la question portant sur la situation
familiale. Cette tendance apparat dans les effectifs affichs pour ed (Niveau dducation). Nous
pourrions expliquer laugmentation de la variable revenu en supposant que les personnes qui ont
un niveau dducation plus lev gagnent plus dargent et sont moins susceptibles dindiquer
leur situation familiale.
Les statistiques descriptives et les modles de donnes manquantes nous amnent conclure que
les donnes ne sont pas des valeurs manquantes compltement alatoires. Nous pouvons confirmer
cette conclusion laide du test MCAR Little, affich conjointement avec les estimations EM.

48
Chapitre 4

Rexcution de lanalyse pour le test MCAR Little


Figure 4-12
Bote de dialogue Analyse des valeurs manquantes

E Rappeler la bote de dialogue Descriptives de lanalyse des valeurs manquantes.


E Cliquez sur EM.
E Cliquez sur OK.
Figure 4-13
Tableau Moyennes EM

Les rsultats du test MCAR Little apparaissent dans des notes de bas de page ajoutes chaque
tableau destimations EM. Lhypothse nulle du test MCAR est que les donnes sont des valeurs
manquantes compltement alatoires (MCAR). Les donnes sont de type MCAR lorsque le patron
des valeurs manquantes ne dpend pas des valeurs de donnes. Etant donn que la valeur de
signification est infrieure 0,05 dans notre exemple, nous pouvons conclure que les donnes ne
sont pas des valeurs manquantes compltement alatoires. Cela confirme la conclusion tire des
statistiques descriptives et des modles mis en tableau.

49
Analyse des valeurs manquantes

ce stade, comme les donnes ne sont pas des valeurs manquantes compltement alatoires, il
nest pas recommand de lister les observations contenant des valeurs manquantes, ou dimputer
sparment les valeurs manquantes. Cependant, vous pouvez utiliser limputation multiple pour
analyser en dtail cet ensemble de donnes.

Chapitre

Imputation multiple

Utilisation de limputation multiple pour complter et analyser un


ensemble de donnes
Un fournisseur de services de tlcommunication souhaite mieux comprendre les types
dutilisation des services dans sa base de donnes client. Il dispose de donnes compltes sur les
services utiliss par les clients, mais les informations dmographiques collectes par lentreprise
comportent certaines valeurs manquantes. De plus, ces valeurs ne sont pas manquantes de faon
compltement alatoire. Par consquent, limputation multiple sera utilise pour complter
lensemble de donnes.
Un chantillon alatoire issu de la base de donnes client figure dans le fichier
telco_missing.sav. Pour plus d'informations, reportez-vous la section Fichiers dexemple dans
l'annexe A dans IBM SPSS Missing Values 20.

Analyse des modles de valeurs manquantes


E Tout dabord, examinez les diffrents modles des valeurs manquantes. A partir des menus,

slectionnez :
Analyse > Imputation multiple > Analyser les modles...

Copyright IBM Corporation 1989, 2011.

50

51
Imputation multiple
Figure 5-1
Bote de dialogue Analyser les modles

E Slectionnez Mois de service [tenure] et Nb de personnes dans le mnage [reside] comme

variables danalyse.

Rcapitulatif gnral
Figure 5-2
Rcapitulatif gnral des valeurs manquantes

52
Chapitre 5

Le rcapitulatif gnral des valeurs manquantes affiche trois diagrammes en secteurs qui
prsentent des aspects diffrents des valeurs manquantes dans les donnes.

Le diagramme Variables indique que chacune des 10 variables danalyse contient au moins
une valeur manquante pour une observation.

Le diagramme Observations indique que 525 des 1000 observations contiennent au moins une
valeur manquante pour une variable.

Le diagramme Valeurs indique que 792 des 10 000 valeurs (observations variables) sont
manquantes.

En moyenne, chaque observation contenant des valeurs manquantes contient des valeurs
manquantes sur environ 1,5 variable sur 10. Ceci indique que l limination des observations
incompltes supprimerait de nombreuses informations dans lensemble de donnes.

Rcapitulatif de variables
Figure 5-3
Rcapitulatif de variables

Le rcapitulatif de variables apparat pour les variables contenant au moins 10% de valeurs
manquantes et indique le nombre et le pourcentage de valeurs manquantes pour chaque variable
du tableau. Il affiche galement la moyenne et lcart-type des valeurs valides des variables
dchelle et le nombre de valeurs valides pour toutes les variables. Revenu du mnage en milliers,
Nb dannes la mme adresse et Situation familiale sont les variables contenant le plus de
valeurs manquantes, dans cet ordre.

53
Imputation multiple

Modles
Figure 5-4
Modles de valeurs manquantes

Le diagramme des modles affiche les modles des valeurs manquantes pour les variables
danalyse. Chaque modle correspond un groupe dobservations avec le mme modle de
donnes compltes et incompltes. Par exemple, le Modle 1 reprsente des observations ne
contenant aucune valeur manquante, alors que le Modle 33 reprsente des observations contenant
des valeurs manquantes sur reside (Nb de personnes dans le mnage) et address (Nb dannes la
mme adresse), et le Modle 66 reprsente des observations contenant des valeurs manquantes sur
gender (Sexe), marital (Situation familiale), address et income (Revenu du mnage en milliers). Il
est possible quun ensemble de donnes contiennent 2 modles de nombre de variables. Pour 10
variables danalyse, cela donne 210=1024 ; mais seuls 66 modles sont reprsents dans les
1000 observations de lensemble de donnes.
Le diagramme trie les variables danalyse et les modles de manire rvler la monotonie,
lorsquelle existe. Plus prcisment, les variables sont tries de gauche droite par ordre croissant
des valeurs manquantes. Les modles sont ensuite classs dabord en fonction de la dernire
variable (valeurs non manquantes puis valeurs manquantes), puis en fonction de la deuxime la
dernire variable, et ainsi de suite, de droite gauche. Cela permet de dterminer si la mthode
dimputation monotone peut tre utilise pour vos donnes, ou dans le cas contraire, si vos
donnes sont proches dun modle monotone. Si les donnes sont monotones, alors toutes les
cellules manquantes et non manquantes du diagramme seront contigus, cest--dire quil ny aura
pas dlots de cellules non manquantes dans la partie infrieure droite du diagramme ni dlots
de cellules manquantes dans la partie suprieure gauche du diagramme.

54
Chapitre 5

Cet ensemble de donnes nest pas monotone et de nombreuses valeurs devraient tre imputes
afin dobtenir la monotonie.
Figure 5-5
Effectifs des modles

Lorsque des modles sont demands, un diagramme en btons affiche le pourcentage


dobservations pour chaque modle. Cela indique que plus de la moiti des observations dans
lensemble de donnes suit le Modle 1 et le diagramme des modles de valeurs manquantes
indique quil sagit du modle pour les observations sans valeurs manquantes. Le Modle 43
reprsente les observations avec valeur manquante sur income, le Modle 30 reprsente les
observations avec valeur manquante sur address et le Modle 20 reprsente les observations avec
valeur manquante sur marital. La grande majorit des observations, environ 4 sur 5, est reprsente
par ces quatre modles. Les modles 14, 60 et 56 sont les seuls modles parmi les dix modles les
plus frquents reprsenter des observations avec valeurs manquantes sur plus dune variable.
Lanalyse des modles manquants na pas rvl dobstacles particuliers limputation
multiple, si ce nest que la mthode monotone ne pourra pas vraiment tre utilise.

Imputation automatique des valeurs manquantes


Vous tes maintenant prt imputer des valeurs ; nous commencerons par une excution avec les
paramtres automatiques mais avant de demander les imputations, nous dfinirons le gnrateur
alatoire. Dfinir le gnrateur alatoire vous permet de reproduire lanalyse exactement.

55
Imputation multiple
E Pour dfinir le gnrateur alatoire, partir des menus, slectionnez :
Transformer > Gnrateurs de nombres alatoires
Figure 5-6
Bote de dialogue Gnrateurs de nombres alatoires

E Slectionnez Dfinir un gnrateur actif.


E

Slectionnez Mersenne Twister.

E Slectionnez Dfinir un point de dpart.


E Slectionnez Valeur fixe et tapez la valeur 20070525.
E Cliquez sur OK.
E

Pour imputer les valeurs de donnes manquantes, dans les menus slectionnez :
Analyse > Imputation multiple > Imputer les valeurs de donnes manquantes...

56
Chapitre 5
Figure 5-7
Bote de dialogue Imputer les valeurs de donnes manquantes

E Slectionnez Nb de mois de service [tenure] et Nb de personnes dans le mnage [reside] comme

variables du modle dimputation.


E Saisissez telcoImputed comme ensemble de donnes denregistrement des donnes imputes.
E

Cliquez sur longlet Rsultats.

57
Imputation multiple
Figure 5-8
Onglet Rsultats

E Slectionnez Statistiques descriptives pour variables avec valeurs imputes.


E Cliquez sur OK.

Spcifications des imputations


Figure 5-9
Spcifications des imputations

Le tableau des spcifications des imputations est une prsentation utile des demandes effectues
permettant de confirmer que les spcifications taient correctes.

58
Chapitre 5

Rsultats des imputations


Figure 5-10
Rsultats des imputations

Les rsultats des imputations sont une prsentation de ce qui sest pass pendant le processus
dimputation. Veuillez noter les points suivants :

La mthode dimputation dans le tableau des spcifications tait Automatique et la


mthode choisie par la slection de mthodes automatique tait Spcification entirement
conditionnelle.
Toutes les variables demandes ont t imputes.
La squence dimputation est dans le mme ordre que celui dans lequel les variables
apparaissent sur laxe x dans le diagramme des modles de valeurs manquantes.

Modles dimputation
Figure 5-11
modles dimputation

59
Imputation multiple

Le tableau des modles dimputation prsente des dtails supplmentaires sur la faon dont
chaque variable a t impute. Veuillez noter les points suivants :

Les variables apparaissent dans lordre de la squence dimputation.

Les variables dchelle sont modlises avec une rgression linaire et les variables
catgorielles avec une rgression logistique.

Chaque modle utilise toutes les autres variables comme effets principaux.

Le nombre de valeurs manquantes pour chaque variable est rpertori, avec le nombre total de
valeurs imputes pour cette variable (nombre de valeurs manquantes nombre dimputations).

Statistiques descriptives
Figure 5-12
Statistiques descriptives pour la variable tenure (Nb de mois de service)

Les tableaux des statistiques descriptives prsentent des rcapitulatifs des variables avec valeurs
imputes. Un tableau spar est produit pour chaque variable. Les types de statistiques affichs
dpendent du type de la variable (dchelle ou catgorielle).
Les statistiques pour les variables dchelle comprennent leffectif, la moyenne, lcart-type, le
minimum et le maximum, pour les donnes dorigine, chaque ensemble de valeurs imputes et
chaque ensemble de donnes complet (conjuguant les donnes dorigine et les valeurs imputes).
Le tableau des statistiques descriptives pour tenure (Nb de mois de service) prsente les
moyennes et les carts-types dans chaque ensemble de valeurs imputes, quasiment gaux
ceux des donnes dorigine ; mais un problme surgit lorsquon examine le minimum et que des
valeurs ngatives pour tenure ont t imputes.

60
Chapitre 5
Figure 5-13
Statistiques descriptives pour la variable marital (Situation familiale)

Pour les variables catgorielles, les statistiques comprennent leffectif et le pourcentage par
catgorie pour les donnes dorigine, les valeurs imputes et les donnes compltes. Le tableau
pour marital (Situation familiale) contient un rsultat intressant car pour les valeurs imputes, la
proportion des observations values comme maries est plus importante que celle des donnes
dorigine. Ceci peut provenir dune variation alatoire, ou le risque de valeur manquante peut
tre li la valeur de cette variable.
Figure 5-14
Statistiques descriptives pour la variable income (Revenu du mnage en milliers)

Comme tenure, et toutes les autres variables dchelle, income (Revenu du mnage en milliers)
prsente des valeurs imputes ngatives nous aurons donc besoin dexcuter un modle
personnalis avec des contraintes sur certaines variables. Cependant, income prsente dautres
problmes potentiels. Les valeurs moyennes pour chaque imputation sont considrablement plus

61
Imputation multiple

leves que pour les donnes dorigine et les valeurs maximales pour chaque imputation sont
considrablement moins leves que pour les donnes dorigine. La rpartition du revenu a
tendance tre fortement asymtrique, ce qui pourrait tre la cause du problme.

Modle dimputation personnalis


Afin dviter que les valeurs imputes ne sortent de la plage de valeurs raisonnable pour chaque
variable, nous spcifierons un modle dimputation personnalis avec des contraintes sur les
variables. De plus, Revenu du mnage en milliers est fortement asymtrique et des analyses
supplmentaires utiliseront probablement le logarithme du revenu. Il parat donc cohrent
dimputer directement le log du revenu.
E Vrifiez que lensemble de donnes dorigine est actif.
E Pour crer une variable log du revenu, partir des menus, slectionnez :
Transformer > Calculer la variable...
Figure 5-15
Bote de dialogue Calculer la variable

E Tapez Ininc comme variable de destination.


E Entrez lexpression numrique ln(Income).

62
Chapitre 5
E

Cliquer sur Type & Etiquette..


Figure 5-16
Bote de dialogue Type et tiquette

E Saisissez Log de revenu comme tiquette.


E Cliquez sur Poursuivre.
E Cliquez sur OK dans la bote de dialogue Calculer la variable.

63
Imputation multiple
Figure 5-17
Onglet Variables avec log de revenu remplaant Revenu du mnage en milliers dans le modle
dimputation

E Rappelez la bote de dialogue Imputer les valeurs de donnes manquantes et cliquez sur longlet
Variables.
E Dslectionnez Revenu du mnage en milliers [income] et slectionnez Log de revenu [lninc]

comme variables dans le modle.


E Cliquez sur longlet Mthode.
Figure 5-18
Alerte de remplacement dun ensemble de donnes existant

E Cliquez sur Oui dans lalerte affiche.

64
Chapitre 5
Figure 5-19
Onglet Mthode

E Slectionnez Personnalis et laissez Spcification entirement conditionnelle slectionne comme

mthode dimputation.
E Cliquez sur longlet Contraintes.

65
Imputation multiple
Figure 5-20
Onglet Contraintes

E Cliquez sur Analyser les donnes.


E Dans la grille Dfinir les contraintes, saisissez 1 comme valeur minimale pour Nb de mois

de service [tenure].
E

Saisissez 18 comme valeur minimale pour age (Age en annes).

E Saisissez 0 comme valeur minimale pour address (Nombre dannes la mme adresse).
E Saisissez 0 comme valeur minimale pour employ (Nombre dannes avec lemployeur actuel).
E Saisissez 1 comme valeur minimale et 1 comme niveau darrondi pour reside (Nombre de

personnes dans le mnage). Veuillez noter que bien que de nombreuses autres variables dchelle
sont rpertories sous forme de valeurs entires, il est normal de dclarer que quelquun a vcu
pendant 13,8 annes la mme adresse mais beaucoup moins que 2,2 personnes y vivent.
E

Saisissez 0 comme valeur minimale pour Ininc (Log de revenu).

E Cliquez sur longlet Rsultats.

66
Chapitre 5
Figure 5-21
Onglet Rsultats

E Slectionnez Crer un historique des itrations et saisissez telcoFCS comme nom du nouvel

ensemble de donnes.
E Cliquez sur OK.

67
Imputation multiple

Contraintes dimputation
Figure 5-22
Contraintes dimputation

Le modle dimputation personnalis gnre un nouveau tableau qui prsente les contraintes
places sur le modle dimputation. Tout semble en accord avec vos spcifications.

Statistiques descriptives
Figure 5-23
Statistiques descriptives pour la variable tenure (Nb de mois de service)

Le tableau des statistiques descriptives pour tenure (Nb de mois en service) daprs le modle
dimputation personnalis avec contraintes indique que le problme des valeurs imputes
ngatives pour tenure a t rsolu.

68
Chapitre 5
Figure 5-24
Statistiques descriptives pour la variable marital (Situation familiale)

Le tableau pour marital (Situation familiale) a maintenant une imputation (3) dont la distribution
est plus en accord avec les donnes dorigine, mais la majorit prsente encore une proportion
dobservations estimes comme maries plus importante que celle des donnes dorigine.
Ceci pourrait provenir dune variation alatoire mais ncessite un examen supplmentaire des
donnes pour dterminer si ces valeurs ne sont pas manquantes de manire alatoire (MAR).
Nous ntudierons pas ce problme plus avant.
Figure 5-25
Statistiques descriptives pour la variable Ininc (Log de revenu)

Comme tenure, et toutes les autres variables dchelle, lninc (Log de revenu) ne prsente pas de
valeurs imputes ngatives. De plus, les valeurs moyennes des imputations sont plus proches de
la moyenne des donnes dorigine que dans lexcution de limputation automatique dans
lchelle income, la moyenne pour les donnes dorigine pour lninc est denviron e3,9291=50,86,

69
Imputation multiple

alors que la valeur moyenne habituelle dans les imputations est denviron e4,2=66,69. De plus,
les valeurs maximales pour chaque imputation sont plus proches de la valeur maximale pour
les donnes dorigine.

Vrification de la convergence FCS


Si la mthode de spcification entirement conditionnelle est utilise, il parat sage de vrifier les
diagrammes des moyennes et des carts-types par itration et par imputation pour chaque variable
dchelle dpendante dont les valeurs sont imputes afin de mieux valuer la convergence des
modles.
E

Pour crer ce type de diagramme, activez lensemble de donnes telcoFCS puis parmi les
menus, choisissez :
Graphes > Gnrateur de diagrammes...

70
Chapitre 5
Figure 5-26
Gnrateur de diagrammes, diagramme courbes multiples

E Slectionnez la galerie Courbe et choisissez Courbes multiples.


E Slectionnez Nb de mois avec service [tenure] comme variable tracer sur laxe Y.
E Slectionnez Nombre ditrations [Iteration_] comme variable tracer sur laxe X.
E Slectionnez Nombre dimputations [Imputations_] comme variable daprs laquelle dfinir les

couleurs.

71
Imputation multiple
Figure 5-27
Gnrateur de diagrammes, proprits des lments

E Dans les proprits des lments, slectionnez Valeur comme statistique afficher.
E Cliquez sur Appliquer.
E Dans le Gnrateur de diagrammes, cliquez sur longlet Groupes/ID de point.

72
Chapitre 5
Figure 5-28
Gnrateur de diagrammes, onglet Groupes/ID de point

E Slectionnez Variable de panel Lignes.


E Slectionnez Statistique rcapitulative [SummaryStatistic_] comme variable de panel.
E Cliquez sur OK.

73
Imputation multiple

Diagrammes de convergence FCS


Figure 5-29
Diagramme de convergence FCS

Vous avez cr une paire de diagrammes curvilignes multiples, indiquant la moyenne et


lcart-type des valeurs imputes de Nb de mois avec service [tenure] chaque itration de la
mthode dimputation FCS pour chacune des 5 imputations appeles. Lobjectif de ce diagramme
est de rechercher des modles dans les courbes. Il ne devrait y en avoir aucun et les courbes
devraient tre alatoires. Vous pouvez crer des diagrammes similaires pour les autres variables
dchelle. Vous noterez que ces diagrammes ne prsentent aucun modle perceptible.

Analyser les donnes compltes


A prsent que vos valeurs imputes semblent satisfaisantes, vous tes prt excuter une analyse
sur les donnes compltes. Lensemble de donnes contient une variable Catgorie de client
[custcat] qui segmente la base client par type dutilisation des services en catgorisant les clients
en quatre groupes. Si vous pouvez ajuster un modle utilisant des informations dmographiques
pour prvoir les groupes daffectation, vous pouvez personnaliser les offres pour chaque client
ventuel.
E Activez lensemble de donnes telcoImputed . Pour crer un modle de rgression logistique

multinomiale pour les donnes compltes, parmi les menus, slectionnez :


Analyse > Rgression > Logistique multinomiale...

74
Chapitre 5
Figure 5-30
Bote de dialogue Rgression logistique multinomiale

E Slectionnez Catgorie de client comme variable dpendante.


E

Slectionnez Situation familiale, Niveau dducation, Retrait et Sexe comme facteurs.

Slectionnez Age en annes, Nb dannes la mme adresse, Nb dannes avec lemployeur


actuel, Nombre de personnes dans le mnage et Log de revenu comme covariables.

Pour comparer les autres clients ceux qui ont souscrit au service de base, slectionnez donc
Catgorie de client et cliquez sur Modalit de rfrence.

75
Imputation multiple
Figure 5-31
Bote de dialogue Modalit de rfrence

E Slectionnez Premire modalit.


E Cliquez sur Poursuivre.
E Cliquez sur Modle dans la bote de dialogue Rgression logistique multinomiale.

76
Chapitre 5
Figure 5-32
Bote de dialogue Modle

E Slectionnez Personnalis/Pas pas.


E Slectionnez Effets principaux dans la liste droulante Termes pas pas Terme(s) construit(s).
E

Slectionnez les options allant de Ininc rside comme termes pas pas.

Cliquez sur Poursuivre.

Cliquez sur OK dans la bote de dialogue Rgression logistique multinomiale.

77
Imputation multiple

Rcapitulatif des tapes


Figure 5-33
Rcapitulatif des tapes

La rgression logistique multinominale prend en charge le regroupement des coefficients de


rgression. Cependant, vous noterez que tous les tableaux des rsultats prsentent les rsultats
pour chaque imputation et pour les donnes dorigine. Ceci vient du fait que le fichier est scind
Imputation_, et par consquent tous les tableaux qui utilisent la variable de scission prsenteront
les groupes de fichiers scinds regroups dans un seul tableau.
Vous observerez galement que le tableau Estimations des paramtres ne prsente pas
destimations regroupes. Pour en connatre la raison, veuillez consulter le rcapitulatif des
tapes. Nous avons demand une slection pas pas des effets de modle et ce mme ensemble
deffets na pas t choisi pour toutes les imputations. Par consquent, le regroupement est
impossible. Cependant, ceci fournit nanmoins des informations utiles car nous pouvons observer
que ed (Niveau dducation), employ (Nb dannes avec lemployeur actuel), marital (Situation
familiae) et address (Nb dannes la mme adresse) sont souvent choisies par la slection pas

78
Chapitre 5

pas parmi le imputations. Nous ajusterons un autre modle en utilisant uniquement ces variables
indpendantes.

Excution du modle avec un sous-ensemble de variables indpendantes


Figure 5-34
Bote de dialogue Modle

E Rappelez la bote de dialogue Rgression logistique multinomiale et cliquez sur Modle.


E Dslectionnez les variables dans la liste Termes pas pas.
E Slectionnez Effets principaux dans la liste droulante Termes de lintroduction force Terme(s)

construit(s).
E

Slectionnez employ, marital, ed et address comme termes de lintroduction force.

Cliquez sur Poursuivre.

Cliquez sur OK dans la bote de dialogue Rgression logistique multinomiale.

79
Imputation multiple

Estimations regroupes des paramtres


Ce tableau est relativement large, mais le faire pivoter offrira plusieurs vues diffrentes et utiles
des rsultats.
Figure 5-35
Estimations regroupes des paramtres

E Activez (double-cliquez sur) le tableau puis slectionnez Structure pivotante dans le menu

contextuel.

80
Chapitre 5
Figure 5-36
Estimations regroupes des paramtres

E Dplacez Nombre dimputations de la ligne la strate.


E Slectionnez Regroup dans la liste droulante Nombre dimputations.

81
Imputation multiple
Figure 5-37
Estimations regroupes des paramtres

Cette vue prsente toutes les statistiques des rsultats regroups. Vous pouvez utiliser et interprter
ces coefficients comme vous utiliseriez ce tableau pour un ensemble de donnes sans valeurs
manquantes.
Le tableau des estimations de paramtres rcapitule leffet de chaque variable indpendante. Le
rapport du coefficient son erreur standard mis au carr gale la statistique de Wald. Si le seuil de
signification de la statistique Wald est petit (infrieur 0,05), alors le paramtre est diffrent de 0.

Les paramtres avec des coefficients ngatifs significatifs diminuent la vraisemblance de cette
modalit de rponse par rapport la modalit de rfrence.

Les paramtres avec des coefficients positifs augmentent la vraisemblance de cette modalit
de rponse.

Les paramtres associs avec la dernire modalit de chaque facteur sont redondants selon la
constante.

Le tableau contient trois colonnes supplmentaires qui offrent dautres informations sur les
rsultats regroups. La fraction des informations manquantes est une estimation du rapport
entre les informations manquantes et les informations compltes, base sur l augmentation
relative de la variance provenant de la non-rponse qui, son tour, est un rapport (modifi) de

82
Chapitre 5

la variance entre les imputations et la variance moyenne dans les imputations du coefficient de
rgression. L efficacit relative est une comparaison de cette estimation avec une estimation
(thorique) calcule laide dun nombre dimputations infini. Lefficacit relative est dtermine
par la fraction des informations manquantes et le nombre dimputations utilises pour obtenir le
rsultat regroup. Lorsque la fraction des informations manquantes est importante, un nombre
dimputations plus lev est ncessaire pour rapprocher lefficacit relative de 1 et lestimation
regroupe de lestimation idale.
Figure 5-38
Estimations regroupes des paramtres

E A prsent, ractivez (double-cliquez sur) le tableau puis slectionnez Structure pivotante dans

le menu contextuel.
E Dplacez Nombre dimputations de la strate la colonne.
E

Dplacez Statistiques de la colonne la strate.

E Slectionnez B dans la liste droulante Statistiques.

83
Imputation multiple
Figure 5-39
Estimations regroupes de paramtres, Nombre dimputations dans les colonnes et Statistiques
dans la strate

Cette vue du tableau est utile pour comparer les valeurs parmi les imputations, pour une
visualisation rapide de la variation dans les estimations de coefficient de rgression dimputation
imputation et mme par rapport aux donnes orginales. Plus spcifiquement, pour dplacer la
statistique de la strate lcart-type. Lerreur vous permet dobserver la faon dont limputation
multiple a rduit la variabilit dans les estimations de coefficients par rapport llimination des
observations incompltes (donnes dorigine).

84
Chapitre 5
Figure 5-40
Avertissements

Cependant, dans cet exemple, lensemble de donnes dorigine gnre une erreur qui explique les
estimations de paramtres particulirement tendues pour la constante Plus service et les niveaux
non-redondants de ed (Niveau dducation) dans la colonne des donnes dorigine du tableau.

Rcapitulatif
A laide des procdures dimputation multiple, vous avez analys les modles de valeurs
manquantes et avez dcouvert que de nombreuses informations auraient certainement t perdues
si llimination simple des observations incompltes avait t utilise. Aprs une excution
automatique initiale de limputation multiple, vous avez dcouvert que des contraintes taient
ncessaires pour conserver les valeurs imputes dans des limites raisonnables. Lexcution
avec contraintes a produit des valeurs de qualit et il ny a eu aucune preuve apparente que la
mthode FCS na pas converg. A laide de lensemble de donnes complet avec valeurs
imputes, vous avez ajust la rgression logistique multinominale aux donnes et avez obtenu
des estimations regroupes de rgression. Vous avez galement dcouvert que lajustement du
modle final naurait pas t possible avec llimination des observations incompltes dans les
donnes dorigine.

Annexe

Fichiers dexemple

Les fichiers dexemple installs avec le produit figurent dans le sous-rpertoire Echantillons du
rpertoire dinstallation. Il existe un dossier distinct au sein du sous-rpertoire Echantillons pour
chacune des langues suivantes : Anglais, Franais, Allemand, Italien, Japonais, Coren, Polonais,
Russe, Chinois simplifi, Espangol et Chinois traditionnel.
Seuls quelques fichiers dexemples sont disponibles dans toutes les langues. Si un fichier
dexemple nest pas disponible dans une langue, le dossier de langue contient la version anglaise
du fichier dexemple.
Descriptions

Voici de brves descriptions des fichiers dexemple utiliss dans divers exemples travers la
documentation.

accidents.sav.Ce fichier de donnes dhypothse concerne une socit dassurance qui tudie

les facteurs de risque lis lge et au sexe dans les accidents de la route survenant dans une
rgion donne. Chaque observation correspond une classification croise de la catgorie
dge et du sexe.

adl.sav. Ce fichier de donnes dhypothse concerne les mesures entreprises pour identifier les

avantages dun type de thrapie propos aux patients qui ont subi une attaque cardiaque. Les
mdecins ont assign de manire alatoire les patients du sexe fminin ayant subi une attaque
cardiaque un groupe parmi deux groupes possibles. Le premier groupe a fait lobjet de la
thrapie standard tandis que le second a bnfici en plus dune thrapie motionnelle. Trois
mois aprs les traitements, les capacits de chaque patient effectuer les tches ordinaires de
la vie quotidienne ont t notes en tant que variables ordinales.

advert.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend un

dtaillant pour examiner la relation existant entre largent dpens dans la publicit et les
ventes rsultantes. Pour ce faire, il collecte les chiffres des ventes passes et les cots associs
la publicit.

aflatoxin.sav. Ce fichier de donnes dhypothse concerne le test de laflatoxine dans des

rcoltes de mas. La concentration de ce poison varie largement dune rcolte lautre et au


sein de chaque rcolte. Un processeur de grain a reu 16 chantillons issus de 8 rcoltes de
mas et a mesur les niveaux dalfatoxine en parties par milliard (PPB).

anorectic.sav. En cherchant dvelopper une symptomatologie standardise du comportement

anorexique/boulimique, des chercheurs ont examin 55 adolescents souffrant de troubles


alimentaires. Chaque patient a t observ quatre fois sur une priode de quatre annes, soit
un total de 220 observations. A chaque observation, les patients ont t nots pour chacun des
16 symptmes. En raison de labsence de scores de symptme pour le patient 71/visite 2, le
patient 76/visite 2 et le patient 47/visite 3, le nombre dobservations valides est de 217.

Copyright IBM Corporation 1989, 2011.

85

86
Annexe A

bankloan.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend une

banque pour rduire le taux de dfaut de paiement. Il contient des informations financires
et dmographiques sur 850 clients existants et ventuels. Les premires 700 observations
concernent des clients auxquels des prts ont t octroys. Les 150 dernires observations
correspondant aux clients ventuels que la banque doit classer comme bons ou mauvais
risques de crdit.

bankloan_binning.sav. Ce fichier de donnes dhypothse concerne des informations

financires et dmographiques sur 5 000 clients existants.

behavior.sav. Dans un exemple classique , on a demand 52 tudiants de noter les

combinaisons tablies partir de 15 situations et de 15 comportements sur une chelle de 0


9, o 0 = extrmement appropri et 9 = extrmement inappropri . En effectuant
la moyenne des rsultats de lensemble des individus, on constate une certaine diffrence
entre les valeurs.

behavior_ini.sav. Ce fichier de donnes contient la configuration initiale dune solution

bidimensionnelle pour behavior.sav.

brakes.sav. Ce fichier de donnes dhypothse concerne le contrle qualit effectu dans

une usine qui fabrique des freins disque pour des voitures haut de gamme. Le fichier de
donnes contient les mesures de diamtre de 16 disques de 8 machines de production. Le
diamtre cible des freins est de 322 millimtres.

breakfast.sav. Au cours dune tude classique , on a demand 21 tudiants en MBA (Master

of Business Administration) de lcole de Wharton et leurs conjoints de classer 15 aliments


du petit-djeuner selon leurs prfrences, de 1= aliment prfr 15= aliment le moins
apprci . Leurs prfrences ont t enregistres dans six scnarios diffrents, allant de
Prfrence gnrale En-cas avec boisson uniquement .

breakfast-overall.sav. Ce fichier de donnes contient les prfrences de petit-djeuner du

premier scnario uniquement, Prfrence gnrale .

broadband_1.sav. Ce fichier de donnes dhypothse concerne le nombre dabonns, par

rgion, un service haut dbit. Le fichier de donnes contient le nombre dabonns mensuels
de 85 rgions sur une priode de quatre ans.

broadband_2.sav. Ce fichier de donnes est identique au fichier broadband_1.sav mais contient

les donnes relatives trois mois supplmentaires.

car_insurance_claims.sav. Il sagit dun ensemble de donnes prsent et analys ailleurs

qui concerne des actions en indemnisation pour des voitures. Le montant daction en
indemnisation moyen peut tre model comme prsentant une distribution gamma, laide
dune fonction de lien inverse pour associer la moyenne de la variable dpendante une
combinaison linaire de lge de lassur, du type de vhicule et de lge du vhicule. Le
nombre dactions entreprises peut tre utilis comme pondration de positionnement.

car_sales.sav. Ce fichier de donnes contient des estimations de ventes hypothtiques, des

barmes de prix et des spcifications physiques concernant divers modles et marques de


vhicule. Les barmes de prix et les spcifications physiques proviennent tour tour de
edmunds.com et des sites des constructeurs.

car_sales_uprepared.sav. Il sagit dune version modifie de car_sales.sav qui ninclut aucune

version transforme des champs.

87
Fichiers dexemple

carpet.sav. Dans un exemple courant , une socit intresse par la commercialisation dun

nouveau nettoyeur de tapis souhaite examiner linfluence de cinq critres sur la prfrence
du consommateur : la conception du conditionnement, la marque, le prix, une tiquette
Economique et une garantie satisfait ou rembours. Il existe trois niveaux de critre pour
la conception du conditionnement, suivant lemplacement de lapplicateur, trois marques
(K2R, Glory et Bissell), trois niveaux de prix et deux niveaux (non ou oui) pour chacun
des deux derniers critres. Dix consommateurs classent 22 profils dfinis par ces critres.
La variable Prfrence indique le classement des rangs moyens de chaque profil. Un rang
faible correspond une prfrence leve. Cette variable reflte une mesure globale de
prfrence pour chaque profil.

carpet_prefs.sav. Ce fichier de donnes repose sur le mme exemple que celui dcrit pour

carpet.sav, mais contient les classements rels issus de chacun des 10 clients. On a demand
aux consommateurs de classer les 22 profils de produits, du prfr au moins intressant. Les
variables PREF1 PREF22 contiennent les identificateurs des profils associs, tels quils
sont dfinis dans carpet_plan.sav.

catalog.sav. Ce fichier de donnes contient des chiffres de ventes mensuelles hypothtiques

relatifs trois produits vendus par une entreprise de vente par correspondance. Les donnes
relatives cinq variables explicatives possibles sont galement incluses.

catalog_seasfac.sav. Ce fichier de donnes est identique catalog.sav mais contient en plus

un ensemble de facteurs saisonniers calculs partir de la procdure de dsaisonnalisation,


ainsi que les variables de date correspondantes.

cellular.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend un

oprateur tlphonique pour rduire les taux de dsabonnement. Des scores de propension au
dsabonnement sont attribus aux comptes, de 0 100. Les comptes ayant une note gale ou
suprieure 50 sont susceptibles de changer de fournisseur.

ceramics.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend un

fabricant pour dterminer si un nouvel alliage haute qualit rsiste mieux la chaleur quun
alliage standard. Chaque observation reprsente un test spar de lun des deux alliages ; le
degr de chaleur auquel lalliage ne rsiste pas est enregistr.

cereal.sav. Ce fichier de donnes dhypothse concerne un sondage de 880 personnes

interroges sur leurs prfrences de petit-djeuner et sur leur ge, leur sexe, leur situation
familiale et leur mode de vie (actif ou non actif, selon quelles pratiquent une activit physique
au moins deux fois par semaine). Chaque observation correspond un rpondant distinct.

clothing_defects.sav. Ce fichier de donnes dhypothse concerne le processus de contrle

qualit observ dans une usine de textile. Dans chaque lot produit lusine, les inspecteurs
prlvent un chantillon de vtements et comptent le nombre de vtements qui ne sont pas
acceptables.

coffee.sav. Ce fichier de donnes concerne limage perue de six marques de caf frapp .

Pour chacun des 23 attributs dimage de caf frapp, les personnes sollicites ont slectionn
toutes les marques dcrites par lattribut. Les six marques sont appeles AA, BB, CC, DD, EE
et FF des fins de confidentialit.

contacts.sav. Ce fichier de donnes dhypothse concerne les listes de contacts dun groupe

de reprsentants en informatique dentreprise. Chaque contact est class selon le service de


lentreprise o il travaille et le classement de son entreprise. Sont galement enregistrs le

88
Annexe A

montant de la dernire vente effectue, le temps pass depuis la dernire vente et la taille
de lentreprise du contact.

creditpromo.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend un

grand magasin pour valuer lefficacit dune promotion rcente de carte de crdit. A cette
fin, 500 dtenteurs de carte ont t slectionns au hasard. La moiti a reu une publicit
faisant la promotion dun taux dintrt rduit sur les achats effectus dans les trois mois
venir. Lautre moiti a reu une publicit saisonnire standard.

customer_dbase.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend

une socit pour utiliser les informations figurant dans sa banque de donnes et proposer des
offres spciales aux clients susceptibles dtre intresss. Un sous-groupe de la base de
clients a t slectionn au hasard et a reu des offres spciales. Les rponses des clients
ont t enregistres.

customer_information.sav. Un fichier de donnes dhypothse qui contient les informations

postales du client, telles que le nom et ladresse.

customer_subset.sav. Un sous-ensemble de 80 observations de customer_dbase.sav.

debate.sav. Ce fichier de donnes dhypothse concerne des rponses apparies une enqute

donne aux participants un dbat politique avant et aprs le dbat. Chaque observation
reprsente un rpondant distinct.

debate_aggregate.sav. Il sagit dun fichier de donnes dhypothse qui rassemble les rponses

dans le fichier debate.sav. Chaque observation correspond une classification croise de


prfrence avant et aprs le dbat.

demo.sav. Ce fichier de donnes dhypothse concerne une base de donnes clients achete en

vue de diffuser des offres mensuelles. Les donnes indiquent si le client a rpondu ou non
loffre et contiennent diverses informations dmographiques.

demo_cs_1.sav. Ce fichier de donnes dhypothse concerne la premire mesure entreprise

par une socit pour compiler une base de donnes contenant des informations denqute.
Chaque observation correspond une ville diffrente. La rgion, la province, le quartier
et la ville sont enregistrs.

demo_cs_2.sav. Ce fichier de donnes dhypothse concerne la seconde mesure entreprise par

une socit pour compiler une base de donnes contenant des informations denqute. Chaque
observation correspond un mnage diffrent issu des villes slectionnes la premire
tape. La rgion, la province, le quartier, la ville, la sous-division et lidentification sont
enregistrs. Les informations dchantillonnage des deux premires tapes de la conception
sont galement incluses.

demo_cs.sav. Ce fichier de donnes dhypothse concerne des informations denqute

collectes via une mthode complexe dchantillonnage. Chaque observation correspond


un mnage diffrent et diverses informations gographiques et dchantillonnage sont
enregistres.

dmdata.sav. Ceci est un fichier de donnes dhypothse qui contient des informations

dmographiques et des informations concernant les achats pour une entreprise de marketing
direct. dmdata2.sav contient les informations pour un sous-ensemble de contacts qui ont reu
un envoi dessai, et dmdata3.sav contient des informations sur les contacts restants qui nont
pas reu lenvoi dessai.

89
Fichiers dexemple

dietstudy.sav. Ce fichier de donnes dhypothse contient les rsultats dune tude portant sur

le rgime de Stillman. Chaque observation correspond un sujet distinct et enregistre son


poids en livres avant et aprs le rgime, ainsi que ses niveaux de triglycrides en mg/100 ml.

dvdplayer.sav. Ce fichier de donnes dhypothse concerne le dveloppement dun nouveau

lecteur DVD. A laide dun prototype, lquipe de marketing a collect des donnes de
groupes spcifiques. Chaque observation correspond un utilisateur interrog et enregistre
des informations dmographiques sur cet utilisateur, ainsi que ses rponses aux questions
portant sur le prototype.

german_credit.sav. Ce fichier de donnes provient de lensemble de donnes German credit

figurant dans le rfrentiel Machine Learning Databases de luniversit de Californie, Irvine.

grocery_1month.sav. Ce fichier de donnes dhypothse est le fichier de donnes

grocery_coupons.sav dans lequel les achats hebdomadaires sont organiss par client distinct.
Certaines variables qui changeaient toutes les semaines disparaissent. En outre, le montant
dpens enregistr est prsent la somme des montants dpenss au cours des quatre
semaines de lenqute.

grocery_coupons.sav. Il sagit dun fichier de donnes dhypothse qui contient des donnes

denqute collectes par une chane de magasins dalimentation qui chercher dterminer les
habitudes de consommation de ses clients. Chaque client est suivi pendant quatre semaines
et chaque observation correspond une semaine distincte. Les informations enregistres
concernent les endroits o le client effectue ses achats, la manire dont il les effectue, ainsi
que les sommes dpenses en provisions au cours de cette semaine.

guttman.sav. Bell a prsent un tableau pour illustrer les groupes sociaux possibles. Guttman a

utilis une partie de ce tableau, dans lequel cinq variables dcrivant des lments tels que
linteraction sociale, le sentiment dappartenance un groupe, la proximit physique des
membres et la formalit de la relation, ont t croises avec sept groupes sociaux thoriques,
dont les foules (par exemple, le public dun match de football), laudience (par exemple, au
cinma ou dans une salle de classe), le public (par exemple, les journaux ou la tlvision),
les bandes (proche dune foule, mais qui serait caractrise par une interaction beaucoup
plus intense), les groupes primaires (intimes), les groupes secondaires (volontaires) et la
communaut moderne (groupement lche issu dune forte proximit physique et dun besoin
de services spcialiss).

health_funding.sav. Ce fichier de donnes dhypothse concerne des donnes sur le

financement des soins de sant (montant par groupe de 100 individus), les taux de maladie
(taux par groupe de 10 000 individus) et les visites chez les prestataires de soins de sant (taux
par groupe de 10 000 individus). Chaque observation reprsente une ville diffrente.

hivassay.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend un

laboratoire pharmaceutique pour dvelopper une analyse rapide de dtection dinfection HIV.
Lanalyse a pour rsultat huit nuances de rouge, les nuances les plus marques indiquant une
plus forte probabilit dinfection. Un test en laboratoire a t effectu sur 2 000 chantillons de
sang, la moiti de ces chantillons tant infecte par le virus HIV et lautre moiti tant saine.

hourlywagedata.sav. Ce fichier de donnes dhypothse concerne les salaires horaires

dinfirmires occupant des postes administratifs et dans les services de soins, et affichant
divers niveaux dexprience.

90
Annexe A

insurance_claims.sav. Il sagit dun fichier de donnes hypothtiques qui concerne une

compagnie dassurance souhaitant dvelopper un modle pour signaler des rclamations


suspectes, potentiellement frauduleuses. Chaque observation correspond une rclamation
distincte.

insure.sav. Ce fichier de donnes dhypothse concerne une compagnie dassurance qui tudie

les facteurs de risque indiquant si un client sera amen dclarer un incident au cours dun
contrat dassurance vie dune dure de 10 ans. Chaque observation figurant dans le fichier
de donnes reprsente deux contrats, lun ayant enregistr une rclamation et lautre non,
apparis par ge et sexe.

judges.sav. Ce fichier de donnes dhypothse concerne les scores attribus par des juges

expriments (plus un juge enthousiaste) 300 performances de gymnastique. Chaque ligne


reprsente une performance distincte ; les juges ont examin les mmes performances.

kinship_dat.sav. Rosenberg et Kim se sont lancs dans lanalyse de 15 termes de parent

(cousin/cousine, fille, fils, frre, grand-mre, grand-pre, mre, neveu, nice, oncle, pre,
petite-fille, petit-fils, sur, tante). Ils ont demand quatre groupes dtudiants (deux groupes
de femmes et deux groupes dhommes) de trier ces termes en fonction des similarits. Deux
groupes (un groupe de femmes et un groupe dhommes) ont t invits effectuer deux tris,
en basant le second sur un autre critre que le premier. Ainsi, un total de six sources a t
, dont le nombre de
obtenu. Chaque source correspond une matrice de proximit
cellules est gal au nombre de personnes dans une source moins le nombre de fois o les
objets ont t partitionns dans cette source.

kinship_ini.sav. Ce fichier de donnes contient une configuration initiale dune solution

tridimensionnelle pour kinship_dat.sav.

kinship_var.sav. Ce fichier de donnes contient les variables indpendantes sexe, gnr(ation)

et degr (de sparation) permettant dinterprter les dimensions dune solution pour
kinship_dat.sav. Elles permettent en particulier de rduire lespace de la solution une
combinaison linaire de ces variables.

marketvalues.sav. Ce fichier de donnes concerne les ventes de maisons dans un nouvel

ensemble Algonquin (Illinois) au cours des annes 19992000. Ces ventes relvent des
archives publiques.

nhis2000_subset.sav.Le NHIS (National Health Interview Survey) est une enqute de

grande envergure concernant la population des Etats-Unis. Des entretiens ont lieu avec
un chantillon de mnages reprsentatifs de la population amricaine. Des informations
dmographiques et des observations sur ltat de sant et le comportement sanitaire sont
recueillies auprs des membres de chaque mnage. Ce fichier de donnes contient un
sous-groupe dinformations issues de lenqute de 2000. National Center for Health Statistics.
National Health Interview Survey, 2000. Fichier de donnes et documentation dusage public.
ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/NHIS/2000/. Accs en 2003.

ozone.sav. Les donnes incluent 330 observations portant sur six variables mtorologiques

pour prvoir la concentration dozone partir des variables restantes. Des chercheurs
prcdents , , ont dcel parmi ces variables des non-linarits qui pnalisent les approches
standard de la rgression.

91
Fichiers dexemple

pain_medication.sav. Ce fichier de donnes dhypothse contient les rsultats dun essai

clinique dun remde anti-inflammatoire traitant les douleurs de larthrite chronique. On


cherche notamment dterminer le temps ncessaire au mdicament pour agir et les rsultats
quil permet dobtenir par rapport un mdicament existant.

patient_los.sav. Ce fichier de donnes dhypothse contient les dossiers mdicaux de patients

admis lhpital pour suspicion dinfarctus du myocarde suspect (ou attaque cardiaque ).
Chaque observation correspond un patient distinct et enregistre de nombreuses variables
lies son sjour lhpital.

patlos_sample.sav. Ce fichier de donnes dhypothse contient les dossiers mdicaux dun

chantillon de patients sous traitement thrombolytique aprs un infarctus du myocarde.


Chaque observation correspond un patient distinct et enregistre de nombreuses variables
lies son sjour lhpital.

poll_cs.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend un

enquteur pour dterminer le niveau de soutien du public pour un projet de loi avant
lgislature. Les observations correspondent des lecteurs enregistrs. Chaque observation
enregistre le comt, la ville et le quartier o habite llecteur.

poll_cs_sample.sav. Ce fichier de donnes dhypothse contient un chantillon des lecteurs

rpertoris dans le fichier poll_cs.sav. Lchantillon a t prlev selon le plan spcifi dans le
fichier de plan poll.csplan et ce fichier de donnes enregistre les probabilits dinclusion et les
pondrations dchantillon. Toutefois, ce plan faisant appel une mthode dchantillonnage
de probabilit proportionnelle la taille (PPS Probability-Proportional-to-Size), il existe
galement un fichier contenant les probabilits de slection conjointes (poll_jointprob.sav).
Les variables supplmentaires correspondant la rpartition dmographique des lecteurs et
leur opinion sur le projet de loi propos ont t collectes et ajoutes au fichier de donnes
une fois lchantillon prlev.

property_assess.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend

un contrleur au niveau du comt pour maintenir les valuations de valeur de proprit jour
sur des ressources limites. Les observations correspondent des proprits vendues dans le
comt au cours de lanne prcdente. Chaque observation du fichier de donnes enregistre
la ville o se trouve la proprit, lvaluateur ayant visit la proprit pour la dernire fois,
le temps coul depuis cette valuation, lvaluation effectue ce moment-l et la valeur
de vente de la proprit.

property_assess_cs.sav. Ce fichier de donnes dhypothse concerne les mesures

quentreprend un contrleur du gouvernement pour maintenir les valuations de valeur de


proprit jour sur des ressources limites. Les observations correspondent des proprits
de ltat. Chaque observation du fichier de donnes enregistre le comt, la ville et le quartier
o se trouve la proprit, le temps coul depuis la dernire valuation et lvaluation alors
effectue.

property_assess_cs_sample.sav. Ce fichier de donnes dhypothse contient un chantillon

des proprits rpertories dans le fichier property_assess_cs.sav. Lchantillon a t


prlev selon le plan spcifi dans le fichier de plan property_assess.csplan et ce fichier de
donnes enregistre les probabilits dinclusion et les pondrations dchantillon. La variable
supplmentaire Valeur courante a t collecte et ajoute au fichier de donnes une fois
lchantillon prlev.

92
Annexe A

recidivism.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend une

agence administrative dapplication de la loi pour interprter les taux de rcidive dans la
juridiction. Chaque observation correspond un rcidiviste et enregistre les informations
dmographiques qui lui sont propres, certains dtails sur le premier dlit commis, ainsi que
le temps coul jusqu la seconde arrestation si elle sest produite dans les deux annes
suivant la premire.

recidivism_cs_sample.sav. Ce fichier de donnes dhypothse concerne les mesures

quentreprend une agence administrative dapplication de la loi pour interprter les taux de
rcidive dans la juridiction. Chaque observation correspond un rcidiviste libr suite
la premire arrestation en juin 2003 et enregistre les informations dmographiques qui
lui sont propres, certains dtails sur le premier dlit commis et les donnes relatives la
seconde arrestation, si elle a eu lieu avant fin juin 2006. Les rcidivistes ont t choisis dans
plusieurs dpartements chantillonns conformment au plan dchantillonnage spcifi dans
recidivism_cs.csplan. Ce plan faisant appel une mthode dchantillonnage de probabilit
proportionnelle la taille (PPS - Probability proportional to size), il existe galement un
fichier contenant les probabilits de slection conjointes (recidivism_cs_jointprob.sav).

rfm_transactions.sav.Un fichier de donnes dhypothse qui contient les donnes de transaction

dachat, y compris la date dachat, le/les lment(s) achet(s) et le montant montaire pour
chaque transaction.

salesperformance.sav. Ce fichier de donnes dhypothse concerne lvaluation de deux

nouveaux cours de formation en vente. Soixante employs, diviss en trois groupes, reoivent
chacun une formation standard. En outre, le groupe 2 suit une formation technique et le
groupe 3 un didacticiel pratique. A lissue du cours de formation, chaque employ est test et
sa note enregistre. Chaque observation du fichier de donnes reprsente un stagiaire distinct
et enregistre le groupe auquel il a t assign et la note quil a obtenue au test.

satisf.sav. Il sagit dun fichier de donnes dhypothse portant sur une enqute de satisfaction

effectue par une socit de vente au dtail au niveau de quatre magasins. Un total de
582 clients ont t interrogs et chaque observation reprsente la rponse dun seul client.

screws.sav.Ce fichier de donnes contient des informations sur les descriptives des vis, des

boulons, des crous et des clous..

shampoo_ph.sav. Ce fichier de donnes dhypothse concerne le processus de contrle qualit

observ dans une usine de produits capillaires. A intervalles rguliers, six lots de sortie
distincts sont mesurs et leur pH enregistr. La plage cible est 4,55,5.

ships.sav. Il sagit dun ensemble de donnes prsent et analys ailleurs et concernant

les dommages causs des cargos par les vagues. Les effectifs dincidents peuvent tre
modliss comme des incidents se produisant selon un taux de Poisson en fonction du type de
navire, de la priode de construction et de la priode de service. Les mois de service totaliss
pour chaque cellule du tableau form par la classification croise des facteurs fournissent
les valeurs dexposition au risque.

site.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend une socit

pour choisir de nouveaux sites pour le dveloppement de ses activits. Lentreprise a fait
appel deux consultants pour valuer sparment les sites. Ces consultants, en plus de fournir
un rapport approfondi, ont class chaque site comme constituant une ventualit bonne ,
moyenne ou faible .

93
Fichiers dexemple

smokers.sav. Ce fichier de donnes est extrait de ltude National Household Survey of

Drug Abuse de 1998 et constitue un chantillon de probabilit des mnages amricains.


(http://dx.doi.org/10.3886/ICPSR02934) Ainsi, la premire tape dans lanalyse de ce fichier
doit consister pondrer les donnes pour reflter les tendances de population.

stocks.sav Ce fichier de donnes hypothtiques contient le cours et le volume des actions

pour un an.

stroke_clean.sav. Ce fichier de donnes dhypothse concerne ltat dune base de donnes

mdicales une fois celle-ci purge via des procdures de loption Validation de donnes.

stroke_invalid.sav. Ce fichier de donnes dhypothse concerne ltat initial dune base de

donnes mdicales et comporte plusieurs erreurs de saisie de donnes.

stroke_survival. Ce fichier de donnes dhypothse concerne les temps de survie de patients

qui quittent un programme de rducation la suite dun accident ischmique et rencontrent


un certain nombre de problmes. Aprs lattaque, loccurrence dinfarctus du myocarde,
daccidents ischmiques ou hmorragiques est signale, et le moment de lvnement
enregistr. Lchantillon est tronqu gauche car il ninclut que les patients ayant survcu
durant le programme de rducation mis en place suite une attaque.

stroke_valid.sav. Ce fichier de donnes dhypothse concerne ltat dune base de donnes

mdicales une fois les valeurs vrifies via la procdure Validation de donnes. Elle contient
encore des observations anormales potentielles.

survey_sample.sav. Ce fichier de donnes concerne des informations denqute dont des

donnes dmographiques et des mesures comportementales. Il est bas sur un sous-ensemble


de variables de la 1998 NORC General Social Survey, bien que certaines valeurs de donnes
aient t modifies et que des variables supplmentaires fictives aient t ajoutes titre de
dmonstration.

telco.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend une socit

de tlcommunications pour rduire les taux de dsabonnement de sa base de clients.


Chaque observation correspond un client distinct et enregistre diverses informations
dmographiques et dutilisation de service.

telco_extra.sav. Ce fichier de donnes est semblable au fichier de donnes telco.sav mais

les variables de permanence et de dpenses des consommateurs transformes log ont t


supprimes et remplaces par des variables de dpenses des consommateurs transformes log
standardises.

telco_missing.sav. Ce fichier de donnes est un sous-ensemble du fichier de donnes telco.sav

mais certaines des valeurs de donnes dmographiques ont t remplaces par des valeurs
manquantes.

testmarket.sav. Ce fichier de donnes dhypothse concerne une chane de fast foods et ses

plans marketing visant ajouter un nouveau plat son menu. Trois campagnes tant possibles
pour promouvoir le nouveau produit, le nouveau plat est introduit sur des sites sur plusieurs
marchs slectionns au hasard. Une promotion diffrente est effectue sur chaque site et les
ventes hebdomadaires du nouveau plat sont enregistres pour les quatre premires semaines.
Chaque observation correspond un site-semaine distinct.

testmarket_1month.sav. Ce fichier de donnes dhypothse est le fichier de donnes

testmarket.sav dans lequel les ventes hebdomadaires sont organises par site distinct.
Certaines variables qui changeaient toutes les semaines disparaissent. En outre, les ventes

94
Annexe A

enregistres sont prsent la somme des ventes ralises au cours des quatre semaines de
lenqute.

tree_car.sav. Ce fichier de donnes dhypothse concerne des donnes dmographiques et de

prix dachat de vhicule.

tree_credit.sav. Ce fichier de donnes dhypothse concerne des donnes dmographiques

et dhistorique de prt bancaire.

tree_missing_data.sav Ce fichier de donnes dhypothse concerne des donnes

dmographiques et dhistorique de prt bancaire avec un grand nombre de valeurs manquantes.

tree_score_car.sav. Ce fichier de donnes dhypothse concerne des donnes dmographiques

et de prix dachat de vhicule.

tree_textdata.sav. Ce fichier de donnes simples ne comporte que deux variables et vise

essentiellement indiquer ltat par dfaut des variables avant affectation du niveau de
mesure et des tiquettes de valeurs.

tv-survey.sav. Ce fichier de donnes dhypothse concerne une enqute mene par un studio

de tlvision qui envisage de prolonger la diffusion dun programme ou de larrter. On


a demand 906 personnes si elles regarderaient le programme dans diverses situations.
Chaque ligne reprsente un rpondant distinct et chaque colonne une situation distincte.

ulcer_recurrence.sav. Ce fichier contient des informations partielles dune enqute visant

comparer lefficacit de deux thrapies de prvention de la rcurrence des ulcres. Il fournit


un bon exemple de donnes censures par intervalle et a t prsent et analys ailleurs .

ulcer_recurrence_recoded.sav. Ce fichier rorganise les informations figurant dans le fichier

ulcer_recurrence.sav pour que vous puissiez modliser la probabilit dvnement pour


chaque intervalle de lenqute plutt que la probabilit dvnement de fin denqute. Il a
t prsent et analys ailleurs .

verd1985.sav. Ce fichier de donnes concerne une enqute . Les rponses de 15 sujets 8

variables ont t enregistres. Les variables prsentant un intrt sont divises en trois
ensembles. Le groupe 1 comprend lge et la situation familiale, le groupe 2 les animaux
domestiques et la presse, et le groupe 3 la musique et lhabitat. A la variable animal
domestique est appliqu un codage nominal multiple et ge, un codage ordinal ; toutes les
autres variables ont un codage nominal simple.

virus.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend un

fournisseur de services Internet pour dterminer les effets dun virus sur ses rseaux. Il a suivi
le pourcentage (approximatif) de trafic de messages lectroniques infects par un virus sur ses
rseaux sur la dure, de la dcouverte la circonscription de la menace.

wheeze_steubenville.sav. Il sagit dun sous-ensemble dune enqute longitudinale des effets

de la pollution de lair sur la sant des enfants . Les donnes contiennent des mesures binaires
rptes de ltat asthmatique denfants de la ville de Steubenville (Ohio), gs de 7, 8, 9 et
10 ans, et indiquent si la mre fumait au cours de la premire anne de lenqute.

workprog.sav. Ce fichier de donnes dhypothse concerne un programme de ladministration

visant proposer de meilleurs postes aux personnes dfavorises. Un chantillon de


participants potentiels au programme a ensuite t prlev. Certains de ces participants ont

95
Fichiers dexemple

t slectionns au hasard pour participer au programme. Chaque observation reprsente un


participant au programme distinct.

worldsales.sav Ce fichier de donnes hypothtiques contient les revenus des ventes par

continent et par produit.

Annexe

Remarques
Ces informations ont t dveloppes pour les produits et services offerts dans le monde.

Il est possible quIBM noffre pas dans les autres pays les produits, services et fonctionnalits
dcrits dans ce document. Contactez votre reprsentant local IBM pour obtenir des informations
sur les produits et services actuellement disponibles dans votre rgion. Toute rfrence un
produit, programme ou service IBM nimplique pas que les seuls les produits, programmes
ou services IBM peuvent tre utiliss. Tout produit, programme ou service de fonctionnalit
quivalente qui ne viole pas la proprit intellectuelle IBM peut tre utilis la place. Cependant
lutilisateur doit valuer et vrifier lutilisation dun produit, programme ou service non IBM.
IBM peut possder des brevets ou des applications de brevet en attente qui couvrent les sujets
dcrits dans ce document. Loctroi de ce document nquivaut aucunement celui dune licence
pour ces brevets. Vous pouvez envoyer par crit des questions concernant la licence :
IBM Director of Licensing, IBM Corporation, North Castle Drive, Armonk, NY 10504-1785,
tats-Unis
Pour obtenir des informations de licence concernant la configuration de caractres cods sur
deux octets (DBCS), veuillez contacter dans votre pays le dpartement charg de la proprit
intellectuelle chez IBM ou envoyez vos commentaires par crit :
Intellectual Property Licensing, Legal and Intellectual Property Law, IBM Japan Ltd., 1623-14,
Shimotsuruma, Yamato-shi, Kanagawa 242-8502 Japon.
Le paragraphe suivant ne sapplique pas au Royaume-Uni ni aucun pays dans lequel ces dispositions
sont contraires au droit local : INTERNATIONAL BUSINESS MACHINES FOURNIT CETTE

PUBLICATION EN LETAT SANS GARANTIE DAUCUNE SORTE, IMPLICITE OU


EXPLICITE, Y COMPRIS, MAIS SANS ETRE LIMITE AUX GARANTIES IMPLICITES DE
NON VIOLATION, DE QUALITE MARCHANDE OU DADAPTATION POUR UN USAGE
PARTICULIER. Certains tats nautorisent pas lexclusion de garanties explicites ou implicites
lors de certaines transactions, par consquent, il est possible que cet nonc ne vous concerne pas.
Ces informations peuvent contenir des erreurs techniques ou des erreurs typographiques. Ces
informations sont modifies de temps en temps ; ces modifications seront intgres aux nouvelles
versions de la publication. IBM peut apporter des amliorations et/ou modifications des produits
et/ou des programmes dcrits dans cette publications tout moment sans avertissement pralable.
Toute rfrence dans ces informations des sites Web autres quIBM est fournie dans un but
pratique uniquement et ne sert en aucun cas de recommandation pour ces sites Web. Le matriel
contenu sur ces sites Web ne fait pas partie du matriel de ce produit IBM et lutilisation de ces
sites Web se fait vos propres risques.
IBM peut utiliser ou distribuer les informations que vous lui fournissez, de la faon dont il le
souhaite, sans encourir aucune obligation envers vous.
Copyright IBM Corporation 1989, 2011.

96

97
Remarques

Les personnes disposant dune licence pour ce programme et qui souhaitent obtenir des
informations sur celui-ci pour activer : (i) lchange dinformations entre des programmes crs
de manire indpendante et dautres programmes (notamment celui-ci) et (ii) lutilisation mutuelle
des informations qui ont t changes, doivent contacter :
IBM Software Group, Attention: Licensing, 233 S. Wacker Dr., Chicago, IL 60606, tats-Unis.
Ces informations peuvent tre disponibles, soumises des conditions gnrales, et dans certains
cas payantes.
Le programme sous licence dcrit dans ce document et toute la documentation sous licence
disponible pour ce programme sont fournis par IBM en conformit avec les conditions de laccord
du client IBM, avec laccord de licence du programme international IBM et avec tout accord
quivalent entre nous.
les informations concernant les produits autres quIBM ont t obtenues auprs des fabricants de
ces produits, leurs annonces publiques ou dautres sources publiques disponibles. IBM na pas
test ces produits et ne peut confirmer lexactitude de leurs performances, leur compatibilit ou
toute autre fonctionnalit associe des produits autres quIBM. Les questions sur les capacits de
produits autres quIBM doivent tre adresses aux fabricants de ces produits.
Ces informations contiennent des exemples de donnes et de rapports utiliss au cours
doprations quotidiennes standard. Pour les illustrer le mieux possible, ces exemples contiennent
des noms dindividus, dentreprises, de marques et de produits. Tous ces noms sont fictifs et
toute ressemblance avec des noms et des adresses utiliss par une entreprise relle ne serait
que pure concidence.
Si vous consultez la version papier de ces informations, il est possible que certaines photographies
et illustrations en couleurs napparaissent pas.
Marques commerciales

IBM, le logo IBM, ibm.com et SPSS sont des marques commerciales dIBM Corporation,
dposes dans de nombreuses juridictions du monde entier. Une liste jour des marques IBM est
disponible sur Internet ladresse http://www.ibm.com/legal/copytrade.shtml.
Adobe, le logo Adobe, PostScript et le logo PostScript sont des marques dposes ou des marques
commerciales de Adobe Systems Incorporated aux Etats-Unis et/ou dans dautres pays.
Intel, le logo Intel, Intel Inside, le logo Intel Inside, Intel Centrino, le logo Intel Centrino, Celeron,
Intel Xeon, Intel SpeedStep, Itanium, et Pentium sont des marques commerciales ou des marques
dposes de Intel Corporation ou de ses filiales aux Etats-Unis et dans dautres pays.
Java et toutes les marques et logos Java sont des marques commerciales de Sun Microsystems,
Inc. aux Etats-Unis et/ou dans dautres pays.
Linux est une marque dpose de Linus Torvalds aux Etats-Unis et/ou dans dautres pays.
Microsoft, Windows, Windows NT et le logo Windows sont des marques commerciales de
Microsoft Corporation aux Etats-Unis et/ou dans dautres pays.
UNIX est une marque dpose de The Open Group aux Etats-Unis et dans dautres pays.
Ce produit utilise WinWrap Basic, Copyright 1993-2007, Polar Engineering and Consulting,
http://www.winwrap.com/.

98
Annexe B

Les autres noms de produits et de services peuvent tre des marques dIBM ou dautres socits.
Les captures dcran des produits Adobe sont reproduites avec lautorisation de Adobe Systems
Incorporated.
Les captures dcran des produits Microsoft sont reproduites avec lautorisation de Microsoft
Corporation.

Index
Analyse des valeurs manquantes, 2, 37
EM, 9
estimation des statistiques, 8
Fonctionnalits supplmentaires, 13
imputation des valeurs manquantes, 8
Mthodes, 8
Motifs, 5, 45
Prvision-maximisation, 12
Rgression, 10
Statistiques descriptives, 7, 37
Test MCAR, 9
Analyser les modles, 15

Imputation multiple, 25, 29


Options, 34
Imputez les valeurs des donnes manquantes, 17
contraintes, 22
mthode dimputation, 20
Rsultats, 24
marques commerciales, 97
mentions lgales, 96
mise en tableau des modalits
Dans lanalyse des valeurs manquantes, 7, 41
Mise en tableau dobservations
Dans lanalyse des valeurs manquantes, 5
modles de valeurs manquantes, 47
Moyenne
Dans lanalyse des valeurs manquantes, 7, 910

Corrlations
Dans lanalyse des valeurs manquantes, 910
covariance
Dans lanalyse des valeurs manquantes, 910
Diagramme de convergence FCS
dans imputation multiple, 73
Donnes incompltes
Voir Analyse des donnes manquantes, 2

Non-concordance
Dans lanalyse des valeurs manquantes, 7
Normales
Dans lanalyse des valeurs manquantes, 10

Ecart-type
Dans lanalyse des valeurs manquantes, 7
Effectifs de valeurs extrmes
Dans lanalyse des valeurs manquantes, 7
EM
Dans lanalyse des valeurs manquantes, 9
estimations regroupes
dans imputation multiple, 79

Options
imputation multiple, 34
Rgression
Dans lanalyse des valeurs manquantes, 10
Rsidus
Dans lanalyse des valeurs manquantes, 10
rsultats regroups
dans imputation multiple, 73

fichiers dexemple
emplacement, 85

spcification entirement conditionnelle


dans Imputation multiple, 20
Statistiques univaries
Dans lanalyse des valeurs manquantes, 39
Suppression des composantes non valides
Dans lanalyse des valeurs manquantes, 2
Suppression des observations incompltes
Dans lanalyse des valeurs manquantes, 2

Historique des itrations


dans Imputation multiple, 24
imputation monotone
dans Imputation multiple, 20
imputation multiple, 14, 50
analyser les modles, 15
contraintes, 67
Diagramme de convergence FCS, 73
estimations regroupes, 79
imputer les valeurs des donnes manquantes, 17
Modles, 58
modles de valeurs manquantes, 53
rcapitulatif de variables, 52
rcapitulatif gnral des valeurs manquantes, 51
rsultats des imputations, 58
rsultats regroups, 73
spcifications des imputations, 57
Statistiques descriptives, 59, 67

tableaux de frquences
Dans lanalyse des valeurs manquantes, 7
Test MCAR, 9
Dans lanalyse des valeurs manquantes, 2, 48
Test T
Dans lanalyse des valeurs manquantes, 40
Test t :
Dans lanalyse des valeurs manquantes, 7
test t de Student
Dans lanalyse des valeurs manquantes, 10, 40
99

100
Index

Tri dobservations
Dans lanalyse des valeurs manquantes, 5
Valeurs manquantes
Statistiques univaries, 7, 39
Variables indicatrices
Dans lanalyse des valeurs manquantes, 7
Variables indicatrices manquantes
Dans lanalyse des valeurs manquantes, 7