Vous êtes sur la page 1sur 55

i

IBM SPSS Bootstrapping 20

Remarque : Avant dutiliser ces informations et le produit quelles concernent, lisez les
informations gnrales sous Remarques sur p. 43.
Cette version sapplique IBM SPSS Statistics 20 et toutes les publications et modifications
ultrieures jusqu mention contraire dans les nouvelles versions.
Les captures dcran des produits Adobe sont reproduites avec lautorisation de Adobe Systems
Incorporated.
Les captures dcran des produits Microsoft sont reproduites avec lautorisation de Microsoft
Corporation.
Matriel sous licence - Proprit dIBM
Copyright IBM Corporation 1989, 2011.

Droits limits pour les utilisateurs au sein dadministrations amricaines : utilisation, copie ou
divulgation soumise au GSA ADP Schedule Contract avec IBM Corp.

Prface
IBM SPSS Statistics est un systme complet danalyse de donnes. Le module complmentaire
facultatif Bootstrapping fournit les techniques danalyse supplmentaires dcrites dans ce manuel.
Le module complmentaire Bootstrapping doit tre utilis avec le systme central SPSS Statistics
auquel il est entirement intgr.

A propos de IBM Business Analytics


Le logiciel IBM Business Analytics offre des informations compltes, cohrentes et prcises
permettant aux preneurs de dcision damliorer leurs performances professionnelles. Un
portefeuille complet de solutions de business intelligence, danalyses prdictives, de performance
financire et de gestion de la stratgie, et dapplications analytiques permet une connaissance
claire et immdiate et offre des possibilits dactions sur les performances actuelles et la capacit
de prdire les rsultats futurs. En combinant des solutions du secteur, des pratiques prouves et des
services professionnels, les entreprises de toute taille peuvent gnrer la plus grande productivit,
automatiser les dcisions en toute confiance et apporter de meilleurs rsultats.
Dans le cadre de ce portefeuille, le logiciel IBM SPSS Predictive Analytics aide les entreprises
prdire des vnements futurs et agir de manire proactive en fonction de ces prdictions pour
apporter de meilleurs rsultats. Des clients dans les domaines commerciaux, gouvernementaux et
acadmiques se servent de la technologie IBM SPSS comme dun avantage concurrentiel pour
attirer ou retenir des clients, tout en rduisant les risques lis lincertitude et la fraude. En
intgrant le logiciel IBM SPSS leurs oprations quotidiennes, les entreprises peuvent effectuer
des prvisions, et sont capables de diriger et dautomatiser leurs dcisions afin datteindre
leurs objectifs commerciaux et dobtenir des avantages concurrentiels mesurables. Pour plus
dinformations ou pour contacter un reprsentant, visitez le site http://www.ibm.com/spss.

Support technique
Un support technique est disponible pour les clients du service de maintenance. Les clients
peuvent contacter lassistance technique pour obtenir de laide concernant lutilisation des produits
IBM Corp. ou linstallation dans lun des environnements matriels pris en charge. Pour contacter
lassistance technique, visitez le site IBM Corp. ladresse http://www.ibm.com/support. Votre
nom, celui de votre socit, ainsi que votre contrat dassistance vous seront demands.

Support technique pour les tudiants


Si vous tes un tudiant qui utilise la version pour tudiant, personnel de lducation ou diplm
dun produit logiciel IBM SPSS, veuillez consulter les pages Solutions pour lducation
(http://www.ibm.com/spss/rd/students/) consacres aux tudiants. Si vous tes un tudiant utilisant
une copie du logiciel IBM SPSS fournie par votre universit, veuillez contacter le coordinateur
des produits IBM SPSS de votre universit.
Copyright IBM Corporation 1989, 2011.

iii

Service clients
Si vous avez des questions concernant votre livraison ou votre compte, contactez votre bureau
local. Veuillez prparer et conserver votre numro de srie porte de main pour lidentification.

Sminaires de formation
IBM Corp. propose des sminaires de formation, publics et sur site. Tous les sminaires
font appel des ateliers de travaux pratiques. Ces sminaires seront proposs rgulirement
dans les grandes villes. Pour plus dinformations sur ces sminaires, accdez au site
http://www.ibm.com/software/analytics/spss/training.

Documents supplmentaires
Les ouvrages SPSS Statistics : Guide to Data Analysis, SPSS Statistics : Statistical Procedures
Companion, et SPSS Statistics : Advanced Statistical Procedures Companion, crits par Marija
Noruis et publis par Prentice Hall, sont suggrs comme documentation supplmentaire. Ces
publications prsentent les procdures statistiques des modules SPSS Statistics Base, Advanced
Statistics et Regression. Que vous soyez novice dans les analyses de donnes ou prt utiliser des
applications plus avances, ces ouvrages vous aideront exploiter au mieux les fonctionnalits
offertes par IBM SPSS Statistics. Pour obtenir des informations supplmentaires y compris
le contenu des publications et des extraits de chapitres, visitez le site web de lauteur :
http://www.norusis.com

iv

Contenu
Partie I: Guide de l'utilisateur
1

Introduction la mthode des amorces

Lamorce

Procdures prenant en charge lamorce. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5


Fonctions supplmentaires de la commande BOOTSTRAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

Partie II: Exemples


3

Lamorce

11

Utilisation de lamorce pour obtenir des intervalles de confiances pour les proportions . . . . . . . . 11
Prparation des donnes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Excution de lanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Spcifications de bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tableau des effectifs : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Utilisation de lamorce pour obtenir des intervalles de confiances pour les mdianes .

...
...
...
...
...
...

...
...
...
...
...
...

...
...
...
...
...
...

11
12
15
16
17
17

Excution de lanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Descriptives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Utilisation de lamorce pour choisir de meilleures valeurs prdites . . . . . . . . . . . . . . . . . . . . . . . . 21
Prparation des donnes. . . .
Excution de lanalyse . . . . . .
Estimations des paramtres. .
Lectures recommandes . . . . . . .

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

...
...
...
...

21
22
30
31

Annexes
A Fichiers dexemple

32

B Remarques

43

Bibliographie

46

Index

47

vi

Partie I:
Guide de l'utilisateur

Chapitre

Introduction la mthode des amorces

Lorsque vous collectez des donnes, vous tes souvent intresss analyser les proprits de
la population parmi laquelle vous avez pris des chantillons. Vous produisez des infrences
sur les paramtres de cette population laide destimations calcules partir de lchantillon.
Par exemple, si lensemble de donnes Employee data.sav inclus dans le produit est un
chantillon alatoire tir dune population demploys plus large, alors la valeur de la moyenne
de lchantillon du salaire actuel de 34 419,57 $ est une estimation du salaire actuel moyen des
employs. De plus, cette estimation a une erreur standard de $784 311 pour un chantillon de
474 individus, et un intervalle de confiance de 95% pour le salaire moyen actuel des employs
qui est de 32 878,40 $ 35 960,73 $. Mais quel point ces estimations sont-elles fiables ? Pour
certaines populations connues et des paramtres conformes, nous en savons plus sur les
proprits des estimations de lchantillon et nous pouvons tre confiants dans les rsultats. La
mthode des amorces est destine rechercher des informations supplmentaires sur les proprits
des estimateurs pour des populations inconnues et des paramtres non conformes.
Figure 1-1
Production dinfrences paramtriques sur la moyenne de la population

Fonctionnement de lamorce

Pour un ensemble de donnes dont la taille est N, vous prenez B chantillons de bootstrap
de taille N avec remplacement de lensemble de donnes dorigine et calculez lestimateur de
chacun des B chantillons de bootstrap. Ces B estimations de bootstrap sont un chantillon de
taille B partir duquel vous produisez des infrences sur lestimateur. Par exemple, si vous prenez
1000 chantillons de bootstrap dans lensemble de donnes Employee data.sav , vous obtenez
une erreur standard de bootstrap estime de 776,91 $ pour la moyenne de lchantillon du salaire
actuel, diffrente de lestimation de 784 311 $.
De plus, lamorce fournit une erreur standard et un intervalle de confiance pour la mdiane, pour
laquelle les estimations paramtriques ne sont pas disponibles.

Copyright IBM Corporation 1989, 2011.

2
Chapitre 1
Figure 1-2
Production dinfrences par bootstrap sur la moyenne de lchantillon

Prise en charge de lamorce dans le produit

Lamorce est intgre en tant que sous-bote de dialogue dans les procdures la prenant en charge.
Reportez-vous Procdures prenant en charge lamorce pour obtenir des informations sur les
procdures prenant en charge lamorce.
Lorsque lamorce est requise dans les botes de dialogue, une nouvelle commande distincte
BOOTSTRAP est colle en plus de la syntaxe usuelle gnre par la bote de dialogue. La
commande BOOTSTRAP cre les chantillons de bootstrap en fonction de vos spcifications. En

interne, le produit traite les chantillons de bootstrap comme des scissions, mme si ceux-ci ne
sont pas explicitement affichs dans lditeur de donnes. Cest dire quen interne, il existe
B*N observations, et le compteur dobservations de la barre dtat compte de 1 B*N lors du
traitement des donnes par lamorce. Le systme de gestion des rsultats (OMS) est utilis pour
collecter les rsultats de lanalyse de chaque scission de bootstrap . Ces rsultats sont alors
regroups et affichs dans le Viewer, en mme temps que le rsultat habituel gnr par la
procdure. Dans certains cas, vous verrez une rfrence un scission 0 de bootstrap, elle
correspond lensemble de donnes dorigine.

Chapitre

Lamorce

Lamorce est une mthode consistant driver des estimations robustes des erreurs standard et des
intervalles de confiance pour des estimations telles que la moyenne, la mdiane, le calcul de la
proportion, lodds ratio, le coefficient de corrlation ou de rgression. Elle peut aussi tre utilis
pour construire des tests dhypothse. Lamource est le plus souvent utile comme une alternative
aux estimations paramtriques lorsque les hypothses lies ces mthodes ne sont pas fiables
(comme dans le cas de modles de regression avec des rsidus htroscdastiques ajusts des
petits chantillons), ou lorsque linfrence paramtrique est impossible ou requiert des formules
trs complexes pour le calcul des erreurs standard (comme dans le cas du calcul dintervalles de
confiance pour la mdiane, les quartiles, et autres centiles).
Exemples : Une socit en tlcommunication perd environ 27% de ses clients chaque mois. Afin
de rduire ce taux dattrition, la direction souhaite savoir si ce taux varie selon les groupes de
consommateurs. A laide de la mthode de lamorce, vous pouvez dterminer si un mme taux
dattrition dcrit de manire approprie le comportement des quatre types principaux de clients.
Pour plus d'informations, reportez-vous la section Utilisation de lamorce pour obtenir des
intervalles de confiances pour les proportions dans le chapitre 3 dans IBM SPSS Bootstrapping 20.

Lors dune consultation des dossiers des employs, la direction souhaite vrifier leur exprience
professionnelle. Lexprience professionnelle est asymtrique, ce qui rend la moyenne moins
fiable comme moyen destimation de lexprience antrieure des employs que la mdiane.
Cependant, les intervalles de confiance paramtriques ne sont pas disponibles pour la mdiane
dans le produit. Pour plus d'informations, reportez-vous la section Utilisation de lamorce
pour obtenir des intervalles de confiances pour les mdianes dans le chapitre 3 dans IBM SPSS
Bootstrapping 20.
La direction est galement intresse dterminer les facteurs associs aux augmentations des
salaires des employs, en ajustant un modle linaire aux diffrences entre le salaire actuel et
le salaire dembauche. Lorsque la mthode des amorces est applique un modle linaire,
il est possible dutiliser des mthodes de r-chantillonnage (chantillonnage rsiduel et wild
bootstrap) pour obtenir des rsultats plus prcis. Pour plus d'informations, reportez-vous la
section Utilisation de lamorce pour choisir de meilleures valeurs prdites dans le chapitre 3
dans IBM SPSS Bootstrapping 20.
De nombreuses procdures prennent en charge lchantillonnage par bootstrap et le regroupement
des rsultats danalyse dchantillons de bootstrap. Les commandes permettant la spcification
des analyses par bootstrap sont intgres directement comme une sous-bote de dialogue dans
les procdures prenant en charge lamorce. Les paramtres de la bote de dialogue du bootstrap
sont conservs dune procdure lautre, ainsi si vous excutez une analyse des effectifs laide
de lamorce dans les botes de dialogues, elle sera active par dfaut pour les autres procdure
la prenant en charge.

Copyright IBM Corporation 1989, 2011.

4
Chapitre 2

Pour obtenir une analyse par bootstrap


E Dans les menus, choisissez une procdure qui prend en charge lamorce et cliquez sur Bootstrap.
Figure 2-1
Bote de dialogue Bootstrap

E Slectionnez Effectuer une amorce.

Vous pouvez ventuellement modifier les options suivantes :


Nombre dchantillons. Pour le centile et les intervalles BCa produits, il est recommand dutiliser
au moins 1000 chantillons de bootstrap. Spcifiez un nombre entier positif.
Dfinissez un gnrateur pour le Mersenne Twister . Dfinir un gnrateur vous permet de

reproduire les analyses. Lutilisation de cette commande revient dfinir le Mersenne Twister
comme le gnrateur actif et spcifier un point de dpart fixe dans la bote de dialogue
Gnrateurs de nombres alatoires. La diffrence notoire est que la dfinition du gnrateur dans
cette bote de dialogue conserve ltat actuel du gnrateur de nombres alatoires et restaure
cet tat une fois lanalyse termine.
Intervalles de confiance. Spcifiez un niveau de confiance suprieur 50 et infrieur 100. Les
intervalles de centile utilisent seulement des valeurs de bootstrap ordonnes correspondant aux
centiles dintervalle de confiance souhaits. Par exemple, un intervalle de confiance de centile
de 95 % utilise les 2,5e et 97,5e centiles des valeurs de bootstrap comme bornes infrieure et
suprieure de lintervalle (en interpolant des valeurs de bootstrap si ncessaire). Les intervalles de

5
Lamorce

biais corrig et acclr (BCa) sont des intervalles ajusts plus prcis, toutefois ils requirent plus
de temps de calcul.
Echantillonnage. La mthode Simple est le r-chantillonnage des observations avec remplacement

de lensemble de donnes dorigine. La mthode Stratifie est le r-chantillonnage des


observations avec remplacement de lensemble de donnes dorigine, au sein des strates dfinies
par la classification croise des variables de strate. Lchantillonnage de bootstrap stratifi est
utile lorsque les units au sein des strates sont relativement homognes, alors quelles sont
diffrentes dune strate lautre.

Procdures prenant en charge lamorce


Les procdures suivants prennent en charge lamorce.
Remarque :

Lamorce ne peut pas tre utilise avec des ensembles de donnes imputation multiple.
Si une variable Imputation_ est prsente dans lensemble de donnes, la bote de dialogue
Bootstrap est dsactive.

Lamorce utilise llimination des observations incompltes pour dterminer la base de


lobservation ; cest dire que les observations avec des valeurs manquantes pour nimporte
quelle variable de lanalyse sont supprimes de lanalyse. Ainsi lorsque lamorce est excute,
llimination des observations incompltes a lieu mme si la procdure danalyse spcifie une
autre forme de traitement des valeurs manquantes.

Option Statistiques de base


Effectifs

Le tableau de statistiques prend en charge les estimations par bootstrap pour la moyenne,
lcart type, la variance, la mdiane, lasymtrie, laplatissement et les centiles.

Le tableau Effectifs prend en charge les estimations par bootstrap pour les pourcentages.

Descriptifs

Le tableau de statistiques descriptives prend en charge les estimations par bootstrap pour la
moyenne, lcart type, la variance, lasymtrie et laplatissement.

Explorer

Le tableau Descriptives prend en charge les estimations par bootstrap pour la moyenne, la
moyenne tronque 5 %, lcart type, la variance, la mdiane, lasymtrie, laplatissement et
lintervalle interquartile.

Le tableau M-Estimateurs prend en charge les estimations par bootstrap pour le M-Estimateur
de Huber, lestimateur double pondration de Tukey, le M-estimateur de Hampel, et
lestimateur de Andrew.

Le tableau Centiles prend en charge les estimations par bootstrap pour les centiles.

Tableaux croiss

6
Chapitre 2

Le tableau Mesures directionnelles prend en charge les estimations par bootstrap pour
Lambda, le Tau de Goodman et Kruskal, le coefficient dincertitude et et le d de Somers.

Le tableau Mesures symtriques prend en charge les estimations par bootstrap pour Phi, le V
de Cramer, le coefficient de contingence, le tau-b de Kendall, le tau-c de Kendall, le Gamma,
la corrlation de Spearman, et le R de Pearson.

Le tableau Estimation du risque prend en charge les estimations par bootstrap pour lodds ratio.

Le tableau des odds ratio communs de Mantel-Haenszel prend en charge les estimations par
bootstrap et les tests de signification pour In (estimation).

Moyennes

Le tableau Rapport prend en charge les estimations par bootstrap pour la moyenne, la mdiane,
la mdiane groupe, lcart type, la variance, laplatissement, lasymtrie, la moyenne
harmonique et la moyenne gomtrique.

Test T pour chantillon unique

Le tableau Statistiques prend en charge les estimations par bootstrap pour la moyenne et
lcart type.

Le tableau Test prend en charge les estimations par bootstrap et les tests de signification
pour la diffrence moyenne.

Test T pour chantillons indpendants

Le tableau Statistiques de groupe prend en charge les estimations par bootstrap pour la
moyenne et lcart type.

Le tableau Test prend en charge les estimations par bootstrap et les tests de signification
pour la diffrence moyenne.

Test T pour chantillons apparis

Le tableau Statistiques prend en charge les estimations par bootstrap pour la moyenne et
lcart type.

Le tableau Corrlations prend en charge les estimations par bootstrap pour les corrlations.

Le tableau Test prend en charge les estimations par bootstrap pour la moyenne.

ANOVA 1 facteur

Le tableau Descriptive prend en charge les estimations par bootstrap pour la moyenne et
lcart type.

Le tableau Comparaisons multiples prend en charge les estimations par bootstrap pour la
diffrence moyenne.

Le tableau Tests de contraste prend en charge les estimations par bootstrap et les tests de
signification pour la valeur de contraste.

GLM - Univari

Le tableau Descriptive prend en charge les estimations par bootstrap pour la moyenne et
lcart type.

7
Lamorce

Le tableau Estimation des paramtres prend en charge les estimations par bootstrap et les
tests de signification pour le coefficient, B.

Le tableau Rsultats de contraste prend en charge les estimations par bootstrap et les tests
de signification pour la diffrence.

Les moyennes marginales estimes : Le tableau Estimations prend en charge les estimations
par bootstrap pour la moyenne.

Les moyennes marginales estimes : Le tableau Comparaisons par paire prend en charge les
estimations par bootstrap pour la diffrence moyenne.

Les tests post hoc : Le tableau Comparaisons multiples prend en charge les estimations par
bootstrap pour la diffrence moyenne.

Corrlations bivaries

Le tableau Descriptive prend en charge les estimations par bootstrap pour la moyenne et
lcart type.

Le tableau Corrlations prend en charge les estimations par bootstrap et les tests de
signification pour les corrlations.

Remarques :
Si des corrlations non paramtriques (tau-b de Kendall ou Spearman) sont requises en plus des
corrlations de Pearson, la bote de dialogue colle les commandes CORRELATIONS et NONPAR
CORR avec une commande BOOTSTRAP distincte pour chacune delles. Les mmes chantillons
de bootstrap seront utiliss pour calculer toutes les corrlations.
Avant le regroupement, la transformation Z de Fisher est applique aux corrlations. Aprs le
regroupement, la transformation Z inverse est applique.
Corrlations partielles

Le tableau Descriptive prend en charge les estimations par bootstrap pour la moyenne et
lcart type.

Le tableau Corrlations prend en charge les estimations par bootstrap pour les corrlations.

Rgression linaire

Le tableau Descriptive prend en charge les estimations par bootstrap pour la moyenne et
lcart type.

Le tableau Corrlations prend en charge les estimations par bootstrap pour les corrlations.

Le tableau Rcapitulatif des modles prend en charge les estimations par bootstrap pour
Durbin-Watson.

Le tableau Coefficients prend en charge les estimations par bootstrap et les tests de
signification pour le coefficient, B.

Le tableau Coefficients de corrlation prend en charge les estimations par bootstrap pour
les corrlations.

Le tableau Statistiques rsiduelles prend en charge les estimations par bootstrap pour la
moyenne et lcart type.

8
Chapitre 2

Rgression ordinale

Le tableau Estimation des paramtres prend en charge les estimations par bootstrap et les
tests de signification pour le coefficient, B.

Analyse discriminante

Le tableau Coefficient de fonction de discriminant canonique standardis prend en charge


les estimations par bootstrap des coefficients standardiss.

Le tableau Coefficient de fonction de discriminant canonique prend en charge les estimations


par bootstrap des coefficients non standardiss.

Le tableau Coefficient de fonction de classification prend en charge les estimations par


bootstrap des coefficients.

Option Statistiques avances


GLM - Multivari

Le tableau Estimation des paramtres prend en charge les estimations par bootstrap et les
tests de signification pour le coefficient, B.

Modles mixtes linaires

Le tableau Estimations des effets fixes prend en charge les estimations par bootstrap et les
tests de signification de lestimation.

Le tableau Estimations des paramtres de covariance prend en charge les estimations par
bootstrap et les tests de signification de lestimation.

Modles linaires gnraliss

Le tableau Estimation des paramtres prend en charge les estimations par bootstrap et les
tests de signification pour le coefficient, B.

Rgression de Cox

Le tableau Variables dans lquation prend en charge les estimations par bootstrap et les
tests de signification pour le coefficient, B.

Option Rgression
Rgression logistique binaire

Le tableau Variables dans lquation prend en charge les estimations par bootstrap et les
tests de signification pour le coefficient, B.

Rgression logistique multinomiale

Le tableau Estimation des paramtres prend en charge les estimations par bootstrap et les
tests de signification pour le coefficient, B.

9
Lamorce

Fonctions supplmentaires de la commande BOOTSTRAP


Le langage de syntaxe de commande vous permet aussi de :

raliser lchantillonnage rsiduel et par wild bootstrap (sous-commande SAMPLING)

Reportez-vous la Rfrence de syntaxe de commande pour une information complte concernant


la syntaxe.

Partie II:
Exemples

Chapitre

Lamorce

Lamorce est une mthode consistant driver des estimations robustes des erreurs standard et des
intervalles de confiance pour des estimations telles que la moyenne, la mdiane, le calcul de la
proportion, lodds ratio, le coefficient de corrlation ou de rgression. Elle peut aussi tre utilis
pour construire des tests dhypothse. Lamource est le plus souvent utile comme une alternative
aux estimations paramtriques lorsque les hypothses lies ces mthodes ne sont pas fiables
(comme dans le cas de modles de regression avec des rsidus htroscdastiques ajusts des
petits chantillons), ou lorsque linfrence paramtrique est impossible ou requiert des formules
trs complexes pour le calcul des erreurs standard (comme dans le cas du calcul dintervalles de
confiance pour la mdiane, les quartiles, et autres centiles).

Utilisation de lamorce pour obtenir des intervalles de confiances pour


les proportions
Une socit en tlcommunication perd environ 27% de ses clients chaque mois. Afin de rduire
ce taux dattrition, la direction souhaite savoir si ce taux varie selon les groupes de consommateurs.
Ces informations sont regroupes dans le fichier telco.sav. Pour plus d'informations,
reportez-vous la section Fichiers dexemple dans l'annexe A sur p. 32. A laide de la mthode de
lamorce, vous pouvez dterminer si un mme taux dattrition dcrit de manire approprie le
comportement des quatre types principaux de clients.
Remarque : Cet exemple utilise la procdure Effectifs et requiert loption Statistiques de base.

Prparation des donnes


Vous devez dabord diviser le fichier en Catgorie de client.
E Pour diviser le fichier, dans les menus de lditeur de donnes, choisissez :
Donnes > Scinder un fichier

Copyright IBM Corporation 1989, 2011.

11

12
Chapitre 3
Figure 3-1
Bote de dialogue Scinder un fichier

E Slectionnez Comparer les groupes.


E Slectionnez Catgorie de client comme variable sur laquelle les groupes sont bass.
E Cliquez sur OK.

Excution de lanalyse
E Pour obtenir des intervalles de confiance bootstrap pour les proportions, choisissez les options

suivantes dans les menus :


Analyse > Statistiques descriptives > Effectifs...
Figure 3-2
Bote de dialogue Frquences

E Slectionnez Dsabonn au cours du mois dernier [churn] comme variable dans lanalyse.
E Cliquez sur Statistiques.

13
Lamorce
Figure 3-3
Bote de dialogue Statistiques

E Slectionnez loption Moyenne dans le groupe Tendance centrale.


E Cliquez sur Poursuivre.
E Cliquez sur Bootstrap dans la bote de dialogue Frquences.

14
Chapitre 3
Figure 3-4
Bote de dialogue Bootstrap

E Slectionnez Effectuer une amorce.


E Afin de reproduire exactement les rsultats de cet exemple, slectionnez Dfinir le gnrateur pour
Mersenne Twister et saisissez 9191972 comme valeur du gnrateur.
E Cliquez sur Poursuivre.
E Cliquez sur OK dans la bote de dialogue Frquences.

Ces slections gnrent la syntaxe de commande suivante :


SORT CASES BY custcat.
SPLIT FILE LAYERED BY custcat.
PRESERVE.
SET RNG=MT MTINDEX=9191972.
SHOW RNG.
BOOTSTRAP
/SAMPLING METHOD=SIMPLE
/VARIABLES INPUT=churn
/CRITERIA CILEVEL=95 CITYPE=PERCENTILE
/MISSING USERMISSING=EXCLUDE.
FREQUENCIES VARIABLES=churn
/STATISTICS=MEAN
/ORDER=ANALYSIS.
RESTORE.

NSAMPLES=1000

Les commandes SORT CASES et SPLIT FILE divisent le fichier en fonction de la variable
custcat.

15
Lamorce

Les commandes PRESERVE et RESTORE mmorisent ltat actuel du gnrateur de nombres


alatoires et restaure le systme dans cet tat, une fois lamorce termine.

La commande SET dfinit le gnrateur de nombres alatoires sur le gnrateur Mersenne


Twister et lindex sur 9191972, afin que les rsultats de lamorce puissent tre reproduits de
manire exacte. La commande SHOW affiche lindex dans les rsultats pour rfrence.

La commande BOOTSTRAP requiert 1 000 chantillons de bootstrap pour le r-chantillonnage


simple.

La variable churn (dsabonnement) est utilise pour dterminer la base des observations pour
le rchantillonnage. Les observations contenant des valeurs manquantes sur cette variable
sont supprimes de lanalyse.

La procdure FREQUENCIES suivant BOOTSTRAP est excute sur chacun des chantillons de
bootstrap.

La sous-commande STATISTICS produit la moyenne de la variable churn des donnes


dorigine. En outre, des statistiques groupes sont produites pour la moyenne et les
pourcentages dans le tableau des effectifs.

Spcifications de bootstrap
Figure 3-5
Spcifications de bootstrap

Le tableau de spcifications de bootstrap contient les paramtres utiliss lors du rchantillonnage,


et il est une rfrence utile pour vrifier si lanalyse que vous souhaitiez raliser a t effectue.

16
Chapitre 3

Statistiques
Figure 3-6
Tableau de statistiques avec intervalle de confiance de bootstrap pour les proportions

Le tableau des statistiques montre, pour chaque niveau de Catgorie de client, la valeur moyenne
de la variable Dsabonn au cours du mois dernier. La variable Dsabonn au cours du mois
dernier ne peut prendre que les valeurs 0 et 1, la valeur 1 signifiant que le client sest dsabonn
et la moyenne tant gale la proportion de dsabonnements. La colonne Statistique affiche les
valeurs gnralement produites par la procdure Effectifs laide de lensemble de donnes
dorigine. Les colonnes Bootstrap sont produites par des algorithmes damorce.

Le Biais est la diffrence entre la valeur moyenne des chantillons de bootstrap et la valeur
de la colonne Statistique. Dans ce cas, la valeur moyenne de Dsabonn au cours du mois
dernier est calcule pour les 1000 chantillons de bootstrap, et la moyenne de ces moyennes
est alors calcule.

Ecart- standard reprsente lerreur standard de la valeur moyenne de la variable Dsabonn au


cours du mois dernier sur les 1000 chantillons de bootstrap.

La limite infrieure de lintervalle de confiance de bootstrap 95% est une interpolation des
25e et 26e valeurs moyennes de la variable Dsabonn au cours du mois dernier, si les 1000
chantillons sont classs dans lordre croissant. La limite suprieure est une interpolation des
975e et 976e valeurs moyennes.

Les rsultats du tableau suggrent que le taux dattrition est diffrent selon les types de clients. En
particulier, lintervalle de confiance des clients Service Plus nen recouvre aucun autre, ce qui
suggre que ces clients sont, en moyenne, moins susceptibles de partir.
Lorsque vous utilisez des variables qualitatives deux valeurs uniquement, les intervalles
de confiance sont diffrents de ceux produits par la procdure Tests non paramtriques un
chantillon ou Test T pour chantillon unique.

17
Lamorce

Tableau des effectifs :


Figure 3-7
Tableau des effectifs avec intervalle de confiance de bootstrap pour les proportions

Le tableau Effectifs affiche les intervalles de confiance pour les pourcentages (proportion
100%) pour chaque catgorie, ils sont donc disponibles pour toutes les variables qualitatives. Des
intervalles de confiance comparables ne sont pas disponibles ailleurs dans le produit.

Utilisation de lamorce pour obtenir des intervalles de confiances


pour les mdianes
Lors dune consultation des dossiers des employs, la direction souhaite vrifier leur exprience
professionnelle. Lexprience professionnelle est asymtrique, ce qui rend la moyenne moins
fiable comme moyen destimation de lexprience antrieure des employs que la mdiane.
Toutefois, sans lamorce, les intervalles de confiance pour la mdiane ne sont gnralement pas
disponibles dans les procdures statistiques du produit.
Ces informations sont regroupes dans le fichier Employee data.sav. Pour plus d'informations,
reportez-vous la section Fichiers dexemple dans l'annexe A sur p. 32. Utilisation de lamorce
pour obtenir des intervalles de confiances pour la mdiane.
Remarque : cet exemple utilise la procdure Explorer et requiert loption Statistiques de base.

Excution de lanalyse
E Pour obtenir des intervalles de confiance de bootstrap pour la mdiane, choisissez les options

suivantes dans les menus :


Analyse > Statistiques descriptives > Explorer

18
Chapitre 3
Figure 3-8
Bote de dialogue principale Explorer

E Slectionnez Exprience pralable (mois) [prevexp] comme variable dpendante.


E Slectionnez loption Statistiques dans le groupe Afficher.
E Cliquez sur Bootstrap.

19
Lamorce
Figure 3-9
Bote de dialogue Bootstrap

E Slectionnez Effectuer une amorce.


E Afin de reproduire exactement les rsultats de cet exemple, slectionnez Dfinir le gnrateur pour
Mersenne Twister et saisissez 592004 comme valeur du gnrateur.
E Pour obtenir des intervalles plus prcis (au prix dun temps de traitement plus important),
slectionnez Biais corrig acclr (BCa).
E Cliquez sur Poursuivre.
E Cliquez sur OK dans la bote de dialogue Explorer.

Ces slections gnrent la syntaxe de commande suivante :


PRESERVE.
SET RNG=MT MTINDEX=592004.
SHOW RNG.
BOOTSTRAP
/SAMPLING METHOD=SIMPLE
/VARIABLES TARGET=prevexp
/CRITERIA CILEVEL=95 CITYPE=BCA
/MISSING USERMISSING=EXCLUDE.
EXAMINE VARIABLES=prevexp
/PLOT NONE
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.

NSAMPLES=1000

20
Chapitre 3
RESTORE.

Les commandes PRESERVE et RESTORE mmorisent ltat actuel du gnrateur de nombres


alatoires et restaure le systme dans cet tat, une fois lamorce termine.

La commande SET dfinit le gnrateur de nombres alatoires sur le gnrateur Mersenne


Twister et lindex sur 592004, afin que les rsultats de lamorce puissent tre reproduits de
manire exacte. La commande SHOW affiche lindex dans les rsultats pour rfrence.

La commande BOOTSTRAP requiert 1000 chantillons de bootstrap pour le r-chantillonnage


simple.

La sous-commande VARIABLES spcifie que la variable prevexp est utilise pour dterminer
la base des observations pour le rchantillonnage. Les observations contenant des valeurs
manquantes sur cette variable sont supprimes de lanalyse.

La sous-commande CRITERIA , en plus de requrir le nombre dchantillons de bootstrap,


requiert des intervalles de confiance de bootstrap de biais corrig et acclr la place des
intervalles de centiles par dfaut.

La procdure EXAMINE suivant BOOTSTRAP est excute sur chacun des chantillons de
bootstrap.

La sous-commande PLOT dsactive les rsultats graphiques.

Toutes les autres options sont dfinies leur valeur par dfaut.

Descriptives
Figure 3-10
Tableau Descriptives avec intervalles de confiance de bootstrap

Le tableau Descriptives contient un nombre de statistiques et des intervalles de confiance de


bootstrap pour ces statistiques. Lintervalle de confiance de bootstrap pour la moyenne (86,39
; 105,20) est similaire lintervalle de confiance paramtrique (86,42 ; 105,30) et suggre que
lemploy type a environ de 7 9 ans dexprience pralable. Cependant, Exprience pralable
(mois) possde une distribution asymtrique, ce qui fait de la moyenne un indicateur moins fiable
du salaire type actuel que la mdiane. Lintervalle de confiance de bootstrap pour la mdiane
(50,00 ; 60,00) est plus restreint et infrieur lintervalle de confiance pour la moyenne, et suggre

21
Lamorce

que lemploy type a environ de 4 5 ans dexprience pralable. Lutilisation de lamorce a


permis dobtenir une plage de valeurs qui reprsente mieux lexprience pralable type.

Utilisation de lamorce pour choisir de meilleures valeurs prdites


Lors dune consultation des dossiers des employs, la direction est intresse dterminer les
facteurs associs aux augmentations des salaires des employs, en ajustant un modle linaire
aux diffrences entre le salaire actuel et le salaire dembauche. Lorsque la mthode des amorces
est applique un modle linaire, il est possible dutiliser des mthodes de r-chantillonnage
(chantillonnage rsiduel et wild bootstrap) pour obtenir des rsultats plus prcis.
Ces informations sont regroupes dans le fichier Employee data.sav. Pour plus d'informations,
reportez-vous la section Fichiers dexemple dans l'annexe A sur p. 32.
Remarque : cet exemple utilise la procdure GLM Univari et requiert loption Statistiques de
base.

Prparation des donnes


Vous devez dabord calculer la diffrence entre le salaire actuel et le salaire de dpart.
E A partir des menus, slectionnez :
Transformer > Calculer la variable...

22
Chapitre 3
Figure 3-11
Bote de dialogue Calculer la variable

E Saisissez diff comme variable cible.


E Saisissez salary-salbegin comme expression numrique.
E Cliquez sur OK.

Excution de lanalyse
Pour excuter la procdure GLM Univari avec une amorce rsiduelle sauvage, vous devez
dabord crer des rsidus.
E A partir des menus, slectionnez :
Analyse > Modle linaire gnral > Univari

23
Lamorce
Figure 3-12
Bote de dialogue principale GLM Univari

E Slectionnez diff comme variable dpendante.


E Slectionnez Sexe [gender], Catgorie demploi [jobcat] et Classification des minorits [minority]

comme facteurs fixes.


E Slectionnez Anciennet [jobtime] et Exprience pralable (mois) [prevexp] comme covariables.
E Cliquez sur Modle.

24
Chapitre 3
Figure 3-13
Bote de dialogue Modle

E Slectionnez Personnalis puis Effets principaux dans la liste droulante Termes construits.
E Slectionnez les variables de gender prevexp comme termes de modle.
E Cliquez sur Poursuivre.
E Cliquez sur le bouton Enregistrer dans la bote de dialogue GLM Univari.

25
Lamorce
Figure 3-14
Bote de dialogue Enregistrer

E Slectionnez loption Non standardiss dans le groupe Rsidus.


E Cliquez sur Poursuivre.
E Cliquez sur Bootstrap dans la bote de dialogue GLM Univari.

26
Chapitre 3
Figure 3-15
Bote de dialogue Bootstrap

Les paramtres de bootstrap sont conservs dans les botes de dialogue qui prennent en charge les
amorces. Lenregistrement de nouvelles variables dans lensemble de donnes nest pas pris en
charge lorsque lamorce est active, de sorte que vous devez vrifier quelle est dsactive.
E Si ncessaire, dslectionnez loption Effectuer une amorce.
E Cliquez sur le bouton OK dans la bote de dialogue GLM Univari. Lensemble de donnes

contient une nouvelle variable RES_1, qui comprend les rsidus non-standardiss de ce modle.
E Dans la bote de dialogue GLM Univari, cliquez sur Enregistrer.

27
Lamorce
E Dslectionnez loption Non standardis, puis cliquez sur Poursuivre et sur Options dans la bote

de dialogue GLM Univari.


Figure 3-16
Bote de dialogue Options

E Slectionnez loption Estimations des paramtres dans le groupe Afficher.


E Cliquez sur Poursuivre.
E Cliquez sur Bootstrap dans la bote de dialogue GLM Univari.

28
Chapitre 3
Figure 3-17
Bote de dialogue Bootstrap

E Slectionnez Effectuer une amorce.


E Afin de reproduire exactement les rsultats de cet exemple, slectionnez Dfinir le gnrateur pour
Mersenne Twister et saisissez 9191972 comme valeur du gnrateur.
E Il nexiste pas doption pour effectuer une amorce sauvage partir des botes de dialogue, vous
devez donc cliquer sur Poursuivre, puis sur Coller dans la bote de dialogue GLM Univari.

Ces slections gnrent la syntaxe de commande suivante :


PRESERVE.
SET RNG=MT MTINDEX=9191972.
SHOW RNG.
BOOTSTRAP
/SAMPLING METHOD=SIMPLE
/VARIABLES TARGET=diff INPUT=gender jobcat minority jobtime prevexp
/CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000
/MISSING USERMISSING=EXCLUDE.
UNIANOVA diff BY gender jobcat minority WITH jobtime prevexp
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/PRINT=PARAMETER
/CRITERIA=ALPHA(.05)
/DESIGN=gender jobcat minority jobtime prevexp.

29
Lamorce
RESTORE.

Afin de raliser lchantillonnage de wild bootstrap, ditez le mot-cl METHOD de la


sous-commande SAMPLING de la faon suivante : METHOD=WILD(RESIDUALS=RES_1).
Le groupe de syntaxe de commande final apparat comme suit :
PRESERVE.
SET RNG=MT MTINDEX=9191972.
SHOW RNG.
BOOTSTRAP
/SAMPLING METHOD=WILD(RESIDUALS=RES_1)
/VARIABLES TARGET=diff INPUT=gender jobcat minority jobtime prevexp
/CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000
/MISSING USERMISSING=EXCLUDE.
UNIANOVA diff BY gender jobcat minority WITH jobtime prevexp
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/PRINT=PARAMETER
/CRITERIA=ALPHA(.05)
/DESIGN=gender jobcat minority jobtime prevexp.
RESTORE.

Les commandes PRESERVE et RESTORE mmorisent ltat actuel du gnrateur de nombres


alatoires et restaure le systme dans cet tat, une fois lamorce termine.

La commande SET dfinit le gnrateur de nombres alatoires sur le gnrateur Mersenne


Twister et lindex sur 9191972, afin que les rsultats de lamorce puissent tre reproduits de
manire exacte. La commande SHOW affiche lindex dans les rsultats pour rfrence.

La commande BOOTSTRAP requiert 1000 chantillons de bootstrap pour lchantillonnage


sauvage et RES_1 comme la variable contenant les rsidus.

La sous-commande VARIABLES spcifie que diff est la variable cible dans le modle linaire.
Cette variable cible et les variables gender, jobcat, minority, jobtime, et prevexp sont utilises
pour dterminer la base des observations pour le rchantillonnage. Les observations
contenant des valeurs manquantes sur ces variables sont supprimes de lanalyse.

La sous-commande CRITERIA , en plus de requrir le nombre dchantillons de bootstrap,


requiert des intervalles de confiance de bootstrap de biais corrig et acclr la place des
intervalles de centiles par dfaut.

La procdure UNIANOVA suivant BOOTSTRAP est excute sur chacun des chantillons de
bootstrap et produit des estimations de paramtre pour les donnes dorigines. En outre, des
statistiques groupes sont produites pour les coefficients du modle.

30
Chapitre 3

Estimations des paramtres


Figure 3-18
Estimations des paramtres

Le tableau Estimations des paramtres affiche les estimations des paramtres, habituelles et
non-amorces pour les termes du modle. La valeur de signification de 0,105 pour [minority=0]
est suprieure 0,05, et suggre que la Classification des minorits na aucun effet sur
laugmentation du salaire.
Figure 3-19
Estimations des paramtres de bootstrap

Consultez maintenant le bootstrap pour le tableau Estimations des paramtres. Dans la colonne
Erreur standard, vous pouvez voir que les erreurs standard paramtriques de certains coefficients,
comme la constante, sont trop faibles compars aux estimations de bootstrap et que les intervalles
de confiance sont plus larges. Pour certains coefficients, comme [minority=0], les erreurs
standard paramtriques sont trop grandes et la valeur de signification de 0.006 rapporte dans les
rsultats de bootstrap, infrieure 0,05, montre que la diffrence observe dans les augmentations
de salaire entre les employs qui sont classs en tant que minorits et ceux qui ne le sont pas nest

31
Lamorce

pas due au hasard. La direction est dsormais au courant de cette diffrence et peut pousser son
investigation plus loin pour en dterminer les causes.

Lectures recommandes
Reportez-vous aux documents suivants pour plus dinformations sur lamorce :
Davison, A. C., et D. V. Hinkley. 2006. Bootstrap Methods and their Application. : Cambridge
University Press.
Shao, J., et D. Tu. 1995. The Jackknife and Bootstrap. New York: Springer.

Annexe

Fichiers dexemple

Les fichiers dexemple installs avec le produit figurent dans le sous-rpertoire Echantillons du
rpertoire dinstallation. Il existe un dossier distinct au sein du sous-rpertoire Echantillons pour
chacune des langues suivantes : Anglais, Franais, Allemand, Italien, Japonais, Coren, Polonais,
Russe, Chinois simplifi, Espangol et Chinois traditionnel.
Seuls quelques fichiers dexemples sont disponibles dans toutes les langues. Si un fichier
dexemple nest pas disponible dans une langue, le dossier de langue contient la version anglaise
du fichier dexemple.

Descriptions

Voici de brves descriptions des fichiers dexemple utiliss dans divers exemples travers la
documentation.

accidents.sav.Ce fichier de donnes dhypothse concerne une socit dassurance qui tudie

les facteurs de risque lis lge et au sexe dans les accidents de la route survenant dans une
rgion donne. Chaque observation correspond une classification croise de la catgorie
dge et du sexe.

adl.sav. Ce fichier de donnes dhypothse concerne les mesures entreprises pour identifier les

avantages dun type de thrapie propos aux patients qui ont subi une attaque cardiaque. Les
mdecins ont assign de manire alatoire les patients du sexe fminin ayant subi une attaque
cardiaque un groupe parmi deux groupes possibles. Le premier groupe a fait lobjet de la
thrapie standard tandis que le second a bnfici en plus dune thrapie motionnelle. Trois
mois aprs les traitements, les capacits de chaque patient effectuer les tches ordinaires de
la vie quotidienne ont t notes en tant que variables ordinales.

advert.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend un

dtaillant pour examiner la relation existant entre largent dpens dans la publicit et les
ventes rsultantes. Pour ce faire, il collecte les chiffres des ventes passes et les cots associs
la publicit.

aflatoxin.sav. Ce fichier de donnes dhypothse concerne le test de laflatoxine dans des

rcoltes de mas. La concentration de ce poison varie largement dune rcolte lautre et au


sein de chaque rcolte. Un processeur de grain a reu 16 chantillons issus de 8 rcoltes de
mas et a mesur les niveaux dalfatoxine en parties par milliard (PPB).

anorectic.sav. En cherchant dvelopper une symptomatologie standardise du comportement

anorexique/boulimique, des chercheurs(Van der Ham, Meulman, Van Strien, et Van Engeland,
1997) ont examin 55 adolescents souffrant de troubles alimentaires. Chaque patient a t
observ quatre fois sur une priode de quatre annes, soit un total de 220 observations. A
chaque observation, les patients ont t nots pour chacun des 16 symptmes. En raison de
labsence de scores de symptme pour le patient 71/visite 2, le patient 76/visite 2 et le patient
47/visite 3, le nombre dobservations valides est de 217.
Copyright IBM Corporation 1989, 2011.

32

33
Fichiers dexemple

bankloan.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend une

banque pour rduire le taux de dfaut de paiement. Il contient des informations financires
et dmographiques sur 850 clients existants et ventuels. Les premires 700 observations
concernent des clients auxquels des prts ont t octroys. Les 150 dernires observations
correspondant aux clients ventuels que la banque doit classer comme bons ou mauvais
risques de crdit.

bankloan_binning.sav. Ce fichier de donnes dhypothse concerne des informations

financires et dmographiques sur 5 000 clients existants.

behavior.sav. Dans un exemple classique (Price et Bouffard, 1974), on a demand

52 tudiants de noter les combinaisons tablies partir de 15 situations et de 15 comportements


sur une chelle de 0 9, o 0 = extrmement appropri et 9 = extrmement inappropri .
En effectuant la moyenne des rsultats de lensemble des individus, on constate une certaine
diffrence entre les valeurs.

behavior_ini.sav. Ce fichier de donnes contient la configuration initiale dune solution

bidimensionnelle pour behavior.sav.

brakes.sav. Ce fichier de donnes dhypothse concerne le contrle qualit effectu dans

une usine qui fabrique des freins disque pour des voitures haut de gamme. Le fichier de
donnes contient les mesures de diamtre de 16 disques de 8 machines de production. Le
diamtre cible des freins est de 322 millimtres.

breakfast.sav. Au cours dune tude classique (Green et Rao, 1972), on a demand

21 tudiants en MBA (Master of Business Administration) de lcole de Wharton et leurs


conjoints de classer 15 aliments du petit-djeuner selon leurs prfrences, de 1= aliment
prfr 15= aliment le moins apprci . Leurs prfrences ont t enregistres dans six
scnarios diffrents, allant de Prfrence gnrale En-cas avec boisson uniquement .

breakfast-overall.sav. Ce fichier de donnes contient les prfrences de petit-djeuner du

premier scnario uniquement, Prfrence gnrale .

broadband_1.sav. Ce fichier de donnes dhypothse concerne le nombre dabonns, par

rgion, un service haut dbit. Le fichier de donnes contient le nombre dabonns mensuels
de 85 rgions sur une priode de quatre ans.

broadband_2.sav. Ce fichier de donnes est identique au fichier broadband_1.sav mais contient

les donnes relatives trois mois supplmentaires.

car_insurance_claims.sav. Il sagit dun ensemble de donnes prsent et analys ailleurs

(McCullagh et Nelder, 1989) qui concerne des actions en indemnisation pour des voitures.
Le montant daction en indemnisation moyen peut tre model comme prsentant une
distribution gamma, laide dune fonction de lien inverse pour associer la moyenne de la
variable dpendante une combinaison linaire de lge de lassur, du type de vhicule et
de lge du vhicule. Le nombre dactions entreprises peut tre utilis comme pondration
de positionnement.

car_sales.sav. Ce fichier de donnes contient des estimations de ventes hypothtiques, des

barmes de prix et des spcifications physiques concernant divers modles et marques de


vhicule. Les barmes de prix et les spcifications physiques proviennent tour tour de
edmunds.com et des sites des constructeurs.

car_sales_uprepared.sav. Il sagit dune version modifie de car_sales.sav qui ninclut aucune

version transforme des champs.

34
Annexe A

carpet.sav. Dans un exemple courant (Green et Wind, 1973), une socit intresse par la

commercialisation dun nouveau nettoyeur de tapis souhaite examiner linfluence de cinq


critres sur la prfrence du consommateur : la conception du conditionnement, la marque, le
prix, une tiquette Economique et une garantie satisfait ou rembours. Il existe trois niveaux
de critre pour la conception du conditionnement, suivant lemplacement de lapplicateur,
trois marques (K2R, Glory et Bissell), trois niveaux de prix et deux niveaux (non ou oui) pour
chacun des deux derniers critres. Dix consommateurs classent 22 profils dfinis par ces
critres. La variable Prfrence indique le classement des rangs moyens de chaque profil.
Un rang faible correspond une prfrence leve. Cette variable reflte une mesure globale
de prfrence pour chaque profil.

carpet_prefs.sav. Ce fichier de donnes repose sur le mme exemple que celui dcrit pour

carpet.sav, mais contient les classements rels issus de chacun des 10 clients. On a demand
aux consommateurs de classer les 22 profils de produits, du prfr au moins intressant. Les
variables PREF1 PREF22 contiennent les identificateurs des profils associs, tels quils
sont dfinis dans carpet_plan.sav.

catalog.sav. Ce fichier de donnes contient des chiffres de ventes mensuelles hypothtiques

relatifs trois produits vendus par une entreprise de vente par correspondance. Les donnes
relatives cinq variables explicatives possibles sont galement incluses.

catalog_seasfac.sav. Ce fichier de donnes est identique catalog.sav mais contient en plus

un ensemble de facteurs saisonniers calculs partir de la procdure de dsaisonnalisation,


ainsi que les variables de date correspondantes.

cellular.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend un

oprateur tlphonique pour rduire les taux de dsabonnement. Des scores de propension au
dsabonnement sont attribus aux comptes, de 0 100. Les comptes ayant une note gale ou
suprieure 50 sont susceptibles de changer de fournisseur.

ceramics.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend un

fabricant pour dterminer si un nouvel alliage haute qualit rsiste mieux la chaleur quun
alliage standard. Chaque observation reprsente un test spar de lun des deux alliages ; le
degr de chaleur auquel lalliage ne rsiste pas est enregistr.

cereal.sav. Ce fichier de donnes dhypothse concerne un sondage de 880 personnes

interroges sur leurs prfrences de petit-djeuner et sur leur ge, leur sexe, leur situation
familiale et leur mode de vie (actif ou non actif, selon quelles pratiquent une activit physique
au moins deux fois par semaine). Chaque observation correspond un rpondant distinct.

clothing_defects.sav. Ce fichier de donnes dhypothse concerne le processus de contrle

qualit observ dans une usine de textile. Dans chaque lot produit lusine, les inspecteurs
prlvent un chantillon de vtements et comptent le nombre de vtements qui ne sont pas
acceptables.

coffee.sav. Ce fichier de donnes concerne limage perue de six marques de caf frapp

(Kennedy, Riquier, et Sharp, 1996). Pour chacun des 23 attributs dimage de caf frapp,
les personnes sollicites ont slectionn toutes les marques dcrites par lattribut. Les six
marques sont appeles AA, BB, CC, DD, EE et FF des fins de confidentialit.

contacts.sav. Ce fichier de donnes dhypothse concerne les listes de contacts dun groupe

de reprsentants en informatique dentreprise. Chaque contact est class selon le service de


lentreprise o il travaille et le classement de son entreprise. Sont galement enregistrs le

35
Fichiers dexemple

montant de la dernire vente effectue, le temps pass depuis la dernire vente et la taille
de lentreprise du contact.

creditpromo.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend un

grand magasin pour valuer lefficacit dune promotion rcente de carte de crdit. A cette
fin, 500 dtenteurs de carte ont t slectionns au hasard. La moiti a reu une publicit
faisant la promotion dun taux dintrt rduit sur les achats effectus dans les trois mois
venir. Lautre moiti a reu une publicit saisonnire standard.

customer_dbase.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend

une socit pour utiliser les informations figurant dans sa banque de donnes et proposer des
offres spciales aux clients susceptibles dtre intresss. Un sous-groupe de la base de
clients a t slectionn au hasard et a reu des offres spciales. Les rponses des clients
ont t enregistres.

customer_information.sav. Un fichier de donnes dhypothse qui contient les informations

postales du client, telles que le nom et ladresse.

customer_subset.sav. Un sous-ensemble de 80 observations de customer_dbase.sav.

debate.sav. Ce fichier de donnes dhypothse concerne des rponses apparies une enqute

donne aux participants un dbat politique avant et aprs le dbat. Chaque observation
reprsente un rpondant distinct.

debate_aggregate.sav. Il sagit dun fichier de donnes dhypothse qui rassemble les rponses

dans le fichier debate.sav. Chaque observation correspond une classification croise de


prfrence avant et aprs le dbat.

demo.sav. Ce fichier de donnes dhypothse concerne une base de donnes clients achete en

vue de diffuser des offres mensuelles. Les donnes indiquent si le client a rpondu ou non
loffre et contiennent diverses informations dmographiques.

demo_cs_1.sav. Ce fichier de donnes dhypothse concerne la premire mesure entreprise

par une socit pour compiler une base de donnes contenant des informations denqute.
Chaque observation correspond une ville diffrente. La rgion, la province, le quartier
et la ville sont enregistrs.

demo_cs_2.sav. Ce fichier de donnes dhypothse concerne la seconde mesure entreprise par

une socit pour compiler une base de donnes contenant des informations denqute. Chaque
observation correspond un mnage diffrent issu des villes slectionnes la premire
tape. La rgion, la province, le quartier, la ville, la sous-division et lidentification sont
enregistrs. Les informations dchantillonnage des deux premires tapes de la conception
sont galement incluses.

demo_cs.sav. Ce fichier de donnes dhypothse concerne des informations denqute

collectes via une mthode complexe dchantillonnage. Chaque observation correspond


un mnage diffrent et diverses informations gographiques et dchantillonnage sont
enregistres.

dmdata.sav. Ceci est un fichier de donnes dhypothse qui contient des informations

dmographiques et des informations concernant les achats pour une entreprise de marketing
direct. dmdata2.sav contient les informations pour un sous-ensemble de contacts qui ont reu
un envoi dessai, et dmdata3.sav contient des informations sur les contacts restants qui nont
pas reu lenvoi dessai.

36
Annexe A

dietstudy.sav. Ce fichier de donnes dhypothse contient les rsultats dune tude portant sur

le rgime de Stillman(Rickman, Mitchell, Dingman, et Dalen, 1974). Chaque observation


correspond un sujet distinct et enregistre son poids en livres avant et aprs le rgime, ainsi
que ses niveaux de triglycrides en mg/100 ml.

dvdplayer.sav. Ce fichier de donnes dhypothse concerne le dveloppement dun nouveau

lecteur DVD. A laide dun prototype, lquipe de marketing a collect des donnes de
groupes spcifiques. Chaque observation correspond un utilisateur interrog et enregistre
des informations dmographiques sur cet utilisateur, ainsi que ses rponses aux questions
portant sur le prototype.

german_credit.sav. Ce fichier de donnes provient de lensemble de donnes German

credit figurant dans le rfrentiel Machine Learning Databases (Blake et Merz, 1998) de
luniversit de Californie, Irvine.

grocery_1month.sav. Ce fichier de donnes dhypothse est le fichier de donnes

grocery_coupons.sav dans lequel les achats hebdomadaires sont organiss par client distinct.
Certaines variables qui changeaient toutes les semaines disparaissent. En outre, le montant
dpens enregistr est prsent la somme des montants dpenss au cours des quatre
semaines de lenqute.

grocery_coupons.sav. Il sagit dun fichier de donnes dhypothse qui contient des donnes

denqute collectes par une chane de magasins dalimentation qui chercher dterminer les
habitudes de consommation de ses clients. Chaque client est suivi pendant quatre semaines
et chaque observation correspond une semaine distincte. Les informations enregistres
concernent les endroits o le client effectue ses achats, la manire dont il les effectue, ainsi
que les sommes dpenses en provisions au cours de cette semaine.

guttman.sav. Bell (Bell, 1961) a prsent un tableau pour illustrer les groupes sociaux

possibles. Guttman (Guttman, 1968) a utilis une partie de ce tableau, dans lequel cinq
variables dcrivant des lments tels que linteraction sociale, le sentiment dappartenance
un groupe, la proximit physique des membres et la formalit de la relation, ont t croises
avec sept groupes sociaux thoriques, dont les foules (par exemple, le public dun match de
football), laudience (par exemple, au cinma ou dans une salle de classe), le public (par
exemple, les journaux ou la tlvision), les bandes (proche dune foule, mais qui serait
caractrise par une interaction beaucoup plus intense), les groupes primaires (intimes), les
groupes secondaires (volontaires) et la communaut moderne (groupement lche issu dune
forte proximit physique et dun besoin de services spcialiss).

health_funding.sav. Ce fichier de donnes dhypothse concerne des donnes sur le

financement des soins de sant (montant par groupe de 100 individus), les taux de maladie
(taux par groupe de 10 000 individus) et les visites chez les prestataires de soins de sant (taux
par groupe de 10 000 individus). Chaque observation reprsente une ville diffrente.

hivassay.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend un

laboratoire pharmaceutique pour dvelopper une analyse rapide de dtection dinfection HIV.
Lanalyse a pour rsultat huit nuances de rouge, les nuances les plus marques indiquant une
plus forte probabilit dinfection. Un test en laboratoire a t effectu sur 2 000 chantillons de
sang, la moiti de ces chantillons tant infecte par le virus HIV et lautre moiti tant saine.

hourlywagedata.sav. Ce fichier de donnes dhypothse concerne les salaires horaires

dinfirmires occupant des postes administratifs et dans les services de soins, et affichant
divers niveaux dexprience.

37
Fichiers dexemple

insurance_claims.sav. Il sagit dun fichier de donnes hypothtiques qui concerne une

compagnie dassurance souhaitant dvelopper un modle pour signaler des rclamations


suspectes, potentiellement frauduleuses. Chaque observation correspond une rclamation
distincte.

insure.sav. Ce fichier de donnes dhypothse concerne une compagnie dassurance qui tudie

les facteurs de risque indiquant si un client sera amen dclarer un incident au cours dun
contrat dassurance vie dune dure de 10 ans. Chaque observation figurant dans le fichier
de donnes reprsente deux contrats, lun ayant enregistr une rclamation et lautre non,
apparis par ge et sexe.

judges.sav. Ce fichier de donnes dhypothse concerne les scores attribus par des juges

expriments (plus un juge enthousiaste) 300 performances de gymnastique. Chaque ligne


reprsente une performance distincte ; les juges ont examin les mmes performances.

kinship_dat.sav. Rosenberg et Kim (Rosenberg et Kim, 1975) se sont lancs dans lanalyse

de 15 termes de parent (cousin/cousine, fille, fils, frre, grand-mre, grand-pre, mre,


neveu, nice, oncle, pre, petite-fille, petit-fils, sur, tante). Ils ont demand quatre groupes
dtudiants (deux groupes de femmes et deux groupes dhommes) de trier ces termes en
fonction des similarits. Deux groupes (un groupe de femmes et un groupe dhommes) ont t
invits effectuer deux tris, en basant le second sur un autre critre que le premier. Ainsi, un
total de six sources a t obtenu. Chaque source correspond une matrice de proximit
, dont le nombre de cellules est gal au nombre de personnes dans une source moins le
nombre de fois o les objets ont t partitionns dans cette source.

kinship_ini.sav. Ce fichier de donnes contient une configuration initiale dune solution

tridimensionnelle pour kinship_dat.sav.

kinship_var.sav. Ce fichier de donnes contient les variables indpendantes sexe, gnr(ation)

et degr (de sparation) permettant dinterprter les dimensions dune solution pour
kinship_dat.sav. Elles permettent en particulier de rduire lespace de la solution une
combinaison linaire de ces variables.

marketvalues.sav. Ce fichier de donnes concerne les ventes de maisons dans un nouvel

ensemble Algonquin (Illinois) au cours des annes 19992000. Ces ventes relvent des
archives publiques.

nhis2000_subset.sav.Le NHIS (National Health Interview Survey) est une enqute de

grande envergure concernant la population des Etats-Unis. Des entretiens ont lieu avec
un chantillon de mnages reprsentatifs de la population amricaine. Des informations
dmographiques et des observations sur ltat de sant et le comportement sanitaire sont
recueillies auprs des membres de chaque mnage. Ce fichier de donnes contient un
sous-groupe dinformations issues de lenqute de 2000. National Center for Health Statistics.
National Health Interview Survey, 2000. Fichier de donnes et documentation dusage public.
ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/NHIS/2000/. Accs en 2003.

ozone.sav. Les donnes incluent 330 observations portant sur six variables mtorologiques

pour prvoir la concentration dozone partir des variables restantes. Des chercheurs
prcdents (Breiman et Friedman, 1985), (Hastie et Tibshirani, 1990), ont dcel parmi ces
variables des non-linarits qui pnalisent les approches standard de la rgression.

38
Annexe A

pain_medication.sav. Ce fichier de donnes dhypothse contient les rsultats dun essai

clinique dun remde anti-inflammatoire traitant les douleurs de larthrite chronique. On


cherche notamment dterminer le temps ncessaire au mdicament pour agir et les rsultats
quil permet dobtenir par rapport un mdicament existant.

patient_los.sav. Ce fichier de donnes dhypothse contient les dossiers mdicaux de patients

admis lhpital pour suspicion dinfarctus du myocarde suspect (ou attaque cardiaque ).
Chaque observation correspond un patient distinct et enregistre de nombreuses variables
lies son sjour lhpital.

patlos_sample.sav. Ce fichier de donnes dhypothse contient les dossiers mdicaux dun

chantillon de patients sous traitement thrombolytique aprs un infarctus du myocarde.


Chaque observation correspond un patient distinct et enregistre de nombreuses variables
lies son sjour lhpital.

poll_cs.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend un

enquteur pour dterminer le niveau de soutien du public pour un projet de loi avant
lgislature. Les observations correspondent des lecteurs enregistrs. Chaque observation
enregistre le comt, la ville et le quartier o habite llecteur.

poll_cs_sample.sav. Ce fichier de donnes dhypothse contient un chantillon des lecteurs

rpertoris dans le fichier poll_cs.sav. Lchantillon a t prlev selon le plan spcifi dans le
fichier de plan poll.csplan et ce fichier de donnes enregistre les probabilits dinclusion et les
pondrations dchantillon. Toutefois, ce plan faisant appel une mthode dchantillonnage
de probabilit proportionnelle la taille (PPS Probability-Proportional-to-Size), il existe
galement un fichier contenant les probabilits de slection conjointes (poll_jointprob.sav).
Les variables supplmentaires correspondant la rpartition dmographique des lecteurs et
leur opinion sur le projet de loi propos ont t collectes et ajoutes au fichier de donnes
une fois lchantillon prlev.

property_assess.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend

un contrleur au niveau du comt pour maintenir les valuations de valeur de proprit jour
sur des ressources limites. Les observations correspondent des proprits vendues dans le
comt au cours de lanne prcdente. Chaque observation du fichier de donnes enregistre
la ville o se trouve la proprit, lvaluateur ayant visit la proprit pour la dernire fois,
le temps coul depuis cette valuation, lvaluation effectue ce moment-l et la valeur
de vente de la proprit.

property_assess_cs.sav. Ce fichier de donnes dhypothse concerne les mesures

quentreprend un contrleur du gouvernement pour maintenir les valuations de valeur de


proprit jour sur des ressources limites. Les observations correspondent des proprits
de ltat. Chaque observation du fichier de donnes enregistre le comt, la ville et le quartier
o se trouve la proprit, le temps coul depuis la dernire valuation et lvaluation alors
effectue.

property_assess_cs_sample.sav. Ce fichier de donnes dhypothse contient un chantillon

des proprits rpertories dans le fichier property_assess_cs.sav. Lchantillon a t


prlev selon le plan spcifi dans le fichier de plan property_assess.csplan et ce fichier de
donnes enregistre les probabilits dinclusion et les pondrations dchantillon. La variable
supplmentaire Valeur courante a t collecte et ajoute au fichier de donnes une fois
lchantillon prlev.

39
Fichiers dexemple

recidivism.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend une

agence administrative dapplication de la loi pour interprter les taux de rcidive dans la
juridiction. Chaque observation correspond un rcidiviste et enregistre les informations
dmographiques qui lui sont propres, certains dtails sur le premier dlit commis, ainsi que
le temps coul jusqu la seconde arrestation si elle sest produite dans les deux annes
suivant la premire.

recidivism_cs_sample.sav. Ce fichier de donnes dhypothse concerne les mesures

quentreprend une agence administrative dapplication de la loi pour interprter les taux de
rcidive dans la juridiction. Chaque observation correspond un rcidiviste libr suite
la premire arrestation en juin 2003 et enregistre les informations dmographiques qui
lui sont propres, certains dtails sur le premier dlit commis et les donnes relatives la
seconde arrestation, si elle a eu lieu avant fin juin 2006. Les rcidivistes ont t choisis dans
plusieurs dpartements chantillonns conformment au plan dchantillonnage spcifi dans
recidivism_cs.csplan. Ce plan faisant appel une mthode dchantillonnage de probabilit
proportionnelle la taille (PPS - Probability proportional to size), il existe galement un
fichier contenant les probabilits de slection conjointes (recidivism_cs_jointprob.sav).

rfm_transactions.sav.Un fichier de donnes dhypothse qui contient les donnes de transaction

dachat, y compris la date dachat, le/les lment(s) achet(s) et le montant montaire pour
chaque transaction.

salesperformance.sav. Ce fichier de donnes dhypothse concerne lvaluation de deux

nouveaux cours de formation en vente. Soixante employs, diviss en trois groupes, reoivent
chacun une formation standard. En outre, le groupe 2 suit une formation technique et le
groupe 3 un didacticiel pratique. A lissue du cours de formation, chaque employ est test et
sa note enregistre. Chaque observation du fichier de donnes reprsente un stagiaire distinct
et enregistre le groupe auquel il a t assign et la note quil a obtenue au test.

satisf.sav. Il sagit dun fichier de donnes dhypothse portant sur une enqute de satisfaction

effectue par une socit de vente au dtail au niveau de quatre magasins. Un total de
582 clients ont t interrogs et chaque observation reprsente la rponse dun seul client.

screws.sav.Ce fichier de donnes contient des informations sur les descriptives des vis, des

boulons, des crous et des clous.(Hartigan, 1975).

shampoo_ph.sav. Ce fichier de donnes dhypothse concerne le processus de contrle qualit

observ dans une usine de produits capillaires. A intervalles rguliers, six lots de sortie
distincts sont mesurs et leur pH enregistr. La plage cible est 4,55,5.

ships.sav. Il sagit dun ensemble de donnes prsent et analys ailleurs (McCullagh et

al., 1989) et concernant les dommages causs des cargos par les vagues. Les effectifs
dincidents peuvent tre modliss comme des incidents se produisant selon un taux de
Poisson en fonction du type de navire, de la priode de construction et de la priode de service.
Les mois de service totaliss pour chaque cellule du tableau form par la classification croise
des facteurs fournissent les valeurs dexposition au risque.

site.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend une socit

pour choisir de nouveaux sites pour le dveloppement de ses activits. Lentreprise a fait
appel deux consultants pour valuer sparment les sites. Ces consultants, en plus de fournir
un rapport approfondi, ont class chaque site comme constituant une ventualit bonne ,
moyenne ou faible .

40
Annexe A

smokers.sav. Ce fichier de donnes est extrait de ltude National Household Survey of

Drug Abuse de 1998 et constitue un chantillon de probabilit des mnages amricains.


(http://dx.doi.org/10.3886/ICPSR02934) Ainsi, la premire tape dans lanalyse de ce fichier
doit consister pondrer les donnes pour reflter les tendances de population.

stocks.sav Ce fichier de donnes hypothtiques contient le cours et le volume des actions

pour un an.

stroke_clean.sav. Ce fichier de donnes dhypothse concerne ltat dune base de donnes

mdicales une fois celle-ci purge via des procdures de loption Validation de donnes.

stroke_invalid.sav. Ce fichier de donnes dhypothse concerne ltat initial dune base de

donnes mdicales et comporte plusieurs erreurs de saisie de donnes.

stroke_survival. Ce fichier de donnes dhypothse concerne les temps de survie de patients

qui quittent un programme de rducation la suite dun accident ischmique et rencontrent


un certain nombre de problmes. Aprs lattaque, loccurrence dinfarctus du myocarde,
daccidents ischmiques ou hmorragiques est signale, et le moment de lvnement
enregistr. Lchantillon est tronqu gauche car il ninclut que les patients ayant survcu
durant le programme de rducation mis en place suite une attaque.

stroke_valid.sav. Ce fichier de donnes dhypothse concerne ltat dune base de donnes

mdicales une fois les valeurs vrifies via la procdure Validation de donnes. Elle contient
encore des observations anormales potentielles.

survey_sample.sav. Ce fichier de donnes concerne des informations denqute dont des

donnes dmographiques et des mesures comportementales. Il est bas sur un sous-ensemble


de variables de la 1998 NORC General Social Survey, bien que certaines valeurs de donnes
aient t modifies et que des variables supplmentaires fictives aient t ajoutes titre de
dmonstration.

telco.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend une socit

de tlcommunications pour rduire les taux de dsabonnement de sa base de clients.


Chaque observation correspond un client distinct et enregistre diverses informations
dmographiques et dutilisation de service.

telco_extra.sav. Ce fichier de donnes est semblable au fichier de donnes telco.sav mais

les variables de permanence et de dpenses des consommateurs transformes log ont t


supprimes et remplaces par des variables de dpenses des consommateurs transformes log
standardises.

telco_missing.sav. Ce fichier de donnes est un sous-ensemble du fichier de donnes telco.sav

mais certaines des valeurs de donnes dmographiques ont t remplaces par des valeurs
manquantes.

testmarket.sav. Ce fichier de donnes dhypothse concerne une chane de fast foods et ses

plans marketing visant ajouter un nouveau plat son menu. Trois campagnes tant possibles
pour promouvoir le nouveau produit, le nouveau plat est introduit sur des sites sur plusieurs
marchs slectionns au hasard. Une promotion diffrente est effectue sur chaque site et les
ventes hebdomadaires du nouveau plat sont enregistres pour les quatre premires semaines.
Chaque observation correspond un site-semaine distinct.

testmarket_1month.sav. Ce fichier de donnes dhypothse est le fichier de donnes

testmarket.sav dans lequel les ventes hebdomadaires sont organises par site distinct.
Certaines variables qui changeaient toutes les semaines disparaissent. En outre, les ventes

41
Fichiers dexemple

enregistres sont prsent la somme des ventes ralises au cours des quatre semaines de
lenqute.

tree_car.sav. Ce fichier de donnes dhypothse concerne des donnes dmographiques et de

prix dachat de vhicule.

tree_credit.sav. Ce fichier de donnes dhypothse concerne des donnes dmographiques

et dhistorique de prt bancaire.

tree_missing_data.sav Ce fichier de donnes dhypothse concerne des donnes

dmographiques et dhistorique de prt bancaire avec un grand nombre de valeurs manquantes.

tree_score_car.sav. Ce fichier de donnes dhypothse concerne des donnes dmographiques

et de prix dachat de vhicule.

tree_textdata.sav. Ce fichier de donnes simples ne comporte que deux variables et vise

essentiellement indiquer ltat par dfaut des variables avant affectation du niveau de
mesure et des tiquettes de valeurs.

tv-survey.sav. Ce fichier de donnes dhypothse concerne une enqute mene par un studio

de tlvision qui envisage de prolonger la diffusion dun programme ou de larrter. On


a demand 906 personnes si elles regarderaient le programme dans diverses situations.
Chaque ligne reprsente un rpondant distinct et chaque colonne une situation distincte.

ulcer_recurrence.sav. Ce fichier contient des informations partielles dune enqute visant

comparer lefficacit de deux thrapies de prvention de la rcurrence des ulcres. Il fournit


un bon exemple de donnes censures par intervalle et a t prsent et analys ailleurs
(Collett, 2003).

ulcer_recurrence_recoded.sav. Ce fichier rorganise les informations figurant dans le fichier

ulcer_recurrence.sav pour que vous puissiez modliser la probabilit dvnement pour


chaque intervalle de lenqute plutt que la probabilit dvnement de fin denqute. Il a t
prsent et analys ailleurs (Collett et al., 2003).

verd1985.sav. Ce fichier de donnes concerne une enqute (Verdegaal, 1985). Les rponses de

15 sujets 8 variables ont t enregistres. Les variables prsentant un intrt sont divises
en trois ensembles. Le groupe 1 comprend lge et la situation familiale, le groupe 2 les
animaux domestiques et la presse, et le groupe 3 la musique et lhabitat. A la variable animal
domestique est appliqu un codage nominal multiple et ge, un codage ordinal ; toutes les
autres variables ont un codage nominal simple.

virus.sav. Ce fichier de donnes dhypothse concerne les mesures quentreprend un

fournisseur de services Internet pour dterminer les effets dun virus sur ses rseaux. Il a suivi
le pourcentage (approximatif) de trafic de messages lectroniques infects par un virus sur ses
rseaux sur la dure, de la dcouverte la circonscription de la menace.

wheeze_steubenville.sav. Il sagit dun sous-ensemble dune enqute longitudinale des effets

de la pollution de lair sur la sant des enfants (Ware, Dockery, Spiro III, Speizer, et Ferris Jr.,
1984). Les donnes contiennent des mesures binaires rptes de ltat asthmatique denfants
de la ville de Steubenville (Ohio), gs de 7, 8, 9 et 10 ans, et indiquent si la mre fumait
au cours de la premire anne de lenqute.

workprog.sav. Ce fichier de donnes dhypothse concerne un programme de ladministration

visant proposer de meilleurs postes aux personnes dfavorises. Un chantillon de


participants potentiels au programme a ensuite t prlev. Certains de ces participants ont

42
Annexe A

t slectionns au hasard pour participer au programme. Chaque observation reprsente un


participant au programme distinct.

worldsales.sav Ce fichier de donnes hypothtiques contient les revenus des ventes par

continent et par produit.

Annexe

Remarques
Ces informations ont t dveloppes pour les produits et services offerts dans le monde.

Il est possible quIBM noffre pas dans les autres pays les produits, services et fonctionnalits
dcrits dans ce document. Contactez votre reprsentant local IBM pour obtenir des informations
sur les produits et services actuellement disponibles dans votre rgion. Toute rfrence un
produit, programme ou service IBM nimplique pas que les seuls les produits, programmes
ou services IBM peuvent tre utiliss. Tout produit, programme ou service de fonctionnalit
quivalente qui ne viole pas la proprit intellectuelle IBM peut tre utilis la place. Cependant
lutilisateur doit valuer et vrifier lutilisation dun produit, programme ou service non IBM.
IBM peut possder des brevets ou des applications de brevet en attente qui couvrent les sujets
dcrits dans ce document. Loctroi de ce document nquivaut aucunement celui dune licence
pour ces brevets. Vous pouvez envoyer par crit des questions concernant la licence :
IBM Director of Licensing, IBM Corporation, North Castle Drive, Armonk, NY 10504-1785,
tats-Unis
Pour obtenir des informations de licence concernant la configuration de caractres cods sur
deux octets (DBCS), veuillez contacter dans votre pays le dpartement charg de la proprit
intellectuelle chez IBM ou envoyez vos commentaires par crit :
Intellectual Property Licensing, Legal and Intellectual Property Law, IBM Japan Ltd., 1623-14,
Shimotsuruma, Yamato-shi, Kanagawa 242-8502 Japon.
Le paragraphe suivant ne sapplique pas au Royaume-Uni ni aucun pays dans lequel ces dispositions
sont contraires au droit local : INTERNATIONAL BUSINESS MACHINES FOURNIT CETTE

PUBLICATION EN LETAT SANS GARANTIE DAUCUNE SORTE, IMPLICITE OU


EXPLICITE, Y COMPRIS, MAIS SANS ETRE LIMITE AUX GARANTIES IMPLICITES DE
NON VIOLATION, DE QUALITE MARCHANDE OU DADAPTATION POUR UN USAGE
PARTICULIER. Certains tats nautorisent pas lexclusion de garanties explicites ou implicites
lors de certaines transactions, par consquent, il est possible que cet nonc ne vous concerne pas.
Ces informations peuvent contenir des erreurs techniques ou des erreurs typographiques. Ces
informations sont modifies de temps en temps ; ces modifications seront intgres aux nouvelles
versions de la publication. IBM peut apporter des amliorations et/ou modifications des produits
et/ou des programmes dcrits dans cette publications tout moment sans avertissement pralable.
Toute rfrence dans ces informations des sites Web autres quIBM est fournie dans un but
pratique uniquement et ne sert en aucun cas de recommandation pour ces sites Web. Le matriel
contenu sur ces sites Web ne fait pas partie du matriel de ce produit IBM et lutilisation de ces
sites Web se fait vos propres risques.
IBM peut utiliser ou distribuer les informations que vous lui fournissez, de la faon dont il le
souhaite, sans encourir aucune obligation envers vous.
Copyright IBM Corporation 1989, 2011.

43

44
Annexe B

Les personnes disposant dune licence pour ce programme et qui souhaitent obtenir des
informations sur celui-ci pour activer : (i) lchange dinformations entre des programmes crs
de manire indpendante et dautres programmes (notamment celui-ci) et (ii) lutilisation mutuelle
des informations qui ont t changes, doivent contacter :
IBM Software Group, Attention: Licensing, 233 S. Wacker Dr., Chicago, IL 60606, tats-Unis.
Ces informations peuvent tre disponibles, soumises des conditions gnrales, et dans certains
cas payantes.
Le programme sous licence dcrit dans ce document et toute la documentation sous licence
disponible pour ce programme sont fournis par IBM en conformit avec les conditions de laccord
du client IBM, avec laccord de licence du programme international IBM et avec tout accord
quivalent entre nous.
les informations concernant les produits autres quIBM ont t obtenues auprs des fabricants de
ces produits, leurs annonces publiques ou dautres sources publiques disponibles. IBM na pas
test ces produits et ne peut confirmer lexactitude de leurs performances, leur compatibilit ou
toute autre fonctionnalit associe des produits autres quIBM. Les questions sur les capacits de
produits autres quIBM doivent tre adresses aux fabricants de ces produits.
Ces informations contiennent des exemples de donnes et de rapports utiliss au cours
doprations quotidiennes standard. Pour les illustrer le mieux possible, ces exemples contiennent
des noms dindividus, dentreprises, de marques et de produits. Tous ces noms sont fictifs et
toute ressemblance avec des noms et des adresses utiliss par une entreprise relle ne serait
que pure concidence.
Si vous consultez la version papier de ces informations, il est possible que certaines photographies
et illustrations en couleurs napparaissent pas.
Marques commerciales

IBM, le logo IBM, ibm.com et SPSS sont des marques commerciales dIBM Corporation,
dposes dans de nombreuses juridictions du monde entier. Une liste jour des marques IBM est
disponible sur Internet ladresse http://www.ibm.com/legal/copytrade.shtml.
Adobe, le logo Adobe, PostScript et le logo PostScript sont des marques dposes ou des marques
commerciales de Adobe Systems Incorporated aux Etats-Unis et/ou dans dautres pays.
Intel, le logo Intel, Intel Inside, le logo Intel Inside, Intel Centrino, le logo Intel Centrino, Celeron,
Intel Xeon, Intel SpeedStep, Itanium, et Pentium sont des marques commerciales ou des marques
dposes de Intel Corporation ou de ses filiales aux Etats-Unis et dans dautres pays.
Java et toutes les marques et logos Java sont des marques commerciales de Sun Microsystems,
Inc. aux Etats-Unis et/ou dans dautres pays.
Linux est une marque dpose de Linus Torvalds aux Etats-Unis et/ou dans dautres pays.
Microsoft, Windows, Windows NT et le logo Windows sont des marques commerciales de
Microsoft Corporation aux Etats-Unis et/ou dans dautres pays.
UNIX est une marque dpose de The Open Group aux Etats-Unis et dans dautres pays.
Ce produit utilise WinWrap Basic, Copyright 1993-2007, Polar Engineering and Consulting,
http://www.winwrap.com/.

45
Remarques

Les autres noms de produits et de services peuvent tre des marques dIBM ou dautres socits.
Les captures dcran des produits Adobe sont reproduites avec lautorisation de Adobe Systems
Incorporated.
Les captures dcran des produits Microsoft sont reproduites avec lautorisation de Microsoft
Corporation.

Bibliographie
Bell, E. H. 1961. Social foundations of human behavior: Introduction to the study of sociology.
New York: Harper & Row.
Blake, C. L., et C. J. Merz. 1998. "UCI Repository of machine learning databases." Available at
http://www.ics.uci.edu/~mlearn/MLRepository.html.
Breiman, L., et J. H. Friedman. 1985. Estimating optimal transformations for multiple regression
and correlation. Journal of the American Statistical Association, 80, .
Collett, D. 2003. Modelling survival data in medical research, 2 d. Boca Raton: Chapman &
Hall/CRC.
Davison, A. C., et D. V. Hinkley. 2006. Bootstrap Methods and their Application. : Cambridge
University Press.
Green, P. E., et V. Rao. 1972. Applied multidimensional scaling. Hinsdale, Ill.: Dryden Press.
Green, P. E., et Y. Wind. 1973. Multiattribute decisions in marketing: A measurement approach.
Hinsdale, Ill.: Dryden Press.
Guttman, L. 1968. A general nonmetric technique for finding the smallest coordinate space for
configurations of points. Psychometrika, 33, .
Hartigan, J. A. 1975. Clustering algorithms. New York: John Wiley and Sons.
Hastie, T., et R. Tibshirani. 1990. Generalized additive models. Londres: Chapman and Hall.
Kennedy, R., C. Riquier, et B. Sharp. 1996. Practical applications of correspondence analysis
to categorical data in market research. Journal of Targeting, Measurement, and Analysis for
Marketing, 5, .
McCullagh, P., et J. A. Nelder. 1989. Generalized Linear Models, 2nd d. Londres: Chapman &
Hall.
Price, R. H., et D. L. Bouffard. 1974. Behavioral appropriateness and situational constraints as
dimensions of social behavior. Journal of Personality and Social Psychology, 30, .
Rickman, R., N. Mitchell, J. Dingman, et J. E. Dalen. 1974. Changes in serum cholesterol during
the Stillman Diet. Journal of the American Medical Association, 228, .
Rosenberg, S., et M. P. Kim. 1975. The method of sorting as a data-gathering procedure in
multivariate research. Multivariate Behavioral Research, 10, .
Shao, J., et D. Tu. 1995. The Jackknife and Bootstrap. New York: Springer.
Van der Ham, T., J. J. Meulman, D. C. Van Strien, et H. Van Engeland. 1997. Empirically based
subgrouping of eating disorders in adolescents: A longitudinal perspective. British Journal
of Psychiatry, 170, .
Verdegaal, R. 1985. Meer sets analyse voor kwalitatieve gegevens (en nerlandais). Leiden:
Department of Data Theory, University of Leiden.
Ware, J. H., D. W. Dockery, A. Spiro III, F. E. Speizer, et B. G. Ferris Jr.. 1984. Passive
smoking, gas cooking, and respiratory health of children living in six cities. American Review of
Respiratory Diseases, 129, .

Copyright IBM Corporation 1989, 2011.

46

Index
amorce, 3, 11
Estimations des paramtres, 30
intervalle de confiance pour la mdiane, 20
intervalle de confiance pour les proportions, 1617
procdures prises en charge, 5
Spcifications de bootstrap, 15
Estimations des paramtres
dans lamorce, 30
fichiers dexemple
emplacement, 32
intervalle de confiance pour la mdiane
dans lamorce, 20
intervalle de confiance pour les proportions
dans lamorce, 1617
marques commerciales, 44
mentions lgales, 43
Spcifications de bootstrap
dans lamorce, 15

47