Vous êtes sur la page 1sur 35

Prpar par :

Encadr par :
Elmannaoui Baraa
PR. M. El Merouani
Saital Abdelali

Master spcialis : Gestion Informatique de lEntreprise

Anne universitaire : 2016/2017

PLan

Introduction

1. Installation
2. slection des donnes
3. options
4. codage
BOITE DE DIALOGUE
EXEMPLE
5. rgression linaire
DESCRIPTION
BOITE DE DIALOGUE
EXEMPLE
6. Arima
DESCRIPTION
BOITE DE DIALOGUE
RESULTATS
EXEMPLE
Introduction

XLSTAT est dvelopp depuis plus de dix ans dans le but de rendre accessible au plus
grand nombre un outil danalyse de donnes et de statistique la fois puissant, complet et
convivial.

Laccessibilit vient de la compatibilit avec toutes les versions de Microsoft Excel


aujourdhui utilises, de linterface disponible en 7 langues (allemand, anglais, franais,
espagnol, italien, japonais, portugais) et de la mise disposition sur le site www.xlstat.com
dune version dvaluation utilisable 30 jours.

La puissance de XLSTAT vient la fois du langage de programmation C++, et des


algorithmes utiliss, qui sont le fruit des travaux de recherche de centaines de chercheurs
statisticiens, mathmaticiens ou informaticiens. Chaque dveloppement dune nouvelle
fonctionnalit de XLSTAT est prcd dune phase de recherche bibliographique
approfondie, voire dchanges avec les spcialistes des mthodes concernes.

La compltude de XLSTAT est le fruit dune part de plus de dix ans de travail, et
dautre part dchanges rguliers avec les utilisateurs, dont les ides et suggestions permettent
de faire progresser le logiciel encore plus vite.

Enfin, la convivialit vient de linterface, qui aprs quelques minutes de prise en main,
rend facile et efficace lutilisation de mthodes parfois trs complexes qui requirent dans
dautres logiciels des heures dapprentissage.

Larchitecture du logiciel a considrablement volu au cours des 5 dernires annes


afin de prendre en compte les progrs dExcel, et les problmes de compatibilit entre les
diffrentes plates-formes. Le logiciel sappuie aujourdhui sur le Visual Basic Application
pour les interfaces et le C++ pour les calculs. Comme toujours, les quipes dAddinsoft et des
distributeurs de XLSTAT se tiennent votre disposition pour rpondre toute question, ou
pour prendre en compte vos remarques et suggestions afin de continuer amliorer le logiciel.
1. installation :

Pour installer XLSTAT vous devez :

Soit double-cliquer sur le fichier xlstat.exe tlcharg depuis le site www.xlstat.com


ou depuis le site de lun de nos partenaires, ou disponible sur le CD-Rom dont
vous disposez,
Soit insrer le CD-Rom votre disposition et attendre que la procdure
dinstallation dmarre automatiquement.

Si vos droits sont restreints sur lordinateur que vous utilisez, vous devez faire appel
un administrateur de la machine pour quil installe le logiciel. Une fois linstallation termine,
ladministrateur doit veiller laisser un droit daccs lecture/criture aux lments suivants :

Dossiers du disque dur :


Dossier dans lequel se trouve Excel.exe
Dossier dans lequel se trouve les fichiers utilisateur, (ex :
C:\...\Application Data\Addinsoft\XLSTAT\).

Le rpertoire pour les fichiers utilisateur pourra tre chang ultrieurement par une
personne ayant des droits dadministrateur sur lordinateur. Pour cela, il suffit dutiliser
loption correspondante dans longlet Avances de la bote de dialogue des options
XLSTAT.

2. slection des donnes

Comme pour lensemble des modules XLSTAT, la slection des donnes se fait
directement sur la feuille Excel, de prfrence avec la souris. Les logiciels de statistique
affichent classiquement des listes de variables slectionner ou non pour la mthode
employe ou non. Lapproche de XLSTAT est compltement diffrente puisque vous
choisissez les donnes directement sur une ou plusieurs feuilles Excel.

Deux modes de slection sont votre disposition, sachant que pour chaque variable ou
groupe de variables (par exemple dune part la variable dpendante, dautre part les variables
quantitatives explicatives) vous pouvez opter pour lun des modes. Les deux modes sont :
Slection par plage : vous slectionnez avec la souris lensemble des cellules de la
feuille Excel correspondant aux variables ou au tableau de donnes, aprs avoir cliqu
dans la zone correspondante de la bote de dialogue.

Slection par colonnes : ce mode de slection ne peut tre utilis que si votre tableau
de donnes commence sur la premire ligne de la feuille Excel. Aprs avoir cliqu
dans la zone de la bote de dialogue correspondant la slection que vous voulez faire,
vous devez cliquer sur le nom de la premire colonne correspondant votre tableau
(A, B, C, ), puis slectionner les autres colonnes en laissant le bouton droit de la
souris enfonc.
Slection par lignes : ce mode de slection ne peut tre utilis que si votre tableau de
donnes commence sur la premire colonne de la feuille Excel (colonne A). Aprs
avoir cliqu dans la zone de la bote de dialogue correspondant la slection que vous
voulez faire, vous devez cliquer sur le nom de la premire ligne correspondant votre
tableau (1, 2, 3, ), puis slectionner les autres lignes en laissant le bouton droit de la
souris enfonc.
3. options :

XLSTAT offre un nombre important doptions afin de vous permettre une utilisation
personnalise et optimale du logiciel.

Pour afficher la bote de dialogue des options de XLSTAT, cliquez sur la commande

Options du menu XLSTAT ou cliquez sur le bouton de la barre doutils


XLSTAT.

: cliquez sur ce bouton pour enregistrer les modifications.

: cliquez sur ce bouton pour fermer la bote de dialogue. Si vous navez pas
pralablement enregistr vos modifications, elles ne seront pas prises en compte.

: cliquez sur ce bouton pour afficher laide.

: cliquez sur ce bouton pour rtablir les options par dfaut.


Onglet Gnrales :

Langue : utilisez cette option pour modifier la langue de linterface de XLSTAT.

Entres des botes de dialogue :

Mmoriser pendant une session : activez cette option si vous souhaitez que XLSTAT
mmorise le temps dune session (ouverture / fermeture de XLSTAT) les diffrentes
entres des botes de dialogue.
Y compris pour les slections de donnes : activez cette option si vous souhaitez
que XLSTAT conserve pendant une session les slections de donnes.
Mmoriser dune session lautre : activez cette option si vous souhaitez que
XLSTAT mmorise les diffrentes entres des botes de dialogue dune session
lautre.
Y compris pour les slections de donnes : activez cette option si vous souhaitez
que XLSTAT conserve aussi dune session lautre les slections de donnes.
Cette option est particulirement utile si vous travaillez souvent sur des feuilles
Excel qui ont le mme nom et une structure de donnes identiques.

Demander la confirmation des slections : activez cette option si vous souhaitez que
XLSTAT vous demande de confirmer les slections de donnes aprs que vous avez cliqu
sur le bouton OK des botes de dialogue. Si vous activez cette option, vous aurez la possibilit
de vrifier le nombre de lignes et de colonnes slectionnes pour lensemble des slections
actives.

Montrer seulement les fonctions actives dans les menus et les barres d'outils : Activez
cette option si vous souhaitez que seules les fonctions actives correspondant des modules
auxquels la licence donne accs soient affiches dans le menu XLSTAT et les barres d'outils.

Onglet Sorties :

Position des nouvelles feuilles : si vous choisissez loption de sortie Feuille dans
les botes de dialogue des fonctions XLSTAT, utilisez cette option pour modifier la position
des feuilles de rsultats dans le classeur Excel.

Nombre de dcimales : choisissez le nombre de dcimales afficher pour les rsultats


numriques. Notez que vous avez toujours la possibilit de voir par la suite un nombre de
dcimales infrieur ou suprieur en utilisant les options de formatage dExcel.
p-value minimale : entrez la valeur p-value minimale en-dessous de laquelle la p-value
est remplace par < p o p est la p-value minimale

Afficher les titres en gras : activez cette option pour que XLSTAT affiche les titres des
tableaux de rsultats en gras.

Afficher len-tte des tableaux en gras : activez cette option pour que XLSTAT affiche
enttes des tableaux de rsultats en gras.

Afficher la liste des rsultats dans len-tte du rapport : activez cette option pour que
XLSTAT affiche la liste des tableaux et graphiques de rsultats dans len-tte du rapport.

Afficher le nom du projet dans len-tte du rapport : activez cette option pour que
XLSTAT affiche le nom de votre projet dans len-tte du rapport, puis entrez le nom de votre
projet dans le champ correspondant.

Elargir la premire colonne du rapport par un facteur de X : activez cette option pour
largir automatiquement la premire colonne du rapport de XLSTAT dun facteur X. La
valeur par dfaut est 1, et correspond laisser la largeur de la colonne inchange.

Onglet Donnes manquantes :

Considrer les cellules vides comme des donnes manquantes : cette option est active
par dfaut et ne peut tre dsactive. XLSTAT ne considre systmatiquement quune cellule

vide dans une slection correspond une donne manquante.

Considrer aussi les valeurs suivantes comme des donnes manquantes : si vous
activez cette option, les valeurs indiques dans la liste en dessous de loption seront aussi
considres comme des donnes manquantes, que ce soit pour des donnes numriques ou des
donnes nominales.

Considrer toute donne textuelle comme une donne manquante : cette option ne
sapplique quaux slections de donnes numriques. Quelle que soit la donne textuelle
rencontre, elle sera considre comme une donne manquante. Si vous activez cette option
soyez sr que des donnes nont pas t converties par mgarde dun format numrique en un
format texte : vous risqueriez dignorer des observations alors quune rectification vous
permettrait de les inclure dans les calculs.

Onglet Graphiques :
Afficher les graphiques sur des feuilles spares : activez cette option pour que les
graphiques soient affichs sur des feuilles graphiques spares. Remarque : lorsque des
graphiques sont affichs sur une feuille Excel standard, vous pouvez les convertir en feuille
graphique spare en les slectionnant, puis en faisant un clic droit avec votre souris, puis en
cliquant sur Emplacement , puis en choisissant sur une nouvelle feuille .

Taille des graphiques :

Automatique : choisissez cette option si vous souhaitez que XLSTAT dtermine


automatiquement la taille des graphiques en utilisant comme point de dpart la
hauteur et la largeur dfinies ci-dessous.
Dfinie par lutilisateur : activez cette option si vous souhaitez que XLSTAT affiche
des graphiques dont la taille est exactement dfinie par les valeurs ci-dessous :
Largeur : entrez la valeur en points de la largeur des graphiques ;
Hauteur : entrez la valeur en points de la hauteur des graphiques.

Afficher des graphiques orthonorms : activez cette option pour que les graphiques
issus danalyses factorielles soient orthonorms. Cela permet davoir automatiquement des
chelles identiques pour les abscisses et les ordonnes, et dviter des interprtations errones
du fait deffets de dilatation artificiels.

Onglet Avances :

Nombres alatoires :

Fixer la graine : activez cette option si vous voulez vous assurer que les rsultats
mettant en jeu des calculs sur des nombres alatoires donnent toujours le mme rsultat.
Entrez alors la valeur de la graine (le point de dpart de gnration des nombres alatoires).

Chemin pour les fichiers utilisateurs : vous pouvez modifier le rpertoire dans lequel
doivent tre enregistrs les fichiers utilisateurs en cliquant sur le bouton [] qui vous
permettra de choisir le rpertoire. Les fichiers utilisateurs comprennent les options dfinies
dans cette bote de dialogue et les options des botes de dialogues des diffrents outils. Le
rpertoire dans lequel sont enregistrs ces fichiers doit tre accessible en lecture/criture.

4. codage :

Utilisez cet outil pour recoder un tableau en utilisant un tableau de codage comprenant
les valeurs initiales et les codes qui doivent les remplacer dans le nouveau tableau.
Bote de dialogue :

: cliquez sur ce bouton pour lancer les calculs.

: cliquez sur ce bouton pour fermer la bote de dialogue sans effectuer


les calculs.

: cliquez sur ce bouton pour afficher laide.

: cliquez sur ce bouton pour rtablir les options par dfaut.

: cliquez sur ce bouton pour effacer les slections de donnes.

Donnes : slectionnez les donnes sur la feuille Excel. Si des en-ttes ont t
slectionns, veuillez vrifier que loption Libells des colonnes est active.
Tableau de codage : slectionnez deux colonnes correspondant au tableau de codage.
La premire colonne doit contenir les valeurs telles qu'elles sont dans le tableau des
donnes slectionnes, et la seconde colonne les codes correspondants utiliser dans
le tableau recod. Si des en-ttes ont t slectionns, veuillez vrifier que loption
Libells des colonnes est active.
Libells des colonnes : activez cette option si la premire ligne des donnes
slectionnes (Donnes et tableau de codage) contient un libell.
Plage : si vous activez cette option, les rsultats seront affichs partir d'une cellule
situe dans une feuille existante. Vous devez alors slectionner la cellule.
Feuille : activez cette option pour afficher les rsultats dans une nouvelle feuille du
classeur actif.
Classeur : activez cette option pour afficher les rsultats dans un nouveau classeur.
Afficher len-tte du rapport : dsactivez cette option si vous souhaitez que le tableau
disjonctif complet commence ds la premire ligne de la feuille Excel (cas dune sortie
dans une feuille ou un classeur), et non aprs len-tte du rapport.

Exemple :
Vous allez trouver une feuille Excel contenant lexemple de donnes et de rsultats.
Les donnes correspondent un chantillon de 20 clients avec des informations telles
que leur catgorie d'ge, leur ville de rsidence et leur genre.
Nous allons recoder la variable "Ville" l'aide d'une table de codage contenant les
nouvelles et anciennes valeurs.
Paramtrer le recodage des donnes avec une table de codage
Une fois XLSTAT lanc, cliquez sur licne Prparation des donnes et choisissez la
fonction Codage ou dans la barre d'outils Prparation des donnes slectionnez
l'icne Codage (ci-dessous)
Une fois le bouton cliqu, la bote de dialogue apparat. Vous pouvez alors slectionner la
variable recoder sur la feuille Excel. Slectionnez la colonne C correspondant la variable "Ville".
Slectionnez ensuite la table de codage.
Notez qu'il faut aussi selectionner le liblls des colonnes de cette table.
Pour obtenir les rsultats accols la table de donnes, choisissez l'option Plage. Slectionnez
la cellule E1 pour avoir la nouvelle variable accole.
Pour ne pas avoir de texte au-dessus des rsultats dcochez l'option : Afficher l'entte du
rapport.

Quand vous tes prt, cliquez sur OK. Les rsultats s'affichent.

Rsultats du codage des donnes

Vrifiez que la nouvelle colonne respecte bien le code de la table de codage.

5. rgression linaire :
Utilisez ce module pour crer un modle de rgression linaire simple ou multiple
dans un but explicatif ou prdictif.

Description :

La rgression linaire est sans aucun doute la mthode statistique la plus utilise. On
distingue habituellement la rgression simple (une seule variable explicative) de la rgression
multiple (plusieurs variables explicatives) bien que le cadre conceptuel et les mthodes de
calculs soient identiques.

Le principe de la rgression linaire est de modliser une variable dpendante


quantitative Y, au travers dune combinaison linaire de p variables explicatives quantitatives,
X1, X2, , Xp.

Le modle dterministe (ne prenant pas en compte dala) scrit pour une observation
i,

O yi est la valeur observe pour la variable dpendante pour lobservation i, Xij est la
valeur prise par la variable j pour lobservation i, et i est lerreur du modle.

Le cadre statistique et les hypothses qui laccompagnent ne sont pas ncessaires


pour ajuster ce modle. Par ailleurs la minimisation par la mthode des moindres carrs (on
minimise la somme des erreurs quadratiques s ) fournit une solution analytique exacte.

Nanmoins si lon veut pouvoir tester des hypothses et mesurer le pouvoir explicatif
des diffrentes variables explicatives dans le modle, un cadre statistique est ncessaire.

Les hypothses de la rgression linaire sont les suivantes : les erreurs suivent une
mme loi normale et sont indpendantes.

Lcriture du modle complte par cette hypothse a pour consquence que, dans le
cadre du modle de rgression linaire, les yi sont des ralisations de variables alatoires de
moyenne i et de variance avec :
Si lon souhaite utiliser les diffrents tests proposs dans les rsultats de la rgression
linaire il est recommand de vrifier a posteriori que les hypothses sous-jacentes sont bien
vrifies. La normalit des rsidus peut tre vrifie en analysant certains graphiques ou en
utilisant un test de normalit. Lindpendance des rsidus peut tre vrifie en analysant
certains graphiques ou en utilisant le test de Durbin Watson.

Bote de dialogue :

La bote de dialogue est compose de plusieurs onglets correspondant aux diffrentes


options disponibles tant pour la gestion des calculs que pour laffichage des rsultats. Vous
trouverez ci-dessous le descriptif des diffrents lments de la bote de dialogue.

: cliquez sur ce bouton pour lancer les calculs.

: cliquez sur ce bouton pour changer la faon dont XLSTAT doit charger les

donnes. Si la flche est vers le bas, XLSTAT considre que les observations sont en lignes et

les variables en colonnes. Si la flche est vers la droite, XLSTAT considre que les variables

sont en lignes et les observations en colonnes.

Onglet Gnral :

Y / Variables dpendantes :

Quantitatives : slectionnez la ou les variables rponse que vous souhaitez modliser.


Si plusieurs variables sont slectionnes, XLSTAT fera les calculs pour chacune des variables
indpendamment. Si des en-ttes de colonnes ont t slectionns, veuillez vrifier que
loption Libells des variables est active.

X / Variables explicatives :

Quantitatives : slectionnez la ou les variables qualitatives explicatives sur la feuille


Excel.

Les donnes slectionnes doivent tre de type numrique. Si le libell des variables a
t slectionn, veuillez vrifier que loption Libells des variables est active.

Qualitatives : activez cette option si vous voulez inclure une ou plusieurs variables
explicatives qualitatives dans le modle. Dans ce cas, vous ne ferez plus de la rgression
linaire, mais de lANCOVA. Slectionnez alors la ou les variables correspondantes sur la
feuille Excel. Les donnes slectionnes peuvent tre de tout type, mais les donnes
numriques sont automatiquement considres comme nominales. Si le libell des variables a
t slectionn, veuillez vrifier que loption Libells des variables est active.

Plage : si vous activez cette option, les rsultats seront affichs partir d'une cellule
situe dans une feuille existante. Vous devez alors slectionner la cellule.

Feuille : activez cette option pour afficher les rsultats dans une nouvelle feuille du
classeur actif.

Classeur : activez cette option pour afficher les rsultats dans un nouveau classeur.

Libells des variables : activez cette option si la premire ligne des donnes
slectionnes (variables dpendantes et explicatives, libells des observations, poids) contient
un libell.

Libells des observations : activez cette option si vous voulez utiliser des libells
dobservations pour laffichage des rsultats. Si l'option Libells des variables est active,
la premire cellule de la slection doit comprendre un en-tte. Si vous nactivez pas cette
option, des libells seront automatiquement crs (Obs1, Obs2, ).

Poids des observations : activez cette option si vous voulez pondrer les observations.
Si vous nactivez pas cette option, les poids seront tous considrs comme valant 1. Les poids
doivent tre imprativement suprieurs ou gaux 0. Un poids de 2 est quivalent rpter
deux fois la mme observation. Si un en-tte de colonne a t slectionn, veuillez vrifier
que loption Libells des variables est active.
Poids dans la rgression : activez cette option si vous voulez effectuer une rgression
par les moindres carrs pondrs. Si vous nactivez pas cette option, les poids seront tous
considrs comme valant 1. Les poids doivent tre imprativement suprieurs ou gaux 0.

Si un en-tte de colonne a t slectionn, veuillez vrifier que loption Libells des


variables est active.

Onglet Options :

Constante fixe : activez cette option pour fixer la constante du modle de rgression
une valeur que vous devez ensuite saisir (0 par dfaut).

Tolrance : activez cette option pour permettre lalgorithme de calcul de la


rgression OLS ne pas prendre en compte les variables qui seraient soit constantes soit trop
corrles avec dautres variables dj utilises dans le modle (0.0001 par dfaut).

Interactions / Niveau : activez cette option pour inclure des interactions dans le modle
puis entrez le niveau maximum d'interaction (valeur comprise entre 1 et 4).

Intervalle de confiance (%) : entrez ltendue en pourcentage de lintervalle de


confiance utiliser pour les diffrents tests, et pour le calcul des intervalles de confiance
autour des paramtres et des prdictions. Valeur par dfaut : 95.

Slection du modle : activez cette option si vous souhaitez utiliser lune des quatre
mthodes de slection proposes :

Meilleur modle : cette mthode permet de choisir le meilleur modle parmi tous les
modles comprenant un nombre de variables variant de Min variables Max
variables . Par ailleurs le critre pour dterminer le meilleur modle peut tre
choisi par lutilisateur.
Critre : veuillez choisir le critre parmi la liste suivante : R ajust, Moyenne
des Carrs des Erreurs (MCE), Cp de Mallows, AIC de Akaike, SBC de
Schwarz, PC dAmemiya.
Min variables : entrez le nombre minimum de variables prendre en compte
dans le modle.
Max variables : entrez le nombre maximum de variables prendre en compte
dans le modle.
Remarque : cette mthode peut entraner des calculs longs car le nombre total de
modles explors est la somme des Cn,k pour k variant entre Min variables et Max
variables , o Cn,k vaut n!/[(n-k)!k !]. Il est donc conseill daugmenter progressivement la
valeur de Max variables .

Stepwise : le processus de slection commence par lajout de la variable ayant la plus


forte contribution au modle (le critre utilis est la statistique t de Student). Si une
seconde variable est telle que la probabilit associe son t est infrieure la
Probabilit pour lentre , elle est ajoute au modle. De mme pour une troisime
variable. A partir de lajout de la troisime variable, aprs chaque ajout, on value
pour toutes les variables prsentes dans le modle quel serait limpact de son retrait
(toujours au travers de la statistique t). Si la probabilit est suprieure la
Probabilit pour le retrait , la variable est retire. La procdure se poursuit jusqu ce
que plus aucune variable ne puisse tre ajoute/retire.
Ascendante : la procdure est identique cette de la slection progressive, hormis le
fait que les variables sont uniquement ajoutes et jamais retires.
Descendante : la procdure commence par lajout simultan de toutes les variables.
Les variables sont ensuite retires du modle suivant la procdure utilise pour la
slection progressive.

Onglet Validation :

Validation : activez cette option si vous souhaitez utiliser une partie des donnes
slectionnes pour valider le modle.

Jeu de validation : choisissez lune des options pour dfinir le mode de slection des
observations utilises pour la validation :

Alatoire : les observations sont slectionnes de manire alatoire. Le Nombre


dobservations doit alors tre saisi.
N dernires lignes : les N dernires observations sont slectionnes pour la validation.
Le Nombre dobservations N doit alors tre saisi.
N premires lignes : les N premires observations sont slectionnes pour la
validation. Le Nombre dobservations N doit alors tre saisi.
Variable de groupe : si vous choisissez cette option, vous devez ensuite slectionner
une variable indicatrice compose de 0 pour les observations utiliser pour le calcul
du modle, et de 1 pour les observations utiliser pour la validation du modle.

Onglet Prdiction :

Prdiction : activez cette option si vous souhaitez slectionner des donnes utiliser
en mode prdiction. Si vous activez cette option, vous devez veiller ce que les
donnes de prdiction soient organises comme les donnes destimation : mmes
variables, mme ordre dans les slections. En revanche vous ne devez pas slectionner
de libells de variables : la premire ligne des slections dcrites ci-dessous doit tre
une ligne de donnes.
Quantitatives : activez cette option pour slectionner la ou les variables quantitatives
explicatives. La premire ligne ne doit pas comprendre den-tte.
Qualitatives : activez cette option pour slectionner la ou les variables qualitatives
explicatives. La premire ligne ne doit pas comprendre den-tte.
Libells des observations : activez cette option si vous voulez utiliser des libells
dobservations disponibles sur une feuille Excel pour laffichage des rsultats. La
premire ligne ne doit pas comprendre den-tte. Si vous nactivez pas cette option,
des libells seront automatiquement crs (PredObs1, PredObs2, ).

Onglet Donnes manquantes :

Supprimer les observations : activez cette option pour supprimer les observations
comportant des donnes manquantes.

Estimer les donnes manquantes : activez cette option pour estimer les donnes
manquantes avant le dbut des calculs.

Moyenne ou mode : activez cette option pour estimer les donnes manquantes en
utilisant la moyenne (variables quantitatives) ou le mode (variables qualitatives) pour
les variables correspondantes.
Plus proche voisin : activez cette option pour estimer les donnes manquantes d'une
observation en recherchant le plus proche voisin de l'observation.

Onglet Sorties :
Statistiques descriptives : activez cette option pour afficher les statistiques descriptives
pour les variables slectionnes.

Corrlations : activez cette option pour afficher la matrice de corrlation pour les
variables quantitatives (dpendantes et explicatives).

Analyse de la variance : activez cette option pour afficher le tableau danalyse de la


variance.

Type I SS : activez cette option pour afficher le tableau de lanalyse de la variance de


Type I

(Type I Sum of Squares).

Type III SS : activez cette option pour afficher le tableau de lanalyse de la variance de
Type III (Type III Sum of Squares).

Press : activez cette option pour calculer et afficher le coefficient de Press.

Coefficients normaliss : activez cette option pour afficher les paramtres normaliss
du modle (coefficients bta).

Prdictions et rsidus : activez cette option pour afficher les prdictions et les rsidus
pour lensemble des observations.

Prdictions ajustes : activez cette option pour calculer et afficher les prdictions
ajustes dans le tableau des prdictions et rsidus.
D de Cook : activez cette option pour calculer et afficher les distances de Cook dans le
tableau des prdictions et rsidus.

Onglet Graphiques :

Options communes :

Graphiques de rgression : activez cette option pour afficher les graphiques de rgression :

Coefficients normaliss : activez cette option pour afficher sur un graphique les
paramtres normaliss du modle avec leur intervalle de confiance.
Prdictions et rsidus : activez cette option pour afficher les graphiques suivants :

(1) Droite de rgression : ce graphique nest affich que sil ny a quune seule
variable explicative, et que cette variable est quantitative.
(2) Variable explicative versus rsidus normaliss : ce graphique nest affich que sil
ny a quune seule variable explicative, et que cette variable est quantitative.

(3) Variable dpendante versus rsidus normaliss.

(4) Prdictions pour la variable dpendante versus variable dpendante.

(5) Graphique en btons des rsidus normaliss.

Intervalles de confiance : activez cette option pour afficher les intervalles de confiance sur les
graphiques (1) et (4).

EXEPMLE :

Jeu de donnes pour raliser une rgression linaire simple

Vous allez trouver une feuille Excel contenant les donnes et les rsultats de cet
exemple.

En utilisant la rgression linaire simple, notre but est d'tudier comment le poids varie
en fonction de la taille, et si une relation linaire a un sens.
Nous nous limitons ici au cas des filles. Il s'agit ici d'une rgression linaire simple,
car une seule variable explicative est utilise (la taille).

Paramtrer une rgression linaire simple

Une fois XLSTAT lanc, choisissez la commande XLSTAT / Modlisation /


Rgression linaire ou cliquez sur le bouton Rgression linaire de la barre
d'outils Modlisation.

Une fois le bouton cliqu, la bote de dialogue correspondant la rgression apparat.


Vous pouvez alors slectionner les donnes sur la feuille Excel. La Variable
dpendante correspond la variable explique (ou variable modliser), qui est dans ce cas
prcis le "poids".

La variable quantitative explicative est ici la "taille". On veut ici expliquer la


variabilit du poids par celle de la taille.

L'option Libells des colonnes est active car la premire ligne des colonnes
comprend le nom des variables.

Nous laissons l'option Rsidus slectionne car nous analyserons les prdictions et les
rsidus pour valider l'hypothse de normalit de la rgression, et pour identifier des valeurs
extrmes.
Une fois que vous avez cliqu sur le bouton OK, les calculs commencent puis les
rsultats sont affichs.

Interprter les rsultats de la rgression linaire simple

Le premier tableau de rsultats fournit les coefficients d'ajustement du modle. Le R


(coefficient de dtermination) donne une ide du % de variabilit de la variable modliser,
expliqu par l a variable explicative. Plus ce coefficient est proche de 1, meilleur est le
modle.

Dans notre cas, 56% de la variabilit du poids est explique par la taille. Le reste de la
variabilit est d des effets (autres variables explicatives) qui ne sont pas pris en compte
dans cet exemple.

Le tableau d'analyse de la variance est un rsultat qui doit tre analys attentivement
(voir ci-dessous). C'est ce niveau que l'on teste si l'on peut considrer que la variable
explicative slectionne (la taille) apporte une quantit d'information significative au modle
(hypothse nulle H0) ou non. En d'autres termes, c'est un moyen de tester si la moyenne de la
variable modliser (le poids) suffirait dcrire les rsultats obtenus ou non.
Le test du F de Fisher est utilis. Etant donne que la probabilit associe au F est dans
ce cas infrieure 0.0001, cela signifie que l'on prend un risque de se tromper de moins de
0.01% en concluant que la variable explicative apporte une quantit d'information
significative au modle.

Le tableau suivant fournit les dtails sur le modle et est essentiel ds lors que le
modle doit tre utilis pour faire des prvisions, des simulations ou s'il doit tre compar
d'autres rsultats, par exemple les coefficients que l'on obtiendrait pour les garons. Nous
voyons que si le paramtre de la taille a un intervalle de confiance assez troit, celui de la
constante du modle est assez large. L'quation du modle est donne sous le tableau. Le
modle indique que dans les limites de l'intervalle de variation de la variable taille donnes
par les observations, chaque fois que la taille augmente d'un inch, le poids augmente de 4
livres.

Le tabeau suivant prsente l'analyse des rsidus. Une attention particulire doit tre
porte aux rsidus centrs rduits, qui, tant donnes les hypothses lies la rgression
linaire, doivent tre distribus suivant une loi normale N(0,1). Cela signifie, entre autres, que
95% des rsidus doivent se trouver dans l'intervalle [-1.96, 1.96]. Etant donn le faible
nombre de donnes dont on dispose ici, toute valeur en dehors de cet intervalle est rvlatrice
d'une donne suspecte. Afin de mettre en vidence rapidement les valeurs se trouvant hors de
l'intervalle [-1.96, 1.96], nous avons utilis l'outil DataFlagger de XLSTAT.

Sur les 111 observations, cinq (26, 38, 64, 69, 77) sont hors de l'intervalle [-1.96,
1.96]. Cette analyse des rsidus n'invalide donc pas l'hypothse de normalit.

Le premier graphique permet de visualiser les donnes, la droite de rgression, et les


deux intervalles de confiance (le plus proche de la courbe est l'intervalle autour de la moyenne
de l'estimateur, le second est l'intervalle autour de l'estimation ponctuelle aussi appel
intervalle de prdiction). On voit ainsi clairement une tendance linaire, mais avec une forte
variabilit autour de la droite. Les 5 valeurs suspectes sont en dehors du second intervalle de
confiance.
Le troisime graphique semble indiquer que les rsidus croissent en fonction du poids.

L'histogramme des rsidus centrs rduits permet quant lui de reprer rapidement et
visuellement la prsence de valeurs hors de l'intervalle [-2, 2].
En conclusion, la taille permet d'expliquer 56% de la variabilit du poids. Pour expliquer la
variabilit restante, d'autres sources de variabitit doivent donc tre prises en compte dans le
modle. Dans le tutoriel sur la rgression linaire multiple, l'ge est ajout comme seconde
variable explicative.

6. arima :

Utilisez cet outil pour ajuster un modle ARMA (Autoregressive Moving Average), un
modle ARIMA (Autoregressive Integrated Moving Average) ou un modle SARIMA
(Seasonal Autoregressive Integrated Moving Average), et faire des prvisions sur la base de
modles dont les coefficients sont connus ou estimer.

Description

Les modles de la famille ARIMA permettent de reprsenter sous une forme succincte
certains phnomnes variant avec le temps, et de faire des prvisions pour les valeurs futures
du phnomne, avec un intervalle de confiance autour des prvisions.

Lcriture mathmatique des modles ARIMA varie dun auteur lautre, ceci
impliquant notamment des diffrences pour les signes des coefficients. La notation utilise
dans XLSTATTime correspond celle de la plupart des logiciels.
Soit {Xt} une srie chronologique de moyenne . Si la srie suit un modle ARIMA
(p,d,q)(P,D,Q)s, alors on peut crire :

p est lordre de la partie autorgressive du modle.

q est lordre de la partie moyenne mobile du modle.

d est lordre de diffrentiation du modle.

D est lordre de diffrentiation du modle pour la partie saisonnire.

s est la priode du modle (par exemple 12 si les donnes sont mensuelles et que lon a
repr une cyclicit lchelle de lanne.

P est lordre de la partie autorgressive saisonnire du modle.

Q est lordre de la partie moyenne mobile saisonnire du modle.

Remarque 1 : le processus {Yt} est causal si et seulement si pour tout z tel que |z| <=1,
(z) 0 et (z) 0.

Remarque 2 : si D=0, on se trouve dans le cas dun modle ARIMA (p,d,q). Dans ce
cas, P, Q et s sont considrs comme tant nuls.

Remarque 3 : si d=0 et D=0, on se trouve dans le cas dun modle ARMA (p,q).

Remarque 4 : si d=0, D=0 et q=0, on se trouve dans le cas dun modle AR(p).

Remarque 5 : si d=0, D=0 et p=0, on se trouve dans le cas dun modle MA(q).
Si les coefficients des polynmes sont inconnus, une fois les
paramtres (p,d,q), (P,D,Q) et s saisis, XLSTAT-Time permet destimer les coefficients des
polynmes, puis de calculer diffrentes statistiques dajustement, et si lutilisateur le souhaite,
de calculer des prvisions de valeurs futures.

Si les coefficients des polynmes sont connus, lutilisateur peut les


saisir. XLSTAT calcule ensuite diffrentes statistiques dajustement, et si lutilisateur le
demande, des prvisions de valeurs futures.

Dans le cas o D = 0, il est possible deffectuer une estimation prliminaire des coefficients
des polynmes et en utilisant la mthode propose :

Si q = 0, deux mthodes destimation prliminaire sont proposes. La premire utilise


lalgorithme de Yule-Walker, le seconde celui de Burg.
Si p = 0, la mthode utilise est lalgorithme des innovations.
Si p 0 et q 0, la mthode utilise est lalgorithme de Hannan-Rissanen.

Dans le cas o D 0, XLSTAT-Time effectue lui-mme la recherche dun point de dpart


raisonnable.

Bote de dialogue

La bote de dialogue est compose de plusieurs onglets correspondant aux diffrentes options
disponibles tant pour la gestion des calculs que pour laffichage des rsultats. Vous trouverez
ci-dessous le descriptif des diffrents lments de la bote de dialogue.
Onglet Gnral :

Sries temporelles : slectionnez la ou les sries temporelles dont vous voulez analyser le
spectre. Si des en-ttes de colonnes ont t slectionns, veuillez vrifier que loption
Libells des sries est active.

Centrer : activez cette option pour centrer les sries avant de calculer le modle.

Variance : activez cette option puis entrez la valeur de la variance si vous souhaitez imposer
une variance des erreurs pour le modle.

Donnes de date : activez cette option pour slectionner des donnes de date. Ces donnes
doivent tre au format de data Excel, ou des valeurs numriques.

Vrifier les intervalles : activez cette option si vous voulez que XLSTAT vrifie que
les donnes de date sont bien rgulirement espaces.

Plage : si vous activez cette option, les rsultats seront affichs partir d'une cellule situe
dans une feuille existante. Vous devez alors slectionner la cellule.

Feuille : activez cette option pour afficher les rsultats dans une nouvelle feuille du classeur
actif.

Classeur : activez cette option pour afficher les rsultats dans un nouveau classeur.

Libells des sries : activez cette option si la premire ligne des donnes slectionnes
(Variables dpendantes et explicatives, libells des observations, poids) contient un libell.

Paramtres du modle : entrez la valeur des diffrents ordres intervenant dans le modle :

p : entrez lordre de la partie autorgressive du modle. Par exemple, entrez 1 pour un


modle AR(1) ou pour un modle ARMA(1,2).
d : entrez lordre de diffrentiation du modle. Par exemple, entrez 1 pour un modle
ARIMA (0, 1,2).
q : entrez lordre de la partie moyenne mobile du modle. Par exemple, entrez 2 pour
un modle MA(2) ou pour un modle ARIMA (1, 1,2).
P : entrez lordre de la partie autorgressive saisonnire du modle. Par exemple,
entrez 1 pour un modle ARIMA (1, 1,0) (1, 1,0). Vous ne pouvez modifier cette
valeur que si D0. Si D=0, on considre que P=0.
D : entrez lordre de diffrentiation du modle pour la partie saisonnire. Par exemple,
entrez 1 pour un modle ARIMA (0, 1,1) (0, 1,1).
Q : entrez lordre de la partie moyenne mobile saisonnire du modle. Par exemple,
entrez 1 pour un modle ARIMA (0, 1,1) (0, 1,1). Vous ne pouvez modifier cette
valeur que si D0. Si D=0, on considre que Q=0.
s : entrez la priode du modle. Vous ne pouvez modifier cette valeur que si D0. Si
D=0, on considre que s=0.

Onglet Options :

Estimation prliminaire : activez cette option si vous souhaitez utiliser une mthode
dajustement prliminaire. Cette option nest disponible que si D=0.

Yule-Walker : activez cette option pour estimer les coefficients du modle


autorgressif AR(p) avec l'algorithme de Yule-Walker.
Burg : activez cette option pour estimer les coefficients du modle autorgressif AR(p)
avec l'algorithme de Burg.
Innovations : activez cette option pour estimer les coefficients du modle moyenne
mobile MA(q) avec l'algorithme des Innovations.
Hannan-Rissanen : activez cette option pour estimer les coefficients du modle
ARMA (p,q) avec l'algorithme de Hannan-Rissanen.

m/Auto : si vous choisissez la mthode des Innovations ou de Hannan-Rissanen, vous devez


entrer la valeur m spcifique de chacun des algorithmes. Si vous choisissez Auto, XLSTAT
dtermine automatiquement quelle est la bonne valeur de m.

Coefficients initiaux : activez cette option pour slectionner des valeurs initiales des
coefficients du modle.

Phi : slectionnez ce niveau la valeur des coefficients correspondant la partie


autorgressive du modle (y compris pour la partie saisonnire). Le nombre de valeurs
slectionn ici doit tre gal p+P.
Theta : slectionnez ce niveau la valeur des coefficients correspondant la partie
moyenne mobile du modle (y compris pour la partie saisonnire). Le nombre de
valeurs slectionn ici doit tre gal q+Q.

Optimiser : activez cette option pour estimer les coefficients selon l'une des deux mthodes
proposes :
Vraisemblance : activez cette option pour maximiser la vraisemblance.
Moindres carrs : activez cette option pour minimiser la somme des carrs des erreurs.

Conditions darrt :

Itrations : entrez le nombre maximal d'itrations pour lalgorithme doptimisation.


Les calculs sont interrompus ds que le nombre maximal d'itrations est dpass.
Valeur par dfaut : 500.
Convergence : entrez la valeur seuil dvolution maximale des communalits dune
itration lautre qui, une fois atteinte, permet de considrer que lalgorithme a
converg. Valeur par dfaut : 0,00001.

Intervalles de confiance : entrez la valeur de lintervalle de confiance pour les


prdictions effectues sur lchantillon de validation et de prdiction.

Onglet Validation :

Validation : activez cette option si vous souhaitez utiliser une partie des donnes
slectionnes pour valider le modle.

Pas de temps : entrez le nombre de pas de temps la fin de la srie slectionne qui
doit tre utilis pour valider le modle choisi.

Onglet Prdiction :

Prdiction : activez cette option pour effectuer des prdictions de nouvelles valeurs.

Pas de temps : entrez le nombre de pas de temps prdire.

Onglet Donnes manquantes :

Ne pas accepter les valeurs manquantes : activez cette option pour que XLSTAT
empche la poursuite des calculs si des valeurs manquantes sont dtectes.

Supprimer les observations : activez cette option pour supprimer les observations
comportant des donnes manquantes.

Remplacer par la moyenne des valeurs prcdente et suivante : activez cette option
pour estimer les donnes manquantes par la moyenne de la premire valeur prcdente non
manquante et de la premire valeur suivante non manquante.

Onglet Sorties :
Statistiques descriptives : activez cette option pour afficher les statistiques descriptives
des sries slectionnes.

Coefficients dajustement : activez cette option pour afficher le tableau des statistiques
dajustement du modle.

Paramtres du modle : activez cette option pour afficher le tableau des paramtres du
modle.

Prdictions et rsidus : activez cette option pour afficher les prdictions et les rsidus
pour lensemble des observations.

Onglet Graphiques :

Afficher les graphiques : activez cette option pour afficher le graphique prsentant les
donnes originales et les prdictions du modle, ainsi que le diagramme en btons des rsidus.

Rsultats

Statistiques simples : tableau dans lequel sont affichs le nombre dobservations, le


nombre dobservations manquantes, le minimum, le maximum, la moyenne, la variance de la
population (1/n) et lcart type (1/n).

Si une estimation prliminaire et une optimisation ont t demandes, les rsultats de


lestimation prliminaire sont affichs, suivis de ceux de loptimisation. Si des coefficients
initiaux ont t saisis, les rsultats concernant ces coefficients sont dabord affichs.

Coefficients dajustement :

Observations : le nombre de donnes utilises pour lajustement.


SCE : la somme des carrs des rsidus. Ce critre est minimis lorsque loption
Moindres carrs est slectionne.
Variance du bruit blanc : cette statistique est gale SCE divis par N. Dans certains
logiciels cette statistique est dsigne par sigma2.
Variance du bruit blanc (estime) : cette statistique est en principe gale la
prcdente. Dans le cas des algorithmes de Yule-Walker et de Burg, une estimation
lgrement diffrente est fournie.
-2Log (Vrais.) : ce critre est minimis dans le cas dune optimisation base sur le
maximum de vraisemblance. Elle vaut loppos de deux fois le logarithme nprien de
la vraisemblance.
FPE : ce critre est d Akaike (Final Prediction Error). Ce critre est adapt pour les
modles autorgressifs.
AIC : ce critre est d Akaike (Akaike Information Criterion).
AICC : ce critre est d Brockwell (Akaike Information Criterion Corrected).
SBC : ce critre est d Schwarz (Schwarzs Bayesian Criterion).

Paramtres du modle :

Constante : le constant est systmatiquement nul dans le cas de modles ne


comprenant pas de composante autorgressive. Dans le cas de modles comprenant une
composante autorgressive, la constante vaut . La constante est aussi nul si
loption

Centrer nest pas active.

Le tableau suivant donne lestimateur de chaque coefficient de chaque polynme, ainsi


que lcart-type obtenu soit directement par la mthode destimation (estimation prliminaire)
soit partir de la matrice dinformation de Fisher lissue de loptimisation (dsigne par
Hess., pour Hessienne). Les carts-types asymptotiques sont aussi calculs. Pour chaque
coefficient et chaque cart-type est fourni un intervalle de confiance. Les coefficients sont
identifis de la manire suivante :

Prdictions et rsidus : dans ce tableau sont affichs la srie de dpart, les prdictions
calcules partir du modle, et les rsidus correspondants. Si lutilisateur la demand, des
prdictions pour les donnes de validation et pour les valeurs futures sont calcules, ainsi que
les cart-types et les intervalles de confiance correspondants.

Graphiques : deux graphiques sont affichs. Le premier graphique permet de visualiser les
donnes, les valeurs calcules partir du modle, les prvisions de validation et des valeurs
futures, de mme que les intervalles de confiance. Le second graphique permet de visualiser
les rsidus du modle.
Exemple :

Jeu de donnes pour ajuster un modle ARIMA :


Vous allez trouver une feuille Excel contenant les donnes et les rsultats de cet
exemple.
Le but de l'analyse est d'ajuster le modle sur les donnes des 11 premires annes
puis de prdire le trafic de l'anne 1960 avec le modle.

On note sur ce graphique que le nombre de passagers tendance augmenter


rgulirement, que l'on retrouve chaque anne un cycle similaire, mais que les variations
l'intrieur d'une mme anne sont de plus en plus fortes.
Afin de supprimer l'augmentation des variations intra-annuelles nous prenons le
logarithme nprien des donnes. Nous pouvons vrifier sur le graphique ci-dessous que
l'augmentation des variations intra-annuelles est nettement rduite.

On peut maintenant ajuster un modle ARIMA(0,1, 1)(0,1,1)12 qui semble appropri


pour tenir compte la fois de la composante tendancielle et de la cyclicit annuelle observes.

Paramtrer un modle ARIMA

Pour activer la bote de dialogue des mthodes de lissage, lancez XLSTAT, puis
slectionnez la commande XLSTAT / Fonction avance / Analyse des sries
temporelles/ARIMA.

Une fois le bouton cliqu, la bote de dialogue des mthodes de lissage apparat.
Vous pouvez alors slectionner les donnes sur la feuille Excel. La Srie
analyser correspond la srie tudie, les donnes "Log(Passagers)".
On laisse l'option Centrer active afin de permettre XLSTAT de centrer automatiquement
la srie.
Aprs avoir slectionner la colonne des donnes, dfinissez le type de modle ARIMA
ajuster en entrant les ordres du modle (p,d,q)(P,D,Q)s . La priode de la srie est fixe 12
car le trafic semble connatre des cycles annuels (12 mois).
L'option Libells des colonnes est active car la premire ligne de la srie comprend le
nom de la srie.

Dans l'onglet validation, nous mettons la valeur 12 car nous voulons que les 12
derniers mois correspondant l'anne 1960 ne soient pas pris en compte pour l'ajustement du
modle, mais que les prvisions soient calcules pour cette priode (validation du modle).
Une fois que vous avez cliqu sur le bouton OK, les calculs commencent puis les
rsultats sont affichs.

Interprter les rsultats d'un modle ARIMA

Le premier tableau fournit des statistiques simples pour la srie slectionn. Un


tableau permettant d'valuer la qualit du modle aprs optimisation est ensuite fourni. Ces
diffrents indices permettent ventuellement de comparer diffrents modles entre eux.

Dans le tableau suivant sont affichs les paramtres du modle. On note que les
paramtres MA(1) et SMA(1) sont significativement diffrent de 0, leur intervalle de
confiance 95% ne comprenant pas la valeur 0. Les intervalles de confiance sont calculs sur
la base de la matrice hessienne aprs optimization, comme il est propos par la plupart des
logiciels.
Le rsultat asymptotique est aussi affich afin de donner une ide de l'loignement de
la srie par rapport un cas idal. La constante du modle est fixe, et est une fonction de la
moyenne de la srie.

Le modle ARIMA s'crit alors :

Y(t) = 0.000+Z(t-1)-0.348.Z(t-1)-0.562.Z(t-12)+0.196*Z(t-13) avec Z(t) est un bruit blanc


N(0, 0.001) Y(t)=(1-B)(1-B12)X(t), et X(t) est la srie de dpart.
L'quation permettant de calculer des prvisions pour la srie X(t) est : X(t+1) =
Y(t+1)+X(t)+X(t-11)-X(t-12)
Aprs le tableau donnant les valeurs des paramtres du modle, un tableau fournit les
rsultats de l'ajustement, avec la srie originale et la srie correspondant au modle. En raison
de contraintes lies au modle, nous ne disposons pas de prvisions pour les treize premires
valeurs. Elles sont arbitrairement fixes la valeur de la srie observe. Pour les douze
dernires observations, les prvisions (Validation) du modle sont affiches avec un intervalle
de confiance.

Sur le graphique ci-dessous, on peut visuellement confirmer que les prvisions sont
bien ajustes aux donnes.

Vous aimerez peut-être aussi