Formation SPSS

SUPPORT
Pratique de la statistique avec SPSS Transparents ultérieurement améliorés et mis à jour sur le site du SMCS
LIENS UTILES
Site du SMCS (Support en Méthodologie et Calcul Statistique) :
http://www.stat.ucl.ac.be/SMCS/
Documentation Stat + SPSS :

http://faculty.chass.ncsu.edu/garson/PA765/statnote.htm
http://www.ats.ucla.edu/stat/spss/
http://www.stat.ucl.ac.be/SMCS/
LIVRES UTILES
Discovering Statistics Using Spss par Andy Field (Sage Publication)
…
Formateurs : Nathalie Lefèvre et Lorise Moreau 2

FormationDate
SMCS: du 7 au 11 septembre
: Pratique 2009
de la statistique avec SPSS
3 4
Objectifs de la formation
SPSS – Objectifs de la formation Résumer ce que peut offrir la statistique

Découvrir l’environnement SPSS
Appliquer quelques principales analyses statistiques
Apprendre à interpréter les résultats des analyses
Répondre à vos questions spécifiques
6
Formation SMCS : Pratique de la statistique avec SPSS
7 8
Contexte
Contexte : Un entraî
entraîneur souhaite mieux comprendre les faculté
facultés de
SPSS - Etude de cas résistance d’
d’athlè
athlètes reprenant les entraî
entraînements aprè
après une pé
période de
repos forcé
forcé suite à une blessure
Il voudrait savoir si la ré résistance des athlè

athlètes [mesuré
[mesurée par le temps de
récupé
cupération aprè après un marathon (temps né nécessaire pour atteindre x pulsations par minute)
et le fait que les athlèathlètes ont ou non fait des arrêts durant la course (course
avec arrêt ou sans arrêt)] peut être dé
déterminé
terminée par la duré
durée du repos,
repos, le sexe de
l’athlè
athlète et les vitamines prises durant le mois de pré préparation.
Il pense que cette étude pourra l’l’aider à amé

améliorer ses entraî
entraînements
pour être plus adapté
adaptés aux athlè
athlètes.
Remarque : Il s’
s’agit d’
d’une étude fictive
10
Données
Donné
Données:
es: Pour chaque athlè
athlète, nous avons les informations suivantes :
Colonne Nom Nom de Label Values
SPSS variable
Col1 V1 Date Date de la mesure
Col2 V2 Identifiant Identifiant de l’athlète
Col3 V3 Sexe Sexe de l’athlète 1=Homme
2=Femme
Col4 V4 Vitamine Vitamine prise par l’athlète 1=Vitamine A
2=Vitamine B
3=Vitamine C
Col5 V5 Absence Nombre de jours de repos
Col6 V6 Recup1 Nombre de seconde pour récupérer après le marathon 1
Col9 V9 Arret1 Marathon 1 réalisé avec ou sans arrêt 1=Sans arrêt
2=Avec arrêts
Col10 V10 Arret2 Marathon 2 réalisé avec ou sans arrêt 0=Sans arrêt
1=Avec arrêts
Col11 V10 Fausse_Date Date inventée
11 12
Face à une question
Quelles réponses offre la statistique?
La statistique comme outil
Des outils descriptifs
Pour résumer les donné
données et les repré
représenter graphiquement
Des outils infé

inférentiels
Pour ré répondre aux questions et décider à partir des donné
données
Des outils de modé

modélisation
Pour expliquer certaines variables à partir d’
d’autres variables
14
Outils descriptifs Outils inférentiels

Résumé numérique pour estimer des paramètres d’une distribution : Les outils inférentiels permettent de répondre aux questions que nous
moyenne, variance, médiane, quantiles, skewness, kurtosis, corrélation… nous posons sur une population à partir d’un échantillon extrait de celle-ci
La résistance des athlètes est-elle affectée par le type de vitamines
prises durant le mois de préparation?
La résistance des athlètes est-elle liée à la durée de la période de
convalescence des athlètes?
Le sexe interfère-t-il dans les effets observés?
Graphiques statistiques pour montrer /
analyser les structures sous-jacentes …
aux données :
diagramme en barres, histogramme, Les notions principales liées à l’inférence statistique:
boxplot, graphe x-y, qq-plot, densité… Estimations
Intervalles de confiance
tests d’hypothèses
15 16
Outils de modélisation
Les outils de modélisation expliquent et prédisent une ou plusieurs
variables par une fonction mathématique d’autres variables
Quelques exemples de modélisation :

Régression simple, multiple, régression logistique, analyse de variance
17 18
19 20
SPSS
L’environnement SPSS SPSS pour
Statistical Package for Social Sciences
22
SPSS Le fichier de données

Deux feuilles diffé
différentes
Plusieurs types de fichiers
Data : Fichier de donné
données
Syntax : Fichier de syntaxe incluant
le code de commandes SPSS
Output : Fichier incluant les ré
résultats
des analyses
Script : Fichier incluant du langage
de programmation objet
Data View : Variable View :
=> Ces diffé
différents fichiers peuvent être Visualisation des donné
données Visualisation des variables
sauvé
sauvés et réutilisé
utilisés par la suite permet de modifier les permet de modifier les
donné
données caracté
caractéristiques des variables
23 24
Ouvrir un fichier de données Ouvrir un fichier de données
SPSS : File → Open → Data Cocher cette case si la
Aller à l’endroit où le
première ligne inclut le
fichier est enregistré
nom des variables
=> Il est important de visualiser

les donné
données au prépréalable
et de vévérifier que l’l’importation
Choisissez le
type de fichier
25 26
Découvrir les données Définir les variables

Vecteur d’observations Vecteur d’observations pour
pour un individu (cas) une Variable (champ)
Types de variables :
Discret
Quantitatif Continu
Nominal
Qualitatif Ordinal
Cellule
Définir le type : Donner un Indiquer la

Valeurs manquantes : Eviter les variables Indiquer le type de
Changer le label : nom signification
Variable numérique = « . » (point) « string » (chaîne de mesure : échelle,
nom des complet des de chaque
variable alphanumérique = « » (blanc) caractères) car ça ordinale, nominale
variables variables valeur
limite certaines
analyses
⇒ A vous d’
d’essayer avec les informations reç
reçues (aller voir ce qu’
qu’il est possible
de faire dans chaque menu: changer l’l’affichage des dates, dé
définir les missing…
missing…)
27 28
Découvrir les menus Découvrir les menus
intéressants ⇒ A vous de les dé
Quelques menus inté découvrir Quelques menus inté
intéressants
Obtenir de l’aide
Réaliser des analyses

différentes selon les
valeurs d’une variable
Infos générales Sélectionner certaines Obtenir un graphe
sur un fichier données
Définir des
paramètres Donner un poids sur Transformer ou ⇒ A vous de les dé
découvrir
base d’une variable créer des variables Réaliser des analyses
29 30
Ne pas se fatiguer
Sauver le code chaque fois qu’
qu’on exé
exécute quelque chose
SPSS : choisir le menu qui nous inté
intéresse → choisir les options voulues
dans la fenêtre → cliquer sur Paste au lieu de OK
- Le code correspondant est collé
collé dans une fenêtre de syntaxe
- Dans la fenêtre de syntaxe, on peut cliquer sur Run →All et le
code est exé cuté ou Run →Selection…
exécuté
- On peut sauver le fichier contenant le code et l’l’ouvir pour
l’exé
exécuter sur un autre fichier
Se servir du journal pour avoir une trace de ce qui a été fait
SPSS : Edit → Options → File Locations : choisir un endroit
accessible pour le fichier « Session Journal » spss.jn → réaliser
toutes les analyses → ouvrir ce fichier avec un éditeur de texte
→ On voit tout ce qui a été fait durant l’l’ouverture de la cession
31 32
Grilles d’aide à l’analyse
Analyses statistiques Une variable d’
d’inté
intérêt à analyser seule
Variable à analyser - Variable dépendante (VD)
Selon - Var.
Outil Variable quantitative Variable qualitative
Indépendante
Graphe • Graphique temporel • Diagrammes en barres
• Graphe en points • Diagrammes de Pareto
• Diagramme en barres (si discrète)
• Boxplot
• Histogramme (si continue)
Pas d'autres • qq-plot, pp-plot
variables
Tableau • Moyenne, mode, médiane • Médiane, mode
descriptif • Variance, écart-type • Table de fréquences
Inférence • Test t et IC sur la moyenne • Test de proportions
• Test c² et IC sur la variance • Test d’ajustement χ²
• Test de Normalité
34
Grilles d’aide à l’analyse Grilles d’aide à l’analyse

Une variable d’
d’inté
intérêt en fonction d’
d’une variable quantitative Une variable d’
d’inté
intérêt en fonction d’
d’une variable qualitative

Selon - Var.
Selon - Var. Indépendante
Indépendante Graphe • Graphe en points • Diagramme en barres
Graphe • Graphe x-y • Graphes en points • Boxplot par catégorie par catégorie
• Graphe x-y matriciel • Boxplot par catégorie Tableau • Moyenne, mode, • Tableau de contingence
Tableau • Coefficient de corrélation de Pearson, • Moyenne, mode, descriptif médiane par catégorie
En fonction descriptif Spearman ou autre médiane par catégorie • Variance, écart-type par catégorie
d'une / de • Variance, En fonction
variables d'une / de Inférence • Test t de comparaison des moyennes, • Test d’indépendance: χ²,
écart-type par catégorie tests de comparaisons multiples, test exact de Fisher
quantitative(s) variables
Inférence • Test et IC sur la corrélation qualitative(s) test de Wilcoxon • Test de McNemar
• Test F de comparaison des variances,
Modélisation • Régression linéaire simple • Régression logistique
test de Levene
et régression multiple • Analyse discriminante
Modélisation • ANOVA, • Régression logistique
ANOVA à mesures répétées, • Arbre de segmentation
GLM
35 36
1quanti
Données1qualiObjectifs
Canevas de la formation
Les différents parties de la formation sont organisées en se basant sur
le type de variables disponibles et à analyser
quali ≥2quanti
Que peut-on utiliser comme outil statistique lorsqu’on dispose de :
→ Une seule variable quantitative

Stat
selon
→ Une seule variable qualitative

Intro
quanti Quanti
→ Plusieurs variables quantitatives

→ Une variable quantitative selon au moins une variable qualitative
stat selon SPSS
→ Une variable qualitative selon au moins une variable quantitative

→ Plusieurs variables qualitatives
quali Quali
Analyses
≥2
37 38
39 40
Visualisation graphique
Le choix du graphique dépend de la taille n de l’échantillon
Analyse d’une variable quantitative N=15 N=30 N=50
Histogramme
Histogramme (pour N > 50) :
1000 3000 5000 1000 3000 5000 1000 3000 5000
Box plot (rarement mauvais) :
Box plot
1000 3000 5000 1000 3000 5000 1000 3000 5000
Dot plot
Dot plot (bon pour N < 15) :
••
••••
•••
•
••
••
••
••••
•
••
••
•
••
••
•••
•
•
••
••
1000 3000 5000 1000 3000 5000 1000 3000 5000
42
Graphe: Histogramme Graphe: Box plot

Ex: Visualiser la forme de la distribution du temps de convalescence Ex: Visualiser les distributions du temps de convalescence selon le sexe
SPSS : Graphs → Legacy Dialogs → Histogram SPSS : Graphs → Legacy Dialogs (→ Interactive )→ Boxplot
ou Graphs → Chart Builder → Boxplot
Nombre d’obs par classe Que représente l’histogramme?
ou fréquence relative → On définit des classes (souvent
de mêmes longueurs) et pour
chacune on dessine un rectangle
dont la hauteur représente le
nombre d’obs. appartenant à la
classe.
→ Quand N est petit, la forme peut
beaucoup varier en fonction des
classes choisies
→ à éviter pour un N petit
→ Par prudence, prendre environ √N
comme nombre de classes.
43 44
Graphe: Boxplot Graphe: Graphique temporel
Que représente un box-plot? Ex: Visualiser l’évolution du temps de récupération au cours du temps
→ On ordonne les données et on les coupe en 4 groupes de 25% SPSS : Data → Sort Cases → By Date or Fausse_Data
Analyse → Time series → Sequence Charts
Que représente le graphe temporel ?
5000
Graphe 1
•• Maximum (sans outliers) 1.5 * IQR → Une représentation de l’évolution d’une
4000
•
• 25% variable en fonction du temps (ex: nos
••••
75ème percentile
•••• critères de cotation peuvent se modifier
3000
••••••• 25% Ecart interquartile V

•• médiane au cours du temps)
•••• 25% (IQR) a
••
••••• r → Graphe 1: Mesure non liée à la Date
2000
••
••• 25%
25ème percentile Graphe 2
i Graphe 2: Phénomène cyclique
••• 1.5 * IQR a avec Fausse_Date
1000
• Minimum (sans outliers) b

• l → Très important à contrôler
*
0
e
Outlier (observation < 25th percentile - 1.5 IQR) → L’histogramme ne permet pas de voir
cette évolution
Temps
45 46
Graphe: QQplot Graphe: QQplot

Ex: Vérifier si les temps de repos sont issus d’une loi Normale Que représente plus précisément un QQplot ?
SPSS : Analyze → Descriptive Statistics → Q-Q Plots → Un QQ plot consiste à comparer les données observées aux données
qu’on devrait avoir si elles suivaient « parfaitement » une certaine
distribution, le plus souvent la distribution Normale.
→ Les valeurs observées et « idéales » (les quantiles) sont comparées
sur un graphe X-Y qui montre une tendance linéaire en cas de normalité.
Exemple avec 4 données
1/4 1/4 1/4 1/4
Quantiles de la
distribution normale
Droite de
Henry
z1 z2 z3 z4
Que représente ce QQplot?

→ Les données réellement observées par rapport aux données qui auraient dû être x1 x2 x3 x4
observées dans le cas d’une distribution parfaitement Normale (ou représentation
de la déviation de la distribution Normale de chacun des points observés) observations
47 48
Graphe: QQplot Tableaux: Statistiques descriptives
Quelques exemples de vérification de la normalité par QQplot Ex: Résumer les temps de repos selon le sexe
SPSS : Analyze → Reports → Case Summaries (décocher «Display cases»)
ou Analyze → Descriptive
Statistics → Explore
ou …
Normale Lognormale Bimodale
49 50
Indices de tendance centrale Indices de dispersion

But : Donner une valeur centrale aux données But : Savoir comment les données varient autour du centre
moyenne médiane mode

Variance
N
1 N Valeur (classe) → s2 = 1 ∑ ( )2
X = ∑ X i = 12 Milieu=q0.5=13 45 50 55 60 65 N −1 i =1
N i=1 la plus fréquente= 14
s = s 2 = 7.92 1 N
50% of observations 50% of obs = ∑ (Xi − X)2 = 62.667
N − 1 i =1
8 9 10 11 12 13 14 8 9 10 11 12 13 14 8 9 10 11 12 13 14 Écart-type (standard deviation)

X
→ Dans les unités d’origine
s = s 2 = 7.92
- Centre de gravité des - Résistant aux outliers - Facile à comprendre
données - Moins efficace pour les - Parfois plusieurs modes
- Sensible aux outliers données « propres » 45 50 55 60 65 Erreur type (standard error)
- Efficace pour les données - Utile pour les distributions → Précision de l’estimateur de
« propres » asymétriques la moyenne
s X = s/ N
51 52
Indices de dispersion Inférence : Test sur une moyenne
But : Savoir comment les données varient autour du centre Tester une moyenne en population normale
Ex: Tester si la moyenne du temps de repos est différente de 250
Étendue Espace interquartile → Vérifier si la distribution est Normale et transformer les données si nécessaire
Étendue = max(Xi) - min(Xi) IQR = q 0.75 - q 0.25 SPSS : Analyze → Descriptive → Explore → Plots (cocher «Normality plots with tests»)
Range IQR → La distribution s’écarte
25% obs 25% 25% 25% significativement d’une
Normale
→ Utiliser une transformation
45 50 55 60 65 45 50 55 60 65
q0.25 q0.5 q0.75 SPSS : Transform → Compute Variable (essayer une transformation logarithmique)
→ Vérifier à nouveau la normalité
Box Plot
→ Distribution plus proche
d’une Normale
→ Test de KS non significatif:
45 50 55 60 65 non rejet de la normalité
(P-valeur>0.05)
53 54
Inférence : Test sur une moyenne Tester une moyenne en population normale
Tester une moyenne en population normale Test-t (1 moyenne µ par rapport à une valeur de référence µ 0)
0 contre H1 : µ ≠µ0
On veut tester H : µ = µ
0
Ex: Tester si la moyenne du temps de repos est différente de 250 en Sous condition que la variable X testée ait une distribution normale
utilisant la variable transformée [LN(250)≈5.52] ou qu’il y ait un grand nombre d’observations
X - µ0
SPSS : Analyze → Compare Means → One-Sample T test T= ~ t n −1 sous H0
s/ n X - µ0
Statistique de test: Tobs =
s/ n
Règle de décision: on rejette H 0 si t obs< -tn-1;1-α/2 ou si t obs> tn-1;1-α/2
(souvent α=0.05)
H0 Accepté
H1 Accepté H1 Accepté
t df Sig. (2-tailed) Mean Differe nce
LogAbsence -2,749 17 4 ,00 7

tobs
→ P-valeur=0.007 => P-valeur<0.05 => Moins de 5% de chance de se tromper en Degré de liberté = N-1 Valeur du T
rejetant l’hypothèse selon laquelle la moyenne=5.52 P-valeur=0.007 < 0.05 calculé
DONC on rejette H 0 au seuil de 5% 0
=> On rejette cette hypothèse au seuil de 5% -tn-1,1-α/2 tn-1,1-α/2
=> Nous sommes parvenu à montrer que le logarithme du temps de repos est Conclusion: La moyenne est significativement ≠ de 5.52
significativement différent de 5.52
55 56
Tester une moyenne en population normale
Intervalle de Confiance à 100*(1-α)% pour la moyenne:
[X − t n−1;1−α / 2 s / n , X + t n −1;1−α / 2 s / n ]
Rmq: IC ne contient pas 5.52!
ou
Intervalle de Confiance à 100*(1-α)% pour la différence entre le moyenne
et la moyenne théorique (5.52)
[X − µ 0 − t n −1;1−α / 2 s / n , X − µ 0 + t n −1;1−α / 2 s / n ] Sample Test
Test Value = 5.52
95% Confidence Interval of the

Difference
Mean Differe nce Lower Upper
,00 7 -,14039 -,2412 -,0396

Rmq: IC ne contient pas 0!
57 58
59 60
Ex : Visualiser la répartition des 3 types de vitamines chez les femmes
Analyse d’une variable qualitative → Pour sélectionner les femmes : SPSS : Data → Select Cases → if ...
Diagramme en barres
SPSS : Graphs → Legacy Dialogs → Bar (Simple)
→ Une barre par catégorie
→ Fréquence ou 1000
pourcentage
Diagramme de Pareto
1000
SPSS : Analyze → Quality Control → Pareto Charts
→ Une barre par catégorie
→ Les barres sont ordonnées
selon leur hauteur
62
Tableaux: Statistiques descriptives Inférence : Test sur une proportion

Ex: Résumer les proportions observées de la variable Arret1 Test binomial sur une proportion
→ Table de fréquence : Ex: Tester si la proportion «avec arrêts» versus «sans arrêt» est la même
SPSS : Analyze → Descriptive Statistics → Frequencies
SPSS : Analyze → Non Parametric Tests → Binomial
Pour caractériser une variable ordinale → H0: proportions identiques (πA= πB=0.5)
→ Utiliser la médiane ou le mode : H1: proportions différentes (πA≠ πB ≠ 0.5)
SPSS : Analyze → Descriptive Statistics → Frequencies (Statistics) P-valeur=0.173 => P-valeur>0.05 => On ne rejette pas H0
=> On peut considérer que le nombre d’athlètes qui arrêtent au moins une fois
durant le marathon est équivalent au nombre qui ne s’arrêtent pas
→ Ce test ne peut être appliqué que lorsque la variable d’intérêt ne peut prendre
que 2 valeurs (ex:“avec” versus “sans”)
63 64
Inférence : Test sur une proportion Inférence : Test sur une proportion
Test d’ajustement χ2 à un critère de classification Test d’ajustement χ2 à un critère de classification
Ex: Tester si la proportion «avec arrêts» versus «sans arrêt» est la même Soit une expérience à k résultats possibles R1,..., Rk de probabilités
inconnues p1, p2, …, pk
SPSS : Analyze → Non Parametric Tests → Chi Square
Soient les résultats de N expériences indépendantes (X1, X2… Xk) où Xi
est le nombre d’occurrences du résultat Ri (Σ Xi =N)
Question du test d’ajustement : On se donne des valeurs théoriques pour
les pi et se demande si les observations peuvent émaner de cette
distribution
R1 R2 R3 … Rk Résultats possibles
→ H0: proportions identiques (πA= πB=…)
H1: non H0 X1 X2 X3 … Xk Occurrences observées
P-valeur=0.151 => P-valeur>0.05 => On ne rejette pas H0
=> On peut considérer que le nombre d’athlètes qui arrêtent au moins une fois p1 p2 p3 … pk Probabilités théoriques
durant le marathon est équivalent au nombre qui ne s’arrêtent pas
→ Ce test peut être appliqué sur une variable avec plus de 2 catégories. Si le test La statistique de test est basée sur la comparaison des probabilités
est significatif, il indique que les données se rapartissent autrement que le théoriques et des proportions observées Xi/N
hasard ou autrement que ce qui a été posé sous H0
65 66
Inférence : Test sur une proportion

Différence entre test binomial et test d’ajustement χ2
Test binomial lié
lié à la table de fré
fréquence pour une variable
qualitative à deux niveaux
Test d’
d’ajustement chi-
chi-carré
carré lié
lié à la table de fré
fréquence à une
variable qualitative à plusieurs niveaux
Dans les deux cas,

cas, on peut tester l’égalit
’égalité
é des proportions entre
les niveaux de la variable ou tester des proportions déterminé
terminées
67 68
Graphe X-Y
Analyse avec plusieurs variables Ex: Visualiser le lien entre le temps de repos et le temps de récupération
quantitatives SPSS : Graphs → Legacy Dialogs → Interactive → Scatterplot (Fit)
Plusieurs possibilités:
– Scatter Plot
– Scatter Plot avec une droite de régression
et IC (intervalle de confiance) ou IP (intervalle de prédiction) …
70
Visualisation graphique Stats descriptives et Inférence

Graphe X-Y Coefficient de corrélation de Pearson
Ex: Visualiser le lien entre le temps de repos et le temps de récupération N
en tenant compte du sexe ∑ (xi − x )( yi − y )

ρ= i =1
SPSS : Graphs → Legacy Dialogs → Interactive → Scatterplot (Fit) N N
Autres possibilités: ∑ (xi − x )2 ∑ ( yi − y )2 ρ ≈1
i =1 i =1
– Scatter Plot simple avec une couleur différente par groupe
– Scatter Plot + une courbe plus ou moins lissée …
0 < ρ <1
ρ ≈0
Attention !
ρ >0 ρ ≈0
x
−1 < ρ < 0
x x x x x
x xx x
x x xx
x xx x
x
ρ ≈ −1
71 72
Stats descriptives et Inférence Stats descriptives et Inférence
Coefficient de corrélation et test d’hypothèse sur le coefficient Coefficient de corrélation et test d’hypothèse sur le coefficient
Il existe plusieurs coefficients de corré
corrélation dans SPSS : Ex: Quantifier et tester la force du lien linéaire entre le logarithme du
Pearson: utilisé quand on a deux variables continues
temps de repos et le logarithme du temps de récupération
Spearman (Pearson basé sur les rangs): utile pour les SPSS : Analyze → Correlate → Bivariate
variables quantitatives non normales ou les variables
qualitatives ordinales
Kendall tau-b (basé sur le nombre de concordances et Coefficient de corrélation de Pearson
discordances des rangs) : pour des variables ordinales P-valeur du test sur la corrélation
Il existe un test d’
d’hypothè
hypothèse pour tester si le coefficient est
égal versus diffé
différent de 0 (= versus > 0):
H0: ρ=0 contre H1: ρ≠0 ρ≠0 :
73 74
Modélisation : Régression linéaire Modélisation : Régression linéaire

La régression linéaire simple : Y = α + β X + ε Ex: Modéliser le lien linéraire entre le log du temps de repos et le
n log du temps de récupération : SPSS : Analyze → Regression → Linear
• Le principe est de trouver a et b minimisant : ∑ (Yi − a − bX i ) 2
i =1
C’est le critère des moindres carrés
8000
Résidu : ei=Yi-a-bXi
7000
6000
5000 Yi
4000
Y
Yi Yi=a+bXi
3000
2000
1000
0
0 4 8 12 16 20
X
75 76
Comment juger si le modèle est bon ? Comment rapporter le modèle estimé ?
→ En regardant la p-valeur et le coefficient R2 → Sous la forme d’une équation :
p-valeur indiquant si le
modèle Y=α+βX+ε est LogRecup1 = -2.994+1.316*LogAbsence
meilleur qu’un modèle
ayant seulement une
constante Y=α+ε
Pourcentage de
variabilité de la réponse
n n expliquée par le modèle
∑ (Yˆ − Y )
i
2
∑ (Y
i =1
i − Yî ) 2
i =1
Somme des carrés Somme des carrés

expliquée par le modèle résiduelle Estimations des p-valeurs associées aux tests
paramètres α et β dont l’hypothèse H0 est la nullité
Pourcentage de variabilité de la réponse expliquée du paramètre
par le modèle pondérée par le nombre de variables Ecart-type
du modèle et le nombre d’observations des résidus
77 78

Comment juger si le modèle est valide ? Ex: Analyse graphique des résidus du modèle estimant le lien
linéraire entre le log du temps de repos et le log du temps de
→ En analysant les résidus et les points influents
récupération : SPSS : Analyze → Regression → Linear (Plots - Save)
Les hypothèses suivantes doivent toujours être vérifiées
α+βX
Yi = α + βX i + ε i
16
14
12
10
8
Y
Termes d’erreur 4
Modèle linéaire
εi ~ iN(0,σ
σ²) 2
0
0.0 0.4 0.8 1.2 1.6 2.0
X
Variance ± constante Résidus Normaux Quelques points ont un
Indépendance Normalité de Homogénéité ± 95% des ri entre -2 et 2 leverage > 2*2/175=0.022
des observations la distribution des variances
(Plots: X=ZPRED Y=ZRESID) (Plots: Normal probability plot) (Save: Prédi unstand. & Leverage
Scatter/Dot: X=Prédi unstd.
Y=Leverage)
79 80
Différents types de résidus : Recommandations pour l’analyse des résidus :
Termes d’
d’erreurs du modè
modèle
• Représenter par un graphe X-Y les résidus (ou les résidus
ε i = Yi − α − β X i avec ε i ~ iN ( 0 , σ 2 ) standardisés) en fonction:
Résidus observé
observés – Des Y prédits SPSS : Regression → Linear (Plots : ZPRED-ZRESID)
(
ei = Yi − Yî = Yi − a − b X i , ei ~ N 0 , σ 2 (1 − hii ) avec hii = leverage ) – De l’ordre de collecte des données (si cela a du sens)
SPSS : Reg. → Linear (Save : Residuals Unstand.) → Scatter/dot DATE-RES_1
Résidus standardisé
standardisés Most ri should be in [-2,2] → Les graphiques doivent montrer un comportement aléatoire
Yi − Yî
ri = ≈ t (n − p − 1) = ZRESID • Faire un QQ-plot (ou PP-plot) pour vérifier la normalité des résidus
σˆ ε (1 − hi ) SPSS : Regression → Linear (Plots : Normal probability plot)
Résidus studentisé
studentisés externes et ré
résidu « Press »
Droite sans le point i • Vérifier que les résidus standardisés sont compris dans l’intervalle
Yii − Yîi
di = ≈ t (n − p − 2) [-2;2] et étudier ceux qui en sortent SPSS : Reg. → Linear (Plots :
σˆ ε (i )
(1 − hii ) Résidus press
ZPRED ou DEPENDNT-SRESID)
Droite avec le point i
ei • Comparer les ri aux di et étudier ceux qui sont très différents
Résidus standardisés calculés en enlevant le point i du modèle
81 82

Points influents et outliers : Leverage ou « force de levier » :
Si l’ensemble de données disponibles contient des observations • Un point éloigné du « nuage » de points dans la direction des X peut
« spéciales », il est primordial de les repérer pour qu’elles potentiellement influencer l’équation de régression. Le leverage hii
n’influencent pas à elles seules les résultats de la régression mesure le degré de singularité d’un point dans l’espace des X
65
55 hii=0.1
65 45 hii=0.56
35
55
Y
25
45
3 points sont “différents” 15
35 5
des autres hii=0.26
Y
25 • La somme des leverages = p -5

0 1 2 3 4
15 p=nombre de paramètres incluant l’intercept X
5 Un leverage > 2p/n sera considéré comme élevé

-5 ex: hii provenant d’un modèle construit avec 5 paramètres et sur un
0 1 2 3 4
X
échantillon de 50 individus. Calculez le leverage maximal
• Les leverages sont les éléments de la « hat matrix » : H = X( X' X) −1 X'
83 84
Influence et statistique de Cook : La régression linéaire multiple :
• Un point qui a un grand leverage et qui n’est pas aligné avec les autres
points observés peut à lui seul influencer la droite de régression Modèle linéaire multiple à 2 variables explicatives :
Y = β 0 + β1 X 1 + β 2 X 2 + ε , où ε est iN (0, σ 2 )
65
Di=0.24
• Objectif: estimer β0 , β1, β2
55
45 Di=3.28 Modèle avec le point influent (en rouge)

35
Modèle sans le point influent (en vert) • Équation du modèle estimé:
Y
25
15
Yˆ = b0 + b1 X 1 + b2 X 2
5 Di=0.58
-5
0 1 2 3 4 • L’estimation est faite par les
X
moindres carrés. Il s’agit de ei
minimiser la somme des carrés (X1i, X2i,Yi)
• La statistique de Cook Di résume comment les réponses prédites sont
modifiées quand le point est enlevé du modèle (Di >1 : influence anormale)
des écarts des points au plan:
n n
ˆ −Y ˆ −Y
ˆ )' (Y ˆ )
(Y ei2 hii
∑e = ∑ (Yi − b0 − b1 X i1 − b2 X i 2 ) 2
2
Di = = ≈ F ( p + 1, n − p − 1) min
(i ) (i )
i
( p + 1) s 2 ( p + 1) s (1 − hii ) 2
2
i =1 i =1
85 86

Différents modèles linéaires multiples : Un modèle de régression Ex: Modéliser le temps de récupération (LogRecup1) en fonction
est dit linéaire si son équation est linéaire par rapport aux paramètres du temps de repos (LogAbsence) et de la température du jour –
Plane in R3 Polynomial model
Exercice nécessitant l’ouverture d’un nouveau fichier (Data_SPSS_2):
SPSS : Analyze → Regression → Linear
77,6% de variabilité de la réponse
Y
peut être expliquée par le modèle
X
Modèle globalement + utile qu’un
Y = β 0 + β1 X 1 + β 2 X 2 + ε Y = β 0 + β1 X 1 + β 2 X 12 + β 3 X 13 + ε modèle avec juste un intercept
Model with qualitative variable
Model avec interaction
Effets du nombre de jours
d’absence et de la température
du jour sur le temps de récup
Y
LogRecup1 = -2.999 +
MALE 1.251*LogAbsence +
FEMALE
X
0.019*Température
Y = β0 + β1 X1 + β2 X 2 + β3 X1 X 2 + ε Y = β 0 + β1 X 1 + β 2 S + ε
87 88
Comment juger si le modèle est valide ? Comment détecter les problèmes de multicolinéarité ?
→ En analysant les résidus de la même manière que pour la régression → En vérifiant le facteur d’inflation de la variance (VIF) : ok si 1 ≤ VIF ≤10
simple On peut aussi utiliser la tolérance qui est définie par: 1 / VIF
→ En vérifiant l’influence des points sur la régression (Leverage / SPSS : Analyze → Regression → Linear (Statistics – Colinearity diagnostics)
Cook)
→ En regardant les valeurs propres de la matrice de corrélation des
→ En s’assurant qu’il n’y a pas de problème de « multicolinéarité » paramètres
entre les variables explicatives (VI). On parle de multicolinéarité
lorsque les variables explicatives évoluent ensembles. La → En constatant l’Instabilité du modèle quand une variable est enlevée
multicolinéarité peut entraîner: ou ajoutée au précédent modèle
- une imprécision des paramètres estimés

- une instabilité des paramètres quand une donnée change
89 90
Modélisation : Régression linéaire

Notre modèle de régression multiple est-il valide?
SPSS : Analyze → Regression → Linear (Plots - Statistics - Save)
(Plots: X=ZPRED Y=ZRESID) (Plots: Normal probability plot) (Save: Prédi unstand. & Leverage
Scatter/Dot: X=Prédi unstd.
Y=Leverage)
Ex: Réaliser la même modélisation à partir des variables d’origine

(Recup1 – Absence et Température). Faire les mêmes analyses
de résidus et comparer les résultats des deux analyses
91 92
Analyse d’une variable quantitative Ex : Visualiser la durée de repos (absence) en tenant compte du sexe
en fonction d’au moins Boxplot

une variable qualitative SPSS : Graphs → Chart Builder → Boxplot
1000
Scatter/Dot
SPSS : Graphs → Chart Builder → Scatter/Dot
1000
94
Tableaux: Statistiques descriptives Inférence : Test sur 2 moyennes

Ex: Résumer la variable temps de repos (Absence) en fonction du sexe Tests de comparaison de 2 moyennes indépendantes
SPSS : Analyze → Descriptive Statistics → Explore Ex: Tester si le log du temps de Recup1 diffère en moyenne selon le sexe
ou Analyze → Reports → Case Summaries
Test-t pour 2 échantillons indépendants
→ Utilisation : Lorsque les données à comparer sont indépendantes
→ Conditions : Normalité des distributions, égalité des variances et
indépendance des observations (transformations possibles pour la normalité)
SPSS : Analyze → Compare Means → Independent-Samples T Test
Tests non-paramétrique (normalité non respectée ou données ordinales)

→ Utilisation : Quand les données ne se distribuent pas normalement dans
au moins un des groupes ou qu’il s’agit de données ordinales
→ Tests : Test de Mann-Whitney (≈Wilcoxon Rank-Sum), test de la médiane
SPSS : Analyze → Nonparametric Tests → 2 Independent Samples (Mann-Whitney)
SPSS : Analyze → Nonparametric Tests → k Independent Samples (Median)
95 96
Inférence : Test sur 2 moyennes Inférence : Test sur 2 moyennes
Ex: Tester si le log du temps de Recup1 diffère en moyenne selon le sexe Tests de comparaison de 2 moyennes pairées
→ Test pour échantillons indépendants → Tester la Normalité Ex: Comparer la moyenne du temps de récupération 1 et 2
SPSS : Analyze → Descriptive Statistics → Explore (Plot-Normality Plots…) Test-t pairé
→ Utilisation : Quand les données à comparer sont liées (ex: avant-après…)
→ Conditions : Normalité de la différence entre les 2 groupes et
indépendance des observations au sein de chaque groupe. En cas de
Non-Normalité, il est possible de transformer les données (ex: log, 1/x,…)
→ Condition de Normalité respectée → Test paramétrique SPSS : Analyze → Compare Means → Paired Samples T Test
SPSS : Analyze → Compare Means → Independent-Samples T Test
Tests pairés non-paramétriques (condition de normalité non respectée)
→ Utilisation : Quand les données à comparer sont liées (ex: avant-après,
pots avec 2 plantes…) et que la différence entre les groupes ne se
distribue pas normalement.
Test de Levene : Teste l’égalité P-valeur du test : Indique que Recup1 → Différents tests : Test du signe ou test de Wilcoxon (signed-Rank)
des variances entre les 2 groupes. ne diffère pas selon le sexe
Détermine la ligne à lire. SPSS : Analyze → Nonparametric Tests → 2 Related Samples (Wilcoxon, Sign)
97 98
Inférence : Test sur 2 moyennes Inférence : Test sur k moyennes

Ex: Comparer la moyenne du temps de récupération 1 et 2 Tests de comparaison de k moyennes indépendantes
→ Test pairé → Tester la Normalité de la différence entre les 2 groupes Ex: Tester si la moyenne du log de Recup1 diffère selon la vitamine prise
SPSS : Transform → Compute Variable (DifRecup=Recup1-Recup2) ANOVA pour k échantillons indépendants
Analyze → Descriptive Statistics → Explore (Plot-Normality Plots With Tests)
indépendance des observations (transformations possibles pour la normalité)
SPSS : Analyze → Compare Means → One-Way ANOVA
→ Condition de Normalité non respectée → Test Non-paramétrique Test non-paramétrique (normalité non respectée ou données ordinales)
SPSS : Analyze → Nonparametric Tests → 2 Related Samples (Wilcoxon, Sign)
P-valeur
→ Utilisation : Quand les données ne se distribuent pas normalement dans au
du test moins un des groupes, qu’il s’agit de données ordinales, ou peu de données
→ Tests : Test de Kruskal-Wallis, test de la médiane
SPSS : Analyze → Nonparametric Tests → k Independent Samples (Kruskal Wallis)
→ Dans le cas d’une distribution très asymétrique → Test du Signe (Sign)
99 100
Inférence : Test sur k moyennes Inférence : Test sur k moyennes
Ex: Tester si la moyenne du log de Recup1 diffère selon la vitamine prise Ex: Tester si la moyenne du log de Recup1 diffère selon la vitamine prise
→ Test pour échantillons indépendants → Tester la Normalité → Test pour échantillons indépendants
SPSS : Analyze → Descriptive Statistics → Explore (Plot-Normality Plots…) → Imaginons la Condition de Normalité respectée → Test paramétrique
SPSS : Analyze → Compare Means → One-Way ANOVA
P-valeur du test de Levene : Indique que
les variances des groupes ne peuvent
être considérées homogènes
→ Condition de Normalité non respectée → Test non paramétrique

Test en cas d’égalité des variances Test en cas d’inégalité des variances
SPSS : Analyze → Nonparametric Tests → k Independent Samples (Kruskal Wallis)
P-valeur du test : Indique que

LogRecup1 diffère selon la
vitamine
=> Le temps de récupération
est différent pour au
moins une des vitamines P-valeur du test : Indique que LogRecup1
diffère selon la vitamine
Pour obtenir la correction de Welch : SPSS : Analyze → Compare Means → One-Way ANOVA (Options)
101 102

Comparaisons multiples post-hoc Tests de comparaison de k moyennes pairées
Ex: Voir quelles vitamines diffèrent si analyse globale significative Ex: Comparer la moyenne du temps de récupération 1, 2 et 3
ANOVA pour k échantillons indépendants → Tests : Bonferroni, Tuckey, ANOVA pour mesures répétées
Scheffé, … SPSS : Analyze → Compare Means → One-Way ANOVA (Post Hoc)
→ Utilisation : Lorsque les données à comparer sont liées (ex: temps 1, 2, 3)
P-valeur indiquant que toutes les → Conditions : Normalité de la différence entre les groupes, indépendance
vitamines diffèrent au niveau de des observations au sein de chaque groupe, sphéricité de la matrice var/cov
la moyenne du LogRecup1
SPSS : Analyze → General Linear Models → Repeated Measures
Tests non-paramétriques (condition de normalité non respectée)

→ Utilisation : Quand les données à comparer sont liées (ex: temps 1, 2, 3…),
que la différence entre les groupes ne se distribue pas normalement ou que
Test non paramétrique (Kruskal-Wallis) → Test : Pas de comparaisons l’échantillon est petit
multiples dans SPSS. Comparer les moyennes 2 à 2 en adaptant la p-valeur.
Principe de Bonferroni : P-valeur adaptée=0.05/Nombre de comparaisons → Différents tests : Test de Friedman, Kendall W, Cochran Q
SPSS : Analyze → Nonparametric Tests → k Related Samples (Friedman)
103 104
Comparaisons multiples post-hoc Ex: Comparer la moyenne du temps de récupération 1, 2 et 3
Ex: Voir quelles mesures (temps) diffèrent si analyse globale significative → ANOVA pour mesures répétées (si normalité respectée)
ANOVA pour mesures répétées → Tests : Bonferroni, Sidak SPSS : Analyze → General Linear Models → Repeated Measures
SPSS : Analyze → General Linear Models → Repeated Measures (Options) Test de Mauchly : Teste la symétrie
composée – Homogénéité des
variances / covariances. En cas de
P-valeur indiquant que les trois non-sphéricité, prendre la correction
mesures de temps de de Greenhouse-Geisser
récupération (LogRecup1 2 3)
diffèrent en moyenne
P-valeur du test : Indique

Test non paramétrique (Friedman) → Test : Pas de comparaisons multiples qu’au moins une des
dans SPSS. Comparer les moyennes 2 à 2 en adaptant la p-valeur mesures aux différents
Principe de Bonferroni: P-valeur adaptée=0.05/Nombre de comparaisons temps a une moyenne
différente des 2 autres
105 106
Inférence : Test sur k moyennes Inférence : Test à 2 critères

Ex: Comparer la moyenne du temps de récupération 1, 2 et 3 Tests de comparaison de moyennes selon 2 critères
→ Test pour mesures répétées (si non normalité ou peu de données) Ex: Tester la moyenne LogRecup1 selon les variables sexe et Arrêt1
SPSS : Analyze → Nonparametric Tests → k Related Samples (Friedman) ANOVA à 2 critères
P-valeur indépendance des observations (transformations possibles pour la normalité)
du test
SPSS : Analyze → General Linear Models → Univariate
Levene's Test of Equality of Error Variancesa
F df1 df2 Sig.
Modèle non
1,679 3 171 ,173
significatif
Tests the null hypothesis that the error variance of
the dependent variable is equal across groups.
a. Design: Intercept + Sexe + Arret1 + Sexe * Arret1
P-valeur du test de Levene: Indique Effets principaux

l’égalité des variances des résidus et interaction
entre les groupes. Condition non significatifs
nécessaire pour la validité du test
107 108
Inférence : Test à 2 critères Inférence : Test à 2 critères
• Il y a un effet d’interaction entre les facteurs sexe et arrêt Tests de comparaison de moyennes selon 2 critères - 1 répété
si l’effet du facteur sexe sur la réponse dépend du niveau pris par Ex: Tester l’effet du sexe sur le temps de récupération aux 3 temps
le facteur arrêt
ANOVA pour mesures répétées
→ Utilisation : Lorsque certaines données à comparer sont liées
→ Conditions : Normalité de la différence entre les groupes, indépendance
Sans effet d’interaction Avec effet d’interaction des observations au sein de chaque groupe, sphéricité de la matrice var/cov
SPSS : Analyze → General Linear Models → Repeated Measures
Avec Arrêts Avec Arrêts
LogRecup1
LogRecup1
Sans Arrêt Sans Arrêt
Homme Femme Homme Femme

Test de Mauchly : Teste la symétrie composée – Homogénéité des variances / covariances.
Sexe Sexe En cas de non-sphéricité, prendre la correction de Greenhouse-Geisser
109 110
Inférence : Test à 2 critères Modélisation : Modèle linéaire général

Ex: Tester l’effet du sexe sur le temps de récupération aux 3 temps Régression incluant simultanément des variables catégorielles
Utiliser préférentiellement les variables transformées (différences importantes…) et quantitatives comme variables explicatives
Correction de Greenhouse-Geisser Ex: Modéliser le temps de récupération selon le temps de convalescence
à considérer car non sphéricité
et le fait que les athlètes se sont arrêtés durant le marathon
Moyenne différente
selon les temps → Utilisation : Test équivalent à l’ANOVA si toutes les variables explicatives
sont catégorielles
Pas d’effet d’interaction → Conditions : Identiques aux conditions de la régression linéaire
entre le temps et le sexe
SPSS : Analyze → Generalized Linear Models → Generalized Linear Models
Pas d’effet du sexe sur le

temps de récupération
111 112
Modélisation : Modèle linéaire général
Ex: Modéliser le temps de récupération selon le temps de convalescence
et le fait que les athlètes se sont arrêtés durant le marathon
SPSS : Analyze → Generalized Linear Models → Generalized Linear Models
Test de la qualité d’approximation du modèle
logRecup1 =
− 3.03 + 1.31 logAbsence, si Marathon avec Arrêts

− 3.03 + 0.09 + 1.31 logAbsence, si Marathon sans Arrêt
Pas d’effet de la
variable Arret1
sur Recup1
113 114
115 116
Analyse d’une variable qualitative Ex :Visualiser la variable Arret1 (avec versus sans arrêts) en fonction
de la durée de convalescence (absence)
en fonction d’une variable quantitative Boxplot par catégorie
SPSS : Graphs → Chart Builder → Boxplot
1000
Dot Plot par catégorie

SPSS : Graphs → Chart Builder → Scatter/Dot
1000
118
Tableaux: Statistiques descriptives Modélisation : Régression logistique

Ex: Résumer la variable temps de convalescence (LogAbsence) par
catégorie de la variable Arret1 et par catégorie de la variable Arret2 • La régression logistique permet de modéliser une réponse Y
SPSS : Analyze → Descriptive Statistics → Explore dichotomique (0,1) en fonction de variables explicatives
ou Analyze → Reports → Case Summaries
• On modélise la probabilité que l’événement survienne P(Y=1)
119 120
Modélisation : Régression logistique Modélisation : Régression logistique
Exemples d’utilisation Pourquoi ne pas utiliser la régression linéaire ?
• Modéliser la probabilité qu’un client rembourse son prêt selon • La régression linéaire multiple et le modèle linéaire général
ses caractéristiques personnelles : salaire, âge, emploi,… permettent d’expliquer une variable quantitative continue en
fonction de variables explicatives qualitatives ou quantitatives
• Modéliser la probabilité de développer une maladie cardiaque
selon l’âge, le taux de cholestérol, le poids, le fait de fumer… Y = β 0 + β1 X 1 + β 2 X 2 + K + β p X p + ε , où ε est iN (0, σ 2 )
• Modéliser la probabilité pour une personne de posséder son • Lorsque Y est une variable catégorielle à 2 ou plusieurs
propre logement selon le revenu, l’âge, le nombre d’enfants, … niveaux, le modèle de régression classique ne peut plus
s’appliquer. La condition d’homogénéité de variance des
La régression logistique peut être utilisée pour résidus n’est pas possible à obtenir avec une variable
→ Décrire la relation entre la probabilité espérée et une variable dépendante dichotomique. Le modèle de régression linéaire
permettrait des valeurs estimées en dehors de l’intervalle [0,1]
→ Déterminer les variables indépendantes importantes pour et ne permettrait pas de relation non-linéaire.
expliquer la probabilité d’une réponse
→ Prédire la probabilité de la réponse à l’aide de ces variables
121 122

Principe de la régression logistique Modèle logistique binaire à une variable
 π 
• La variable à expliquer (Y) est une variable dichotomique dont • Equation du modèle : ln  = β 0 + β1 X + ε
 π
1 −
les valeurs possibles sont 0 (échec) et 1 (succès)
• La probabilité P(Y=1) = π, (0 ≤ π ≤ 1)  πˆ  exp(b0 + b1 X)
• Equation du modèle estimé : ln  = b0 + b1 X ou πˆ =
 1 − πˆ  1 + exp(b0 + b1 X)
• π peut dépendre de la valeur des variables explicatives (X1,
X2,…, Xp). Le modèle logistique propose d’expliquer π comme
une fonction de (X1, X2,…, Xp) • Représentation graphique du modèle ( π=P(Y=1) ) :
 πˆ 
1.0
• Comme 0 ≤ π ≤ 1, on le transforme pour qu’il prenne ses ln  = −15 + 0.5 X
 1 − πˆ 
0.8
valeurs dans [-∞, ∞]. Probabilite P(Y=1)
0.6 exp ( − 15 + 0.5 X)
ou πˆ =
• Modèle de régression logistique (logit): 1 + exp ( − 15 + 0.5 X)
0.2 0.4
 π 
 = β 0 + β1 X 1 + β 2 X 2 ... + β p X p + ε
0.0
ln
1− π 
20 25 30 35 40
Variable explicative X
123 124
Estimation des paramètres Influence des paramètres sur π=P(Y=1)
• On veut estimer β0 et β1 qui déterminent π
1.0
Influence de b0
0.8
Probabilite P(Y=1)
b0 = -5
b0 = 0
• La méthode des moindres carrés n’a pas de bonnes propriétés b0 = 5
0.6
dans ce contexte. On applique dans ce cas la méthode du
0.4
maximum de vraisemblance Influence de b1
0.2 0.0
• La fonction de vraisemblance mesure la probabilité d’observer -20 -10 0 10 20
Variable explicative X
l’échantillon récolté :
1.0
N
1.0
L(β 0 ,β1 ) = P(Y1 = y1 ∩ Y2 = y 2 ∩ ... ∩ Y N = y N |X 1 ,X 2 ,...,X N ) = ∏ π i yi ( 1 − π i )1− yi , b1 = 0.5
b1 = 1
i =1
0.8
b1 = 2
0.8
Probabilite P(Y=1)
Probabilite P(Y=1)
 π 
avec ln  i  = β 0 + β1 X i + ε i
0.6
0.6
 1 − πi 
0.4
0.4
• La méthode du maximum de vraisemblance recherche les
0.2
0.2
valeurs de β0 et β1 qui maximisent la vraisemblance
b1 = -0.5
b1 = -1
b1 = -2
0.0
0.0
-10 -5 0 5 10 -10 -5 0 5 10
Variable explicative X Variable explicative X
125 126

Ex: L’entraîneur voudrait pouvoir prédire le risque qu’un athlète s’arrête Comment juger si le modèle est bon ?
au moins une fois durant le 2ème marathon (Arret2) en fonction du → En regardant les p-valeurs
temps de convalescence (LogAbsence) • Block 0 = Modèle n’incluant que l’intercept (autres coefficients=0)
SPSS : Analyze → Regression → Binary Logistic
• Block 1 = Modèle suivant, incluant un ou plusieurs prédicteurs…
Modélisation de la probabilité de Y=1 càd d’avoir
au moins un arrêt lors du marathon 2 Tests de qualité d’ajustement :
 vraisembla nce sans les p variables 
Omnibus Tests − 2ln  ~ χ 2p
 vraisembla nce avec les p variables 
Ils testent si le modèle incluant les prédicteurs (modèle

complet, dans le « Step » ou dans le « Block ») est
significativement meilleur que le modèle n’incluant que
l’intercept
Hosmer and Lemeshow Test

Il teste s’il existe une différence significative entre les
valeurs observées et les valeurs prédites par le modèle
127 128
Comment juger si le modèle est bon ? Comment teste-t-on la significativité des paramètres ?
→ En regardant les pseudo R2 → Test de Wald
Mesures d’ajustement
Critère d’Akaike : AIC = -2 ln(L)+2*(nb de param)

Critère de Schwartz : SIC = -2 ln(L)+(nb de param)*ln(nb d’obs)
Rapport de vraisemblance: -2LL = -2*ln(max de vraisemblance)
• But: tester H0: βi = 0 contre H1: βi ≠ 0 b2

Wobs = 2 ~χ12 sous H0
i
• La statistique de Wald est définie par: s (bi )

• On rejette H0 si la p-valeur ( P(χ²1 > Wobs) ) est inférieure à un
Mesures de la taille de l’effet : Pseudo R² seuil fixé
P − valeur
Cox & Snell R² : Difficile à interpréter (max<1)
Nagelkerke R²: [0,1] = Mesure de la force d’association
W obs
129 130

Comment rapporter le modèle estimé ? Que représentent le « Odds » et le « Odds ratio » ?
→ Sous la forme d’une équation - catégorie de référence : Y=1 : → Odds (ou cotes)
Ex: Le risque pour un athlète de s’arrêter durant le 2ème marathon

(Arret2) en sachant qu’il a eu 18 mois de convalescence (Absence)
π Probabilité de s' arrêter au moins 1 fois sachant le LogAbsence

 πˆ  exp(−4.178 + 0.703 × LogAbsence) =
ln  = −4.178 + 0.703 × LogAbsence πˆ = 1− π Probabilité de ne pas s' arrêter sachant le LogAbsence
 1 − πˆ  1 + exp(−4.178 + 0.703 × LogAbsence)
exp(−4.178 + 0.703 × Log (18 * 30))

πˆ = = 0.561
1 + exp(−4.178 + 0.703 × Log (18 * 30))
→ Pour un athlète qui a eu une convalescence de 18 mois,

la probabilité qu’il s’arrête au moins une fois durant le
2ème marathon est estimée à 56%
131 132
Que représentent le « Odds » et le « Odds ratio » ? Comment se mettre dans de bonnes conditions
pour obtenir un modèle qui soit valide ?
→ Odds Ratio (ou rapport de cotes)
Ex: Le risque relatif pour un athlète avec un temps de convalescence → En repérant les outliers et points influents (via l’analyse des résidus,
de X+1 de s’arrêter durant le 2ème marathon par rapport à un standardized residuals, leverage, Cook)
athlète avec un temps de convalescence de X (LogAbsence) → En incluant toutes les variables influentes dans le modèle et
π1 Probabilité de s' arrêter au moins 1 fois sachant le temps de convalesce nce = X + 1 uniquement celles-là
(1 − π 1 ) Probabilité de ne pas s' arrêter sachant le temps de convalesce nce = X + 1
OR = = → En vérifiant que la relation entre VI et log odds de VD est linéaire
π2 Probabilité de s' arrêter au moins 1 fois sachant le temps de convalesce nce = X
(1 − π 2 ) Probabilit é de ne pas s' arrêter sachant le temps de convalesce nce = X
→ En vérifiant l’absence de multicolinéarité
OR=exp(β1)
→ En utilisant des échantillons de taille suffisante
→ En s’assurant que les conditions d’application des tests χ² sont

respectées
→ Un athlète avec un temps de convalescence d’une unité en
plus au niveau du LogAbsence a 2,019 fois plus de chance …
de s’arrêter au moins une fois durant le marathon 2
133 134
135 136
Ex : Visualiser la répartition des 3 types de vitamines selon le sexe
Analyse d’une variable qualitative en Diagramme en barres par caté
catégorie
fonction d’une variable qualitative SPSS : Graphs → Legacy Dialogs → Bar (Clustered/Stacked)
1000
1000
138
Tableaux: Statistiques descriptives Inférence : Test d’indépendance

Ex: Résumer les proportions observées de la variable Arret1 Test χ² d’indépendance de 2 variables aléatoires qualitatives
selon le type de vitamines prises Ex: Tester si le fait de prendre une vitamine donnée est lié au sexe
→ Tableau de contingence :
SPSS : Analyze → Descriptive Statistics → Crosstabs
χ² de Pearson, Test du rapport de vraisemblance…
vraisemblance…
→ Conditions : Toutes les observations doivent être indépendantes
Les valeurs attendues doivent être supérieures à 5
Si les valeurs attendues sont inférieures à 5 :
• Opérer des regroupements qui ont du sens
• Utiliser un test exact de Fisher (pas toujours disponible dans SPSS base)
SPSS : Analyze → Descriptive Statistics → Crosstabs (Statistics:Chi-Square)
P-valeur => Pas de lien entre le sexe et

du test le type de vitamines prises
139 140
Inférence : Test d’indépendance Modélisation : Régression logistique
Autres statistiques pour les tables de contingence
• La régression logistique permet de modéliser une réponse Y
Cochran Mantel Haenszel: permet de tester l’association de 2 variables
conditionnellement à une troisième dichotomique (0,1) en fonction de variables explicatives dont
certaines peuvent être qualitatives
Kendall τ-b et τ-c: mesure le degré d’association entre 2 variables ordinales
Mc Nemar : permet de tester la significativité d’un changement pour 2 • On modélise la probabilité que l’événement survienne P(Y=1)
échantillons appariés nominaux
Cochran’s Q : extension du test de McNemar pour k échantillons appariés
nominaux
SPSS : Analyze → Descriptive Statistics → Crosstabs (Statistics…)
141 142

Ex: L’entraîneur voudrait pouvoir prédire le risque qu’un athlète s’arrête Comment juger si le modèle est bon ?
au moins une fois durant le 2ème marathon (Arret2) en fonction du
temps de convalescence (LogAbsence) et de la vitamine prise → Tests de qualité d’ajustement :
SPSS : Analyze → Regression → Binary Logistic
Modélisation de la probabilité de Y=1 càd d’avoir

au moins un arrêt lors du marathon 2
→ Mesures d’ajustement et de taille de l’effet :

Façon dont la variable Vitamine est
recodée (dummy variables)
143 144
Comment teste-t-on la significativité des paramètres ? Comment rapporter le modèle estimé ?
→ Test de Wald → Sous la forme d’une équation par niveau de la variable qualitative
(Imaginons que la variable Vitamine soit gardée dans le modèle) :
→ Le temps de convalescence semble important pour → La probabilité qu’un athlète s’arrête durant le marathon 2
prédire le fait qu’un athlète s’arrête ou non durant
le 2ème marathon VitamineA : exp(−7.261+ 0.974+ 1.179× LogAbsence)
→ La vitamine prise par l’athlète ne semble pas avoir VitamineB : exp(−7.261+ 0.592+ 1.179× LogAbsence)
d’effet sur le fait que l’athlète s’arrête durant le VitamineC : exp(−7.261+ 1.179× LogAbsence)
marathon
145 146
Modélisation : Régression logistique

Comment se mettre dans de bonnes conditions
pour obtenir un modèle qui soit valide ?
Mêmes conditions qu’exposé précédemment :
→ En repérant les outliers et points influents (via l’analyse des résidus,
standardized residuals, leverage, Cook)
→ En incluant toutes les variables influentes dans le modèle et
uniquement celles-là
→ En vérifiant que la relation entre VI et log odds de VD est linéaire
→ En vérifiant l’absence de multicolinéarité
→ En utilisant des échantillons de taille suffisante
→ En s’assurant que les conditions d’application des tests χ² sont
respectées
…
147

Formation SPSS

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Formation SPSS

Transféré par

Droits d'auteur :

Formats disponibles

SUPPORT

Documentation Stat + SPSS :

Formateurs : Nathalie Lefèvre et Lorise Moreau 2

SPSS – Objectifs de la formation Résumer ce que peut offrir la statistique

Il voudrait savoir si la ré résistance des athlè

Il pense que cette étude pourra l’l’aider à amé

Des outils infé

Des outils de modé

Outils descriptifs Outils inférentiels

Quelques exemples de modélisation :

L’environnement SPSS SPSS pour

Statistical Package for Social Sciences

SPSS Le fichier de données

=> Il est important de visualiser

Découvrir les données Définir les variables

Définir le type : Donner un Indiquer la

Réaliser des analyses

Variable à analyser - Variable dépendante (VD)

Grilles d’aide à l’analyse Grilles d’aide à l’analyse

Variable à analyser - Variable dépendante (VD)

Que peut-on utiliser comme outil statistique lorsqu’on dispose de :

→ Une seule variable quantitative

→ Une seule variable qualitative

→ Plusieurs variables quantitatives

→ Une variable qualitative selon au moins une variable quantitative

1000 3000 5000 1000 3000 5000 1000 3000 5000

Box plot (rarement mauvais) :

Graphe: Histogramme Graphe: Box plot

••••••• 25% Ecart interquartile V

• Minimum (sans outliers) b

Graphe: QQplot Graphe: QQplot

Que représente ce QQplot?

Indices de tendance centrale Indices de dispersion

moyenne médiane mode

8 9 10 11 12 13 14 8 9 10 11 12 13 14 8 9 10 11 12 13 14 Écart-type (standard deviation)

LogAbsence -2,749 17 4 ,00 7

Intervalle de Confiance à 100*(1-α)% pour la moyenne:

[X − µ 0 − t n −1;1−α / 2 s / n , X − µ 0 + t n −1;1−α / 2 s / n ] Sample Test

Test Value = 5.52

95% Confidence Interval of the

,00 7 -,14039 -,2412 -,0396

Tableaux: Statistiques descriptives Inférence : Test sur une proportion

Inférence : Test sur une proportion

Dans les deux cas,

Visualisation graphique Stats descriptives et Inférence

en tenant compte du sexe ∑ (xi − x )( yi − y )

Autres possibilités: ∑ (xi − x )2 ∑ ( yi − y )2 ρ ≈1

Modélisation : Régression linéaire Modélisation : Régression linéaire

Somme des carrés Somme des carrés

Modélisation : Régression linéaire Modélisation : Régression linéaire

Modélisation : Régression linéaire Modélisation : Régression linéaire

25 • La somme des leverages = p -5

15 p=nombre de paramètres incluant l’intercept X

5 Un leverage > 2p/n sera considéré comme élevé

45 Di=3.28 Modèle avec le point influent (en rouge)

Modélisation : Régression linéaire Modélisation : Régression linéaire

peut être expliquée par le modèle

- une imprécision des paramètres estimés

Modélisation : Régression linéaire

Ex: Réaliser la même modélisation à partir des variables d’origine

en fonction d’au moins Boxplot

Tableaux: Statistiques descriptives Inférence : Test sur 2 moyennes

Tests non-paramétrique (normalité non respectée ou données ordinales)

Inférence : Test sur 2 moyennes Inférence : Test sur k moyennes