Académique Documents
Professionnel Documents
Culture Documents
Formation SPSS
Formation SPSS
Pratique de la statistique avec SPSS Transparents ultérieurement améliorés et mis à jour sur le site du SMCS
LIENS UTILES
Site du SMCS (Support en Méthodologie et Calcul Statistique) :
http://www.stat.ucl.ac.be/SMCS/
LIVRES UTILES
Discovering Statistics Using Spss par Andy Field (Sage Publication)
…
3 4
Objectifs de la formation
6
Formation SMCS : Pratique de la statistique avec SPSS
7 8
Contexte
Contexte : Un entraî
entraîneur souhaite mieux comprendre les faculté
facultés de
SPSS - Etude de cas résistance d’
d’athlè
athlètes reprenant les entraî
entraînements aprè
après une pé
période de
repos forcé
forcé suite à une blessure
Remarque : Il s’
s’agit d’
d’une étude fictive
10
Formation SMCS : Pratique de la statistique avec SPSS
Données
Donné
Données:
es: Pour chaque athlè
athlète, nous avons les informations suivantes :
Colonne Nom Nom de Label Values
SPSS variable
Col1 V1 Date Date de la mesure
Col2 V2 Identifiant Identifiant de l’athlète
Col3 V3 Sexe Sexe de l’athlète 1=Homme
2=Femme
Col4 V4 Vitamine Vitamine prise par l’athlète 1=Vitamine A
2=Vitamine B
3=Vitamine C
Col5 V5 Absence Nombre de jours de repos
Col6 V6 Recup1 Nombre de seconde pour récupérer après le marathon 1
Col7 V7 Recup2 Nombre de seconde pour récupérer après le marathon 2
Col8 V8 Recup3 Nombre de seconde pour récupérer après le marathon 3
Col9 V9 Arret1 Marathon 1 réalisé avec ou sans arrêt 1=Sans arrêt
2=Avec arrêts
Col10 V10 Arret2 Marathon 2 réalisé avec ou sans arrêt 0=Sans arrêt
1=Avec arrêts
Col11 V10 Fausse_Date Date inventée
11 12
Face à une question
Quelles réponses offre la statistique?
La statistique comme outil
Des outils descriptifs
Pour résumer les donné
données et les repré
représenter graphiquement
14
Formation SMCS : Pratique de la statistique avec SPSS
17 18
19 20
SPSS
22
Formation SMCS : Pratique de la statistique avec SPSS
23 24
Ouvrir un fichier de données Ouvrir un fichier de données
SPSS : File → Open → Data Cocher cette case si la
Aller à l’endroit où le
première ligne inclut le
fichier est enregistré
nom des variables
Choisissez le
type de fichier
25 26
Cellule
Obtenir de l’aide
29 30
Ne pas se fatiguer
Sauver le code chaque fois qu’
qu’on exé
exécute quelque chose
SPSS : choisir le menu qui nous inté
intéresse → choisir les options voulues
dans la fenêtre → cliquer sur Paste au lieu de OK
- Le code correspondant est collé
collé dans une fenêtre de syntaxe
- Dans la fenêtre de syntaxe, on peut cliquer sur Run →All et le
code est exé cuté ou Run →Selection…
exécuté
- On peut sauver le fichier contenant le code et l’l’ouvir pour
l’exé
exécuter sur un autre fichier
Se servir du journal pour avoir une trace de ce qui a été fait
SPSS : Edit → Options → File Locations : choisir un endroit
accessible pour le fichier « Session Journal » spss.jn → réaliser
toutes les analyses → ouvrir ce fichier avec un éditeur de texte
→ On voit tout ce qui a été fait durant l’l’ouverture de la cession
31 32
Grilles d’aide à l’analyse
Analyses statistiques Une variable d’
d’inté
intérêt à analyser seule
Selon - Var.
Outil Variable quantitative Variable qualitative
Indépendante
Graphe • Graphique temporel • Diagrammes en barres
• Graphe en points • Diagrammes de Pareto
• Diagramme en barres (si discrète)
• Boxplot
• Histogramme (si continue)
Pas d'autres • qq-plot, pp-plot
variables
Tableau • Moyenne, mode, médiane • Médiane, mode
descriptif • Variance, écart-type • Table de fréquences
Inférence • Test t et IC sur la moyenne • Test de proportions
• Test c² et IC sur la variance • Test d’ajustement χ²
• Test de Normalité
34
Formation SMCS : Pratique de la statistique avec SPSS
35 36
1quanti
Données1qualiObjectifs
Canevas de la formation
Les différents parties de la formation sont organisées en se basant sur
le type de variables disponibles et à analyser
quali ≥2quanti
37 38
39 40
Visualisation graphique
Le choix du graphique dépend de la taille n de l’échantillon
Analyse d’une variable quantitative N=15 N=30 N=50
Histogramme
Histogramme (pour N > 50) :
Box plot
1000 3000 5000 1000 3000 5000 1000 3000 5000
Dot plot
Dot plot (bon pour N < 15) :
••
••••
•••
•
••
••
••
••••
•
••
••
•
••
••
•••
•
•
••
••
1000 3000 5000 1000 3000 5000 1000 3000 5000
42
Formation SMCS : Pratique de la statistique avec SPSS
43 44
Graphe: Boxplot Graphe: Graphique temporel
Que représente un box-plot? Ex: Visualiser l’évolution du temps de récupération au cours du temps
→ On ordonne les données et on les coupe en 4 groupes de 25% SPSS : Data → Sort Cases → By Date or Fausse_Data
Analyse → Time series → Sequence Charts
Que représente le graphe temporel ?
5000
Graphe 1
•• Maximum (sans outliers) 1.5 * IQR → Une représentation de l’évolution d’une
4000
•
• 25% variable en fonction du temps (ex: nos
••••
75ème percentile
•••• critères de cotation peuvent se modifier
3000
••
••• 25%
25ème percentile Graphe 2
i Graphe 2: Phénomène cyclique
••• 1.5 * IQR a avec Fausse_Date
1000
e
Outlier (observation < 25th percentile - 1.5 IQR) → L’histogramme ne permet pas de voir
cette évolution
Temps
45 46
Quantiles de la
distribution normale
Droite de
Henry
z1 z2 z3 z4
ou Analyze → Descriptive
Statistics → Explore
ou …
Normale Lognormale Bimodale
49 50
51 52
Indices de dispersion Inférence : Test sur une moyenne
But : Savoir comment les données varient autour du centre Tester une moyenne en population normale
Ex: Tester si la moyenne du temps de repos est différente de 250
Étendue Espace interquartile → Vérifier si la distribution est Normale et transformer les données si nécessaire
Étendue = max(Xi) - min(Xi) IQR = q 0.75 - q 0.25 SPSS : Analyze → Descriptive → Explore → Plots (cocher «Normality plots with tests»)
Range IQR → La distribution s’écarte
25% obs 25% 25% 25% significativement d’une
Normale
→ Utiliser une transformation
45 50 55 60 65 45 50 55 60 65
q0.25 q0.5 q0.75 SPSS : Transform → Compute Variable (essayer une transformation logarithmique)
→ Vérifier à nouveau la normalité
Box Plot
→ Distribution plus proche
d’une Normale
→ Test de KS non significatif:
45 50 55 60 65 non rejet de la normalité
(P-valeur>0.05)
53 54
Inférence : Test sur une moyenne Tester une moyenne en population normale
Tester une moyenne en population normale Test-t (1 moyenne µ par rapport à une valeur de référence µ 0)
0 contre H1 : µ ≠µ0
On veut tester H : µ = µ
0
Ex: Tester si la moyenne du temps de repos est différente de 250 en Sous condition que la variable X testée ait une distribution normale
utilisant la variable transformée [LN(250)≈5.52] ou qu’il y ait un grand nombre d’observations
X - µ0
SPSS : Analyze → Compare Means → One-Sample T test T= ~ t n −1 sous H0
s/ n X - µ0
Statistique de test: Tobs =
s/ n
Règle de décision: on rejette H 0 si t obs< -tn-1;1-α/2 ou si t obs> tn-1;1-α/2
(souvent α=0.05)
H0 Accepté
H1 Accepté H1 Accepté
t df Sig. (2-tailed) Mean Differe nce
[X − t n−1;1−α / 2 s / n , X + t n −1;1−α / 2 s / n ]
Rmq: IC ne contient pas 5.52!
ou
Intervalle de Confiance à 100*(1-α)% pour la différence entre le moyenne
et la moyenne théorique (5.52)
57 58
59 60
Visualisation graphique
Ex : Visualiser la répartition des 3 types de vitamines chez les femmes
Analyse d’une variable qualitative → Pour sélectionner les femmes : SPSS : Data → Select Cases → if ...
Diagramme en barres
SPSS : Graphs → Legacy Dialogs → Bar (Simple)
→ Une barre par catégorie
→ Fréquence ou 1000
pourcentage
Diagramme de Pareto
1000
SPSS : Analyze → Quality Control → Pareto Charts
→ Une barre par catégorie
→ Les barres sont ordonnées
selon leur hauteur
62
Formation SMCS : Pratique de la statistique avec SPSS
Pour caractériser une variable ordinale → H0: proportions identiques (πA= πB=0.5)
→ Utiliser la médiane ou le mode : H1: proportions différentes (πA≠ πB ≠ 0.5)
SPSS : Analyze → Descriptive Statistics → Frequencies (Statistics) P-valeur=0.173 => P-valeur>0.05 => On ne rejette pas H0
=> On peut considérer que le nombre d’athlètes qui arrêtent au moins une fois
durant le marathon est équivalent au nombre qui ne s’arrêtent pas
→ Ce test ne peut être appliqué que lorsque la variable d’intérêt ne peut prendre
que 2 valeurs (ex:“avec” versus “sans”)
63 64
Inférence : Test sur une proportion Inférence : Test sur une proportion
Test d’ajustement χ2 à un critère de classification Test d’ajustement χ2 à un critère de classification
Ex: Tester si la proportion «avec arrêts» versus «sans arrêt» est la même Soit une expérience à k résultats possibles R1,..., Rk de probabilités
inconnues p1, p2, …, pk
SPSS : Analyze → Non Parametric Tests → Chi Square
Soient les résultats de N expériences indépendantes (X1, X2… Xk) où Xi
est le nombre d’occurrences du résultat Ri (Σ Xi =N)
Question du test d’ajustement : On se donne des valeurs théoriques pour
les pi et se demande si les observations peuvent émaner de cette
distribution
R1 R2 R3 … Rk Résultats possibles
→ H0: proportions identiques (πA= πB=…)
H1: non H0 X1 X2 X3 … Xk Occurrences observées
P-valeur=0.151 => P-valeur>0.05 => On ne rejette pas H0
=> On peut considérer que le nombre d’athlètes qui arrêtent au moins une fois p1 p2 p3 … pk Probabilités théoriques
durant le marathon est équivalent au nombre qui ne s’arrêtent pas
→ Ce test peut être appliqué sur une variable avec plus de 2 catégories. Si le test La statistique de test est basée sur la comparaison des probabilités
est significatif, il indique que les données se rapartissent autrement que le théoriques et des proportions observées Xi/N
hasard ou autrement que ce qui a été posé sous H0
65 66
67 68
Visualisation graphique
Graphe X-Y
Analyse avec plusieurs variables Ex: Visualiser le lien entre le temps de repos et le temps de récupération
quantitatives SPSS : Graphs → Legacy Dialogs → Interactive → Scatterplot (Fit)
Plusieurs possibilités:
– Scatter Plot
– Scatter Plot avec une droite de régression
et IC (intervalle de confiance) ou IP (intervalle de prédiction) …
70
Formation SMCS : Pratique de la statistique avec SPSS
i =1 i =1
– Scatter Plot simple avec une couleur différente par groupe
– Scatter Plot + une courbe plus ou moins lissée …
0 < ρ <1
ρ ≈0
Attention !
ρ >0 ρ ≈0
x
−1 < ρ < 0
x x x x x
x xx x
x x xx
x xx x
x
ρ ≈ −1
71 72
Stats descriptives et Inférence Stats descriptives et Inférence
Coefficient de corrélation et test d’hypothèse sur le coefficient Coefficient de corrélation et test d’hypothèse sur le coefficient
Il existe plusieurs coefficients de corré
corrélation dans SPSS : Ex: Quantifier et tester la force du lien linéaire entre le logarithme du
Pearson: utilisé quand on a deux variables continues
temps de repos et le logarithme du temps de récupération
Spearman (Pearson basé sur les rangs): utile pour les SPSS : Analyze → Correlate → Bivariate
variables quantitatives non normales ou les variables
qualitatives ordinales
Kendall tau-b (basé sur le nombre de concordances et Coefficient de corrélation de Pearson
discordances des rangs) : pour des variables ordinales P-valeur du test sur la corrélation
Il existe un test d’
d’hypothè
hypothèse pour tester si le coefficient est
égal versus diffé
différent de 0 (= versus > 0):
H0: ρ=0 contre H1: ρ≠0 ρ≠0 :
73 74
8000
Résidu : ei=Yi-a-bXi
7000
6000
5000 Yi
4000
Y
Yi Yi=a+bXi
3000
2000
1000
0
0 4 8 12 16 20
X
75 76
Modélisation : Régression linéaire Modélisation : Régression linéaire
Comment juger si le modèle est bon ? Comment rapporter le modèle estimé ?
→ En regardant la p-valeur et le coefficient R2 → Sous la forme d’une équation :
p-valeur indiquant si le
modèle Y=α+βX+ε est LogRecup1 = -2.994+1.316*LogAbsence
meilleur qu’un modèle
ayant seulement une
constante Y=α+ε
Pourcentage de
variabilité de la réponse
n n expliquée par le modèle
∑ (Yˆ − Y )
i
2
∑ (Y
i =1
i − Yˆi ) 2
i =1
14
12
10
8
Y
Termes d’erreur 4
Modèle linéaire
εi ~ iN(0,σ
σ²) 2
0
0.0 0.4 0.8 1.2 1.6 2.0
X
Variance ± constante Résidus Normaux Quelques points ont un
Indépendance Normalité de Homogénéité ± 95% des ri entre -2 et 2 leverage > 2*2/175=0.022
des observations la distribution des variances
(Plots: X=ZPRED Y=ZRESID) (Plots: Normal probability plot) (Save: Prédi unstand. & Leverage
Scatter/Dot: X=Prédi unstd.
Y=Leverage)
79 80
Modélisation : Régression linéaire Modélisation : Régression linéaire
Différents types de résidus : Recommandations pour l’analyse des résidus :
Termes d’
d’erreurs du modè
modèle
• Représenter par un graphe X-Y les résidus (ou les résidus
ε i = Yi − α − β X i avec ε i ~ iN ( 0 , σ 2 ) standardisés) en fonction:
Résidus observé
observés – Des Y prédits SPSS : Regression → Linear (Plots : ZPRED-ZRESID)
(
ei = Yi − Yˆi = Yi − a − b X i , ei ~ N 0 , σ 2 (1 − hii ) avec hii = leverage ) – De l’ordre de collecte des données (si cela a du sens)
SPSS : Reg. → Linear (Save : Residuals Unstand.) → Scatter/dot DATE-RES_1
Résidus standardisé
standardisés Most ri should be in [-2,2] → Les graphiques doivent montrer un comportement aléatoire
Yi − Yˆi
ri = ≈ t (n − p − 1) = ZRESID • Faire un QQ-plot (ou PP-plot) pour vérifier la normalité des résidus
σˆ ε (1 − hi ) SPSS : Regression → Linear (Plots : Normal probability plot)
Résidus studentisé
studentisés externes et ré
résidu « Press »
Droite sans le point i • Vérifier que les résidus standardisés sont compris dans l’intervalle
Yii − Yˆii
di = ≈ t (n − p − 2) [-2;2] et étudier ceux qui en sortent SPSS : Reg. → Linear (Plots :
σˆ ε (i )
(1 − hii ) Résidus press
ZPRED ou DEPENDNT-SRESID)
Droite avec le point i
ei • Comparer les ri aux di et étudier ceux qui sont très différents
Résidus standardisés calculés en enlevant le point i du modèle
81 82
55 hii=0.1
65 45 hii=0.56
35
55
Y
25
45
3 points sont “différents” 15
35 5
des autres hii=0.26
Y
Di=0.24
• Objectif: estimer β0 , β1, β2
55
25
15
Yˆ = b0 + b1 X 1 + b2 X 2
5 Di=0.58
-5
0 1 2 3 4 • L’estimation est faite par les
X
moindres carrés. Il s’agit de ei
minimiser la somme des carrés (X1i, X2i,Yi)
• La statistique de Cook Di résume comment les réponses prédites sont
modifiées quand le point est enlevé du modèle (Di >1 : influence anormale)
des écarts des points au plan:
n n
ˆ −Y ˆ −Y
ˆ )' (Y ˆ )
(Y ei2 hii
∑e = ∑ (Yi − b0 − b1 X i1 − b2 X i 2 ) 2
2
Di = = ≈ F ( p + 1, n − p − 1) min
(i ) (i )
i
( p + 1) s 2 ( p + 1) s (1 − hii ) 2
2
i =1 i =1
85 86
X
Modèle globalement + utile qu’un
Y = β 0 + β1 X 1 + β 2 X 2 + ε Y = β 0 + β1 X 1 + β 2 X 12 + β 3 X 13 + ε modèle avec juste un intercept
Model with qualitative variable
Model avec interaction
Effets du nombre de jours
d’absence et de la température
du jour sur le temps de récup
Y
LogRecup1 = -2.999 +
MALE 1.251*LogAbsence +
FEMALE
X
0.019*Température
Y = β0 + β1 X1 + β2 X 2 + β3 X1 X 2 + ε Y = β 0 + β1 X 1 + β 2 S + ε
87 88
Modélisation : Régression linéaire Modélisation : Régression linéaire
Comment juger si le modèle est valide ? Comment détecter les problèmes de multicolinéarité ?
→ En analysant les résidus de la même manière que pour la régression → En vérifiant le facteur d’inflation de la variance (VIF) : ok si 1 ≤ VIF ≤10
simple On peut aussi utiliser la tolérance qui est définie par: 1 / VIF
→ En vérifiant l’influence des points sur la régression (Leverage / SPSS : Analyze → Regression → Linear (Statistics – Colinearity diagnostics)
Cook)
→ En regardant les valeurs propres de la matrice de corrélation des
→ En s’assurant qu’il n’y a pas de problème de « multicolinéarité » paramètres
entre les variables explicatives (VI). On parle de multicolinéarité
lorsque les variables explicatives évoluent ensembles. La → En constatant l’Instabilité du modèle quand une variable est enlevée
multicolinéarité peut entraîner: ou ajoutée au précédent modèle
89 90
(Plots: X=ZPRED Y=ZRESID) (Plots: Normal probability plot) (Save: Prédi unstand. & Leverage
Scatter/Dot: X=Prédi unstd.
Y=Leverage)
1000
Scatter/Dot
SPSS : Graphs → Chart Builder → Scatter/Dot
1000
94
Formation SMCS : Pratique de la statistique avec SPSS
Test de Levene : Teste l’égalité P-valeur du test : Indique que Recup1 → Différents tests : Test du signe ou test de Wilcoxon (signed-Rank)
des variances entre les 2 groupes. ne diffère pas selon le sexe
Détermine la ligne à lire. SPSS : Analyze → Nonparametric Tests → 2 Related Samples (Wilcoxon, Sign)
97 98
→ Condition de Normalité non respectée → Test Non-paramétrique Test non-paramétrique (normalité non respectée ou données ordinales)
SPSS : Analyze → Nonparametric Tests → 2 Related Samples (Wilcoxon, Sign)
P-valeur
→ Utilisation : Quand les données ne se distribuent pas normalement dans au
du test moins un des groupes, qu’il s’agit de données ordinales, ou peu de données
→ Tests : Test de Kruskal-Wallis, test de la médiane
SPSS : Analyze → Nonparametric Tests → k Independent Samples (Kruskal Wallis)
→ Dans le cas d’une distribution très asymétrique → Test du Signe (Sign)
99 100
Inférence : Test sur k moyennes Inférence : Test sur k moyennes
Ex: Tester si la moyenne du log de Recup1 diffère selon la vitamine prise Ex: Tester si la moyenne du log de Recup1 diffère selon la vitamine prise
→ Test pour échantillons indépendants → Tester la Normalité → Test pour échantillons indépendants
SPSS : Analyze → Descriptive Statistics → Explore (Plot-Normality Plots…) → Imaginons la Condition de Normalité respectée → Test paramétrique
SPSS : Analyze → Compare Means → One-Way ANOVA
P-valeur du test de Levene : Indique que
les variances des groupes ne peuvent
être considérées homogènes
ANOVA pour mesures répétées → Tests : Bonferroni, Sidak SPSS : Analyze → General Linear Models → Repeated Measures
SPSS : Analyze → General Linear Models → Repeated Measures (Options) Test de Mauchly : Teste la symétrie
composée – Homogénéité des
variances / covariances. En cas de
P-valeur indiquant que les trois non-sphéricité, prendre la correction
mesures de temps de de Greenhouse-Geisser
récupération (LogRecup1 2 3)
diffèrent en moyenne
105 106
107 108
Inférence : Test à 2 critères Inférence : Test à 2 critères
• Il y a un effet d’interaction entre les facteurs sexe et arrêt Tests de comparaison de moyennes selon 2 critères - 1 répété
si l’effet du facteur sexe sur la réponse dépend du niveau pris par Ex: Tester l’effet du sexe sur le temps de récupération aux 3 temps
le facteur arrêt
ANOVA pour mesures répétées
→ Utilisation : Lorsque certaines données à comparer sont liées
→ Conditions : Normalité de la différence entre les groupes, indépendance
Sans effet d’interaction Avec effet d’interaction des observations au sein de chaque groupe, sphéricité de la matrice var/cov
SPSS : Analyze → General Linear Models → Repeated Measures
Avec Arrêts Avec Arrêts
LogRecup1
LogRecup1
Sans Arrêt Sans Arrêt
109 110
111 112
Modélisation : Modèle linéaire général
Ex: Modéliser le temps de récupération selon le temps de convalescence
et le fait que les athlètes se sont arrêtés durant le marathon
SPSS : Analyze → Generalized Linear Models → Generalized Linear Models
logRecup1 =
− 3.03 + 1.31 logAbsence, si Marathon avec Arrêts
− 3.03 + 0.09 + 1.31 logAbsence, si Marathon sans Arrêt
Pas d’effet de la
variable Arret1
sur Recup1
113 114
115 116
Visualisation graphique
Analyse d’une variable qualitative Ex :Visualiser la variable Arret1 (avec versus sans arrêts) en fonction
de la durée de convalescence (absence)
en fonction d’une variable quantitative Boxplot par catégorie
SPSS : Graphs → Chart Builder → Boxplot
1000
118
Formation SMCS : Pratique de la statistique avec SPSS
119 120
Modélisation : Régression logistique Modélisation : Régression logistique
Exemples d’utilisation Pourquoi ne pas utiliser la régression linéaire ?
• Modéliser la probabilité qu’un client rembourse son prêt selon • La régression linéaire multiple et le modèle linéaire général
ses caractéristiques personnelles : salaire, âge, emploi,… permettent d’expliquer une variable quantitative continue en
fonction de variables explicatives qualitatives ou quantitatives
• Modéliser la probabilité de développer une maladie cardiaque
selon l’âge, le taux de cholestérol, le poids, le fait de fumer… Y = β 0 + β1 X 1 + β 2 X 2 + K + β p X p + ε , où ε est iN (0, σ 2 )
• Modéliser la probabilité pour une personne de posséder son • Lorsque Y est une variable catégorielle à 2 ou plusieurs
propre logement selon le revenu, l’âge, le nombre d’enfants, … niveaux, le modèle de régression classique ne peut plus
s’appliquer. La condition d’homogénéité de variance des
La régression logistique peut être utilisée pour résidus n’est pas possible à obtenir avec une variable
→ Décrire la relation entre la probabilité espérée et une variable dépendante dichotomique. Le modèle de régression linéaire
permettrait des valeurs estimées en dehors de l’intervalle [0,1]
→ Déterminer les variables indépendantes importantes pour et ne permettrait pas de relation non-linéaire.
expliquer la probabilité d’une réponse
→ Prédire la probabilité de la réponse à l’aide de ces variables
121 122
1.0
• Comme 0 ≤ π ≤ 1, on le transforme pour qu’il prenne ses ln = −15 + 0.5 X
1 − πˆ
0.8
valeurs dans [-∞, ∞]. Probabilite P(Y=1)
0.6 exp ( − 15 + 0.5 X)
ou πˆ =
• Modèle de régression logistique (logit): 1 + exp ( − 15 + 0.5 X)
0.2 0.4
π
= β 0 + β1 X 1 + β 2 X 2 ... + β p X p + ε
0.0
ln
1− π
20 25 30 35 40
Variable explicative X
123 124
Modélisation : Régression logistique Modélisation : Régression logistique
Estimation des paramètres Influence des paramètres sur π=P(Y=1)
• On veut estimer β0 et β1 qui déterminent π
1.0
Influence de b0
0.8
Probabilite P(Y=1)
b0 = -5
b0 = 0
0.6
dans ce contexte. On applique dans ce cas la méthode du
0.4
maximum de vraisemblance Influence de b1
0.2 0.0
• La fonction de vraisemblance mesure la probabilité d’observer -20 -10 0 10 20
Variable explicative X
l’échantillon récolté :
1.0
N
1.0
L(β 0 ,β1 ) = P(Y1 = y1 ∩ Y2 = y 2 ∩ ... ∩ Y N = y N |X 1 ,X 2 ,...,X N ) = ∏ π i yi ( 1 − π i )1− yi , b1 = 0.5
b1 = 1
i =1
0.8
b1 = 2
0.8
Probabilite P(Y=1)
Probabilite P(Y=1)
π
avec ln i = β 0 + β1 X i + ε i
0.6
0.6
1 − πi
0.4
0.4
• La méthode du maximum de vraisemblance recherche les
0.2
0.2
valeurs de β0 et β1 qui maximisent la vraisemblance
b1 = -0.5
b1 = -1
b1 = -2
0.0
0.0
-10 -5 0 5 10 -10 -5 0 5 10
Variable explicative X Variable explicative X
125 126
127 128
Modélisation : Régression logistique Modélisation : Régression logistique
Comment juger si le modèle est bon ? Comment teste-t-on la significativité des paramètres ?
→ En regardant les pseudo R2 → Test de Wald
Mesures d’ajustement
129 130
131 132
Modélisation : Régression logistique Modélisation : Régression logistique
Que représentent le « Odds » et le « Odds ratio » ? Comment se mettre dans de bonnes conditions
pour obtenir un modèle qui soit valide ?
→ Odds Ratio (ou rapport de cotes)
Ex: Le risque relatif pour un athlète avec un temps de convalescence → En repérant les outliers et points influents (via l’analyse des résidus,
de X+1 de s’arrêter durant le 2ème marathon par rapport à un standardized residuals, leverage, Cook)
athlète avec un temps de convalescence de X (LogAbsence) → En incluant toutes les variables influentes dans le modèle et
π1 Probabilité de s' arrêter au moins 1 fois sachant le temps de convalesce nce = X + 1 uniquement celles-là
(1 − π 1 ) Probabilité de ne pas s' arrêter sachant le temps de convalesce nce = X + 1
OR = = → En vérifiant que la relation entre VI et log odds de VD est linéaire
π2 Probabilité de s' arrêter au moins 1 fois sachant le temps de convalesce nce = X
(1 − π 2 ) Probabilit é de ne pas s' arrêter sachant le temps de convalesce nce = X
→ En vérifiant l’absence de multicolinéarité
OR=exp(β1)
→ En utilisant des échantillons de taille suffisante
135 136
Visualisation graphique
Ex : Visualiser la répartition des 3 types de vitamines selon le sexe
Analyse d’une variable qualitative en Diagramme en barres par caté
catégorie
fonction d’une variable qualitative SPSS : Graphs → Legacy Dialogs → Bar (Clustered/Stacked)
1000
1000
138
Formation SMCS : Pratique de la statistique avec SPSS
139 140
Inférence : Test d’indépendance Modélisation : Régression logistique
Autres statistiques pour les tables de contingence
• La régression logistique permet de modéliser une réponse Y
Cochran Mantel Haenszel: permet de tester l’association de 2 variables
conditionnellement à une troisième dichotomique (0,1) en fonction de variables explicatives dont
certaines peuvent être qualitatives
Kendall τ-b et τ-c: mesure le degré d’association entre 2 variables ordinales
Mc Nemar : permet de tester la significativité d’un changement pour 2 • On modélise la probabilité que l’événement survienne P(Y=1)
échantillons appariés nominaux
Cochran’s Q : extension du test de McNemar pour k échantillons appariés
nominaux
SPSS : Analyze → Descriptive Statistics → Crosstabs (Statistics…)
141 142
143 144
Modélisation : Régression logistique Modélisation : Régression logistique
Comment teste-t-on la significativité des paramètres ? Comment rapporter le modèle estimé ?
→ Test de Wald → Sous la forme d’une équation par niveau de la variable qualitative
(Imaginons que la variable Vitamine soit gardée dans le modèle) :
→ Le temps de convalescence semble important pour → La probabilité qu’un athlète s’arrête durant le marathon 2
prédire le fait qu’un athlète s’arrête ou non durant
le 2ème marathon VitamineA : exp(−7.261+ 0.974+ 1.179× LogAbsence)
→ La vitamine prise par l’athlète ne semble pas avoir VitamineB : exp(−7.261+ 0.592+ 1.179× LogAbsence)
d’effet sur le fait que l’athlète s’arrête durant le VitamineC : exp(−7.261+ 1.179× LogAbsence)
marathon
145 146