Vous êtes sur la page 1sur 37

SUPPORT

Pratique de la statistique avec SPSS Transparents ultérieurement améliorés et mis à jour sur le site du SMCS

LIENS UTILES
Site du SMCS (Support en Méthodologie et Calcul Statistique) :
http://www.stat.ucl.ac.be/SMCS/

Documentation Stat + SPSS :


http://faculty.chass.ncsu.edu/garson/PA765/statnote.htm
http://www.ats.ucla.edu/stat/spss/
http://www.stat.ucl.ac.be/SMCS/

LIVRES UTILES
Discovering Statistics Using Spss par Andy Field (Sage Publication)

Formateurs : Nathalie Lefèvre et Lorise Moreau 2


FormationDate
SMCS: du 7 au 11 septembre
: Pratique 2009
de la statistique avec SPSS

3 4
Objectifs de la formation

SPSS – Objectifs de la formation Résumer ce que peut offrir la statistique


Découvrir l’environnement SPSS
Appliquer quelques principales analyses statistiques
Apprendre à interpréter les résultats des analyses
Répondre à vos questions spécifiques

6
Formation SMCS : Pratique de la statistique avec SPSS

7 8
Contexte
Contexte : Un entraî
entraîneur souhaite mieux comprendre les faculté
facultés de
SPSS - Etude de cas résistance d’
d’athlè
athlètes reprenant les entraî
entraînements aprè
après une pé
période de
repos forcé
forcé suite à une blessure

Il voudrait savoir si la ré résistance des athlè


athlètes [mesuré
[mesurée par le temps de
récupé
cupération aprè après un marathon (temps né nécessaire pour atteindre x pulsations par minute)
et le fait que les athlèathlètes ont ou non fait des arrêts durant la course (course
avec arrêt ou sans arrêt)] peut être dé
déterminé
terminée par la duré
durée du repos,
repos, le sexe de
l’athlè
athlète et les vitamines prises durant le mois de pré préparation.

Il pense que cette étude pourra l’l’aider à amé


améliorer ses entraî
entraînements
pour être plus adapté
adaptés aux athlè
athlètes.

Remarque : Il s’
s’agit d’
d’une étude fictive

10
Formation SMCS : Pratique de la statistique avec SPSS

Données
Donné
Données:
es: Pour chaque athlè
athlète, nous avons les informations suivantes :
Colonne Nom Nom de Label Values
SPSS variable
Col1 V1 Date Date de la mesure
Col2 V2 Identifiant Identifiant de l’athlète
Col3 V3 Sexe Sexe de l’athlète 1=Homme
2=Femme
Col4 V4 Vitamine Vitamine prise par l’athlète 1=Vitamine A
2=Vitamine B
3=Vitamine C
Col5 V5 Absence Nombre de jours de repos
Col6 V6 Recup1 Nombre de seconde pour récupérer après le marathon 1
Col7 V7 Recup2 Nombre de seconde pour récupérer après le marathon 2
Col8 V8 Recup3 Nombre de seconde pour récupérer après le marathon 3
Col9 V9 Arret1 Marathon 1 réalisé avec ou sans arrêt 1=Sans arrêt
2=Avec arrêts
Col10 V10 Arret2 Marathon 2 réalisé avec ou sans arrêt 0=Sans arrêt
1=Avec arrêts
Col11 V10 Fausse_Date Date inventée

11 12
Face à une question
Quelles réponses offre la statistique?
La statistique comme outil
 Des outils descriptifs
Pour résumer les donné
données et les repré
représenter graphiquement

 Des outils infé


inférentiels
Pour ré répondre aux questions et décider à partir des donné
données

 Des outils de modé


modélisation
Pour expliquer certaines variables à partir d’
d’autres variables

14
Formation SMCS : Pratique de la statistique avec SPSS

Outils descriptifs Outils inférentiels


 Résumé numérique pour estimer des paramètres d’une distribution :  Les outils inférentiels permettent de répondre aux questions que nous
moyenne, variance, médiane, quantiles, skewness, kurtosis, corrélation… nous posons sur une population à partir d’un échantillon extrait de celle-ci
La résistance des athlètes est-elle affectée par le type de vitamines
prises durant le mois de préparation?
La résistance des athlètes est-elle liée à la durée de la période de
convalescence des athlètes?
Le sexe interfère-t-il dans les effets observés?
 Graphiques statistiques pour montrer /
analyser les structures sous-jacentes …
aux données :
diagramme en barres, histogramme,  Les notions principales liées à l’inférence statistique:
boxplot, graphe x-y, qq-plot, densité… Estimations
Intervalles de confiance
tests d’hypothèses
15 16
Outils de modélisation
 Les outils de modélisation expliquent et prédisent une ou plusieurs
variables par une fonction mathématique d’autres variables

 Quelques exemples de modélisation :


Régression simple, multiple, régression logistique, analyse de variance

17 18

19 20
SPSS

L’environnement SPSS SPSS pour

Statistical Package for Social Sciences

22
Formation SMCS : Pratique de la statistique avec SPSS

SPSS Le fichier de données


Deux feuilles diffé
différentes
Plusieurs types de fichiers
 Data : Fichier de donné
données
 Syntax : Fichier de syntaxe incluant
le code de commandes SPSS
 Output : Fichier incluant les ré
résultats
des analyses
 Script : Fichier incluant du langage
de programmation objet
 Data View :  Variable View :
=> Ces diffé
différents fichiers peuvent être Visualisation des donné
données Visualisation des variables
sauvé
sauvés et réutilisé
utilisés par la suite  permet de modifier les  permet de modifier les
donné
données caracté
caractéristiques des variables

23 24
Ouvrir un fichier de données Ouvrir un fichier de données
SPSS : File → Open → Data Cocher cette case si la
Aller à l’endroit où le
première ligne inclut le
fichier est enregistré
nom des variables

=> Il est important de visualiser


les donné
données au prépréalable
et de vévérifier que l’l’importation

Choisissez le
type de fichier

25 26

Découvrir les données Définir les variables


Vecteur d’observations Vecteur d’observations pour
pour un individu (cas) une Variable (champ)
Types de variables :
Discret
Quantitatif Continu
Nominal
Qualitatif Ordinal

Cellule

Définir le type : Donner un Indiquer la


Valeurs manquantes : Eviter les variables Indiquer le type de
Changer le label : nom signification
Variable numérique = « . » (point) « string » (chaîne de mesure : échelle,
nom des complet des de chaque
variable alphanumérique = « » (blanc) caractères) car ça ordinale, nominale
variables variables valeur
limite certaines
analyses
⇒ A vous d’
d’essayer avec les informations reç
reçues (aller voir ce qu’
qu’il est possible
de faire dans chaque menu: changer l’l’affichage des dates, dé
définir les missing…
missing…)
27 28
Découvrir les menus Découvrir les menus
intéressants ⇒ A vous de les dé
Quelques menus inté découvrir Quelques menus inté
intéressants

Obtenir de l’aide

Réaliser des analyses


différentes selon les
valeurs d’une variable
Infos générales Sélectionner certaines Obtenir un graphe
sur un fichier données
Définir des
paramètres Donner un poids sur Transformer ou ⇒ A vous de les dé
découvrir
base d’une variable créer des variables Réaliser des analyses

29 30

Ne pas se fatiguer
Sauver le code chaque fois qu’
qu’on exé
exécute quelque chose
SPSS : choisir le menu qui nous inté
intéresse → choisir les options voulues
dans la fenêtre → cliquer sur Paste au lieu de OK
- Le code correspondant est collé
collé dans une fenêtre de syntaxe
- Dans la fenêtre de syntaxe, on peut cliquer sur Run →All et le
code est exé cuté ou Run →Selection…
exécuté
- On peut sauver le fichier contenant le code et l’l’ouvir pour
l’exé
exécuter sur un autre fichier
Se servir du journal pour avoir une trace de ce qui a été fait
SPSS : Edit → Options → File Locations : choisir un endroit
accessible pour le fichier « Session Journal » spss.jn → réaliser
toutes les analyses → ouvrir ce fichier avec un éditeur de texte
→ On voit tout ce qui a été fait durant l’l’ouverture de la cession
31 32
Grilles d’aide à l’analyse
Analyses statistiques Une variable d’
d’inté
intérêt à analyser seule

Variable à analyser - Variable dépendante (VD)

Selon - Var.
Outil Variable quantitative Variable qualitative
Indépendante
Graphe • Graphique temporel • Diagrammes en barres
• Graphe en points • Diagrammes de Pareto
• Diagramme en barres (si discrète)
• Boxplot
• Histogramme (si continue)
Pas d'autres • qq-plot, pp-plot
variables
Tableau • Moyenne, mode, médiane • Médiane, mode
descriptif • Variance, écart-type • Table de fréquences
Inférence • Test t et IC sur la moyenne • Test de proportions
• Test c² et IC sur la variance • Test d’ajustement χ²
• Test de Normalité

34
Formation SMCS : Pratique de la statistique avec SPSS

Grilles d’aide à l’analyse Grilles d’aide à l’analyse


Une variable d’
d’inté
intérêt en fonction d’
d’une variable quantitative Une variable d’
d’inté
intérêt en fonction d’
d’une variable qualitative

Variable à analyser - Variable dépendante (VD)


Variable à analyser - Variable dépendante (VD)
Selon - Var.
Outil Variable quantitative Variable qualitative
Selon - Var. Indépendante
Outil Variable quantitative Variable qualitative
Indépendante Graphe • Graphe en points • Diagramme en barres
Graphe • Graphe x-y • Graphes en points • Boxplot par catégorie par catégorie
• Graphe x-y matriciel • Boxplot par catégorie Tableau • Moyenne, mode, • Tableau de contingence
Tableau • Coefficient de corrélation de Pearson, • Moyenne, mode, descriptif médiane par catégorie
En fonction descriptif Spearman ou autre médiane par catégorie • Variance, écart-type par catégorie
d'une / de • Variance, En fonction
variables d'une / de Inférence • Test t de comparaison des moyennes, • Test d’indépendance: χ²,
écart-type par catégorie tests de comparaisons multiples, test exact de Fisher
quantitative(s) variables
Inférence • Test et IC sur la corrélation qualitative(s) test de Wilcoxon • Test de McNemar
• Test F de comparaison des variances,
Modélisation • Régression linéaire simple • Régression logistique
test de Levene
et régression multiple • Analyse discriminante
Modélisation • ANOVA, • Régression logistique
ANOVA à mesures répétées, • Arbre de segmentation
GLM

35 36
1quanti
Données1qualiObjectifs
Canevas de la formation
 Les différents parties de la formation sont organisées en se basant sur
le type de variables disponibles et à analyser
quali ≥2quanti

 Que peut-on utiliser comme outil statistique lorsqu’on dispose de :

→ Une seule variable quantitative


Stat
selon

→ Une seule variable qualitative


Intro
quanti Quanti

→ Plusieurs variables quantitatives


→ Une variable quantitative selon au moins une variable qualitative
stat selon SPSS

→ Une variable qualitative selon au moins une variable quantitative


→ Plusieurs variables qualitatives
quali Quali
Analyses
≥2

37 38

39 40
Visualisation graphique
 Le choix du graphique dépend de la taille n de l’échantillon
Analyse d’une variable quantitative N=15 N=30 N=50

Histogramme
 Histogramme (pour N > 50) :

1000 3000 5000 1000 3000 5000 1000 3000 5000

 Box plot (rarement mauvais) :

Box plot
1000 3000 5000 1000 3000 5000 1000 3000 5000

Dot plot
 Dot plot (bon pour N < 15) :

••
••••

•••

••
••
••

••••

••
••


••

••
•••



••
••
1000 3000 5000 1000 3000 5000 1000 3000 5000

42
Formation SMCS : Pratique de la statistique avec SPSS

Graphe: Histogramme Graphe: Box plot


 Ex: Visualiser la forme de la distribution du temps de convalescence  Ex: Visualiser les distributions du temps de convalescence selon le sexe
SPSS : Graphs → Legacy Dialogs → Histogram SPSS : Graphs → Legacy Dialogs (→ Interactive )→ Boxplot
ou Graphs → Chart Builder → Boxplot
Nombre d’obs par classe  Que représente l’histogramme?
ou fréquence relative → On définit des classes (souvent
de mêmes longueurs) et pour
chacune on dessine un rectangle
dont la hauteur représente le
nombre d’obs. appartenant à la
classe.
→ Quand N est petit, la forme peut
beaucoup varier en fonction des
classes choisies
→ à éviter pour un N petit
→ Par prudence, prendre environ √N
comme nombre de classes.

43 44
Graphe: Boxplot Graphe: Graphique temporel
 Que représente un box-plot?  Ex: Visualiser l’évolution du temps de récupération au cours du temps
→ On ordonne les données et on les coupe en 4 groupes de 25% SPSS : Data → Sort Cases → By Date or Fausse_Data
Analyse → Time series → Sequence Charts
 Que représente le graphe temporel ?
5000

Graphe 1
•• Maximum (sans outliers) 1.5 * IQR → Une représentation de l’évolution d’une
4000


• 25% variable en fonction du temps (ex: nos
••••
75ème percentile
•••• critères de cotation peuvent se modifier
3000

••••••• 25% Ecart interquartile V


•• médiane au cours du temps)
•••• 25% (IQR) a
••
••••• r → Graphe 1: Mesure non liée à la Date
2000

••
••• 25%
25ème percentile Graphe 2
i Graphe 2: Phénomène cyclique
••• 1.5 * IQR a avec Fausse_Date
1000

• Minimum (sans outliers) b


• l → Très important à contrôler
*
0

e
Outlier (observation < 25th percentile - 1.5 IQR) → L’histogramme ne permet pas de voir
cette évolution
Temps
45 46

Graphe: QQplot Graphe: QQplot


 Ex: Vérifier si les temps de repos sont issus d’une loi Normale  Que représente plus précisément un QQplot ?
SPSS : Analyze → Descriptive Statistics → Q-Q Plots → Un QQ plot consiste à comparer les données observées aux données
qu’on devrait avoir si elles suivaient « parfaitement » une certaine
distribution, le plus souvent la distribution Normale.
→ Les valeurs observées et « idéales » (les quantiles) sont comparées
sur un graphe X-Y qui montre une tendance linéaire en cas de normalité.
 Exemple avec 4 données
1/4 1/4 1/4 1/4

Quantiles de la
distribution normale
Droite de
Henry

z1 z2 z3 z4

 Que représente ce QQplot?


→ Les données réellement observées par rapport aux données qui auraient dû être x1 x2 x3 x4
observées dans le cas d’une distribution parfaitement Normale (ou représentation
de la déviation de la distribution Normale de chacun des points observés) observations
47 48
Graphe: QQplot Tableaux: Statistiques descriptives
 Quelques exemples de vérification de la normalité par QQplot  Ex: Résumer les temps de repos selon le sexe
SPSS : Analyze → Reports → Case Summaries (décocher «Display cases»)

ou Analyze → Descriptive
Statistics → Explore

ou …
Normale Lognormale Bimodale

49 50

Indices de tendance centrale Indices de dispersion


 But : Donner une valeur centrale aux données  But : Savoir comment les données varient autour du centre

 moyenne médiane  mode


 Variance
N
1 N Valeur (classe) → s2 = 1 ∑ ( )2
X = ∑ X i = 12 Milieu=q0.5=13 45 50 55 60 65 N −1 i =1
N i=1 la plus fréquente= 14
s = s 2 = 7.92 1 N
50% of observations 50% of obs = ∑ (Xi − X)2 = 62.667
N − 1 i =1

8 9 10 11 12 13 14 8 9 10 11 12 13 14 8 9 10 11 12 13 14  Écart-type (standard deviation)


X
→ Dans les unités d’origine
s = s 2 = 7.92
- Centre de gravité des - Résistant aux outliers - Facile à comprendre
données - Moins efficace pour les - Parfois plusieurs modes
- Sensible aux outliers données « propres » 45 50 55 60 65  Erreur type (standard error)
- Efficace pour les données - Utile pour les distributions → Précision de l’estimateur de
« propres » asymétriques la moyenne
s X = s/ N

51 52
Indices de dispersion Inférence : Test sur une moyenne
 But : Savoir comment les données varient autour du centre Tester une moyenne en population normale
 Ex: Tester si la moyenne du temps de repos est différente de 250
 Étendue  Espace interquartile → Vérifier si la distribution est Normale et transformer les données si nécessaire
Étendue = max(Xi) - min(Xi) IQR = q 0.75 - q 0.25 SPSS : Analyze → Descriptive → Explore → Plots (cocher «Normality plots with tests»)
Range IQR → La distribution s’écarte
25% obs 25% 25% 25% significativement d’une
Normale
→ Utiliser une transformation

45 50 55 60 65 45 50 55 60 65
q0.25 q0.5 q0.75 SPSS : Transform → Compute Variable (essayer une transformation logarithmique)
→ Vérifier à nouveau la normalité
Box Plot
→ Distribution plus proche
d’une Normale
→ Test de KS non significatif:
45 50 55 60 65 non rejet de la normalité
(P-valeur>0.05)

53 54

Inférence : Test sur une moyenne Tester une moyenne en population normale
Tester une moyenne en population normale  Test-t (1 moyenne µ par rapport à une valeur de référence µ 0)
0 contre H1 : µ ≠µ0
 On veut tester H : µ = µ
0
 Ex: Tester si la moyenne du temps de repos est différente de 250 en  Sous condition que la variable X testée ait une distribution normale
utilisant la variable transformée [LN(250)≈5.52] ou qu’il y ait un grand nombre d’observations
X - µ0
SPSS : Analyze → Compare Means → One-Sample T test T= ~ t n −1 sous H0
s/ n X - µ0
 Statistique de test: Tobs =
s/ n
 Règle de décision: on rejette H 0 si t obs< -tn-1;1-α/2 ou si t obs> tn-1;1-α/2
(souvent α=0.05)
H0 Accepté
H1 Accepté H1 Accepté
t df Sig. (2-tailed) Mean Differe nce

LogAbsence -2,749 17 4 ,00 7


tobs
→ P-valeur=0.007 => P-valeur<0.05 => Moins de 5% de chance de se tromper en Degré de liberté = N-1 Valeur du T
rejetant l’hypothèse selon laquelle la moyenne=5.52 P-valeur=0.007 < 0.05 calculé
DONC on rejette H 0 au seuil de 5% 0
=> On rejette cette hypothèse au seuil de 5% -tn-1,1-α/2 tn-1,1-α/2
=> Nous sommes parvenu à montrer que le logarithme du temps de repos est  Conclusion: La moyenne est significativement ≠ de 5.52
significativement différent de 5.52
55 56
Tester une moyenne en population normale

 Intervalle de Confiance à 100*(1-α)% pour la moyenne:

[X − t n−1;1−α / 2 s / n , X + t n −1;1−α / 2 s / n ]
Rmq: IC ne contient pas 5.52!
ou
 Intervalle de Confiance à 100*(1-α)% pour la différence entre le moyenne
et la moyenne théorique (5.52)

[X − µ 0 − t n −1;1−α / 2 s / n , X − µ 0 + t n −1;1−α / 2 s / n ] Sample Test

Test Value = 5.52

95% Confidence Interval of the


Difference
Mean Differe nce Lower Upper

,00 7 -,14039 -,2412 -,0396


Rmq: IC ne contient pas 0!

57 58

59 60
Visualisation graphique
 Ex : Visualiser la répartition des 3 types de vitamines chez les femmes
Analyse d’une variable qualitative → Pour sélectionner les femmes : SPSS : Data → Select Cases → if ...
 Diagramme en barres
SPSS : Graphs → Legacy Dialogs → Bar (Simple)
→ Une barre par catégorie
→ Fréquence ou 1000

pourcentage

 Diagramme de Pareto
1000
SPSS : Analyze → Quality Control → Pareto Charts
→ Une barre par catégorie
→ Les barres sont ordonnées
selon leur hauteur

62
Formation SMCS : Pratique de la statistique avec SPSS

Tableaux: Statistiques descriptives Inférence : Test sur une proportion


 Ex: Résumer les proportions observées de la variable Arret1 Test binomial sur une proportion
→ Table de fréquence :  Ex: Tester si la proportion «avec arrêts» versus «sans arrêt» est la même
SPSS : Analyze → Descriptive Statistics → Frequencies
SPSS : Analyze → Non Parametric Tests → Binomial

 Pour caractériser une variable ordinale → H0: proportions identiques (πA= πB=0.5)
→ Utiliser la médiane ou le mode : H1: proportions différentes (πA≠ πB ≠ 0.5)
SPSS : Analyze → Descriptive Statistics → Frequencies (Statistics) P-valeur=0.173 => P-valeur>0.05 => On ne rejette pas H0
=> On peut considérer que le nombre d’athlètes qui arrêtent au moins une fois
durant le marathon est équivalent au nombre qui ne s’arrêtent pas
→ Ce test ne peut être appliqué que lorsque la variable d’intérêt ne peut prendre
que 2 valeurs (ex:“avec” versus “sans”)

63 64
Inférence : Test sur une proportion Inférence : Test sur une proportion
Test d’ajustement χ2 à un critère de classification Test d’ajustement χ2 à un critère de classification
 Ex: Tester si la proportion «avec arrêts» versus «sans arrêt» est la même  Soit une expérience à k résultats possibles R1,..., Rk de probabilités
inconnues p1, p2, …, pk
SPSS : Analyze → Non Parametric Tests → Chi Square
 Soient les résultats de N expériences indépendantes (X1, X2… Xk) où Xi
est le nombre d’occurrences du résultat Ri (Σ Xi =N)
 Question du test d’ajustement : On se donne des valeurs théoriques pour
les pi et se demande si les observations peuvent émaner de cette
distribution
R1 R2 R3 … Rk Résultats possibles
→ H0: proportions identiques (πA= πB=…)
H1: non H0 X1 X2 X3 … Xk Occurrences observées
P-valeur=0.151 => P-valeur>0.05 => On ne rejette pas H0
=> On peut considérer que le nombre d’athlètes qui arrêtent au moins une fois p1 p2 p3 … pk Probabilités théoriques
durant le marathon est équivalent au nombre qui ne s’arrêtent pas
→ Ce test peut être appliqué sur une variable avec plus de 2 catégories. Si le test  La statistique de test est basée sur la comparaison des probabilités
est significatif, il indique que les données se rapartissent autrement que le théoriques et des proportions observées Xi/N
hasard ou autrement que ce qui a été posé sous H0
65 66

Inférence : Test sur une proportion


Différence entre test binomial et test d’ajustement χ2
 Test binomial lié
lié à la table de fré
fréquence pour une variable
qualitative à deux niveaux
 Test d’
d’ajustement chi-
chi-carré
carré lié
lié à la table de fré
fréquence à une
variable qualitative à plusieurs niveaux

 Dans les deux cas,


cas, on peut tester l’égalit
’égalité
é des proportions entre
les niveaux de la variable ou tester des proportions déterminé
terminées

67 68
Visualisation graphique
Graphe X-Y
Analyse avec plusieurs variables  Ex: Visualiser le lien entre le temps de repos et le temps de récupération
quantitatives SPSS : Graphs → Legacy Dialogs → Interactive → Scatterplot (Fit)
Plusieurs possibilités:
– Scatter Plot
– Scatter Plot avec une droite de régression
et IC (intervalle de confiance) ou IP (intervalle de prédiction) …

70
Formation SMCS : Pratique de la statistique avec SPSS

Visualisation graphique Stats descriptives et Inférence


Graphe X-Y Coefficient de corrélation de Pearson
 Ex: Visualiser le lien entre le temps de repos et le temps de récupération N

en tenant compte du sexe ∑ (xi − x )( yi − y )


ρ= i =1
SPSS : Graphs → Legacy Dialogs → Interactive → Scatterplot (Fit) N N

Autres possibilités: ∑ (xi − x )2 ∑ ( yi − y )2 ρ ≈1

i =1 i =1
– Scatter Plot simple avec une couleur différente par groupe
– Scatter Plot + une courbe plus ou moins lissée …
0 < ρ <1

ρ ≈0
Attention !
ρ >0 ρ ≈0
x
−1 < ρ < 0
x x x x x
x xx x
x x xx
x xx x
x
ρ ≈ −1

71 72
Stats descriptives et Inférence Stats descriptives et Inférence
Coefficient de corrélation et test d’hypothèse sur le coefficient Coefficient de corrélation et test d’hypothèse sur le coefficient
 Il existe plusieurs coefficients de corré
corrélation dans SPSS :  Ex: Quantifier et tester la force du lien linéaire entre le logarithme du
 Pearson: utilisé quand on a deux variables continues
temps de repos et le logarithme du temps de récupération
 Spearman (Pearson basé sur les rangs): utile pour les SPSS : Analyze → Correlate → Bivariate
variables quantitatives non normales ou les variables
qualitatives ordinales
 Kendall tau-b (basé sur le nombre de concordances et Coefficient de corrélation de Pearson
discordances des rangs) : pour des variables ordinales P-valeur du test sur la corrélation

 Il existe un test d’
d’hypothè
hypothèse pour tester si le coefficient est
égal versus diffé
différent de 0 (= versus > 0):
H0: ρ=0 contre H1: ρ≠0 ρ≠0 :

73 74

Modélisation : Régression linéaire Modélisation : Régression linéaire


La régression linéaire simple : Y = α + β X + ε  Ex: Modéliser le lien linéraire entre le log du temps de repos et le
n log du temps de récupération : SPSS : Analyze → Regression → Linear
• Le principe est de trouver a et b minimisant : ∑ (Yi − a − bX i ) 2
i =1
C’est le critère des moindres carrés

8000

Résidu : ei=Yi-a-bXi
7000

6000

5000 Yi
4000
Y

Yi Yi=a+bXi
3000

2000

1000

0
0 4 8 12 16 20
X

75 76
Modélisation : Régression linéaire Modélisation : Régression linéaire
 Comment juger si le modèle est bon ?  Comment rapporter le modèle estimé ?
→ En regardant la p-valeur et le coefficient R2 → Sous la forme d’une équation :
p-valeur indiquant si le
modèle Y=α+βX+ε est LogRecup1 = -2.994+1.316*LogAbsence
meilleur qu’un modèle
ayant seulement une
constante Y=α+ε

Pourcentage de
variabilité de la réponse
n n expliquée par le modèle
∑ (Yˆ − Y )
i
2
∑ (Y
i =1
i − Yˆi ) 2
i =1

Somme des carrés Somme des carrés


expliquée par le modèle résiduelle Estimations des p-valeurs associées aux tests
paramètres α et β dont l’hypothèse H0 est la nullité
Pourcentage de variabilité de la réponse expliquée du paramètre
par le modèle pondérée par le nombre de variables Ecart-type
du modèle et le nombre d’observations des résidus
77 78

Modélisation : Régression linéaire Modélisation : Régression linéaire


 Comment juger si le modèle est valide ?  Ex: Analyse graphique des résidus du modèle estimant le lien
linéraire entre le log du temps de repos et le log du temps de
→ En analysant les résidus et les points influents
récupération : SPSS : Analyze → Regression → Linear (Plots - Save)
Les hypothèses suivantes doivent toujours être vérifiées
α+βX
Yi = α + βX i + ε i
16

14

12

10

8
Y

Termes d’erreur 4
Modèle linéaire
εi ~ iN(0,σ
σ²) 2

0
0.0 0.4 0.8 1.2 1.6 2.0
X
Variance ± constante Résidus Normaux Quelques points ont un
Indépendance Normalité de Homogénéité ± 95% des ri entre -2 et 2 leverage > 2*2/175=0.022
des observations la distribution des variances
(Plots: X=ZPRED Y=ZRESID) (Plots: Normal probability plot) (Save: Prédi unstand. & Leverage
Scatter/Dot: X=Prédi unstd.
Y=Leverage)

79 80
Modélisation : Régression linéaire Modélisation : Régression linéaire
 Différents types de résidus :  Recommandations pour l’analyse des résidus :
 Termes d’
d’erreurs du modè
modèle
• Représenter par un graphe X-Y les résidus (ou les résidus
ε i = Yi − α − β X i avec ε i ~ iN ( 0 , σ 2 ) standardisés) en fonction:
 Résidus observé
observés – Des Y prédits SPSS : Regression → Linear (Plots : ZPRED-ZRESID)
(
ei = Yi − Yˆi = Yi − a − b X i , ei ~ N 0 , σ 2 (1 − hii ) avec hii = leverage ) – De l’ordre de collecte des données (si cela a du sens)
SPSS : Reg. → Linear (Save : Residuals Unstand.) → Scatter/dot DATE-RES_1
 Résidus standardisé
standardisés Most ri should be in [-2,2] → Les graphiques doivent montrer un comportement aléatoire
Yi − Yˆi
ri = ≈ t (n − p − 1) = ZRESID • Faire un QQ-plot (ou PP-plot) pour vérifier la normalité des résidus
σˆ ε (1 − hi ) SPSS : Regression → Linear (Plots : Normal probability plot)
 Résidus studentisé
studentisés externes et ré
résidu « Press »
Droite sans le point i • Vérifier que les résidus standardisés sont compris dans l’intervalle
Yii − Yˆii
di = ≈ t (n − p − 2) [-2;2] et étudier ceux qui en sortent SPSS : Reg. → Linear (Plots :
σˆ ε (i )
(1 − hii ) Résidus press
ZPRED ou DEPENDNT-SRESID)
Droite avec le point i
ei • Comparer les ri aux di et étudier ceux qui sont très différents
Résidus standardisés calculés en enlevant le point i du modèle
81 82

Modélisation : Régression linéaire Modélisation : Régression linéaire


 Points influents et outliers :  Leverage ou « force de levier » :
Si l’ensemble de données disponibles contient des observations • Un point éloigné du « nuage » de points dans la direction des X peut
« spéciales », il est primordial de les repérer pour qu’elles potentiellement influencer l’équation de régression. Le leverage hii
n’influencent pas à elles seules les résultats de la régression mesure le degré de singularité d’un point dans l’espace des X
65

55 hii=0.1
65 45 hii=0.56
35
55

Y
25
45
3 points sont “différents” 15

35 5
des autres hii=0.26
Y

25 • La somme des leverages = p -5


0 1 2 3 4

15 p=nombre de paramètres incluant l’intercept X

5 Un leverage > 2p/n sera considéré comme élevé


-5 ex: hii provenant d’un modèle construit avec 5 paramètres et sur un
0 1 2 3 4
X
échantillon de 50 individus. Calculez le leverage maximal
• Les leverages sont les éléments de la « hat matrix » : H = X( X' X) −1 X'
83 84
Modélisation : Régression linéaire Modélisation : Régression linéaire
 Influence et statistique de Cook : La régression linéaire multiple :
• Un point qui a un grand leverage et qui n’est pas aligné avec les autres
points observés peut à lui seul influencer la droite de régression  Modèle linéaire multiple à 2 variables explicatives :
Y = β 0 + β1 X 1 + β 2 X 2 + ε , où ε est iN (0, σ 2 )
65

Di=0.24
• Objectif: estimer β0 , β1, β2
55

45 Di=3.28 Modèle avec le point influent (en rouge)


35
Modèle sans le point influent (en vert) • Équation du modèle estimé:
Y

25

15
Yˆ = b0 + b1 X 1 + b2 X 2
5 Di=0.58
-5
0 1 2 3 4 • L’estimation est faite par les
X
moindres carrés. Il s’agit de ei
minimiser la somme des carrés (X1i, X2i,Yi)
• La statistique de Cook Di résume comment les réponses prédites sont
modifiées quand le point est enlevé du modèle (Di >1 : influence anormale)
des écarts des points au plan:
n n
ˆ −Y ˆ −Y
ˆ )' (Y ˆ )
(Y ei2 hii
∑e = ∑ (Yi − b0 − b1 X i1 − b2 X i 2 ) 2
2
Di = = ≈ F ( p + 1, n − p − 1) min
(i ) (i )
i
( p + 1) s 2 ( p + 1) s (1 − hii ) 2
2
i =1 i =1
85 86

Modélisation : Régression linéaire Modélisation : Régression linéaire


 Différents modèles linéaires multiples : Un modèle de régression  Ex: Modéliser le temps de récupération (LogRecup1) en fonction
est dit linéaire si son équation est linéaire par rapport aux paramètres du temps de repos (LogAbsence) et de la température du jour –
Plane in R3 Polynomial model
Exercice nécessitant l’ouverture d’un nouveau fichier (Data_SPSS_2):
SPSS : Analyze → Regression → Linear
77,6% de variabilité de la réponse
Y

peut être expliquée par le modèle

X
Modèle globalement + utile qu’un
Y = β 0 + β1 X 1 + β 2 X 2 + ε Y = β 0 + β1 X 1 + β 2 X 12 + β 3 X 13 + ε modèle avec juste un intercept
Model with qualitative variable
Model avec interaction
Effets du nombre de jours
d’absence et de la température
du jour sur le temps de récup
Y

LogRecup1 = -2.999 +
MALE 1.251*LogAbsence +
FEMALE
X
0.019*Température
Y = β0 + β1 X1 + β2 X 2 + β3 X1 X 2 + ε Y = β 0 + β1 X 1 + β 2 S + ε
87 88
Modélisation : Régression linéaire Modélisation : Régression linéaire
 Comment juger si le modèle est valide ?  Comment détecter les problèmes de multicolinéarité ?
→ En analysant les résidus de la même manière que pour la régression → En vérifiant le facteur d’inflation de la variance (VIF) : ok si 1 ≤ VIF ≤10
simple On peut aussi utiliser la tolérance qui est définie par: 1 / VIF
→ En vérifiant l’influence des points sur la régression (Leverage / SPSS : Analyze → Regression → Linear (Statistics – Colinearity diagnostics)
Cook)
→ En regardant les valeurs propres de la matrice de corrélation des
→ En s’assurant qu’il n’y a pas de problème de « multicolinéarité » paramètres
entre les variables explicatives (VI). On parle de multicolinéarité
lorsque les variables explicatives évoluent ensembles. La → En constatant l’Instabilité du modèle quand une variable est enlevée
multicolinéarité peut entraîner: ou ajoutée au précédent modèle

- une imprécision des paramètres estimés


- une instabilité des paramètres quand une donnée change

89 90

Modélisation : Régression linéaire


 Notre modèle de régression multiple est-il valide?
SPSS : Analyze → Regression → Linear (Plots - Statistics - Save)

(Plots: X=ZPRED Y=ZRESID) (Plots: Normal probability plot) (Save: Prédi unstand. & Leverage
Scatter/Dot: X=Prédi unstd.
Y=Leverage)

 Ex: Réaliser la même modélisation à partir des variables d’origine


(Recup1 – Absence et Température). Faire les mêmes analyses
de résidus et comparer les résultats des deux analyses
91 92
Visualisation graphique
Analyse d’une variable quantitative  Ex : Visualiser la durée de repos (absence) en tenant compte du sexe

en fonction d’au moins Boxplot


une variable qualitative SPSS : Graphs → Chart Builder → Boxplot

1000

Scatter/Dot
SPSS : Graphs → Chart Builder → Scatter/Dot
1000

94
Formation SMCS : Pratique de la statistique avec SPSS

Tableaux: Statistiques descriptives Inférence : Test sur 2 moyennes


 Ex: Résumer la variable temps de repos (Absence) en fonction du sexe Tests de comparaison de 2 moyennes indépendantes
SPSS : Analyze → Descriptive Statistics → Explore  Ex: Tester si le log du temps de Recup1 diffère en moyenne selon le sexe
ou Analyze → Reports → Case Summaries
 Test-t pour 2 échantillons indépendants
→ Utilisation : Lorsque les données à comparer sont indépendantes
→ Conditions : Normalité des distributions, égalité des variances et
indépendance des observations (transformations possibles pour la normalité)
SPSS : Analyze → Compare Means → Independent-Samples T Test

 Tests non-paramétrique (normalité non respectée ou données ordinales)


→ Utilisation : Quand les données ne se distribuent pas normalement dans
au moins un des groupes ou qu’il s’agit de données ordinales
→ Tests : Test de Mann-Whitney (≈Wilcoxon Rank-Sum), test de la médiane
SPSS : Analyze → Nonparametric Tests → 2 Independent Samples (Mann-Whitney)
SPSS : Analyze → Nonparametric Tests → k Independent Samples (Median)
95 96
Inférence : Test sur 2 moyennes Inférence : Test sur 2 moyennes
 Ex: Tester si le log du temps de Recup1 diffère en moyenne selon le sexe Tests de comparaison de 2 moyennes pairées
→ Test pour échantillons indépendants → Tester la Normalité  Ex: Comparer la moyenne du temps de récupération 1 et 2
SPSS : Analyze → Descriptive Statistics → Explore (Plot-Normality Plots…)  Test-t pairé
→ Utilisation : Quand les données à comparer sont liées (ex: avant-après…)
→ Conditions : Normalité de la différence entre les 2 groupes et
indépendance des observations au sein de chaque groupe. En cas de
Non-Normalité, il est possible de transformer les données (ex: log, 1/x,…)
→ Condition de Normalité respectée → Test paramétrique SPSS : Analyze → Compare Means → Paired Samples T Test
SPSS : Analyze → Compare Means → Independent-Samples T Test
 Tests pairés non-paramétriques (condition de normalité non respectée)
→ Utilisation : Quand les données à comparer sont liées (ex: avant-après,
pots avec 2 plantes…) et que la différence entre les groupes ne se
distribue pas normalement.

Test de Levene : Teste l’égalité P-valeur du test : Indique que Recup1 → Différents tests : Test du signe ou test de Wilcoxon (signed-Rank)
des variances entre les 2 groupes. ne diffère pas selon le sexe
Détermine la ligne à lire. SPSS : Analyze → Nonparametric Tests → 2 Related Samples (Wilcoxon, Sign)
97 98

Inférence : Test sur 2 moyennes Inférence : Test sur k moyennes


 Ex: Comparer la moyenne du temps de récupération 1 et 2 Tests de comparaison de k moyennes indépendantes
→ Test pairé → Tester la Normalité de la différence entre les 2 groupes  Ex: Tester si la moyenne du log de Recup1 diffère selon la vitamine prise
SPSS : Transform → Compute Variable (DifRecup=Recup1-Recup2)  ANOVA pour k échantillons indépendants
Analyze → Descriptive Statistics → Explore (Plot-Normality Plots With Tests)
→ Utilisation : Lorsque les données à comparer sont indépendantes
→ Conditions : Normalité des distributions, égalité des variances et
indépendance des observations (transformations possibles pour la normalité)
SPSS : Analyze → Compare Means → One-Way ANOVA

→ Condition de Normalité non respectée → Test Non-paramétrique  Test non-paramétrique (normalité non respectée ou données ordinales)
SPSS : Analyze → Nonparametric Tests → 2 Related Samples (Wilcoxon, Sign)
P-valeur
→ Utilisation : Quand les données ne se distribuent pas normalement dans au
du test moins un des groupes, qu’il s’agit de données ordinales, ou peu de données
→ Tests : Test de Kruskal-Wallis, test de la médiane
SPSS : Analyze → Nonparametric Tests → k Independent Samples (Kruskal Wallis)
→ Dans le cas d’une distribution très asymétrique → Test du Signe (Sign)
99 100
Inférence : Test sur k moyennes Inférence : Test sur k moyennes
 Ex: Tester si la moyenne du log de Recup1 diffère selon la vitamine prise  Ex: Tester si la moyenne du log de Recup1 diffère selon la vitamine prise
→ Test pour échantillons indépendants → Tester la Normalité → Test pour échantillons indépendants
SPSS : Analyze → Descriptive Statistics → Explore (Plot-Normality Plots…) → Imaginons la Condition de Normalité respectée → Test paramétrique
SPSS : Analyze → Compare Means → One-Way ANOVA
P-valeur du test de Levene : Indique que
les variances des groupes ne peuvent
être considérées homogènes

→ Condition de Normalité non respectée → Test non paramétrique


Test en cas d’égalité des variances Test en cas d’inégalité des variances
SPSS : Analyze → Nonparametric Tests → k Independent Samples (Kruskal Wallis)

P-valeur du test : Indique que


LogRecup1 diffère selon la
vitamine
=> Le temps de récupération
est différent pour au
moins une des vitamines P-valeur du test : Indique que LogRecup1
diffère selon la vitamine
Pour obtenir la correction de Welch : SPSS : Analyze → Compare Means → One-Way ANOVA (Options)
101 102

Inférence : Test sur k moyennes Inférence : Test sur k moyennes


Comparaisons multiples post-hoc Tests de comparaison de k moyennes pairées
 Ex: Voir quelles vitamines diffèrent si analyse globale significative  Ex: Comparer la moyenne du temps de récupération 1, 2 et 3
 ANOVA pour k échantillons indépendants → Tests : Bonferroni, Tuckey,  ANOVA pour mesures répétées
Scheffé, … SPSS : Analyze → Compare Means → One-Way ANOVA (Post Hoc)
→ Utilisation : Lorsque les données à comparer sont liées (ex: temps 1, 2, 3)
P-valeur indiquant que toutes les → Conditions : Normalité de la différence entre les groupes, indépendance
vitamines diffèrent au niveau de des observations au sein de chaque groupe, sphéricité de la matrice var/cov
la moyenne du LogRecup1
SPSS : Analyze → General Linear Models → Repeated Measures

 Tests non-paramétriques (condition de normalité non respectée)


→ Utilisation : Quand les données à comparer sont liées (ex: temps 1, 2, 3…),
que la différence entre les groupes ne se distribue pas normalement ou que
 Test non paramétrique (Kruskal-Wallis) → Test : Pas de comparaisons l’échantillon est petit
multiples dans SPSS. Comparer les moyennes 2 à 2 en adaptant la p-valeur.
Principe de Bonferroni : P-valeur adaptée=0.05/Nombre de comparaisons → Différents tests : Test de Friedman, Kendall W, Cochran Q
SPSS : Analyze → Nonparametric Tests → k Related Samples (Friedman)
103 104
Inférence : Test sur k moyennes Inférence : Test sur k moyennes
Comparaisons multiples post-hoc  Ex: Comparer la moyenne du temps de récupération 1, 2 et 3
 Ex: Voir quelles mesures (temps) diffèrent si analyse globale significative → ANOVA pour mesures répétées (si normalité respectée)

 ANOVA pour mesures répétées → Tests : Bonferroni, Sidak SPSS : Analyze → General Linear Models → Repeated Measures
SPSS : Analyze → General Linear Models → Repeated Measures (Options) Test de Mauchly : Teste la symétrie
composée – Homogénéité des
variances / covariances. En cas de
P-valeur indiquant que les trois non-sphéricité, prendre la correction
mesures de temps de de Greenhouse-Geisser
récupération (LogRecup1 2 3)
diffèrent en moyenne

P-valeur du test : Indique


 Test non paramétrique (Friedman) → Test : Pas de comparaisons multiples qu’au moins une des
dans SPSS. Comparer les moyennes 2 à 2 en adaptant la p-valeur mesures aux différents
Principe de Bonferroni: P-valeur adaptée=0.05/Nombre de comparaisons temps a une moyenne
différente des 2 autres

105 106

Inférence : Test sur k moyennes Inférence : Test à 2 critères


 Ex: Comparer la moyenne du temps de récupération 1, 2 et 3 Tests de comparaison de moyennes selon 2 critères
→ Test pour mesures répétées (si non normalité ou peu de données)  Ex: Tester la moyenne LogRecup1 selon les variables sexe et Arrêt1
SPSS : Analyze → Nonparametric Tests → k Related Samples (Friedman)  ANOVA à 2 critères
→ Utilisation : Lorsque les données à comparer sont indépendantes
→ Conditions : Normalité des distributions, égalité des variances et
P-valeur indépendance des observations (transformations possibles pour la normalité)
du test
SPSS : Analyze → General Linear Models → Univariate
Levene's Test of Equality of Error Variancesa
F df1 df2 Sig.
Modèle non
1,679 3 171 ,173
significatif
Tests the null hypothesis that the error variance of
the dependent variable is equal across groups.
a. Design: Intercept + Sexe + Arret1 + Sexe * Arret1

P-valeur du test de Levene: Indique Effets principaux


l’égalité des variances des résidus et interaction
entre les groupes. Condition non significatifs
nécessaire pour la validité du test

107 108
Inférence : Test à 2 critères Inférence : Test à 2 critères
• Il y a un effet d’interaction entre les facteurs sexe et arrêt Tests de comparaison de moyennes selon 2 critères - 1 répété
si l’effet du facteur sexe sur la réponse dépend du niveau pris par  Ex: Tester l’effet du sexe sur le temps de récupération aux 3 temps
le facteur arrêt
 ANOVA pour mesures répétées
→ Utilisation : Lorsque certaines données à comparer sont liées
→ Conditions : Normalité de la différence entre les groupes, indépendance
Sans effet d’interaction Avec effet d’interaction des observations au sein de chaque groupe, sphéricité de la matrice var/cov
SPSS : Analyze → General Linear Models → Repeated Measures
Avec Arrêts Avec Arrêts
LogRecup1

LogRecup1
Sans Arrêt Sans Arrêt

Homme Femme Homme Femme


Test de Mauchly : Teste la symétrie composée – Homogénéité des variances / covariances.
Sexe Sexe En cas de non-sphéricité, prendre la correction de Greenhouse-Geisser

109 110

Inférence : Test à 2 critères Modélisation : Modèle linéaire général


 Ex: Tester l’effet du sexe sur le temps de récupération aux 3 temps Régression incluant simultanément des variables catégorielles
Utiliser préférentiellement les variables transformées (différences importantes…) et quantitatives comme variables explicatives
Correction de Greenhouse-Geisser  Ex: Modéliser le temps de récupération selon le temps de convalescence
à considérer car non sphéricité
et le fait que les athlètes se sont arrêtés durant le marathon
Moyenne différente
selon les temps → Utilisation : Test équivalent à l’ANOVA si toutes les variables explicatives
sont catégorielles
Pas d’effet d’interaction → Conditions : Identiques aux conditions de la régression linéaire
entre le temps et le sexe
SPSS : Analyze → Generalized Linear Models → Generalized Linear Models

Pas d’effet du sexe sur le


temps de récupération

111 112
Modélisation : Modèle linéaire général
 Ex: Modéliser le temps de récupération selon le temps de convalescence
et le fait que les athlètes se sont arrêtés durant le marathon
SPSS : Analyze → Generalized Linear Models → Generalized Linear Models

Test de la qualité d’approximation du modèle

logRecup1 =
− 3.03 + 1.31 logAbsence, si Marathon avec Arrêts

− 3.03 + 0.09 + 1.31 logAbsence, si Marathon sans Arrêt

Pas d’effet de la
variable Arret1
sur Recup1

113 114

115 116
Visualisation graphique
Analyse d’une variable qualitative  Ex :Visualiser la variable Arret1 (avec versus sans arrêts) en fonction
de la durée de convalescence (absence)
en fonction d’une variable quantitative Boxplot par catégorie
SPSS : Graphs → Chart Builder → Boxplot

1000

Dot Plot par catégorie


SPSS : Graphs → Chart Builder → Scatter/Dot
1000

118
Formation SMCS : Pratique de la statistique avec SPSS

Tableaux: Statistiques descriptives Modélisation : Régression logistique


 Ex: Résumer la variable temps de convalescence (LogAbsence) par
catégorie de la variable Arret1 et par catégorie de la variable Arret2 • La régression logistique permet de modéliser une réponse Y
SPSS : Analyze → Descriptive Statistics → Explore dichotomique (0,1) en fonction de variables explicatives
ou Analyze → Reports → Case Summaries
• On modélise la probabilité que l’événement survienne P(Y=1)

119 120
Modélisation : Régression logistique Modélisation : Régression logistique
 Exemples d’utilisation  Pourquoi ne pas utiliser la régression linéaire ?
• Modéliser la probabilité qu’un client rembourse son prêt selon • La régression linéaire multiple et le modèle linéaire général
ses caractéristiques personnelles : salaire, âge, emploi,… permettent d’expliquer une variable quantitative continue en
fonction de variables explicatives qualitatives ou quantitatives
• Modéliser la probabilité de développer une maladie cardiaque
selon l’âge, le taux de cholestérol, le poids, le fait de fumer… Y = β 0 + β1 X 1 + β 2 X 2 + K + β p X p + ε , où ε est iN (0, σ 2 )

• Modéliser la probabilité pour une personne de posséder son • Lorsque Y est une variable catégorielle à 2 ou plusieurs
propre logement selon le revenu, l’âge, le nombre d’enfants, … niveaux, le modèle de régression classique ne peut plus
s’appliquer. La condition d’homogénéité de variance des
 La régression logistique peut être utilisée pour résidus n’est pas possible à obtenir avec une variable
→ Décrire la relation entre la probabilité espérée et une variable dépendante dichotomique. Le modèle de régression linéaire
permettrait des valeurs estimées en dehors de l’intervalle [0,1]
→ Déterminer les variables indépendantes importantes pour et ne permettrait pas de relation non-linéaire.
expliquer la probabilité d’une réponse
→ Prédire la probabilité de la réponse à l’aide de ces variables
121 122

Modélisation : Régression logistique Modélisation : Régression logistique


 Principe de la régression logistique  Modèle logistique binaire à une variable
 π 
• La variable à expliquer (Y) est une variable dichotomique dont • Equation du modèle : ln  = β 0 + β1 X + ε
 π
1 −
les valeurs possibles sont 0 (échec) et 1 (succès)
• La probabilité P(Y=1) = π, (0 ≤ π ≤ 1)  πˆ  exp(b0 + b1 X)
• Equation du modèle estimé : ln  = b0 + b1 X ou πˆ =
 1 − πˆ  1 + exp(b0 + b1 X)
• π peut dépendre de la valeur des variables explicatives (X1,
X2,…, Xp). Le modèle logistique propose d’expliquer π comme
une fonction de (X1, X2,…, Xp) • Représentation graphique du modèle ( π=P(Y=1) ) :
 πˆ 

1.0
• Comme 0 ≤ π ≤ 1, on le transforme pour qu’il prenne ses ln  = −15 + 0.5 X
 1 − πˆ 
0.8
valeurs dans [-∞, ∞]. Probabilite P(Y=1)
0.6 exp ( − 15 + 0.5 X)
ou πˆ =
• Modèle de régression logistique (logit): 1 + exp ( − 15 + 0.5 X)
0.2 0.4

 π 
 = β 0 + β1 X 1 + β 2 X 2 ... + β p X p + ε
0.0

ln
1− π 
20 25 30 35 40
Variable explicative X

123 124
Modélisation : Régression logistique Modélisation : Régression logistique
 Estimation des paramètres  Influence des paramètres sur π=P(Y=1)
• On veut estimer β0 et β1 qui déterminent π

1.0
Influence de b0

0.8
Probabilite P(Y=1)
b0 = -5
b0 = 0

• La méthode des moindres carrés n’a pas de bonnes propriétés b0 = 5

0.6
dans ce contexte. On applique dans ce cas la méthode du

0.4
maximum de vraisemblance Influence de b1

0.2 0.0
• La fonction de vraisemblance mesure la probabilité d’observer -20 -10 0 10 20
Variable explicative X
l’échantillon récolté :

1.0
N

1.0
L(β 0 ,β1 ) = P(Y1 = y1 ∩ Y2 = y 2 ∩ ... ∩ Y N = y N |X 1 ,X 2 ,...,X N ) = ∏ π i yi ( 1 − π i )1− yi , b1 = 0.5
b1 = 1
i =1

0.8
b1 = 2

0.8

Probabilite P(Y=1)
Probabilite P(Y=1)
 π 
avec ln  i  = β 0 + β1 X i + ε i

0.6
0.6
 1 − πi 

0.4
0.4
• La méthode du maximum de vraisemblance recherche les

0.2
0.2
valeurs de β0 et β1 qui maximisent la vraisemblance
b1 = -0.5
b1 = -1
b1 = -2

0.0

0.0
-10 -5 0 5 10 -10 -5 0 5 10
Variable explicative X Variable explicative X

125 126

Modélisation : Régression logistique Modélisation : Régression logistique


 Ex: L’entraîneur voudrait pouvoir prédire le risque qu’un athlète s’arrête  Comment juger si le modèle est bon ?
au moins une fois durant le 2ème marathon (Arret2) en fonction du → En regardant les p-valeurs
temps de convalescence (LogAbsence) • Block 0 = Modèle n’incluant que l’intercept (autres coefficients=0)
SPSS : Analyze → Regression → Binary Logistic
• Block 1 = Modèle suivant, incluant un ou plusieurs prédicteurs…
Modélisation de la probabilité de Y=1 càd d’avoir
au moins un arrêt lors du marathon 2 Tests de qualité d’ajustement :
 vraisembla nce sans les p variables 
Omnibus Tests − 2ln  ~ χ 2p
 vraisembla nce avec les p variables 

Ils testent si le modèle incluant les prédicteurs (modèle


complet, dans le « Step » ou dans le « Block ») est
significativement meilleur que le modèle n’incluant que
l’intercept

Hosmer and Lemeshow Test


Il teste s’il existe une différence significative entre les
valeurs observées et les valeurs prédites par le modèle

127 128
Modélisation : Régression logistique Modélisation : Régression logistique
 Comment juger si le modèle est bon ?  Comment teste-t-on la significativité des paramètres ?
→ En regardant les pseudo R2 → Test de Wald

Mesures d’ajustement

Critère d’Akaike : AIC = -2 ln(L)+2*(nb de param)


Critère de Schwartz : SIC = -2 ln(L)+(nb de param)*ln(nb d’obs)
Rapport de vraisemblance: -2LL = -2*ln(max de vraisemblance)

• But: tester H0: βi = 0 contre H1: βi ≠ 0 b2


Wobs = 2 ~χ12 sous H0
i

• La statistique de Wald est définie par: s (bi )


• On rejette H0 si la p-valeur ( P(χ²1 > Wobs) ) est inférieure à un
Mesures de la taille de l’effet : Pseudo R² seuil fixé
P − valeur
Cox & Snell R² : Difficile à interpréter (max<1)
Nagelkerke R²: [0,1] = Mesure de la force d’association
W obs

129 130

Modélisation : Régression logistique Modélisation : Régression logistique


 Comment rapporter le modèle estimé ?  Que représentent le « Odds » et le « Odds ratio » ?
→ Sous la forme d’une équation - catégorie de référence : Y=1 : → Odds (ou cotes)

 Ex: Le risque pour un athlète de s’arrêter durant le 2ème marathon


(Arret2) en sachant qu’il a eu 18 mois de convalescence (Absence)

π Probabilité de s' arrêter au moins 1 fois sachant le LogAbsence


 πˆ  exp(−4.178 + 0.703 × LogAbsence) =
ln  = −4.178 + 0.703 × LogAbsence πˆ = 1− π Probabilité de ne pas s' arrêter sachant le LogAbsence
 1 − πˆ  1 + exp(−4.178 + 0.703 × LogAbsence)

exp(−4.178 + 0.703 × Log (18 * 30))


πˆ = = 0.561
1 + exp(−4.178 + 0.703 × Log (18 * 30))

→ Pour un athlète qui a eu une convalescence de 18 mois,


la probabilité qu’il s’arrête au moins une fois durant le
2ème marathon est estimée à 56%

131 132
Modélisation : Régression logistique Modélisation : Régression logistique
 Que représentent le « Odds » et le « Odds ratio » ?  Comment se mettre dans de bonnes conditions
pour obtenir un modèle qui soit valide ?
→ Odds Ratio (ou rapport de cotes)
 Ex: Le risque relatif pour un athlète avec un temps de convalescence → En repérant les outliers et points influents (via l’analyse des résidus,
de X+1 de s’arrêter durant le 2ème marathon par rapport à un standardized residuals, leverage, Cook)
athlète avec un temps de convalescence de X (LogAbsence) → En incluant toutes les variables influentes dans le modèle et
π1 Probabilité de s' arrêter au moins 1 fois sachant le temps de convalesce nce = X + 1 uniquement celles-là
(1 − π 1 ) Probabilité de ne pas s' arrêter sachant le temps de convalesce nce = X + 1
OR = = → En vérifiant que la relation entre VI et log odds de VD est linéaire
π2 Probabilité de s' arrêter au moins 1 fois sachant le temps de convalesce nce = X
(1 − π 2 ) Probabilit é de ne pas s' arrêter sachant le temps de convalesce nce = X
→ En vérifiant l’absence de multicolinéarité
OR=exp(β1)
→ En utilisant des échantillons de taille suffisante

→ En s’assurant que les conditions d’application des tests χ² sont


respectées
→ Un athlète avec un temps de convalescence d’une unité en
plus au niveau du LogAbsence a 2,019 fois plus de chance …
de s’arrêter au moins une fois durant le marathon 2
133 134

135 136
Visualisation graphique
 Ex : Visualiser la répartition des 3 types de vitamines selon le sexe
Analyse d’une variable qualitative en Diagramme en barres par caté
catégorie
fonction d’une variable qualitative SPSS : Graphs → Legacy Dialogs → Bar (Clustered/Stacked)

1000

1000

138
Formation SMCS : Pratique de la statistique avec SPSS

Tableaux: Statistiques descriptives Inférence : Test d’indépendance


 Ex: Résumer les proportions observées de la variable Arret1 Test χ² d’indépendance de 2 variables aléatoires qualitatives
selon le type de vitamines prises  Ex: Tester si le fait de prendre une vitamine donnée est lié au sexe
→ Tableau de contingence :
SPSS : Analyze → Descriptive Statistics → Crosstabs
 χ² de Pearson, Test du rapport de vraisemblance…
vraisemblance…
→ Conditions : Toutes les observations doivent être indépendantes
Les valeurs attendues doivent être supérieures à 5
Si les valeurs attendues sont inférieures à 5 :
• Opérer des regroupements qui ont du sens
• Utiliser un test exact de Fisher (pas toujours disponible dans SPSS base)
SPSS : Analyze → Descriptive Statistics → Crosstabs (Statistics:Chi-Square)

P-valeur => Pas de lien entre le sexe et


du test le type de vitamines prises

139 140
Inférence : Test d’indépendance Modélisation : Régression logistique
Autres statistiques pour les tables de contingence
• La régression logistique permet de modéliser une réponse Y
 Cochran Mantel Haenszel: permet de tester l’association de 2 variables
conditionnellement à une troisième dichotomique (0,1) en fonction de variables explicatives dont
certaines peuvent être qualitatives
 Kendall τ-b et τ-c: mesure le degré d’association entre 2 variables ordinales
 Mc Nemar : permet de tester la significativité d’un changement pour 2 • On modélise la probabilité que l’événement survienne P(Y=1)
échantillons appariés nominaux
 Cochran’s Q : extension du test de McNemar pour k échantillons appariés
nominaux
SPSS : Analyze → Descriptive Statistics → Crosstabs (Statistics…)

141 142

Modélisation : Régression logistique Modélisation : Régression logistique


 Ex: L’entraîneur voudrait pouvoir prédire le risque qu’un athlète s’arrête  Comment juger si le modèle est bon ?
au moins une fois durant le 2ème marathon (Arret2) en fonction du
temps de convalescence (LogAbsence) et de la vitamine prise → Tests de qualité d’ajustement :
SPSS : Analyze → Regression → Binary Logistic

Modélisation de la probabilité de Y=1 càd d’avoir


au moins un arrêt lors du marathon 2

→ Mesures d’ajustement et de taille de l’effet :


Façon dont la variable Vitamine est
recodée (dummy variables)

143 144
Modélisation : Régression logistique Modélisation : Régression logistique
 Comment teste-t-on la significativité des paramètres ?  Comment rapporter le modèle estimé ?
→ Test de Wald → Sous la forme d’une équation par niveau de la variable qualitative
(Imaginons que la variable Vitamine soit gardée dans le modèle) :

→ Le temps de convalescence semble important pour → La probabilité qu’un athlète s’arrête durant le marathon 2
prédire le fait qu’un athlète s’arrête ou non durant
le 2ème marathon VitamineA : exp(−7.261+ 0.974+ 1.179× LogAbsence)
→ La vitamine prise par l’athlète ne semble pas avoir VitamineB : exp(−7.261+ 0.592+ 1.179× LogAbsence)
d’effet sur le fait que l’athlète s’arrête durant le VitamineC : exp(−7.261+ 1.179× LogAbsence)
marathon
145 146

Modélisation : Régression logistique


 Comment se mettre dans de bonnes conditions
pour obtenir un modèle qui soit valide ?
Mêmes conditions qu’exposé précédemment :
→ En repérant les outliers et points influents (via l’analyse des résidus,
standardized residuals, leverage, Cook)
→ En incluant toutes les variables influentes dans le modèle et
uniquement celles-là
→ En vérifiant que la relation entre VI et log odds de VD est linéaire
→ En vérifiant l’absence de multicolinéarité
→ En utilisant des échantillons de taille suffisante
→ En s’assurant que les conditions d’application des tests χ² sont
respectées

147

Vous aimerez peut-être aussi