Académique Documents
Professionnel Documents
Culture Documents
DEUXIEME PARTIE
Attention, il y a beaucoup de notions dans ce cours.
1) l’ANOVA
Problème : comparer les moyennes de plus de deux groupes
• Exemple : comparer les moyennes des groupes A, B et C
• Comme dit précédemment (cf partie sur le khi2), on ne peut pas répéter les
comparaisons en faisant le test de Student sur toutes les combinaisons de groupes
En effet, si on fait les 3 tests de Student A contre B, A contre C et B contre C,
on obtient des p-values trop basses (car le risque α change).
La fonction p.adjust permet de pallier à ce problème
Néanmoins, il existe une solution plus élégante et plus puissante : l’ANOVA
1) l’ANOVA
Principe de l’ANOVA : explication graphique
Moyenne générale :
ഥ
𝑿
Variance générale, ou
Variance totale
Calculée comme d’habitude :
𝑆𝐶𝐸𝑇
=
σ²
𝑁−1
SCET est la somme des
carrés des écarts totale,
et on a ddlT = N-1
(N est l’effectif total)
𝐶 𝑛𝑓
2
ഥ
𝐒𝐂𝐄𝐓 = 𝑥𝑓,𝑖 − 𝑿
Facteur discret (4 niveaux)
𝑓=𝐴 𝑖=1
VII. LES ANOVA 5
1) l’ANOVA
Moyenne de
Principe de l’ANOVA : explication graphique chaque échantillon :
𝒙𝑹𝑨 , 𝒙𝑹𝑩 , 𝒙𝑹𝑪 , 𝒙𝑹𝑫
Les flèches correspondent
aux carrés des écarts
On peut calculer la variance
dans chaque échantillon :
Variable mesurée (x)
𝑆𝐶𝐸 𝑆𝐶𝐸𝑅𝐵
2
𝜎𝑅𝐴 = 𝑛 𝑅𝐴−1
𝑅𝐴
, 𝜎 2
𝑅𝐵 = 𝑛 −1
,𝑅𝐵
𝑆𝐶𝐸𝑅𝐶 𝑆𝐶𝐸𝑅𝐷
2
𝜎𝑅𝐶 =
𝑛𝑅𝐶 −1
, 2
𝜎𝑅𝐷 =
𝑛𝑅𝐷 −1
1) l’ANOVA
Principe de l’ANOVA : explication graphique
Moyenne de
Les flèches correspondent chaque échantillon :
𝒙𝑹𝑨 , 𝒙𝑹𝑩 , 𝒙𝑹𝑪 , 𝒙𝑹𝑫
aux carrés des écarts
Moyenne générale :
Variable mesurée (x)
ഥ
𝑿
On peut finalement calculer
une variance entre les
moyennes des échantillons et
la moyenne générale : c’est la
variance liée au facteur.
1) l’ANOVA
Avec ce qui précède, on peut démontrer deux théorèmes
1. Les SCE et les ddl sont additifs
Explication « visuelle » :
pour aller d’un point à la
moyenne globale, on peut :
soit y aller directement,
soit aller du point à la
Variable mesurée (x)
1) l’ANOVA
Avec ce qui précède, on peut démontrer deux théorèmes
1. Les SCE et les ddl sont additifs
• SCET = SCEF + SCER
• ddlT = ddlF + ddlR
VII. LES ANOVA 9
1) l’ANOVA
Additivité des SCE et des ddl
• L’ANOVA consiste donc à analyser la variance (ANalysis Of VAriance), c’est à dire à
décrire les relations entre les sources de dispersion : qu’est-ce qui est dû au
facteur, au hasard (cette dernière source étant appelée résidu) ?
1) l’ANOVA
Additivité des SCE et des ddl
• L’ANOVA consiste donc à analyser la variance (ANalysis Of VAriance), c’est à dire à
décrire les relations entre les sources de dispersion : qu’est-ce qui est dû au
facteur, au hasard (cette dernière source étant appelée résidu) ?
Démonstration (facultatif):
𝐹 𝑛𝑓 𝐹 𝑛𝑓
2 2
𝑦𝑓,𝑖 − 𝑦LJ = 𝑦𝑓,𝑖 − 𝑦LJ𝑓 + 𝑦LJ𝑓 − 𝑦LJ
𝑓=1 𝑖=1 𝑓=1 𝑖=1
𝐹 𝑛𝑓 𝐹 𝑛𝑓 𝐹 𝑛𝑓
2 2
= 𝑦𝑓,𝑖 − 𝑦LJ𝑓 + 𝑦LJ𝑓 − 𝑦LJ + 2 𝑦𝑓,𝑖 − 𝑦LJ𝑓 𝑦LJ𝑓 − 𝑦LJ
𝑓=1 𝑖=1 𝑓=1 𝑖=1 𝑓=1 𝑖=1
2 =0
σ𝐹 LJ
𝑓=1 𝑛𝑓 𝑦LJ𝑓 −𝑦
VII. LES ANOVA 11
1) l’ANOVA
Avec ce qui précède, on peut démontrer deux théorèmes
1. Les SCE et les ddl sont additifs
• SCET = SCEF + SCER
• ddlT = ddlF + ddlR
1) l’ANOVA
La table d’ANOVA (question typique d’examen)
SCE ddl CM
F p-value
(SS dans R) (df dans R) (MS dans R)
ddlF = 𝑆𝐶𝐸𝐹ൗ 𝐶𝑀𝐹
Facteur SCEF
niveau - 1 𝑑𝑑𝑙𝐹 = 𝐶𝑀𝐹 𝐹=
𝐶𝑀𝑅
p
ddlR = 𝑆𝐶𝐸𝑅ൗ
Résidu SCER
N - niveau 𝑑𝑑𝑙𝑅 = 𝐶𝑀𝑅
SCET = ddlT =
N–1= 𝑆𝐶𝐸𝑇ൗ
Total SCEF 𝑑𝑑𝑙 𝑇 = 𝐶𝑀𝑇
+ SCER ddlF + ddlR
• Les variances sont appelées « carré moyen » (mean square) dans une ANOVA, ce
qui n’est pas très correct mais traditionnel …
VII. LES ANOVA 13
1) L’ANOVA
Fiche de synthèse
• On a plusieurs échantillons dont on souhaite comparer les moyennes
Basé sur une décomposition de la variance permettant de construire une table
ANOVA, le test est un test de Fisher unilatéral
2 degrés de liberté : niv – 1 et N – niv (niv est le nombre de niveaux de
facteurs, N est l’effectif total)
• Conditions
Les données doivent être indépendantes (sinon, faire un modèle mixte =
ANOVA en mesure répétée)
OK si n ≥ 30 dans chaque niveau, sinon, il faut que la population mère soit
gaussienne (en fait, normalité des résidus) et les variances égales
Il existe une variante de l’ANOVA si n < 30 dans au moins un niveau et qu’on
a des variances différentes (ANOVA de Welsh, qui modifie les degrés de
liberté ; ceux-ci ne sont alors plus forcément des entiers)
• Hypothèses
H0 : µ1 = µ2 = µ3 = µ4 = …
H1 : au moins une des moyennes diffère des autres
En réalité, H1 inclut aussi la possibilité qu’une ou plusieurs moyennes soient
différentes d’un autre groupe d’une ou plusieurs moyennes (ou contraste)
VII. LES ANOVA 14
1) L’ANOVA
L’ANOVA à un facteur
• Commande R : aov La fonction s’appelle aov et emploie une formule ;
> aov(mesures~facteur)
Call:
son résultat est décevant
aov(formula = mesures ~ facteur)
Terms:
facteur Residuals
Sum of Squares 190.3783 128.6519
Il faut utiliser la fonction summary
Deg. of Freedom 2 117
sur le résultat de aov pour avoir la
Residual standard error: 1.048613 table.
Estimated effects may be unbalanced R ne met pas la ligne Total, et place
> summary(aov(mesures~facteur))
Df Sum Sq Mean Sq F value Pr(>F) les ddl avant les SCE.
facteur 2 190.4 95.19 86.57 <2e-16 ***
Residuals 117 128.7 1.10
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
• Sur la base du LSD de Fisher on bâtit des tests en utilisant des loi de Student
modifiées de diverses façons pour compenser les comparaisons multiples, ce qui
donne plusieurs types de tests.
Le test de Tukey TukeyHSD(aov(mesures~facteur)) est puissant mais peu
robuste, notamment quand les effectifs ne sont pas égaux.
Le test de Scheffe ScheffeTest(aov(mesures~facteur)) est moins puissant, mais
il est plus robuste (il est dans le package DescTools).
Le test de Dunnett DunnettTest(mesures~as.factor(facteur)) sert à comparer à
un groupe témoin tous les autres groupes ; il est idéal si vous êtes dans ce cas
(il est dans le package DescTools).
Il existe de nombreux autres tests …
VII. LES ANOVA 16
• On appelle cellule toutes les sous-catégories créées par le croisement des facteurs
S’il y a deux facteurs ayant respectivement i et j niveaux, alors il y a i*j cellules
Ex : 3 classes d’âge, 2 sexes = 6 cellules (6 groupes)
Pour calculer l’interaction (voir plus loin), il est nécessaire d’avoir au moins
deux mesures dans chaque cellule, sinon le calcul risque d’échouer (ne pas
abuser du fait que R peut parfois se débrouiller dans ce cas)
Les individus doivent êtres répartis aléatoirement dans les cellules, sinon des
problèmes peuvent apparaitre (paradoxe de Simpson)
VII. LES ANOVA 17
A B C A B C
a b
Exemple ici :
Facteur 1 à 3 niveaux A, B et C
Facteur 2 à 2 niveaux a et b
VII. LES ANOVA
• Effets des facteurs et de 18
B : âge
3) L’ANOVA à plusieurs facteurs 120
Les interactions
• Lorsqu’on met deux facteurs dans une ANOVA, un nouveau 85 facteur apparait : c’est
l’interaction entre ces facteurs. Elle aussi est associée à une p-value.
85 85 85 85
50 50 50 50
ne Jeune
Adulte Adulte
Âgé Âgé Jeune Jeune
Adulte Adulte
Âgé Âgé
Jeune Adulte Âgé
Pas
Pas d’effet
Pas d’effet d’effet Effet
Effet deEffet
A de A
médicament Effet
Effet de
âgeB
© Yves Desdevises
Dose faible
VII. LES ANOVA 19
120
3) L’ANOVA à plusieurs facteurs
85 interactions
Les
• Lorsqu’on met deux facteurs dans une ANOVA, un nouveau facteur apparait : c’est
l’interaction entre ces facteurs. Elle aussi est associée à une p-value.
50 Les ddl correspondant sont le produit de ceux des deux facteurs.
Jeune A :Âgé
Adultegraphique
Illustration :Aon: médicament
médicamentcompare 2Bdoses B médicaments
: âge de : âge (les courbes
Dose Dose
forte forte
Effet et
rouge debleue)
A selon l’âge (en abscisse)
Dose faible
Dose faible Var : Rhytme cardiaque
Var : Rhytme cardiaque
85 85 85 85 85
50 50 50 50 50
Jeune Adulte Âgé
Jeune Jeune
Adulte Adulte
Âgé Âgé Jeune Jeune
Adulte Adulte
Âgé
Effet
Effetde
deAl’âge
et B Effet de l’âge et interaction Interaction
Interaction et pas et
Interaction
Interaction
Interaction
avec le+facteur
+médicament
effet de effet
A de A
et des médicaments d’effet d’effet
de A et de
âge-médicament B A et
•
La présence •
d’une interaction rend complexe
Exemple : perturbateur endocrinien ciblant les hormones féminines en interaction
avec l’effet sexe
La présence d’une interaction rend complexe l’étud
© Yves Desdevises de des
de l’effet l’effet des facteurs
facteurs individuels
individuels
VII. LES ANOVA 20
• Commande R : summary(aov(mesure~facteur1*facteur2))
• On peut aussi mettre summary(aov(mesure~facteur1+facteur2+facteur1:facteur2))
VII. LES ANOVA 21
Residuals 28 12 2,333
ddl interaction =
produit des ddl des facteurs
VII. LES ANOVA 22
• Les ANOVA ayant à la fois des facteur discrets et de facteurs continus sont
appelées ANCOVA (ANalysis of COVAriance).
1) Régression et corrélation
Qu’est-ce qu’une régression ?
• Dans le cas où le facteur est une variable quantitative, les outils statistiques sont
appelés régression.
Les régressions peuvent aussi s’employer avec des facteurs quantitatifs
(comme les ANOVA), avoir plusieurs facteurs (régression multiple) et combiner
les deux (ANCOVA).
Les régressions, en plus d’être des tests statistiques, permettent une approche
de modélisation.
Enfin, les régressions sont associées à des coefficients de corrélations.
• En fait, les ANOVA et les régressions sont deux façons distinctes de présenter une
même analyse des données. On peut passer de l’un à l’autre dans R. L’ensemble
de ces techniques est appelé modèle linéaire général.
• Le modèle linéaire général peut être modifié pour traiter des mesures pas
forcément quantitatives : c’est le modèle linéaire généralisé.
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 25
1) Régression et corrélation
Régression simple
• Lorsque la mesure et le facteur sont tous les deux quantitatifs, on peut représenter
les données sous la forme d’un nuage de point.
• En abscisse, x sera le facteur et en ordonnées, y sera la mesure. Parfois, on est
obligé de choisir arbitrairement qui sera x et qui sera y (exemple : taille et poids).
Y
X
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 26
1) Régression et corrélation
Régression simple
• Le but de la régression est donc de faire passer au milieu du nuage de point une
droite d’équation 𝑦ො = 𝛽1 ∗ 𝑥 + 𝛽0
Cette droite va passer par le point de coordonnées 𝑥,ҧ 𝑦ത
On a 𝑦𝑖 = 𝛽1 ∗ 𝑥𝑖 + 𝛽0 + 𝜀 soit 𝑦𝑖 − 𝑦ෝ𝑖 = ε. Les ε sont appelé résidus et sont les
écarts des points à la droite. Les 𝑦ො sont des estimateurs de y . En fait, par
rapport à la moyenne 𝑦, ത la droite nous donne une information :
distance 𝑦𝑖 − 𝑦ത = 𝑦𝑖 − 𝑦ෝ𝑖 + 𝑦ෝ𝑖 − 𝑦ത = résidu + information donnée par la
droite
La méthode de calcul (méthode des moindres carrés) consiste à trouver les
valeurs des coefficients β qui minimisent le carré des résidus.
A l’aide d’un grandeur appelée covariance de x et y, on peut calculer 𝛽1 et en
𝑆𝑃𝐸
déduire 𝛽0 . La covariance est estimée par l’équation 𝜎ෞ 𝑥𝑦 = , où SPE est la
𝑛−1
somme des produits des écarts à la moyenne (x - 𝑥ҧ )(y - 𝑦ത)
La covariance d’une variable avec elle-même est sa variance.
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 27
Régression de Y en X :
Y
• y prévu par la droite : 𝒚ෝ = β0 + β1x
• véritable y : yi = β0 + β1xi + εi
β1 = pente de la droite de régression
β0 = ordonnée à l’origine
𝑦ത
yyii
Écart = résidu = εi
𝑦ෝ𝑖
β0
xxi i 𝑥ҧ X
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 28
Résidus
ei = (yi - ŷ)
yi
yˆ i
xi X
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 29
ATTENTION !!!
La régression de x en y n’est pas directement déduite de de la régression de y en x !!!
Régression de X en Y
X = cY + d Régression de Y en X
Y = aX + b
Hauteur (cm)
L. opercule (cm)
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 30
1) Régression et corrélation
Régression simple
• L’intérêt est de :
Modéliser la relation entre x et y. Cela permet de faire des prédictions, mais
attention aux extrapolations !!!
Tester si cette relation est significative.
• Pour tester si la relation est significative, on peut déterminer une erreur standard
pour chaque coefficient ; la valeur 𝛽ൗ𝑒𝑟𝑟𝑒𝑢𝑟 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑 suit une loi de Student et permet
de tester l’hypothèse nulle que ce coefficient est en fait égal à 0.
• On peut aussi normaliser la covariance en la divisant par le produit des écart type,
ce qui en fait une grandeur sans unité nommée coefficient de corrélation R.
Il s’agit d’une corrélation linéaire (pour une relation non-linéaire parfaite, on
peut avoir R =0). R est toujours compris entre -1 et 1.
CORRÉLATION N’EST PAS CAUSALITÉ !!!
R est positif = corrélation positive = x et y sont proportionnels
R est négatif = corrélation négative = x et y sont inversement proportionnels
• R peut être testé contre l’hypothèse nulle qu’il vaut 0. S’il n’y a qu’un seul facteur,
on obtient la même p-value que le test de β1
• R² est la proportion des variations de y expliquée par x (on parle de pourcentage de
variance commune). Cela mesure à quel point le modèle décrit bien les données,
qu’il soit significatif ou non. (Question d’examen typique)
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 31
1) Régression et corrélation
Attention : la droite de régression est un outils qui peut parfois induire en erreur
1) Régression et corrélation
Fiche de synthèse
• Étudie la relation linéaire entre deux variables quantitatives
Fait passer au milieu du nuage de point une droite d’équation 𝑦ො = 𝛽1 ∗ 𝑥 + 𝛽0
On a y = 𝛽1 ∗ 𝑥 + 𝛽0 + 𝜀 soit y − 𝑦ො = ε. Les ε sont appelé résidus et sont les
écarts des points à la droite.
• Conditions
Chaque couple de point x/y doit être indépendant des autres.
La relation doit être linéaire.
Les résidus doivent être distribués de façon gaussienne (ce qui est lié à la
normalité de x et y).
Les résidus doivent avoir un écart moyen à la droite constant (c’est-à-dire une
variance constante relativement à la moyenne = homoscédasticité).
Attention aux régressions artificielles crées par l’effet levier
1) Régression et corrélation
• Commande R : lm et cor.test
La fonction s’appelle lm et emploie une formule ;
> reg=lm(mesures~facteur)
> summary(reg) son résultat est décevant, on emploie summary
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.1939 1.2915 0.924 0.382
facteur 2.9317 0.2081 14.085 6.27e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
1) Régression et corrélation
Vérification de la régression : analyse graphique des résidus >plot(reg)
Moyenne
centrée sur 0
Test graphique de
la normalité des
résidus (qq-plot)
Constance de la
variance des
résidus (vérifie
aussi la linéarité)
Test de l’effet levier
(importance
excessive d’un
point) par la
distance de Cook
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 35
1) Régression et corrélation
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 36
1) Régression et corrélation
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 37
1) Régression et corrélation
aberrante
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 38
1) Régression et corrélation
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 39
1) Régression et corrélation
Sous R
#predict avec l’argument interval
pred=predict(model,data.frame(x),interval="confidence" ou "prediction")
2) Régression et ANOVA
• La régression et l’ANOVA sont en fait liées
𝐹 𝑛𝑓 𝐹 𝑛𝑓 𝐹
2 2 2
𝑦𝑓,𝑖 − 𝑦LJ 𝑦𝑓,𝑖 − 𝑦LJ𝑓 𝑛𝑓 𝑦LJ𝑓 − 𝑦LJ
𝑓=1 𝑖=1 𝑓=1 𝑖=1 𝑓=1
2) Régression et ANOVA
• On peut donc conduire une analyse de variance sur une régression linéaire :
𝐶𝑀𝑟𝑒𝑔
𝐹=
𝐶𝑀𝑟𝑒𝑠𝑖𝑑
où CMreg = SCEreg / ddlreg et CMresid = SCER / (N-1-ddlreg) avec ddlreg = 1 dans le cas
d’une régression simple
𝑆𝐶𝐸𝑅 𝑆𝐶𝐸𝑟𝑒𝑔
𝑅 2 = 1 − 𝑆𝐶𝐸𝑇 = 𝑆𝐶𝐸𝑇
La fonction anova(reg) donne la table ANOVA correspondant à une régression
Donc, le test disant si R² est significatif est en fait un test de Fisher, comme
dans l’ANOVA
Il y a donc des ANOVA pour des facteurs continus.
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 42
2) Régression et ANOVA
𝑦LJ𝐴 𝑦LJ𝐵
2) Régression et ANOVA
Les variables muettes
• Le principe est de définir un groupe contrôle, et de créer des variables qui ne sont
présentes dans la régression que lorsque le niveau correspondant du facteur est
présent ; le reste du temps, elles sont rendues « muettes » (mises à 0)
Exemple : facteur traitement à 4 niveaux : Faible, Moyen, Fort, Contrôle
Valeurs des variables muettes
Traitement
x1 x2 x3
Faible 1 0 0
Une variable x1/x2/x3
Moyen 0 1 0 pour
Fort 0 0 1
Faible/Moyen/Fort
Contrôle 0 0 0
2) Régression et ANOVA
Interactions et variables muettes
• On reprend l’exemple des acariens en fonctions des matelas/sols
• Peut permettre de résoudre le problème des interactions
• Première hypothèse nulle : β0 = 0, soit absence d’acarien pour sol 1 et matelas 1
• Puis chaque coefficient β significatif indique les acariens ajoutés/retirés
Matelas 1 β0 β0 + β1 β0 + β2
Matelas 2 (β3) β0 + β3 β0 + β3 + β1 + β6 β0 + β3 + β2 + β9
2) Régression et ANOVA
Interaction
matelas 2 :
Effet
sol 2
matelas 3
Effet sol 2
Effet
matelas 2
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 46
• Notation matricielle : dans ce cas, le calcul est effectué en employant l’algèbre des
matrices, ce qui permet de tout calculer d’un coup : Ŷ = βX, où X est la matrice des
valeurs x (x1, x2, …, xn, une colonne pour chaque facteur) et β (β0, β1, …, βn).
Comme dans le cas de l’ANOVA, les variables qualitatives sont recodées sous la
forme de variables muettes.
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 49
1) Principe
• Il permet d’utiliser des mesures qui peuvent être des données binaires (régression
logistique) ou des comptages (analyse log-linéaire = régression poissonnienne)
• Il dérive du modèle linéaire général, mais avec 3 différences :
Les équations sont différentes : au lieu de modéliser y, on modélise une
fonction g(y), appelée fonction lien et dépendante de la nature des données.
Le modèle n’est plus ajusté par la méthode des moindres carrés, mais par un
algorithme d’optimisation (= minimisation de la dérivée, voir module de
modélisation au S2) appelée maximum de vraisemblance, et consistant à
maximiser une grandeur appelée vraisemblance (likelihood). La vraisemblance
est la probabilité d’observer l’échantillon en fonction des coefficients, et
l’algorithme permet de trouver le jeu de coefficients le plus vraisemblable. Pour
des raisons mathématiques, en réalité on minimise -2log(likelihood) = -2LL.
R² n’est pas défini, ni le test F employé ; à la place, on emploie une mesure
appelée déviance avec des khi2 (test de Wald). On peut aussi s’en servir poru
comparer des modèles : anova(reg1,reg2,test="Chisq")
• Pour le reste, ces modèles s’interprètent comme le modèle linéaire général. Il faut
juste savoir quelle est l’équation et la distribution. La distribution des données
n’est pas forcément gaussienne.
IX. LE MODELE LINEAIRE GENERALISE 52
2) La régression/ANOVA/ANCOVA logistique
• La régression logistique s’emploie pour les mesures nominales binaires et vient
compléter la famille des khi2 pour les analyser.
Elle est basée sur une distribution binomiale
Si la réponse binaire est notée 0 ou 1, et que p est la probabilité que la
réponse soit 1, alors on appelle 𝑝ൗ1−𝑝 rapport de vraisemblance (ou odd-ratio,
c’est la côte employé par les parieurs) et on appelle logit l’expression ln( 𝑝ൗ1−𝑝)
L’équation de la régression logistique est donc :
𝑝
ln( ൗ1 − 𝑝) = 𝛽1𝑥1 + 𝛽2𝑥2 + … + 𝛽0
soit :
𝑒 𝛽1𝑥1+ 𝛽2𝑥2+ …+ 𝛽0
𝑝=
1 + 𝑒𝛽1𝑥1+ 𝛽2𝑥2+ …+ 𝛽0
APPENDICES :
quelques sujets non traités
VII. LES ANOVA 56
1) Régression et corrélation
coˆ v(X,Y) +
coˆ v(X,Y) +
Corrélation linéaire
positive « imparfaite »
r=1
r = 0,8
x x
Pas de corrélation
r≈0 r≈0
x
Corrélation quadratique x
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 58
1) Régression et corrélation
coˆ v(X,Y) -
coˆ v(X,Y) -
r = - 0,7 r=-1
x x
1) Régression et corrélation
Attention : la droite de régression est un outils qui peut parfois induire en erreur
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 60
1) Régression et corrélation
Attention : la droite de régression est un outils qui peut parfois induire en erreur
Autres exemples :
• « Plus il y a de pompier sur un incendie, plus l’incendie est grave » :
doit-on supprimer tous les pompier pour ne plus avoir d’incendie ?
• Corrélation négative entre le nombre de cas de malaria et la vente
de postes de radio en Inde dans la seconde moitié du 20ème siècle
IX. LE MODELE LINEAIRE GENERALISE 61
• Un autre paramètre mesurant l’efficacité d’un modèle est l’AIC (Akaike information
criterion) ; AIC = - 2 LLmodèle + 2 nb de paramètres. L’idée sous-jacente est qu’on
veut le modèle le plus probable (-2LL le plus petit) mais avec le moins de
paramètres possible.