Vous êtes sur la page 1sur 5

1.1.1.1.1.

1 Facult de Mdecine d'Angers, DII, Ples 1 & 2 : Lecture critique d'article


Mthodes multivaries
Objectif(s):
# C. Comprendre les notions dajustement et la signification des principales analyses
multivaries
Mots cls principaux : mthodes d'ajustement, facteur de confusion, interaction, analyse de
donnes, rgression multiple, corrlations partielles, analyse discriminante, rgression
logistique, rgression de Cox.
Mots cls secondaires : variable dpendante, variables indpendantes, rgression linaire,
coefficient de rgression multiple, analyse pas pas, donnes tronques, validation, score
pronostique, variable dmasque.
Les mots cls sont indiqus en italiques dans le texte.
Les paragraphes en petits caractres sont en dehors de lobjectif.
Plan
1
2

Introduction........................................................................................................................1
Mthodes d'ajustement........................................................................................................1
2.1
Principe.......................................................................................................................1
2.1.1
Facteur de confusion...........................................................................................1
2.1.2
Interaction...........................................................................................................2
2.2
Les diffrentes mthodes.............................................................................................2
3
Analyses multidimensionnelles............................................................................................2
3.1
Types danalyses multidimensionnelles.......................................................................2
3.1.1
Mthodes descriptives.........................................................................................2
3.1.2
Mthodes prdictives..........................................................................................3
3.2
Avantages et inconvnients des tudes multidimensionnelles.....................................4
3.3
Tableau rsum des analyses multivaries...................................................................5
1

Introduction

L'analyse classique, unidimensionnelle, tudie les liaisons entre deux variables.


Pour tudier simultanment les liaisons existant entre plus de 2 variables, il faut recourir aux
tudes multidimensionnelles.
multivari = multidimensionnel = multivariate en anglais
Cas particulier : on peut tudier la liaison existant entre deux variables en tenant compte d'une
troisime grce aux mthodes d'ajustement.
2
2.1

Mthodes d'ajustement
Principe

2.1.1 Facteur de confusion


On teste une liaison entre 2 variables mais on suspecte que la nature de cette liaison peut tre
diffrente l'intrieur des sous groupes d'une des 2 variables, les sous groupes tant dfinis par
un 3e facteur. Ce 3e facteur est appel facteur d'ajustement ou facteur de confusion.
Exemple : on mesure la diffrence de moyenne entre 2 groupes mais chaque groupe peut tre
divis en 2 sous groupes selon le facteur de confusion avec des diffrences de moyenne
significativement diffrentes entre les 2 sous groupes. La consommation d'alcool est plus
Mthodes multivaries, P. Cals, 17/10/2002

1.1.1.1.1.1 Facult de Mdecine d'Angers, DII, Ples 1 & 2 : Lecture critique d'article
leve dans les cancers du poumon mais cette diffrence disparat dans les sous groupes de
fumeurs et de non fumeurs par contre la consommation d'alcool est plus leve dans le groupe
de fumeurs. Le tabac est un facteur de confusion vident.
2.1.2 Interaction
On dit qu'il y a interaction si le facteur tudi a des effets significativement diffrents sur le
critre de jugement en fonction des sous groupes dfinis selon le facteur d'ajustement. Dans
l'exemple : si les diffrences de moyenne observes entre les groupes sont diffrentes entre les
2 sous groupes, on dit qu'il y a interaction entre le facteur groupe et le facteur de confusion.
Dans ce cas, on ne peut utiliser un test d'ajustement.
facteur d'ajustement ou
critre de jugement
de confusion
variabilit
ex : score pronostique
avec 2 classes A et B

ex : survie
influence
teste

interaction
ex : si le traitement a des
effets diffrents sur la
survie entre les classes A et B

facteur dintervention
ex : traitement

Dans l'exemple prcdent le tabac interagit avec l'alcool.


2.2

Les diffrentes mthodes

Relation tester
(nature des variables)

Facteur de confusion

2 qualitatives

qualitatif
qualitatif)

1 quantitative +
1 qualitative

-qualitatif
-quantitatif

(ou

quantitatif

Mthode
rendu Mantel et Haenzsel
analyse de variance
analyse de covariance

2 quantitatives

-quantitatif
corrlation partielle
-qualitatif
mthode de Snedecor
N.B. : la mthode de Mantel et Haenzsel est trs utilise. Elle permet galement de tester l'interaction.

3
3.1

Analyses multidimensionnelles
Types danalyses multidimensionnelles

3.1.1 Mthodes descriptives


Il s'agit d'une reprsentation graphique des liaisons existant entre les variables tudies appele
galement analyse de donnes.
L'interprtation graphique des variables doit tre trs prudente sur le plan de projection. Les 2
types les plus frquents :
analyse en composante principale (ACP) : variables quantitatives
analyse factorielle des correspondances (AFC) : variables qualitatives.
Avantages :
Mthodes multivaries, P. Cals, 17/10/2002

1.1.1.1.1.1 Facult de Mdecine d'Angers, DII, Ples 1 & 2 : Lecture critique d'article
les graphiques obtenus sont trs "parlants" mme pour le nophyte. D'o le succs de ces
mthodes qui sont usites mme dans les journaux grand public
l'AFC est la seule mthode permettant d'tudier les relations entre plusieurs variables
qualitatives non privilgies.
Inconvnients :
les liaisons ne peuvent tre mesures,
les variables ne peuvent tre classes par ordre d'importance,
surtout, la projection obtenue est assez arbitraire et source d'erreur,
mthode subjective, peu aime par les statisticiens notamment anglo-saxons.

3.1.2 Mthodes prdictives


3.1.2.1 Gnralits
But : expliquer une variable privilgie ou explique ou dpendante l'aide d'autres variables
(explicatives ou indpendantes). La variable privilgie est un vnement type critre de
jugement, comme la survie ou une complication d'une maladie. Il s'agit donc souvent d'un
vnement ayant trait au pronostic d'o le terme d'tude pronostique (prfrer "prdictive").
Les variables explicatives sont galement appeles variables "pronostiques" ou mieux
"prdictives".
Les mthodes prdictives ont deux avantages :
la liaison est mesure, en particulier son degr de significativit statistique,
les variables peuvent tre classes.
3.1.2.2 Analyse des corrlations partielles
Limite aux variables quantitatives : elle permet d'tudier la corrlation par rgression linaire
entre 2 variables niveau constant d'une ou de plusieurs autres variables tudies. Dans
cette analyse, les 2 variables ont des rles symtriques. Elle mesure l'importance de chaque
variable explicative et permet de limiter le nombre de liaisons significatives. Ainsi, des liaisons
peuvent apparatre ou disparatre mais, comme dans toute tude multivarie, la liaison mise en
vidence n'a de valeur que si elle correspond une hypothse ou si sa signification mdicale est
raisonnable.
A noter que, dans cette analyse, aucune variable n'est privilgie par le calcul. Cest pourquoi l'analyse de
corrlation partielle est intermdiaire entre les tudes descriptives et les tudes explicatives. Les rsultats
s'expriment par autant de coefficient r (avec un p) qu'il y a de paire de variables. Il n'y a pas de classement des
variables, chaque corrlation est base sur le test de rgression linaire (simple).

3.1.2.3 Analyse en rgression multiple


C'est une mthode de rgression linaire proche de la prcdente. Elle traite galement des
variables quantitatives.
Il y a une variable privilgie : la variable explique ou dpendante (qui est quantitative).
Elle teste la liaison entre cette variable et les variables (potentiellement) prdictives. Chaque
variable prdictive est affecte d'un coefficient (qui est un coefficient de corrlation partielle)
dont la signification statistique est teste. On peut classer l'importance des variables.
L'ensemble des variables prdictives est caractris par un coefficient de rgression multiple
(R) dont le carr (R2) mesure le pourcentage de variabilit de la variable explique. L'option
pas pas permet de choisir les variables qui permettent de prdire au mieux la variable
explique. L'analyse pas pas permet de slectionner au premier "pas" le facteur qui possde
la valeur prdictive la plus forte, puis au deuxime pas, le facteur qui apporte le plus
d'information prdictive supplmentaire, et ainsi de suite jusqu' ce que l'information prdictive
supplmentaire apporte ne soit plus significative.

Mthodes multivaries, P. Cals, 17/10/2002

1.1.1.1.1.1 Facult de Mdecine d'Angers, DII, Ples 1 & 2 : Lecture critique d'article
3.1.2.4 Analyse discriminante et rgression logistique
Elle permet la discrimination entre 2 groupes de sujets (variable qualitative 2 classes). Ces
groupes sont dfinis par la variable explique ou dpendante (par exemple la survie) l'aide
d'une combinaison linaire des variables indpendantes explicatives. La mthode la plus
utilise est l'analyse discriminante linaire de Fisher qui traite les variables qualitatives et
quantitatives. Une autre mthode, la rgression logistique est adapte des variables
qualitatives binaires ; elle permet de tester l'interaction. Elle est plus frquemment utilise car
moins sujette la distribution (normalit) des variables.
L'option pas pas est galement possible pour dterminer la combinaison, restreinte en
variables, la plus discriminante.
3.1.2.5 Modle de rgression de Cox
C'est la mthode qui permet d'tudier des variables privilgies dpendant du temps partir de
variables prdictives (quantitatives ou qualitatives binaires). Ce modle est particulirement
adapt l'analyse des donnes "tronques" c'est--dire quand les sujets n'ont pas tous le mme
suivi.
Il est ncessaire d'avoir un grand nombre de sujets tudis.
Conditions :
hypothse de proportionnalit,
le rapport entre le nombre de sujets tudis et le nombre d'vnements donne le nombre optimum de variables
prdictives tudier (on dit faire entrer les variables dans le modle). Il est conseill de ne pas dpasser un
rapport de 10% mais en pratique ce chiffre est souvent dpass pour pouvoir tester plusieurs variables
prdictives,
le nombre de perdus de vue ou d'exclus vivants doit tre rduit.
Elments devant tre produits :
pour chaque modle : 2, p, R2
pour chaque variable : coefficient de rgression, p
vrification de l'hypothse de proportionnalit : soit de faon graphique, soit par des tests.
Avantages :
permet d'analyser des variables qualitatives et quantitatives dans le mme modle,
modle non paramtrique : vite les contraintes de distribution pour les variables quantitatives,
tient compte des sujets n'ayant pas la totalit de suivi (donne tronque),
possibilit d'utiliser des variables dpendantes du temps.
Inconvnients :
ne teste pas l'interaction entre les variables prdictives.

3.2

Avantages et inconvnients des tudes multidimensionnelles

Avantages
estimer la valeur prdictive propre d'un facteur indpendamment des autres facteurs prdictifs
tudis.
En rdaction mdicale, cela se traduit par : "Ce facteur avait une valeur prdictive
indpendante..."
les facteurs ainsi slectionns sont les seuls utiles la constitution d'un index ou score
pronostique. Les facteurs prdictifs en analyse unidimensionnelle, non slectionns en analyse
multidimensionnelle, sont redondants avec les facteurs slectionns. Exemple : l'ge peut tre
redondant avec l'anciennet de la maladie ; le TP avec le facteur V.
un facteur prdictif indpendant peut tre dmasqu (variable dmasque) par l'analyse
multivarie s'il n'tait pas significatif en analyse univarie.
elles permettent d'tablir un index (ou un modle, un score) pronostique qui est une
combinaison des variables prdictives indpendantes significatives.
Inconvnients

Mthodes multivaries, P. Cals, 17/10/2002

1.1.1.1.1.1 Facult de Mdecine d'Angers, DII, Ples 1 & 2 : Lecture critique d'article
le nombre de sujets doit tre lev par rapport au nombre de facteurs tudis (idalement
100) ; de faon empirique, il est recommand d'analyser une variable explicative pour 10
sujets.
les rsultats doivent tre vrifis sur une population diffrente (validation), si possible de faon
prospective. Il est cependant possible de diminuer le risque d'identifier tort un facteur en
recalculant les modles (ensemble des variables explicatives significatives) multidimensionnels
sur un ou des chantillons de sujets pris parmi les sujets de l'tude ( split technique )
la slection des variables explicatives est assez alatoire. Elle influe sur les rsultats du modle.
Une tude multivarie doit tre interprte avec beaucoup de prcaution et la validation du
modle ne peut tre faite que par d'autres quipes.
3.3

Tableau rsum des analyses multivaries

Type

Variable dpendante
quantitative
qualitative

Variables indpendantes
quantitatives
qualitatives

Mthode

oui

oui

analyse en composante
principale
analyse factorielle des
correspondances

Descriptives
oui

oui

Prdictives
oui
oui

oui
surtout
oui

binaire
oui
dpendante du oui
temps

oui
oui
oui

Mthodes multivaries, P. Cals, 17/10/2002

corrlations partielles
rgression multiple
analyse discriminante
rgression logistique
rgression multiple de
Cox

Vous aimerez peut-être aussi