Vous êtes sur la page 1sur 4

Pr.

BOULAHOUAL Adil
Résumé : RLM
1- La validation du modèle se fait à travers plusieurs indicateurs et nous retenons l’analyse de la variance (ANOVA)
Règle de décision : Si la signification de l’ANOVA est inférieure au seuil choisi (α) nous acceptons le modèle, autrement nous confirmons
l’existence de relation entre la variable à expliquer et les variables explicatives.
Procédure sous SPSS : Analyse – Régression – Linéaire – Statistiques – Qualité de l’ajustement
N.B : Dans le cas de la régression linéaire multiple, même si la signification de l’ANOVA est inférieure au seuil choisi, celà ne veut pas dire
que toutes les variables dans le modèle sont explicatives. Alors il faut vérifier la signification de chaque variable indépendante.
2- L’estimation des paramètres β0, β1 , β3 , β4 ….. βn : Autrement calculer la b0, b1 , b2 , b1....... bn
Deux types d'estimations existent : Des estimations ponctuelles et d’autres par intervalle de confiance.
Procédure sous SPSS : Analyse – Régression – Linéaire – Statistiques – Estimation –Intervalle de confiance.
N.B : Pour le modèle linéaire multiple, même s’il est validé par l’analyse de la variance nous devons tester les hypothèses. Mentionnons
que si l’intervalle de confiance de la β0 contient la valeur zéro(0) ceci n’influence en aucun cas l’existence de relation entre la variable
explicative et expliquée, autrement la fonction Y= β0+ β1x1 + β2x2 + β3x3 + β4x4 +……βnxn deviendrait Y= β1x1 + β2x2 + β3x3 + β4x4 +… βnxn.
Par contre si les intervalles des βi contiennent la valeur zéro la fonction s’écrirait y= β 0 ce qui veut dire qu’il n’existe pas de lien entre les
variables Xi et la Y.
3- Vérification des prémisses de la régression linéaire
Remarque : Parfois, la signification de l’ANOVA est inférieure au seuil choisi mais les significations des variables indépendantes sont
presque toutes supérieures à la signification de l’ANOVA ce qui est contradictoire. Là, avant la vérification des prémisses de la régression
linéaire, il faut tester la colinéarité ou la multi-colinéarité, autrement s’assurer de l’indépendance des variables explicatives.
La valeur du facteur d’inflation de la variance « VIF » (ou la tolérance qui est l’inverse du VIF (1/VIF)) permet de vérifier la prémisse de
multi-colinéarité. Une valeur VIF proche de 1 est souhaitable. Si elle est égale à dix (10) il y à un problème sérieux de colinéarité.

Chapitre II : régression linéaire multiple « résumé »


Si la corrélation entre deux de ces variables se situait à 0,9 (ou – 0,9) nous aurions introduit deux variables qui mesuraient sensiblement la
même chose.
Solutions : Lorsque nous avons deux variables indépendantes fortement corrélées nous devons éliminer une des deux variables ou les
remplacer par leur moyenne et choisir le modèle qui arriverait à expliquer la plus grande part de la variance de notre variable
dépendante. Par contre lorsque plusieurs variables indépendantes sont corrélées nous serons dans l’obligation de faire appel à l’ACP
(Analyse en composantes multiples) pour les regrouper puis les remplacer par leur moyenne. Attention, ce ne sont que des procédures automatiques. Il faut
les voir comme des scénarios que nous soumettons (faire valider) à l’expertise du domaine.
Plus la valeur de la statistique de Durbin-Watson est près de deux (2), moins il y a de problème au niveau de l’indépendance des termes
d’erreurs. Pour une interprétation plus précise se référer à la table de Durbin-Watson, puis un corrélogramme pour compléter l’analyse
d’auto-corrélation est recommandé. Pour vérifier la normalité de distribution des termes d’erreurs la signification du test de Kolmogrov-
Smirnov ou selui de Shapiro-Wilks doit être supérieure au seuil choisi.
Procédure sous SPPS : Analyse – Régression – Linéaire – Diagramme ( Y : ZRESID ; X : ZPRED) - Graphes de répartition gaussiens avec
tests - résidus standardisés. Pour l’homoscédasticité les points doivent être répartis aléatoirement autour de 0 (ne pas former d’entonnoir)
et leur agglomération ne suit pas une courbe.
1
Cas possibles :

Pr. BOULAHOUAL Adil


1- Le seuil de l’ANOVA  α : Rejeter le modèle ;
2- Le seuil de l’ANOVA ≤ α et toutes les variables ont des significations inférieures au seuil choisi nous les gardons dans le modèle ;
3- Le seuil de l’ANOVA ≤ α et toutes les variables ont des significations inférieures au seuil choisi sauf une nous la retirons de notre modèle ;
4- Le seuil de l’ANOVA ≤ α et toutes et les variables ont des significations inférieures au seuil choisi sauf deux, nous devons vérifier si elles sont
corrélées (présence de colinéarité). Si elles ne le sont pas nous les retirerons de notre modèle, si elles le sont, soit nous éliminerons une
d’elles soit nous les remplacerons par leur moyenne. Nous retenons le modèle qui expliquerait la plus grande part de la variance de variable
dépendante (R-Deux le plus élevé) à condition que toutes les variables aient des significations inférieures à α ;
5- Le seuil de l’ANOVA ≤ α et presque toutes les variables ont des significations inférieures au seuil choisi sauf quelques unes nous les
remplacerons par leur moyenne si elles sont corrélées sinon nous les supprimons.
N.B : Il ne faut pas oublier de vérifier les prémisses pour que le modèle soit opérationnel.
er
1 cas : Seuil de l’ANOVA  α : Rejeter le modèle et retourner à la table à dessin pour construire et tester un autre modèle.
a
ANOVA
Modèle Somme des carrés ddl Moyenne des carrés D Sig.
b
Régression ,559 2 ,280 ,059 ,944
La signification de l’ANOVA ( La probabilité de se tromper en acceptant la
<1 Résidu 9,441 2 4,720 relation linéaire entre le montant de la facture d’un côté et le Revenu et le
Total 10,000 4 nombre d’enfants d’un autre) est de 94,4% !!! Le modèle est rejeté d’office.
a. Variable dépendante : Montat.de.la.facture NB : La signification de l’ANOVA ne devrait en aucun cas être supérieure à 50%.
b. Valeurs prédites : (constantes), nombre d’enfants, Revenu

Chapitre II : régression linéaire multiple « résumé »


2ème cas : Le modèle est admis dans sa globalité et toutes les variables explicatives ont des significations inferieurs au seuil choisi
ANOVA Coefficients
Modèle Somme des carrés ddl Moyenne des carrés D Sig.
Modèle Coefficients non standardisés Coefficients standardisés t Sig.
Régression 37637408,077 2 18818704,038 576,043 ,000b
A Erreur standard Bêta
Résidu 1012736,041 31 32668,905
1 (Constante) 1366,839 94,641 14,442 ,000
Total 38650144,118 33 1 MOTIVATION -174,274 22,523 -,242 -7,738 ,000
a. Variable dépendante : RENDEMENT b. Valeurs prédites : (constantes), Primes, AMBITION Primes 16,398 ,488 1,049 33,586 ,000
a. Variable dépendante : REVENU

La signification de l’ANOVA est de 0,000 ≤ 5% ( Seuil classique 5%) donc le modèle est admis dans sa globalité au niveau de confiance de 95% mais il faut
vérifier les significations des prédictuers. Puisque toutes les significations sont ≤ 5%, il faut alors juste vérifier les prémisses de la régression linéaire.
Le revenu = 1366,839 -174,274*MOTIVATION + 16,398*Primes

2
Pr. BOULAHOUAL Adil
3èmecas : Le modèle est admis dans sa globalité et toutes les variables explicatives ont des significations inferieurs au seuil choisi sauf une.

ANOVAa Coefficientsa
Modèle Somme des carrés ddl Moyenne des carrés D Sig. Modèle Coefficients non standardisés Coefficients standardisés t Sig.
Régression 37648722,650 3 12549574,217 375,953 ,000b A Erreur standard Bêta
1 Résidu 1001421,468 30 33380,716 (Constante) 1357,703 96,944 14,005 ,000
Total 38650144,118 33 MOTIVATION -169,560 24,164 -,235 -7,017 ,000
1
a. Variable dépendante : REVENU Primes 16,297 ,523 1,043 31,144 ,000
b. Valeurs prédites : (constantes), RENDEMENT, Primes, MOTIVATION RENDEMENT ,056 ,096 ,019 ,582 ,565
a. Variable dépendante : REVENU

La signification de l’ANOVA est de 0,000 ≤ 5% ( Seuil classique 5%) donc le modèle est admis dans sa globalité au niveau de confiance de 95% mais il faut
éliminer le rendement du modèle vu qu’il a une signification  5%, puis refaire l’analyse. Sans oublier qu’il faut vérifier les prémisses de la régression linéaire.

Le revenu = 1457,403 - 139,890*MOTIVATION + 19,567*Primes

4èmecas Le seuil de l’ANOVA ≤ α et toutes et les variables ont des significations inférieures au seuil choisi sauf deux, nous devons vérifier si
elles sont corrélées (présence de colinéarité).

Chapitre II : régression linéaire multiple « résumé »


ANOVA Coefficientsa

Modèle Somme des carrés ddl Moyenne des carrés D Sig. Modèle A Bêta sig
Régression 37667618,627 4 9416904,657 277,947 ,000b (Constante) 1359,603 ,000
1 Résidu 982525,491 29 33880,189 MOTIVATION ,067 ,022 ,503
Total 38650144,118 33 1 RENDEMENT.PERSONNEL -164,951 -,229 ,000
a. Variable dépendante : REVENU CONGéS 17,324 1,109 ,000
b. Valeurs prédites : (constantes), PRIMES.MENSUELLES, MOTIVATION, RENDEMENT.PERSONNEL, CONGéS AMBITION -1,151 -,072 ,461

Le modèle est admis mais certaines variables ont des significations supérieures au seuil choisi. Tableau ci-après. Nous soupçonnons l’existence de
multi-colinéarité entre celles-ci. Alors nous devons calculer le coefficient de corrélation, le VIF, ou la tolérance pour vérifier ce constat.

Si la MOTIVATION et l’AMBITION ne sont pas corrélées nous devons les retirer et estimer les paramètres retenus dès le début.

3
Si par contre nous constatons une forte relation entre MOTIVATION et l’AMBITION, soit nous éliminerons LA MOTIVATION soit l’AMBITION,

Pr. BOULAHOUAL Adil


ou encore nous les remplacerons par leur moyenne et nous retenons le modèle qui expliquerait la plus grande part de la variance de variable
dépendante (R-Deux le plus élevé) à condition que toutes les variables aient des significations inférieures à α.

Focus : Calcul de la moyenne de deux ou plusieurs variables


Procédure sous SPPS : Transformer – Calculer la variable – groupe de fonctions- statistique- double clic sur Mean – saisir le nom ou faire glisser
les variables corrélées entre parenthèses séparées par de virgules- saisir le nom de la nouvelle variable à créer – ok.
Maintenant que nous avons nos trois créé la nouvelle variable (moyenne de la MOTIVATION et de l’AMBITION) nous devons estimer les
paramètres retenus dès le début.

ANOVA
a Coefficientsa
Modèle Somme des carrés ddl Moyenne des carrés D Sig. Modèle Coefficients non standardisés Coefficients standardisés t Sig.
Régression 37793146,076 2 18896573,038 68,3542 ,000
b A Erreur standard Bêta
(Constante) 1340,800 81,000 13,916 ,000
1 Résidu 85699,8042 31 2764,509
RENDEMENT.PERSONNEL -90,151 15,198 -,229 -6,568 ,000
Total 38650144,118 33 1
CONGéS 13,324 1,472 1,109 11,766 ,000
a. Variable dépendante : REVENU MOYNNE.MOT.AMBIT 1,727 ,315 1,133 5,485 ,032
b. Valeurs prédites : (constantes), rendement.personnel, moyenne
a. Variable dépendante : REVENU

La signification de l’ANOVA est de 0,000 ≤ 5% ( Seuil classique ) donc le modèle est admis dans sa globalité au niveau de confiance de 95 % ainsi que les signification des
variables indépendantes. Il faut vérifier les prémisses de la régression linéaire.

Chapitre II : régression linéaire multiple « résumé »


MOTIVATION+AMBITION
Le revenu = 1340,800 - 90,151*RENDEMENT + 13,324*CONGéS + 1,727* ( )
2

5èmecas Le seuil de l’ANOVA ≤ α et presque toutes les variables ont des significations inférieures au seuil choisi sauf quelques unes. Nous les
remplacerons par leur moyenne si elles sont corrélées sinon nous les supprimerons. Et pour vérifier l’existence de corrélation entre plusieurs
variables à la fois nous pouvons faire appel à l’analyse factorielle multidimensionnelle (AFE).

Vous aimerez peut-être aussi