Vous êtes sur la page 1sur 4

Résumé : RLM

BOULAHOUAL ADIL
1- La validation du modèle se fait à travers plusieurs indicateurs et nous retenons l’analyse de la variance (ANOVA)
Règle de décision : Si la signification de l’ANOVA est inférieure au seuil choisi (α) nous acceptons le modèle, autrement nous confirmons
l’existence de relation entre la variable à expliquer et les variables explicatives.
Procédure sous SPSS : Analyse – Régression – Linéaire – Statistiques – Qualité de l’ajustement
N.B : Dans le cas de la régression linéaire multiple, même si la signification de l’ANOVA est inférieure au seuil choisi, celà ne veut pas dire
que toutes les variables dans le modèle sont explicatives. Alors il faut vérifier la signification de chaque variable indépendante.
2- L’estimation des paramètres β0, β1 , β3 , β4 ….. βn : Autrement calculer la b0, b1 , b2 , b1....... bn
Deux types d'estimations existent : Des estimations ponctuelles et d’autres par intervalle de confiance.
Procédure sous SPSS : Analyse – Régression – Linéaire – Statistiques – Estimation –Intervalle de confiance.
N.B : Pour le modèle linéaire multiple, même s’il est validé par l’analyse de la variance nous devons tester les hypothèses. Mentionnons
que si l’intervalle de confiance de la β0 contient la valeur zéro(0) ceci n’influence en aucun cas l’existence de relation entre la variable
explicative et expliquée, autrement la fonction Y= β0+ β1x1 + β2x2 + β3x3 + β4x4 +……βnxn deviendrait Y= β1x1 + β2x2 + β3x3 + β4x4 +… βnxn.
Par contre si les intervalles des βi contiennent la valeur zéro la fonction s’écrirait y= β 0 ce qui veut dire qu’il n’existe pas de lien entre les
variables Xi et la Y.
3- Vérification des prémisses de la régression linéaire
Remarque : Parfois, la signification de l’ANOVA est inférieure au seuil choisi mais les significations des variables indépendantes sont
presque toutes supérieures à la signification de l’ANOVA ce qui est contradictoire. Là, avant la vérification des prémisses de la régression
linéaire, il faut tester la colinéarité ou la multi-colinéarité, autrement s’assurer de l’indépendance des variables explicatives.
La valeur du facteur d’inflation de la variance « VIF » (ou la tolérance qui est l’inverse du VIF (1/VIF)) permet de vérifier la prémisse de
multi-colinéarité. Une valeur VIF proche de 1 est souhaitable. Si elle est égale à dix (10) il y à un problème sérieux de colinéarité.
Si la corrélation entre deux de ces variables se situait à 0,9 (ou – 0,9) nous aurions introduit deux variables qui mesuraient sensiblement la
même chose.
Solutions : Lorsque nous avons deux variables indépendantes fortement corrélées nous devons éliminer une des deux variables ou les
remplacer par leur moyenne et choisir le modèle qui arriverait à expliquer la plus grande part de la variance de notre variable

La régression linéaire multiple


dépendante. Par contre lorsque plusieurs variables indépendantes sont corrélées nous serons dans l’obligation de faire appel à l’ACP
(Analyse en composantes multiples) pour les regrouper puis les remplacer par leur moyenne. Attention, ce ne sont que des procédures automatiques. Il faut
les voir comme des scénarios que nous soumettons (faire valider) à l’expertise du domaine.
Plus la valeur de la statistique de Durbin-Watson est près de deux (2), moins il y a de problème au niveau de l’indépendance des termes
d’erreurs. Pour une interprétation plus précise se référer à la table de Durbin-Watson, puis un corrélogramme pour compléter l’analyse
d’auto-corrélation est recommandé. Pour vérifier la normalité de distribution des termes d’erreurs la signification du test de Kolmogrov-
Smirnov ou selui de Shapiro-Wilks doit être supérieure au seuil choisi.
Procédure sous SPPS : Analyse – Régression – Linéaire – Diagramme ( Y : ZRESID ; X : ZPRED) - Graphes de répartition gaussiens avec
tests - résidus standardisés. Pour l’homoscédasticité les points doivent être répartis aléatoirement autour de 0 (ne pas former d’entonnoir)
et leur agglomération ne suit pas une courbe.
1
BOULAHOUAL ADIL
EXERCICES D’APPLICATION
Cas possibles :
1- Le seuil de l’ANOVA  α : Rejeter le modèle ;
2- Le seuil de l’ANOVA ≤ α et toutes les variables ont des significations inférieures au seuil choisi nous les gardons dans le modèle ;
3- Le seuil de l’ANOVA ≤ α et toutes les variables ont des significations inférieures au seuil choisi sauf une nous la retirons de notre modèle ;
4- Le seuil de l’ANOVA ≤ α et toutes et les variables ont des significations inférieures au seuil choisi sauf deux, nous devons vérifier si elles sont
corrélées (présence de colinéarité). Si elles ne le sont pas nous les retirerons de notre modèle, si elles le sont, soit nous éliminerons une
d’elles soit nous les remplacerons par leur moyenne. Nous retenons le modèle qui expliquerait la plus grande part de la variance de variable
dépendante (R-Deux le plus élevé) à condition que toutes les variables aient des significations inférieures à α ;
5- Le seuil de l’ANOVA ≤ α et presque toutes les variables ont des significations inférieures au seuil choisi sauf quelques unes nous les
remplacerons par leur moyenne si elles sont corrélées sinon nous les supprimerons.
N.B : Il ne faut pas oublier de vérifier les prémisses pour que le modèle soit opérationnel.
er
1 cas : Seuil de l’ANOVA  α : Rejeter le modèle et retourner à la table à dessin pour construire et tester un autre modèle.
a
ANOVA
Modèle Somme des carrés ddl Moyenne des carrés D Sig.
La signification de l’ANOVA ( La probabilité de se tromper en acceptant la
b
Régression ,559 2 ,280 ,059 ,944

<1 Résidu 9,441 2 4,720 relation linéaire entre le montant de la facture d’un côté et le Revenu et le
Total 10,000 4 nombre d’enfants d’un autre) est de 94,4% !!! Le modèle est rejeté d’office.
a. Variable dépendante : Montat.de.la.facture NB : La signification de l’ANOVA ne devrait en aucun cas être supérieure à 50%.
b. Valeurs prédites : (constantes), nombre d’enfants, Revenu

La régression linéaire multiple


2ème cas : Le modèle est admis dans sa globalité et toutes les variables explicatives ont des significations inferieurs au seuil choisi
ANOVAa

Coefficientsa
Modèle Somme des carrés ddl Moyenne des carrés D Sig.
Modèle Coefficients non standardisés Coefficients standardisés t Sig.
Régression 37637408,077 2 18818704,038 576,043 ,000b
A Erreur standard Bêta
Résidu 1012736,041 31 32668,905
1
(Constante) 1366,839 94,641 14,442 ,000
Total 38650144,118 33 1 MOTIVATION -174,274 22,523 -,242 -7,738 ,000
a. Variable dépendante : RENDEMENT b. Valeurs prédites : (constantes), Primes, AMBITION Primes 16,398 ,488 1,049 33,586 ,000
a. Variable dépendante : REVENU

2
La signification de l’ANOVA est de 0,000 ≤ 5% ( Seuil classique 5%) donc le modèle est admis dans sa globalité au niveau de confiance de 95% mais il faut

BOULAHOUAL ADIL
vérifier les significations des prédictuers. Puisque toutes les significations sont ≤ 5%, il faut alors juste vérifier les prémisses de la régression linéaire.
Le revenu = 1366,839 -174,274*MOTIVATION + 16,398*Primes

3èmecas : Le modèle est admis dans sa globalité et toutes les variables explicatives ont des significations inferieurs au seuil choisi sauf une.

a a
ANOVA Coefficients
Modèle Somme des carrés ddl Moyenne des carrés D Sig. Modèle Coefficients non standardisés Coefficients standardisés t Sig.
Régression 37648722,650 3 12549574,217 375,953 ,000b A Erreur standard Bêta
1 Résidu 1001421,468 30 33380,716 (Constante) 1357,703 96,944 14,005 ,000
Total 38650144,118 33 MOTIVATION -169,560 24,164 -,235 -7,017 ,000
1
a. Variable dépendante : REVENU Primes 16,297 ,523 1,043 31,144 ,000
b. Valeurs prédites : (constantes), RENDEMENT, Primes, MOTIVATION RENDEMENT ,056 ,096 ,019 ,582 ,565
a. Variable dépendante : REVENU

La signification de l’ANOVA est de 0,000 ≤ 5% ( Seuil classique 5%) donc le modèle est admis dans sa globalité au niveau de confiance de 95% mais il faut
éliminer le rendement du modèle vu qu’il a une signification  5% . Il faut vérifier les prémisses de la régression linéaire.
Le revenu = 1357,703 - 169,560*MOTIVATION + 16,297*Primes

4èmecas Le seuil de l’ANOVA ≤ α et toutes et les variables ont des significations inférieures au seuil choisi sauf deux, nous devons vérifier si
elles sont corrélées (présence de colinéarité).

a
ANOVA

La régression linéaire multiple


Modèle Somme des carrés ddl Moyenne des carrés D Sig.
Régression 37667618,627 4 9416904,657 277,947 ,000b
Le modèle est admis mais certaines variables ont des significations
1 Résidu 982525,491 29 33880,189 supérieures au seuil choisi. Tableau ci-après.
Total 38650144,118 33 Nous soupçonnons l’existence de multi-colinéarité entre celles-ci.
a. Variable dépendante : REVENU Alors nous devons calculer le coefficient de corrélation, le VIF, ou la
b. Valeurs prédites : (constantes), PRIMES.MENSUELLES, MOTIVATION, RENDEMENT.PERSONNEL, CONGéS tolérance pour vérifier ce constat.

3
Coefficientsa

BOULAHOUAL ADIL
Modèle Coefficients non standardisés Coef standardisés t Sig.
A Erreur standard Bêta
(Constante) 1359,603 97,700 13,916 ,000
MOTIVATION ,067 ,098 ,022 ,678 ,503
1 RENDEMENT.PERSONNEL -164,951 25,114 -,229 -6,568 ,000
CONGéS 17,324 1,472 1,109 11,766 ,000
AMBITION -1,151 1,542 -,072 -,747 ,461
a. Variable dépendante : REVENU

Si la MOTIVATION et l’AMBITION ne sont pas corrélées ( Pour coefficient de corrélation « r » très faible ) nous devons les retirer et refaire
l’analyse dès le début.
Si par contre nous constatons une forte relation entre MOTIVATION et l’AMBITION, soit nous éliminerons LA MOTIVATION soit l’AMBITION,
ou encore nous les remplacerons par leur moyenne. Nous retenons le modèle qui expliquerait la plus grande part de la variance de variable
dépendante (R-Deux le plus élevé) à condition que toutes les variables aient des significations inférieures à α.

Focus : Calcul de la moyenne de deux ou plusieurs variables


Procédure sous SPPS : Transformer – Calculer la variable – groupe de fonctions- statistique- double clic sur Mean – saisir le nom ou faire glisser
les variables corrélées entre parenthèses séparées par de virgules- saisir le nom de la nouvelle variable à créer – ok.

ANOVA
a Coefficientsa
Modèle Somme des carrés ddl Moyenne des carrés D Sig. Modèle Coefficients non standardisés Coefficients standardisés t Sig.
Régression 37793146,076 2 18896573,038 683,542 ,000b A Erreur standard Bêta
(Constante) 1359,603 97,700 13,916 ,000
1 Résidu 856998,042 31 27645,098
RENDEMENT.PERSONNEL -164,951 25,114 -,229 -6,568 ,000
Total 38650144,118 33 1
CONGéS 17,324 1,472 1,109 11,766 ,000
a. Variable dépendante : REVENU MOYNNE.MOT.AMBIT 1,727 ,315 1,133 5,485 ,032

La régression linéaire multiple


b. Valeurs prédites : (constantes), rendement.personnel, moyenne
a. Variable dépendante : REVENU

La signification de l’ANOVA est de 0,000 ≤ 5% ( Seuil classique 5%) donc le modèle est admis dans sa globalité au niveau de confiance de 95 ainsi que les signification des
variables indépendantes. Il faut vérifier les prémisses de la régression linéaire. Le revenu = 1359,603 -164,951*RENDEMENT + 17,324*CONGéS + 1,727* ( MOTIVATION+AMBITION
2
)

5èmecas Le seuil de l’ANOVA ≤ α et presque toutes les variables ont des significations inférieures au seuil choisi sauf quelques unes. Nous les
remplacerons par leur moyenne si elles sont corrélées sinon nous les supprimerons. Et pour vérifier l’existence de corrélation entre plusieurs
variables à la fois nous faisons appel à l’analyse factorielle multidimensionnelle (AFE).