3.analyse de La Variance A 1 Facteur Avec R. ANOVA-1 OK

INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique
stique I 2021 – 2022
Chapitre 1 - Modèle linéaire Simple

REGRESSION LINEAIRE - Modèle linéaire multiple
- Analyse de la variance à 1 facteur ANOVA-1
- Analyse de la variance à deux facteurs ANOVA-n
- Analyse de la covariance ANCOVA
Premier Institut privé de Formation aux métiers de l’ingénierie statistique et de la Data Science en Afrique francophone P a g e 1 | 23
Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique I 2021 – 2022
1. MODELE ECONOMIQUE VS MODELE ECONOMETRIQUE
1.1 Modèle économique

Selon Barbancho, un modèle est l’expression mathématique d’une certaine théorie économique.
L’exemple de la loi psychologique fondamentale de Keynes est assez pertinent à cet effet. D’après cette
loi, en moyenne et la plupart du temps lorsque le revenu d’un individu augmente, il augmente aussi sa
consommation, mais dans une proportion moindre à l’augmentation de son revenu. Mathématiquement,
si on note la consommation par 𝐶𝑡 et le revenu par 𝑌𝑡, cette loi peut être spécifiée comme suit :
𝑪𝒕 = 𝜶𝟎 + 𝜶𝟏 𝒀𝒕
[avec 𝜶𝟏 : propension marginale à consommer, 𝟎 < 𝜶𝟏 < 1]
En général, le modèle spécifié par l’économiste est défini comme étant une maquette de la réalité ou
d’un phénomène sous forme d’équations dont les variables sont des grandeurs économiques.
A ce sujet, Lester C. Thurow note ceci : « Les équations décrivent à quoi ressemblerait le monde réel s’il
ressemblait à la théorie».
1.2 Modèle économétrique

Toujours selon Barbancho, un modèle économétrique n’est autre chose qu’un modèle économique qui
contient les spécifications nécessaires pour son application empirique. C’est donc le modèle économique
auquel on ajoute un terme d’erreur 𝜺𝒕 .
𝑪𝒕 = 𝜶𝟎 + 𝜶𝟏 𝒀𝒕 + 𝜺𝒕
[modèle spécifié par l’économètre]
La première partie de ce modèle [𝜶𝟎 + 𝜶𝟏 𝒀𝒕 ] constitue sa partie systématique et la deuxième [𝜺𝒕 ] sa

partie stochastique ou aléatoire.
Il convient de noter également que le terme d’erreur 𝜺𝒕 [bruit, perturbation ou aléa] dénote de la
différence entre l’économiste et l’économètre. Il synthétise l’influence sur 𝑪𝒕 [variable expliquée] de
toutes les autres variables oubliées et des erreurs éventuelles de spécification de la forme fonctionnelle
dans le modèle spécifié par l’économiste. De plus, sa présence dans le modèle rend les paramètres 𝜶𝟎 et
𝜶𝟏 inconnus, on ne sait plus les calculer, il faut donc les estimer.
1.3 principales méthodes de modélisation statistique

Les méthodes de modélisation statistique sont, en fait, très nombreuses. Nous citons ci-dessous les
principales, sachant que la croissance considérable des masses de données enregistrées dans différents
secteurs (internet, biologie à haut débit, marketing...), le besoin d’exploiter ces données sur le plan
statistique, ainsi que les outils modernes de calcul ont donné naissance ces dernières années (disons
depuis le début du XXIe siècle) à de nombreuses méthodes, de plus en plus sophistiquées et, dans le
même temps, de plus en plus “gourmandes” en temps calcul.
Dans les méthodes décrites ci-dessous, il y a presque toujours une variable privilégiée, en général appelée
variable à expliquer, ou variable réponse, et notée Y (il s’agit d’une variable aléatoire). Le but est alors de
construire un modèle permettant d’expliquer “au mieux” cette variable Y en fonction de variables
explicatives observées sur le même échantillon.

a. Le modèle linéaire (gaussien) de base
À la fois le plus simple, le plus ancien et le plus connu des modèles statistiques, il englobe
essentiellement :
✓ la régression linéaire simple et multiple,
✓ l’analyse de variance
✓ et l’analyse de covariance.
Dans ce modèle, les variables explicatives (régresseurs ou facteurs) ne sont pas aléatoires (elles sont à
effets fixes). Pour pouvoir être exploité pleinement, ce modèle nécessite l’hypothèse de normalité des
erreurs, donc de la variable à expliquer (hypothèse gaussienne).
b. Le modèle linéaire généralisé

Il généralise le précédent à deux niveaux :
• d’une part, la loi des erreurs, donc de la variable réponse, n’est plus nécessairement gaussienne, mais
doit appartenir à l’une des lois de la famille exponentielle ;
• d’autre part, la liaison linéaire entre l’espérance de la variable réponse et les variables explicatives se
fait à travers une fonction particulière appelée fonction lien (spécifiée a priori).
Ce modèle englobe différentes méthodes telles que :
✓ la régression logistique,
✓ la régression de Poisson,
✓ le modèle log-linéaire
✓ ou certains modèles de durée de vie.
c. Les modèles non linéaires

De façon très générale, il s’agit de modèles permettant d’expliquer la variable réponse (aléatoire) au
moyen des variables explicatives (non aléatoires dans les modèles usuels), à travers une fonction
quelconque, inconnue (on est donc en dehors du cadre du modèle linéaire généralisé). Cette classe de
modèles est très vaste et relève, en général, de la statistique non paramétrique. Citons, à titre
d’exemple :
✓ la régression non paramétrique,
✓ les GAM (Generalized Additive Models)
✓ et les réseaux de neurones.
d. Les modèles mixtes

On désigne sous ce terme des modèles permettant d’expliquer la variable aléatoire réponse au moyen
de diverses variables explicatives :
✓ certaines étant aléatoires (on parle en général de facteurs à effets aléatoires) et intervenant dans la
modélisation de la variance du modèle,
✓ d’autres ne l’étant pas (on parle de facteurs à effets fixes) et intervenant dans la modélisation de la
moyenne.
On trouve ainsi des modèles linéaires gaussiens mixtes, des modèles linéaires généralisés mixtes et des
modèles non linéaires mixtes.

e. Les modèles pour données répétées

On appelle données répétées, ou données longitudinales, des données observées au cours du temps sur
les mêmes individus (en général, il s’agit de personnes ou d’animaux suivis dans le cadre d’une
expérimentation médicale ou biologique). De façon claire, il est nécessaire de prendre en compte dans
ces modèles une certaine dépendance entre les observations faites sur un même individu à différents
instants. Les modèles linéaires ou linéaires généralisés, qu’ils soient standards ou mixtes, sont utilisés
dans ce contexte.
f. Les modèles pour séries chronologiques

Les séries chronologiques sont les observations, au cours du temps, d’une certaine grandeur
représentant un phénomène économique, social ou autre. Si données répétées et séries chronologiques
ont en commun de rendre compte de l’évolution au cours du temps d’un phénomène donné, on notera
que ces deux types de données ne sont pas réellement de même nature (dans une série chronologique,
ce sont rarement des personnes ou des animaux que l’on observe).
Pour les séries chronologiques, on utilise des modèles spécifiques :

✓ Modèles AR (Auto-Regressive, ou auto-régressifs),
✓ MA (Moving Average, ou moyennes mobiles),
✓ ARMA,
✓ ARIMA (I pour Integrated)...
✓ ARCH
✓ GARCH
g. L’analyse discriminante et la classification

S’il est plus courant d’utiliser ces méthodes dans un contexte d’exploration des données plutôt que dans
un contexte de modélisation, l’analyse discriminante et la classification peuvent tout de même être
utilisées dans la phase de recherche d’un modèle permettant d’ajuster au mieux les données considérées.
C’est en particulier le cas lorsque la variable réponse du modèle envisagé est de nature qualitative.
h. Les modèles par arbre binaire de régression et de classification

Ces méthodes (plus connues sous le nom de CART, pour Classification And Regression Trees) consistent
à découper une population en deux parties, en fonction de celle des variables explicatives et du
découpage en deux de l’ensemble de ses valeurs ou modalités qui expliquent au mieux la variable
réponse. On recommence ensuite sur chaque sous-population ainsi obtenue, ce qui permet de définir, de
proche en proche, un arbre binaire et de classer les variables explicatives selon l’importance de leur
liaison avec la variable réponse (on parle d’arbre de régression en présence d’une variable réponse
quantitative et d’arbre de classification en présence d’une variable réponse qualitative). De telles
méthodes peuvent constituer un complément intéressant au modèle linéaire ou au modèle linéaire
généralisé.

i. Quelques autres modèles

Concernant les méthodes de modélisation statistique, on ne saurait être exhaustif dans cette
introduction. Parmi les méthodes récentes, faisant un usage intensif de l’ordinateur, citons, pour
mémoire :
✓ la régression PLS (Partial Least Squares),
✓ les méthodes d’agrégation, ou de combinaison, de modèles (bagging, boosting, random forests),
✓ les méthodes de régularisation
✓ et les SVM (Support Vector Machines).
Dans ce document, nous n’aborderons qu’un petit nombre de modèles parmi ceux évoqués ci-dessus. En
fait, tous les modèles qui seront abordés relèvent du modèle linéaire gaussien : le modèle de base.

2. PRELIMINAIRES A TOUTE MODELISATION STATISTIQUE
Quel que soit le modèle, ou le type de modèles, envisagé face à un jeu de données, quel que soit le
problème qu’il s’agit de traiter, une modélisation statistique ne peut sérieusement s’envisager que sur
des données “propres”, c’est à dire pré-traitées, afin de les débarrasser, autant que faire se peut, de tout
ce qui peut nuire à la modélisation : codes erronés, données manquantes, données aberrantes, variables
inutiles, variables redondantes... C’est cet ensemble de pré-traitements que nous décrivons dans ce
paragraphe. On notera que cette phase est parfois appelée datamanagement, autrement dit “gestion
des données”.
a. “Nettoyage” des données

Avant toute chose, il faut disposer d’un fichier informatique contenant les données dans un format
exploitable (texte ou excel, par exemple), les individus étant disposés en lignes et les variables en
colonnes. Avec ce fichier, il faut essayer de repérer d’éventuels codes interdits ou aberrants : chaîne de
caractères pour une variable numérique ; code “3” pour la variable sexe ; valeur 153 pour l’âge d’un
groupe d’individus, etc. Une fois repérés, ces codes doivent être corrigés si possible, supprimés sinon.
Dans cette phase, il faut également essayer de repérer des données manquantes en grande quantité, soit
sur une colonne (une variable), soit sur une ligne (un individu). Si quelques données manquantes ne sont
pas vraiment gênantes dans la plupart des traitements statistiques, il n’en va pas de même lorsque cela
concerne un fort pourcentage des observations d’une variable ou d’un individu. Dans ce cas, il est
préférable de supprimer la variable ou l’individu (dont la colonne, ou la ligne, serait, de toutes façons,
inexploitable).
b. Analyse univariée
Cette phase, souvent fastidieuse, consiste à étudier chaque variable l’une après l’autre, afin d’en
connaître les principales caractéristiques et d’en repérer, le cas échéant, certaines anomalies.
Pour les variables quantitatives, on pourra faire un histogramme ou un diagramme en boîte et déterminer
des caractéristiques telles que le minimum, le maximum, la moyenne, l’écart-type, la médiane et les
quartiles. Cela peut conduire à supprimer une variable (si elle présente très peu de variabilité), à la
transformer (par exemple, en prenant son logarithme si elle est à valeurs positives et très dissymétrique),
ou encore à repérer des valeurs très particulières (que l’on devra, éventuellement, corriger ou éliminer).
Pour les variables qualitatives, on pourra faire un diagramme en colonnes des modalités et déterminer
les effectifs et les fréquences de ces dernières. Cela pourra encore conduire à supprimer une variable (si
tous les individus, ou presque, présentent la même modalité), ou à en regrouper des modalités “proches”
(si certains effectifs sont trop faibles).
Ces analyses univariées permettent également de prendre connaissance des données et de fournir
certaines indications pour la phase ultérieure de modélisation. Toutefois, il faut noter que ces analyses
peuvent être inenvisageables avec des données “fortement multidimensionnelles”, c’est-à-dire
comportant des centaines, voire des milliers, de variables ; on rencontre aujourd’hui de telles données
dans certains contextes particuliers.

c. Analyses bivariées
Ces analyses ont pour but d’étudier d’éventuelles liaisons existant entre couples de variables. Il peut
s’agir de deux variables explicatives, dont on soupçonne qu’elles sont fortement corrélées, dans le but
d’éliminer l’une des deux. Il peut aussi s’agir d’étudier les liens entre la variable à expliquer et chaque
variable explicative (de façon systématique), pour avoir une première idée des variables explicatives
susceptibles de jouer un rôle important lors de la modélisation. Enfin, ces analyses peuvent aussi
permettre de repérer des points aberrants (ou extrêmes) qui n’ont pas pu l’être avec les analyses
univariées.
Rappelons que, pour étudier la liaison entre deux variables quantitatives, on dispose, comme graphique,
du nuage de points (ou diagramme de dispersion) et, comme indicateur de liaison, du coefficient de
corrélation linéaire. Dans le cas d’une variable quantitative et d’une variable qualitative, on dispose du
diagramme en boîtes parallèles et du rapport de corrélation. Enfin, dans le cas de deux variables
qualitatives, on utilise en général un diagramme en colonnes de profils (profils-lignes ou profils-colonnes
selon ce que l’on souhaite mettre en évidence) et des indicateurs de liaison liés au khi-deux (coefficients
de Tschuprow ou de Cramer).
d. Analyses multivariées quantitatives

Elles consistent à déterminer la matrice des corrélations entre toutes les variables quantitatives
considérées, notamment la variable à expliquer, lorsque celle-ci est quantitative. Cela peut permettre
encore de supprimer des variables très corrélées, par exemple afin d’éviter de faire une régression sur
de telles variables, dont on sait que les résultats seraient très instables, voire sans aucune signification.
Cela permet aussi de prendre connaissance de la structure de corrélation entre les variables considérées,
ce qui est toujours utile dans le cadre d’une modélisation.
On peut également envisager, à ce niveau, de réaliser une analyse en composantes principales (A.C.P.)
de toutes ces variables, afin de préciser davantage, de façon globale, leurs relations linéaires.
e. Analyses multivariées qualitatives

C’est le pendant des analyses ci-dessus, cette fois pour les variables qualitatives. On peut, tout d’abord,
déterminer la matrice des coefficients de Tschuprow (ou celle des coefficients de Cramer) et l’analyser
comme une matrice de corrélations. Toutefois, il est bien connu que, dans la pratique, ces coefficients
sont systématiquement petits : pratiquement toujours inférieurs à 0.5 et le plus souvent compris entre
0.1 et 0.3. Leur interprétation est donc, en général, assez délicate. Ils permettent néanmoins de repérer
les liaisons les plus importantes, même si elles sont de l’ordre de 0.3, 0.4 ou 0.5.
Il est d’autant plus important d’envisager, dans ces analyses préliminaires, de réaliser une analyse des
correspondances multiples (A.C.M.) entre variables qualitatives. Celle-ci permettra, le cas échéant, de
confirmer une liaison forte entre certains couples de variables et, si nécessaire, d’en éliminer quelques-
unes. L’A.C.M. permet également de regrouper certaines modalités d’une même variable lorsque celles-
ci apparaissent proches dans l’ensemble des résultats et, par suite, de simplifier les données. Enfin, le
tableau de Burt, fourni avec les résultats de l’A.C.M., permet de repérer des occurrences très faibles pour
certains croisements de modalités et d’envisager encore d’autres regroupements.

f. Bilan
Une fois réalisées toutes les étapes préliminaires décrites ci-dessus, on dispose de données “mises au
propre”, simplifiées, et dont on commence à connaître certaines caractéristiques. On peut, à partir de ce
moment-là, envisager leur modélisation.
Les modèles susceptibles d’être adaptés aux données considérées, parmi tous ceux décrits dans le
paragraphe précédent, sont nécessairement limités à ce stade-là. Ils sont fonction de la nature des
données ainsi que des questions posées par l’utilisateur, autrement dit de ses objectifs.
Insistons ici sur le fait que des données sont toujours recueillies (produites) par un utilisateur (biologiste,
informaticien, gestionnaire...) dans un but bien précis. La modélisation statistique doit avoir pour objectif
premier de répondre aux questions que s’est posé cet utilisateur lorsqu’il a décidé de recueillir les
données. Une collaboration entre utilisateur et statisticien est donc, à ce niveau-là, absolument
indispensable.

3. LES ETAPES DU PROCESSUS DE MODELISATION
1. Estimer les valeurs des coefficients (𝛽0 ; 𝛽1 ; 𝛽2 ; … ; 𝛽𝑝 ) à partir d’un échantillon de données
(estimateur des moindres carrés ordinaires).
2. Évaluer la précision de ces estimations (biais, variance des estimateurs).
3. Mesurer le pouvoir explicatif du modèle dans sa globalité (tableau d’analyse de variance, coefficient
de détermination).
4. Tester la réalité de la relation entre Y et les exogènes Xj (test de significativité globale de la

régression).
5. Tester l’apport marginal de chaque variable explicative dans l’explication de Y (test de significativité
de chaque coefficient).
6. Tester l’apport d’un groupe de variables explicatives dans l’explication de Y (test de significativité
simultanée d’un groupe de coefficient).
7. Pour un nouvel individu 𝑖 ∗ pour lequel on fournit la description (𝑥 ∗1 ; … ; 𝑥 ∗𝑝 ), calculer la valeur

prédite 𝑦 ∗ et la fourchette de prédiction.
8. Interpréter les résultats en mettant en avant notamment l’impact des exogènes sur l’endogène
(interprétation des coefficients, analyse structurelle).
9. Tester à postériori la validité du modèle c-à-d sa conformité avec les hypothèses de départ.
10. Si le modèle est satisfaisant, il peut servir à des fins explicatives ou prospectives sinon reprendre
toutes les étapes précédentes avec une nouvelle spécification de modèle.
Variable Variables Nom de la technique de

à Expliquer explicatives modélisation
1 quantitative 1 quantitative Régression linéaire Simple
1 quantitative 𝒏 quantitatives Régression linéaire Multiple
1 quantitative 1 qualitative ANOVA à un facteur
1 quantitative 𝒏 qualitatives ANOVA à 𝒏 facteur
1 quantitative 𝒏 quantitatives + qualitatives ANCOVA
n quantitative 𝒏 qualitatives MANOVA à 𝒏 facteur
n quantitative 𝒏 quantitatives + qualitatives MANCOVA
1 qualitative 𝒏 quantitatives + qualitative Analyse Discriminante Linéaire

1 qualitative 𝒏 quantitatives + qualitative Régression Logistique
1 variable de comptage 𝒏 quantitatives + qualitative Régression de poisson

1 variable censurée ou tronquée 𝒏 quantitatives + qualitative Régression Tobit
1 variable de durée 𝒏 quantitatives + qualitative Régression de durée

DEFINITION DE LA METHODE
L’analyse de la variance (ou ANOVA) à 1 facteur est une méthode statistique

permettant de modéliser la relation entre une variable explicative
qualitative à I modalités (notée A) et une variable à expliquer
quantitative (notée Y). L’objectif principale de l’analyse de la variance
à 1 facteur est de comparer des moyennes empiriques de Y pour les I
modalités de A
# 1) Rappel de la 1ere écriture du modèle

𝑦𝑖𝑗 = 𝜇𝑖 + 𝜀𝑖𝑗 ; 𝑖 = 1, … , 𝐼 𝑗 = 1, … , 𝑛𝑖
L’ANOVA revient ici à tester l’Egalite des 𝑢𝑖

𝐻0 ∶ 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑛 : Toutes les moyennes sont égales
𝐻1 ∶ 𝜇𝑖 ≠ 𝜇𝑗 : Au moins une des moyenne est différente des autres
# 2) Rappel de la 2eme écriture du modèle

𝑦𝑖𝑗 = 𝜇𝑖 + 𝛼𝑖 + 𝜀𝑖𝑗 ; 𝑖 = 1, … , 𝐼 𝑗 = 1, … , 𝑛𝑖
Avec
𝜇 : L’effet moyen
𝛼𝑖 : L’effet propre à la modalité 𝑖
HYPOTHESES ET CONDITIONS D’APPLICATION DE L’ANALYSE DE LA VARIANCE

PRESENTATION DE LA STRUCTURE DES DONNEES

(DATAFRAME OU AUTRE STRUCTURE DE DONNEE)

SIMILITUDE DE L’ANALYSE DE LA VARIANCE A 1 FACTEUR AVEC LA REGRESION

SIMPLE AVEC UNE VARIABLE EXPLICATIVE BINAIRE
setwd("D:/jeudonnee")
salaire<-read.table("salaire.csv",header=TRUE,sep=";",check.names=FALSE)
str(salaire)
'data.frame': 25 obs. of 2 variables:
$ salaire: int 500000 430000 245000 340000 250000 375000 190000 360000 250000 255000 ...
$ sexe : Factor w/ 2 levels "femme","homme": 2 2 1 2 1 2 1 1 2 1 ...
summary(salaire)
salaire sexe
Min. :180000 femme:13
1st Qu.:250000 homme:12
Median :321000
Mean :319400
3rd Qu.:375000
Max. :524000
Expliquer le salaire en fonction du sexe (homme=0 ; femme=1) :
# 1ere étape : comparer graphiquement les sous population

# +----------------------------------------------------+#
boxplot(salaire$salaire~salaire$sexe)

# 2eme étape : estimer les statistiques de base (mean, quantile, sd) par ss pop
# +--------------------------------------------------------------------------+#
tapply(salaire$salaire,salaire$sexe,mean,na.rm=TRUE)
femme homme
287307.7 354166.7
tapply(salaire$salaire,salaire$sexe,sd,na.rm=TRUE)
femme homme
76912.7 104833.9
tapply(salaire$salaire,salaire$sexe,quantile,na.rm=TRUE)
$femme
0% 25% 50% 75% 100%
180000 245000 308000 350000 428000
$homme
0% 25% 50% 75% 100%
189000 269500 357500 413500 524000
# 3eme étape : tester la liaison entre le salaire et le sexe

# +--------------------------------------------------------------------------+#
𝐻0 ∶ 𝑙𝑒𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑛𝑒 𝑠𝑜𝑛𝑡 𝑝𝑎𝑠 𝑙𝑖é𝑒𝑠

𝐻1 ∶ 𝑙𝑒𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑠𝑜𝑛𝑡 𝑙𝑖é𝑒𝑠
aov<-lm(salaire$salaire~salaire$sexe)
anova(aov)
Analysis of Variance Table
Response: salaire$salaire
Df Sum Sq Mean Sq F value Pr(>F)
salaire$sexe 1 2.7894e+10 2.7894e+10 3.3435 0.08047 .
Residuals 23 1.9188e+11 8.3425e+09
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# Conclusion : la p-value > 0.05 donc on ne peut rejeter 𝐻0 , les deux moyennes
ne sont pas significativement différentes au seuil de 5%. Les deux variables ne
sont pas liées (le salaire n’est pas lié au sexe, c-à-d, le salaire des hommes
n’est pas significativement différent du salaire des femmes)

# 4eme étape : faire la régression linéaire simple

# +--------------------------------------------------------------------------+#
mod<-lm(salaire$salaire~salaire$sexe)
mod$coefficients
(Intercept) salaire$sexehomme
287307.69 66858.97
# Voir l'intervalle de confiance des coefficients estimés
confint(mod)
2.5 % 97.5 %
(Intercept) 299622.6 408710.689
salaire$sexe -142497.9 8779.975
summary(mod)
Call:
lm(formula = salaire$salaire ~ salaire$sexe)
Residuals:
Min 1Q Median 3Q Max
-165167 -78167 20692 62692 169833
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 287308 25333 11.341 6.76e-11 ***
salaire$sexehomme 66859 36564 1.829 0.0805 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 91340 on 23 degrees of freedom

Multiple R-squared: 0.1269, Adjusted R-squared: 0.08896
F-statistic: 3.344 on 1 and 23 DF, p-value: 0.08047
INTERPRETATION
Le test du coefficient de la variable séparation n’est pas significatif, on ne

peut donc pas l’interpréter.
S’il était significatif, on dirait que par rapport aux femmes (modalité de
référence : femme) les hommes ont en moyenne 66859 de plus que les femmes.
tapply(salaire$salaire,salaire$sexe,mean,na.rm=TRUE)
femme homme
287307.7 354166.7
(354166.7 - 287307.7) = 66858

MISE EN ŒUVRE DE LA METHODE SOUS R
# ETAPES
# 3eme étape : tester la normalité des données dans chaque sous population
# 4eme étape : tester l’égalité des variances
# 5eme étape : tester la significativité du facteur: tester l’égalité des moyennes
# 6eme étape : Analyser les résidus
# 7eme étape : Interpréter les coefficients
# On va analyser l’âge des détenus en fonction de leur profession (la

profession est-elle liée à l’âge ? ou a-t-elle un effet sur l’âge)
setwd("C:/jeudonnee")
smp<-read.table("smp2.csv",header=TRUE,sep=";",check.names=FALSE)

# +----------------------------------------------------+#
boxplot(smp$age~smp$prof)
# +--------------------------------------------------------------------------+#
tapply(smp$age,smp$prof,mean,na.rm=TRUE)
tapply(smp$age,smp$prof,sd,na.rm=TRUE)
tapply(smp$age,smp$prof,quantile,na.rm=TRUE)

# 3eme étape : tester la normalité des données dans chaque sous population
# +----------------------------------------------------+#
library(car)
library(RVAideMemoire)
byf.qqnorm(smp$age~smp$prof)
byf.shapiro(smp$age~smp$prof)
Shapiro-Wilk normality tests
data: smp$age by smp$prof
W p-value
agriculteur 0.7957 0.053706 .
artisan 0.9873 0.533292
autre 0.7614 1.078e-05 ***
cadre 0.9843 0.960188
employ? 0.9652 0.001595 **
ouvrier 0.9613 8.048e-06 ***
prof.interm?diaire 0.9701 0.161941
sans emploi 0.8791 2.593e-12 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# REMARQUE : Si la normalité de la variable n’est pas vérifiée, soit on peut

transformer cette dernière, soit avoir recours à l’équivalent non paramétrique
de l’ANOVA, le test de Kruskall-Wallis.

# 4eme étape : tester l’égalité des variances

# +----------------------------------------+#
bartlett.test(smp$age~smp$prof)
Bartlett test of homogeneity of variances
Bartlett's K-squared = 20.048, df = 7, p-value = 0.005466
# Conclusion : la p-value < 0.05 donc on rejette 𝐻0 , Au moins une variance est
significativement différentes des autres.
# REMARQUE : Si l’hétérogénéité entre variances est très importante, on peut

avoir recours aux statistiques non paramétriques de l’ANOVA, test de Kruskal-
Wallis.
kruskal.test(smp$age~smp$prof).
Kruskal-Wallis rank sum test

Kruskal-Wallis chi-squared = 79.96, df = 7, p-value = 1.403e-14
# Conclusion : la p-value < 0.05 donc on rejette 𝐻0 , Au moins une des moyenne
est significativement différente des autres.
# 5eme étape : faire un test robuste par bootsrap (rééchantillonage)

# +---------------------------------------------------------------------+#
library(pgirmess)
reg.aov<-lm(smp$age~smp$prof)
PermTest(reg.aov, B=100) # 100 échantillons
Monte-Carlo test
Call:
PermTest.lm(obj = reg.aov, B = 100)
Based on 100 replicates

Simulated p-value:
p.value
smp$prof 0
PermTest(reg.aov, B=1000) # 1000 échantillons

Monte-Carlo test
Call:
PermTest.lm(obj = reg.aov, B = 1000)
Based on 1000 replicates

Simulated p-value:
p.value
smp$prof 0
est significativement différente des autres. Il y a donc bien l’existence d’un
effet de la profession sur l’âge.

# 5eme étape : tester la significativité du facteur: tester l’égalité des

moyennes
# +---------------------------------------------------------------------+#
anova(reg.aov)
Response: smp$age
smp$prof 7 11175 1596.45 9.7256 1.197e-11 ***
Residuals 785 128857 164.15
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# Il est dans ce cas nécessaire de réaliser des comparaisons deux-à-deux pour

identiﬁer les classes en question, via
pairwise.perm.t.test(variable,facteur)avec la librairie RVAideMemoire .
pairwise.perm.t.test(smp$age,smp$prof)
Pairwise comparisons using permutational t tests
data: smp$age and smp$prof
999 permutations
agriculteur artisan autre cadre employe ouvrier prof.interm?diaire
artisan 0.5062 - - - - - -
autre 0.1621 0.0056 - - - - -
cadre 0.8460 0.1219 0.0056 - - - -
employ? 0.1244 0.0056 0.2268 0.0056 - - -
ouvrier 0.0420 0.0056 0.3589 0.0056 0.3652 - -
prof.interm?diaire 0.3780 0.3853 0.0305 0.0680 0.0646 0.0056 -
sans emploi 0.1155 0.0056 0.8193 0.0056 0.1083 0.3387 0.0056
P value adjustment method: fdr
# Conclusion : Il peut arriver que les comparaisons deux-à-deux n’indiquent

aucune différence signiﬁcative, contrairement au test global. Dans ce cas, la
solution la plus prudente est de considérer qu’on ne peut pas savoir quelles
moyennes sont responsables du rejet de l’hypothèse nulle dans le test global.
# Conclusion : on peut ici soupçonner les moyennes (des cardes et agriculteurs)
et les moyennes (des sans-emploi et autres) d’être responsables du rejet de
l’hypothèse nulle

# 6eme étape : Analyser les résidus

# +------------------------------+#
library(lattice)
res.aov<-rstudent(reg.aov)
xyplot(res.aov~I(1:799)|smp$prof)
# Conclusion : En théorie, 95% des résidus studentisés se trouvent dans

l’intervalle [-2;2]. Ici, on constate que la grande majorité des résidus se
trouvent dans cet intervalle.
res.aov<-rstudent(reg.aov)
sum(as.numeric(abs(res.aov)<=2))/nrow(smp)*100
[1] 94.36796

# 7eme étape : Interpréter les coefficients

# +--------------------------------------+#
# Lors du test de la significativité du facteur, nous avons constaté qu’il y a

un effet global de la profession sur l’âge des détenus (voir le test Anova
ci-dessous)
anova(reg.aov)
Response: smp$age
smp$prof 7 11175 1596.45 9.7256 1.197e-11 ***
Residuals 785 128857 164.15
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# RAPPEL DE L’ECRITURE DU MODELE D’ANALYSE DE LA VARIANCE

# + ---------------------------------------------------+#
# 1) Rappel de la 1ere écriture du modèle
𝑦𝑖𝑗 = 𝜇𝑖 + 𝜀𝑖𝑗 ; 𝑖 = 1, … , 𝐼 𝑗 = 1, … , 𝑛𝑖
L’ANOVA revient ici à tester l’Egalite des 𝑢𝑖

# 2) Rappel de la 2eme écriture du modèle

𝑦𝑖𝑗 = 𝜇𝑖 + 𝛼𝑖 + 𝜀𝑖𝑗 ; 𝑖 = 1, … , 𝐼 𝑗 = 1, … , 𝑛𝑖
Avec
𝜇 : L’effet moyen
𝛼𝑖 : L’effet propre à la modalité 𝑖
# REMARQUE : Dans cette écriture, nous avons I+1 paramètres à estimer dont
seulement I sont identifiables. Il faut donc imposer une contrainte linéaire.
Différentes contraintes existent, les plus usuels sont :
➢ Un des 𝛼𝑖 est fixée a zéro, ce qui revient à fixer la modalité 𝑖 comme
modalité de référence (Par défaut R utilise cette contrainte en fixant 𝜶𝟏 = 𝟎,
ce qui revient à prendre comme référence le 1ere modalité "label" par ordre
alphabétique).
➢ La somme des 𝛼𝑖 est nulle (∑ 𝛼𝑖 = 0) ce qui revient à prendre la moyenne comme
référence.
L’ANOVA revient ici à tester l’Egalite des 𝜇𝑖

𝐻0 ∶ 𝛼𝑖 = 0 : Toutes les modalités ont un effet nul
𝐻1 ∶ ∃𝑖 𝛼𝑖 ≠ 0 : Au moins une des modalités a un effet qui n’est pas nul.
# Précisons maintenant comment la profession influe sur l’âge des détenus. Pour
cela, nous analyserons les coefficients à l’aide du test de Student

# 1) Calcul des coefficients avec 𝜶𝟏 = 𝟎 option par défaut sur R : smp$agriculteur

étant la première modalité par ordre alphabétique, c’est elle qui sera utilisée.
summary(reg.aov)
Call:
lm(formula = smp$age ~ smp$prof)
Residuals:
-25.111 -10.396 -1.896 7.289 47.104
Coefficients:
(Intercept) 48.833 5.231 9.336 <2e-16 ***
smp$profartisan -3.722 5.402 -0.689 0.4910
smp$profautre -13.898 5.714 -2.432 0.0152 *
smp$profcadre 1.250 5.848 0.214 0.8308
smp$profemploye -10.122 5.345 -1.894 0.0586 .
smp$profouvrier -11.437 5.299 -2.158 0.0312 *
smp$profprof.intermediaire -5.575 5.494 -1.015 0.3106
smp$profsans emploie -12.937 5.301 -2.441 0.0149 *
---
Signif. Codes : 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 12.81 on 785 degrees of freedom

(6 observations deleted due to missingness)
F-statistic: 9.726 on 7 and 785 DF, p-value: 1.197e-11
# l’estimateur de 𝝁, noté ici Intercept, est la moyenne de l’âge des détenus

(48.833 ans) pour la profession agriculteur (modalité de référence). Les autres
valeurs obtenues correspondent aux écarts à cette moyenne pour la profession
considérée.
# la colonne Pr(>|t|) correspond au test 𝐻0 ∶ 𝛼𝑖 = 0. Cela permet de répondre à

la question suivante : y-a-t-il une ressemblance entre la profession considérée
et la profession agriculteur (profession de référence) ?
➢ Si cette P-value < 0.05, on rejette 𝐻0 (c.-à-d. que les professions concernées
sont significativement différentes de la profession agriculteur : autre,
ouvriers, sans-emploi)
➢ Si cette P-value > 0.05, on ne peut rejeter 𝐻0. (c.-à-d. que les professions
concernées ne sont pas significativement différentes de la profession
agriculteur : artisan, cadre, profession intermédiaire, et dans une moindre
mesure employé)

# 2) Si on veut choisir une autre modalité comme référence par exemple smp$cadre
(4eme modalite)
table(smp$prof)
agriculteur artisan autre cadre employ? ouvrier prof.interm?diaire sans emploi
6 90 31 24 135 227 58 222
summary(lm(age~C(prof,base=4),data=smp))
Call:
lm(formula = age ~ C(prof, base = 4), data = smp)
Residuals:
-25.111 -10.396 -1.896 7.289 47.104
Coefficients:
(Intercept) 50.083 2.615 19.150 < 2e-16 ***
C(prof, base = 4)1 -1.250 5.848 -0.214 0.8308
C(prof, base = 4)2 -4.972 2.943 -1.689 0.0916 .
C(prof, base = 4)3 -15.148 3.483 -4.348 1.55e-05 ***
C(prof, base = 4)5 -11.372 2.838 -4.007 6.74e-05 ***
C(prof, base = 4)6 -12.687 2.750 -4.613 4.63e-06 ***
C(prof, base = 4)7 -6.825 3.110 -2.195 0.0285 *
C(prof, base = 4)8 -14.187 2.753 -5.153 3.24e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

# 3) Si on veut choisir une autre modalité comme référence par exemple cadre
smp$prof<-relevel(smp$prof,ref="cadre")
summary(reg.aov)
Call:
lm(formula = smp$age ~ smp$prof)
Residuals:
-25.111 -10.396 -1.896 7.289 47.104
Coefficients:
(Intercept) 50.083 2.615 19.150 < 2e-16 ***
smp$profagriculteur -1.250 5.848 -0.214 0.8308
smp$profartisan -4.972 2.943 -1.689 0.0916 .
smp$profautre -15.148 3.483 -4.348 1.55e-05 ***
smp$profemploy? -11.372 2.838 -4.007 6.74e-05 ***
smp$profouvrier -12.687 2.750 -4.613 4.63e-06 ***
smp$profprof.interm?diaire -6.825 3.110 -2.195 0.0285 *
smp$profsans emploi -14.187 2.753 -5.153 3.24e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


# 4) Si on prend la contrainte (∑ 𝜶𝒊 = 𝟎) ce qui revient à prendre la moyenne

comme référence.
summary(lm(age~C(prof,sum),data=smp))
Call:
lm(formula = age ~ C(prof, sum), data = smp)
Residuals:
-25.111 -10.396 -1.896 7.289 47.104
Coefficients:
(Intercept) 41.7782 0.8554 48.843 < 2e-16 ***
C(prof, sum)1 7.0551 4.6098 1.530 0.126307
C(prof, sum)2 3.3329 1.4490 2.300 0.021701 *
C(prof, sum)3 -6.8427 2.1686 -3.155 0.001664 **
C(prof, sum)4 8.3051 2.4210 3.430 0.000634 ***
C(prof, sum)5 -3.0671 1.2820 -2.392 0.016973 *
C(prof, sum)6 -4.3818 1.1287 -3.882 0.000112 ***
C(prof, sum)7 1.4804 1.6895 0.876 0.381162
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

# Par défaut R calcule les valeurs 𝝁 ̂, 𝜶

̂𝟏, 𝜶
̂𝟐, 𝜶
̂𝟑, 𝜶
̂𝟒, 𝜶
̂𝟓, 𝜶 ̂ 𝟕 ,Puique (∑ 𝜶𝒊 = 𝟎) pour
̂𝟔, 𝜶
trouver le coefficient associée a la dernière profession (sans emploi)
̂𝟏 + 𝜶
𝜶𝟖 = −(𝜶 ̂𝟐 + 𝜶
̂𝟑 + 𝜶
̂𝟒 + 𝜶
̂𝟓 + 𝜶 ̂𝟕)
̂𝟔 + 𝜶
𝜶𝟖 < − -(7.0551+3.3329-6.8427+8.3051-3.0671-4.3818+1.4804)
𝜶𝟖
-5.8819
# REMARQUE : Dans toutes ces analyses, nous voyons que les valeurs des estimateurs
changent suivant la contrainte. Par contre, le test global donne en dernière
ligne des listings et qui correspond au résultat du tableau d’analyse de la
variance reste le même :

3.analyse de La Variance A 1 Facteur Avec R. ANOVA-1 OK

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

3.analyse de La Variance A 1 Facteur Avec R. ANOVA-1 OK

Transféré par

Droits d'auteur :

Formats disponibles

INSSEDS data university : Institut Supérieur de Statistique d’Econométrie et de Data Science I Cabinet BIIS : Bureau Ivoirien d’Ingénierie Statistique

stique I 2021 – 2022

Chapitre 1 - Modèle linéaire Simple

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

1. MODELE ECONOMIQUE VS MODELE ECONOMETRIQUE

1.1 Modèle économique

1.2 Modèle économétrique

La première partie de ce modèle [𝜶𝟎 + 𝜶𝟏 𝒀𝒕 ] constitue sa partie systématique et la deuxième [𝜺𝒕 ] sa

1.3 principales méthodes de modélisation statistique

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

a. Le modèle linéaire (gaussien) de base

b. Le modèle linéaire généralisé

c. Les modèles non linéaires

d. Les modèles mixtes

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

e. Les modèles pour données répétées

f. Les modèles pour séries chronologiques

Pour les séries chronologiques, on utilise des modèles spécifiques :

g. L’analyse discriminante et la classification

h. Les modèles par arbre binaire de régression et de classification

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

i. Quelques autres modèles

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

2. PRELIMINAIRES A TOUTE MODELISATION STATISTIQUE

a. “Nettoyage” des données

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

d. Analyses multivariées quantitatives

e. Analyses multivariées qualitatives

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

3. LES ETAPES DU PROCESSUS DE MODELISATION

2. Évaluer la précision de ces estimations (biais, variance des estimateurs).

4. Tester la réalité de la relation entre Y et les exogènes Xj (test de significativité globale de la

7. Pour un nouvel individu 𝑖 ∗ pour lequel on fournit la description (𝑥 ∗1 ; … ; 𝑥 ∗𝑝 ), calculer la valeur

Variable Variables Nom de la technique de

1 qualitative 𝒏 quantitatives + qualitative Analyse Discriminante Linéaire

1 variable de comptage 𝒏 quantitatives + qualitative Régression de poisson

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

L’analyse de la variance (ou ANOVA) à 1 facteur est une méthode statistique

# 1) Rappel de la 1ere écriture du modèle

L’ANOVA revient ici à tester l’Egalite des 𝑢𝑖

# 2) Rappel de la 2eme écriture du modèle

HYPOTHESES ET CONDITIONS D’APPLICATION DE L’ANALYSE DE LA VARIANCE

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

PRESENTATION DE LA STRUCTURE DES DONNEES

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

SIMILITUDE DE L’ANALYSE DE LA VARIANCE A 1 FACTEUR AVEC LA REGRESION

Expliquer le salaire en fonction du sexe (homme=0 ; femme=1) :

# 1ere étape : comparer graphiquement les sous population

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

# 3eme étape : tester la liaison entre le salaire et le sexe

𝐻0 ∶ 𝑙𝑒𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑛𝑒 𝑠𝑜𝑛𝑡 𝑝𝑎𝑠 𝑙𝑖é𝑒𝑠

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

# 4eme étape : faire la régression linéaire simple

# Voir l'intervalle de confiance des coefficients estimés

Residual standard error: 91340 on 23 degrees of freedom

Le test du coefficient de la variable séparation n’est pas significatif, on ne

(354166.7 - 287307.7) = 66858

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96

MISE EN ŒUVRE DE LA METHODE SOUS R

# On va analyser l’âge des détenus en fonction de leur profession (la

# 1ere étape : comparer graphiquement les sous population

Expert Consultant - Formateur : Akposso Didier Martial +225 07 77 24 19 96