Analyse de Données Cours - Les Modèles Linéaires

ANALYSE DE DONNEES
Table des matières

I. Généralités ............................................................................................................................................................................ 2
1. Les propriétés des variables aléatoires........................................................................................................................ 2
2. Les lois de probabilités...................................................................................................................................................... 2
3. Description d’une variable pour définir la loi de probabilité ................................................................................. 4
II. L’exploration des données ............................................................................................................................................... 5
1. Les valeurs aberrantes : .................................................................................................................................................... 5
2. L’homogénéité/homoscédasticité : ................................................................................................................................ 5
3. La normalité : ........................................................................................................................................................................ 5
4. Les valeurs manquantes/nulles : .................................................................................................................................... 5
5. La colinéarité : ...................................................................................................................................................................... 5
6. Les relations/corrélations : ............................................................................................................................................... 5
7. Les interactions entre les variables : ............................................................................................................................. 5
8. L’indépendance des observations :................................................................................................................................ 5
III. Les modèles linéaires .................................................................................................................................................... 6
1. Généralités ............................................................................................................................................................................ 6
2. L’ANOVA ............................................................................................................................................................................... 6
3. La régression linéaire ......................................................................................................................................................... 7
4. Comment faire la régression ........................................................................................................................................... 7
5. L’ANCOVA ............................................................................................................................................................................ 7
6. Ecart par rapport aux hypothèses comment le gérer .............................................................................................. 8
IV. Les modèles linéaires généralisés : .......................................................................................................................... 9
1. Généralités ............................................................................................................................................................................ 9
2. La structure des erreurs .................................................................................................................................................... 9
3. Prédicteur linéaire ............................................................................................................................................................ 10
4. La fonction de lien ............................................................................................................................................................ 10
5. Mesurer la qualité de l’ajustement d’un GLM ......................................................................................................... 10
6. La vraisemblance.............................................................................................................................................................. 11
7. Le test du rapport de vraisemblance ......................................................................................................................... 11
8. L’analyse du modèle – les résidus .............................................................................................................................. 12
V. Les modèles mixtes ......................................................................................................................................................... 12
VI. Le plan factoriel : ......................................................................................................................................................... 13
1. Plan factoriel complet ..................................................................................................................................................... 13
1. L’orthogonalité .................................................................................................................................................................. 13
2. Plan factoriel emboîté/hiérarchique ........................................................................................................................... 14
1
I. Généralités
Les statistiques permettent de résumer les informations contenues dans un ensemble de
données.
Pour cela des descripteurs sont utilisés pour décrire/résumer les ensemble de données mais ils
ne retiennent qu’une partie des informations des données brutes.
/!\ A la distorsion de l’information
1. Les propriétés des variables aléatoires

Elles peuvent être de différents types :
- Qualitatives (variables catégorielles)
- Quantitatives discrètes
- Quantitatives continues
Chaque variable suit une distribution de probabilité : une fonction mathématique qui peut être
considérée comme fournissant des probabilités d’occurrence des différents résultats possibles
d’une expérience
Elles dépendent d’une loi de probabilité
2. Les lois de probabilités
Loi Normale/distribution gaussienne :

- Elle décrit une distribution de probabilité continue symétrique autour de sa moyenne.
2
- Elle est caractérisée par deux paramètres : la moyenne (μ) et l'écart-type (σ), qui
déterminent la forme de la courbe.
- La courbe en forme de cloche est une représentation graphique de cette distribution.
→ Modélisation de la taille des individus dans une population
Loi Lognormale :
- Elle est souvent utilisée pour des quantités positives qui varient sur plusieurs ordres de
grandeur. Processus de croissance ou d'accumulation multiplicatifs
- Elle est caractérisée par deux paramètres : la moyenne et l'écart-type du logarithme de la
variable aléatoire.
→ Modélisation de la distribution des revenus.
Loi Gamma :
- Cette loi est utilisée pour modéliser des variables aléatoires positives continues.
- Elle est paramétrée par deux paramètres : la forme (α) et l'échelle (β).
- Modéliser des processus où le temps ou la durée jouent un rôle crucial, et où les
événements peuvent se produire de manière aléatoire mais avec une tendance générale
définie
→ Modélisation du temps de développement des larves d'insectes avant de devenir adultes
Loi de Poisson :
- Cette loi décrit le nombre d'événements se produisant dans un intervalle de temps ou
d'espace fixé, sous l'hypothèse que ces événements se produisent de manière
indépendante à une vitesse moyenne constante. Ainsi que les données de faible
comptage.
- Elle est caractérisée par un seul paramètre λ (lambda), qui représente le taux moyen
d'occurrence des événements.
→ Modélisation du nombre d’œuf dans un nid de rouge gorge
Loi Négative Binomiale :

- Cette loi modélise le nombre d'essais nécessaires pour obtenir un nombre fixé de succès
dans une série d'essais de Bernoulli indépendants, avant un certain nombre d'échecs.
- Elle est caractérisée par deux paramètres : le nombre de succès désiré (r) et la probabilité
de succès dans chaque essai (p). Le succès est défini comme rare et le nombre d'essais
nécessaires pour atteindre ce succès est variable
→ Modélisation du nombre de parasites infectant un hôte avant que celui-ci ne soit considéré
comme immunisé
Loi Binomiale :
- Cette loi décrit le nombre de succès (binaire) dans une séquence d'essais de Bernoulli
indépendants et identiquement distribués.
- Elle est caractérisée par deux paramètres : le nombre total d'essais (n) et la probabilité de
succès dans chaque essai (p).
→ Modélisation d’une variabilité binaire : oui/non, présent/absent,…
/!\ La forme générale de la distribution dépend de la taille de l’échantillon
3
3. Description d’une variable pour définir la loi de probabilité
La distribution de probabilité est caractérisée à la fois par une valeur centrale et une dispersion.
- Le paramètre de tendance centrale : Cette mesure définit une valeur centrale dans un
échantillon ou une distribution de probabilité. La moyenne, le mode et la médiane sont des
mesures de tendance centrale.
- Le paramètre de dispersion : sont simplement des tentatives d'estimation de cette
variabilité. La variance, l'écart type, l'étendue et l'interquartile sont des mesures de
dispersion.
L'écart type (Standard Deviation) mesure la dispersion des valeurs dans un ensemble de
données
L'erreur type (Standard Error) mesure la précision de l'estimation de la moyenne dans un

échantillon donné.
Variable dépendante/réponse ~ Variable(s) indépendante(s)/prédictive(s)/explicative(s)

Si qualitative (catégorielle) : facteur ;
Si quantitative : covariable
4
II. L’exploration des données
https://besjournals.onlinelibrary.wiley.com/doi/10.1111/j.2041-210X.2009.00001.x
1. Les valeurs aberrantes :

Peuvent affecter la qualité de l’analyse
→ Boxplot et Cleveland Dotplot
2. L’homogénéité/homoscédasticité :
Égalité des variances entre les groupes/niveau d’une variable. L'homogénéité ou de la variance
est une hypothèse forte en modélisation statistique, notamment pour le modèle linéaire général
(ANOVA, régression, ANCOVA). Il est donc nécessaire de vérifier si la variance de Y est la même
dans les différentes modalités d'un facteur ou si la variance ne varie pas en fonction des valeurs
de la covariable X.
→ Boxplot, Scatteplot & Valeurs des résidus vs valeurs de la covariable X
3. La normalité :
La normalité de la variable Y est une condition d'application de certaines méthodes statistiques
(ex. t-test, analyse discriminante...). Pour le modèle linéaire général (ANOVA, régression,
ANCOVA), la condition d'application est la normalité des résidus et non la normalité de Y.
→ Histogramme et QQ-plot
4. Les valeurs manquantes/nulles :

→ Frequency plot et Corrgram
5. La colinéarité :
Quelles sont les variables X qui influencent la variable Y ? Le problème le plus évident en
modélisation statistique est l'existence d'une corrélation entre les variables X = colinéarité. Si la
colinéarité est ignorée, on peut obtenir une modélisation sans effets significatifs (conflit entre X
corrélés) ou en supprimant un X, les autres peuvent devenir significatifs (perturbation dans la
modélisation). Important de limiter dès le début les variables très corrélées.
→ Correlations & PCA
6. Les relations/corrélations :
Analyser graphiquement les relations possibles entre Y et Xs. Attention, cette analyse
graphique des relations entre Y et X ne permet en aucun cas de prédire l'importance de la
relation. La modélisation statistique reste le seul moyen d'identifier si la relation existe ou non.
→ Scatterplots et Conditional boxplot
7. Les interactions entre les variables :

Si l'ensemble des données le permet et si l'hypothèse est pertinente, on peut intégrer dans la
modélisation des interactions entre Xs.
→ Scatterplot & Boxplot
8. L’indépendance des observations :
5
III. Les modèles linéaires
1. Généralités
L'objectif principal est de modéliser les données observées en tenant compte de leur nature
aléatoire. Dans ce cours : les modèles linéaires : ANOVA, régression linéaire et l’analyse de
variance-covariance (ANCOVA).
𝑌 = 𝛽. 𝑋 + 𝜀
Leur principal inconvénient concerne les conditions d'éligibilité :

- Normalité des erreurs (résidus)
- Homoscédasticité (stabilité de la variance)
- Erreurs non corrélées (résidus)
Les résidus étant l’écart entre la réponse attendue et celles attendu.
Pour les erreurs corrélées : le modèle linéaire général est appliqué à un ensemble de données
contenant des mesures non corrélées. Cependant, en biologie, il existe de nombreuses formes de
données corrélées, individus dépendants :
- Mesures groupées : sur un certain nombre de familles, nous prenons des mesures immunitaires.
Dans ce cas, les mesures effectuées sur les différents membres d'une famille sont corrélées.
- Mesures répétées : on peut mesurer l'immunité d'individus pour plusieurs conditions
expérimentales. Dans ce cas, les mesures effectuées sur chaque individu sont corrélées.
- Données longitudinales : nous pouvons suivre les niveaux d'immunité des individus au fil du temps.
Ces mesures sur un individu sont corrélées.
- Données spatiales : nous pourrions mesurer le niveau d'immunité d'individus vivant dans différents
comtés. Notez que les mesures qui sont proches les unes des autres dans l'espace sont corrélées.
Variable dépendante Variable(s) indépendante(s) Modèle linéaire général
ANOVA avec un ou plusieurs facteurs (croisés

Qualitative(s)
ou imbriqués)
Quantitative Quantitative(s) Régression simple/multiple
Quanlitative(s) et/ou
ANCOVA
Quantitative(s)
2. L’ANOVA
L'ANOVA est un modèle linéaire général dans lequel toutes les variables X indépendantes sont
qualitatives (c'est-à-dire des facteurs). Chaque facteur à différents niveaux et ces niveaux sont
souvent choisis par le chercheur. Les facteurs sont alors fixes. La variable dépendante, Y, est
toujours quantitative. Cf : VI plan factoriel
/!\ A vérifier les hypothèses : mesures non corrélées, normalité des résidus et homoscédasticité
6
3. La régression linéaire
La régression linéaire est une technique courante d'analyse statistique des données utilisée pour
déterminer dans quelle mesure il existe une relation linéaire entre une variable dépendante et
une ou plusieurs variables indépendantes quantitatives (c'est-à-dire des covariables).
Il existe deux types de régression linéaire : La différence entre les deux est le nombre de
variables indépendantes. Dans les deux cas, il n'y a qu'une seule variable dépendante.
- Dans la régression linéaire simple, une seule covariable est utilisée pour prédire la valeur
d'une variable dépendante.
𝑌𝑖 = 𝛼 + 𝛽. 𝑋𝑖 + 𝜀𝑖
𝜀𝑖~𝑁 (𝑜, 𝜎)
- Dans la régression linéaire multiple, deux covariables ou plus sont utilisées pour prédire
la valeur d'une variable dépendante.
𝑘
𝑌𝑖 = 𝛼 + ∑ 𝛽𝑗. 𝑋𝑖𝑗 + 𝜀𝑖
𝑗=1
𝜀𝑖~𝑁 (𝑜, 𝜎)
La régression résume mathématiquement la relation entre Y et X. Elle décrit la forme de la

relation (linéaire ou non). Une régression permet de prédire les valeurs Y en fonction des valeurs
X.
4. Comment faire la régression

Il faut faire une hypothèse pour identifier la variable quantitative dépendante (Y) et la variable
quantitative indépendante (X).
Réaliser un diagramme de dispersion avec Y (axe des y) en fonction de X (axe des x) afin
d'évaluer l'aspect (la forme) de la relation potentielle. Pour ça il faut :
- Vérifier la significativité de l'effet de X sur Y
- Vérifier la significativité des coefficients du modèle (coefficients d'ordonnée et de pente)
- Vérifier le coefficient de détermination, appelé R², c'est-à-dire la proportion de la variance
de Y qui est prévisible à partir de la relation avec X
- Vérification de la normalité des erreurs (résidus), de l'homoscédasticité et des propriétés
prédictives du modèle. CF 1er SCHEMA
/!\ Confusion possible avec les loi gamma polynomial : expérience sur le parasitisme
5. L’ANCOVA
Un ensemble de données peut contenir des variables indépendantes qualitatives (c'est-à-dire
des facteurs) et des variables indépendantes quantitatives (c'est-à-dire des covariables).
L'analyse de la covariance (ANCOVA) est un modèle linéaire général qui combine l'ANOVA et la
régression. Les effets des facteurs, des covariables et des interactions peuvent être testés à l'aide
de l'ANCOVA.
𝑌𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝛽(𝑋𝑖𝑗 − 𝑋̅𝑖 ) + 𝜖𝑖𝑗
𝑗
𝜖𝑖 ~𝑁 (𝑜, 𝜎)
7
Les principaux objectifs de l’ANCOVA sont :
- Prendre en compte plusieurs variables indépendantes dans la modélisation

- Variables indépendantes qualitatives ou quantitatives
- En supposant une relation linéaire avec la variable dépendante
Pouvoir tester tous ce qu’on veut contrairement à l’ANOVA tout en respectant les 3 règles !
En incluant diverses variables indépendantes, ANCOVA est très utile pour expliquer les
processus biologiques
6. Ecart par rapport aux hypothèses comment le gérer

F-test est résistant aux écarts de normalité :
- Il tolère l'asymétrie
- Il tolère un aplatissement plus ou moins important (aplatissement de la distribution)
- Mais sensible à la bimodalité
- De 1 à 16
G-test est résistant à l'hétéroscédasticité (variance non stable)
Le test F est très sensible à la déviation des erreurs non corrélées
/!\ Un comptage n’est pas une variable normale mais il peut s’approximé à une loi normale si N
est élevé et б faible.
Une proportion n’est pas une variable normale, elle varie de 0 à 1. Elle suit souvent une
distribution binomiale
Des transformations mathématiques des variables sont possibles mais ces transformations
peuvent faire perdre des informations et modifier les effets de X.
Par exemple :
- Les transformations : logarithmique (log(Y+1)) ou Square-Root (√(Y)) ; stabilisent la
variance mais ne la normalise pas => variables non linéaires ou distribution non
symétrique.
- La transformation inverse peut être utile lorsque les données sont exprimées sous forme
de taux ou de ratios, et que la relation avec la variable dépendante est non linéaire.
- La transformation Box-Cox qui inclut à la fois la transformation logarithmique et la
transformation racine carrée comme cas particuliers. Elle peut être utilisée pour trouver la
meilleure transformation des données en fonction de leur distribution.
- Et d’autres, …
D’autres tests non paramétriques sont aussi possibles : Mann-Whitney, Wilcoxon, Kruskall-
Wallis, … ect Mais ils sont moins puissants et sont limités car une seule variable indépendante
peut être testée par test.
8
IV. Les modèles linéaires généralisés :
1. Généralités
Le modèle linéaire généralisé intègre différents modèles statistiques : régression logistique,
régression de Poisson, régression log-linéaire, modèle de survie... Utilisés lorsque :
- Les erreurs peuvent suivre une distribution non gaussienne (suivent pas une loi normale)
- L'hypothèse d'homoscédasticité n'est pas centrale : variance non constante (par nature,
les modèles linéaires généralisés considèrent des variables avec un manque
d'homogénéité de la variance)
- La relation linéaire entre la variable dépendante Y et les variables indépendantes n'est pas
directe. Une fonction de liaison est donc utilisée.
Ces modèles doivent répondent à 3 propriétés :

1. La structure de l’erreur
2. Le prédicteur linéaire
3. La fonction de liaison
2. La structure des erreurs

Jusqu'à présent, nous avons traité l'analyse des données statistiques avec des erreurs normales.
Dans la pratique, de nombreux types de données présentent des erreurs non normales. Dans le
passé, les seuls outils disponibles pour traiter ces problèmes étaient la transformation de la
variable de réponse ou l'adoption de méthodes non paramétriques.
Une GLIM permet de spécifier une variété de distributions d'erreurs différentes :
- Erreur de Poisson : les données de comptage

- Erreur binomiale : les données de proportions et les réponses binaires
- Erreur binomiale négative : les données de comptages présentent une variance plus
grande que la moyenne
- Erreur gamma : les données sur le temps écoulé avant le décès
- Et d’autres : normale, exponentielle, bêta, …
La structure d'erreur est définie au moyen de la directive family dans R.
9
3. Prédicteur linéaire
Le prédicteur linéaire η est une combinaison linéaire des prédicteurs (ou variables explicatives)
du modèle. Il est obtenu en sommant les termes correspondant à chaque paramètre du modèle.
Il est important de noter que η n'est pas une valeur de Y. Il s'agit plutôt d'une transformation des
valeurs de Y par la fonction de lien. Ainsi, pour obtenir la valeur prédite de Y, nous appliquons la
fonction de lien inverse à η.
𝑝
𝜂𝑖 = 𝛼 + ∑ 𝛽𝑗. 𝑋𝑖𝑗
𝑗=1
Où les x sont les valeurs des p différentes variables explicatives et les b sont les paramètres
inconnus à estimer à partir des données.
4. La fonction de lien
Dans les modèles linéaires généralisés (GLM), la fonction de lien est utilisée pour relier la
moyenne de la variable de réponse (Y) à son prédicteur linéaire (η). La relation est définie
comme suit : η est le prédicteur linéaire.
μ est la moyenne de la variable de réponse Y.
𝜂 = 𝑔(𝜇) g() est la fonction de lien
Cela facilite ainsi l'interprétation des effets des variables explicatives sur la variable de réponse.
Famille d’erreurs Fonction de liaison
Normal Identité
Poisson Log
Binomiale négative Log
Binomiale Logit
Gamma Réciproque (1/Y)
5. Mesurer la qualité de l’ajustement d’un GLM

Lorsque nous ajustons un modèle statistique à des données, il est rare que les valeurs prédites
par le modèle correspondent exactement aux valeurs observées dans les données. Il y aura
toujours un certain degré d'écart entre les valeurs ajustées par le modèle et les valeurs réelles
des données. Cet écart est une mesure de l'inadéquation du modèle par rapport aux données :
plus l'écart est grand, moins le modèle est adapté aux données.
Pour évaluer la qualité de l'ajustement d'un modèle aux données dans un modèle linéaire
généralisé (GLIM), nous utilisons une mesure appelée déviance. La déviance est définie comme -
2 fois la différence de log-vraisemblance entre le modèle actuel et un modèle saturé.
10
Plus la déviance est faible, meilleure est le modèle. Cependant, il est important de noter que la
déviance doit être interprétée en conjonction avec d'autres critères d'évaluation du modèle,
tels que la significativité des coefficients et la validité des hypothèses du modèle.
6. La vraisemblance
La fonction de vraisemblance est une fonction des paramètres d'un modèle statistique, qui
mesure la probabilité des données observées compte tenu de ces paramètres. En d'autres
termes, elle évalue à quel point les données que nous avons observées sont susceptibles d'être
produites par le modèle, en fonction des valeurs des paramètres.
Utilisation du logarithme de la vraisemblance :

- Souvent, on utilise le logarithme de la vraisemblance plutôt que la vraisemblance elle-
même. Cela simplifie les calculs et facilite l'optimisation des paramètres du modèle.
- Le logarithme de la vraisemblance est toujours négatif, et des valeurs plus élevées (plus
proches de zéro) indiquent un meilleur ajustement du modèle aux données.
Estimation des paramètres :

- La vraisemblance est une fonction des estimations des coefficients (paramètres) du
modèle et des données observées.
- Les données sont considérées comme fixes car elles sont observées et ne peuvent pas
être modifiées. En revanche, nous ajustons les estimations des paramètres du modèle pour
maximiser la probabilité des données observées.
7. Le test du rapport de vraisemblance

Le test LR est réalisé en estimant deux modèles et en comparant l'ajustement d'un modèle à
l'ajustement de l'autre. La suppression de variables prédictives d'un modèle rendra presque
toujours le modèle moins bien ajusté (c'est-à-dire qu'un modèle aura une log-vraisemblance plus
faible), mais il est nécessaire de tester si la différence observée dans l'ajustement du modèle est
statistiquement significative.
Pour ce faire, le test LR compare les log-vraisemblances des deux modèles. Si cette différence
est statistiquement significative, on considère que le modèle le moins restrictif (celui qui
comporte le plus de variables) s'ajuste significativement mieux aux données que le modèle le
plus restrictif.
𝐷2 − 𝐷1 = 2(𝐿1 − 𝐿𝑠𝑎𝑡 ) − 2(𝐿2 − 𝐿𝑠𝑎𝑡 ) = 2(𝐿1− 𝐿2 )
11
8. L’analyse du modèle – les résidus
Après avoir ajusté un modèle aux données, il convient d'examiner dans quelle mesure le modèle
décrit les données. En particulier, nous devons vérifier s'il existe des tendances systématiques
dans la qualité de l'ajustement. Par exemple, la qualité de l'ajustement augmente-t-elle avec le
nombre d'observations ou est-elle fonction d'une ou de plusieurs variables explicatives ?
Nous pouvons travailler avec les résidus bruts :

𝑅é𝑠𝑢𝑑𝑢𝑠 = 𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑟é𝑝𝑜𝑛𝑠𝑒 − 𝑉𝑎𝑙𝑒𝑢𝑟𝑠 𝑎𝑗𝑢𝑠𝑡é𝑒𝑠
En cas d'erreurs normales, les résidus bruts et standardisés sont identiques. Les résidus
standardisés sont nécessaires pour corriger le fait qu'avec des erreurs non normales, nous
violons l'hypothèse fondamentale selon laquelle la variance est constante, car les résidus ont
tendance à changer de taille lorsque la valeur moyenne de la variable réponse change.
Famille d’erreurs Résidus normalisés
Poisson 𝑦 − 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑎𝑗𝑢𝑠𝑡é𝑒𝑠

√𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑎𝑗𝑢𝑠𝑡é𝑒𝑠
Binomiale 𝑦 − 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑎𝑗𝑢𝑠𝑡é𝑒𝑠
√𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑎𝑗𝑢𝑠𝑡é𝑒𝑠 × [1 − 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑎𝑗𝑢𝑠𝑡é𝑒𝑠

]
𝑑é𝑛𝑜𝑚𝑖𝑛𝑎𝑡𝑒𝑢𝑟 𝑏𝑖𝑛𝑜𝑚𝑖𝑎𝑙
Gamma 𝑦 − 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑎𝑗𝑢𝑠𝑡é𝑒𝑠

𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑎𝑗𝑢𝑠𝑡é𝑒𝑠
/!\ En cas de sur dispersion sur un modèle de Poisson, il est alors possible de prendre en compte
cette surdispersion en utilisant un modèle binomial négatif.
V. Les modèles mixtes

Un modèle à effets mixtes comporte des effets aléatoires ou des effets aléatoires et fixes,
tandis qu'un modèle linéaire standard ne comporte que des effets fixes.
S'il est clair que le chercheur souhaite comparer des niveaux spécifiques et choisis d'un
traitement, ce traitement est un effet fixe. En revanche, si les niveaux du traitement sont un
échantillon d'une population plus large de niveaux possibles, le traitement est un effet aléatoire.
L'effet de ce facteur est normalement distribué avec une variance inconnue σ². L'analyse vise à
mesurer 𝜎𝑎2 .
L'effet aléatoire est également inclus dans un modèle lorsqu'il existe une corrélation entre les
mesures (par exemple, mesures imbriquées, mesures répétées, données longitudinales).
Vous devez utiliser un modèle mixte au lieu d'un modèle linéaire simple lorsque vous disposez
d'une variable qui décrit votre échantillon de données comme un sous-ensemble des données
que vous auriez pu collecter.
Il est de votre responsabilité de considérer un facteur comme fixe ou aléatoire :

- Fixé : chaque niveau du facteur est intéressant
- Aléatoire : chaque niveau du facteur est une unité d'échantillonnage seulement
12
VI. Le plan factoriel :
1. Plan factoriel complet

Il comporte deux facteurs ou plus, chacun avec deux niveaux
ou plus, ainsi qu'une réplication pour chaque combinaison de
niveaux de facteurs. Cela signifie que nous pouvons étudier
les interactions statistiques, dans lesquelles la réponse à un
facteur dépend du niveau d'un autre facteur.
Si les facteurs sont considérés comme indépendants dans la

modélisation, le modèle est alors additif.
𝑌𝑖𝑗𝑘 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + 𝜖𝑖𝑗
𝜖𝑖𝑗 ~𝑁(0, 𝜎)
La dépendance entre les facteurs peut être prise en compte et analysée : l’interaction
𝑌𝑖𝑗𝑘 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + 𝜸𝒊𝒋 +𝜖𝑖𝑗
𝜖𝑖𝑗 ~𝑁(0, 𝜎)
Nous estimons les paramètres pour les effets principaux de chaque niveau du facteur A et de
chaque niveau du facteur B, plus des termes pour l'interaction entre A et B.
1. L’orthogonalité
Un plan factoriel complet est orthogonal si le nombre de répétitions par ligne, par colonne et par
𝑛𝑖 ×𝑛𝑗
cellule est conforme à la formule suivante : 𝑛𝑖𝑗 = 𝑛..
La propriété d’orthogonalité est importante car elle élimine la corrélation entre les estimations
(b) des effets principaux et des interactions.
La non-orthogonalité pose des problèmes à la fois pour l'analyse et l'interprétation : les

statistiques utilisées pour tester les effets principaux et les interactions ne sont plus non
corrélées. Les sommes des carrés sont dépendantes et l'effet d'un prédicteur dépend des autres
prédicteurs du modèle.
/!\ A l’ordre qui fait la différence
13
En absence d’orthogonalité :
- Somme des carrés de Type I : Les sommes des carrés de type I sont basées sur une
approche de modélisation séquentielle. L'effet d'un prédicteur dépend d'autres
prédicteurs, de sorte que l'ordre fait la différence. => Des arguments théoriques forts
- Somme des carrés de Type II : Priorité aux effets principaux. Cela permet d'ajuster les
termes pour tous les autres termes, à l'exception des termes d'ordre supérieur incluant les
mêmes prédicteurs. Par "ajuster pour", nous entendons ne pas inclure une partie de la
variance qui se superpose à". Les sommes des carrés de type II sont conçues pour tester
les effets principaux A et B avec une puissance maximale.
- Somme des carrés Type III : Chaque effet est testé en ajustant tous les autres termes.
Cela permet d'évaluer la contribution de chaque prédicteur par rapport à tous les autres.
Les résultats de l'analyse ne dépendent pas de l'ordre dans lequel les termes ont été
introduits dans le modèle. => La plus conservatrice
/!\ Lors de l'analyse de plans non équilibrés, le choix de la méthode (Type I, II ou III) peut avoir un
effet substantiel sur les résultats.
2. Plan factoriel emboîté/hiérarchique

Le facteur B est imbriqué dans un autre facteur A (comme l’espèces) lorsque chaque niveau du
facteur B (comme variétés) coïncide avec un seul niveau du facteur A.
14

Analyse de Données Cours - Les Modèles Linéaires

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Analyse de Données Cours - Les Modèles Linéaires

Transféré par

Droits d'auteur :

Formats disponibles

ANALYSE DE DONNEES

Table des matières

/!\ A la distorsion de l’information

1. Les propriétés des variables aléatoires

Elles dépendent d’une loi de probabilité

2. Les lois de probabilités

Loi Normale/distribution gaussienne :

Loi Négative Binomiale :

/!\ La forme générale de la distribution dépend de la taille de l’échantillon

L'erreur type (Standard Error) mesure la précision de l'estimation de la moyenne dans un

Variable dépendante/réponse ~ Variable(s) indépendante(s)/prédictive(s)/explicative(s)

1. Les valeurs aberrantes :

4. Les valeurs manquantes/nulles :

7. Les interactions entre les variables :

8. L’indépendance des observations :

Leur principal inconvénient concerne les conditions d'éligibilité :

Les résidus étant l’écart entre la réponse attendue et celles attendu.

Variable dépendante Variable(s) indépendante(s) Modèle linéaire général

ANOVA avec un ou plusieurs facteurs (croisés

Quantitative Quantitative(s) Régression simple/multiple

La régression résume mathématiquement la relation entre Y et X. Elle décrit la forme de la

4. Comment faire la régression

- Prendre en compte plusieurs variables indépendantes dans la modélisation

6. Ecart par rapport aux hypothèses comment le gérer

G-test est résistant à l'hétéroscédasticité (variance non stable)

Le test F est très sensible à la déviation des erreurs non corrélées

Ces modèles doivent répondent à 3 propriétés :

2. La structure des erreurs

Une GLIM permet de spécifier une variété de distributions d'erreurs différentes :

- Erreur de Poisson : les données de comptage

La structure d'erreur est définie au moyen de la directive family dans R.

Famille d’erreurs Fonction de liaison

Binomiale négative Log

Gamma Réciproque (1/Y)

5. Mesurer la qualité de l’ajustement d’un GLM

Utilisation du logarithme de la vraisemblance :

Estimation des paramètres :

7. Le test du rapport de vraisemblance

𝐷2 − 𝐷1 = 2(𝐿1 − 𝐿𝑠𝑎𝑡 ) − 2(𝐿2 − 𝐿𝑠𝑎𝑡 ) = 2(𝐿1− 𝐿2 )

Nous pouvons travailler avec les résidus bruts :

Famille d’erreurs Résidus normalisés

Poisson 𝑦 − 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑎𝑗𝑢𝑠𝑡é𝑒𝑠

Binomiale 𝑦 − 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑎𝑗𝑢𝑠𝑡é𝑒𝑠

√𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑎𝑗𝑢𝑠𝑡é𝑒𝑠 × [1 − 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑎𝑗𝑢𝑠𝑡é𝑒𝑠

Gamma 𝑦 − 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑎𝑗𝑢𝑠𝑡é𝑒𝑠

V. Les modèles mixtes

Il est de votre responsabilité de considérer un facteur comme fixe ou aléatoire :

1. Plan factoriel complet

Si les facteurs sont considérés comme indépendants dans la

𝑌𝑖𝑗𝑘 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + 𝜸𝒊𝒋 +𝜖𝑖𝑗

La non-orthogonalité pose des problèmes à la fois pour l'analyse et l'interprétation : les

/!\ A l’ordre qui fait la différence

2. Plan factoriel emboîté/hiérarchique

Vous aimerez peut-être aussi