Académique Documents
Professionnel Documents
Culture Documents
1
I. Généralités
Les statistiques permettent de résumer les informations contenues dans un ensemble de
données.
Pour cela des descripteurs sont utilisés pour décrire/résumer les ensemble de données mais ils
ne retiennent qu’une partie des informations des données brutes.
Chaque variable suit une distribution de probabilité : une fonction mathématique qui peut être
considérée comme fournissant des probabilités d’occurrence des différents résultats possibles
d’une expérience
2
- Elle est caractérisée par deux paramètres : la moyenne (μ) et l'écart-type (σ), qui
déterminent la forme de la courbe.
- La courbe en forme de cloche est une représentation graphique de cette distribution.
→ Modélisation de la taille des individus dans une population
Loi Lognormale :
- Elle est souvent utilisée pour des quantités positives qui varient sur plusieurs ordres de
grandeur. Processus de croissance ou d'accumulation multiplicatifs
- Elle est caractérisée par deux paramètres : la moyenne et l'écart-type du logarithme de la
variable aléatoire.
→ Modélisation de la distribution des revenus.
Loi Gamma :
- Cette loi est utilisée pour modéliser des variables aléatoires positives continues.
- Elle est paramétrée par deux paramètres : la forme (α) et l'échelle (β).
- Modéliser des processus où le temps ou la durée jouent un rôle crucial, et où les
événements peuvent se produire de manière aléatoire mais avec une tendance générale
définie
→ Modélisation du temps de développement des larves d'insectes avant de devenir adultes
Loi de Poisson :
- Cette loi décrit le nombre d'événements se produisant dans un intervalle de temps ou
d'espace fixé, sous l'hypothèse que ces événements se produisent de manière
indépendante à une vitesse moyenne constante. Ainsi que les données de faible
comptage.
- Elle est caractérisée par un seul paramètre λ (lambda), qui représente le taux moyen
d'occurrence des événements.
→ Modélisation du nombre d’œuf dans un nid de rouge gorge
Loi Binomiale :
- Cette loi décrit le nombre de succès (binaire) dans une séquence d'essais de Bernoulli
indépendants et identiquement distribués.
- Elle est caractérisée par deux paramètres : le nombre total d'essais (n) et la probabilité de
succès dans chaque essai (p).
→ Modélisation d’une variabilité binaire : oui/non, présent/absent,…
3
3. Description d’une variable pour définir la loi de probabilité
La distribution de probabilité est caractérisée à la fois par une valeur centrale et une dispersion.
- Le paramètre de tendance centrale : Cette mesure définit une valeur centrale dans un
échantillon ou une distribution de probabilité. La moyenne, le mode et la médiane sont des
mesures de tendance centrale.
- Le paramètre de dispersion : sont simplement des tentatives d'estimation de cette
variabilité. La variance, l'écart type, l'étendue et l'interquartile sont des mesures de
dispersion.
L'écart type (Standard Deviation) mesure la dispersion des valeurs dans un ensemble de
données
4
II. L’exploration des données
https://besjournals.onlinelibrary.wiley.com/doi/10.1111/j.2041-210X.2009.00001.x
2. L’homogénéité/homoscédasticité :
Égalité des variances entre les groupes/niveau d’une variable. L'homogénéité ou de la variance
est une hypothèse forte en modélisation statistique, notamment pour le modèle linéaire général
(ANOVA, régression, ANCOVA). Il est donc nécessaire de vérifier si la variance de Y est la même
dans les différentes modalités d'un facteur ou si la variance ne varie pas en fonction des valeurs
de la covariable X.
→ Boxplot, Scatteplot & Valeurs des résidus vs valeurs de la covariable X
3. La normalité :
La normalité de la variable Y est une condition d'application de certaines méthodes statistiques
(ex. t-test, analyse discriminante...). Pour le modèle linéaire général (ANOVA, régression,
ANCOVA), la condition d'application est la normalité des résidus et non la normalité de Y.
→ Histogramme et QQ-plot
5. La colinéarité :
Quelles sont les variables X qui influencent la variable Y ? Le problème le plus évident en
modélisation statistique est l'existence d'une corrélation entre les variables X = colinéarité. Si la
colinéarité est ignorée, on peut obtenir une modélisation sans effets significatifs (conflit entre X
corrélés) ou en supprimant un X, les autres peuvent devenir significatifs (perturbation dans la
modélisation). Important de limiter dès le début les variables très corrélées.
→ Correlations & PCA
6. Les relations/corrélations :
Analyser graphiquement les relations possibles entre Y et Xs. Attention, cette analyse
graphique des relations entre Y et X ne permet en aucun cas de prédire l'importance de la
relation. La modélisation statistique reste le seul moyen d'identifier si la relation existe ou non.
→ Scatterplots et Conditional boxplot
5
III. Les modèles linéaires
1. Généralités
L'objectif principal est de modéliser les données observées en tenant compte de leur nature
aléatoire. Dans ce cours : les modèles linéaires : ANOVA, régression linéaire et l’analyse de
variance-covariance (ANCOVA).
𝑌 = 𝛽. 𝑋 + 𝜀
Pour les erreurs corrélées : le modèle linéaire général est appliqué à un ensemble de données
contenant des mesures non corrélées. Cependant, en biologie, il existe de nombreuses formes de
données corrélées, individus dépendants :
- Mesures groupées : sur un certain nombre de familles, nous prenons des mesures immunitaires.
Dans ce cas, les mesures effectuées sur les différents membres d'une famille sont corrélées.
- Mesures répétées : on peut mesurer l'immunité d'individus pour plusieurs conditions
expérimentales. Dans ce cas, les mesures effectuées sur chaque individu sont corrélées.
- Données longitudinales : nous pouvons suivre les niveaux d'immunité des individus au fil du temps.
Ces mesures sur un individu sont corrélées.
- Données spatiales : nous pourrions mesurer le niveau d'immunité d'individus vivant dans différents
comtés. Notez que les mesures qui sont proches les unes des autres dans l'espace sont corrélées.
Quanlitative(s) et/ou
ANCOVA
Quantitative(s)
2. L’ANOVA
L'ANOVA est un modèle linéaire général dans lequel toutes les variables X indépendantes sont
qualitatives (c'est-à-dire des facteurs). Chaque facteur à différents niveaux et ces niveaux sont
souvent choisis par le chercheur. Les facteurs sont alors fixes. La variable dépendante, Y, est
toujours quantitative. Cf : VI plan factoriel
/!\ A vérifier les hypothèses : mesures non corrélées, normalité des résidus et homoscédasticité
6
3. La régression linéaire
La régression linéaire est une technique courante d'analyse statistique des données utilisée pour
déterminer dans quelle mesure il existe une relation linéaire entre une variable dépendante et
une ou plusieurs variables indépendantes quantitatives (c'est-à-dire des covariables).
Il existe deux types de régression linéaire : La différence entre les deux est le nombre de
variables indépendantes. Dans les deux cas, il n'y a qu'une seule variable dépendante.
- Dans la régression linéaire simple, une seule covariable est utilisée pour prédire la valeur
d'une variable dépendante.
𝑌𝑖 = 𝛼 + 𝛽. 𝑋𝑖 + 𝜀𝑖
𝜀𝑖~𝑁 (𝑜, 𝜎)
- Dans la régression linéaire multiple, deux covariables ou plus sont utilisées pour prédire
la valeur d'une variable dépendante.
𝑘
𝑌𝑖 = 𝛼 + ∑ 𝛽𝑗. 𝑋𝑖𝑗 + 𝜀𝑖
𝑗=1
𝜀𝑖~𝑁 (𝑜, 𝜎)
Réaliser un diagramme de dispersion avec Y (axe des y) en fonction de X (axe des x) afin
d'évaluer l'aspect (la forme) de la relation potentielle. Pour ça il faut :
- Vérifier la significativité de l'effet de X sur Y
- Vérifier la significativité des coefficients du modèle (coefficients d'ordonnée et de pente)
- Vérifier le coefficient de détermination, appelé R², c'est-à-dire la proportion de la variance
de Y qui est prévisible à partir de la relation avec X
- Vérification de la normalité des erreurs (résidus), de l'homoscédasticité et des propriétés
prédictives du modèle. CF 1er SCHEMA
/!\ Confusion possible avec les loi gamma polynomial : expérience sur le parasitisme
5. L’ANCOVA
Un ensemble de données peut contenir des variables indépendantes qualitatives (c'est-à-dire
des facteurs) et des variables indépendantes quantitatives (c'est-à-dire des covariables).
L'analyse de la covariance (ANCOVA) est un modèle linéaire général qui combine l'ANOVA et la
régression. Les effets des facteurs, des covariables et des interactions peuvent être testés à l'aide
de l'ANCOVA.
𝑌𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝛽(𝑋𝑖𝑗 − 𝑋̅𝑖 ) + 𝜖𝑖𝑗
𝑗
𝜖𝑖 ~𝑁 (𝑜, 𝜎)
7
Les principaux objectifs de l’ANCOVA sont :
Pouvoir tester tous ce qu’on veut contrairement à l’ANOVA tout en respectant les 3 règles !
En incluant diverses variables indépendantes, ANCOVA est très utile pour expliquer les
processus biologiques
/!\ Un comptage n’est pas une variable normale mais il peut s’approximé à une loi normale si N
est élevé et б faible.
Une proportion n’est pas une variable normale, elle varie de 0 à 1. Elle suit souvent une
distribution binomiale
Des transformations mathématiques des variables sont possibles mais ces transformations
peuvent faire perdre des informations et modifier les effets de X.
Par exemple :
- Les transformations : logarithmique (log(Y+1)) ou Square-Root (√(Y)) ; stabilisent la
variance mais ne la normalise pas => variables non linéaires ou distribution non
symétrique.
- La transformation inverse peut être utile lorsque les données sont exprimées sous forme
de taux ou de ratios, et que la relation avec la variable dépendante est non linéaire.
- La transformation Box-Cox qui inclut à la fois la transformation logarithmique et la
transformation racine carrée comme cas particuliers. Elle peut être utilisée pour trouver la
meilleure transformation des données en fonction de leur distribution.
- Et d’autres, …
D’autres tests non paramétriques sont aussi possibles : Mann-Whitney, Wilcoxon, Kruskall-
Wallis, … ect Mais ils sont moins puissants et sont limités car une seule variable indépendante
peut être testée par test.
8
IV. Les modèles linéaires généralisés :
1. Généralités
Le modèle linéaire généralisé intègre différents modèles statistiques : régression logistique,
régression de Poisson, régression log-linéaire, modèle de survie... Utilisés lorsque :
- Les erreurs peuvent suivre une distribution non gaussienne (suivent pas une loi normale)
- L'hypothèse d'homoscédasticité n'est pas centrale : variance non constante (par nature,
les modèles linéaires généralisés considèrent des variables avec un manque
d'homogénéité de la variance)
- La relation linéaire entre la variable dépendante Y et les variables indépendantes n'est pas
directe. Une fonction de liaison est donc utilisée.
9
3. Prédicteur linéaire
Le prédicteur linéaire η est une combinaison linéaire des prédicteurs (ou variables explicatives)
du modèle. Il est obtenu en sommant les termes correspondant à chaque paramètre du modèle.
Il est important de noter que η n'est pas une valeur de Y. Il s'agit plutôt d'une transformation des
valeurs de Y par la fonction de lien. Ainsi, pour obtenir la valeur prédite de Y, nous appliquons la
fonction de lien inverse à η.
𝑝
𝜂𝑖 = 𝛼 + ∑ 𝛽𝑗. 𝑋𝑖𝑗
𝑗=1
Où les x sont les valeurs des p différentes variables explicatives et les b sont les paramètres
inconnus à estimer à partir des données.
4. La fonction de lien
Dans les modèles linéaires généralisés (GLM), la fonction de lien est utilisée pour relier la
moyenne de la variable de réponse (Y) à son prédicteur linéaire (η). La relation est définie
comme suit : η est le prédicteur linéaire.
μ est la moyenne de la variable de réponse Y.
𝜂 = 𝑔(𝜇) g() est la fonction de lien
Cela facilite ainsi l'interprétation des effets des variables explicatives sur la variable de réponse.
Normal Identité
Poisson Log
Binomiale Logit
Pour évaluer la qualité de l'ajustement d'un modèle aux données dans un modèle linéaire
généralisé (GLIM), nous utilisons une mesure appelée déviance. La déviance est définie comme -
2 fois la différence de log-vraisemblance entre le modèle actuel et un modèle saturé.
10
Plus la déviance est faible, meilleure est le modèle. Cependant, il est important de noter que la
déviance doit être interprétée en conjonction avec d'autres critères d'évaluation du modèle,
tels que la significativité des coefficients et la validité des hypothèses du modèle.
6. La vraisemblance
La fonction de vraisemblance est une fonction des paramètres d'un modèle statistique, qui
mesure la probabilité des données observées compte tenu de ces paramètres. En d'autres
termes, elle évalue à quel point les données que nous avons observées sont susceptibles d'être
produites par le modèle, en fonction des valeurs des paramètres.
Pour ce faire, le test LR compare les log-vraisemblances des deux modèles. Si cette différence
est statistiquement significative, on considère que le modèle le moins restrictif (celui qui
comporte le plus de variables) s'ajuste significativement mieux aux données que le modèle le
plus restrictif.
11
8. L’analyse du modèle – les résidus
Après avoir ajusté un modèle aux données, il convient d'examiner dans quelle mesure le modèle
décrit les données. En particulier, nous devons vérifier s'il existe des tendances systématiques
dans la qualité de l'ajustement. Par exemple, la qualité de l'ajustement augmente-t-elle avec le
nombre d'observations ou est-elle fonction d'une ou de plusieurs variables explicatives ?
En cas d'erreurs normales, les résidus bruts et standardisés sont identiques. Les résidus
standardisés sont nécessaires pour corriger le fait qu'avec des erreurs non normales, nous
violons l'hypothèse fondamentale selon laquelle la variance est constante, car les résidus ont
tendance à changer de taille lorsque la valeur moyenne de la variable réponse change.
/!\ En cas de sur dispersion sur un modèle de Poisson, il est alors possible de prendre en compte
cette surdispersion en utilisant un modèle binomial négatif.
S'il est clair que le chercheur souhaite comparer des niveaux spécifiques et choisis d'un
traitement, ce traitement est un effet fixe. En revanche, si les niveaux du traitement sont un
échantillon d'une population plus large de niveaux possibles, le traitement est un effet aléatoire.
L'effet de ce facteur est normalement distribué avec une variance inconnue σ². L'analyse vise à
mesurer 𝜎𝑎2 .
L'effet aléatoire est également inclus dans un modèle lorsqu'il existe une corrélation entre les
mesures (par exemple, mesures imbriquées, mesures répétées, données longitudinales).
Vous devez utiliser un modèle mixte au lieu d'un modèle linéaire simple lorsque vous disposez
d'une variable qui décrit votre échantillon de données comme un sous-ensemble des données
que vous auriez pu collecter.
12
VI. Le plan factoriel :
𝑌𝑖𝑗𝑘 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + 𝜖𝑖𝑗
𝜖𝑖𝑗 ~𝑁(0, 𝜎)
La dépendance entre les facteurs peut être prise en compte et analysée : l’interaction
𝜖𝑖𝑗 ~𝑁(0, 𝜎)
Nous estimons les paramètres pour les effets principaux de chaque niveau du facteur A et de
chaque niveau du facteur B, plus des termes pour l'interaction entre A et B.
1. L’orthogonalité
Un plan factoriel complet est orthogonal si le nombre de répétitions par ligne, par colonne et par
𝑛𝑖 ×𝑛𝑗
cellule est conforme à la formule suivante : 𝑛𝑖𝑗 = 𝑛..
La propriété d’orthogonalité est importante car elle élimine la corrélation entre les estimations
(b) des effets principaux et des interactions.
13
En absence d’orthogonalité :
- Somme des carrés de Type I : Les sommes des carrés de type I sont basées sur une
approche de modélisation séquentielle. L'effet d'un prédicteur dépend d'autres
prédicteurs, de sorte que l'ordre fait la différence. => Des arguments théoriques forts
- Somme des carrés de Type II : Priorité aux effets principaux. Cela permet d'ajuster les
termes pour tous les autres termes, à l'exception des termes d'ordre supérieur incluant les
mêmes prédicteurs. Par "ajuster pour", nous entendons ne pas inclure une partie de la
variance qui se superpose à". Les sommes des carrés de type II sont conçues pour tester
les effets principaux A et B avec une puissance maximale.
- Somme des carrés Type III : Chaque effet est testé en ajustant tous les autres termes.
Cela permet d'évaluer la contribution de chaque prédicteur par rapport à tous les autres.
Les résultats de l'analyse ne dépendent pas de l'ordre dans lequel les termes ont été
introduits dans le modèle. => La plus conservatrice
/!\ Lors de l'analyse de plans non équilibrés, le choix de la méthode (Type I, II ou III) peut avoir un
effet substantiel sur les résultats.
14