Vous êtes sur la page 1sur 18

La modélisation

La modélisation statistique
Un modèle statistique est une représentation simplifiée et chiffrée d’un
phénomène.
Il permet de décrire et prédire une variable à expliquer
(dépendante) par des variables explicatives (indépendantes) via
des équations mathématiques impliquant des paramètres.

Mieux comprendre la réalité voire de faire des prédictions.


Exemple: Description du poids d’une variété de pomme de terre
Méthode compliquée
 Méthode simple
Modélisation

Régression linéaire simple Régression multiple Régression logistique

Variable a 1 qualitative
1 quantitative 1 quantitative
expliquer

Plusieurs
Variables Plusieurs
quantitatives et
explicatives 1 quantitative quantitatives
qualitatives
1. Régression linéaire simple
Un modèle qui explique la variabilité de la
variable dépendante (y) à l'aide d'une seule
variable indépendante (x).
variable indépendante
variable dépendante

y= β0 + β1 X + ɛ erreur ou résidu (les distances


entre les données et le modèle
lui-même)

constante
coefficient de X
Exemple: la relation entre la hauteur des plantes et l’humidité du sol

Une variable dépendante Une variable explicative =


= variable à expliquer, variable indépendante,
celle que nous cherchons à celle que nous utilisons dans
décrire, à expliquer, à le but d’expliquer, de décrire
prédire. Elle est souvent ou de prédire la ou les
représentée sur l’axe des variable(s) dépendante(s).
ordonnées dans les Elles sont souvent
graphiques de modélisation représentées sur l’axe des
(la hauteur de plante). abscisses (l’humidité du sol).
Représentation par une ligne droite
caractérisée par une pente et une
ordonnée à l’origine suite à une
expérience effectuée sur un échantillon
de plantes soumises à une humidité
croissante.

L’équation peut
s’écrire de cette
manière:

Hauteur = ordonnée à
l’origine + pente*humidité
+ résidu
Application sur logiciel R
2. Régression linéaire multiples

Permet de savoir plus sur la relation entre plusieurs variables


indépendantes ou prédictives et une variable dépendante.
L’équation de la régression linéaire multiple est en fait la
généralisation du modèle de régression simple.

Yi = (β0 + β1X1 + β2X2 + … + βnXn) + εi


Exemple
Régression linéaire multiple à
deux variables aléatoires: Modèle :
Y=B0+B1X1+B2X2
Prenons un exemple où
Y=2+0,6X1+1,2X2.
Ce modèle décrit la projection
dans l'espace en 3 démentions
(X1,X2,Y) d'un plan défini par les
deux droites d'équations :
Y=2+0,6X1 dans le référentiel
(X1,Y).
Y=2+1,2X2 dans le référentiel
3. Régression logistique
Permet de comprendre ou prédire l effet de plusieurs
variables sur une variable à réponse binaire où:
 Y est qualitative à 2 modalités
 Xk qualitatives ou quantitatives
Y est une variable binaire
 0 en cas de non occurrence de l’évènement.
 1 si occurrence.
Y aléatoire et Xi non aléatoires
Le plus souvent appliquée à la santé:
 Identification des facteurs liés à une maladie
 Recherche des causes de décès ou de survie de patients
L’équation s’écrit de la manière suivante:
P(yӏx) = f(x)=
Avec f(x): la fonction logistique
Application sur logiciel R

Vous aimerez peut-être aussi