Vous êtes sur la page 1sur 33

Modélisation Statistique

M. Hady DIALLO

03/05/2022
Qeul outil de modélisation statistique faut-il choisir ?

Figure 1: Une question


Définition

La modélisation statistique est une manière simplifiée et formalisée


mathématiquement d’approximer la réalité, en d’autres termes, de
décrire les processus qui génèrent vos données. Optionnellement,
elle permet de faire des prédictions à partir de cette approximation.
Le modèle statistique est l’équation mathématique utilisée.

variable − expliquer = variable − explicative


Qu’est-ce qu’une variable dépendante et qu’est-ce qu’une
variable explicative ?

Dans la grande majorité des cas, les modèles statistiques


impliquent des variables explicatives et dépendantes.
▶ Une variable dépendante (noté souvent y ), aussi appelée
variable à expliquer, est une variable que nous cherchons à
décrire, à expliquer, à prédire. Elle est souvent représentée sur
l’axe des ordonnées dans les graphiques de modélisation.
Qu’est-ce qu’une variable dépendante et qu’est-ce qu’une
variable explicative ?

Dans la grande majorité des cas, les modèles statistiques


impliquent des variables explicatives et dépendantes.
▶ Une variable dépendante (noté souvent y ), aussi appelée
variable à expliquer, est une variable que nous cherchons à
décrire, à expliquer, à prédire. Elle est souvent représentée sur
l’axe des ordonnées dans les graphiques de modélisation.
▶ Les variables explicatives (xj ), appelées également variables
indépendantes, sont celles que nous utilisons dans le but
d’expliquer, de décrire ou de prédire la ou les variable(s)
dépendante(s). Les variables explicatives sont souvent
représentées sur l’axe des abscisses.
Remarque

Y = aj Xj , j = 1, 2, ..., n

Dans un modèle donné, les variables dépendantes et les variables


explicatives peuvent être uniques ou multiples et de type
quantitatif ou qualitatif. Il existe des modèles adaptés à
chaque situation.
Qu’est-ce qu’un paramètre dans un modèle statistique ?

Dans la modélisation classique (paramétrique), la (ou les)


variable(s) dépendante(s) est liée aux variables explicatives à
travers une équation (le modèle) impliquant des quantités appelées
paramètres du modèle.
Dans le modèle suivant

Y = aj Xj , j = 1, 2, ..., n

aj sont les paramètres du modéle.


Conditions de validité

Les conditions de validité suggérées sont uniquement des pistes qui


peuvent changer en fonction du type de données et des domaines
d’application spécifiques.
1- Les individus sont indépendantes
2- Variance(s) homogène(s)
3- Les résidus suivent une distribution normale
4- Au moins 20 individus dans le dispositif (recommandé)
Conditions de validité

5- Absence de multicollinéarité (si l’objectif est d’estimer les


paramètres)
6- Pas plus de variables explicatives que d’individus
7- Normalité multivariée des résidus
8- Variance homogène au sein de chaque variable à expliquer.
Corrélations homogènes entre les variables à expliquer.
Type de modélisation
Les modèles varient selon ce que l’on cherche à expliquer et selon
les données dont nous disposons .
1. y 1 : quanti = x 1 : quali(deux − modalités) –> ANOVA un
facteur ;
Type de modélisation
Les modèles varient selon ce que l’on cherche à expliquer et selon
les données dont nous disposons .
1. y 1 : quanti = x 1 : quali(deux − modalités) –> ANOVA un
facteur ;
2. y 1 : quanti = x 1 : quali(k − modalités) –> ANOVA +sieurs
facteurs ;
Type de modélisation
Les modèles varient selon ce que l’on cherche à expliquer et selon
les données dont nous disposons .
1. y 1 : quanti = x 1 : quali(deux − modalités) –> ANOVA un
facteur ;
2. y 1 : quanti = x 1 : quali(k − modalités) –> ANOVA +sieurs
facteurs ;
3. y 1 : quanti = x 1 : quanti –> Régréssion linéaire simple ;
Type de modélisation
Les modèles varient selon ce que l’on cherche à expliquer et selon
les données dont nous disposons .
1. y 1 : quanti = x 1 : quali(deux − modalités) –> ANOVA un
facteur ;
2. y 1 : quanti = x 1 : quali(k − modalités) –> ANOVA +sieurs
facteurs ;
3. y 1 : quanti = x 1 : quanti –> Régréssion linéaire simple ;
4. y 1 : quanti = x [n, n > 1] : quanti –> Régréssion linéaire
multiple ;
Type de modélisation
Les modèles varient selon ce que l’on cherche à expliquer et selon
les données dont nous disposons .
1. y 1 : quanti = x 1 : quali(deux − modalités) –> ANOVA un
facteur ;
2. y 1 : quanti = x 1 : quali(k − modalités) –> ANOVA +sieurs
facteurs ;
3. y 1 : quanti = x 1 : quanti –> Régréssion linéaire simple ;
4. y 1 : quanti = x [n, n > 1] : quanti –> Régréssion linéaire
multiple ;
5. y 1 : quanti = x [n, n > 1] : quanti + x [n, n > 1] : quali –>
ANCOVA;
Type de modélisation
Les modèles varient selon ce que l’on cherche à expliquer et selon
les données dont nous disposons .
1. y 1 : quanti = x 1 : quali(deux − modalités) –> ANOVA un
facteur ;
2. y 1 : quanti = x 1 : quali(k − modalités) –> ANOVA +sieurs
facteurs ;
3. y 1 : quanti = x 1 : quanti –> Régréssion linéaire simple ;
4. y 1 : quanti = x [n, n > 1] : quanti –> Régréssion linéaire
multiple ;
5. y 1 : quanti = x [n, n > 1] : quanti + x [n, n > 1] : quali –>
ANCOVA;
6. y [n, n > 1] : quanti = x [n, n > 1] : quanti + x [n, n > 1] : quali
–> MANOVA;
Type de modélisation
Les modèles varient selon ce que l’on cherche à expliquer et selon
les données dont nous disposons .
1. y 1 : quanti = x 1 : quali(deux − modalités) –> ANOVA un
facteur ;
2. y 1 : quanti = x 1 : quali(k − modalités) –> ANOVA +sieurs
facteurs ;
3. y 1 : quanti = x 1 : quanti –> Régréssion linéaire simple ;
4. y 1 : quanti = x [n, n > 1] : quanti –> Régréssion linéaire
multiple ;
5. y 1 : quanti = x [n, n > 1] : quanti + x [n, n > 1] : quali –>
ANCOVA;
6. y [n, n > 1] : quanti = x [n, n > 1] : quanti + x [n, n > 1] : quali
–> MANOVA;
7. y 1 : qauli = x [n, n > 1] : quanti + x [n, n > 1]q uali –>
Régréssion logistique, analyse discriminente..;
Type de modélisation
Les modèles varient selon ce que l’on cherche à expliquer et selon
les données dont nous disposons .
1. y 1 : quanti = x 1 : quali(deux − modalités) –> ANOVA un
facteur ;
2. y 1 : quanti = x 1 : quali(k − modalités) –> ANOVA +sieurs
facteurs ;
3. y 1 : quanti = x 1 : quanti –> Régréssion linéaire simple ;
4. y 1 : quanti = x [n, n > 1] : quanti –> Régréssion linéaire
multiple ;
5. y 1 : quanti = x [n, n > 1] : quanti + x [n, n > 1] : quali –>
ANCOVA;
6. y [n, n > 1] : quanti = x [n, n > 1] : quanti + x [n, n > 1] : quali
–> MANOVA;
7. y 1 : qauli = x [n, n > 1] : quanti + x [n, n > 1]q uali –>
Régréssion logistique, analyse discriminente..;
8. y 1 : comptage = x [n, n > 1] : quanti + x [n, n > 1] : quali –>
Régression log-linéaire.
EN résumé

Figure 2: Modéles selon le type de la variable


EN résumé

Figure 3: Modéles selon le type de la variable


EN résumé

Figure 4: Modéles selon le type de la variable


Comment construire des modéles dans R

▶ Disposition d’une base de données : df;


Comment construire des modéles dans R

▶ Disposition d’une base de données : df;


▶ Faire le tri à plat des variables afin de s’assurer que la base est
propre (base est apurée ) et prête à l’analyse
Comment construire des modéles dans R

▶ Disposition d’une base de données : df;


▶ Faire le tri à plat des variables afin de s’assurer que la base est
propre (base est apurée ) et prête à l’analyse
▶ Identifier la variable d’intérêt : Y
Comment construire des modéles dans R

▶ Disposition d’une base de données : df;


▶ Faire le tri à plat des variables afin de s’assurer que la base est
propre (base est apurée ) et prête à l’analyse
▶ Identifier la variable d’intérêt : Y
▶ Identifier les variables explicatives : Xj
Comment construire des modéles dans R

▶ Disposition d’une base de données : df;


▶ Faire le tri à plat des variables afin de s’assurer que la base est
propre (base est apurée ) et prête à l’analyse
▶ Identifier la variable d’intérêt : Y
▶ Identifier les variables explicatives : Xj
▶ Formuler le modèle : Y = aj Xj
Comment construire des modéles dans R

▶ Disposition d’une base de données : df;


▶ Faire le tri à plat des variables afin de s’assurer que la base est
propre (base est apurée ) et prête à l’analyse
▶ Identifier la variable d’intérêt : Y
▶ Identifier les variables explicatives : Xj
▶ Formuler le modèle : Y = aj Xj
▶ Vérifier que vos données repondent au conditions de
modélisation ;
Comment construire des modéles dans R

▶ Disposition d’une base de données : df;


▶ Faire le tri à plat des variables afin de s’assurer que la base est
propre (base est apurée ) et prête à l’analyse
▶ Identifier la variable d’intérêt : Y
▶ Identifier les variables explicatives : Xj
▶ Formuler le modèle : Y = aj Xj
▶ Vérifier que vos données repondent au conditions de
modélisation ;
▶ Identifier la commande R pour votre modèle : aov, lm, ...
Comment construire des modéles dans R

▶ Disposition d’une base de données : df;


▶ Faire le tri à plat des variables afin de s’assurer que la base est
propre (base est apurée ) et prête à l’analyse
▶ Identifier la variable d’intérêt : Y
▶ Identifier les variables explicatives : Xj
▶ Formuler le modèle : Y = aj Xj
▶ Vérifier que vos données repondent au conditions de
modélisation ;
▶ Identifier la commande R pour votre modèle : aov, lm, ...
▶ Vérifier la puissance du modéle :
Comment construire des modéles dans R

▶ Disposition d’une base de données : df;


▶ Faire le tri à plat des variables afin de s’assurer que la base est
propre (base est apurée ) et prête à l’analyse
▶ Identifier la variable d’intérêt : Y
▶ Identifier les variables explicatives : Xj
▶ Formuler le modèle : Y = aj Xj
▶ Vérifier que vos données repondent au conditions de
modélisation ;
▶ Identifier la commande R pour votre modèle : aov, lm, ...
▶ Vérifier la puissance du modéle :
▶ Analyse graphique des résidus;
Comment construire des modéles dans R

▶ Disposition d’une base de données : df;


▶ Faire le tri à plat des variables afin de s’assurer que la base est
propre (base est apurée ) et prête à l’analyse
▶ Identifier la variable d’intérêt : Y
▶ Identifier les variables explicatives : Xj
▶ Formuler le modèle : Y = aj Xj
▶ Vérifier que vos données repondent au conditions de
modélisation ;
▶ Identifier la commande R pour votre modèle : aov, lm, ...
▶ Vérifier la puissance du modéle :
▶ Analyse graphique des résidus;
▶ Test de normalité des résidus.
Comment construire des modéles dans R

▶ Disposition d’une base de données : df;


▶ Faire le tri à plat des variables afin de s’assurer que la base est
propre (base est apurée ) et prête à l’analyse
▶ Identifier la variable d’intérêt : Y
▶ Identifier les variables explicatives : Xj
▶ Formuler le modèle : Y = aj Xj
▶ Vérifier que vos données repondent au conditions de
modélisation ;
▶ Identifier la commande R pour votre modèle : aov, lm, ...
▶ Vérifier la puissance du modéle :
▶ Analyse graphique des résidus;
▶ Test de normalité des résidus.
▶ ....
Comment construire des modéles dans R

▶ Disposition d’une base de données : df;


▶ Faire le tri à plat des variables afin de s’assurer que la base est
propre (base est apurée ) et prête à l’analyse
▶ Identifier la variable d’intérêt : Y
▶ Identifier les variables explicatives : Xj
▶ Formuler le modèle : Y = aj Xj
▶ Vérifier que vos données repondent au conditions de
modélisation ;
▶ Identifier la commande R pour votre modèle : aov, lm, ...
▶ Vérifier la puissance du modéle :
▶ Analyse graphique des résidus;
▶ Test de normalité des résidus.
▶ ....
▶ Répondre la question d’étude : analyse des paramètres du
modèle, prédictions, . . . .

Vous aimerez peut-être aussi