03/05/2022 Qeul outil de modélisation statistique faut-il choisir ?
Figure 1: Une question
Définition
La modélisation statistique est une manière simplifiée et formalisée
mathématiquement d’approximer la réalité, en d’autres termes, de décrire les processus qui génèrent vos données. Optionnellement, elle permet de faire des prédictions à partir de cette approximation. Le modèle statistique est l’équation mathématique utilisée.
variable − expliquer = variable − explicative
Qu’est-ce qu’une variable dépendante et qu’est-ce qu’une variable explicative ?
Dans la grande majorité des cas, les modèles statistiques
impliquent des variables explicatives et dépendantes. ▶ Une variable dépendante (noté souvent y ), aussi appelée variable à expliquer, est une variable que nous cherchons à décrire, à expliquer, à prédire. Elle est souvent représentée sur l’axe des ordonnées dans les graphiques de modélisation. Qu’est-ce qu’une variable dépendante et qu’est-ce qu’une variable explicative ?
Dans la grande majorité des cas, les modèles statistiques
impliquent des variables explicatives et dépendantes. ▶ Une variable dépendante (noté souvent y ), aussi appelée variable à expliquer, est une variable que nous cherchons à décrire, à expliquer, à prédire. Elle est souvent représentée sur l’axe des ordonnées dans les graphiques de modélisation. ▶ Les variables explicatives (xj ), appelées également variables indépendantes, sont celles que nous utilisons dans le but d’expliquer, de décrire ou de prédire la ou les variable(s) dépendante(s). Les variables explicatives sont souvent représentées sur l’axe des abscisses. Remarque
Y = aj Xj , j = 1, 2, ..., n
Dans un modèle donné, les variables dépendantes et les variables
explicatives peuvent être uniques ou multiples et de type quantitatif ou qualitatif. Il existe des modèles adaptés à chaque situation. Qu’est-ce qu’un paramètre dans un modèle statistique ?
Dans la modélisation classique (paramétrique), la (ou les)
variable(s) dépendante(s) est liée aux variables explicatives à travers une équation (le modèle) impliquant des quantités appelées paramètres du modèle. Dans le modèle suivant
Y = aj Xj , j = 1, 2, ..., n
aj sont les paramètres du modéle.
Conditions de validité
Les conditions de validité suggérées sont uniquement des pistes qui
peuvent changer en fonction du type de données et des domaines d’application spécifiques. 1- Les individus sont indépendantes 2- Variance(s) homogène(s) 3- Les résidus suivent une distribution normale 4- Au moins 20 individus dans le dispositif (recommandé) Conditions de validité
5- Absence de multicollinéarité (si l’objectif est d’estimer les
paramètres) 6- Pas plus de variables explicatives que d’individus 7- Normalité multivariée des résidus 8- Variance homogène au sein de chaque variable à expliquer. Corrélations homogènes entre les variables à expliquer. Type de modélisation Les modèles varient selon ce que l’on cherche à expliquer et selon les données dont nous disposons . 1. y 1 : quanti = x 1 : quali(deux − modalités) –> ANOVA un facteur ; Type de modélisation Les modèles varient selon ce que l’on cherche à expliquer et selon les données dont nous disposons . 1. y 1 : quanti = x 1 : quali(deux − modalités) –> ANOVA un facteur ; 2. y 1 : quanti = x 1 : quali(k − modalités) –> ANOVA +sieurs facteurs ; Type de modélisation Les modèles varient selon ce que l’on cherche à expliquer et selon les données dont nous disposons . 1. y 1 : quanti = x 1 : quali(deux − modalités) –> ANOVA un facteur ; 2. y 1 : quanti = x 1 : quali(k − modalités) –> ANOVA +sieurs facteurs ; 3. y 1 : quanti = x 1 : quanti –> Régréssion linéaire simple ; Type de modélisation Les modèles varient selon ce que l’on cherche à expliquer et selon les données dont nous disposons . 1. y 1 : quanti = x 1 : quali(deux − modalités) –> ANOVA un facteur ; 2. y 1 : quanti = x 1 : quali(k − modalités) –> ANOVA +sieurs facteurs ; 3. y 1 : quanti = x 1 : quanti –> Régréssion linéaire simple ; 4. y 1 : quanti = x [n, n > 1] : quanti –> Régréssion linéaire multiple ; Type de modélisation Les modèles varient selon ce que l’on cherche à expliquer et selon les données dont nous disposons . 1. y 1 : quanti = x 1 : quali(deux − modalités) –> ANOVA un facteur ; 2. y 1 : quanti = x 1 : quali(k − modalités) –> ANOVA +sieurs facteurs ; 3. y 1 : quanti = x 1 : quanti –> Régréssion linéaire simple ; 4. y 1 : quanti = x [n, n > 1] : quanti –> Régréssion linéaire multiple ; 5. y 1 : quanti = x [n, n > 1] : quanti + x [n, n > 1] : quali –> ANCOVA; Type de modélisation Les modèles varient selon ce que l’on cherche à expliquer et selon les données dont nous disposons . 1. y 1 : quanti = x 1 : quali(deux − modalités) –> ANOVA un facteur ; 2. y 1 : quanti = x 1 : quali(k − modalités) –> ANOVA +sieurs facteurs ; 3. y 1 : quanti = x 1 : quanti –> Régréssion linéaire simple ; 4. y 1 : quanti = x [n, n > 1] : quanti –> Régréssion linéaire multiple ; 5. y 1 : quanti = x [n, n > 1] : quanti + x [n, n > 1] : quali –> ANCOVA; 6. y [n, n > 1] : quanti = x [n, n > 1] : quanti + x [n, n > 1] : quali –> MANOVA; Type de modélisation Les modèles varient selon ce que l’on cherche à expliquer et selon les données dont nous disposons . 1. y 1 : quanti = x 1 : quali(deux − modalités) –> ANOVA un facteur ; 2. y 1 : quanti = x 1 : quali(k − modalités) –> ANOVA +sieurs facteurs ; 3. y 1 : quanti = x 1 : quanti –> Régréssion linéaire simple ; 4. y 1 : quanti = x [n, n > 1] : quanti –> Régréssion linéaire multiple ; 5. y 1 : quanti = x [n, n > 1] : quanti + x [n, n > 1] : quali –> ANCOVA; 6. y [n, n > 1] : quanti = x [n, n > 1] : quanti + x [n, n > 1] : quali –> MANOVA; 7. y 1 : qauli = x [n, n > 1] : quanti + x [n, n > 1]q uali –> Régréssion logistique, analyse discriminente..; Type de modélisation Les modèles varient selon ce que l’on cherche à expliquer et selon les données dont nous disposons . 1. y 1 : quanti = x 1 : quali(deux − modalités) –> ANOVA un facteur ; 2. y 1 : quanti = x 1 : quali(k − modalités) –> ANOVA +sieurs facteurs ; 3. y 1 : quanti = x 1 : quanti –> Régréssion linéaire simple ; 4. y 1 : quanti = x [n, n > 1] : quanti –> Régréssion linéaire multiple ; 5. y 1 : quanti = x [n, n > 1] : quanti + x [n, n > 1] : quali –> ANCOVA; 6. y [n, n > 1] : quanti = x [n, n > 1] : quanti + x [n, n > 1] : quali –> MANOVA; 7. y 1 : qauli = x [n, n > 1] : quanti + x [n, n > 1]q uali –> Régréssion logistique, analyse discriminente..; 8. y 1 : comptage = x [n, n > 1] : quanti + x [n, n > 1] : quali –> Régression log-linéaire. EN résumé
Figure 2: Modéles selon le type de la variable
EN résumé
Figure 3: Modéles selon le type de la variable
EN résumé
Figure 4: Modéles selon le type de la variable
Comment construire des modéles dans R
▶ Disposition d’une base de données : df;
Comment construire des modéles dans R
▶ Disposition d’une base de données : df;
▶ Faire le tri à plat des variables afin de s’assurer que la base est propre (base est apurée ) et prête à l’analyse Comment construire des modéles dans R
▶ Disposition d’une base de données : df;
▶ Faire le tri à plat des variables afin de s’assurer que la base est propre (base est apurée ) et prête à l’analyse ▶ Identifier la variable d’intérêt : Y Comment construire des modéles dans R
▶ Disposition d’une base de données : df;
▶ Faire le tri à plat des variables afin de s’assurer que la base est propre (base est apurée ) et prête à l’analyse ▶ Identifier la variable d’intérêt : Y ▶ Identifier les variables explicatives : Xj Comment construire des modéles dans R
▶ Disposition d’une base de données : df;
▶ Faire le tri à plat des variables afin de s’assurer que la base est propre (base est apurée ) et prête à l’analyse ▶ Identifier la variable d’intérêt : Y ▶ Identifier les variables explicatives : Xj ▶ Formuler le modèle : Y = aj Xj Comment construire des modéles dans R
▶ Disposition d’une base de données : df;
▶ Faire le tri à plat des variables afin de s’assurer que la base est propre (base est apurée ) et prête à l’analyse ▶ Identifier la variable d’intérêt : Y ▶ Identifier les variables explicatives : Xj ▶ Formuler le modèle : Y = aj Xj ▶ Vérifier que vos données repondent au conditions de modélisation ; Comment construire des modéles dans R
▶ Disposition d’une base de données : df;
▶ Faire le tri à plat des variables afin de s’assurer que la base est propre (base est apurée ) et prête à l’analyse ▶ Identifier la variable d’intérêt : Y ▶ Identifier les variables explicatives : Xj ▶ Formuler le modèle : Y = aj Xj ▶ Vérifier que vos données repondent au conditions de modélisation ; ▶ Identifier la commande R pour votre modèle : aov, lm, ... Comment construire des modéles dans R
▶ Disposition d’une base de données : df;
▶ Faire le tri à plat des variables afin de s’assurer que la base est propre (base est apurée ) et prête à l’analyse ▶ Identifier la variable d’intérêt : Y ▶ Identifier les variables explicatives : Xj ▶ Formuler le modèle : Y = aj Xj ▶ Vérifier que vos données repondent au conditions de modélisation ; ▶ Identifier la commande R pour votre modèle : aov, lm, ... ▶ Vérifier la puissance du modéle : Comment construire des modéles dans R
▶ Disposition d’une base de données : df;
▶ Faire le tri à plat des variables afin de s’assurer que la base est propre (base est apurée ) et prête à l’analyse ▶ Identifier la variable d’intérêt : Y ▶ Identifier les variables explicatives : Xj ▶ Formuler le modèle : Y = aj Xj ▶ Vérifier que vos données repondent au conditions de modélisation ; ▶ Identifier la commande R pour votre modèle : aov, lm, ... ▶ Vérifier la puissance du modéle : ▶ Analyse graphique des résidus; Comment construire des modéles dans R
▶ Disposition d’une base de données : df;
▶ Faire le tri à plat des variables afin de s’assurer que la base est propre (base est apurée ) et prête à l’analyse ▶ Identifier la variable d’intérêt : Y ▶ Identifier les variables explicatives : Xj ▶ Formuler le modèle : Y = aj Xj ▶ Vérifier que vos données repondent au conditions de modélisation ; ▶ Identifier la commande R pour votre modèle : aov, lm, ... ▶ Vérifier la puissance du modéle : ▶ Analyse graphique des résidus; ▶ Test de normalité des résidus. Comment construire des modéles dans R
▶ Disposition d’une base de données : df;
▶ Faire le tri à plat des variables afin de s’assurer que la base est propre (base est apurée ) et prête à l’analyse ▶ Identifier la variable d’intérêt : Y ▶ Identifier les variables explicatives : Xj ▶ Formuler le modèle : Y = aj Xj ▶ Vérifier que vos données repondent au conditions de modélisation ; ▶ Identifier la commande R pour votre modèle : aov, lm, ... ▶ Vérifier la puissance du modéle : ▶ Analyse graphique des résidus; ▶ Test de normalité des résidus. ▶ .... Comment construire des modéles dans R
▶ Disposition d’une base de données : df;
▶ Faire le tri à plat des variables afin de s’assurer que la base est propre (base est apurée ) et prête à l’analyse ▶ Identifier la variable d’intérêt : Y ▶ Identifier les variables explicatives : Xj ▶ Formuler le modèle : Y = aj Xj ▶ Vérifier que vos données repondent au conditions de modélisation ; ▶ Identifier la commande R pour votre modèle : aov, lm, ... ▶ Vérifier la puissance du modéle : ▶ Analyse graphique des résidus; ▶ Test de normalité des résidus. ▶ .... ▶ Répondre la question d’étude : analyse des paramètres du modèle, prédictions, . . . .