Vous êtes sur la page 1sur 7

REPONSES AUX QUESTIONS

1. La forme générale des modèles linéaire et non linéaire


 Modèle linéaire
p
 La forme générale des modèles linéaire est : y i=β 0 + ∑ β j x ij + ε i pour i=1,2 , … … … n
j=1

 Où :

 y idésigne la variable à expliquer

 x ij sont des variables explicatives

 β 0 , β 1 , β 2 , … … … .. β P , Les paramètres du modèle

 ε i est l' erreur de du modèle (différence entre le modèle vrai et le modèle spécifié)

 n=nombre d’observations

 Modèle non linéaire

Un modèle non linéaire est de la forme :Y f ( x , β ) . il permet de déterminer la


relation entre la variable dépendante et un groupe de variables indépendantes. La
fonction f est non linéaire.

2. Les hypothèses du modèle de régression linéaire.

 H1 : les valeurs x ij sont observées.


 H2 : E (ε i) = 0, l’espérance mathématique de l’erreur est nulle.
 H3 : E( ε ¿¿ i¿¿ 2)=σ ε 2 , ¿ ¿la variance de l’erreur est constante (∀ i)
(homoscédasticité),
 H4 : E (ε i , ε i ' ) =0 si i≠ i ' les erreurs sont non corrélées (ou encore indépendantes).
 H5 : Cov ( x ij, ε j) = 0, l’erreur est indépendante des variables explicatives.

3. Lequel d’un modèle linéaire ou non linéaire est robuste ?


La régression linéaire est souvent considérée comme plus robuste que la régression non-linéaire car
elle est plus simple et plus facile à interpréter. De plus, la régression linéaire est souvent utilisée dans
des domaines tels que les sciences sociales et les sciences économiques où les relations entre les
variables sont souvent linéaires.

4. Dans quel cas utilise-t-on les modèles de régression logit/probit ?


Les modèles de régression logit et probit sont des méthodes d'analyse statistique utilisées pour
modéliser la probabilité d'un événement binaire, c'est-à-dire un événement qui peut avoir deux
résultats possibles. Les modèles de régression logit et probit sont des méthodes d'analyse statistique
utilisées pour modéliser la probabilité d'un événement binaire, c'est-à-dire un événement qui peut avoir
deux résultats possibles.

 Le modèle de régression logit

La régression logit est basé sur une fonction logarithmique qui transforme les probabilités en une
échelle continue allant de moins l'infini a plus l'infini.

 Le modèle de régression probit

Quant à lui, utilise une fonction de distribution normale (gaussienne) pour transformer les probabilités
en une échelle continue.

En conclusion, les modèles de régression logit et probit sont deux méthodes d'analyse statistique
couramment utilisées pour modéliser des événements binaires dans divers domaines. Ils sont utiles
pour prédire les résultats binaires et pour modéliser des relations non linéaires entre les variables
indépendantes et la variable dépendante.

5. Qu’est-ce que la machine Learning et comment peut-il aider à la gestion de des risques
en assurance ?

Le Machine Learning est une technique d'apprentissage automatique qui permet aux ordinateurs
d'apprendre à partir de données sans être explicitement programmés. En d'autres termes, il s'agit
d'enseigner aux machines à apprendre par elles-mêmes.

Le Machine Learning est une technique d'apprentissage automatique qui permet aux ordinateurs
d'apprendre à partir de données sans être explicitement programmés. En d'autres termes, il s'agit
d'enseigner aux machines à apprendre par elles-mêmes.

En ce qui concerne l'assurance, le Machine Learning peut aider à la gestion des risques en
analysant les données historiques des clients et en identifiant les tendances et les risques
potentiels. Par exemple, les compagnies d'assurance peuvent utiliser le Machine Learning
pour prédire les risques d'accidents ou de maladies pour un individu en particulier en
analysant des données telles que l'âge, le sexe, l'historique médical et les antécédents
familiaux.

De plus, le Machine Learning peut aider les compagnies d'assurance à détecter les fraudes en
examinant les schémas de comportement des clients et en identifiant les anomalies qui
pourraient indiquer une fraude potentielle.

En résumé, le Machine Learning peut aider les compagnies d'assurance à mieux comprendre
les risques associés à chaque client et à prendre des décisions plus éclairées en matière de
tarification et de couverture. Cela peut aider à réduire les coûts et à améliorer l'expérience
client.

6. En quoi consiste la technique SMOTE et quel est son avantage ?

La technique SMOTE, acronyme de Synthetic Minority Over-sampling Technique, est une


méthode de suréchantillonnage de données utilisée en apprentissage automatique pour
résoudre le problème de déséquilibre de classes. Elle permet de créer de nouveaux exemples
de la classe minoritaire en utilisant des techniques d'interpolation.

L'avantage principal de SMOTE est qu'elle permet de surmonter le déséquilibre de classes


sans avoir besoin de collecter de nouvelles données, ce qui peut s'avérer coûteux et fastidieux
dans certains cas. Elle permet également d'améliorer les performances de certains algorithmes
de classification qui ont tendance à sous-représenter la classe minoritaire.

7. Que signifie GLM ? A quel moment utilise-t-on la régression de poisson et Quasi


Poisson

GLM signifie (Generalized Linear Model) en anglais, ce qui se traduit en français par
"Modèle linéaire généralisé". C'est une méthode statistique qui permet de modéliser des
variables dépendantes qui ne sont pas nécessairement continues, mais qui peuvent prendre des
valeurs discrètes ou binaires.

La régression de Poisson est une technique de GLM qui permet de modéliser des variables
dépendantes qui suivent une distribution de Poisson. Cette méthode est utilisée lorsque la
variable dépendante est une variable de comptage, c'est-à-dire lorsque les valeurs possibles
sont des nombres entiers positifs. La régression de Poisson est couramment utilisée en
épidémiologie pour étudier l'incidence de maladies ou de troubles de santé.

La régression de Quasi Poisson est une méthode similaire à la régression de Poisson, mais
elle est utilisée lorsque la variance de la variable dépendante est plus grande que la moyenne.
Cela peut se produire lorsque les données présentent une dispersion supplémentaire qui ne
peut être expliquée par les variables explicatives incluses dans le modèle. La régression de
Quasi Poisson est souvent utilisée pour modéliser des variables de comptage avec des données
surdispersées

8. Qu’est-ce que l’analyse discriminante et quelle son utilité en assurance ?

L’analyse discriminante peut être utilisée pour identifier les caractéristiques communes des
réclamants et établir des modèles prédictifs pour les futurs réclamants. Cela permet aux compagnies
d'assurance de mieux comprendre les risques et de fixer des primes plus précises en fonction des
caractéristiques des assurés.
Son utilité : l'analyse discriminante est un outil précieux pour les compagnies d'assurance car elle leur
permet de mieux comprendre les risques et de fixer des primes plus précises en fonction des
caractéristiques des assurés. Elle peut également être utilisée pour détecter les fraudes à l'assurance.
9. Qu’est-ce que la matrice de confusion ? Etayez avec un exemple.
La matrice de confusion est un outil de mesure de performance pour les algorithmes de classification.
Elle permet de visualiser la qualité des prédictions en comparant les valeurs réelles et les valeurs
prédites par le modèle.
Exemple
10. Quelles sont les conditions à respecter pour qu’un modèle logistique soit fiable ?

Un modèle logistique est un outil statistique largement utilisé pour prédire les résultats d'un
événement binaire (oui/non, vrai/faux, etc.). Pour qu'un modèle logistique soit fiable, il doit
remplir les conditions suivantes :

 Données adéquates : Le modèle doit être basé sur une quantité suffisante de données
de haute qualité. Les données doivent être représentatives de la population et doivent
inclure toutes les variables pertinentes.
 Variables indépendantes : Le modèle doit avoir des variables indépendantes
pertinentes pour la prédiction. Les variables doivent être mesurées avec précision et ne
doivent pas être liées entre elles.
 Pas de variables manquantes : Le modèle doit être basé sur des données complètes
et il ne doit pas y avoir de trous dans les données.
 Pas de valeurs aberrantes : Le modèle doit être capable de traiter les valeurs
aberrantes et les données extrêmes. Si des valeurs aberrantes sont présentes, elles
doivent être identifiées et traitées de manière appropriée.
 Pas de multi colinéarité : Les variables indépendantes doivent être corrélées de
manière minimale ou nulle afin d'éviter la multi colinéarité.

Si ces conditions sont remplies, le modèle logistique peut être considéré comme fiable pour
prédire les résultats d'un événement binaire.

EXERCICE 1

La structure du base
Regression

Probit

Logit

Le modèle sélectionné

Vous aimerez peut-être aussi