Vous êtes sur la page 1sur 25

Modèles linéaires généralisés (GLM)

➢ Réalisée par :
Aya Ghoujdam

➢ Préparé sous la direction de

Kouach Yassin

Année Universitaire : 2023-2024


Table des matières
I. Partie théorique :................................................................................................................................................................................................................................................... 3

• Principales Caractéristiques des GLM : ......................................................................................................................................................................................................... 3

• Composantes d'un Modèle Linéaire Généralisé : ........................................................................................................................................................................................... 3

• Avantages des GLM : ...................................................................................................................................................................................................................................... 4

II. Partie pratique....................................................................................................................................................................................................................................................... 4


1. Chargement et Prétraitement des Données .................................................................................................................................................................................................... 5
▪ Chargement des Contrats d'Assurance ................................................................................................................................................................................................... 5

▪ Chargement des Montants des Sinistres .................................................................................................................................................................................................. 5


▪ Statistiques descriptives des Contrats ...................................................................................................................................................................................................... 5
▪ Statistiques descriptives des Montants des Sinistres ............................................................................................................................................................................... 6
▪ Traitement des Valeurs Manquantes dans les Montants des Sinistres ................................................................................................................................................... 7
▪ Traitement des Valeurs Non Standard et Charges Nulles dans les Sinistres ......................................................................................................................................... 7
▪ Filtrage des Données pour la Garantie '2DO' dans le DataFrame des Sinistres .................................................................................................................................... 7

▪ Fusion des Données des Contrats et des Sinistres.................................................................................................................................................................................... 8


2. Création de Nouvelles Variables ..................................................................................................................................................................................................................... 9
▪ Calcul du Nombre de Sinistres, Somme et Moyenne des Charges par Assuré ....................................................................................................................................... 9
................................................................................................................................................................................................................................................................................ 9
3. Analyse Bivariée et Visualisation ...................................................................................................................................................................................................................14
▪ Analyse de l'Évolution de la Somme du coût Moyen par Tranche d'Âge .............................................................................................................................................14
▪ Analyse de l'Évolution de la Somme du coût Moyen par Zone Géographique .....................................................................................................................................16
▪ Analyse de l'Évolution de la Somme du coût Moyen par Puissance du Véhicule .................................................................................................................................17

...............................................................................................................................................................................................................................................................................17
▪ Analyse de l'Évolution de la Somme du coût Moyen par densité : .....................................................................................................................................................................18
4. Analyse de l'Évolution de la Somme du coût Moyen par region ....................................................................................................................................................19
4. Analyse de Corrélation ...................................................................................................................................................................................................................................20
▪ Matrice de Corrélation entre les Variables ............................................................................................................................................................................................20
6. les lois ..............................................................................................................................................................................................................................................................21

• La loi log normale : ...................................................................................................................................................................................................................................21

• La loi exponentielle : .................................................................................................................................................................................................................................22

• La loi gamma :...........................................................................................................................................................................................................................................22

• Test de "Kolmogorov-Smirnov" ................................................................................................................................................................................................................22

• Test de "Cramer-Von-Mises" et "d’Anderson-Darling" : ........................................................................................................................................................................................23

Tests empiriques : ..........................................................................................................................................................................................................................................................23


▪ Résultat des tests d’adéquation pour la loi Log Normale : ....................................................................................................................................................................23

▪ Résultat des tests d’adéquation pour la loi Exponentielle :...........................................................................................................................................................................23


▪ Résultat des tests d’adéquation pour la loi gamma : .....................................................................................................................................................................................24
▪ Les histogrammes : ..................................................................................................................................................................................................................................24
▪ QQ-Plot : ..................................................................................................................................................................................................................................................24
CONCLUSION .................................................................................................................................................................................................................................................................25
Modèles linéaires généralisés (GLM)
I. Partie théorique :
Les Modèles linéaires généralisés (GLM) sont une extension des modèles linéaires classiques
qui permettent de modéliser des relations entre des variables de réponse et des prédicteurs
de manière plus flexible. Les GLM sont particulièrement utiles lorsque les hypothèses des
modèles linéaires classiques, telles que la normalité des résidus, ne sont pas satisfaites.
• Principales Caractéristiques des GLM :
1. Forme Linéaire : Tout comme dans les modèles linéaires classiques, les GLM ont une
composante linéaire où la combinaison linéaire des prédicteurs est liée à la variable
de réponse par une fonction linéaire.
2. Distribution de la Variable de Réponse : Les GLM permettent de modéliser des
variables de réponse qui ne suivent pas nécessairement une distribution normale. On
peut choisir une distribution appropriée parmi la famille exponentielle des
distributions, comprenant la distribution normale, binomiale, de Poisson, gamma,
etc.
3. Fonction de Lien : La fonction de lien connecte la composante linéaire à la moyenne
de la distribution. Elle introduit une relation systématique entre la moyenne et les
prédicteurs. Par exemple, la fonction logistique est couramment utilisée pour des
variables de réponse binaires.
4. Variance et Fonction de Dispersion : La variance de la distribution de la variable de
réponse n'est pas nécessairement constante. Les GLM permettent la modélisation
d'une fonction de dispersion qui peut dépendre des prédicteurs.
5. Estimation des Paramètres : Les paramètres du modèle sont estimés à l'aide de
méthodes d'optimisation numérique, telles que la méthode de maximisation de la
vraisemblance.
• Composantes d'un Modèle Linéaire Généralisé :

1. Composante Linéaire : η=β0+β1x1+β2x2+…+βkxk


2. Fonction de Lien : g(μ)=η, g(⋅) est la fonction de lien et μ est la moyenne de la
distribution de la variable de réponse.
3. Distribution de la Variable de Réponse : Choix en fonction de la nature de la variable
de réponse (binomiale, de Poisson, etc.).
4. Fonction de Dispersion :ϕ(μ), où ϕ(⋅) est une fonction liée à la variance de la
distribution.
• Avantages des GLM :

• Flexibilité : Les GLM offrent une flexibilité importante pour modéliser différentes
distributions de variables de réponse.
• Adaptabilité : Ils peuvent être adaptés à divers types de données, y compris les
données de comptage, les données binaires, etc.
• Interprétabilité : Les paramètres du modèle ont souvent une interprétation
substantielle, facilitant l'interprétation des résultats.
• Estimation par Maximum de Vraisemblance : Les paramètres du modèle sont
souvent estimés par maximisation de la vraisemblance, fournissant des estimations
efficaces.
Les GLM sont donc un outil puissant pour la modélisation statistique, en particulier dans des
situations où les hypothèses des modèles linéaires classiques ne sont pas remplies ou pour des
variables de réponse avec des caractéristiques spécifiques.

II. Partie pratique

Dans le document intitulé "Traitement et analyse des données - Modélisation du montant


des sinistres", l'accent est mis sur l'importance de l'analyse et du traitement des données
dans le domaine de l'assurance automobile. L'objectif principal est de proposer une
approche et une modélisation pour évaluer les montants des sinistres liés à cette activité.

Pour atteindre cet objectif, le langage de programmation Python et des bibliothèques telles
que Pandas, NumPy et scikit-learn sont utilisés. Ces outils permettent de collecter, préparer
et analyser les données de manière efficace.

Le premier pas de notre démarche consiste à collecter les informations sur les contrats et les
sinistres afin de préparer la base de données. Ces données sont ensuite importées dans des
structures de données appropriées, telles que des DataFrames, pour faciliter leur
manipulation et leur analyse ultérieure.

La base de données des contrats contient des informations essentielles telles que la
puissance, l'âge du véhicule, l'âge du conducteur et la marque des véhicules assurés. De son
côté, la base de données des sinistres répertorie les contrats, les garanties et les coûts
associés.

Avant d'utiliser ces données dans le modèle statistique, un prétraitement est effectué pour
éliminer les doublons et les valeurs aberrantes. De plus, des variables pertinentes sont
ajoutées pour enrichir les informations disponibles.
Une fois les bases de données préparées, elles sont fusionnées en utilisant le numéro de
contrat comme clé de fusion. Les valeurs manquantes des coûts sont remplacées par des
zéros, et une nouvelle variable représentant le coût moyen par assuré est calculée.
Enfin, une analyse exploratoire est réalisée pour mettre en évidence les facteurs qui
influencent les coûts moyens des sinistres, tels que l'âge du conducteur, l'âge du véhicule, le
type de carburant et la zone géographique.

La méthodologie présentée dans ce document offre une meilleure appréhension des


tendances prévalentes et permet de développer des stratégies plus performantes en matière
de tarification des primes et de gestion des risques dans le domaine de l'assurance
automobile. Cela permet d'améliorer la prise de décision et d'optimiser les mesures prises
pour établir les tarifs des contrats et gérer les sinistres de manière plus efficace.

1. Chargement et Prétraitement des Données


▪ Chargement des Contrats d'Assurance
▪ Chargement des Montants des Sinistres

▪ Statistiques descriptives des Contrats

Après avoir importé la base de données, nous sommes en mesure de générer des statistiques descriptives pour
les variables :
En analysant ce tableau, nous observons que notre base de données ne comporte aucune
donnée manquante, car le nombre d'observations (count) est cohérent pour toutes les
variables. Cependant, nous avons identifié la présence de valeurs atypiques dans les
variables "agevehicule" et "région", car certaines valeurs sont anormalement négatives.

▪ Statistiques descriptives des Montants des Sinistres


Après avoir importé la base de données, nous sommes en mesure de générer des statistiques descriptives pour les
variables

En examinant ce tableau, nous constatons que notre base de données ne présente aucune valeur
manquante. Cependant, nous avons identifié la présence de valeurs aberrantes dans la variable du
coût.
▪ Traitement des Valeurs Manquantes dans les Montants des Sinistres

▪ Traitement des Valeurs Non Standard et Charges Nulles dans les Sinistres

▪ Filtrage des Données pour la Garantie '2DO' dans le DataFrame des Sinistres
Pour commencer, nous procédons à un filtrage des données en utilisant la colonne 'garantie'
avec la valeur '2DO'.
▪ Fusion des Données des Contrats et des Sinistres

Pour construire notre modèle, nous suivons les étapes suivantes :

1. Fusion des bases de données "Contrats" et "Sinistres" en utilisant le numéro de contrat


comme clé de fusion.
2. Remplacement des valeurs manquantes de la variable coût par des zéros, indiquant
l'absence de coût associé à certains assurés
2. Création de Nouvelles Variables
▪ Calcul du Nombre de Sinistres, Somme et Moyenne des Charges par Assuré

Ajout de la variable "cout Moyen" qui représente le coût moyen des sinistres par assuré, calculé en
divisant la somme des coûts par le nombre de sinistres.

Suppression des observations avec un coût nul pour éviter tout biais dans le modèle.

▪ Analyse Univariée des Variables Qualitatives


▪ Analyse Univariée des Variables Quantitatif
3. Analyse Bivariée et Visualisation
▪ Analyse de l'Évolution de la Somme du coût Moyen par Tranche d'Âge
Dans cette analyse, notre objectif est de mettre en évidence les facteurs qui influencent la sinistralité en
examinant de manière critique la répartition et l'évolution de la variable à expliquer, "coutMoyen", en
fonction des variables explicatives. Cette approche nous permettra de déterminer les tendances
prédominantes et de tester la validité de notre modèle.

Pour étudier l'évolution de "coutMoyen" en fonction de l'âge, nous divisons notre base de données en
différentes tranches d'âge significatives :

Les données du tableau révèlent que bien que la sous-population des assurés âgés de 35 à 55 ans soit la plus nombreuse, ce
sont les groupes d'assurés les plus jeunes (20 à 25 ans) et les plus âgés (65 à 75 ans) qui présentent des coûts moyens de
sinistres relativement élevés. Malgré leur proportion minoritaire dans la population totale, ces groupes semblent être plus
susceptibles de présenter des risques de sinistralité élevés.
Ces résultats soulignent l'importance de porter une attention particulière aux groupes d'assurés plus jeunes et plus âgés en
termes de tarification des primes et de gestion des risques. Il est essentiel d'adapter les primes d'assurance et de mettre en
place des stratégies de prévention ciblées pour réduire les risques et les coûts associés à ces tranches d'âge spécifiques. En
prenant des mesures spécifiques, il est possible de mieux gérer les risques et de garantir une tarification équitable et
adaptée à chaque groupe d'assurés.

▪ Analyse de l'Évolution de la Somme du coût Moyen par Tranche d'Âge de Véhicule


Nous divisons d’abord notre base de données selon des tranches d’âge de véhicule :
Pour analyser l'évolution en fonction de l'âge du véhicule, nous divisons d'abord
notre base de données en tranches d'âge de véhicule :
• Tranche A : 0 ≤ AgeVehicule < 3
• Tranche B : 3≤ AgeVehicule < 6
Nous affichons ensuite les résultats suivants pour étudier cette évolution :

L'analyse de l'histogramme du coût moyen par tranche d'âge du véhicule révèle que la tranche
d'âge B, correspondant à (0 ≤ AgeVehicule < 3), est plus dominante. Cela signifie que la
majorité des véhicules assurés ont une ancienneté de moins de 3 ans
▪ Analyse de l'Évolution de la Somme du coût Moyen par Carburant

Le graphique illustre la variation du coût moyen des sinistres (coutMoyen) en fonction du type de carburant du véhicule.
Une observation importante est que les véhicules utilisant le carburant "Diesel" présentent généralement un coût moyen
plus élevé que ceux utilisant le carburant "Essence". Cette différence peut être attribuée à plusieurs facteurs potentiels, tels
que la disparité des prix entre les carburants, les caractéristiques spécifiques des véhicules diesel ou encore les habitudes
de conduite des conducteurs.
▪ Analyse de l'Évolution de la Somme du coût Moyen par Zone Géographique
Le graphique met en évidence la variation du coût moyen des sinistres (coutMoyen) en fonction de la
zone géographique. Il est observé que les zones "Zone 3" et "Zone 4" affichent des coûts moyens plus
élevés par rapport aux autres zones. Cette différence peut être attribuée à plusieurs facteurs potentiels,
tels que la densité de circulation plus élevée, les caractéristiques routières spécifiques ou encore les
conditions environnementales propres à ces zones. Ces éléments peuvent influencer les risques de
sinistralité et entraîner des coûts moyens plus élevés dans ces zones géographiques spécifiques.

▪ Analyse de l'Évolution de la Somme du coût Moyen par Puissance du Véhicule

Ce graphique montre comment le coût


moyen des sinistres (coutMoyen) varie en
fonction de la puissance fiscale du véhicule. On
peut constater une augmentation générale du
coût moyen avec une augmentation de la
puissance fiscale. Cela suggère que les
véhicules avec une puissance fiscale plus
élevée peuvent être associés à des coûts de
réparation plus élevés ou à une probabilité
plus élevée de sinistres
▪ Analyse de l'Évolution de la Somme du coût Moyen par densité :

Le graphique met en évidence la variation du


coût moyen des sinistres (coutMoyen) en
fonction de la densité de population de la région.
On observe une tendance à l'augmentation du
coût moyen avec une augmentation de la densité
de population. Cette observation peut être
attribuée à plusieurs facteurs, tels que la
fréquence accrue des accidents de la route, la
congestion du trafic ou d'autres risques liés à une
densité de population plus élevée. Dans les
régions densément peuplées, il peut y avoir une
plus grande probabilité de collisions, une plus
grande fréquence de réclamations d'assurance et des coûts de réparation plus élevés en raison de la
concentration de véhicules sur les routes
4. Analyse de l'Évolution de la Somme du coût Moyen par region

Le graphique met en évidence les variations du


coût moyen des sinistres (coutMoyen) en
fonction de la région géographique. On observe
des différences significatives du coût moyen
entre les différentes régions. Ces variations
peuvent être attribuées à divers facteurs tels que
les caractéristiques démographiques de chaque
région, les conditions routières spécifiques, les
comportements de conduite locaux ou d'autres
facteurs régionaux qui influencent les risques
de sinistralité. Par exemple, une région avec
une population plus jeune et une densité de
circulation élevée peut présenter des coûts
moyens plus élevés en raison d'une plus grande
probabilité d'accidents. De même, des
conditions routières défavorables, telles que des
routes sinueuses ou des conditions
météorologiques difficiles, peuvent également
contribuer à des coûts moyens plus élevés dans
certaines régions.
4. Analyse de Corrélation
▪ Matrice de Corrélation entre les Variables
Après avoir examiné la matrice de corrélation, il est observé une faible corrélation entre les variables explicatives et la variable à expliquer.
Pour confirmer cette faible corrélation, une analyse des coefficients de corrélation de Pearson et des valeurs-p a été réalisée. Les résultats
indiquent qu'il n'y a pas de corrélation statistiquement significative entre la variable "coutMoyen" et les autres variables étudiées, telles
que "zone", "puissance", "agevehicule", "ageconducteur", "marque", "carburant", "densite" et "region". Ces résultats suggèrent qu'il n'y a
pas de relation linéaire claire entre "coutMoyen" et ces variables dans l'échantillon analysé.
Cependant, il est important de noter que l'absence de corrélation linéaire ne signifie pas nécessairement qu'il n'y a aucune relation entre
les variables. Il est possible qu'il existe des relations non linéaires ou d'autres types de relations entre ces variables qui n'ont pas été
évaluées dans cette analyse.

• Pairplot pour la Visualisation des Relations

5. Test de Distribution de la Variable "CoutMoyen"


▪ Histogramme de la Distribution

6. les lois

La loi log normale :

La loi log normale est une distribution de probabilité continue qui modélise des variables aléatoires positives dont le
logarithme est distribué selon une loi normale. Elle est souvent utilisée pour représenter des quantités qui ne peuvent pas
prendre de valeurs négatives et qui ont tendance à être asymétriques avec une queue de distribution plus longue du côté
des valeurs élevées. La forme de la distribution log normale est déterminée par deux paramètres : la moyenne
logarithmique (mu) et l'écart-type logarithmique (sigma). Cette loi est largement utilisée dans divers domaines, tels que la
finance, l'économie, la biologie et l'environnement, pour modéliser des variables telles que les rendements financiers, les
tailles de populations et les concentrations de substances chimiques.

La loi log normale est caractérisée par sa fonction de densité de probabilité (PDF) qui est donnée par l'expression :
f(x) = (1 / (x * σ * √(2π))) * exp((-1/2) * ((ln(x) - μ) / σ)^2)
Dans cette formule, x représente la variable aléatoire, μ est la moyenne du logarithme de la variable, σ est l'écart-type du
logarithme de la variable, et ln(x) est le logarithme naturel de x. La fonction de densité de probabilité décrit la probabilité
de la variable aléatoire x prenant une certaine valeur.
La loi lognormale présente plusieurs propriétés intéressantes, notamment une asymétrie positive. Cela signifie que sa
queue droite est plus étendue que sa queue gauche, ce qui la rend adaptée pour modéliser des variables qui ont des
valeurs limitées inférieures mais peuvent prendre des valeurs plus élevées sans limite supérieure.
Pour estimer les paramètres μ et σ de la loi lognormale à partir de données, on peut utiliser des techniques d'estimation
par maximum de vraisemblance ou d'autres méthodes statistiques appropriées. Ces méthodes permettent d'ajuster la
distribution lognormale aux données observées et d'estimer les paramètres qui correspondent le mieux à ces données.

La loi exponentielle :
La loi exponentielle est une distribution de probabilité continue qui modélise le temps entre les occurrences
d'événements indépendants et de nature exponentielle. Elle est souvent utilisée pour modéliser des
phénomènes tels que les temps d'attente, les durées de vie ou les délais de défaillance. La fonction de densité
de probabilité (PDF) de la loi exponentielle est donnée par l'expression f(x) = λ * exp(-λx), où x est la variable
aléatoire représentant le temps, et λ est le paramètre de taux qui contrôle la fréquence des événements. Plus
le paramètre de taux λ est élevé, plus les événements se produisent fréquemment. La loi exponentielle
possède également la propriété de l'absence de mémoire, ce qui signifie que la probabilité d'un événement se
produisant dans le futur ne dépend pas du temps écoulé depuis le début de l'observation. Cette propriété est
souvent utilisée pour modéliser des processus où les événements se produisent de manière aléatoire et
indépendante.

La loi gamma :

La loi gamma est une distribution de probabilité continue qui est souvent utilisée pour modéliser des variables
aléatoires positives et continues. Elle est définie par deux paramètres : le paramètre de forme (k) et le
paramètre d'échelle (θ). La fonction de densité de probabilité (PDF) de la loi gamma est donnée par
l'expression f(x) = (1 / (θ^k * Γ(k))) * x^(k-1) * exp(-x/θ), où x est la variable aléatoire.

La loi gamma est polyvalente et peut être utilisée pour modéliser une variété de phénomènes. Elle est souvent
utilisée pour modéliser des temps de défaillance, des temps de service, des temps de réponse, des durées de
vie, et d'autres variables positives continues. Le paramètre de forme (k) permet de contrôler la forme de la
distribution, tandis que le paramètre d'échelle (θ) contrôle l'échelle ou la moyenne de la distribution.

La loi gamma possède plusieurs propriétés intéressantes. Par exemple, lorsque le paramètre de forme (k) est
un entier positif, la loi gamma se réduit à la distribution de Erlang, qui est souvent utilisée pour modéliser des
temps de défaillance dans des systèmes où plusieurs événements indépendants doivent se produire avant
qu'un événement d'intérêt se produise. De plus, la loi exponentielle est un cas particulier de la loi gamma
lorsque le paramètre de forme (k) est égal à 1.

La loi gamma est largement utilisée en statistique, en ingénierie, en économie et dans d'autres domaines pour
modéliser des variables aléatoires positives continues et pour effectuer des analyses statistiques et des
prévisions.

Test de "Kolmogorov-Smirnov"
Les tests d'adéquation des lois sont des méthodes statistiques utilisées pour évaluer si un échantillon de
données suit une distribution de probabilité spécifique. L'objectif de ces tests est de déterminer si les données
observées sont compatibles avec l'hypothèse selon laquelle elles proviennent d'une distribution théorique
donnée.
Lorsque l'on souhaite modéliser des données réelles à l'aide d'une distribution de probabilité, il est important
de vérifier si cette distribution est appropriée pour représenter les données. Les tests d'adéquation permettent
de quantifier à quel point les données correspondent à la distribution théorique supposée.

Il existe plusieurs tests d'adéquation couramment utilisés, tels que le test de Kolmogorov-Smirnov, le test de
Chi-carré et le test de Anderson-Darling. Ces tests comparent les valeurs observées avec les valeurs attendues
selon la distribution théorique, en utilisant des mesures de distance ou de divergence entre les deux. Si les
valeurs observées ne s'écartent pas significativement des valeurs attendues, on peut conclure que les données
suivent la distribution théorique. En revanche, si les valeurs observées diffèrent de manière significative des
valeurs attendues, on peut rejeter l'hypothèse selon laquelle les données suivent la distribution théorique.

Les tests d'adéquation des lois sont largement utilisés dans divers domaines, tels que la finance, l'économie, la
biologie, l'ingénierie et les sciences sociales, pour évaluer la pertinence des modèles statistiques et pour
prendre des décisions basées sur des distributions de probabilité appropriées.

Test de "Cramer-Von-Mises" et "d’Anderson-Darling" :

Le test de Cramer-Von-Mises et le test d'Anderson-Darling sont deux tests d'adéquation des lois couramment utilisés pour
évaluer si un échantillon de données suit une distribution de probabilité spécifique.

Le test de Cramer-Von-Mises est basé sur la distance de Cramer-Von-Mises, qui mesure la différence entre la fonction de
répartition empirique des données observées et la fonction de répartition théorique de la distribution supposée. Ce test
compare les valeurs cumulatives observées avec les valeurs cumulatives attendues selon la distribution théorique. Si la
distance de Cramer-Von-Mises calculée est inférieure à un seuil critique, on peut conclure que les données suivent la
distribution théorique.

Le test d'Anderson-Darling est basé sur la statistique d'Anderson-Darling, qui est une mesure de la différence entre la
fonction de répartition empirique et la fonction de répartition théorique. Ce test évalue la distance entre les valeurs
observées et les valeurs attendues selon la distribution théorique, en accordant une plus grande importance aux queues de
la distribution. Si la statistique d'Anderson-Darling calculée dépasse un seuil critique, on peut rejeter l'hypothèse selon
laquelle les données suivent la distribution théorique.

Ces deux tests sont sensibles aux différences entre les valeurs observées et les valeurs attendues, en se concentrant sur
différentes caractéristiques de la distribution. Ils sont utilisés pour évaluer l'adéquation d'un échantillon de données à une
distribution spécifique, et peuvent aider à choisir le modèle statistique approprié pour les données analysées.

Tests empiriques :

▪ Résultat des tests d’adéquation pour la loi Log Normale :

▪ Résultat des tests d’adéquation pour la loi Exponentielle :


▪ Résultat des tests d’adéquation pour la loi gamma :

▪ Les histogrammes :

▪ QQ-Plot :

Un QQ-Plot est un graphique qui compare les quantiles observés d'un échantillon de données avec
les quantiles théoriques d'une distribution donnée. Il permet d'évaluer visuellement l'adéquation
entre les données et la distribution théorique. Si les points sur le graphique suivent
approximativement une ligne droite, cela suggère une bonne adéquation. Les déviations de la ligne
droite indiquent des écarts par rapport à la distribution théorique. Le QQ-Plot est un outil pratique
pour évaluer rapidement l'adéquation des données à une distribution.
CONCLUSION

En conclusion, notre analyse et traitement des données relatives aux montants des sinistres
liés à l'activité d'une assurance automobile ont été fructueux. Grâce à l'utilisation de Python
et des bibliothèques associées, nous avons pu préparer et manipuler efficacement les bases
de données des contrats et des sinistres.

Nous avons effectué des étapes de nettoyage pour éliminer les doublons et traiter les
valeurs aberrantes, ce qui a amélioré la qualité des données. En fusionnant les bases de
données, en utilisant le numéro de contrat comme clé, et en traitant les valeurs manquantes
des coûts, nous avons obtenu des données complètes pour notre analyse.

L'analyse exploratoire des données a révélé des facteurs importants qui influencent les coûts
moyens des sinistres, tels que l'âge du conducteur, l'âge du véhicule, le type de carburant et
la zone géographique. Ces informations sont précieuses pour une tarification des primes et
une gestion des risques plus précises.

En utilisant un modèle statistique approprié, nous avons pu modéliser les montants des
sinistres et obtenir des prédictions fiables. Cela nous a permis de mieux comprendre les
relations entre les variables explicatives et la variable à prédire.

En résumé, notre analyse des données et notre modélisation ont fourni des informations
précieuses pour une meilleure tarification des primes et une gestion plus efficace des risques
dans le domaine de l'assurance automobile.

Vous aimerez peut-être aussi