Académique Documents
Professionnel Documents
Culture Documents
➢ Réalisée par :
Aya Ghoujdam
Kouach Yassin
...............................................................................................................................................................................................................................................................................17
▪ Analyse de l'Évolution de la Somme du coût Moyen par densité : .....................................................................................................................................................................18
4. Analyse de l'Évolution de la Somme du coût Moyen par region ....................................................................................................................................................19
4. Analyse de Corrélation ...................................................................................................................................................................................................................................20
▪ Matrice de Corrélation entre les Variables ............................................................................................................................................................................................20
6. les lois ..............................................................................................................................................................................................................................................................21
• Flexibilité : Les GLM offrent une flexibilité importante pour modéliser différentes
distributions de variables de réponse.
• Adaptabilité : Ils peuvent être adaptés à divers types de données, y compris les
données de comptage, les données binaires, etc.
• Interprétabilité : Les paramètres du modèle ont souvent une interprétation
substantielle, facilitant l'interprétation des résultats.
• Estimation par Maximum de Vraisemblance : Les paramètres du modèle sont
souvent estimés par maximisation de la vraisemblance, fournissant des estimations
efficaces.
Les GLM sont donc un outil puissant pour la modélisation statistique, en particulier dans des
situations où les hypothèses des modèles linéaires classiques ne sont pas remplies ou pour des
variables de réponse avec des caractéristiques spécifiques.
Pour atteindre cet objectif, le langage de programmation Python et des bibliothèques telles
que Pandas, NumPy et scikit-learn sont utilisés. Ces outils permettent de collecter, préparer
et analyser les données de manière efficace.
Le premier pas de notre démarche consiste à collecter les informations sur les contrats et les
sinistres afin de préparer la base de données. Ces données sont ensuite importées dans des
structures de données appropriées, telles que des DataFrames, pour faciliter leur
manipulation et leur analyse ultérieure.
La base de données des contrats contient des informations essentielles telles que la
puissance, l'âge du véhicule, l'âge du conducteur et la marque des véhicules assurés. De son
côté, la base de données des sinistres répertorie les contrats, les garanties et les coûts
associés.
Avant d'utiliser ces données dans le modèle statistique, un prétraitement est effectué pour
éliminer les doublons et les valeurs aberrantes. De plus, des variables pertinentes sont
ajoutées pour enrichir les informations disponibles.
Une fois les bases de données préparées, elles sont fusionnées en utilisant le numéro de
contrat comme clé de fusion. Les valeurs manquantes des coûts sont remplacées par des
zéros, et une nouvelle variable représentant le coût moyen par assuré est calculée.
Enfin, une analyse exploratoire est réalisée pour mettre en évidence les facteurs qui
influencent les coûts moyens des sinistres, tels que l'âge du conducteur, l'âge du véhicule, le
type de carburant et la zone géographique.
Après avoir importé la base de données, nous sommes en mesure de générer des statistiques descriptives pour
les variables :
En analysant ce tableau, nous observons que notre base de données ne comporte aucune
donnée manquante, car le nombre d'observations (count) est cohérent pour toutes les
variables. Cependant, nous avons identifié la présence de valeurs atypiques dans les
variables "agevehicule" et "région", car certaines valeurs sont anormalement négatives.
En examinant ce tableau, nous constatons que notre base de données ne présente aucune valeur
manquante. Cependant, nous avons identifié la présence de valeurs aberrantes dans la variable du
coût.
▪ Traitement des Valeurs Manquantes dans les Montants des Sinistres
▪ Traitement des Valeurs Non Standard et Charges Nulles dans les Sinistres
▪ Filtrage des Données pour la Garantie '2DO' dans le DataFrame des Sinistres
Pour commencer, nous procédons à un filtrage des données en utilisant la colonne 'garantie'
avec la valeur '2DO'.
▪ Fusion des Données des Contrats et des Sinistres
Ajout de la variable "cout Moyen" qui représente le coût moyen des sinistres par assuré, calculé en
divisant la somme des coûts par le nombre de sinistres.
Suppression des observations avec un coût nul pour éviter tout biais dans le modèle.
Pour étudier l'évolution de "coutMoyen" en fonction de l'âge, nous divisons notre base de données en
différentes tranches d'âge significatives :
Les données du tableau révèlent que bien que la sous-population des assurés âgés de 35 à 55 ans soit la plus nombreuse, ce
sont les groupes d'assurés les plus jeunes (20 à 25 ans) et les plus âgés (65 à 75 ans) qui présentent des coûts moyens de
sinistres relativement élevés. Malgré leur proportion minoritaire dans la population totale, ces groupes semblent être plus
susceptibles de présenter des risques de sinistralité élevés.
Ces résultats soulignent l'importance de porter une attention particulière aux groupes d'assurés plus jeunes et plus âgés en
termes de tarification des primes et de gestion des risques. Il est essentiel d'adapter les primes d'assurance et de mettre en
place des stratégies de prévention ciblées pour réduire les risques et les coûts associés à ces tranches d'âge spécifiques. En
prenant des mesures spécifiques, il est possible de mieux gérer les risques et de garantir une tarification équitable et
adaptée à chaque groupe d'assurés.
L'analyse de l'histogramme du coût moyen par tranche d'âge du véhicule révèle que la tranche
d'âge B, correspondant à (0 ≤ AgeVehicule < 3), est plus dominante. Cela signifie que la
majorité des véhicules assurés ont une ancienneté de moins de 3 ans
▪ Analyse de l'Évolution de la Somme du coût Moyen par Carburant
Le graphique illustre la variation du coût moyen des sinistres (coutMoyen) en fonction du type de carburant du véhicule.
Une observation importante est que les véhicules utilisant le carburant "Diesel" présentent généralement un coût moyen
plus élevé que ceux utilisant le carburant "Essence". Cette différence peut être attribuée à plusieurs facteurs potentiels, tels
que la disparité des prix entre les carburants, les caractéristiques spécifiques des véhicules diesel ou encore les habitudes
de conduite des conducteurs.
▪ Analyse de l'Évolution de la Somme du coût Moyen par Zone Géographique
Le graphique met en évidence la variation du coût moyen des sinistres (coutMoyen) en fonction de la
zone géographique. Il est observé que les zones "Zone 3" et "Zone 4" affichent des coûts moyens plus
élevés par rapport aux autres zones. Cette différence peut être attribuée à plusieurs facteurs potentiels,
tels que la densité de circulation plus élevée, les caractéristiques routières spécifiques ou encore les
conditions environnementales propres à ces zones. Ces éléments peuvent influencer les risques de
sinistralité et entraîner des coûts moyens plus élevés dans ces zones géographiques spécifiques.
6. les lois
La loi log normale est une distribution de probabilité continue qui modélise des variables aléatoires positives dont le
logarithme est distribué selon une loi normale. Elle est souvent utilisée pour représenter des quantités qui ne peuvent pas
prendre de valeurs négatives et qui ont tendance à être asymétriques avec une queue de distribution plus longue du côté
des valeurs élevées. La forme de la distribution log normale est déterminée par deux paramètres : la moyenne
logarithmique (mu) et l'écart-type logarithmique (sigma). Cette loi est largement utilisée dans divers domaines, tels que la
finance, l'économie, la biologie et l'environnement, pour modéliser des variables telles que les rendements financiers, les
tailles de populations et les concentrations de substances chimiques.
La loi log normale est caractérisée par sa fonction de densité de probabilité (PDF) qui est donnée par l'expression :
f(x) = (1 / (x * σ * √(2π))) * exp((-1/2) * ((ln(x) - μ) / σ)^2)
Dans cette formule, x représente la variable aléatoire, μ est la moyenne du logarithme de la variable, σ est l'écart-type du
logarithme de la variable, et ln(x) est le logarithme naturel de x. La fonction de densité de probabilité décrit la probabilité
de la variable aléatoire x prenant une certaine valeur.
La loi lognormale présente plusieurs propriétés intéressantes, notamment une asymétrie positive. Cela signifie que sa
queue droite est plus étendue que sa queue gauche, ce qui la rend adaptée pour modéliser des variables qui ont des
valeurs limitées inférieures mais peuvent prendre des valeurs plus élevées sans limite supérieure.
Pour estimer les paramètres μ et σ de la loi lognormale à partir de données, on peut utiliser des techniques d'estimation
par maximum de vraisemblance ou d'autres méthodes statistiques appropriées. Ces méthodes permettent d'ajuster la
distribution lognormale aux données observées et d'estimer les paramètres qui correspondent le mieux à ces données.
La loi exponentielle :
La loi exponentielle est une distribution de probabilité continue qui modélise le temps entre les occurrences
d'événements indépendants et de nature exponentielle. Elle est souvent utilisée pour modéliser des
phénomènes tels que les temps d'attente, les durées de vie ou les délais de défaillance. La fonction de densité
de probabilité (PDF) de la loi exponentielle est donnée par l'expression f(x) = λ * exp(-λx), où x est la variable
aléatoire représentant le temps, et λ est le paramètre de taux qui contrôle la fréquence des événements. Plus
le paramètre de taux λ est élevé, plus les événements se produisent fréquemment. La loi exponentielle
possède également la propriété de l'absence de mémoire, ce qui signifie que la probabilité d'un événement se
produisant dans le futur ne dépend pas du temps écoulé depuis le début de l'observation. Cette propriété est
souvent utilisée pour modéliser des processus où les événements se produisent de manière aléatoire et
indépendante.
La loi gamma :
La loi gamma est une distribution de probabilité continue qui est souvent utilisée pour modéliser des variables
aléatoires positives et continues. Elle est définie par deux paramètres : le paramètre de forme (k) et le
paramètre d'échelle (θ). La fonction de densité de probabilité (PDF) de la loi gamma est donnée par
l'expression f(x) = (1 / (θ^k * Γ(k))) * x^(k-1) * exp(-x/θ), où x est la variable aléatoire.
La loi gamma est polyvalente et peut être utilisée pour modéliser une variété de phénomènes. Elle est souvent
utilisée pour modéliser des temps de défaillance, des temps de service, des temps de réponse, des durées de
vie, et d'autres variables positives continues. Le paramètre de forme (k) permet de contrôler la forme de la
distribution, tandis que le paramètre d'échelle (θ) contrôle l'échelle ou la moyenne de la distribution.
La loi gamma possède plusieurs propriétés intéressantes. Par exemple, lorsque le paramètre de forme (k) est
un entier positif, la loi gamma se réduit à la distribution de Erlang, qui est souvent utilisée pour modéliser des
temps de défaillance dans des systèmes où plusieurs événements indépendants doivent se produire avant
qu'un événement d'intérêt se produise. De plus, la loi exponentielle est un cas particulier de la loi gamma
lorsque le paramètre de forme (k) est égal à 1.
La loi gamma est largement utilisée en statistique, en ingénierie, en économie et dans d'autres domaines pour
modéliser des variables aléatoires positives continues et pour effectuer des analyses statistiques et des
prévisions.
Test de "Kolmogorov-Smirnov"
Les tests d'adéquation des lois sont des méthodes statistiques utilisées pour évaluer si un échantillon de
données suit une distribution de probabilité spécifique. L'objectif de ces tests est de déterminer si les données
observées sont compatibles avec l'hypothèse selon laquelle elles proviennent d'une distribution théorique
donnée.
Lorsque l'on souhaite modéliser des données réelles à l'aide d'une distribution de probabilité, il est important
de vérifier si cette distribution est appropriée pour représenter les données. Les tests d'adéquation permettent
de quantifier à quel point les données correspondent à la distribution théorique supposée.
Il existe plusieurs tests d'adéquation couramment utilisés, tels que le test de Kolmogorov-Smirnov, le test de
Chi-carré et le test de Anderson-Darling. Ces tests comparent les valeurs observées avec les valeurs attendues
selon la distribution théorique, en utilisant des mesures de distance ou de divergence entre les deux. Si les
valeurs observées ne s'écartent pas significativement des valeurs attendues, on peut conclure que les données
suivent la distribution théorique. En revanche, si les valeurs observées diffèrent de manière significative des
valeurs attendues, on peut rejeter l'hypothèse selon laquelle les données suivent la distribution théorique.
Les tests d'adéquation des lois sont largement utilisés dans divers domaines, tels que la finance, l'économie, la
biologie, l'ingénierie et les sciences sociales, pour évaluer la pertinence des modèles statistiques et pour
prendre des décisions basées sur des distributions de probabilité appropriées.
Le test de Cramer-Von-Mises et le test d'Anderson-Darling sont deux tests d'adéquation des lois couramment utilisés pour
évaluer si un échantillon de données suit une distribution de probabilité spécifique.
Le test de Cramer-Von-Mises est basé sur la distance de Cramer-Von-Mises, qui mesure la différence entre la fonction de
répartition empirique des données observées et la fonction de répartition théorique de la distribution supposée. Ce test
compare les valeurs cumulatives observées avec les valeurs cumulatives attendues selon la distribution théorique. Si la
distance de Cramer-Von-Mises calculée est inférieure à un seuil critique, on peut conclure que les données suivent la
distribution théorique.
Le test d'Anderson-Darling est basé sur la statistique d'Anderson-Darling, qui est une mesure de la différence entre la
fonction de répartition empirique et la fonction de répartition théorique. Ce test évalue la distance entre les valeurs
observées et les valeurs attendues selon la distribution théorique, en accordant une plus grande importance aux queues de
la distribution. Si la statistique d'Anderson-Darling calculée dépasse un seuil critique, on peut rejeter l'hypothèse selon
laquelle les données suivent la distribution théorique.
Ces deux tests sont sensibles aux différences entre les valeurs observées et les valeurs attendues, en se concentrant sur
différentes caractéristiques de la distribution. Ils sont utilisés pour évaluer l'adéquation d'un échantillon de données à une
distribution spécifique, et peuvent aider à choisir le modèle statistique approprié pour les données analysées.
Tests empiriques :
▪ Les histogrammes :
▪ QQ-Plot :
Un QQ-Plot est un graphique qui compare les quantiles observés d'un échantillon de données avec
les quantiles théoriques d'une distribution donnée. Il permet d'évaluer visuellement l'adéquation
entre les données et la distribution théorique. Si les points sur le graphique suivent
approximativement une ligne droite, cela suggère une bonne adéquation. Les déviations de la ligne
droite indiquent des écarts par rapport à la distribution théorique. Le QQ-Plot est un outil pratique
pour évaluer rapidement l'adéquation des données à une distribution.
CONCLUSION
En conclusion, notre analyse et traitement des données relatives aux montants des sinistres
liés à l'activité d'une assurance automobile ont été fructueux. Grâce à l'utilisation de Python
et des bibliothèques associées, nous avons pu préparer et manipuler efficacement les bases
de données des contrats et des sinistres.
Nous avons effectué des étapes de nettoyage pour éliminer les doublons et traiter les
valeurs aberrantes, ce qui a amélioré la qualité des données. En fusionnant les bases de
données, en utilisant le numéro de contrat comme clé, et en traitant les valeurs manquantes
des coûts, nous avons obtenu des données complètes pour notre analyse.
L'analyse exploratoire des données a révélé des facteurs importants qui influencent les coûts
moyens des sinistres, tels que l'âge du conducteur, l'âge du véhicule, le type de carburant et
la zone géographique. Ces informations sont précieuses pour une tarification des primes et
une gestion des risques plus précises.
En utilisant un modèle statistique approprié, nous avons pu modéliser les montants des
sinistres et obtenir des prédictions fiables. Cela nous a permis de mieux comprendre les
relations entre les variables explicatives et la variable à prédire.
En résumé, notre analyse des données et notre modélisation ont fourni des informations
précieuses pour une meilleure tarification des primes et une gestion plus efficace des risques
dans le domaine de l'assurance automobile.