Vous êtes sur la page 1sur 44

Emines- School of Industrial Management

Modlisation des montants des


sinistres et des frquences des
sinistres
Projet de statistiques

Bassma AZZAMOURI
Noura BENCHEKROUN
Imane IKMAKHEN
Amira LYAZRHI

Avril 2017
Sommaire

Introduction .......................................................................................................... 2
Problmatique et Contexte ................................................................................... 3
Plan de travail et Mthodologie ............................................................................ 4
Partie thorique : les tests de Kolmogorov-Smirnov et Chi-2 ............................. 4
Partie pratique .................................................................................................... 8
Analyse critique ................................................................................................... 39
Exploitation des rsultats pour des dcisions et actions futures ........................... 40
Conclusion........................................................................................................... 42

1|Page
Introduction

Lobjectif de notre projet est de nous permettre de dvelopper lesprit danalyse des
donnes et des statistiques et de les traduire travers des interprtations permettant de
comprendre les donnes sur lesquelles nous travaillons. Pour ce faire, nous modliserons
une distribution donne, tout en utilisant les tests de Kolmogorov Smirnov et Khi-2, avec le
logiciel de traitement des donnes SAS.

Ce travail fait appel la connaissance des outils et techniques de traitement des donnes,
surtout ceux qui sont demands, tels que les tests dhypothses. Ces derniers permettent de
dterminer deux hypothses opposes et dessayer aprs avoir pass par plusieurs tapes
den dduire lhypothse la plus juste et dliminer celle qui contredit la nature de notre
distribution.

Ce rapport est structur en quatre parties principales, la premire se focalisera sur une
prsentation brve de la problmatique. La deuxime partie va contenir la mthodologie du
travail, commenant par une description thorique des mthodes utilises, suivi par les
rsultats de notre modlisation et leurs interprtations en utilisant SAS. La troisime partie
se focalisera sur une analyse critique ainsi que lapport dune solution o nous pouvons
exploiter les rsultats de cette analyse pour des propositions futures.

2|Page
Problmatique et Contexte :

Le march des assurances est un march fortement concurrentiel dont lassureur cherche
slectionner des facteurs qui contribuent expliquer la sinistralit. Cette dernire, en
assurance automobile se mesure en termes de nombre des accidents et de leurs montants.
La modlisation des donnes lies ces variables est une description plus ou moins
simplifie dune ralit.

Le modle permet de prvoir les cots futurs dun systme dassurance et de mesurer le
risque relatif ces prvisions. En ralisant la modlisation, il faut toutefois trouver un certain
quilibre entre simplicit et vraisemblance du modle.

3|Page
Plan de travail et Mthodologie :

Afin de modliser un chantillon ou une population, dont la loi de distribution nest pas
connue, nous pouvons utiliser diffrents types de tests, nomms tests dhypothse.

Le processus de modlisation compte les tapes suivantes :

1. Supposer que les donnes suivent une certaine loi.

2. Valider le modle, par exemple en mesurant lajustement laide de tests statistiques ;

3. Au besoin, rpter les tapes ci-dessus pour un ou plusieurs modles alternatifs ;

5. Choisir un modle selon un ou des critres dtermins ;

6. Adapter le modle pour utilisation future, en tenant compte de linflation pour des
donnes de prix par exemple.

Partie thorique : les tests de Kolmogorov-Smirnov et Chi-2 :

Les tests dhypothse permettent de poser deux hypothses opposes et dessayer en


passant par plusieurs tapes dliminer lune et de garder lautre. La premire hypothse
appele lhypothse nulle et la deuxime est une hypothse alternative.

Thoriquement, aprs avoir prcis les deux types dhypothses, nous prcisons le seuil de
signification . Ce qui signifie que le rsultat observ a moins de % de chances d'tre
obtenu par hasard. Nous passerons par la suite dterminer le quantile z (1-/2)
correspondant la loi symtriqueavec laquelle nous travaillons puis lintervalle ouvert ]- z (1-
/2), z (1-/2)[. Il est nomm z (tabul), nous lobtenons travers le tableau des z en
fonction de de la loi choisi. Z (calcul) qui doit appartenir lintervalle cit prcdemment
nous permettra de garder 0 et de rejeter 1 et vice versa.

Parmi ces tests dhypothses, se trouvent les deux tests concerns pour notre tude : le test
de Kolmogorov Smirnov et le test de Chi-2.

4|Page
Le test de Kolmogorov Smirnov :

Le test d'ajustement de Kolmogorov-Smirnov est un test non paramtrique qui permet de


tester l'hypothse 0 selon laquelle les donnes observes sont engendres par une loi de
probabilit thorique considre comme tant un modle convenable. Mais contrairement
au test Chi-2, la loi thorique doit ici tre continue et entirement spcifie, sans paramtre
inconnu. Dans ce test, les calculs sur les lois de probabilit se font sur les fonctions de
rpartition : on mesure l'cart entre la fonction de rpartition thorique et la fonction de
rpartition observe.

On considre ainsi une variable alatoire X de fonction de rpartition F, que l'on veut
comparer une fonction de rpartition thorique 0 continue. On souhaite tester :

- L'hypothse 0 : = 0 , contre :
- L'hypothse 1 : 0 0.

Si (1 , . . . , ) est un n-chantillon de , la fonction de rpartition empirique associe


cette statistique est :

=
1
() = 1],[ ( )

=1

()est la proportion des observations dont la valeur est infrieure ou gale x.

L'cart entre les valeurs observes et les valeurs thoriques du modle dduites de la
fonction de rpartition 0 peut donc tre mesur par la variable alatoire : =
| () 0 () | qui sera la variable de dcision, ou fonction discriminante, du test. En
posant = , on dmontre que lorsque 0 n'est pas vraie, tend vers + , et,
lorsque 0 est vraie, suit asymptotiquement une loi sur + dfinie par sa fonction de
rpartition

=+

() = 2
=

La rgion critique du test est donc constitue des grandes valeurs de . Le niveau tant
donn, on peut dfinir la valeur critique de deux faons :

5|Page
- La loi de tant tabule, le fractile (1 ) d'ordre 1 de cette loi, fournit un
test exact de niveau en rejetant l'hypothse 0 si la valeur observe de dpasse
(1 ), et en l'acceptant dans le cas contraire. Ce test est donc valable pour toute
taille n de l'chantillon.
- La loi limite tant tabule, le fractile (1 ) d'ordre 1 de cette loi, fournit un test
asymptotique de niveau en rejetant l'hypothse 0 si la valeur observe de
dpasse (1 ), et en l'acceptant dans le cas contraire. Ce test est largement
acceptable pour > 100.

Le test de Chi-2 :

Le test du Chi-2 () est un test non paramtrique qui permet de tester l'hypothse 0 selon
laquelle les donnes observes sont engendres par un modle faisant intervenir une loi de
probabilit, ou une famille de lois de probabilit. Le choix du modle rsulte de diverses
considrations thoriques ou exprimentales, et il importe de tester son adquation.

Le principe du test est le suivant : On dfinit une fonction discriminante qui constitue
une mesure normalise de l'cart entre les valeurs thoriques dduites du modle et les
valeurs observes dans l'chantillon.

Lorsque 0 n'est pas vraie, les valeurs de augmentent et lorsque 0 est vraie, suit, au
moins asymptotiquement, une loi du de Pearson degrs de libert. La rgion critique
du test est donc constitue des grandes valeurs de .

Pour chaque indice i de 1 k, on note le nombre d'observations appartenant la classe


: c'est l'effectif empirique ou observ de la classe .

Avec ces notations, la variable :

=
( )2
=

=1

reprsente une mesure normalise de l'cart global entre les valeurs thoriques et les valeurs
observes.

6|Page
( )2
Pour tout indice i de 1 k, est l'cart individuel de la classe . On dmontre

alors que suit asymptotiquement une loi du Chi-2 degrs de libert, avec =
1, r tant le nombre de paramtres estims de la loi thorique.

2
Le risque tant donn, on note 1 le fractile d'ordre 1 de la loi du Chi-2 de
2
Pearson degrs de libert dfini par ( 1 ) = .

On note d la valeur observe de dans l'chantillon, et on compare la valeur de d


2
1 . Lorsque l'approximation par la loi du de Pearson degrs de libert est valable,
cette comparaison dfinit la rgle de dcision suivante, appele test asymptotique de niveau
.

2
- Si < 1 , on considre que l'cart est d au hasard de l'chantillonnage et qu'il
n'est pas significatif : on accepte 0 .
2
- Si 1 , on considre que l'cart observ est trop important pour tre attribu
aux seules fluctuations d'chantillonnage et qu'il rvle l'inadquation du modle : on
refuse 0 .

On peut aussi, au vu de la ralisation d de , calculer la probabilit critique (p-value) =


[ ] et apprcier la crdibilit de l'hypothse 0 .

7|Page
Partie pratique :

Test de Kolmogorov-Smirnov :
Description des variables :

Le jeu de donnes qui nous a t fourni prsentait plus de 1500 individus caractriss par la
variable: montant des sinistres, il sagit de la variable continue dont on veut modliser la
loi.
Notre dmarche :

1- Importation des donnes :


Limportation des donnes ne nous a caus aucune difficult sous SAS (University edition).
Nous avons juste import les donnes du fichier Excel dans SAS.

libname projet1 '/folders/myfolders/projet1' ;


proc import
DATAFILE='/folders/myfolders/projet1/montantssinistre.csv'
OUT=projet1.montants
replace;
getnames=yes;
DELIMITER = ";";
run;

2- Nettoyage des donnes :


Avant de commencer les tests qui nous permettront de dduire la loi suivie par les variables
tudies, il savre ncessaire de nettoyer les tableaux de donnes pour quils soient prts
utiliser et analyser.

Nous avons commenc par la conversion des donnes de lalphanumrique au numrique,


ce qui nous permettra par la suite davoir les rsultats numriques des moyennes, carts
types, etc

Llimination des valeurs aberrantes ainsi que les valeurs ngatives consiste une tape aussi
importante pour le nettoyage de la base car cette dernire s'avre trs sensible leurs
existences. Chose qui pourra influencer la dispersion statistique de la distribution, qui est
une tendance qu'ont les valeurs de la distribution d'un caractre s'taler de part et d'autre
d'une valeur centrale et/ou s'loigner les unes des autres.

8|Page
On a obtenu finalement une base de donnes de 1478 observations.

data projet1.montants;
infile '/folders/myfolders/projet1/montantssinistre.csv' firstobs=2
delimiter=';';
input VAR1 x ;
run;

data projet1.montants1;
set projet1.montants;
if x= . then delete;
run;

data projet1.montants2;
set projet1.montants;
if x<0 then delete;
run;

3- Descriptif statistique :

Nous examinons notre base de donnes travers un descriptif statistique qui nous permettra
davoir les rsultats numriques prliminaires dcrivant la base. En utilisant SAS, il faut
avoir recours la fonction proc Univariate. Elle produit les indicateurs statistiques
traditionnels et analyse de manire approfondie les distributionstudies.

Moments
N 1478 Somme des poids 1478
Moyenne 256.926315 Somme des observations 379737.094
Ecart-type 259.125228 Variance 67145.8837
Skewness 1.90932743 Kurtosis 4.57030526
Somme des carrs non corrige 196738923 Somme des carrscorrige 99174470.2
Coeff Variation 100.855853 Std Error Mean 6.74019529

9|Page
Mesuresstatistiques de base
Location Variabilit
Moyenne 256.9263 Ecart-type 259.12523
Mdiane 176.6882 Variance 67146
Mode . Intervalle 1714
Ecart interquartile 285.44515

Tests de tendance centrale : Mu0=0


Test Statistique p-value
t de Student t 38.11853 Pr> |t| <.0001
Signe M 739 Pr>= |M| <.0001
Rang sign S 546490.5 Pr>= |S| <.0001

Quantiles (Dfinition 5)
Niveau Quantile
100Max 100% 1714.294131
99% 1261.991005
95% 762.402864
90% 581.608087
75% Q3 359.012032
50% Mdiane 176.688229
25% Q1 73.566880
10% 26.432773
5% 13.035662
1% 3.868070
0% Min 0.297861

Observations extrmes
La plus petite La plus grande
Valeur Obs Valeur Obs
0.297861 490 1467.08 29
0.358398 619 1483.88 1214
1.043542 128 1516.48 705
1.160104 807 1517.86 1417
1.701038 927 1714.29 1088

10 | P a g e
Concernant les paramtres obtenus, voil une brve description :

La moyenne (mean) scrit : x = x1 ... xn / n

Elle est de lordre de 256.92.9263.

La mdiane (median) : est la valeur qui dcoupe lchantillon en deux parties


comportant le mme nombre dlments. Elle est de lordre de 176.6882
Le mode (mode) : la valeur observe la plus frquente. Dans notre cas, aucune
valeur nest affiche, ceci montre quil existe une varit de valeurs dans nos
donnes.

1 n
Lcart-type (stddeviation) scrit : (
n i1
( xi x))1/2

Il est de lordre de 259.12523.


La variance est de 67146.
Lcart interquartile (interquartile range) reprsente la diffrence entre le premier et
le troisime quartile. Il est de lordre 285.44515.

4- Analyse de la variable continue des montants des sinistres x :

A partir de cette fonction et en assistant sur le test de normalit de la variable x via lajout de
Normal la proc Univariate. En utilisant les lignes de code suivantes, on obtient le rsultat
ci-dessous.

procunivariate data=projet1.montants2 NORMAL;


var x;
run;

Tests de normalit
Test Statistique p-value
Shapiro-Wilk W 0.813341 Pr< W <.0010
Kolmogrov-Smirnov D 0.160998 Pr> D <.0100
Cramer-von Mises W-Sq 12.20139 Pr> W-Sq <.0050
Anderson-Darling A-Sq 71.59439 Pr> A-Sq <.0050

Nous pouvons dduire que cette dernire ne suit pas une loi normale, vue que dabord le
coefficient dasymtrie skewness est diffrent de 0, chose qui montre que la courbe nest

11 | P a g e
absolument pas symtrique (lune des caractristiques de la courbe de la loi normale est la
symtrie) et si on considre le coefficient de kortosis qui est positif, il signifie que la courbe
de la loi de cette distribution est plus pointue qu'une loi normale. Sajoute cela la p-value
du test de Kolmogorov Smirnov qui est infrieur au seuil de signification (5%), ce qui
rassure encore plus que la distribution de la variable x ne suit pas une loi normale (p<).

5- Test de Kolmogorov Smirnov pour la variable continue : montants des sinistres

Quatre lois ont t prises en considration lors de ltude de la distribution de la variable


continue x, log normal, gamma, exponentielle et Wei bull.

Dabord nous devons avoir un histogramme qui est loutil permettant de tracer les
diffrentes distributions proposes.

title 'Distribution des montants des sinistres';


procunivariate data= projet1.montants2;
var x;
histogram /
lognormalweibull gamma exponential ;
run;

Distribution of x
50

40

30
Percent

20

10

0
0 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 1600 1700

x
Curves
Lognormal(Theta=0 Sigma=1.25 Zeta=4.97) Exponential(Theta=0 Sigma=257)
Weibull(Theta=0 C=1 Sigma=257) Gamma(Theta=0 A lpha=1 Sigma=256)

12 | P a g e
Les options lognormal, weibull , gamma et exponentielle tracent les courbes
reprsentant la distribution de la loi dsigne dont la moyenne et lcart type sont ceux de x.

Le mme code affiche les diffrents paramtres lis chaque loi en particulier, ainsi que des
rsultats lis plusieurs tests. Nous nous concentrons sur le test de Kolmogorov Smirnov.

Voici les rsultats obtenus pour la loi Weibull :

Parameters for Weibull Distribution


Paramtre Symbole Estimation
Threshold Theta 0
Scale Sigma 256.6965
Shape C 0.997916
Mean 256.9236
StdDev 257.4602

Goodness-of-Fit Tests for Weibull Distribution


Test Statistique p-value
Cramer-von Mises W-Sq 0.02515383 Pr> W-Sq >0.250
Anderson-Darling A-Sq 0.23703812 Pr> A-Sq >0.250

Concernant la loi de Wei bull, aucun rsultat li au test de K-Sne saffiche, do le rejet de
lhypothse0 , donc la distribution ne suit pas une loi Weibull.

Les rsultats obtenus pour la loi lognormal :

Parameters for Lognormal


Distribution
Paramtre Symbole Estimation
Threshold Theta 0
Scale Zeta 4.974563
Shape Sigma 1.250502
Mean 316.2207
StdDev 614.5365

13 | P a g e
Goodness-of-Fit Tests for Lognormal Distribution
Test Statistique p-value
Kolmogorov-Smirnov D 0.0672862 Pr> D <0.010
Cramer-von Mises W-Sq 2.4311829 Pr> W-Sq <0.005
Anderson-Darling A-Sq 15.2359107 Pr> A-Sq <0.005

Quantiles for Lognormal Distribution


Pourcentage Quantile
Observ Estim
1.0 3.86807 7.88894
5.0 13.03566 18.49816
10.0 26.43277 29.13619
25.0 73.56688 62.24715
50.0 176.68823 144.68562
75.0 359.01203 336.30341
90.0 581.60809 718.48548
95.0 762.40286 1131.67632
99.0 1261.99101 2653.57982

LeQQplot est un outil graphique consiste valuer la pertinence de lajustement dune


distribution donne un modle thorique. Dans notre cas, le QQPlot de la loi lognormal
saffiche comme suit et il montre que lcart entre les quantiles estims et observs est assez
important.

14 | P a g e
Q-Q Plot for x
12000

10000

8000

6000
x

4000

2000

0 10 20 30 40 50 60 70
Lognormal Quantiles (Sigma=1.250502)
Lognormal Line Threshold=0, Scale=4.9746

Une rgle de rejet mettre en uvre et couramment utilise par les logiciels statistiques,
consiste calculer la probabilit que la statistique de test soit gale la valeur observe ou
encore plus extrme, tout en supposant que l'hypothse nulle 0 est vraie, c'est--dire que la
variable suit la loi donne (log normal, Gamma, weibull ou exponentielle) : on appelle cette
probabilit la p-value ou probabilit critique. Ainsi, comparer la p-valeur avec est quivalent
dterminer sil tombe dans la zone de rejet. D'une manire gnrale, on la rejettera lorsque
, et le test est effectu au risque . En pratique, il convient de rejeter fermement
0 lorsque p-val est trs proche de 0 alors qu'il convient de ne pas rejeter 0 lorsque p-val
grandit au-dessus de 0.1. Autour de 0.05, il y a toujours un certain doute et les conclusions
devront tre renforces par d'autres procdures de test

Nous prenons un seuil de signification de 5%, comme nous avons mentionn auparavant et
nous raisonnons sur la p-value de chaque loi de distribution par un test de K-S.

Concernant la loi lognormal , la p-value que nous obtenons est infrieur 0.01 ceci veut
dire que < . Comme conclusion,on rejette alors lhypothse 0 et donc la distribution
de la variable x ne suit pas une loi lognormal .

15 | P a g e
Les rsultats obtenus pour la loi Gamma :

Parameters for Gamma Distribution


Paramtre Symbole Estimation
Threshold Theta 0
Scale Sigma 255.7348
Shape Alpha 1.004659
Mean 256.9263
StdDev 256.3299

Goodness-of-Fit Tests for Gamma Distribution


Test Statistique p-value
Kolmogorov- D 0.01584256 Pr> D >0.500
Smirnov
Cramer-von Mises W-Sq 0.03426013 Pr> W-Sq >0.500
Anderson-Darling A-Sq 0.28013735 Pr> A-Sq >0.500

Quantiles for Gamma Distribution


Pourcentage Quantile
Observ Estim
1.0 3.86807 2.63115
5.0 13.03566 13.33193
10.0 26.43277 27.30273
25.0 73.56688 74.26286
50.0 176.68823 178.41548
75.0 359.01203 356.16563
90.0 581.60809 590.91735
95.0 762.40286 768.41914
99.0 1261.9910 1180.42563
1
le

js

16 | P a g e
Le QQ Plot correspondant la loi Gamma est le suivant, il montre que lcart entre les

quantiles observs et estims nest pas assez grand :

Q-Q Plot for x


2500

2000

1500
x

1000

500

0 2 4 6 8
Gamma Quantiles (Alpha=1.004659)
Gamma Line Threshold=0, Scale=255.73

Les rsultats obtenus pour la loi Exponentielle se prsentent comme suit :

Parameters for Exponential Distribution


Paramtre Symbole Estimation
Threshold Theta 0
Scale Sigma 256.9283
Mean 256.9283
StdDev 256.9283

Goodness-of-Fit Tests for Exponential Distribution


Test Statistique p-value
Kolmogorov- D 0.01511969 Pr> D >0.500
Smirnov
Cramer-von Mises W-Sq 0.02879481 Pr> W-Sq >0.500
Anderson-Darling A-Sq 0.25379994 Pr> A-Sq >0.500

17 | P a g e
Quantiles for Exponential Distribution
Pourcentage Quantile
Observ Estim
1.0 3.86807 2.58220
5.0 13.03566 13.17860
10.0 26.43277 27.06989
25.0 73.56688 73.91309
50.0 176.68823 178.08775
75.0 359.01203 356.17550
90.0 581.60809 591.59470
95.0 762.40286 769.68245
99.0 1261.99101 1183.18941

Le QQ Plot correspondant la loi exponentielle est le suivant, il montre galement un cart


faible entre les quantiles observs et estims :

Q-Q Plot for x


2500

2000

1500
x

1000

500

0 2 4 6 8
Exponential Quantiles
Exponential Line Threshold=0, Scale=256.93

Concernant la loi gamma et exponentielle, la p-value dans les deux cas est suprieur 0.5
c'est--dire > , dans ce cas-l nous ne pouvons pas dduire laquelle des deux lois est
suivit par la variable x.

18 | P a g e
Nous devons alors chercher un autre paramtre permettant de dduire ce rsultat. Pour ce
faire, nous pouvons avoir recours au calcul de lAIC (critre d'information d'Akaike) ou en
anglais(Akaike information criterion). Cest une mesure de la qualit d'un modle
statistique.

Il scrit sous la forme suivante : = 2 2(), avec k le nombre de paramtre


estimer et L la fonction de vraisemblance du modle. Donc soit, nous maximisons la
fonction de vraisemblance ou nous minimisons lAIC pour obtenir la loi dcrivant le mieux
notre distribution.

En utilisant la procdure PROC Lifereg, nous pouvons lavoir su SAS :

PROC LIFEREG data= projet1.montants2;


model x = / dist=exponential;
ods select FitStatistics;
run;

PROC LIFEREG data= projet1.montants2;


model x = / dist=gamma ;
ods select FitStatistics;
run;

Pour la loi exponentielle :

Tests dajustement
-2 log-vraisemblance 4653.412
AIC (prfrer les petites valeurs) 4655.412
AICC (prfrer les petites valeurs) 4655.415
BIC (prfrer les petites valeurs) 4880.711

La valeur de lAIC pour la loi exponentielle est de 4655.412

19 | P a g e
Pour la loi Gamma :

Tests dajustement
-2 log-vraisemblance 4652.269
AIC (prfrer les petites valeurs) 4658.269
AICC (prfrer les petites valeurs) 4658.286
BIC (prfrer les petites valeurs) 4674.165

La valeur de lAIC pour la loi exponentielle est de 4658.269

Daprs ces deux rsultats, et vue que les petites valeurs de lAIC sont prfres :

- On rejette lhypothse H0 pour la distribution Gamma, donc la variable continu x ne


suit pas une loi Gamma.
- On accepte lhypothse H0 pour la distribution Exponentielle, donc la variable continu
x suit une loi Exponentielle.

20 | P a g e
Test Chi-2 :

Description des variables :

Le jeu de donnes qui nous a t fourni prsentait plus de 1500 individus caractriss par la
variable: nombres des sinistres, qui est bien la variable discrte dont on veut modliser la
loi.

Notre dmarche :

1- Importation des donnes :

Limportation des donnes ne nous a pas pos de problme sous SAS. Nous avons juste
import les donnes du fichier Excel dans SAS.

proc import DATAFILE='/folders/myfolders/projet1/nombresinistre.csv'


OUT=projet1.nombres
replace;
getnames=yes;
DELIMITER =";";
run;

2- Nettoyage des donnes :

Paralllement au cas de la variable continu Montant des sinistres , nous avons convertit
les variables du type alphanumrique au numrique. Nous avons procd llimination
des valeurs aberrantes et celles ngatives. Aprs nettoyage, on obtient une base de donnes
plus rduite, contenant 1486 individus.

data projet1.nombres;
set projet1.nombres (rename=(nbresinistre =
nbresinistre_numeric));
nbresinistre = input(nbresinistre_numeric, best.);
dropnbresinistre_numeric;
run;

data projet1.nombres;
set projet1.nombres1;
ifnbresinistre = . then delete;
run;

21 | P a g e
data projet1.nombres2;
set projet1.nombres;
ifnbresinistre<0 then delete;
run;

procunivariate data= projet1.nombress;


varnbresinistre;
run;

3- Descriptif statistique :
Nous examinons notre base de donnes travers un descriptif statistique qui nous permettra
davoir les rsultats numriques prliminaires dcrivant la base. En utilisant SAS, il faut
avoir recours la fonction proc Univariate. Elle produit les indicateurs statistiques
traditionnels et analyse de manire approfondie la distribution des deux variables que nous
tudions.

Moments
N 1486 Somme des poids 1486
Moyenne 1.48923284 Somme des observations 2213
Ecart-type 1.21031696 Variance 1.46486716
Skewness 0.8421536 Kurtosis 0.84075269
Somme des carrs non corrige 5471 Somme des carrscorrige 2175.32773
Coeff Variation 81.2711708 Std Error Mean 0.03139711

Mesures statistiques de base


Location Variabilit
Moyenne 1.489233 Ecart-type 1.21032
Mdiane 1.000000 Variance 1.46487
Mode 1.000000 Intervalle 7.00000
Ecart interquartile 1.00000

22 | P a g e
Tests de tendance centrale : Mu0=0
Test Statistique p-value
t de Student t 47.43216 Pr> |t| <.0001
Signe M 579 Pr>= |M| <.0001
Rang sign S 335530.5 Pr>= |S| <.0001

Quantiles (Dfinition 5)
Niveau Quantile
100Max 100% 7
99% 5
95% 4
90% 3
75% Q3 2
50% Mdiane 1
25% Q1 1
10% 0
5% 0
1% 0
0% Min 0

Observations extrmes
La plus petite La plus grande
Valeur Obs Valeur Obs
0 1484 6 1056
0 1483 6 1062
0 1478 6 1209
0 1474 7 441
0 1469 7 642

23 | P a g e
4- Modlisation de la loi des nombres des sinistres :

Pour modliser la loi de cette variable, nous allons excuter le test de Chi-2 pour 3 lois
principales, il sagit de la loi de poisson, celle binomiale, et binomiale ngative.

Pour ce faire, on calcule les probabilits thoriques de chaque loi pour pouvoir calculer les
carts entre ces dernires et celles observes.

Avant de commencer, il savre ncessaire de visualiser la distribution empirique de


l'chantillon observe des nombres de sinistres sous forme dhistogramme, pour cela, on
utilise la procdure PROC FREQ :

proc freq data=sin.nombres;


tables nbresinistre/out=sin.frequence plots=FreqPlot(scale=percent);
run;

Frquence Pourcentage
nbresinistre Frquence Pourcentage cumule cumul
0 328 22.07 328 22.07
1 504 33.92 832 55.99
2 378 25.44 1210 81.43
3 187 12.58 1397 94.01
4 63 4.24 1460 98.25
5 18 1.21 1478 99.46
6 6 0.40 1484 99.87
7 2 0.13 1486 100.00

24 | P a g e
Distribution de nbresinistre

40

30

Pourcentage

20

10

0
0 1 2 3 4 5 6 7
nbresinistre

Les assurs qui ont commis un seul sinistre reprsentent le plus grand pourcentage des
assurs (33.92%). Par contre, ceux qui ont commis 7 sinistres reprsentent le plus faible
pourcentage (0.13%).
Nous allons maintenant expliquer, pour chaque loi, les tapes pour excuter le test Chi-2:
- Distribution de Poisson :

La loi de Poisson dcrit la probabilit qu'un vnement se produise durant un intervalle de


temps donn, alors que :

- La probabilit de ralisation d'un vnement (dans notre cas quun sinistre ait lieu) est
trs faible
- Le nombre d'essais (dans notre cas le nombre dindividus) est trs grand.
Si le nombre moyen de sinistres dans cet intervalle est , alors la probabilit qu'il existe
exactement k sinistres (k tant un entier naturel, k ) est :


( = ) =
!

On formule notre hypothse H0: Lchantillon suit une loi de poisson qui sera teste par la
suite.
Dans un premier temps, on a utilis la procdure PROC GENMOD qui nous gnre le
paramtre de cette loi : k

25 | P a g e
proc genmod data=sin.nombres;
model nbresinistre = / dist=poisson;
output out=PoissonFit p=lambda;
run;

On obtient le rsultat suivant :


Observations nbresinistre Lambda
2 4 1.4892331391
3 1 1.4892331391
4 4 1.4892331391
6 3 1.4892331391
7 2 1.4892331391
8 3 1.4892331391
9 4 1.4892331391
10 2 1.4892331391
11 1 1.4892331391
12 2 1.4892331391
14 0 1.4892331391
15 0 1.4892331391
16 1 1.4892331391
17 2 1.4892331391
18 1 1.4892331391
19 1 1.4892331391
20 1 1.4892331391
21 3 1.4892331391
22 2 1.4892331391
23 2 1.4892331391
24 0 1.4892331391
25 2 1.4892331391
26 1 1.4892331391

Ensuite, on cre une data set (ensemble de donnes) qui contient les densits de probabilit
de la loi de Poisson (reprsentes par Y), calcules pour les diffrentes classes (reprsentes
par la variable t {1, ...,7}), et ce en utilisant la fonction Pdf.

26 | P a g e
data PMF;
do t = 0 to 7; /* 0 to max(x) */
Y = pdf("Poisson", t, &Lambda);
output;
end;
run;

t Y
1 0 0.2255455513
2 1 0.3358899094
3 2 0.2501091921
4 3 0.1241569657
5 4 0.046224667
6 5 0.0137678612
7 6 0.0034172592
8 7 0.0007270137

La dernire tape consiste en le calcul de la statistique Chi-2. En utilisant la procdure


PROC FREQ, le code SAS utilis est :

proc freq data=sin.nombres;


tables nbresinistre / nocumchisqtestp =(22.55455513 33.58899094
25.01091921 12.41569657 4.6224667 1.37678612 0.34172592 0.07270137);
run;

On a utilis la fonction Chisq qui prend en paramtre les diffrentes probabilits de Poisson
en pourcentage pour pouvoir les comparer avec les valeurs observes.

27 | P a g e
On prsente ci-dessous les rsultats du test obtenus:

nbresinistre Frquence Pourcentage Test


Pourcentage
0 328 22.07 22.55
1 504 33.92 33.59
2 378 25.44 25.01
3 187 12.58 12.42
4 63 4.24 4.62
5 18 1.21 1.38
6 6 0.40 0.34
7 2 0.13 0.07

Test du Khi-2
pour proportions spcifies
Khi-2 2.0596
DDL 7
Pr > Khi-2 0.9565

On obtient pour chaque classe, lcart entre la valeur thorique issue du modle de Poisson
et celle observe de lchantillon. Lcart le plus important est celui de la classe 7 (o le
pourcentage observ des assurs qui ont commis 7sinistres est de 0.13%, et celui thorique
est de 0.07% seulement).

28 | P a g e
On obtient alors une statistique Chi-2 d de 2.0596 qui calcule lcart global entre ces valeurs
thoriques et observes, avec 7 degrs de libert. Daprs la table de Chi-2, et pour un seuil
2 2
de signification de 5% et 7 degrs de libert, on a 1 = 14.067, donc < 1 , on
considre alors que l'cart est d au hasard de l'chantillonnage et qu'il n'est pas significatif,
on garde donc H0 et on dduit que la distribution est bien celle de poisson.

En outre, en prenant un seuil de signification de = 5%, si on raisonne sur la p-value, elle


est gale 0.9565, qui reste suprieure au seuil de 5%, ce qui appuie que la distribution suit
bien une loi de poisson.

- Distribution binomiale :

Cette loi de probabilit discrte est dcrite par deux paramtres : n le nombre dindividus,
et p la probabilit davoir un sinistre.

Pour k , la probabilit scrit comme suit:


( = ) = ( ) (1 )

On formule notre premire hypothse H0: Lchantillon suit une loi de binomiale qui,
travers le test chi-2 va tre soit garde ou rejete.
De prime abord, nous avons gnr les diffrentes frquences observes pour chaque classe en
utilisant le code suivant :

data sin.nombres;
n=7;
do nbresinistre=0 to n;
input freq @@;
output;
end;
datalines;
328 504 378 187 63 18 6 2
;
run;

29 | P a g e
On obtient comme pour le cas prcdent:

n nbresinistre freq
1 7 0 328
2 7 1 504
3 7 2 378
4 7 3 187
5 7 4 63
6 7 5 18
7 7 6 6
8 7 7 2

Ensuite, en utilisant la procdure PROCFREQ dans SAS, on obtient le paramtre p de la


distribution binomiale, qui est gal p=0.2127475502

proc genmod;
freq freq;
model nbresinistre/n= /dist=binomial;
output out=pred_bin p=p;
run;

On cre une nouvelle data set (ensemble de donnes) qui contient les densits de
probabilit de la loi binomiale calcules pour les diffrentes classes en utilisant la fonction
Pdf.

data exp_bin;
set pred_bin;
do nbresinistre=0 to 7;
pdfbin=pdf("binomial",nbresinistre,0.2127475502,7);
output;
end;
stop;
drop freq;
run;

30 | P a g e
On calcule par ailleurs les diffrentes frquences thoriques pour chaque classe, et ce en
multipliant chaque probabilit par la somme des frquences observes. En utilisant SAS,
on utilise le code suivant :

data exp_bin;
set exp_bin;

set pred_bin;
freq_theo=pdfbin*sum(freq);
run;

On obtient comme rsultat :


n Nbresinistre nb p pdfbin freq Freq_theo
1 7 0 0 0.2127475502 0.1874123237 328 61.471242158
2 7 1 0.1428571429 0.2127475502 0.3545248912 504 178.68054518
3 7 2 0.2857142857 0.2127475502 0.2874210253 378 108.64514756
4 7 3 0.4285714286 0.2127475502 0.1294547025 187 24.208029367
5 7 4 0.5714285714 0.2127475502 0.0349839125 63 2.2039864874
6 7 5 0.7142857143 0.2127475502 0.0056724435 18 0.1021039822
7 7 6 0.8571428571 0.2127475502 0.0005109748 6 0.0030658487
8 7 7 1 0.2127475502 0.0000197266 2 0.0000394532

Les probabilits et les frquences thoriques des classes 4,5,6 et 7 sont trs faibles
(frquences thoriques<5), ce qui ncessite de les regrouper en une seule classe pour se
rassurer que le test est bien execut et que la p-value est trs correcte. Les procdures
Format et Means permettent de raliser cette combinaison, ce qui rsulte en 5 classes
principales. La variable contenant les probabilits thoriques est nomme _TESTP_. Le
code utilis en SAS est le suivant :

proc format;
value nbresinistrefmt low-0 = "<=0" 4-high="4+";
run;
proc meanssumnway data = exp_bin;
class nbresinistre;
var pdfbin;
format nbresinistrenbresinistrefmt.;
output out=exp_binsum=_testp_;
run;

31 | P a g e
On obtient les probabilits suivantes :

Variable d'analyse : pdfbin


nbresinistre N obs Somme
<=0 1 0.1874123
1 1 0.3545249
2 1 0.2874210
3 1 0.1294547
4+ 4 0.0411871

La dernire tape consiste en le calcul de la statistique Chi-2 en utilisant le code suivant :

proc freq data=sin.nombres;


table nbresinistre / chisq(testp=exp_bin df=-1 lrchisq);
format nbresinistre nbresinistrefmt.;
weight freq;
run ;

df=-1 est spcifi dans PROC Freq pour rduire les degrs de libert du test de 1.
On obtient les rsultats suivants :

nbresinistre Frquence Pourcentage Test Frquence Pourcentage


Pourcentage cumule cumul
<=0 328 22.07 18.74 328 22.07
1 504 33.92 35.45 832 55.99
2 378 25.44 28.74 1210 81.43
3 187 12.58 12.95 1397 94.01
4+ 89 5.99 4.12 1486 100.00

Test du Khi-2
pour proportions spcifies
Khi-2 28.2087
DDL 3
Pr > Khi-2 <.0001

32 | P a g e
On obtient pour chaque classe, lcart entre la valeur thorique de la loi binomiale et celle
observe de lchantillon. Lcart le plus important est celui de la classe regroupant les classes
4, 5,6 et 7 (o le pourcentage observ des assurs est de 4.12 % et celui thorique est de
5.99%).

On a obtenu une statistique Chi-2 d de 28.2087 avec 3 degrs de libert. Daprs la table de
2
Chi-2, et pour un seuil de signification de 5% et 3 degrs de libert, on a 1 = 7.815, donc
2
> 1 on considre que l'cart observ est trop important pour tre attribu aux seules
fluctuations d'chantillonnage et qu'il rvle l'inadquation du modle : on rejette alors
lhypothse H0, et on dduit que la distribution ne suit pas une distribution binomiale.

Par ailleurs, la p-value est infrieur 0.0001, et reste infrieure au seuil de signification de 5%,
ce qui appuie que la distribution ne suit pas une distribution binomiale.

- Distribution binomiale ngative :

La loi de probabilit d'une variable alatoire distribue selon une binomiale ngative de
paramtres n et p, note NegBin(n, p), prend la forme suivante : pour k

+1
(; , ) = ( ) .

On formule notre premire hypothse H0: Lchantillon suit une loi de binomiale ngative
qui, travers le test chi-2 va tre soit garde ou rejete.

33 | P a g e
Comme pour le cas des deux distributions prcdentes, on commence par gnrer les
frquences observes travers le code SAS suivant :

data sin.nombres;
n=7;
do nbresinistre=0 to n;
input freq @@;
output;
end;
datalines;
328 504 378 187 63 18 6 2
;

n nbresinistre freq
1 7 0 328
2 7 1 504
3 7 2 378
4 7 3 187
5 7 4 63
6 7 5 18
7 7 6 6
8 7 7 2

Ensuite, en utilisant la procdure PROC GENMOD dans SAS, on obtient le paramtre p


de cette distribution, qui est gal p=0.2767192737. Le code SAS est le suivant:

proc genmod data=sin.nombres;


model nbresinistre/n = / dist= negbin;
output out=pred_nbprob=prob_nb;
freqfreq;
run;

34 | P a g e
On cre une nouvelle data set (ensemble de donnes) qui contient les densits de
probabilit de la loi binomiale ngative calcules pour les diffrentes classes en utilisant la
fonction Pdf.

data exp_nb;
set pred_nb;
do nbresinistre=0 to 7;
pdfnb=pdf("negbin",nbresinistre, 0.2767192737,0.55);
output;
end;
stop;
run;

Pour sassurer que la somme des densits de probabilit de la loi binomiale ngative est
gale 1, on construit une nouvelle variable pdfnew qui contient la probabilit de la
classe 7, qui est gale un moins la somme des probabilits de toutes les classes infrieures
7. Pour ce faire, on utilise le code suivant :

Data exp_nb;
set exp_nb;
pdfnew = pdfnb;
If(nbresinistre=7) then pdfnew=1-pdf("negbin",0,0.27,0.55)-
pdf("negbin",1,0.27,0.55)-pdf("negbin",2,0.27,0.55-
pdf("negbin",3,0.27,0.55)-pdf("negbin",4,0.27,0.55)-
pdf("negbin",5,0.27,0.55)-pdf("negbin",6,0.27,0.55);
drop pdfnb;
renamepdfnew = pdfnb;
run;

On obtient le rsultat suivant :

n Nbresinistre Freq pdfnb


1 7 0 328 0.4866873636
2 7 1 504 0.1954049765
3 7 2 378 0.1105503654
4 7 3 187 0.0685965018
5 7 4 63 0.0444419586
6 7 5 18 0.0295227931
7 7 6 6 0.019935266
8 7 7 2 0.0448607751

35 | P a g e
On calcule les diffrentes frquences thoriques pour chaque classe comme pour le cas
prcdent. En utilisant SAS, on utilise le code suivant:

data exp_nbpp;
set exp_nb;
freq_theo=pdfnb*sum(freq);
run;

n Nbresinistre Freq pdfnb Freq_theo


1 7 0 328 0.4866873636 159.63
2 7 1 504 0.1954049765 64.09
3 7 2 378 0.1105503654 36.26
4 7 3 187 0.0685965018 22.49
5 7 4 63 0.0444419586 14.57
6 7 5 18 0.0295227931 9.68
7 7 6 6 0.019935266 6.35
8 7 7 2 0.0448607751 14.71

Les probabilits et les frquences thoriques des classes 6 et 7 sont trs faibles (frquences
thoriques<5), ce qui ncessite de les regrouper en une seule classe pour se rassurer que le
test soit bien excut et que la p-value soit trs correcte. Les procdures Format et Means
permettent de raliser cette combinaison, ce qui rsulte en 7 classes principales. La variable
contenant les probabilits thoriques est nomme _TESTP_. Le code utilis en SAS est le
suivant:

proc format;
value nbresinistrefmt low-0 = "<=0" 6-high="6+";
run;

proc means sumnway data=exp_nbpp;


class nbresinistre;
var pdfnb;
format nbresinistre nbresinistrefmt.;
output out=exp_nbbsum=_testp_;
run;

36 | P a g e
Les rsultats se reprsentent comme suit :

Variable d'analyse : pdfnb


nbresinistre N obs Somme
<=0 1 0.4866874
1 1 0.1954050
2 1 0.1105504
3 1 0.0685965
4 1 0.0444420
5 1 0.0295228
6+ 2 0.0647960

Finalement, on procde au calcul de la statistique Chi-2. Pour cela, on utilise le code SAS
suivant :

proc freq data=sin.nombres;


table nbresinistre / chisq(testp=exp_nbbdf=-2 lrchisq);
format nbresinistrenbresinistrefmt.;
weightfreq;
run;

Et on obtient comme rsultat :

nbresinistre Frquence Pourcentage Test Frquence Pourcentage


Pourcentage cumule cumul
<=0 328 22.07 48.67 328 22.07
1 504 33.92 19.54 832 55.99
2 378 25.44 11.06 1210 81.43
3 187 12.58 6.86 1397 94.01
4 63 4.24 4.44 1460 98.25
5 18 1.21 2.95 1478 99.46
6+ 8 0.54 6.48 1486 100.00

Test du Khi-2
pour proportions spcifies
Khi-2 818.5268
DDL 4
Pr > Khi-2 <.0001

37 | P a g e
Comme les deux modles prcdents, on obtient pour chaque classe, lcart entre la valeur
thorique de la loi binomiale et celle observe de lchantillon. Lcart le plus important est
celui de la deuxime classe (o le pourcentage observ des assurs est de 25.44% et celui
thorique est de 11.06% seulement).

On a obtenu une statistique Chi-2 d de 818.5268 avec 4 degrs de libert. Daprs la table de
2
Chi-2, et pour un seuil de signification de 5% et 4 degrs de libert, on a 1 = 9.488, donc
2
> 1 , on considre encore que l'cart observ est trop important pour tre attribu aux
seules fluctuations d'chantillonnage et qu'il rvle l'inadquation du modle, On rejette alors
H0, et on dduit que la distribution ne suit pas une distribution binomiale ngative.

Par ailleurs, la p-value est infrieur 0.0001, et reste infrieure au seuil de signification de 5%,
ce qui appuie que la distribution ne suit pas une distribution binomiale ngative.

38 | P a g e
Analyse critique :

Lutilisation des mthodes Kolmogorov Smirnov et khi-2 ont pour but de modliser une
distribution et ils atteignent le but vis mais avec des limites, donc la question qui se pose
cest : Est ce quils permettent un "meilleur rejet" ou "acceptation" des hypothses? .

Notre modlisation nous a permis de dduire que la variable qui reprsente le nombre des
sinistres suit bien la loi Poisson, tandis que la variable qui dcrit les montants des sinistres
suit la loi exponentielle. Dailleurs, le fait de choisir un seuil de signification de 5%,
nempche de tomber dans des confusions dans le choix de la loi convenable et dcrivant la
distribution.

Ceci se montre plus particulirement dans le cas de la variable continue, o nous avons
utilis un test de Kolmogorov Smirnov, pour les lois Gamma et Exponentielle. La valeur
seule de ntait pas suffisante pour accepter ou refuser lhypothse. Ceci nous a men
utiliser le coefficient AIC pour prendre la dcision. Pour la loi Weibull, nous lavons
limin vu quaucun rsultat li ce test ntait affich.

Ceci ntait quun ensemble de contraintes, qui peuvent se considrer comme des limites
pour lutilisation du test de Kolmogorov Smirnov dans la modlisation dune distribution
donne.

Concernant le test Chi-2, le fait de prendre la dcision que la variable discrte dcrivant le
montant des sinistres suit bien une loi Poisson, ne pourra pas tre une dcision dfinitive.
Souvent, dans les applications pratiques, la loi de Poisson noffre pas une description trs
adquate du comportement des donnes. Dans ces circonstances, les lois Poisson-mlange
jouent un rle important dans la modlisation du comportement de la frquence.

Enfin, labsence des facteurs explicatifs dans les donnes que nous avons analyses, nous a
permis de faire une modlisation des nombres et montants des sinistres indpendamment
des conditions dans lesquelles un assureur cherche prouver la sinistralit. Une tude qui
doit tre accompagne par des variables explicatifs fin daboutir des rsultats pouvant
dtre source de proposition de dcisions futurs dans le monde des assurances.

39 | P a g e
Exploitation des rsultats pour des dcisions et actions futures :

Le march des assurances reprsente particulirement un monde marqu par une asymtrie
dinformation entre lagent (lassur) et le principal (lassureur). Lvaluation quantitative des
risques financiers courir a toujours reprsent un enjeu majeur pour lanalyse et la gestion
de la sinistralit par les assureurs. En situation danti-slection, lassur dispose dun
avantage informationnel par rapport lassureur avant la conclusion du contrat dassurance.
Cette hypothse danti-slection stipule que les hauts risques ont tendance choisir de plus
fortes couvertures que les bas risques.

La modlisation probabiliste des nombres et des montants des sinistres (il sagit de
modliser les montants par une loi exponentielle et les nombres par une loi de poisson) ne
permettra pas lassureur destimer les risques lis cette asymtrie dinformation. Car, un
modle reste une reprsentation simplifie dune ralit. Il rpond une curiosit thorique
et ne reprsente pas un outil danalyse performant. Cest pour cela quil faut prendre en
considration de nombreux facteurs explicatifs. Ces derniers pourront au mieux aider
lassureur apprhender les risques, laide des renseignements demands au moment de
la souscription du contrat et du suivi du comportement de lassur au niveau de sa
sinistralit. Par ailleurs, ils lui permettront, en construisant des classes de risque, de
segmenter son portefeuille et de hirarchiser ces classes laide dindicateurs de sinistralit,
comme la prime pure.

On cite parmi ces facteurs :

Les caractristiques du conducteur


- Sexe : Il sagit du sexe du conducteur principal dclar.
- Type de conducteur : il exprime la qualification du conducteur principal dclar au
regard du vhicule (le conducteur principal dclar est ou non le socitaire).
- ge du conducteur : exprim en annes.
- Profession: profession du conducteur.
- Numro de dpartement : numro de dpartement du domicile du conducteur.
- Anciennet de permis : de 0 3 ans.
- Cfficient bonus-malus : il est compris entre 0.50 et 3.50 inclus (exprim en %),
conformment la lgislation franaise en vigueur.

40 | P a g e
- Priode de couverture : priode, en mois, au cours de laquelle lassur est couvert par
la police quil a souscrit, le plus souvent cette priode tant dune anne.

Les caractristiques du vhicule


- Anciennet de vhicule : elle exprime le millsime de lanne du modle du vhicule.
- Puissance relle du vhicule : elle exprime la puissance du moteur en chevaux DIN
(Deutsch Industrie Normen).

41 | P a g e
Conclusion :

Nos modles calculs et simuls par le logiciel SAS, ne sont dplorablement pas assez
sophistiqus et puissent tre considrs utiles et performants, ils sont plutt forme de curiosits
thoriques, spcialement que lon manque les facteurs explicatifs de chaque cas qui nous
permettront de bien interprter les rsultats. Il ne faut de mme pas omettre quun modle
doit tre admis avec ses imperfections et limitations car il donne une image idaliste de la
ralit. Les modles doivent tre utiliss de faon souple, sans y croire compltement la
limite. Il reste toujours une composante individuelle comportementale non observe.
Lapproche devant tre ouverte et multiforme, et en ce sens, il ny a pas une mthode pour un
problme.

42 | P a g e
Bibliographie :

http://nte-serveur.univ-
lyon1.fr/immediato/Math/Enseignement/07%20Statistiques/16.%20Test%20de%20Kolmogo
rov-Smirnov/chapitre_16.htm
http://blogs.sas.com/content/iml/2012/04/04/fitting-a-poisson-distribution-to-data-in-
sas.html
http://support.sas.com/kb/47/956.html

43 | P a g e