Vous êtes sur la page 1sur 54

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES.

Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB

Projet 10 : Crimes and Communities Data Set


Prdiction du taux de crimes violents pour cent milles habitants.
Sbastien DIAZ , INE 0G5DRJ1EXW0, Siscol 000089827

Septembre 2012

Projet 10 : Crimes and Communities Data Set Septembre 2012

Sommaire
Introduction............................................................................................................................................. 4 Objectifs .............................................................................................................................................. 4 Etude prliminaire des donnes ............................................................................................................. 5 Introduction......................................................................................................................................... 5 Etude du sujet...................................................................................................................................... 5 Source des donnes ............................................................................................................................ 6 Informations sur les donnes .............................................................................................................. 7 Matrice de corrlation......................................................................................................................... 9 Matrice de corrlation des attributs ............................................................................................... 9 Matrice de corrlation sur les individus ........................................................................................ 10 Corrlations de la variable prdire. ............................................................................................ 11 Rduction des dimensions ................................................................................................................ 12 Etude des premiers axes sur les individus ..................................................................................... 13 Lanalyse du cercle des corrlations.............................................................................................. 14 Analyse discriminante ................................................................................................................... 16 Classification des donnes ................................................................................................................ 17 Classification ascendante hirarchique ......................................................................................... 17 Classification par cartes auto organisatrice. ................................................................................. 19 Analyse histographique ..................................................................................................................... 22 Prdiction du nombre des crimes violents pour 100k habitants .......................................................... 28 Introduction....................................................................................................................................... 28 Approche avec donnes compltes .................................................................................................. 29 Approche par rgression ............................................................................................................... 29 Machine vecteurs de support ..................................................................................................... 32 Approche par rseau de neurones et perceptron multi couche. .................................................. 33 Approche par vraisemblance......................................................................................................... 35 Approche avec donnes classifies ................................................................................................... 36 Approche avec variables supprimes ................................................................................................ 38 Choix des variables ........................................................................................................................ 38 Le rsultat obtenu ......................................................................................................................... 39 Tableau des rsultats..................................................................................................................... 40 Approche par suppression de communaut ..................................................................................... 41
CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

Projet 10 : Crimes and Communities Data Set Septembre 2012


Meilleur rsultat graphique........................................................................................................... 41 Tableau de rsultat........................................................................................................................ 41 Approche mixte ................................................................................................................................. 42 Meilleur rsultat graphique........................................................................................................... 42 Tableau des rsultats..................................................................................................................... 43 Comparaison des rsultats des diffrentes mthodes utilises. ...................................................... 44 Conclusion ............................................................................................................................................. 46 Annexe ................................................................................................................................................... 47 Outils utiliss ..................................................................................................................................... 47 Description des variables .................................................................................................................. 47 Statistiques lmentaires .................................................................................................................. 52

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

Projet 10 : Crimes and Communities Data Set Septembre 2012

Introduction
Objectifs
Lobjectif de ce projet est danalyser et de prdire les crimes violents pour 100k habitants partir dun large panel de donnes relatives aux crimes et communauts amricaines. Notre tude sera construite en deux parties distinctes et ncessaires la comprhension et la recherche dun modle de prvision satisfaisant. La premire partie sera organise autour de ltude des donnes, de leurs prtraitements et de lanalyse de leurs comportements et de leurs cartographies. La seconde partie sera axe sur la proposition de plusieurs modles : par rgression , par machine vecteur support ou par rseaux de neurones. Le travail effectu dans ce projet est de mettre en pratique les diffrentes techniques et thories vues lors du cours et lors des sances de TP de RCP209 : Apprentissage, Rseaux de neurones et Modles graphiques. Ce travail sera mises en uvre par des scripts MATLAB agrments dutilitaires gratuits.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

Projet 10 : Crimes and Communities Data Set Septembre 2012

Etude prliminaire des donnes


Introduction
Lanalyse des donnes portera sur plusieurs ides. La premire, une simple tude statistique sur les corrlations entre individus et variables. Puis, nous regarderons comment une analyse en composante principal peut nous aider mieux comprendre nos donnes. Ensuite nous enchainerons sur une tude de classification afin de mieux apprhender la structure mme de nos donnes.

Etude du sujet
Les informations fournies combinent des donnes socio-conomiques du Recensement US depuis 1990, des donnes lgislatives de ltude de US LEMAS depuis 1990 et des donnes criminelles du FBI depuis 1995. Lide est dessayer de prdire le taux des crimes violents pour 100k habitants partir de ces donnes socio conomiques Il ny a pas de donnes temporelles. On ne cherche donc pas prdire quel sera la valeur tel moment. Lanalyse portera donc sur les facteurs pouvant influencer ou pas la variable prdire. Il y a 128 attributs avec 1994 instances. Chaque instance est caractrise par son tat et sa communaut.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

Projet 10 : Crimes and Communities Data Set Septembre 2012

Source des donnes


Les donnes sont issues du site Machine Learning de lUniversit de Californie. Ce site procure un grand nombre de documents relatifs la recherche et ltude en Apprentissage, Rseaux de neurones et Modles graphiques. Le document que nous avons choisi provient de donnes agrges et retravailles par Michael Redmond de lUniversit La Salle Philadelphie. Les donnes initiales ont t fournies par : U. S. Department of Commerce, Bureau of the Census, Census Of Population And Housing . 1990 United States: Summary Tape File 1a & 3a (Computer Files), U.S. Department Of Commerce, Bureau Of The Census Producer, Washington, DC and Interuniversity Consortium for Political and Social Research Ann Arbor, Michigan. (1992) U.S. Department of Justice, Bureau of Justice Statistics, Law Enforcement Management And Administrative Statistics (Computer File) U.S. Department Of Commerce, Bureau Of The Census Producer, Washington, DC and Inter-university Consortium for Political and Social Research Ann Arbor, Michigan. (1992) U.S. Department of Justice, Federal Bureau of Investigation, Crime in the United States (Computer File) (1995) Redmond, M. A. and A. Baveja: A Data-Driven Software Tool for Enabling Cooperative Information Sharing Among Police Departments. European Journal of Operational Research 141 (2002) 660-678.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

Projet 10 : Crimes and Communities Data Set Septembre 2012

Informations sur les donnes


Nos donnes sont composes de 1994 individus avec 128 attributs. Seulement 122 attributs peuvent tre utiliss pour notre tude. Les six attributs non retenus sont les donnes sur le nom et attributs de la communaut, ltat et la variable estimer. Cette dernire valeur sera ajoute notre premire partie de ltude, car elle a un rle statistique important. La liste des donnes non prdictive est : state: US state (by number) - not counted as predictive above, but if considered, should be consided nominal (nominal) county: numeric code for county - not predictive, and many missing values (numeric) community: numeric code for community - not predictive and many missing values (numeric) communityname: community name - not predictive - for information only (string) fold: fold number for non-random 10 fold cross validation, potentially useful for debugging, paired tests - not predictive (numeric)

Sur ces 122 variables, il existe des variables contenant des donnes incompltes au nombre de 23, dont voici la liste : OtherPerCap: per capita income for people with 'other' heritage (numeric - decimal) LemasSwornFT: number of sworn full time police officers (numeric - decimal) LemasSwFTPerPop: sworn full time police officers per 100K population (numeric - decimal) LemasSwFTFieldOps : number of sworn full time police officers in field operations (on the street as opposed to administrative etc) (numeric - decimal) LemasSwFTFieldOps : sworn full time police officers in field operations (on the street as opposed to administrative etc) per 100K population (numeric - decimal) LemasTotalReq : total requests for police (numeric - decimal) LemasTotReqPerPop : total requests for police per 100K popuation (numeric - decimal) PolicReqPerOffic : total requests for police per police officer (numeric - decimal) PolicPerPop : police officers per 100K population (numeric - decimal) RacialMatchCommPol : a measure of the racial match between the community and the police force. High values indicate proportions in community and police force are similar (numeric - decimal) PctPolicWhite : percent of police that are caucasian (numeric - decimal) PctPolicBlack : percent of police that are african american (numeric - decimal) PctPolicHisp : percent of police that are hispanic (numeric - decimal) PctPolicAsian : percent of police that are asian (numeric - decimal) PctPolicMinor : percent of police that are minority of any kind (numeric - decimal) OfficAssgnDrugUnits : number of officers assigned to special drug units (numeric - decimal) NumKindsDrugsSeiz : number of different kinds of drugs seized (numeric - decimal) PolicAveOTWorked : police average overtime worked (numeric - decimal) PolicCars : number of police cars (numeric - decimal)
CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

Projet 10 : Crimes and Communities Data Set Septembre 2012


PolicOperBudg : police operating budget (numeric - decimal) LemasPctPolicOnPatr : percent of sworn full time police officers on patrol (numeric - decimal) LemasGangUnitDeploy : gang unit deployed (numeric - decimal - but really ordinal - 0 means NO, 1 means YES, 0.5 means Part Time) PolicBudgPerPop : police operating budget per population (numeric - decimal)

Il reste donc 99 variables utilisables plus la valeur estimer pour la ralisation notre tude. On pourra regarder en annexe ltude statistique lmentaire des ces variables.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

Projet 10 : Crimes and Communities Data Set Septembre 2012

Matrice de corrlation
Matrice de corrlation des attributs La matrice de corrlation nous permet de mettre en vidence la corrlation ou non des variables. On entrevoit dj des groupes de variables fortement corrls. La classification et la rduction de dimension des variables nous permettront dtudier plus prcisment ce phnomne. La grande partie des variables montre une tendance plutt neutre en termes de corrlation ou non corrlation. Voici la matrice de corrlation sous forme graphique des 100 attributs :

Figure 1 - Matrice de corrlation - Variables

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

Projet 10 : Crimes and Communities Data Set Septembre 2012


Matrice de corrlation sur les individus Cette matrice met en vidence que les communauts ont un comportement cohrent et quelles sont pour beaucoup corrles. Ainsi lchantillonnage dun certain nombre dindividus sera reprsentatif. Ce qui est excellent pour le cadre de notre tude. Voici la matrice de corrlation sous forme graphique des 1994 individus :

Figure 2 - Matrice de Corrlation - Individus

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

10

Projet 10 : Crimes and Communities Data Set Septembre 2012


Corrlations de la variable prdire. Voici la liste des corrlations entre la variable prdire et les variables disponibles.
Variable PctIlleg racepctblack pctWPubAsst FemalePctDiv TotalPctDiv MalePctDivorce PctPopUnderPov PctUnemployed PctHousNoPhone PctNotHSGrad PctVacantBoarded PctHousLess3BR NumIlleg PctPersDenseHous NumUnderPov HousVacant PctLess9thGrade PctLargHouseFam NumInShelters population PctWOFullPlumb numbUrban LemasPctOfficDrugUn NumStreet MedRentPctHousInc MalePctNevMarr PctNotSpeakEnglWell PctOccupManu PctLargHouseOccup NumImmig racePctHisp PctImmigRec10 PopDens
Corrlation Variable

Corrlation Variable 0,2643 PersPerOwnOccHous 0,2532 PctWorkMom 0,2483 pctWFarmSelf 0,2481 PctSameHouse85 0,248 AsianPerCap 0,2308 OwnOccHiQuart 0,216 OwnOccMedVal 0,1968 whitePerCap 0,1944 OwnOccLowQuart 0,1719 RentHighQ 0,1538 MedRent 0,1534 RentMedian 0,1407 PctSpeakEnglOnly 0,118 HispPerCap 0,0993 RentLowQ 0,082 blackPerCap 0,0756 pctWWage 0,0672 PctBSorMore 0,0638 PctHousOccup 0,0605 PctEmploy 0,0538 PctOccupMgmtProf 0,0376 perCapInc 0,0213 MedNumBR -0,0195 medIncome -0,0225 medFamInc -0,0349 PctHousOwnOcc -0,0397 PctPersOwnOccup -0,0449 pctWInvInc -0,0715 PctTeen2Par -0,0772 PctYoungKids2Par -0,0909 racePctWhite -0,0984 PctFam2Par -0,11 PctKids2Par

Corrlation

0,738 PctRecImmig10 0,6313 PctRecImmig8 0,5747 PersPerRentOccHous 0,556 PctImmigRec8 0,5528 PctRecImmig5 0,5254 PctRecentImmig 0,5219 PctImmigRec5 0,5042 LandArea 0,4882 PctForeignBorn 0,4834 PctImmigRecent 0,4828 PctUsePubTrans 0,4745 agePct12t29 0,471 PersPerFam 0,4529 pctWSocSec 0,4476 agePct16t24 0,4214 pctUrban 0,4111 PctSameCity85 0,3835 agePct65up 0,3758 MedOwnCostPctInc 0,3672 agePct12t21 0,3645 MedOwnCostPctIncNoMtg 0,3629 racePctAsian 0,3486 PctVacMore6Mos 0,3403 PctSameState85 0,325 PctWorkMomYoungKids 0,3046 householdsize 0,3 PersPerOccupHous 0,2956 PctEmplManu 0,2948 PctEmplProfServ 0,2942 PctBornSameState 0,2931 indianPerCap 0,2915 pctWRetire 0,2814 MedYrHousBuilt

-0,1244 -0,1506 -0,1531 -0,1554 -0,1556 -0,1721 -0,1907 -0,2093 -0,2105 -0,2323 -0,2399 -0,2405 -0,2415 -0,2446 -0,2518 -0,2754 -0,3055 -0,3147 -0,319 -0,3316 -0,3391 -0,3521 -0,3574 -0,4242 -0,4391 -0,4707 -0,5255 -0,5763 -0,6616 -0,6661 -0,6848 -0,7067 -0,7384

Nous observons trs rapidement les lments proches comme le pourcentage denfants illgitimes et la population de race black . Ainsi que les lments anti corrls comme les familles ayants deux parents ou la race white .

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

11

Projet 10 : Crimes and Communities Data Set Septembre 2012

Rduction des dimensions


Pour la rduction des dimensions de nos donnes, nous allons utiliser lAnalyse en Composante Principale et extraire les premiers axes principaux. Nous commencerons par regarder linertie des axes extraits de lanalyse en composante principale. Voici une reprsentation graphique de cette inertie :
Repartition of inertia on the PCs 1 PC inertia Cumulated inertia

0.9

0.8

0.7

0.6

Inertia

0.5

0.4

0.3

0.2

0.1

10

20

30

40

50 PC no.

60

70

80

90

100

Les 20 premires dimensions couvrent plus de 90% de la reprsentation des donnes. Les trois premiers axes reprsentent plus de 50% des axes de nos donnes. Pour rendre nos images plus parlantes une coloration a t ajoute aux valeurs. Cette classification est base sur la fonction kmean de matlab avec 5 classes pour dterminer les premiers partitionnements de nos donnes.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

12

Projet 10 : Crimes and Communities Data Set Septembre 2012

Etude des premiers axes sur les individus Les deux premiers axes sont ici reprsents.
Data projection on the first two principal axes 10

Second principal axis

-5

-10

-15

-20 -15

-10

-5

0 First principal axis

10

15

Il est difficile ici de dterminer une classification intressante. La distribution principale des donnes apparait centre autour dun centre compact. Le reste des donnes est dispers plus largement dans lespace. Les deux axes suivants confortent cette analyse.
Data projection on the second two principal axes 15

10

third principal axis

-5

-10

-15 -20

-15

-10

-5 second principal axis

10

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

13

Projet 10 : Crimes and Communities Data Set Septembre 2012


Lanalyse du cercle des corrlations Le cercle des corrlations nous permet de voir la structure des attributs. Des premiers regroupements apparaissent permettant dimaginer une tude thorique trs intressante. Les deux premiers axes Citons des exemples vidents de fortes corrlations : PctPersOwnOccup et PctHousOwnOcc qui reprsentent respectivement le pourcentage de gens occupants leurs propres logements et le pourcentage des foyers propritaires occups agePct12t21 , agePct16t24 et agePct12t29 qui reprsentent respectivement le pourcentage de population entre 12 et 21 ans , 16 et 24 ans et 12 et 29 ans.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

14

Projet 10 : Crimes and Communities Data Set Septembre 2012


On citera aussi des exemples dattributs exceptionnels et seuls comme : PctSpeakEnglOnly : pourcentage de personne parlant uniquement langlais racePctAsian : pourcentage de la population tant asiatique

Le deuxime axe et le troisime axe du cercle des corrlations.

Ces deux axes supplmentaires confortent les informations extraites prcdemment. On retrouve les mmes donnes isoles et aussi les donnes rapproches.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

15

Projet 10 : Crimes and Communities Data Set Septembre 2012


Analyse discriminante Aprs les premiers rsultats issus de lanalyse en composante principale, nous analysons une autre mthode : lanalyse discriminante. Cette mthode devrait, dans la mesure o des groupements existent, proposer une plus grande sparation de nos donnes. Pour apprhender cette analyse, nous utilisons la toolbox stprtool qui dispose dune mthode danalyse discriminante. La mthode danalyse discriminante est la suivante : Les donnes tudier sont :

Le but de lanalyse discriminante linaire est dtudier la projection linaire des donnes

en maximisant les critres de sparabilit.

Ou Sw reprsente la dispersion intra classes et Sb la dispersion inter classe. Un essai a donc t tent sur nos donnes. Voici le rsultat graphique.
Analyse discriminante sur les deux premiers axes 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0

0.2

0.4

0.6

0.8

Ce qui dcoule de ce rsultat est la difficult de cette mthode trouver des classes suffisamment indpendantes pour reprsenter les donnes avec plus de discernement. Comme dans ltude en analyse en composante principale, nous ne discernons rien de significatif.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

16

Projet 10 : Crimes and Communities Data Set Septembre 2012

Classification des donnes


La classification des donnes nous permet de mieux comprendre les donnes, leurs structurations, leurs complexits et leurs corrlations. En cherchant extraire des classes, on cherche regrouper les donnes. Dans ce cadre je propose , en plus de lutilisation des k-means vu sur nos donnes danalyse en composante principale, deux approches : lapproche par une classification ascendante hirarchique et une carte topologique des donnes. Classification ascendante hirarchique Dans cette analyse, nous voyons une classification hirarchique mettant en vidence au moins quatre classes dindividus.

15 10 5 0 -5 -10 -15 10 0 -10 -10 -20 -20 0 20 10

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

17

Projet 10 : Crimes and Communities Data Set Septembre 2012


Le dendrogramme claircie particulirement cette hirarchie. On y voit bien un saut important sur lors du passage cinq classes. Il y a cinq principales classes.
5

4.5

3.5

2.5 1 628 3 17 725 22016121519212310131814 4 5 911293026242227 8

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

18

Projet 10 : Crimes and Communities Data Set Septembre 2012


Classification par cartes auto organisatrice. Je propose la gnration des cartes reprsentants la rpartition des attributs et des individus. Carte auto organisatrice sur lanalyse des individus Voici la carte auto organisatrice gnre pour les individus grce aux outils sdh et somtoolbox. On utilise une carte 8 colonnes et 8 lignes. La carte a t gnre avec loption vote pour extraire lchantillon le plus reprsentatif de son nud. On peut remarquer la concentration autour de certaines zones. Par exemple lindividus de ltat 5 et de la communaut Needhamtown attire prs de 65 individus et reprsente le pic de reprsentation. La carte met aussi en vidence des reprsentations de zone peut attirante comme ltat 34 et la communaut PerthAmboycity.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

19

Projet 10 : Crimes and Communities Data Set Septembre 2012


Carte auto organisatrice sur lanalyse des attributs Lide est ici de retrouver une certaine harmonie et un claircissement sur ltude des cercles de corrlations aperu dans le chapitre prcdent. On utilise une carte 6 colonnes et 6 lignes. On y retrouve nos deux groupes de variables PctPersOwnOccup , PctHousOwnOcc et agePct12t21 , agePct16t24 , agePct12t29. Ainsi que nos variables isoles PctSpeakEnglOnly et racePctAsian. On remarquera que la variable racePctAsian reste isole sur la carte alors que la variable PctSpeakEnglOnly est regroupe avec racePctWhite, pctUrban et PctHouseOccup (Groupe qui est cohrent). On remarquera que la variable tudier se trouve dans un nud comprenant racepctblack, PctIlleg et PctVacantBoarded qui correspondent respectivement au pourcentage de personnes de race black , au pourcentage denfants ns en dehors du mariage et du pourcentage de proprits vacantes abandonnes.

RentLowQ RentMedian RentHighQ MedRent

medIncome medFamInc perCapInc whitePerCap HispPerCap

PctBSorMore PctOccupMgmtProf

pctWWage pctWInv Inc PctEmploy

PctFam2Par PctKids2Par PctY oungKids2Par PctTeen2Par

racePctWhite pctUrban PctSpeakEnglOnly PctHousOccup

OwnOccLowQuart OwnOccMedVal OwnOccHiQuart

blackPerCap AsianPerCap

MedNumBR MedOwnCostPctInc

MedY rHousBuilt

PctPersOwnOccup PctHousOwnOcc

PctBornSameState PctSameHouse85 PctSameCity 85 PctSameState85

racePctAsian

indianPerCap

householdsize PersPerFam PersPerOccupHous PersPerOwnOccHous

PctWorkMomY oungKids PctWorkMom

PctRecentImmig PctRecImmig5 PctRecImmig8 PctRecImmig10 PctForeignBorn PopDens

racePctHisp PctNotSpeakEnglWell PctPersDenseHous

pctWFarmSelf PctLargHouseFam PctLargHouseOccup

PersPerRentOccHous

PctVacMore6Mos MedOwnCostPctIncNoMtg

agePct65up pctWSocSec pctWRetire PctEmplProf Serv MedRentPctHousInc

PctUsePubTrans

PctWOFullPlumb

PctLess9thGrade PctNotHSGrad PctUnemploy ed

PctEmplManu PctOccupManu

MalePctDiv orce FemalePctDiv TotalPctDiv PctHousLess3BR

population numbUrban NumUnderPov NumIlleg NumImmig HousVacant NumInShelters NumStreet LandArea

LemasPctOf f icDrugUn

racepctblack PctIlleg PctVacantBoarded ViolentCrimesPerPop

pctWPubAsst PctPopUnderPov PctHousNoPhone

agePct12t21 agePct12t29 agePct16t24 MalePctNev Marr

PctImmigRecent PctImmigRec5 PctImmigRec8 PctImmigRec10

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

20

Projet 10 : Crimes and Communities Data Set Septembre 2012


Pour connatre les attributs les plus marquants de notre variable prdire, jais soigneusement rduit la carte auto organisatrice une matrice de deux lignes et deux colonnes. Le rsultat est une vision plus claire sur les composantes proches. On remarquera que ce ne sont pas forcement les variables les plus corrles retrouve dans cette liste (voir le chapitre sur Corrlations de la variable prdire ). Ce sont les attributs reprsentants les populations immigres, indiennes, asiatiques, black , hispaniques, les enfants illgitimes, ceux qui ne parlent pas bien langlais, les habitations surpeuples ou abandonnes, les personnes utilisant les transports en commun, la surpopulation qui sont les plus attachs notre variable prdire.

population racepctblack racePctAsian racePctHisp numbUrban indianPerCap NumUnderPov NumIlleg PctIlleg NumImmig PctRecentImmig PctRecImmig5 PctRecImmig8 PctRecImmig10 PctNotSpeakEnglWell PctLargHouseFam PctLargHouseOccup PctPersDenseHous HousVacant PctVacantBoarded PctWOFullPlumb NumInShelters NumStreet PctForeignBorn LandArea PopDens PctUsePubTrans LemasPctOf f icDrugUn ViolentCrimesPerPop

householdsize agePct12t21 agePct12t29 agePct16t24 agePct65up pctWFarmSelf pctWSocSec pctWPubAsst PctPopUnderPov PctLess9thGrade PctNotHSGrad PctUnemploy ed PctEmplManu PctEmplProf Serv PctOccupManu MalePctDiv orce MalePctNev Marr FemalePctDiv TotalPctDiv PersPerFam PctImmigRecent PctImmigRec5 PctImmigRec8 PctImmigRec10 PersPerOccupHous PersPerRentOccHous PctHousLess3BR PctVacMore6Mos PctHousNoPhone MedRentPctHousInc MedOwnCostPctIncNoMtg

medIncome medFamInc perCapInc whitePerCap blackPerCap AsianPerCap HispPerCap PctBSorMore PctOccupMgmtProf MedNumBR OwnOccLowQuart OwnOccMedVal OwnOccHiQuart RentLowQ RentMedian RentHighQ MedRent MedOwnCostPctInc

racePctWhite pctUrban pctWWage pctWInv Inc pctWRetire PctEmploy PctFam2Par PctKids2Par PctY oungKids2Par PctTeen2Par PctWorkMomY oungKids PctWorkMom PctSpeakEnglOnly PersPerOwnOccHous PctPersOwnOccup PctHousOccup PctHousOwnOcc MedY rHousBuilt PctBornSameState PctSameHouse85 PctSameCity 85 PctSameState85

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

21

Projet 10 : Crimes and Communities Data Set Septembre 2012

Analyse histographique
On regarde lhistogramme de rpartition des valeurs de chacun des paramtres ainsi quune estimation de mixture de gaussienne sy rapprochant. Pour analyser et calculer nos mixtures de gaussiennes, nous utilisons loutil stprtool. Nous estimons les noyaux de chacun de nos chantillons pour voir comment est repartie linformation dans lensemble des paramtres.

population(mlc) 1000 4

population(mlc) 400

householdsize(em) 4

householdsize(em)

500

200

0.5 racepctblack(em)

0.5 racepctblack(em)

0.5 racePctWhite(em)

0.5 racePctWhite(em)

1000

15 10

400

6 4

500 5 0 0

200 2 0 0

0.5 racePctAsian(em)

0.5 racePctAsian(em)

0.5 racePctHisp(em)

0.5 racePctHisp(em)

1000

10

1000

15 10

500

500 5

0.5 agePct12t21(em)

0.5 agePct12t21(em)

0.5 agePct12t29(em)

0.5 agePct12t29(em)

400

6 4

400

6 4

200 2 0 0

200 2 0 0

0.5 agePct16t24(em)

0.5 agePct16t24(em)

0.5 agePct65up(mlc)

0.5 agePct65up(mlc)

600 400 200 0

6 4 2 0

300 200 100 0

3 2 1 0

0.5

0.5

0.5

0.5

Cette premire page nous prsente des donnes relatives aux races et ges des individus. Ce que nous remarquons ; cest la forte reprsentation de la population de race white par rapport aux races black , asian et hispanique . Les ges sont assez reprsentatives car peu ce distingue. La population de plus de 65 ans est large dans sa reprsentation.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

22

Projet 10 : Crimes and Communities Data Set Septembre 2012

numbUrban(em) 1000 15 10 500 5 0 0

numbUrban(em) 1000

pctUrban(mlc) 1

pctUrban(mlc)

500

0.5

0.5 medIncome(em)

0.5 medIncome(em)

0.5 pctWWage(em)

0.5 pctWWage(em)

300 200

300 200

3 2 1 0

2 100 0 0 100 0

0.5 pctWFarmSelf(em)

0.5 pctWFarmSelf(em)

0.5 pctWInvInc(em)

0.5 pctWInvInc(em)

400

300 200

3 2 1 0

200

2 100

0.5 pctWSocSec(em)

0.5 pctWSocSec(em)

0.5 pctWPubAsst(em)

0.5 pctWPubAsst(em)

300 200 100 0

3 2 1 0

300 200 100 0

3 2 1 0

0.5 pctWRetire(em)

0.5 pctWRetire(em)

0.5 medFamInc(em)

0.5 medFamInc(em)

300 200 100 0

3 2 1 0

300 200

2 100 0 0

0.5

0.5

0.5

0.5

perCapInc(em) 400 4

perCapInc(em) 400

whitePerCap(em) 4

whitePerCap(em)

200

200

0.5 blackPerCap(em)

0.5 blackPerCap(em)

0.5 indianPerCap(em)

0.5 indianPerCap(em)

400

6 4

600 400

200 2 0 0 200 0

0.5 AsianPerCap(em)

0.5 AsianPerCap(em)

0.5 HispPerCap(em)

0.5 HispPerCap(em)

300 200 100 0

3 2 1 0

300 200

2 100 0 0

0.5 NumUnderPov(em)

0.5 NumUnderPov(em)

0.5 PctPopUnderPov(em)

0.5 PctPopUnderPov(em)

1000

20

300 200

500

10 100

0.5 PctLess9thGrade(em)

0.5 PctLess9thGrade(em)

0.5 PctNotHSGrad(em)

0.5 PctNotHSGrad(em)

300 200 100 0

3 2

200

100 1 0 0

0.5

0.5

0.5

0.5

Cette deuxime page montre des informations sur lurbanisme, le social et les races.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

23

Projet 10 : Crimes and Communities Data Set Septembre 2012

PctBSorMore(em) 300 200 2 100 0 0 4

PctBSorMore(em) 300 200 100 0

PctUnemployed(em) 3 2 1 0

PctUnemployed(em)

0.5 PctEmploy(em)

0.5 PctEmploy(em)

0.5 PctEmplManu(em)

0.5 PctEmplManu(em)

300 200 100 0

3 2 1 0

300 200 100 0

3 2 1 0

0.5 PctEmplProfServ(em)

0.5 PctEmplProfServ(em)

0.5 PctOccupManu(em)

0.5 PctOccupManu(em)

300 200 100 0

3 2 1 0

300 200 100 0

3 2 1 0

0.5 PctOccupMgmtProf(em)

0.5 PctOccupMgmtProf(em)

0.5 MalePctDivorce(em)

0.5 MalePctDivorce(em)

300 200 100 0

3 2

200

100 1 0 0

0.5 MalePctNevMarr(em)

0.5 MalePctNevMarr(em)

0.5 FemalePctDiv(em)

0.5 FemalePctDiv(em)

300 200

200

3 2

2 100 0 0

100 1 0 0

0.5

0.5

0.5

0.5

TotalPctDiv(em) 200 2

TotalPctDiv(em) 400

PersPerFam(em) 4

PersPerFam(em)

100

200

0.5 PctFam2Par(em)

0.5 PctFam2Par(em)

0.5 PctKids2Par(em)

0.5 PctKids2Par(em)

200

3 2

200

100 1 0 0

100

0.5 PctYoungKids2Par(em)

0.5 PctYoungKids2Par(em)

0.5 PctTeen2Par(em)

0.5 PctTeen2Par(em)

200

3 2

300 200 100 0

3 2 1 0

100 1 0 0

0.5 PctWorkMomYoungKids(em)

0.5 PctWorkMomYoungKids(em)

0.5 PctWorkMom(em)

0.5 PctWorkMom(em)

300 200 100 0

3 2 1 0

300 200 100 0

3 2 1 0

0.5 NumIlleg(em)

0.5 NumIlleg(em)

0.5 PctIlleg(em)

0.5 PctIlleg(em)

1000

40

400

500

20

200

0.5

0.5

0.5

0.5

Cette troisime page prsente les donnes sur le chaumage, le logement et la famille.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

24

Projet 10 : Crimes and Communities Data Set Septembre 2012

NumImmig(em) 1000 40

NumImmig(em) 200

PctImmigRecent(em) 3 2

PctImmigRecent(em)

500

20

100 1

0.5 PctImmigRec5(em)

0.5 PctImmigRec5(em)

0.5 PctImmigRec8(em)

0.5 PctImmigRec8(em)

200

3 2

200

3 2

100 1 0 0

100 1 0 0

0.5 PctImmigRec10(em)

0.5 PctImmigRec10(em)

0.5 PctRecentImmig(em)

0.5 PctRecentImmig(em)

200

600 400

10

100

1 200

0.5 PctRecImmig5(mlc)

0.5 PctRecImmig5(mlc)

0.5 PctRecImmig8(em)

0.5 PctRecImmig8(em)

600 400

600 400

10

1 200 0 0 200 0

0.5 PctRecImmig10(em)

0.5 PctRecImmig10(em)

0.5 PctSpeakEnglOnly(em)

0.5 PctSpeakEnglOnly(em)

600 400

10

400

6 4

5 200 0 0

200 2 0 0

0.5

0.5

0.5

0.5

PctNotSpeakEnglWell(em) 1000 10

PctNotSpeakEnglWell(em) 600 400

PctLargHouseFam(em) 6 4 2 0 0.5 PersPerOccupHous(em) 400 4 1 0 0

PctLargHouseFam(em)

500

5 200

0.5 PctLargHouseOccup(em)

0.5 PctLargHouseOccup(em)

0.5 PersPerOccupHous(em)

600 400 200 0 0 0.5 PersPerOwnOccHous(em) 300 200 1

6 4

200 2 0 0 0.5 PersPerOwnOccHous(em) 4 300 200 2 100 0 0 0.5 PctPersOwnOccup(em) 300 200 100 0 0 0.5 PctHousLess3BR(em) 300 200 2 100 0 0 0.5 1 0 0 0.5 1 200 0 0 0.5 1 4 1 3 2 1 0 0 0.5 PctHousLess3BR(em) 600 400 1 1 0 0 0.5 PctPersOwnOccup(em) 600 400 200 0 0 0.5 MedNumBR(mlc) 1 1 100 0 0 0.5 PctPersDenseHous(em) 1 1 0 0 0.5 PersPerRentOccHous(em) 1

0.5 PersPerRentOccHous(em)

3 2 1 0 0 0.5 PctPersDenseHous(em) 6 4 2 0 0 0.5 MedNumBR(mlc) 2 1 1

0.5

Cette page prsente les informations sur limmigration et le logement.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

25

Projet 10 : Crimes and Communities Data Set Septembre 2012

HousVacant(em) 1000 15 10 500 5 0 0 0.5 PctHousOwnOcc(em) 300 200 100 0 0 0.5 PctVacMore6Mos(em) 300 200 100 0 0 0.5 PctHousNoPhone(em) 400 4 1 3 2 1 3 2 1 0 0 1 0 0

HousVacant(em) 300 200

PctHousOccup(em) 4

PctHousOccup(em)

2 100 0.5 PctHousOwnOcc(em) 600 400 200 0.5 PctVacMore6Mos(em) 200 1 0 0 0.5 MedYrHousBuilt(mlc) 2 1 1 0 0 0.5 PctVacantBoarded(em) 6 4 2 0 0 0.5 MedYrHousBuilt(mlc) 1 1 0 0 0.5 PctVacantBoarded(em) 1

100 1 0 0 0.5 PctHousNoPhone(em) 300 200 200 2 100 0 0 0.5 OwnOccLowQuart(em) 400 6 4 200 2 0 0 0.5 1 0 0 0.5 1 0 0 0.5 1 200 1 0 0 0.5 OwnOccLowQuart(em) 400 1 0 0 0.5 OwnOccMedVal(em) 1 1 0 0 0.5 PctWOFullPlumb(em) 1

0.5 PctWOFullPlumb(em)

0.5 OwnOccMedVal(em)

6 4 2 0 0 0.5 1

OwnOccHiQuart(em) 400 6 4 200 2 0 0 0.5 RentMedian(em) 300 200 100 0 0 0.5 MedRent(em) 300 200 100 0 0 0.5 MedOwnCostPctInc(em) 300 200 100 0 0 0.5 NumInShelters(mlc) 1000 4 1 3 2 1 0 0 1 3 2 1 0 0 1 3 2 1 0 0 1 0 0

OwnOccHiQuart(em) 200

RentLowQ(em) 3 2 100 1

RentLowQ(em)

0.5 RentMedian(em)

0.5 RentHighQ(em)

0.5 RentHighQ(em)

300 200 100 0.5 MedRent(em) 300 200 1 0 0 0.5 MedRentPctHousInc(em) 1

3 2 1 0 0 0.5 1

10

12 MedRentPctHousInc(em) x 10

5 100 0.5 MedOwnCostPctInc(em) 1 0 0 0.5 1 0 0 0.5 1

MedOwnCostPctIncNoMtg(em) 300 200 100

MedOwnCostPctIncNoMtg(em) 3 2 1

0.5 NumInShelters(mlc)

0.5 NumStreet(mlc)

0.5 NumStreet(mlc)

1000

500

500

0.5

0.5

0.5

0.5

Cette prsente les informations sur le logement et lurbanisme.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

26

Projet 10 : Crimes and Communities Data Set Septembre 2012

PctForeignBorn(em) 600 400 200 0 6 4 2 0

PctForeignBorn(em) 300 200 100 0

PctBornSameState(em) 3 2 1 0

PctBornSameState(em)

0.5 PctSameHouse85(em)

0.5 PctSameHouse85(em)

0.5 PctSameCity85(em)

0.5 PctSameCity85(em)

300 200 100 0

3 2 1 0

300 200 100 0

3 2 1 0

0.5 PctSameState85(em)

0.5 PctSameState85(em)

0.5 LandArea(em)

0.5 LandArea(em)

300 200

1000

15 10

2 100 0 0

500 5 0 0

0.5 PopDens(em)

0.5 PopDens(em)

0.5 PctUsePubTrans(em)

0.5 PctUsePubTrans(em)

400

1000

10

200

500

0.5

0.5

0.5 ViolentCrimesPerPop(em)

0.5 ViolentCrimesPerPop(em)

LemasPctOfficDrugUn(mlc) 1000 2

LemasPctOfficDrugUn(mlc) 400

500

200

0.5

0.5

0.5

0.5

En reprenant les donnes prcdemment cites : Les distributions des valeurs PctPersOwnOccup , PctHousOwnOcc , agePct12t21 ,agePct16t24 et agePct12t29 sont trs similaire dans leur forme centre. On remarquera que la variable racePctAsian est centre sur la gauche ce qui reprsente une minoration sur la reprsentativit en histogramme alors que la variable PctSpeakEnglOnly est centr vers la droite ce qui reprsente une majoration des individus. On remarquera que les racepctblack ,PctIlleg et PctVacantBoarded reprsente une minoration dans notre tude car fortement centr sur la gauche de nos histogrammes.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

27

Projet 10 : Crimes and Communities Data Set Septembre 2012

Prdiction du nombre des crimes violents pour 100k habitants


Introduction
Notre exercice est dessayer dextraire des donnes existantes, un modle suffisamment solide et prcis pour pouvoir identifier la variable recherche qui dtermine le nombre de crimes violents pour 100k habitants. La typologie des crimes violents est assez vaste, car la dfinition de ce terme diffre selon les pays, les county et les communauts. On y compte tout de mme les homicides, les braquages, les crimes avec ou sans armes, les viols, les kidnappings et la torture. Des faits qui en toute vraisemblance ont des causes et des rsultats diffrents. Ainsi un lieu o le taux de crime est important, naura pas forcement un fort taux de braquage. Plusieurs approches sont testes par rgression, par machine vecteurs de support et par rseau de neurones. Les donnes sont dcoupes comme suit : Les 1094 premires donnes pour lapprentissage. 401 valeurs pour la validation du modle. Et 101 valeurs pour tester le modle. Les modles et leurs prcisions sur le jeu de donnes de tests seront compars aprs leurs prsentations. Les informations extraites de nos tudes prcdentes montrent une forte difficult sparer ou grouper les donnes. La premire analyse se fera en prsence de lensemble des variables. Ceci nous donnera une tude approfondie avec un trs bon point de comparaison sur les mthodes et stratgies ultrieures utilises. Une deuxime analyse sera effectue en classifiant les donnes. En dcoupant les lots, on espre amliorer la prcision de lestimation. Chaque lot possdant normalement un comportement asymptotique diffrent. Une troisime analyse portera sur llimination des variable peu efficaces extraites de nos prcdentes tudes. Et enfin la dernire analyse sera un mix entre ces trois dernires stratgies.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

28

Projet 10 : Crimes and Communities Data Set Septembre 2012

Approche avec donnes compltes


Approche par rgression Rgression linaire Pour estimer les paramtres, jutilise la mthode regress de matlab/octave. Voici le rsultat obtenu en comparant le jeu de donnes de test et de prdiction.
Linear Regression 1.2 Simulated Values Real Values 1

Violent Crimes Per 100K Population

0.8

0.6

0.4

0.2

-0.2

10

20

30

40

50 Community

60

70

80

90

100

Les 99 valeurs de la rgression sont : 0.1205 -0.3385 0.0608 -0.0264 -0.2270 -0.1277 -0.1606 -0.0015 -0.1464 0.2980 0.2230 -0.0406 -0.2407 -0.2082 0.2030 0.0552 Qualit du rsultat : -0.0349 -0.0365 0.0113 0.0438 0.0496 -0.1670 -0.1638 0.2514 -0.0542 0.0028 0.0836 0.0769 0.3493 0.3719 -0.2185 0.0216 -0.0836 -0.0316 0.0750 -0.2358 -0.0587 0.0414 0.0322 -0.0792 -0.1426 0.1530 -0.1260 0.1470 -0.5543 0.5582 -0.0536 -0.1228 -0.5747 0.2394 0.1854 0.4564 0.0560 -0.1005 -0.0174 0.0764 -0.0602 -0.5692 -0.1476 -0.0501 0.3854 0.0655 0.0067 -0.0985 0.1403 0.0661 0.0252 -0.0341 0.1668 0.0625 -0.0917 0.0052 RMSE=0.13499 (RMSE : la racine de lerreur quadratique moyenne). 0.0938 -0.0662 -0.0566 0.1233 0.0108 0.6942 0.1572

Le rsultat est de qualit acceptable au vu de la complexit des donnes.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

29

Projet 10 : Crimes and Communities Data Set Septembre 2012


Rgression PLS matlab On utilise la rgression PLS dont lalgorithme essaye de maximiser la variance des prdicteurs (Xi)=X et de maximiser la corrlation entre X et la variable expliquer Y. Un test de rgression PLS avec la mthode plsregress de matlab.
PLS Regression 1.2 Simulated Values Real Values 1

0.8

Violent Crimes Per 100K Population

0.6

0.4

0.2

-0.2

10

20

30

40

50 Community

60

70

80

90

100

Qualit du rsultat : RMSE=0.13347 On obtient un modle plus prcis que le modle de rgression linaire.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

30

Projet 10 : Crimes and Communities Data Set Septembre 2012


Rgression PLS toolbox glm-ie Un autre test a t effectu avec loutil glm-ie qui est spcialis pour lestimation et linfrence des modles linaires gnraliss. La mthode pls CG (Conjugat gradiant) a t utilise :
CG estimation 1.2 Estimation Values Real Values 1

0.8

0.6

0.4

0.2

-0.2

10

20

30

40

50

60

70

80

90

100

Qualit du rsultat : RMSE=0.12677 Le rsultat est de meilleure qualit que la mthode par rgression PLS prsente prcdemment.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

31

Projet 10 : Crimes and Communities Data Set Septembre 2012


Machine vecteurs de support L tude a t effectu avec loutil SVM KM. Lutilisation de la mthode polynomiale a t plus performante que le modle gaussien.
SVM Polynomial 1.2 Simulated Values Real Values 1

Violent Crimes Per 100K Population

0.8

0.6

0.4

0.2

-0.2

10

20

30

40

50 Community

60

70

80

90

100

Qualit du rsultat : RMSE=0.13 Lapproche par machine vecteurs support apporte plus de prcision que le modle par rgression simple.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

32

Projet 10 : Crimes and Communities Data Set Septembre 2012


Approche par rseau de neurones et perceptron multi couche. La simulation a t faite grce loutil netlab. 6 neurones caches et 42 boucles dapprentissage ont t utiliss ajout une fonction dactivation linaire.
Neural Network for 6 nodes 1 Simulated Values Real Values 0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

10

20

30

40

50

60

70

80

90

100

Qualit du rsultat : RMSE=0.11787 Cest le meilleur modle reprsent dans cette tude. De nombreuses tentatives on t entrepris avant darriver ce rsultat. Le comportement graphique est assez diffrent des mthodes de rgression. Parfois trs prcis, des endroits o une rgression ne lest pas, parfois beaucoup moins prcis. Mais sur notre jeu de test, le rsultat est globalement meilleur.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

33

Projet 10 : Crimes and Communities Data Set Septembre 2012


Estimation du surapprentissage Dans le cadre de cette tude, il fallait savoir quand arrter notre simulation. Voici le graphique reprsentant les erreurs de validation et dapprentissage :

Surapprentissage
0,24 0,22 RMSE (Erreur) 0,2 0,18 0,16 0,14 0,12 0,1 1 10 19 28 37 46 55 64 73 82 91 100 109 118 127 136 145
Erreur de validation
Erreur d'apprentissage

On saperoit quaprs 40 boucles, il nest plus ncessaire de continuer lapprentissage car la courbe des erreurs de validation de descend plus et commence remonter doucement alors que lerreur dapprentissage ne cesse de diminuer.

Comparaison du nombre de neurones


0,19 0,18 0,17 0,16 Axis Title 0,15 0,14 0,13 0,12 0,11 0,1 1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 100 neurones 10 neurones 6 neurones

On saperoit que laugmentation du nombre de neurones napporte pas forcement une meilleur estimation si ce nest une minimisation de la variance de lerreur constate.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

34

Projet 10 : Crimes and Communities Data Set Septembre 2012


Approche par vraisemblance Dans ce contexte, on va estimer une mixture gaussienne sapprochant de notre problmatique. Ce modle non-paramtrique permet de donner une forme probabiliste simplifie. Pour estimer, ces mixtures gaussiennes, on utilise la librairie stprtool et la fonction mlcgmm pour estimer une mixture de gaussienne. Puis on utilise la dfinition de la probabilit conditionnelle :

On en extrait un intervalle de confiance bas sur lestimation de la variance.


Gaussian mixture 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 Simulated Values Real Values

10

20

30

40

50

60

70

80

90

100

Qualit du rsultat : RMSE= 0.13475 Ce que nous remarquons, cest que lestimation non paramtrique partir dune mixture de gaussienne permet dobtenir une bonne estimation. Lintervalle de confiance couvre la courbe relle.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

35

Projet 10 : Crimes and Communities Data Set Septembre 2012

Approche avec donnes classifies


On utilise la mthode des k-moyennes et des machines vecteurs de support pour dterminer les classes. On spare en deux tapes notre classification On fait une premire passe avec la mthode des k-moyenne sur les donnes dapprentissage. Ceci nous donne une estimation des classes. On obtient une classification que lon donne en apprentissage un SVM. Puis nous utilisons, la mthode SVM pour extraire les classes des donnes de test. Ainsi, on garde une indpendance entre les donnes de test et dapprentissage. Puis nous refaisons quasiment la mme tude que prcdemment sur plusieurs choix de classes (2,3,4) mais en rduisant le scope des modles lessentiel (Rgression, SVM et perceptron) Voici une topologie rapide des rsultats de la meilleure simulation :
SVM Polynomial 1.2 Simulated Values Real Values

0.8

0.6

0.4

0.2

-0.2

10

20

30

40

50

60

70

80

90

100

Multiplier le nombre des classes, cest aussi multiplier le nombre des modles. Si chacun de ces modles encadre une bonne estimation, on doit obtenir un meilleur rsultat. Nombres dindividus par classe : Classe 1 Classe 2 Classe 3 Classe 4 110 441 351 192 381 596 117 626 468

4 classes 3 classes 2 classes

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

36

Projet 10 : Crimes and Communities Data Set Septembre 2012


Tableau comparatif en fonction du nombre de classes : Liste des estimateurs : MSE : lerreur quadratique moyenne RMSE : la racine de lerreur quadratique moyenne MAE : lerreur absolue moyenne ARV : lerreur quadratique moyenne sur la variance des donnes

Nb classes

Rgression linaire

RMSE MAE MSE ARV 2 0.13763 0.099092 0.018942 0.51857 3 4 0.13501 0.096144 0.018227 0.21412 0.13089 0.045847 0.13245 0.094019 0.017542 0.13047 0.091678 0.017021 0.14783 0.10862 0.021853 0.12929 0.092427 0.016715 0.12763 0.14822 0.13692 0.17428 0.18433 0.09117 0.016288 0.1032 0.021969 0.10066 0.018747 0.13354 0.030374 0.13045 0.033976 0.49899 1.2551 0.48025 0.466 0.59828 0.4576 0.44593 0.60146 0.51323 0.83156 0.93016

Rgression PLS-Matlab

2 3 4 2 3 4

SVM Polynomial

Rseau de neurones multi couche

2 3 4

Ce que nous voyons immdiatement est la dgradation de la qualit en fonction du nombre des classes construites. Les meilleures estimations profitent dune diminution qualitativement plus importante que les autres mthodes et ne supportent pas plus de 3 classes. Malheureusement lamlioration attendue sur les diffrents modles reste critiquable. Les rseaux de neurones perdent en efficacit.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

37

Projet 10 : Crimes and Communities Data Set Septembre 2012

Approche avec variables supprimes


Lapproche consiste regarder les variables qui ne sont pas compltement utiles dans notre analyse. Les variables mal utilises peuvent avoir un effet nfaste sur la prcision de notre modle. Aprs ltape de slection, nous les supprimons et analysons le rsultat selon le mme choix de modle dcrit prcdemment. Choix des variables Le choix des variables supprimer nest pas simple. Deux approches sont choisies ici, mais bien dautres peuvent tre utilises. Nos analyses prcdentes ont permis danalyser les relations entre les variables. Ainsi, lanalyse des corrlation entre la variable estimer et les variables explicatives nous a permis de voir les variables trs corrles , anti corrles ou peu corrles. Cest ces dernires quil faut attacher plus dimportance. Leurs apports tant faible, leurs suppressions ne devraient pas avoir dimpact important. Cela peut peu tre donner une amlioration du modle. La deuxime approche est en analysant la topologie des variables obtenues selon la mthode des cartes auto organisatrices de Kohonen. Les variables regroupes dans une partie de la carte tant loppos de nos variables dtude sont un bon choix. Elles mixent deux concepts : leurs loignements et leurs regroupements. Cette approche est plus subtile que le choix prcdent. Voici la liste des variables choisies : Les corrlations les plus faibles (abs(corrlation)<0,1) : householdsize, racePctAsian, agePct12t21, agePct16t24, agePct65up, pctUrban, pctWRetire, indianPerCap, PctEmplManu, PctEmplProfServ, PctWorkMomYoungKids, PersPerOccupHous, PctVacMore6Mos, MedOwnCostPctInc, MedOwnCostPctIncNoMtg, PctBornSameState, PctSameCity85, PctSameState85 Extraction de la carte topologique de Kohonen des lments les plus loigns de notre variable estimer : racePctWhite, pctUrban, pctWWage, pctWInvInc, pctWRetire, PctEmploy, PctFam2Par, PctKids2Par, PctYoungKids2Par, PctTeen2Par, PctWorkMom, PctSpeakEnglOnly, PersPerOccupHous, PersPerOwnOccHous, PctHousOccup, PctHousOwnOcc,MedYrHousBuilt, PctBornSameState, PctSameHouse85, PctSameCity85, PctSameState85

On note beaucoup de similarit entres ces deux listes. Les variables apparentes expriment lurbanisation, les retraits, lemploi, lenvironnement familiale et social.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

38

Projet 10 : Crimes and Communities Data Set Septembre 2012


Le rsultat obtenu Voici graphiquement le meilleur rsultat obtenu.

SVM Polynomial 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 Simulated Values Real Values

10

20

30

40

50

60

70

80

90

100

Ce rsultat t obtenu avec la deuxime liste de variables supprimes. Le rsultat nest pas de plus basse qualit que les mthodes prcdemment utilises.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

39

Projet 10 : Crimes and Communities Data Set Septembre 2012

Tableau des rsultats Rgression linaire Rgression PLS-Matlab SVM Polynomial Rseau de neurones multi couche Liste 1 2 1 2 1 2 1 2 RMSE 0,13825 0,134 0,13671 0,13291 0,13048 0,12925 0,13788 0,13351 MAE 0,10049 0,097173 0,098719 0,09554 0,091957 0,089951 0,09764 0,095503 MSE 0,019112 0,017957 0,018691 0,017665 0,017025 0,016705 0,019011 0,017824 ARV 0,52324 0,49161 0,5117 0,48362 0,46611 0,45733 0,52048 0,48797

Cette stratgie apparat payante. Avec la liste issue de la carte topologique de kohonen, tous nos rsultats sont lgrement meilleurs quun jeu de donnes complet. Le rsultat reste en dessous de la sparation des donnes en classes.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

40

Projet 10 : Crimes and Communities Data Set Septembre 2012

Approche par suppression de communaut


La difficult dans une analyse de donnes est la recherche de donnes extrmes. Des donnes qui sloignent du modle admissible. Souvent en minorit, ces donnes perturbent, par leurs extrma et leurs diffrences, un modle plus reprsentatif. Le choix de la mthode dlimination des communauts est bas sur la distance de cook sur des donnes multi varies et sur le fait que statistiquement et qu partir dune certaine distance loigne, on admet des individus non reprsentatif. Cette mthode permet de supprimer 126 individus. Meilleur rsultat graphique
Linear Regression 1.2 Simulated Values Real Values

0.8

0.6

0.4

0.2

-0.2

10

20

30

40

50

60

70

80

90

100

Tableau de rsultat RMSE MAE MSE ARV Rgression linaire 0.12747 0.092553 0.016248 0.44483 Rgression PLS-Matlab 0.12764 0.091114 0.016292 0.44602 SVM Polynomial 0.12797 0.090735 0,017175 0,47019 Rseau de neurones 0.13552 0.094944 0.018367 0.50283 Cette solution apparait efficace compare aux rsultats obtenus avec lensemble du jeu de donnes. La premire intuition a t en accord avec ce rsultat.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

41

Projet 10 : Crimes and Communities Data Set Septembre 2012

Approche mixte
Intuitivement, on remarque que si lon mixe un certains nombre de stratgie de classification de donnes, de suppression dinformation, on doit obtenir un bien meilleur rsultat. On mixe les meilleurs rsultats obtenus avec nos trois prcdentes stratgies. On choisi la recherche de deux ou trois classes en liminant des variables dtermines et des individus slectionns. Meilleur rsultat graphique

SVM Polynomial 1.2 Simulated Values Real Values

0.8

0.6

0.4

0.2

-0.2

10

20

30

40

50

60

70

80

90

100

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

42

Projet 10 : Crimes and Communities Data Set Septembre 2012

Tableau des rsultats Nombre RMSE MAE MSE ARV de classes 2 0.12437 0.087327 0.015467 0.42344 2 0.12438 2 0.12175 0.015472 0.42357 0.08589 0.014822 0.40579 0.08572

Rgression linaire Rgression PLS-Matlab SVM Polynomial Rseau de neurones multi couche

2 0,13283 0,097711 0,017645 0,48306

Les rsultats sont trs intressants. Nous obtenons un rsultat bien meilleur en choisissant, dans le jeu de donnes, les lments les plus pertinents. Toutes les analyses en rgression gagnent en prcision. Les machines vecteur de support obtiennent lun des meilleurs rsultats de notre tude.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

43

Projet 10 : Crimes and Communities Data Set Septembre 2012

Comparaison des rsultats des diffrentes mthodes utilises.


Les mthodes utilises pour vrifier et comparer nos modles sont :MSE : lerreur quadratique moyenne, RMSE : la racine de lerreur quadratique moyenne, MAE : lerreur absolue moyenne, ARV : lerreur quadratique moyenne sur la variance des donnes Les meilleures valeurs obtenues sont reprsentes sur ce tableau :
Mthode utilise Vraisemblance ,mixture de gaussienne
Donnes compltes Donnes spares en 2 classes Donnes spares en 3 classes Variables supprimes Communauts supprimes Mixte avec 2 classes

RMSE MAE MSE 0.1241 0.087554 0.015401


0.13475 0.13686 0.13521 0.13406 0.12757 0.1241 0,13499 0.13763 0.13501 0,134 0.12747 0.12437 0.098797 0.097323 0.094228 0.097274 0.092739 0.087554 0.099144 0.099092 0.096144 0,097173 0.092553 0.087327 0.09774 0.094019 0.091678 0,09554 0.091114 0.08572 0.093526 0.089755 0.087285 0.094293 0.088444 0.085773 0.092377 0.088887 0.092129 0,089951 0.090735 0.08589 0.086258 0.10066 0.094034 0,095503 0.094944 0,097711 0.018157 0.01873 0.018282 0.017972 0.016275 0.015401 0.018222 0.018942 0.018227 0,017957 0.016248 0.015467 0.017815 0.017542 0.017021 0,017665 0.016292 0.015472

ARV 0.42164
0.49709 0.51276 0.50052 0.49202 0.44557 0.42164

Rgression linaire
Donnes compltes Donnes spares en 2 classes Donnes spares en 3 classes Variables supprimes Communauts supprimes Mixte avec 2 classes

0.12437 0.087327 0.015467

0.42344
0.49888 0.51857 0.49899 0,49161 0.44483 0.42344

Rgression PLS-Matlab
Donnes compltes Donnes spares en 2 classes Donnes spares en 3 classes Variables supprimes Communauts supprimes Mixte avec 2 classes

0.12438
0,13347 0.13245 0.13047 0,13291 0.12764 0.12438 0.12743 0.12396 0.12021 0.12829 0.12429 0.1207

0.08572 0.015472

0.42357
0.48772 0.48025 0.466 0,48362 0.44602 0.42357

Rgression PLS-CG
Donnes compltes Donnes spares en 2 classes Donnes spares en 3 classes Variables supprimes Communauts supprimes Mixte avec 2 classes

0.1207 0.085773

0.01457
0.016238 0.015366 0.014451 0.016458 0.015448 0.01457 0.01686 0.01667 0.017695 0,016705 0,017175 0.014822 0.013893 0.018747 0.017938 0,017824 0.018367 0,017645

0.39888
0.44455 0.42067 0.39562 0.45057 0.4229 0.39888

SVM Polynomial
Donnes compltes Donnes spares en 2 classes Donnes spares en 3 classes Variables supprimes Communauts supprimes Mixte avec 2 classes

0.12175
0.12985 0.12911 0.13302 0,12925 0.12797 0.12175 0,11787 0,13692 0.13393 0,13351 0.13552 0,13283

0.08589 0.014822

0.40579
0.46268 0.45637 0.48444 0,45733 0,47019 0.40579

Rseau de neurones multi couche


Donnes compltes Donnes spares en 2 classes Donnes spares en 3 classes Variables supprimes Communauts supprimes Mixte avec 2 classes

0,11787 0,086258 0,013893

0,40909
0.40909 0.51323 0.4911 0,48797 0.50283 0,48306

Notre approche par rseau de neurones a perdu en efficacit ds que lon a commenc partitionner ou rduire nos donnes.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

44

Projet 10 : Crimes and Communities Data Set Septembre 2012


On observe la prcision de nos 6 modles tudis. Ainsi cest le perceptron multi couche, la rgression PLS-CG et les machines vecteurs de support qui obtiennent la plus grande prcision quand aux rsultats tudis. Une simple rgression partir du jeu complet de donnes, nous donne une prcision RMSE de 0.13499. Notre tude nous a permis de descendre plus bas avec ce mme jeu de donnes et de lutilisation de diffrentes stratgies et mthode de prdiction. Nous avons repousss les limites destimation un petit plus loin.

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

45

Projet 10 : Crimes and Communities Data Set Septembre 2012

Conclusion
Aprs une tude sur la classification des donnes intressantes base sur plusieurs algorithmes connus, les modles de prdiction se sont avrs efficaces, en particulier ceux bass sur le perceptron multicouche et les machines vecteurs de support. Nous avons obtenu avec ces derniers des rsultats trs intressants et prometteurs. Ce fut une tude intressante avec des donnes qui ont rsist de nombreuses tentatives de prdiction. Ltude sur un phnomne rel est toujours passionnante. Le sujet ici est vaste et complexe. Ce qui est plaisant est de rechercher et daffiner ces modles de prdiction et de russir montrer que certains peuvent donner dexcellents rsultats. Je regrette de ne pas avoir eu assez de temps pour utiliser un rseau bayesiens ou estimer un modle paramtrique. Les donnes de cette tude sont spcifiques aux tats unis. Il manque certainement des donnes qui pour nous, sur un autre continent, paraissent plus intressantes. Je pense que des donnes sur certains aspects juridiques comme la peine de mort ou certains aspects conomiques comme le nombre darmes vendues sur la mme priode auraient pu claircir et peu tre affiner notre modle prdictif. Je finirais par afficher en plus grand lun des meilleurs rsultats de mon tude base sur une machine vecteurs de support coupe en trois classes avec des variables et des individus choisis.
SVM Polynomial 1.2 Simulated Values Real Values

0.8

0.6

0.4

0.2

-0.2

10

20

30

40

50

60

70

80

90

100

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

46

Projet 10 : Crimes and Communities Data Set Septembre 2012

Annexe
Outils utiliss
Liste des outils utiliss pour cette analyse :

Netlab : http://www1.aston.ac.uk/eas/research/groups/ncrg/resources/netlab/ SDH Toolbox : http://www.ofai.at/~elias.pampalk/sdh/overview.html SOM Toolbox : http://www.cis.hut.fi/somtoolbox/ Stprtool : http://cmp.felk.cvut.cz/cmp/software/stprtool/ GLM-IE : http://hannes.nickisch.org/code/glm-ie/doc/index.html Moutlier1 : http://www.mathworks.com/matlabcentral/fileexchange/12252

Description des variables


Variable state county community communityname Description US state (by number) - not counted as predictive above, but if considered, should be consided nominal (nominal) numeric code for county - not predictive, and many missing values (numeric) numeric code for community - not predictive and many missing values (numeric) community name - not predictive - for information only (string) fold number for non-random 10 fold cross validation, potentially useful for debugging, paired tests - not predictive (numeric) population for community mean people per household (numeric - decimal) percentage of population that is african american (numeric - decimal) percentage of population that is caucasian (numeric decimal) percentage of population that is of asian heritage (numeric - decimal) percentage of population that is of hispanic heritage (numeric - decimal) percentage of population that is 12-21 in age (numeric decimal) percentage of population that is 12-29 in age (numeric decimal) percentage of population that is 16-24 in age (numeric decimal) percentage of population that is 65 and over in age (numeric - decimal) number of people living in areas classified as urban (numeric - decimal) percentage of people living in areas classified as urban 47

fold population householdsize racepctblack racePctWhite racePctAsian racePctHisp agePct12t21 agePct12t29 agePct16t24 agePct65up numbUrban pctUrban

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

Projet 10 : Crimes and Communities Data Set Septembre 2012


(numeric - decimal) medIncome pctWWage pctWFarmSelf pctWInvInc pctWSocSec pctWPubAsst pctWRetire medFamInc perCapInc whitePerCap blackPerCap indianPerCap AsianPerCap OtherPerCap HispPerCap NumUnderPov PctPopUnderPov PctLess9thGrade PctNotHSGrad PctBSorMore PctUnemployed PctEmploy PctEmplManu PctEmplProfServ PctOccupManu median household income (numeric - decimal) percentage of households with wage or salary income in 1989 (numeric - decimal) percentage of households with farm or self employment income in 1989 (numeric - decimal) percentage of households with investment / rent income in 1989 (numeric - decimal) percentage of households with social security income in 1989 (numeric - decimal) percentage of households with public assistance income in 1989 (numeric - decimal) percentage of households with retirement income in 1989 (numeric - decimal) median family income (differs from household income for non-family households) (numeric - decimal) per capita income (numeric - decimal) per capita income for caucasians (numeric - decimal) per capita income for african americans (numeric decimal) per capita income for native americans (numeric decimal) per capita income for people with asian heritage (numeric - decimal) per capita income for people with 'other' heritage (numeric - decimal) per capita income for people with hispanic heritage (numeric - decimal) number of people under the poverty level (numeric decimal) percentage of people under the poverty level (numeric decimal) percentage of people 25 and over with less than a 9th grade education (numeric - decimal) percentage of people 25 and over that are not high school graduates (numeric - decimal) percentage of people 25 and over with a bachelors degree or higher education (numeric - decimal) percentage of people 16 and over, in the labor force, and unemployed (numeric - decimal) percentage of people 16 and over who are employed (numeric - decimal) percentage of people 16 and over who are employed in manufacturing (numeric - decimal) percentage of people 16 and over who are employed in professional services (numeric - decimal) percentage of people 16 and over who are employed in manufacturing (numeric - decimal) ######## 48

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

Projet 10 : Crimes and Communities Data Set Septembre 2012


percentage of people 16 and over who are employed in management or professional occupations (numeric decimal) percentage of males who are divorced (numeric - decimal) percentage of males who have never married (numeric decimal) percentage of females who are divorced (numeric decimal) percentage of population who are divorced (numeric decimal) mean number of people per family (numeric - decimal) percentage of families (with kids) that are headed by two parents (numeric - decimal) percentage of kids in family housing with two parents (numeric - decimal) percent of kids 4 and under in two parent households (numeric - decimal) percent of kids age 12-17 in two parent households (numeric - decimal) percentage of moms of kids 6 and under in labor force (numeric - decimal) percentage of moms of kids under 18 in labor force (numeric - decimal) number of kids born to never married (numeric - decimal) percentage of kids born to never married (numeric decimal) total number of people known to be foreign born (numeric - decimal) percentage of _immigrants_ who immigated within last 3 years (numeric - decimal) percentage of _immigrants_ who immigated within last 5 years (numeric - decimal) percentage of _immigrants_ who immigated within last 8 years (numeric - decimal) percentage of _immigrants_ who immigated within last 10 years (numeric - decimal) percent of _population_ who have immigrated within the last 3 years (numeric - decimal) percent of _population_ who have immigrated within the last 5 years (numeric - decimal) percent of _population_ who have immigrated within the last 8 years (numeric - decimal) percent of _population_ who have immigrated within the last 10 years (numeric - decimal) percent of people who speak only English (numeric decimal) percent of people who do not speak English well (numeric - decimal) 49

PctOccupMgmtProf MalePctDivorce MalePctNevMarr FemalePctDiv TotalPctDiv PersPerFam PctFam2Par PctKids2Par PctYoungKids2Par PctTeen2Par PctWorkMomYoungKids PctWorkMom NumIlleg PctIlleg NumImmig PctImmigRecent PctImmigRec5 PctImmigRec8 PctImmigRec10 PctRecentImmig PctRecImmig5 PctRecImmig8 PctRecImmig10 PctSpeakEnglOnly PctNotSpeakEnglWell

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

Projet 10 : Crimes and Communities Data Set Septembre 2012


percent of family households that are large (6 or more) (numeric - decimal) percent of all occupied households that are large (6 or PctLargHouseOccup more people) (numeric - decimal) PersPerOccupHous mean persons per household (numeric - decimal) mean persons per owner occupied household (numeric PersPerOwnOccHous decimal) PersPerRentOccHous mean persons per rental household (numeric - decimal) percent of people in owner occupied households (numeric PctPersOwnOccup - decimal) percent of persons in dense housing (more than 1 person PctPersDenseHous per room) (numeric - decimal) percent of housing units with less than 3 bedrooms PctHousLess3BR (numeric - decimal) MedNumBR median number of bedrooms (numeric - decimal) HousVacant number of vacant households (numeric - decimal) PctHousOccup percent of housing occupied (numeric - decimal) percent of households owner occupied (numeric PctHousOwnOcc decimal) percent of vacant housing that is boarded up (numeric PctVacantBoarded decimal) percent of vacant housing that has been vacant more PctVacMore6Mos than 6 months (numeric - decimal) MedYrHousBuilt median year housing units built (numeric - decimal) percent of occupied housing units without phone (in PctHousNoPhone 1990, this was rare!) (numeric - decimal) percent of housing without complete plumbing facilities PctWOFullPlumb (numeric - decimal) owner occupied housing - lower quartile value (numeric OwnOccLowQuart decimal) owner occupied housing - median value (numeric OwnOccMedVal decimal) owner occupied housing - upper quartile value (numeric OwnOccHiQuart decimal) RentLowQ rental housing - lower quartile rent (numeric - decimal) rental housing - median rent (Census variable H32B from RentMedian file STF1A) (numeric - decimal) RentHighQ rental housing - upper quartile rent (numeric - decimal) median gross rent (Census variable H43A from file STF3A MedRent includes utilities) (numeric - decimal) median gross rent as a percentage of household income MedRentPctHousInc (numeric - decimal) median owners cost as a percentage of household income MedOwnCostPctInc - for owners with a mortgage (numeric - decimal) median owners cost as a percentage of household income MedOwnCostPctIncNoMtg - for owners without a mortgage (numeric - decimal) number of people in homeless shelters (numeric NumInShelters decimal) PctLargHouseFam
CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

50

Projet 10 : Crimes and Communities Data Set Septembre 2012


number of homeless people counted in the street (numeric - decimal) percent of people foreign born (numeric - decimal) percent of people born in the same state as currently living (numeric - decimal) percent of people living in the same house as in 1985 (5 years before) (numeric - decimal) percent of people living in the same city as in 1985 (5 years before) (numeric - decimal) percent of people living in the same state as in 1985 (5 years before) (numeric - decimal) number of sworn full time police officers (numeric decimal) sworn full time police officers per 100K population (numeric - decimal) number of sworn full time police officers in field operations (on the street as opposed to administrative etc) (numeric - decimal) sworn full time police officers in field operations (on the street as opposed to administrative etc) per 100K population (numeric - decimal) total requests for police (numeric - decimal) total requests for police per 100K popuation (numeric decimal) total requests for police per police officer (numeric decimal) police officers per 100K population (numeric - decimal) a measure of the racial match between the community and the police force. High values indicate proportions in community and police force are similar (numeric - decimal) percent of police that are caucasian (numeric - decimal) percent of police that are african american (numeric decimal) percent of police that are hispanic (numeric - decimal) percent of police that are asian (numeric - decimal) percent of police that are minority of any kind (numeric decimal) number of officers assigned to special drug units (numeric - decimal) number of different kinds of drugs seized (numeric decimal) police average overtime worked (numeric - decimal) land area in square miles (numeric - decimal) population density in persons per square mile (numeric decimal) percent of people using public transit for commuting (numeric - decimal) number of police cars (numeric - decimal) 51

NumStreet PctForeignBorn PctBornSameState PctSameHouse85 PctSameCity85 PctSameState85 LemasSwornFT LemasSwFTPerPop

LemasSwFTFieldOps

LemasSwFTFieldPerPop LemasTotalReq LemasTotReqPerPop PolicReqPerOffic PolicPerPop

RacialMatchCommPol PctPolicWhite PctPolicBlack PctPolicHisp PctPolicAsian PctPolicMinor OfficAssgnDrugUnits NumKindsDrugsSeiz PolicAveOTWorked LandArea PopDens PctUsePubTrans PolicCars

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

Projet 10 : Crimes and Communities Data Set Septembre 2012


PolicOperBudg LemasPctPolicOnPatr LemasGangUnitDeploy LemasPctOfficDrugUn PolicBudgPerPop ViolentCrimesPerPop police operating budget (numeric - decimal) percent of sworn full time police officers on patrol (numeric - decimal) gang unit deployed (numeric - decimal - but really ordinal - 0 means NO, 1 means YES, 0.5 means Part Time) percent of officers assigned to drug units (numeric decimal) police operating budget per population (numeric decimal) total number of violent crimes per 100K popuation (numeric - decimal) GOAL attribute (to be predicted)

Statistiques lmentaires
Voici la liste statistique des 99 variables plus la valeur estimer:
Nom de la variable population householdsize racepctblack racePctWhite racePctAsian racePctHisp agePct12t21 agePct12t29 agePct16t24 agePct65up numbUrban pctUrban medIncome pctWWage pctWFarmSelf pctWInvInc pctWSocSec pctWPubAsst pctWRetire medFamInc perCapInc whitePerCap blackPerCap indianPerCap AsianPerCap HispPerCap NumUnderPov Moyenne Mdiane Variance 0.0576 0.4634 0.1796 0.7537 0.1537 0.1440 0.4242 0.4939 0.3363 0.4232 0.0641 0.6963 0.3611 0.5582 0.2916 0.4957 0.4711 0.3178 0.4792 0.3757 0.3503 0.3680 0.2911 0.2035 0.3224 0.3863 0.0555 0.0200 0.4400 0.0600 0.8500 0.0700 0.0400 0.4000 0.4800 0.2900 0.4200 0.0300 1.0000 0.3200 0.5600 0.2300 0.4800 0.4750 0.2600 0.4700 0.3300 0.3000 0.3200 0.2500 0.1700 0.2800 0.3450 0.0200 0.0161 0.0268 0.0642 0.0596 0.0436 0.0541 0.0241 0.0206 0.0277 0.0321 0.0164 0.1979 0.0438 0.0335 0.0417 0.0317 0.0301 0.0493 0.0281 0.0393 0.0365 0.0349 0.0294 0.0272 0.0382 0.0335 0.0164 Dviation Standard 0.1269 0.1637 0.2534 0.2440 0.2089 0.2325 0.1552 0.1436 0.1665 0.1792 0.1283 0.4448 0.2094 0.1829 0.2041 0.1781 0.1736 0.2221 0.1676 0.1983 0.1911 0.1868 0.1716 0.1648 0.1954 0.1831 0.1279 Min 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Max Mode 1 0.0100 1 0.4100 1 0.0100 1 0.9800 1 0.0200 1 0.0100 1 0.3800 1 0.4900 1 0.2900 1 0.4700 1 0 1 1.0000 1 0.2300 1 0.5300 1 0.1600 1 0.4100 1 0.5600 1 0.1000 1 0.4400 1 0.2500 1 0.2300 1 0.3000 1 0.1800 1 0 1 0.1800 1 0.3000 1 0.0100

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

52

Projet 10 : Crimes and Communities Data Set Septembre 2012


PctPopUnderPov PctLess9thGrade PctNotHSGrad PctBSorMore PctUnemployed PctEmploy PctEmplManu PctEmplProfServ PctOccupManu PctOccupMgmtProf MalePctDivorce MalePctNevMarr FemalePctDiv TotalPctDiv PersPerFam PctFam2Par PctKids2Par PctYoungKids2Par PctTeen2Par PctWorkMomYoungKids PctWorkMom NumIlleg PctIlleg NumImmig PctImmigRecent PctImmigRec5 PctImmigRec8 PctImmigRec10 PctRecentImmig PctRecImmig5 PctRecImmig8 PctRecImmig10 PctSpeakEnglOnly PctNotSpeakEnglWell PctLargHouseFam PctLargHouseOccup PersPerOccupHous PersPerOwnOccHous PersPerRentOccHous PctPersOwnOccup PctPersDenseHous PctHousLess3BR MedNumBR 0.3030 0.3158 0.3833 0.3617 0.3635 0.5011 0.3964 0.4406 0.3912 0.4413 0.4612 0.4345 0.4876 0.4943 0.4877 0.6109 0.6207 0.6640 0.5829 0.5014 0.5267 0.0363 0.2500 0.0301 0.3202 0.3606 0.3991 0.4279 0.1814 0.1821 0.1848 0.1829 0.7859 0.1506 0.2676 0.2519 0.4621 0.4944 0.4041 0.5626 0.1863 0.4952 0.3147 0.2500 0.2700 0.3600 0.3100 0.3200 0.5100 0.3700 0.4100 0.3700 0.4000 0.4700 0.4000 0.5000 0.5000 0.4700 0.6300 0.6400 0.7000 0.6100 0.5100 0.5400 0.0100 0.1700 0.0100 0.2900 0.3400 0.3900 0.4300 0.0900 0.0800 0.0900 0.0900 0.8700 0.0600 0.2000 0.1900 0.4400 0.4800 0.3600 0.5600 0.1100 0.5100 0.5000 0.0522 0.0455 0.0410 0.0438 0.0409 0.0303 0.0410 0.0308 0.0396 0.0347 0.0333 0.0308 0.0307 0.0337 0.0239 0.0408 0.0426 0.0479 0.0367 0.0284 0.0307 0.0118 0.0529 0.0076 0.0480 0.0445 0.0406 0.0380 0.0556 0.0559 0.0560 0.0551 0.0515 0.0483 0.0386 0.0364 0.0287 0.0249 0.0358 0.0388 0.0441 0.0298 0.0651 0.2285 0.2134 0.2025 0.2092 0.2022 0.1740 0.2024 0.1755 0.1989 0.1863 0.1825 0.1754 0.1752 0.1836 0.1546 0.2020 0.2064 0.2187 0.1915 0.1686 0.1752 0.1087 0.2299 0.0872 0.2191 0.2109 0.2015 0.1950 0.2358 0.2363 0.2367 0.2348 0.2269 0.2197 0.1966 0.1907 0.1696 0.1579 0.1893 0.1971 0.2100 0.1725 0.2552 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0.0800 1 0.1900 1 0.3900 1 0.1800 1 0.2400 1 0.5600 1 0.2600 1 0.3600 1 0.3200 1 0.3600 1 0.5600 1 0.3800 1 0.5400 1 0.5700 1 0.4400 1 0.6400 1 0.7200 1 0.9100 1 0.6000 1 0.5100 1 0.5700 1 1 1 1 0 0 0 0 1 0.0900

1 0.2600 1 0.4300 1 0.0100 1 0.0200 1 0.0200 1 0.0200 1 0.9600 1 0.0300 1 0.1700 1 0.1900 1 0.3700 1 0.4500 1 0.3200 1 0.5400 1 0.0600 1 0.5300 1 0.5000

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

53

Projet 10 : Crimes and Communities Data Set Septembre 2012


HousVacant PctHousOccup PctHousOwnOcc PctVacantBoarded PctVacMore6Mos MedYrHousBuilt PctHousNoPhone PctWOFullPlumb OwnOccLowQuart OwnOccMedVal OwnOccHiQuart RentLowQ RentMedian RentHighQ MedRent MedRentPctHousInc MedOwnCostPctInc NumInShelters NumStreet PctForeignBorn PctBornSameState PctSameHouse85 PctSameCity85 PctSameState85 LandArea PopDens PctUsePubTrans LemasPctOfficDrugUn ViolentCrimesPerPop 0.0768 0.7195 0.5487 0.2045 0.4333 0.4942 0.2645 0.2431 0.2647 0.2635 0.2689 0.3464 0.3725 0.4230 0.3841 0.4901 0.4498 0.0294 0.0228 0.2156 0.6089 0.5351 0.6264 0.6515 0.0652 0.2329 0.1617 0.0941 0.2380 0.1500 0.1300 0.6300 0.5400 0.6700 0.7000 0.0400 0.1700 0.0700 0.0300 0.7700 0.5400 0.1300 0.4200 0.5200 0.1850 0.1900 0.1800 0.1700 0.1800 0.3100 0.3300 0.3700 0.3400 0.4800 0.4500 0.3700 0.0226 0.0376 0.0343 0.0474 0.0357 0.0540 0.0590 0.0426 0.0504 0.0536 0.0553 0.0481 0.0438 0.0616 0.0455 0.0287 0.0351 0.0371 0 0.0105 0 0.0101 0.0534 0.0418 0.0329 0.0402 0.0393 0.0120 0.0412 0.0525 0 0.0578 0.0543 0.1505 0.1940 0.1852 0.2178 0.1890 0.2325 0.2428 0.2063 0.2244 0.2315 0.2353 0.2193 0.2093 0.2483 0.2134 0.1695 0.1873 0.1926 0.1026 0.1004 0.2311 0.2043 0.1814 0.2005 0.1982 0.1095 0.2031 0.2291 0.2403 0.2330 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0.0100 1 0.8300 1 0.5200 1 1 1 0 0 0 1 0.4400 1 0.0100 1 0.0900 1 0.0800 1 0.0800 1 0.1300 1 0.1900 1 1.0000 1 0.1700 1 0.4000 1 0.4100 1 0.2400 1 1 0 0

MedOwnCostPctIncNoMtg 0.4038

1 0.0300 1 0.7800 1 0.5900 1 0.7400 1 0.7900 1 0.0100 1 0.0900 1 0.0100 1 0 1 0.0300

CNAM RCP 209 - APPRENTISSAGE, RSEAUX DE NEURONES ET MODLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sbastien DIAZ

54