Vous êtes sur la page 1sur 4

Proposition de projet R&D bootstrap sur budget TeraLab 2015

__________________________________________________________________________________
Rsum

TITRE DU PROJET : HORIZON ou ANTICRIME (exemples)


RESPONSABLE DU PROJET Stphan Clmenon (Professeur Tlcom ParisTech)
DESCRIPTION DU PROJET (4 lignes) :
Dans le cadre de son activit de renseignement, le SCRC (Service Central de Renseignement Criminel Gendarmerie Nationale) envisage de dvelopper un projet danalyse et de prdiction de la criminalit. Il
conviendra partir de donnes endognes et exognes au champ criminel de raliser une analyse spatiotemporelle dynamique intgrant les niveaux communal, dpartemental, rgional et national. Ce projet a
vocation dlivrer sous forme de dmonstrateur un outil daide la dcision sur un plan stratgique et
tactique.
DESCRIPTION DE LA CONTRIBUTION DU LABO R&D(4lignes)
Le labo dveloppera les techniques danalyse de donnes et dapprentissage statistique permettant
dexpliquer/prdire le niveau de criminalit aux diffrentes chelles spatiales et temporelles partir des
donnes juges pertinentes par le SCRC. Au del de llaboration des mthodes adquates (et de routines
informatiques affrentes) permettant de rsoudre les problmes lis lhtrognit des donnes, leur
structure de dpendance spatiale et temporelle, leur caractre incomplet , laspect multi-tche du
problme de prdiction, le laboratoire fournira un rapport prcis quant la performance prdicitve des
rgles construites par apprentissage et sattachera fournir des indicateurs permettant dinterprter
limpact de chaque variable sur la criminalit un niveau spatio-temporel donn. Les aspects
mthodologiques dvelopps au cours de ce projet devront pouvoir donner lieu des publications
scientifiques, tout en respectant la confidentialit de certaines donnes.
DESCRIPTION DE LA CONTRIBUTION DU PARTENAIRE INSTITUTIONNEL (4lignes)
Outre la dfinition du besoin, le SCRC accompagnera lensemble des tapes du projet en validant les
diffrents dlivrables. Il se chargera galement de transmettre sous couvert dune clause de confidentialit
des donnes dintrt criminel. Enfin, il ralisera la validation de loutil en lvaluant sur des donnes
oprationnelles.

DESCRIPTION DE LA CONTRIBUTION DU PARTENAIRE INDUSTRIEL (4 lignes)


La contribution de Morpho couvrira plusieurs axes :
La mise au point dalgorithmes de prdiction traitant des donnes htrognes comportant une
dimension spatiale.
Ltude de solutions concrtes permettant la manipulation de large volume de donnes.
La mise au point de solutions rpondant aux problmatiques de prdiction de la criminalit lchelle
dun pays partir de donnes publiques.
Morpho participera aux travaux de recherche algorithmiques en coopration avec les partenaires
acadmiques, puis aprs une premire phase permettant de comprendre la nature et la valeur des rsultats
pouvant tre obtenus, intgrera les solutions proposes sous forme dun prototype. Celui-ci permettra
minima dimporter les donnes des annes venir et de visualiser les rsultats.

_______________________________________________________________________________
Institut Mines-Tlcom Projets Bootstrap Teralab Octobre 2014

Proposition de projet R&D bootstrap sur budget TeraLab 2015

__________________________________________________________________________________

MARCHES ET APPLICATIONS CIBLES (4 lignes)


Indiquer dans quelles types dapplications la technologie dveloppe peut servir, les marchs affrents et le
business model favorable pour lindustriel
Morpho cherche dvelopper une offre pertinente danalyse criminalistique sur le march international,
auprs des forces de police et de scurit qui sont dj ses clients.
RESSOURCES TERALAB QUIL EST PREVU DE METTRE EN OEUVRE (4 lignes)
Les ressources Teralab devront permettre dhberger les donnes ncessaires la construction des modles
prdicitfs par apprentissage statistique. Les donnes endognes, dentre (e.g. rpartition des effectifs sur le
territoire) et de sortie (niveau de criminalit), sont peu volumineuse. Par contre, les donnes exognes (open
data) pourraient ltre, une partie du projet consistant prcisment recenser les donnes de ce type pouvant
permettre daccrotre la performance des modles, sans toutefois dpasser quelques 100aines de Go. La structure
choisie pour lentrept des donnes sera fonction de la nature des donnes slectionnes. Le niveau
dhtrognit/incompltude pourra justifier de conserver une structure lgre type HDFS. Le langage utilis
pour le dveloppement des routines sera le Python. Seront installs sur TeraLab Python 2.7+, Numpy, Scipy,
Matplotlib, Ipython ainsi que les packages ncessaires de machine-learning et danalyse de donnes ncessaire
(e.g. Scikit-learn, Pandas).

BUDGET TOTAL DU PROJET K:


18 mois de post-doc (18*5387,30=96 971,4)
Dimensionnement des ressources mobilises par le partenaire Industriel sur ce projet :
Morpho mobilisera deux personnes mi-temps sur la dure du projet. Lune sur les aspects recherche et lautre
sur les aspects mtier (dfinition et dveloppement dun prototype)
Cout additionnels R&D Labo Institut Mines Telecom :

_______________________________________________________________________________
Institut Mines-Tlcom Projets Bootstrap Teralab Octobre 2014

DESCRIPTIF DETAILLE
(2 pages )
- Points aborder -



Vision : Dcrire les facteurs motivants qui ont contribu la cration du projet et qui reprsente
son caractre innovant.

A ce jour la lutte contre la criminalit est en gnral ractive et non proactive. Lobjectif du projet
sinscrit dans une dmarche de renseignement criminel qui consiste partir dune comprhension de
la criminalit anticiper les phnomnes en vue dune meilleure stratgie de lutte en terme de
prvention notamment. En effet, la criminalit ne pouvant tre considre comme un signal
dterministe ou alatoire, elle rpond des critres explicatifs quil convient didentifier afin de
pouvoir anticiper de nouvelles occurrences. Ds lors, il convient dintgrer un ensemble de variables
le plus divers afin de dterminer celles qui diffrents chelons administratifs (villes, dpartements,
rgions) sont les plus significatifs. Le projet rpondra une analyse la fois stratgique et
oprationnelle. Sur un plan stratgique, il prendra en compte des donnes disponibles en sources
ouvertes (INSEE, mto, gographie) tandis que sur un plan oprationnel ncessitant une rapidit
daction, des donnes non structures pourront tre intgres, savoir des extractions de blog ou de
rseaux sociaux (Facebook, Twitter). Une tape de validation clturera le projet en valuant
notamment le rsultat des diffrents chelons envisags par rapport la prdiction.

Il nexiste pas ce jour de projet de ce type dans le domaine de la lutte contre la criminalit qui
englobe laspect descriptif et prdictif des chelles de temps et despace diffrents et intgrant une
telle varit de donnes. En outre, un tel projet doit apparaitre comme un vritable outil daide la
dcision en matire de dploiement de ressources comme de mode daction envisager.

Du point de vue mthodologique, les challenges sont de plusieurs ordres.

Ils relvent tout dabord de la nature des donnes (niveaux de criminalit selon une nomenclature
prdfinie et facteurs explicatifs) :
Temporalit
Spatialisation
Htrognit (e.g. certaines variables peuvent navoir de sens qu certaines priodes, que
dans certaines zones gographiques, cf open data)
Incompltude (e.g. certaines donnes peuvent ntre recenses qu certaines priodes, que
dans certaines zones gographiques, cf open data)

Ils dcoulent aussi des objectifs poursuivis, savoir une prdiction multi-chelle (spatiale et
temporelle) et multi-tche (dpendance/corrlation entre les niveaux observs pour diffrents types
de crime).


Contexte Scientifique : Indiquer les rsultats de recherche que lon cherche valoriser.

La vaste majorit des mthodes dapprentissage statistique (pour la rgression, la classification) a
t conue dans un cadre o les exemples servant apprendre un modle optimisant un critre de
_______________________________________________________________________________
Institut Mines-Tlcom Projets Bootstrap Teralab Octobre 2014


performance donn sont supposes tre des donnes indpendantes et identiquement distribues.
Le cadre du projet dcrit ci-dessus est significativement diffrent et requiert de dvelopper des
techniques nouvelles, pour la reprsentation des donnes (e.g. au moyen doprateurs) ou leur
prtraitement (rsidus) et pour lapprentissage proprement dit (algorithmes multi-tches, pour
donnes structures en entre et en sortie). La recherche labore travers ce projet pourra faire
lobjet de publications mthodologiques (algorithmes, cadre de validit thorique et expriences
numriques) respectant le niveau de confidentialit de certaines donnes requis par le SCRC. Du
point de vue de lutilisateur final et de lindustriel partenaire, le niveau de performance prdictive
atteint par les modles et le format (interface graphique, outils de visualisation) des rsultats
produits par les outils danalyse pourront permettre dlaborer un cahier des charges pour un
ventuel produit commercialisable.

Cible application et march : Prciser la cible applicative et le march viss et le business modle
favorable pour lindustriel

La cible est concentre autour des forces de scurit mme si les mthodes et outils dvelopps
devraient tre transposables dans diffrentes applications qui ncessitent une vision prdictive et
spatiale des donnes.

Apport du partenaire : Cas dusage, Donnes, expertise mtier, expert donnes .

Le SCRC apporte sa connaissance criminologique des phnomnes criminels ainsi que des donnes
lies aux infractions. Ses donnes intgrent sur un plan quantitatif une vision spatio-temporelle de
lvolution des faits constats/lucids pour chaque infraction et par agrgat lchelle dune
commune, dun dpartement, dune rgion et du pays. En outre, des informations non nominatives
ayant trait la typologie des auteurs comme des victimes seront galement transmises.

Morpho apporte son exprience en apprentissage machine sur des donnes de grande dimension, sa
connaissance des besoins des acteurs de la scurit publique et sa capacit dvelopper des outils
danalyse et dinterface utilisateur de manire agile et rapide.

Plan dactions, capacit finaliser : Prciser les actions que vous souhaitez mener dans le projet
et justifier lintrt de ces actions pour assurer une valorisation des rsultats de recherche et
pour rpondre au besoin identifi par lindustriel. En particulier, il est utile dexpliquer pourquoi
ces actions sont prioritaires pour assurer une valorisation

Budget demand : Fournir un budget rparti entre les labos et partenaires (le partenaire
industriel ne sera pas financ dans le cadre de cet AO) .

_______________________________________________________________________________
Institut Mines-Tlcom Projets Bootstrap Teralab Octobre 2014

Vous aimerez peut-être aussi