Vous êtes sur la page 1sur 4
Proposition de projet R&D « bootstrap »sur budget TeraLab 2015 Résumé TITRE DU PROJET :
Proposition de projet R&D « bootstrap »sur budget TeraLab 2015 Résumé TITRE DU PROJET :

Proposition de projet R&D « bootstrap »sur budget TeraLab 2015

Résumé

TITRE DU PROJET : HORIZON ou ANTICRIME (exemples)

RESPONSABLE DU PROJET Stéphan Clémençon (Professeur Télécom ParisTech)

DESCRIPTION DU PROJET (4 lignes) :

Dans le cadre de son activité de renseignement, le SCRC (Service Central de Renseignement Criminel - Gendarmerie Nationale) envisage de développer un projet d’analyse et de prédiction de la criminalité. Il conviendra à partir de données endogènes et exogènes au champ criminel de réaliser une analyse spatio- temporelle dynamique intégrant les niveaux communal, départemental, régional et national. Ce projet a vocation à délivrer sous forme de démonstrateur un outil d’aide à la décision sur un plan stratégique et tactique.

DESCRIPTION DE LA CONTRIBUTION DU LABO R&D(4lignes)

Le labo développera les techniques d’analyse de données et d’apprentissage statistique permettant d’expliquer/prédire le niveau de criminalité aux différentes échelles spatiales et temporelles à partir des données jugées pertinentes par le SCRC. Au delà de l’élaboration des méthodes adéquates (et de routines informatiques afférentes) permettant de résoudre les problèmes liés à l’hétérogénéité des données, leur structure de dépendance spatiale et temporelle, leur caractère « incomplet », à l’aspect multi-tâche du problème de prédiction, le laboratoire fournira un rapport précis quant à la performance prédicitve des règles construites par apprentissage et s’attachera à fournir des indicateurs permettant d’interpréter l’impact de chaque variable sur la criminalité à un niveau spatio-temporel donné. Les aspects méthodologiques développés au cours de ce projet devront pouvoir donner lieu à des publications scientifiques, tout en respectant la confidentialité de certaines données.

DESCRIPTION DE LA CONTRIBUTION DU PARTENAIRE INSTITUTIONNEL (4lignes)

Outre la définition du besoin, le SCRC accompagnera l’ensemble des étapes du projet en validant les différents délivrables. Il se chargera également de transmettre sous couvert d’une clause de confidentialité des données d’intérêt criminel. Enfin, il réalisera la validation de l’outil en l’évaluant sur des données opérationnelles.

DESCRIPTION DE LA CONTRIBUTION DU PARTENAIRE INDUSTRIEL (4 lignes)

La contribution de Morpho couvrira plusieurs axes :

La mise au point d’algorithmes de prédiction traitant des données hétérogènes comportant une dimension spatiale.

L’étude de solutions concrètes permettant la manipulation de large volume de données.

La mise au point de solutions répondant aux problématiques de prédiction de la criminalité à l’échelle d’un pays à partir de données publiques. Morpho participera aux travaux de recherche algorithmiques en coopération avec les partenaires académiques, puis après une première phase permettant de comprendre la nature et la valeur des résultats pouvant être obtenus, intégrera les solutions proposées sous forme d’un prototype. Celui-ci permettra à minima d’importer les données des années à venir et de visualiser les résultats.

1

Institut Mines-Télécom – Projets Bootstrap Teralab Octobre 2014

Proposition de projet R&D « bootstrap »sur budget TeraLab 2015 MARCHES ET APPLICATIONS CIBLES (4
Proposition de projet R&D « bootstrap »sur budget TeraLab 2015 MARCHES ET APPLICATIONS CIBLES (4

Proposition de projet R&D « bootstrap »sur budget TeraLab 2015

MARCHES ET APPLICATIONS CIBLES (4 lignes) Indiquer dans quelles types d’applications la technologie développée peut servir, les marchés afférents et le business model favorable pour l’industriel

Morpho cherche à développer une offre pertinente d’analyse criminalistique sur le marché international, auprès des forces de police et de sécurité qui sont déjà ses clients.

RESSOURCES TERALAB QU’IL EST PREVU DE METTRE EN OEUVRE (4 lignes)

Les ressources Teralab devront permettre d’héberger les données nécessaires à la construction des modèles prédicitfs par apprentissage statistique. Les données endogènes, d’entrée (e.g. répartition des effectifs sur le territoire) et de sortie (niveau de criminalité), sont peu volumineuse. Par contre, les données exogènes (open data) pourraient l’être, une partie du projet consistant précisément à recenser les données de ce type pouvant permettre d’accroître la performance des modèles, sans toutefois dépasser quelques 100aines de Go. La structure choisie pour l’entrepôt des données sera fonction de la nature des données sélectionnées. Le niveau d’hétérogénéité/incomplétude pourra justifier de conserver une structure légère type HDFS. Le langage utilisé pour le développement des routines sera le Python. Seront installés sur TeraLab Python 2.7+, Numpy, Scipy, Matplotlib, Ipython ainsi que les packages nécessaires de machine-learning et d’analyse de données nécessaire (e.g. Scikit-learn, Pandas).

BUDGET TOTAL DU PROJET K :

18 mois de post-doc (18*5387,30 =96 971,4 )

Dimensionnement des ressources mobilisées par le partenaire Industriel sur ce projet :

Morpho mobilisera deux personnes à mi-temps sur la durée du projet. L’une sur les aspects recherche et l’autre sur les aspects métier (définition et développement d’un prototype)

Cout additionnels R&D Labo Institut Mines Telecom :

2

Institut Mines-Télécom – Projets Bootstrap Teralab Octobre 2014

DESCRIPTIF DETAILLE (2 pages )

- Points à aborder -

Vision : Décrire les facteurs motivants qui ont contribué à la création du projet et qui représente son caractère innovant.

A ce jour la lutte contre la criminalité est en général réactive et non proactive. L’objectif du projet

s’inscrit dans une démarche de renseignement criminel qui consiste à partir d’une compréhension de l a criminalité à anticiper les phénomènes en vue d’une meilleure stratégie de lutte en terme de prévention notamment. En effet, la criminalité ne pouvant être considérée comme un signal déterministe ou aléatoire, elle répond à des critères explicatifs qu’il convient d’identifier afin de pouvoir anticiper de nouvelles occurrences. Dès lors, il convient d’intégrer un ensemble de variables

le plus divers afin de déterminer celles qui à différents échelons administratifs (villes, départements,

régions) sont les plus significatifs. Le projet répondra à une analyse à la fois stratégique et opérationnelle. Sur un plan stratégique, il prendra en compte des données disponibles en sources ouvertes (INSEE, météo, géographie…) tandis que sur un plan opérationnel nécessitant une rapidité d’action, des données non structurées pourront être intégrées, à savoir des extractions de blog ou de réseaux sociaux (Facebook, T witter…). Une étape de validation clôturera le projet en évaluant notamment le résultat des différents échelo ns envisagés par rapport à la prédiction.

Il n’existe pas à ce jour de projet de ce type dans le domaine de la lutte contre la criminalité qui

englobe l’aspect descriptif et prédictif à des échelles de temps et d’espace différents et intégrant une telle v ariété de données. En outre, un tel projet doit apparaitre comme un véritable outil d’aide à la décision en matière de déploiement de ressources comme de mode d’action à envisager.

Du point de vue méthodologique, les challenges sont de plusieurs ordres.

Ils relèvent tout d’abord de la nature des données (niveaux de criminalité selon une nomenclature prédéfinie et facteurs explicatifs) :

Temporalité

Spatialisation

Hétérogénéité (e.g. certaines variables peuvent n’avoir de sens qu’à certaines périodes, que dans certaines zones géographiques, cf open data)

Incomplétude (e.g. certaines données peuvent n’être recensées qu’à certaines périodes, que dans certaines zones géographiques, cf open data)

Ils découlent aussi des objectifs poursuivis, à savoir une préd iction multi - échelle (spatiale et temporelle) et multi - tâche (dépendance/corrélation entre les niveaux observés pour différents types de crime).

Contexte Scientifique : Indiquer les résultats de recherche que l’on cherche à valoriser.

La vaste majorité des méthodes d’apprentissage statistique (pour la régression, la classification) a été conçue dans un cadre où les exemples servant à apprendre un modèle optimisant un critère de

3

Institut Mines-Télécom – Projets Bootstrap Teralab Octobre 2014

performance donné sont supposées être des données indépendantes et identiqu ement distribuées. Le cadre du projet décrit ci - dessus est significativement différent et requiert de développer des techniques nouvelles, pour la représentation des données (e.g. au moyen d’opérateurs) ou leur prétraitement (résidus) et pour l’apprentiss age proprement dit (algorithmes multi - tâches, pour données structurées en entrée et en sortie). La recherche élaborée à travers ce projet pourra faire l’objet de publications méthodologiques (algorithmes, cadre de validité théorique et expériences numériqu es) respectant le niveau de confidentialité de certaines données requis par le SCRC. Du point de vue de l’utilisateur final et de l’industriel partenaire, le niveau de performance prédictive atteint par les modèles et le format (interface graphique, outils de visualisation) des résultats produits par les outils d’analyse pourront permettre d’élaborer un cahier des charges pour un éventuel produit commercialisable.

Cible application et marché : Préciser la cible applicative et le marché visés et le business modèle favorable pour l’industriel

La cible est concentrée autour des forces de sécurité même si les méthodes et outils développés devraient être transposables dans différentes applications qui nécessitent une vision prédictive et spatiale des données.

Apport du partenaire : Cas d’usage, Données, expertise métier, expert données ….

Le SCRC apporte sa connaissance criminologique des phénomènes criminels ainsi que des données liées aux infractions. Ses données intègrent sur un plan quantitatif une visio n spatio - temporelle de l’évolution des faits constatés/élucidés pour chaque infraction et par agrégat à l’échelle d’une commune, d’un département, d’une région et du pays. En outre, des informations non nominatives ayant trait à la typologie des auteurs co mme des victimes seront également transmises.

Morpho apporte son expérience en apprentissage machine sur des données de grande dimension, sa connaissance des besoins des acteurs de la sécurité publique et sa capacité à développer des outils d’analyse et d’interface utilisateur de manière agile et rapide.

Plan d’a ctions , capacité à finaliser : Préciser les actions que vous souhaitez mener dans le projet et justifier l’intérêt de ces actions pour assurer une valorisation des résultats de recherche et pour répondre au besoin identifié par l’industriel. En particulier, il est utile d’expliquer pourquoi ces actions sont prioritaires pour assurer une valorisation

Budget d emand é : Fournir un budget réparti entre les labos et partenaires (le partenaire industrie l ne sera pas financé dans le cadre de cet AO) .

4

Institut Mines-Télécom – Projets Bootstrap Teralab Octobre 2014