Hopkins : lutter contre la fraude financière et enrayer l'économie souterraine

La problématique

Le poids de l’économie souterraine est estimé à environ 12% du PIB en France, et jusqu’à 18% du PIB de l’UE en 2015. Or, ces dernières années ont vu une augmentation importante du volume des données textuelles et structurées dont l’analyse peut permettre de repérer plus facilement et plus efficacement la fraude financière.

Cependant, l’exploitation optimale de ces données au volume très important et aux formats très divers nécessite l’utilisation de nouvelles techniques de data science. Ces nouveaux besoins et possibilités ont motivé l’introduction de technologies big data et de la data science dans le cadre de la lutte contre la fraude financière et l’économie souterraine.

Le défi : aider à la lutte contre la fraude financière à partir de données hétérogènes grâce aux techniques de big data

Le Ministère de l’Action et des Comptes publics souhaite aujourd’hui mieux valoriser son gisement de données. Un défi à plusieurs dimensions_:

  • Améliorer la mise en relation de données obtenues de différentes sources (en termes d’automatisation des traitements, de précision et de performance) ;
  • Générer des graphes enrichis modélisant non seulement les entités métier mais aussi la nature des relations qui les lient.

Le ministère souhaite aussi bien valoriser ses données de type structuré que ses ressources textuelles, principalement le flux d’informations entrantes. Des outils de data mining et d’apprentissage automatique sont déjà en cours de développement pour extraire de l’information de ces données textuelles. Il est nécessaire de les améliorer afin de permettre leur industrialisation.

Les 3 EIG

  • Paul Boosz : Datascience (données structurées)

Photo de Paul Boosz

Paul Boosz est ingénieur des Ponts et Chaussées et diplômé d’un master d’apprentissage automatique de l’université Paris-Saclay. Il a été parmi les premiers data scientists de Shift Technology, une startup spécialisée dans la détection de fraude à l’assurance.

Son profil Linkedin.

  • Victor Schmidt : Datascience (données textuelles)

Photo de Victor Schmidt

« Récemment diplômé de l’École polytechnique et du University College London en Machine Learning, j’ai travaillé auparavant 1 an chez Rythm en tant Marketing Intern puis en tant que Data Science Engineer. Je suis curieux (comme le montre mon grand écart de postes chez Rythm), voyageur (j’ai voyagé en Asie pendant 6 mois notamment) et je m’intéresse particulièrement aux médias (metada.org). J’ai choisi d’être Entrepreneur d’Intérêt Général dès ma sortie d’école pour avoir l’opportunité d’appliquer mes connaissances dans le domaine public et au sein d’une communauté soudée, complémentaire et diverse. »

Son profil Linkedin.

Son compte Twitter : @vict0rsch

  • Benoît Guigal : Data Engineer

Photo de Benoît Guigal

« Diplômé de l’école des Mines de Paris, j’effectue mon stage de fin d’étude en R&D au Ministère de la Défense puis je rejoins Captain Dash, une startup spécialisée en Business Intelligence en tant que data engineer. Je me lance ensuite dans une aventure entrepreneuriale et co-fonde Figure, un service de location de cabines photographiques connectées à une plateforme web communautaire. Enthousiasmé par le programme EIG, je vais relever le défi Hopkins pour lutter contre la fraude financière et enrayer l’économie souterraine. Sur mon temps libre, on peut m’apercevoir dans les salles d’escalade ou à la montagne. »

Son profil Linkedin.

Son compte Twitter : @BGuigal

La mentor : Delphine Lê

Photo de Delphine Le, mentor

Suite à un parcours mixte (dans le privé et le public, en recherche et au sein de start-ups), Delphine Lê a rejoint les ministères économiques et financiers en tant que data scientist depuis 2015. Au cœur de la transformation numérique de son service, elle a participé à la mise en place d’un environnement « Big Data » et à la création d’un pôle Data Science qu’elle dirige.

« La lutte contre la fraude financière (fiscale, sociale, etc.) et contre l’économie souterraine représentent des enjeux majeurs d’utilité publique. Nous proposons un défi s’appuyant sur des données massives d’origines et de natures diverses (structurées et non structurées), avec l’ambition de détecter des schémas de fraude variés, reflétant des typologies connues ou nouvelles.

Identifier des relations entre différents silos de données et modéliser les informations sous forme de graphe constitue un des axes de travail proposés. L’autre se concentre sur les données textuelles pour lesquelles nous aimerions notamment évaluer l’apport potentiel du deeplearning. Pour cela, nous recrutons deux data scientists confirmés et un développeur (data engineer), qui rejoindront un pôle Data Science travaillant en étroite collaboration avec une équipe projet et des experts métiers, tout en ayant accès à un environnement dédié à l’état de l’art. »

En savoir plus : le pitch du défi en 4 slides