Hopkins : lutter contre la fraude financière et enrayer l'économie souterraine

La problématique

Le poids de l’économie souterraine est estimé à environ 12% du PIB en France, et jusqu’à 18% du PIB de l’UE en 2015. Or, ces dernières années ont vu une augmentation importante du volume des données textuelles et structurées dont l’analyse peut permettre de repérer plus facilement et plus efficacement la fraude financière.

Cependant, l’exploitation optimale de ces données au volume très important et aux formats très divers nécessite l’utilisation de nouvelles techniques de data science. Ces nouveaux besoins et possibilités ont motivé l’introduction de technologies big data et de la data science dans le cadre de la lutte contre la fraude financière et l’économie souterraine.

Le défi : aider à la lutte contre la fraude financière à partir de données hétérogènes grâce aux techniques de big data

Le Ministère de l’Action et des Comptes publics souhaite aujourd’hui mieux valoriser son gisement de données. Un défi à plusieurs dimensions :

  • Améliorer la mise en relation de données obtenues de différentes sources (en termes d’automatisation des traitements, de précision et de performance) ;
  • Générer des graphes enrichis modélisant non seulement les entités métier mais aussi la nature des relations qui les lient.

Le ministère souhaite aussi bien valoriser ses données de type structuré que ses ressources textuelles, principalement le flux d’informations entrantes. Des outils de data mining et d’apprentissage automatique sont déjà en cours de développement pour extraire de l’information de ces données textuelles. Il est nécessaire de les améliorer afin de permettre leur industrialisation.

3 entrepreneur•e•s recherché•e•s

  • EIG 1 - DATA SCIENCE : Analyse des données structurées, développement et validation d’algorithmes.

    Compétences : maîtrise du machine learning (notamment non supervisé), analyse de données massives, analyse de réseaux / graphes, visualisation de données, discrétion.

    Langages, outils : Python, Dataiku Science Studio, Hive, Spark.

    Optionnel : Scala, bases orientées graphe e.g. Titan

  • EIG 2 - DATA SCIENCE : Analyse de données textuelles, développement et validation d’algorithmes.

    Compétences : Maîtrise du machine learning, et idéalement du deeplearning (wordembeddings, RNN, …) , traitement du langage naturel (classification, traduction, …), évaluation et assemblage de modèles prédictifs, discrétion.

    Langages, outils : Python, Dataiku Science Studio.

    Optionnel : lua/Torch (ou PyTorch) ou TensorFlow ou équivalent.

  • EIG 3 - DEVELOPPEMENT (DATA ENGINEER) : préparation, croisement, visualisation des données ; industrialisation des méthodes et outils.

    Compétences indispensables : analyse de données massives, visualisation de données (graphes, dimensions temporelle et géographique,…), développement web, discrétion.

    Langage, outils : Python, Scala, Dataiku Science Studio, Hive, Spark, Javascript (d3, jQuery,…), ElasticSearch.

    Optionnel : géomatique.

Les candidat•e•s retenu•e•s feront l’objet d’une habilitation « Confidentiel Défense ».

Votre mentor : Delphine Lê

Photo de Delphine Le, mentor

Suite à un parcours mixte (dans le privé et le public, en recherche et au sein de start-ups), Delphine Lê a rejoint les ministères économiques et financiers en tant que data scientist depuis 2015. Au cœur de la transformation numérique de son service, elle a participé à la mise en place d’un environnement « Big Data » et à la création d’un pôle Data Science qu’elle dirige.

« La lutte contre la fraude financière (fiscale, sociale, etc.) et contre l’économie souterraine représentent des enjeux majeurs d’utilité publique. Nous proposons un défi s’appuyant sur des données massives d’origines et de natures diverses (structurées et non structurées), avec l’ambition de détecter des schémas de fraude variés, reflétant des typologies connues ou nouvelles.

Identifier des relations entre différents silos de données et modéliser les informations sous forme de graphe constitue un des axes de travail proposés. L’autre se concentre sur les données textuelles pour lesquelles nous aimerions notamment évaluer l’apport potentiel du deeplearning. Pour cela, nous recrutons deux data scientists confirmés et un développeur (data engineer), qui rejoindront un pôle Data Science travaillant en étroite collaboration avec une équipe projet et des experts métiers, tout en ayant accès à un environnement dédié à l’état de l’art. »

En savoir plus : le pitch du défi en 4 slides