Je candidate ! Voir les autres défis

Le Ministère de l’Action et des Comptes publics souhaite développer des outils génériques et auto-apprenants de lutte contre la fraude en s’appuyant sur des méthodes avancées de fouille de données et d’analyse de réseaux afin de rapprocher des sources de données diverses et de détecter des schémas de fraude connus ou nouveaux.

Voir le défi Adler en quelques slides.


ADLER : détecter des comportements financiers illicites par l’analyse de réseaux

La problématique

La criminalité et la fraude financières sont à l’origine de coûts qui se chiffrent en milliards d’euros pour les Etats . Selon les estimations les plus prudentes de la Commission Européenne, la seule fraude à la TVA peut entraîner pour les États membres de l’Union des pertes de recettes supérieures à 50 milliards €. Or, en plus d’être très efficaces, les schémas de fraude sont multiples et évoluent rapidement, ce qui les rend d’autant plus difficile à déceler.

Face à cet impératif économique, des systèmes évolués de détection de fraude émergent. Les modèles prédictifs et l’analyse de graphes/réseaux dessinent une perspective prometteuse car ils permettent de rapprocher des données hétérogènes provenant de sources diverses. En parallèle, inspirées par les systèmes d’informations d’entreprise ou du net, les modélisations sémantiques d’entités et de leurs liens -ou ontologies- permettent la recherche ou l’apprentissage à un niveau d’abstraction élevé (cf. Knowledge Graph -ou graphe de connaissance- de Google) et donnent la possibilité à des intelligences artificielles de raisonner sur ces entités.

Le défi : détecter des schémas de fraude en exploitant des graphes de connaissance (knowledge graph)

Le défi consiste à :

  • contribuer à la construction et la visualisation d’un graphe de connaissance à partir de données hétérogènes -textuelles et structurées- concernant différents types de fraude financière ;

  • développer des méthodes de détection d’individus ou de communautés d’intérêt à partir du graphe.

Capitalisant sur des travaux en cours, la mission aura comme point de départ une première approche de construction du graphe de connaissance, ainsi que des outils existants de visualisation et d’analyse de graphes/réseaux.

L’objectif de la mission sera donc double :

  • évaluer l’adéquation du graphe actuel aux données d’origine et aux besoins opérationnels, proposer et implémenter des axes d’amélioration (si possible par des méthodes prédictives) : extraction d’information à partir de données textuelles, résolution d’entités, adaptation de l’ontologie existante, prédiction de liens, etc ;

  • faire évoluer les outils de visualisation et de détection de fraude pour exploiter au mieux le modèle sémantique et la richesse du graphe. On pourra éventuellement investiguer le potentiel d’approches à l’état de l’art telles que les graph embeddings, le deep learning


Les EIG recherché·e·s

EIG 1 - Un·e data scientist

Missions principales : mettre en œuvre des méthodes d’apprentissage supervisé et/ou non supervisé pour la construction du graphe de connaissance et pour son analyse, notamment sur les sujets suivants :

  • analyse de données textuelles et extraction d’information (entités, relations) ;
  • analyse de réseaux et détection de fraude.

Compétences nécessaires : traitement du langage naturel, apprentissage automatique, analyse de réseaux.

EIG 2 - Un·e développeur·euse avec un goût prononcé pour les données

Mission principale : mettre en oeuvre des techniques d’exploration du graphe de connaissance afin de détecter de nouveaux schémas de fraude, notamment grâce aux éléments suivants :

  • mise en correspondance de différentes sources de données ;
  • développement d’applications pour la visualisation des données et des graphes, ainsi que pour l’aide à la décision.

Compétences nécessaires : résolution d’entités, visualisation de données, développement web. Une sensibilité pour le design sera un plus.

Langage et outils utilisés dans le service :

  • Python, Hive, Spark, ElasticSearch, JanusGraph
  • Dataiku Science Studio, traitement du langage naturel (nltk, gensim, spaCy), machine/deep learning (scikit-learn, TensorFlow)
  • Javascript : d3.js, jQuery, vue.js


L’équipe autour des EIG

Delphine Lê, mentor opérationnelle

Delphine Lê

« Suite à un parcours mixte (dans le privé et le public, en recherche et au sein de start-ups), j’ai rejoint les ministères économiques et financiers en tant que data scientist depuis 2015. Au cœur de la transformation numérique de mon service, j’ai participé à la mise en place d’un environnement « Big Data » et à la création d’un pôle Data Science que je dirige. »