Je candidate ! Voir les autres défis

La Cour de cassation, en lien avec le Ministère de la Justice, souhaite développer des techniques d’apprentissage automatique afin d’identifier les données à pseudonymiser dans les décisions de justice avant de les rendre accessibles et réutilisables. Les résultats de ces travaux transformeront en profondeur la diffusion de la jurisprudence, renforceront la cohérence des décisions rendues et la confiance des citoyens en l’autorité judiciaire ; ils pourront largement s’appliquer à d’autres types de données.

Voir le défi Open Justice en quelques slides.


Open Justice : Ouvrir la jurisprudence en développant des solutions fiables de pseudonymisation et d’enrichissement des décisions de justice

La problématique

La diffusion en open data de l’ensemble des décisions de justice est une obligation de la Loi pour une République numérique. De surcroît, elle constitue un enjeu essentiel d’accès à la jurisprudence -pour les acteurs du droit et de la justice comme pour les citoyens- et de réutilisations de celle-ci -notamment pour les entrepreneurs de la legal tech.

Chaque année sont rendues près de 3,9 millions de décisions de justice qui pourraient, à terme, être mises à disposition du public. A ce jour, 180 000 décisions par an sont collectées dans les bases de données « Jurinet » et « Jurica » tenues par la Cour de cassation. Cependant, sur ces 180 000 décisions, moins de 15 000 sont diffusées en open data et sur le site Légifrance. La cause : chaque décision doit être relue pour s’assurer que toutes les mentions identifiantes ont été anonymisées.

Le défi : développer des solutions fiables de pseudonymisation et d’enrichissement des données

L’obstacle majeur à une diffusion plus massive des décisions de justice réside dans la complexité des opérations visant à protéger les données personnelles et à éliminer les risques de réidentification des personnes citées dans ces décisions. L’objectif est donc double : « pseudonymiser » efficacement les décisions de justice en occultant les éléments identifiants qu’elles contiennent (noms, adresses, dates de naissance…) et faciliter la réutilisation des données grâce à l’enrichissement des données et à leur mise à disposition en open data.

Pour y parvenir, le défi s’articulera autour de plusieurs axes :

  • l’amélioration des techniques de reconnaissance automatique pour passer d’une approche par règles des termes à anonymiser à une approche par apprentissage automatique (preuves de concept déjà développées sur l’identification de la structure des décisions de justice, leur thème et les éléments à occulter) ;
  • le développement d’algorithmes de pseudonymisation automatique des données : grâce à des techniques de machine learning et de traitement du langage naturel ;
  • le développement d’algorithmes visant à limiter le risque de réidentification et le nombre de décisions “mal” pseudonymisées ;
  • l’enrichissement des données en vue de leur diffusion en open data grâce à des métadonnées précises et structurées ;
  • la construction d’outils et d’interfaces à destination des équipes de la Cour de cassation en charge de la pseudonymisation et de la diffusion des décisions de justice.

Les résultats de ces travaux pourront largement bénéficier à d’autres types de données devant être pseudonymisées avant leur diffusion. Ils transformeront en profondeur la diffusion de la jurisprudence et renforceront la cohérence des décisions rendues et la confiance des citoyens en l’autorité judiciaire.


3 EIG recherché.e.s

EIG 1 et EIG 2 - Deux data scientists

Missions principales : choix, entraînement et paramétrage des algorithmes (par exemple : tagger, spaCy,…) pour optimiser les résultats attendus (reconnaissance d’éléments identifiants, d’éléments sémantiques ou de structure).

Compétences recherchées : apprentissage automatique (machine learning), traitement du langage naturel (natural language processing), reconnaissance d’entités nommées (named entity recognition).

EIG 3 - Un·e développeur·se full stack

Missions principales : selon l’avancement et les développements du projet et les résultats obtenus par les travaux des EIG 1 et 2, plusieurs options sont envisagées : intégration de l’outil de pseudonymisation aux chaînes de traitement de la Cour de cassation, interface de contrôle de la pseudonymisation, interface de recherche dans les bases de données de jurisprudence pouvant être intégrée au site internet de la Cour de cassation…

Compétences recherchées : front end, back end, admin sys, une connaissance d’Elastic Search est souhaitée.

L’environnement de travail des EIG : ordinateurs ultra-portables ; accès aux serveurs mis à disposition par le ministère de la Justice.

Lieu de travail : 75006 métro Odéon / Cluny-La Sorbonne.


L’équipe autour des EIG

Edouard Rottier, mentor opérationnel

Edouard Rottier

Edouard Rottier, auditeur à la Cour de cassation, est en charge du bureau des diffusions numériques au service de documentation, des études et du rapport (SDER) de la Cour de cassation. Celle-ci administre et diffuse les bases de données de jurisprudence Jurinet (plus de 830 000 décisions en stock) et Jurica (plus d’1,8 millions de décisions en stock). Il suit les projets liés à l’open data des décisions de justice, en lien avec les acteurs institutionnels, associatifs et économiques concernés.

« La Cour de cassation dispose des deux bases de données nationales de jurisprudence existantes et d’une expertise reconnue en matière de pseudonymisation et de diffusion des décisions de justice. Le dispositif EIG permet de réunir l’ensemble des compétences nécessaires pour offrir un regard neuf sur ces données et mettre en œuvre des techniques de traitement innovantes.

Pleinement intégrés à l’environnement de la Cour de cassation, qu’ils pourront découvrir lors d’une semaine d’immersion organisée pour leur arrivée, les EIG seront les piliers de ce projet essentiel pour la Haute juridiction.

Des synergies pourront s’opérer avec les EIG qui seront recrutés pour le défi « Préjudices corporels » de la même promotion. »

Éloi Bluat-Ménard, mentor de haut niveau

Éloi Bluat-Ménard

Eloi Buat-Ménard, conseiller référendaire à la Cour de cassation, est l’adjoint du directeur du service de documentation, des études et du rapport (SDER). Il anime depuis plusieurs années le projet d’open data des décisions de justice dont il a eu la charge d’abord au ministère de la justice, aujourd’hui à la Cour de cassation.