ArchiFiltre : assurer la mémoire des politiques sociales en transformant la gestion des archives

La problématique

Les données produites par les ministères sociaux ont statut d’archives publiques. A ce titre, leur création, leur gestion et leur sort final sont soumis à un cadre législatif et réglementaire spécifique. Une bonne gestion des archives doit permettre de contextualiser l’information, de garder une trace fiable et opposable des décisions publiques et de maîtriser les coûts induits par la gestion de l’information. La sélection des documents à conserver doit s’opérer de façon transparente et prendre en compte des critères complémentaires (cartographie des risques et des processus, perspectives / conditions de réutilisation).

Or, la généralisation des outils informatiques et la multiplication des outils de partage et de stockage contribuent à une multiplication des données non structurées, parfois redondantes, dans des formats divers à la lisibilité non garantie à long terme.

Dans ce cadre, la problématique à résoudre est de permettre aux services métiers et à l’administration des archives de disposer des informations nécessaires pour mettre en œuvre une sélection de données à un niveau macro pour des ensembles volumineux constitués de documents aux formats divers (bureautiques, messageries, etc.) et de garantir la pérennisation et la fiabilité des documents traités sur le long terme.

Le défi : mettre en œuvre des techniques de big data pour réaliser l’évaluation, la sélection et l’échantillonnage de données publiques non structurées

Répondre à cette problématique implique de traiter les besoins suivants :

  • Constituer un entrepôt de documents à plat par extraction des fichiers contenus dans des ensembles documentaires aux formats variés
  • Exploiter les métadonnées de chaque document, y compris celles liées aux caractéristiques techniques (format, poids)
  • Tracer et exploiter les informations liées à la localisation initiale des documents
  • Identifier et caractériser les liens entre les différents éléments (versions successives d’un même document, etc.)
  • Exploiter le contenu des fichiers suivant différents critères (analyse diplomatique, identification de la présence de données à caractère personnel, identification des termes clés).

2 entrepreneur•e•s recherché•e•s

  • EIG 1 - CONCEPTION-DÉVELOPPEMENT : développement et intégration de l’outil
  • EIG 2 - DATA SCIENCE : modéliser le besoin et développer une méthode pour l’exploration et l’analyse des données pertinentes

Votre mentor : Anne Lambert

Photo d'Anne Lambert

Anne Lambert a rejoint le secrétariat général des ministères sociaux en juillet 2015. Elle y pilote la politique d’archivage des ministères en charge du travail, de la santé et des sports. A ce titre, elle exerce également des missions de contrôle au nom des Archives de France (Ministère de la culture).

« Je suis convaincue de l’intérêt que peuvent présenter les techniques métiers des archivistes pour l’exploitation des données produites par les administrations. Orientée vers l’évaluation et la sélection des données, ces savoir-faire contribuent à l’identification des différentes sources d’information et rend possible des traitements ultérieurs en vue de leur pérennisation et de leur réutilisation.

Le dispositif EIG doit permettre d’expérimenter les conditions de leur transposition pour l’automatisation de ces traitements sur des données non structurées. L’expertise de haut niveau des EIG constitue une opportunité pour enrichir la réflexion. Leur action s’inscrira dans une équipe projet pluridisciplinaire ouverte sur des projets interministériels et leur permettra d’être accompagnés dans l’appréhension du contexte tout en bénéficiant d’autonomie, d’un large spectre de données tests et d’un environnement de travail adapté. »

En savoir plus : le pitch du défi en 4 slides