Entre le Département et l’UVSQ, un partenariat pour mettre l’IA au service de l’étude d’archives

Le département des Yvelines (via les Archives départementales, basées à Montigny) collabore avec l’UVSQ (et plus largement l’université Paris-Saclay, dont est membre l’UVSQ) pour la consultation et la transcription de documents anciens manuscrits grâce à l’Intelligence artificielle (IA). Une convention de partenariat a été votée en ce sens lors du conseil départemental du 21 novembre dernier.

Ce partenariat, d’une durée de 3 ans, « va permettre aux chercheurs et aux étudiants d’analyser 7 000 pages d’archives grâce à l’IA », peut-on lire dans un dossier de presse du Département. « Une méthode qui entend accélérer la recherche et la valorisation du patrimoine archivistique des Yvelines, poursuit le conseil départemental dans son dossier de presse. Ce partenariat en matière de recherche appliquée à l’intelligence artificielle porte sur des archives des XVe, XVIe et XVIIe siècles. » « Ce sont les bibliothèques qui vont être du XVe au XVIIIe siècle, mais c’est sur le corpus des bibliothèques séquestrées », précise Hélène Guichard-Spica, directrice même des Archives départementales des Yvelines, contactée par La Gazette.

Le projet en question lié à ce partenariat porte sur des registres de séquestres révolutionnaires datant de cette période, notamment de la Révolution française. « Tous les biens des nobles qui émigrent à cette époque pour fuir la France et ne pas perdre leur tête sont nationalisés et séquestrés. À partir de 1790, on va faire des listes des biens séquestrés. Ce sont des listes très détaillées, bien souvent elles sont plus détaillées que les inventaires après décès qui sont faits à cette époque […]. L’idée est de travailler sur les listes des bibliothèques séquestrées », explique Hélène Guichard-Spica.

Et de poursuivre : « Pourquoi les bibliothèques ? Car ça a des intérêts qui vont être très larges. Ça va donner une sorte d’aperçu sur l’environnement social et une tranche de vie assez particulière qui est tout à fait intéressante à travailler. Les bibliothèques, c’est vraiment rentrer dans la manière dont les gens pensent le monde, accèdent à de la connaissance, se représentent le monde. C’est une part de leur imaginaire et de leur façon de structurer le monde. » Un axe de travail intéressant, surtout dans les Yvelines, où « on a vraiment la proximité avec la cour, donc on va avoir tous les biens séquestrés de la famille royale et des gens de la cour, mais aussi tous les gens qui gravitent autour de la cour », souligne la directrices des Archives départementales.

« Donc on a un milieu social à la fois d’une certaine manière uniforme, mais en même temps, il y a quand même une très grande diversité sociologique des acteurs qui travaillent pour le roi, c’est pour ça que cet environnement de Versailles et des environs est très intéressant à travailler, continue-t-elle. D’autant plus qu’on va avoir à la fois des bibliothèques d’hommes, mais aussi de femmes. Donc on va aussi pouvoir travailler sur les représentations mentales de cette société […]. Et, comme on est autour de la cour du roi, on va avoir une grosse volumétrie de bibliothèques : c’est des gens qui possédaient des livres, une culture, donc va vraiment avoir quelque chose d’assez volumineux. »

La directrice rappelle aussi qu’aux Archives, « on est familiers de ces projets, il y en a plusieurs en cours dans plusieurs universités françaises, avec plusieurs services d’archives départementaux ». « Nous-mêmes, dans les Yvelines, on avait lancé un 1er projet de ce type il y a très longtemps, en 2003, et c’était un projet de reconnaissance des caractères manuscrits, qu’on avait travaillés avec l’INRIA, évoque-t-elle. Les algorithmes de reconnaissance n’étaient pas du tout assez puissants, c’était trop complexe et trop lent, donc on a abandonné ce projet en 2005. [Mais] maintenant, on arrive à un niveau de maturité suffisant, les puissances de calcul sont correctes. On parle beaucoup d’IA, mais en fait, c’est du travail informatique, de l’automatisation, de la reconnaissance des algorithmes qu’on entraîne, et qui vont permettre d’accélérer une partie des processus. »

L’outil utilisé se nomme eScriptorium, un outil de reconnaissance d’écritures manuscrites et transcription automatique des documents. Pour l’utiliser, il va d’abord falloir effectuer un travail qui « va être, déjà, de numériser, de faire passer ces outils, indique Hélène Guichard-Spica. Il faut entraîner l’algorithme à chaque fois sur son propre corpus. Il y a déjà des éléments pré-entraînés, donc on va l’entraîner sur notre propre corpus, car un document manuscrit peut prendre plein de formes : une forme en ligne classique, il peut être dans un registre, ce qui va être notre cas, avec des cellules, des zones, où l’écriture manuscrite va être à certains endroits et donc à [ces endroits-là], ça va signifier certains éléments […]. »

Ainsi, « plus [l’outil] va être entraîné, plus il va aller vite et sortir les éléments textuels, poursuit la directrice. Et à partir de ces éléments textuels, on va mettre des balises d’indexation, qu’on va entraîner aussi, et donc avoir après un corpus complètement indexé, automatiquement. […] À partir des corpus pré-entraînés, ça va pouvoir être étendu à tout un corpus large d’images, qui vont recevoir cet entraînement, et donc on va pouvoir automatiser le travail d’indexation et de reconnaissance. Au lieu de transcrire ligne à ligne, c’est la machine qui va le faire à notre place. »

Une étude de séquestres révolutionnaires de bibliothèques

L’outil est déjà installé sur les serveurs du Département et a fait l’objet de tests, en mars dernier. Des essais concluants, selon Hélène GuichardSpica : « Il fonctionne très bien. […]On a fait des tests avec des documents qui n’étaient pas simples à reconnaître, il faut le tester avec des choses plus simples pour que l’entraînement aille plus vite. Et là, les séquestres révolutionnaires, c’est extrêmement normé […], donc je pense que la réponse va être très efficace ». Les séquestres révolutionnaires de bibliothèques, qui présentent l’avantage de proposer « une description très f ine des ouvrages », assure la directrice des Archives départementales. « Vous avez le nom, le lieu des propriétaires des livres, la liste des ouvrages, des auteurs, le titre de chacun des livres, l’indication du lieu, de la date d’édition, du nombre de volumes », détaille-t-elle.

Les Archives départementales envisagent donc désormais d’ouvrir cette technologie à l’UVSQ. « L’idée, c’est vraiment de travailler ça avec l’université de façon beaucoup large et ouverte, de faire travailler aussi des étudiants sur ces outils, aussi pour les accoutumer à l’usage de ces outils dans le cadre de leurs recherches, affirme Hélène GuichardSpica. Ça a une valeur à la fois pédagogique et scientifique, pour qu’on obtienne une amélioration continue dans l’accès à l’information manuscrite. »

L’utilisation de l’outil eScriptorium constituerait en effet une vraie révolution. « [Avant], on avait 2 possibilités. Soit il y avait quelqu’un qui faisait la transcription complète : on lit, on transcrit. Ça s’est beaucoup fait pendant les XIXe et XXe siècles. [Soit], ce qu’on a fait, nous, ces dernières années, pour aller plus vite, c’est ce qu’on appelle de l’annotation collective : on peut avoir des corpus qui sont transcrits, et derrière, il faut faire de l’indexation. Donc on mettait des corpus en ligne, et on proposait à tout un chacun d’indexer ce corpus », fait savoir la directrice des Archives, qui ajoute toutefois qu’elle n’a pas encore évalué le gain de temps.

Les 1ers travaux d’étudiants de l’UVSQ liés à ce partenariat devraient intervenir au « 1er semestre 2026 », annonce Hélène Guichard-Spica. « [Le partenariat] démarre cette année, car il me fallait la convention pour pouvoir l’officialiser et le démarrer. L’université a reçu les crédits qui vont bien pour pouvoir payer tous les développements nécessaires, et on le démarre à partir de maintenant. On a fait une phase de cadrage, de validation du projet, la phase d’organisation est calée, et maintenant on va le démarrer. On lance les opérations à partir de début 2026 », développe-t-elle.

L’outil ne se destinera sans doute pas à tous mais à une partie des étudiants de l’UVSQ, ceux dont les projets seront liés aux documents et aux thématiques traitées. « On va prendre des petits groupes d’étudiants qui vont réaliser des projets et qui vont pouvoir travailler sur l’outil », glisse Hélène Guichard-Spica.

Le travail avec cet outil s’effectuera uniquement en ligne, à distance. « On travaille derrière un écran,on charge des images dans une base, et après, c’est un outil à disposition avec des accès spécif iques, mais on travaille avec son écran d’ordinateur. Donc ils (les étudiants concernés, Ndlr) peuvent même travailler depuis chez eux », expose la directrice.

L’utilisation de l’outil sera gratuite, mais attention, tout étudiant ne peut pas l’installer gratuitement sur son ordinateur. « On va installer des serveurs dédiés pour notre outil, sur lequel on chargera nos images, précise-t-elle. Il faut installer les images – ça prend du volume –, installer les serveurs, mettre de la puissance de calcul derrière. Et ça, ce sera soit au Département, soit à l’UVSQ [de le faire]. Nous, on a déjà une instance installée au Département, on peut très bien imaginer qu’on mette des serveurs derrière, à voir avec l’UVSQ comment on règle cette partie technique. Ce sera le sujet du début de l’année, et après, on donnera un accès aux étudiants sur notre serveur. » Sollicitée, l’UVSQ ne nous a pas répondus avant la mise sous presse de cette édition.

PHOTO: ILLUSTRATION

Articles similaires

Ce site internet utilise des cookies pour mesurer son audience.