Doctorat en Informatique
Spécialité : Traitement Automatique du Langage
Aix-Marseille Université — LIS (Laboratoire d'Informatique et Systèmes)
Thèse
Extraction d'événements à partir de fac-similés de documents anciens pour les études en histoire
À l'heure de la numérisation massive des sources historiques, l'extraction automatique des événements est une étape cruciale dans le traitement des textes historiques. Le traitement des événements est un domaine de recherche actif dans la communauté du traitement automatique du langage naturel, mais les ressources et les systèmes sont principalement développés pour le traitement des textes contemporains. Dans ce contexte, cette thèse vise à extraire automatiquement des événements à partir de documents historiques. Elle propose des échanges pluridisciplinaires afin d'adapter les ontologies récentes à des fins de recherche en histoire. Au-delà des besoins spécifiques des humanités numériques, les documents historiques OCRisés datant de plus d'un siècle posent des problèmes majeurs en TAL (diachronie, qualité, adaptation au domaine). Des techniques d'adaptation au domaine combinant architectures spécialisées et prétraitements permettent de réduire l'impact de ces difficultés. Sur la base d'un paradigme récent consistant à traduire des tâches comme un problème de questions-réponses, un pipeline d'extraction d'événements est proposé : de l'extraction d'un mot déclencheur dans une phrase à la représentation de plus d'un siècle d'événements sous forme de graphes.