Formation

Parcours académique en informatique, spécialisé en Traitement Automatique du Langage (TAL/NLP) et Intelligence Artificielle.

Doctorat

Doctorat en Informatique

Spécialité : Traitement Automatique du Langage

Aix-Marseille Université — LIS (Laboratoire d'Informatique et Systèmes)

Thèse

Extraction d'événements à partir de fac-similés de documents anciens pour les études en histoire

À l'heure de la numérisation massive des sources historiques, l'extraction automatique des événements est une étape cruciale dans le traitement des textes historiques. Le traitement des événements est un domaine de recherche actif dans la communauté du traitement automatique du langage naturel, mais les ressources et les systèmes sont principalement développés pour le traitement des textes contemporains. Dans ce contexte, cette thèse vise à extraire automatiquement des événements à partir de documents historiques. Elle propose des échanges pluridisciplinaires afin d'adapter les ontologies récentes à des fins de recherche en histoire. Au-delà des besoins spécifiques des humanités numériques, les documents historiques OCRisés datant de plus d'un siècle posent des problèmes majeurs en TAL (diachronie, qualité, adaptation au domaine). Des techniques d'adaptation au domaine combinant architectures spécialisées et prétraitements permettent de réduire l'impact de ces difficultés. Sur la base d'un paradigme récent consistant à traduire des tâches comme un problème de questions-réponses, un pipeline d'extraction d'événements est proposé : de l'extraction d'un mot déclencheur dans une phrase à la représentation de plus d'un siècle d'événements sous forme de graphes.

NLP NER Transfer Learning Transformers OCR Chinois historique Python PyTorch
Master

Master Informatique

Spécialité : Traitement Automatique du Langage & Ingénierie des Connaissances (TALIC)

Aix-Marseille Université

NLP Machine Learning Ingénierie des connaissances Python Java
Licence

Licence Mathématiques-Informatique

Université de Toulon

Algorithmique Mathématiques C/C++ Java