Projets

Projets personnels et de recherche couvrant l'IA générative, le NLP, l'ingénierie de données et l'architecture SaaS. Code source : GitHub

Plateforme Data & IA SaaS

Projet Personnel — En développement

Plateforme SaaS full-stack de transformation et d'analyse de données par IA, conçue et développée de façon autonome. Intègre un pipeline RAG avancé (hybride pgvector + BM25, GraphRAG, RAPTOR), un moteur text-to-SQL avec streaming SSE, une extraction documentaire multi-format (PDF, DOCX, images via OCR), et 15+ connecteurs de sources de données (bases relationnelles, APIs SaaS, S3, scraping web). Architecture multi-tenant avec isolation complète, RBAC, JWT RS256, SSO, 2FA, conformité RGPD, audit logging et billing Stripe.

FastAPIReactTypeScriptPostgreSQLpgvectorLangChainLangGraphlitellmCeleryDockerRedisStripe

HistText

Plateforme d'Analyse de Textes à Grande Échelle

Plateforme full-stack pour l'analyse de textes historiques chinois à grande échelle (milliards de tokens). Backend Rust haute performance, API REST, interface React avec visualisations interactives (graphes réseau, chronologies), moteur de recherche full-text Apache Solr, pipeline NER multilinguue, et package client R (histtext) publié sur CRAN. Déployée pour la communauté internationale de recherche en histoire numérique dans le cadre du projet ENP-China (subvention ERC Avancée).

RustReactPythonRPostgreSQLApache SolrDockerNER

EventExtractionPapers

Ressource communautaire Open Source

Liste curated et maintenue de ressources NLP dédiées à l'extraction d'événements : papiers, datasets, modèles et code. Référence largement utilisée par la communauté de recherche NLP internationale, avec 580+ étoiles GitHub. Maintenu activement depuis 2020.

NLPEvent ExtractionOpen Source

ENP-Corpus Creator

Pipeline OCR & Annotation

Suite d'outils transformant des images numérisées de journaux historiques en corpus sémantiquement enrichis. Pipeline complet : OCR via Google Cloud Vision, interface d'annotation web interactive avec raccourcis clavier, export aux formats standards (CoNLL, JSON). Conçu pour des documents multilingues complexes (chinois, anglais, français).

PythonGoogle Vision APIWebOCR

Dataset NER Chinois & Pipeline ML

Ingénierie de Données & ML

Le plus grand dataset NER annoté de textes chinois historiques (1872–1949), couvrant personnes, lieux et organisations dans les journaux de Shanghai. Pipeline de contrôle qualité automatisé, benchmarks reproductibles avec modèles BERT fine-tunés, et données librement disponibles pour la communauté.

PythonPostgreSQLAnnotationML PipelineBERT

Modèle de Langue & Tokenisation Chinoise

Développement de Modèles ML

Fine-tuning de modèles de segmentation pour le chinois transitionnel, en collaboration avec Academia Sinica. Atteint 83% de précision (+35% d'amélioration par rapport aux baselines), en explorant différentes stratégies d'adaptation de domaine pour une variété linguistique peu documentée.

PyTorchTensorFlowTokenisationFine-tuning

Simulation OCR & Robustesse ML

Recherche Expérimentale

Framework d'augmentation de données simulant les artefacts OCR (substitutions, suppressions, insertions de caractères) observés dans les documents historiques numérisés. Réduit l'impact des erreurs OCR de 50% sur les tâches NER et de classification, avec un benchmark standardisé pour évaluer la robustesse des modèles.

PyTorchTransformersData Augmentation

Transfer Learning & Adaptation au Domaine Historique

Développement & Optimisation ML

Étude des stratégies de transfert d'apprentissage pour la NER sur textes historiques chinois avec données annotées limitées. Approche few-shot atteignant 93% de récupération des performances d'un modèle supervisé complet, en explorant des architectures character-aware et des techniques de fine-tuning adaptatif.

BERTTransformersFew-shotAdaptation