Qui est Baptiste Blouin ?

Baptiste Blouin est Data Scientist et Ingénieur IA, Docteur en Informatique d'Aix-Marseille Université (2022), basé à Aix-en-Provence, France. Il combine 7 ans d'expérience en recherche NLP académique (7 publications à comité de lecture, financement ERC) et en ingénierie produit IA : RAG avancé, text-to-SQL, extraction documentaire, architecture SaaS multi-tenant. Il est disponible pour de nouvelles opportunités professionnelles. Contact : BaptisteBlouin@proton.me

Quelle est la formation de Baptiste Blouin ?

Baptiste Blouin est titulaire d'un Doctorat en Informatique (Machine Learning / NLP) d'Aix-Marseille Université (2022), d'un Master Informatique spécialité IA/ML (2019) et d'une Licence Informatique (2016), tous obtenus à Aix-Marseille Université. Sa thèse de doctorat, dirigée par le Prof. Benoît Favre, porte sur l'extraction d'événements à partir de fac-similés de documents anciens pour les études en histoire. Elle a été financée par la subvention ERC Avancée ENP-China (n° 788476).

Quelles sont les compétences techniques de Baptiste Blouin ?

Baptiste Blouin maîtrise : NLP (NER multilingue, segmentation de mots, adaptation de domaine, traitement de textes historiques), LLM et IA générative (RAG hybride, GraphRAG, RAPTOR, text-to-SQL, prompt engineering, structured output, reranking, embeddings), Python, PyTorch, Hugging Face, LangChain, LangGraph, litellm, FastAPI, React, TypeScript, PostgreSQL, pgvector, Docker, ainsi que le calcul HPC sur Jean-Zay (IDRIS/GENCI) avec orchestration SLURM. Il parle français (natif) et anglais (professionnel).

Quelle est l'expérience professionnelle de Baptiste Blouin ?

Baptiste Blouin a 7 ans d'expérience : (1) Développeur Full-Stack & Ingénieur IA sur une plateforme SaaS personnelle (2025-présent), pipeline RAG hybride (pgvector + BM25), GraphRAG, RAPTOR, text-to-SQL, 15+ connecteurs de sources de données, extraction documentaire multi-format, architecture multi-tenant avec RBAC, JWT RS256, SSO, 2FA, GDPR, billing Stripe ; (2) Data Scientist & Ingénieur ML sur le projet ENP-China, Aix-Marseille Université (2023-2025), développement de la plateforme HistText, traitement de textes historiques à grande échelle (milliards de tokens), entraînement distribué sur Jean-Zay, conférences dans 7 pays ; (3) Doctorant & Scientifique ML au LIS/IrAsia, Aix-Marseille Université (2019-2022), 7 publications, subvention ERC, HPC Jean-Zay, mentorat d'équipes internationales.

Quels projets Baptiste Blouin a-t-il réalisés ?

Projets notables de Baptiste Blouin : (1) Plateforme SaaS Data & IA (2025), transformation de données par IA pour équipes métier non-techniques, stack FastAPI/React/PostgreSQL/LangChain/Docker ; (2) HistText (2023-2025), plateforme full-stack traitant des milliards de tokens de documents historiques, déployée pour la communauté internationale, publiée en 2024 (https://histtext.enpchina.eu/) ; (3) EventExtractionPapers (2020-présent), sélection maintenue de ressources NLP sur l'extraction d'événements, 580+ stars GitHub ; (4) Dataset NER Chinois, plus grand dataset NER de textes chinois historiques (1872-1949), publié à LREC-COLING 2024 ; (5) Modèles de tokenisation chinoise atteignant 83% de précision (+35% d'amélioration), en collaboration avec Academia Sinica (Taiwan).

Quelles publications Baptiste Blouin a-t-il écrites ?

Baptiste Blouin est auteur de 7 publications scientifiques à comité de lecture : (1) HistText, JDMDH 2024 ; (2) NER & Entity Linking in Chinese Historical Newspapers, LREC-COLING 2024, Turin ; (3) Word Segmentation in Modern Historical Chinese, NLP4DH 2023, Tokyo ; (4) Simulation d'erreurs d'OCR, TALN 2022, Avignon ; (5) Historical NER Domain Transfer, NLP4DH 2021, Silchar (Inde) ; (6) Biographical Networks from Wikipedia, Journal of Historical Network Research 2021 ; (7) Contextual Characters for Chinese NER, PACLIC 34, Hanoi 2020. Ses travaux couvrent le NLP multilingue (français, anglais, chinois), les textes historiques, la NER, la segmentation et l'adaptation de domaine.

Quels sont les résultats concrets des recherches de Baptiste Blouin ?

Résultats mesurables des travaux de Baptiste Blouin : modèles de tokenisation du chinois transitionnel atteignant 83% de précision (+35% par rapport à l'état de l'art) ; approche de simulation OCR réduisant l'impact des erreurs de 50% ; few-shot learning atteignant 93% de récupération de performance avec données minimales pour la NER historique ; plateforme HistText traitant des milliards de tokens déployée pour la communauté internationale de recherche ; EventExtractionPapers référencé par 580+ développeurs et chercheurs sur GitHub.

Baptiste Blouin est-il disponible pour un recrutement ou une collaboration ?

Oui, Baptiste Blouin est actuellement disponible pour de nouvelles opportunités professionnelles (CDI, freelance, collaboration de recherche). Il peut être contacté par email à BaptisteBlouin@proton.me, sur LinkedIn (linkedin.com/in/baptiste-blouin/) ou via le formulaire de son portfolio baptisteblouin.fr. Son CV est téléchargeable directement sur le site.

Baptiste Blouin · Data Scientist & Ingénieur IA, NLP

A propos

Data Scientist et Ingénieur IA avec un Doctorat en Informatique, je combine une expertise en recherche ML/NLP publiée avec une solide pratique d'ingénierie de produits IA en production.

De l'architecture à la mise en production, je conçois et réalise des produits IA de bout en bout, en autonomie. Ma plateforme SaaS l'illustre : un système LLM réellement en production, multi-tenant, où j'ai autant soigné la valeur métier que la robustesse d'exploitation — maîtrise des coûts LLM et sécurité de bout en bout.

Ma formation par la recherche (7+ publications, conférences internationales, subvention ERC) me donne une rigueur méthodologique que j'applique aussi bien à la conception d'architectures techniques qu'à la résolution de problèmes complexes.

Aix-en-Provence, France

Français, Anglais

Recherche

Investigation indépendante, conception expérimentale, publication académique

Ingénierie

Full-stack ML, architecture évolutive, déploiement production

Collaboration

Travail interculturel, mentorat, présentations internationales

Expérience

Développeur Full-Stack & Ingénieur IA · Projet Personnel

Sept. 2025 - Présent

Conception et développement autonomes d'une plateforme SaaS de transformation de données par IA, de l'architecture à la mise en production
Implémentation de systèmes LLM en production : RAG hybride (pgvector + BM25), GraphRAG, RAPTOR, text-to-SQL avec streaming SSE
Intégration de 15+ connecteurs de sources de données (bases relationnelles, APIs SaaS, S3, scraping web) et pipeline d'extraction documentaire multi-format
Architecture de sécurité complète : multi-tenant, RBAC, JWT RS256, SSO, 2FA, GDPR, audit logging, billing Stripe
Conçu pour rendre la donnée accessible aux équipes métier non-techniques : requêtes en langage naturel, extraction automatique de documents (contrats, factures, PDF), assistants IA spécialisés par domaine

Data Scientist & Ingénieur ML

Projet ENP-China · Aix-Marseille Université

Janv. 2023 - Août 2025

Chercheur principal et développeur pour la plateforme HistText, gestion de projet indépendante
Exploration et résolution de défis ML complexes dans le traitement de textes historiques à grande échelle
Communication de concepts techniques par ateliers et conférences dans 7 pays
Collaboration interdisciplinaire avec historiens, linguistes et informaticiens internationaux
Entraînement distribué de modèles de langue et NLP à grande échelle sur Jean-Zay (IDRIS/GENCI), orchestration SLURM

Doctorant & Scientifique ML

Laboratoire LIS / IrAsia · Aix-Marseille Université

Sept. 2019 - Déc. 2022

Recherche indépendante sur subvention ERC Avancée européenne, apprentissage auto-dirigé
Publié 7 articles à comité de lecture, rédaction technique et communication
Présenté la recherche dans des conférences internationales (PACLIC, NLP4DH, TALN, LREC-COLING)
Mentoré et collaboré avec équipes de recherche internationales
Calcul HPC sur le cluster du LIS, CC-IN2P3 et Jean-Zay (IDRIS/GENCI) : entraînement de modèles de langue et NLP (NER, segmentation de mots, adaptation de domaine)

Projets Clés

Plateforme Data & IA SaaS

Projet personnel · en production

2025 –

Plateforme SaaS d'analyse de données par IA, multi-tenant et en production, conçue et développée seule de A à Z (backend, frontend, infrastructure). Pipeline RAG hybride (pgvector + recherche full-text, GraphRAG, RAPTOR, reranking cross-encoder), moteur text-to-SQL avec streaming SSE, extraction documentaire multi-format (PDF, DOCX, images via OCR/VLM) et 15+ connecteurs async (PostgreSQL, MySQL, MSSQL, MongoDB, S3, APIs SaaS OAuth2, scraping). Maîtrise des coûts LLM : routing multi-provider (litellm), caching et suivi des coûts (Langfuse). Sécurité LLM de bout en bout : isolation multi-tenant stricte, validation AST du SQL généré, sandboxing du code, RBAC, JWT RS256, SSO, 2FA, chiffrement Fernet, conformité RGPD, audit logging. Observabilité OpenTelemetry/Prometheus, orchestration Celery, prédictions AutoML, billing Stripe.

RAG hybridetext-to-SQLGraphRAGRAPTORMaîtrise des coûts LLMSécurité LLMObservabilitémulti-tenantFastAPIReactTypeScriptpgvectorlitellmLangfuseCeleryDockerStripe

Démo live En production

HistText

Plateforme d'Analyse de Textes à Grande Échelle

2023 - 2025

Plateforme full-stack pour l'analyse de textes historiques chinois à grande échelle (milliards de tokens). Backend Rust haute performance, API REST, interface React avec visualisations interactives (graphes réseau, chronologies), moteur de recherche full-text Apache Solr, pipeline NER multilingue, et package client R (histtext) publié sur CRAN. Déployée pour la communauté internationale de recherche en histoire numérique dans le cadre du projet ENP-China (subvention ERC Avancée).

RustReactPythonRPostgreSQLApache SolrDockerNER

Démo live GitHub JDMDH 2024

EventExtractionPapers

Ressource communautaire Open Source

2019 - 2024

Sélection de ressources NLP dédiées à l'extraction d'événements : papiers, datasets, modèles et code. Référence largement utilisée par la communauté de recherche NLP internationale, avec 580+ étoiles GitHub. Maintenue de 2019 à 2024.

NLPEvent ExtractionOpen Source

GitHub 580+ stars

ENP-Corpus Creator

Pipeline OCR & Annotation

2024

Suite d'outils transformant des images numérisées de journaux historiques en corpus sémantiquement enrichis. Pipeline complet : OCR via Google Cloud Vision, interface d'annotation web interactive avec raccourcis clavier, export aux formats standards (CoNLL, JSON). Conçu pour des documents multilingues complexes (chinois, anglais, français).

PythonGoogle Vision APIWebOCR

Article

Dataset NER Chinois & Pipeline ML

Ingénierie de Données & ML

2023 - 2024

Le plus grand dataset NER annoté de textes chinois historiques (1872-1949), couvrant personnes, lieux et organisations dans les journaux de Shanghai. Pipeline de contrôle qualité automatisé, benchmarks reproductibles avec modèles BERT fine-tunés, et données librement disponibles pour la communauté.

PythonPostgreSQLAnnotationML PipelineBERT

LREC-COLING 2024

Modèle de Langue & Tokenisation Chinoise

Développement de Modèles ML

2023

Fine-tuning de modèles de segmentation pour le chinois transitionnel, en collaboration avec Academia Sinica. Atteint 83% de précision (+35% d'amélioration par rapport aux baselines), en explorant différentes stratégies d'adaptation de domaine pour une variété linguistique peu documentée.

PyTorchTensorFlowTokenisationFine-tuning

NLP4DH 2023

Simulation OCR & Robustesse ML

Recherche Expérimentale

2022

Framework d'augmentation de données simulant les artefacts OCR (substitutions, suppressions, insertions de caractères) observés dans les documents historiques numérisés. Réduit l'impact des erreurs OCR de 50% sur les tâches NER et de classification, avec un benchmark standardisé pour évaluer la robustesse des modèles.

PyTorchTransformersData Augmentation

TALN 2022

Transfer Learning & Adaptation au Domaine Historique

Développement & Optimisation ML

2021

Étude des stratégies de transfert d'apprentissage pour la NER sur textes historiques chinois avec données annotées limitées. Approche few-shot atteignant 93% de récupération des performances d'un modèle supervisé complet, en explorant des architectures character-aware et des techniques de fine-tuning adaptatif.

BERTTransformersFew-shotAdaptation

NLP4DH 2021

Compétences

Langages

Python Rust JavaScript / TypeScript Java C++ R SQL

LLM & IA Générative

litellm LangChain LangGraph Langfuse Prompt Engineering Structured Output Routing Multi-provider & Fallback RAG GraphRAG RAPTOR Recherche Hybride (BM25 + Vector) Reranking (Cross-Encoder) Embeddings Vector Search VLM (Vision Language Models) Text-to-SQL Suivi de Coûts LLM

Développement Full-Stack

React Vue.js TailwindCSS D3.js Shiny Node.js FastAPI Flask SQLAlchemy Pydantic Async Python REST API WebSockets Auth / RBAC pytest / TDD Playwright Git CI/CD

Infrastructure & DevOps

PostgreSQL MySQL pgvector Elasticsearch Apache Solr Redis Celery Alembic Docker Nginx S3 / MinIO Prometheus / Grafana OpenTelemetry GCP Linux Jean-Zay / IDRIS SLURM CC-IN2P3 Cluster LIS

NLP & Traitement de Documents

spaCy NLTK NER Multilingue Extraction d'Événements Transfer Learning Adaptation de Domaine Segmentation de Mots Annotation de Données OCR (Docling, Google Cloud Vision) Traitement de Textes Historiques

Recherche & Communication

Publications Scientifiques Méthodologie Scientifique Conception Expérimentale Rédaction Technique & Publication Présentations Internationales Revue de Littérature Mentorat Collaboration Interculturelle LaTeX

ML & Data Science

PyTorch TensorFlow Hugging Face scikit-learn FLAML / AutoML Sentence Transformers NetworkX UMAP Analyse Statistique

Publications

Recherche sémantique ou question en langage naturel sur mes 7 publications, via mon assistant IA.

2024

HistText: An Application for Leveraging Large-Scale Historical Textbases

Baptiste Blouin, C. Armand, C. Henriot

JDMDH 2024 : Journal of Data Mining & Digital Humanities

Cet article présente HistText, un outil pionnier conçu pour faciliter la fouille de données à grande échelle dans les documents historiques, en ciblant spécifiquement les sources chinoises. Développé en réponse aux défis posés par l'immense base textuelle Modern China, HistText permet d'extraire et de visualiser efficacement des informations précieuses à partir de milliards de mots répartis sur des millions de documents. Avec une interface conviviale, des techniques avancées d'analyse de texte et de puissantes capacités de visualisation, HistText offre une plateforme robuste pour la recherche en humanités numériques. Disponible sur histtext.enpchina.eu.

Paper · HAL · GitHub

2024

A Dataset for Named Entity Recognition and Entity Linking in Chinese Historical Newspapers

Baptiste Blouin, C. Armand, C. Henriot

LREC-COLING 2024, Torino, Italy

Dans cette étude, nous présentons un nouveau corpus chinois historique pour la reconnaissance d'entités nommées, le liage d'entités, la coréférence et les relations entre entités. Nous utilisons des données issues de journaux chinois de 1872 à 1949 ainsi que des ressources bibliographiques multilingues de la même période. La période et la langue constituent la principale force de ce travail, offrant une ressource qui couvre différents styles et usages de la langue, et le plus grand corpus chinois historique annoté manuellement pour la NER sur cette période de transition. Après avoir détaillé le processus de sélection et d'annotation, nous présentons les tout premiers résultats que l'on peut obtenir à partir de ce corpus. Textes et annotations sont librement téléchargeables depuis le dépôt GitHub.

ACL Anthology

2023

Unlocking Transitional Chinese: Word Segmentation in Modern Historical Texts

Baptiste Blouin, H.-H. Huang, C. Henriot, C. Armand

NLP4DH 2023, Tokyo, Japan

Cet article traite de la tokenisation TAL du chinois de transition (début du XXe siècle), en s'appuyant sur des articles du journal Shenbao. Après avoir évalué les outils de segmentation existants, un modèle sur mesure a été développé spécifiquement pour les données historiques. Le modèle final atteint plus de 83 % de précision, avec un F-score supérieur de 35 % à celui des outils existants. Les résultats montrent que le chinois de transition est plus proche du chinois ancien que du mandarin contemporain, nécessitant des modèles de langue spécifiquement entraînés sur des données historiques. Le nouveau corpus annoté ouvre la voie à de futures améliorations des performances.

ACL Anthology

2022

Simulation d'erreurs d'OCR dans les systèmes de TAL pour le traitement de données anachroniques

Baptiste Blouin, B. Favre, J. Auguste

TALN 2022 (JEP-TALN-RECITAL), Avignon, France

L'extraction d'information offre de nouvelles perspectives au sein des recherches historiques. Cependant, la majorité des recherches liées à ce domaine s'effectue sur des données contemporaines. Malgré l'évolution constante des systèmes d'OCR, les textes historiques résultant de ce procédé contiennent toujours de multiples erreurs. Les auteurs quantifient l'impact des erreurs OCR sur trois tâches d'extraction d'information avec des architectures Transformer, et proposent une approche réduisant cet impact de plus de 50% sans nécessiter de ressources historiques spécialisées.

ACL Anthology

2021

Transferring Modern Named Entity Recognition to the Historical Domain: How to Take the Step?

Baptiste Blouin, B. Favre, J. Auguste, C. Henriot

NLP4DH 2021, Silchar, India

La reconnaissance d'entités nommées présente un grand intérêt pour les humanités numériques, en particulier pour la fouille de documents historiques. Bien que la tâche soit mature en TAL, les résultats des modèles contemporains ne sont pas satisfaisants sur des documents difficiles : genres hors domaine, sorties OCR bruitées ou variantes anciennes de la langue cible. Dans cet article, nous étudions comment les méthodes de transfert de modèles, face à ces défis, peuvent améliorer la NER historique selon l'effort consacré à décrire les données cibles, à annoter manuellement de petites quantités de textes ou à apparier les ressources de pré-entraînement. Nous menons des expériences approfondies avec l'architecture Transformer sur les corpus historiques LitBank et HIPE. Elles montrent qu'annoter 250 phrases permet de récupérer 93 % des performances obtenues avec l'ensemble des données lorsque les modèles sont pré-entraînés, que le choix des données de pré-entraînement auto-supervisé et orienté tâche est crucial en zero-shot, et que les erreurs OCR peuvent être traitées en simulant du bruit sur les données de pré-entraînement et en recourant à des Transformers récents sensibles aux caractères.

ACL Anthology

2021

Creating Biographical Networks from Chinese and English Wikipedia

Baptiste Blouin, N. van den Bosch, P. Magistry

Journal of Historical Network Research, Vol. 5, No. 1

Avec l'essor des humanités numériques, les historiens explorent de nouvelles façons d'exploiter intellectuellement les sources textuelles grâce aux outils informatiques actuels. Le projet ENP-China emploie des méthodes de traitement automatique du langage pour exploiter les sources à une échelle sans précédent, dans le but d'étudier la transformation des élites de la Chine moderne (1830-1949). Un vaste corpus de 228 144 biographies Wikipédia en chinois et 110 713 en anglais est enrichi de métadonnées recensant chaque personne, organisation, entité géopolitique et lieu mentionnés, reliés entre les langues. Cette structure de données permet d'analyser les relations via des contenus biographiques partagés et de comparer les réseaux selon la langue. Une interface en ligne fondée sur une structure de graphe biparti permet d'interroger et d'explorer le jeu de données.

JHNR · HAL

2020

Contextual Characters with Segmentation Representation for Named Entity Recognition in Chinese

Baptiste Blouin, P. Magistry

PACLIC 34, Hanoi, Vietnam

La reconnaissance d'entités nommées (NER) est une tâche typique d'étiquetage de séquences. Elle reste difficile pour le chinois, en partie à cause de l'absence de frontières typographiques claires entre les mots. Des approches récentes ont montré que les modèles fondés sur les caractères manquent d'informations sur des unités plus larges (les mots) utiles à la NER, tandis que les modèles fondés sur les mots peuvent souffrir d'erreurs de segmentation et d'un taux plus élevé de tokens hors vocabulaire. Dans cet article, nous proposons une nouvelle représentation des sinogrammes (caractères chinois) enrichie d'informations sur les frontières de mots, à partir de laquelle différents types de plongements peuvent être construits. Les expériences montrent que notre solution surpasse les autres modèles de l'état de l'art. Le pipeline entièrement ré-entraînable ne dépend d'aucun modèle pré-entraîné et peut être entraîné en quelques jours sur du matériel courant.

ACL Anthology

Formation

2022

Doctorat en Informatique (Machine Learning)

Aix-Marseille Université

Thèse : Extraction d'événements à partir de fac-similés de documents anciens pour les études en histoire

Directeur : Prof. Benoit Favre, subvention ERC Avancée ENP-China (n° 788476)

Lire la thèse

2019

Master Informatique (IA/ML)

Aix-Marseille Université

2016

Licence Informatique

Aix-Marseille Université

Veille IA

Résumés sourcés de l'IA / ML, générés automatiquement deux fois par jour à partir d'une sélection de flux RSS, avec un récap hebdomadaire le dimanche soir.

Chargement de la veille…

Contact

N'hésitez pas à me contacter pour discuter d'opportunités, de collaborations ou simplement pour échanger.

Disponible pour de nouvelles opportunités

Télécharger mon CV

[email protected]

LinkedIn GitHub Google Scholar HAL ORCID

Bonjour, je suis Baptiste Blouin

A propos

Recherche

Ingénierie

Collaboration

Expérience

Développeur Full-Stack & Ingénieur IA · Projet Personnel

Data Scientist & Ingénieur ML

Doctorant & Scientifique ML

Projets Clés

Plateforme Data & IA SaaS

HistText

EventExtractionPapers

ENP-Corpus Creator

Dataset NER Chinois & Pipeline ML

Modèle de Langue & Tokenisation Chinoise

Simulation OCR & Robustesse ML

Transfer Learning & Adaptation au Domaine Historique

Compétences

Langages

LLM & IA Générative

Développement Full-Stack

Infrastructure & DevOps

NLP & Traitement de Documents

Recherche & Communication

ML & Data Science

Publications

HistText: An Application for Leveraging Large-Scale Historical Textbases

A Dataset for Named Entity Recognition and Entity Linking in Chinese Historical Newspapers

Unlocking Transitional Chinese: Word Segmentation in Modern Historical Texts

Simulation d'erreurs d'OCR dans les systèmes de TAL pour le traitement de données anachroniques

Transferring Modern Named Entity Recognition to the Historical Domain: How to Take the Step?

Creating Biographical Networks from Chinese and English Wikipedia

Contextual Characters with Segmentation Representation for Named Entity Recognition in Chinese

Formation

Doctorat en Informatique (Machine Learning)

Master Informatique (IA/ML)

Licence Informatique

Veille IA

Contact