Disponible pour de nouvelles opportunités

Bonjour, je suis Baptiste Blouin

|

Data Scientist et Ingénieur IA avec un Doctorat en Informatique, combinant recherche ML/NLP et ingénierie produit : RAG, text-to-SQL, extraction documentaire, architecture SaaS.

0+ Publications
0+ Années d'expérience
0 Pays (ateliers)

A propos

Data Scientist et Ingénieur IA avec un Doctorat en Informatique, je combine une expertise en recherche ML/NLP publiée avec une pratique croissante de l'ingénierie produit.

J'ai conçu et développé de A à Z une plateforme SaaS de transformation de données par IA : pipeline RAG avancé (hybride, GraphRAG, RAPTOR), moteur text-to-SQL, extraction documentaire multi-format, connecteurs multi-sources et architecture multi-tenant.

Ma formation par la recherche (5+ publications, conférences internationales, subvention ERC) me donne une rigueur méthodologique que j'applique aussi bien à la conception d'architectures techniques qu'à la résolution de problèmes complexes.

Aix-en-Provence, France
Français, Anglais

Recherche

Investigation indépendante, conception expérimentale, publication académique

Ingénierie

Full-stack ML, architecture évolutive, déploiement production

Collaboration

Travail interculturel, mentorat, présentations internationales

Compétences

Langages

Python Rust JavaScript / TypeScript Java C++ R SQL

ML & Data Science

PyTorch TensorFlow Hugging Face scikit-learn FLAML / AutoML Sentence Transformers NetworkX UMAP Analyse Statistique

NLP & Traitement de Documents

spaCy NLTK NER Multilingue Extraction d'Événements Transfer Learning Adaptation de Domaine Segmentation de Mots Annotation de Données OCR (Docling, Google Cloud Vision) Traitement de Textes Historiques

LLM & IA Générative

litellm LangChain LangGraph Langfuse Prompt Engineering Structured Output Routing Multi-provider & Fallback RAG / GraphRAG / RAPTOR Recherche Hybride (BM25 + Vector) Reranking (Cross-Encoder) Embeddings / Vector Search VLM (Vision Language Models) Text-to-SQL Suivi de Coûts LLM

Développement Full-Stack

React Vue.js TailwindCSS D3.js Shiny Node.js FastAPI Flask SQLAlchemy Pydantic Async Python REST API WebSockets Auth / RBAC pytest / TDD Playwright Git CI/CD

Infrastructure & DevOps

PostgreSQL MySQL pgvector Elasticsearch Apache Solr Redis Celery Alembic Docker Nginx S3 / MinIO Prometheus / Grafana OpenTelemetry GCP Linux

Recherche & Communication

Méthodologie Scientifique Conception Expérimentale Rédaction Technique & Publication Présentations Internationales Revue de Littérature Mentorat Collaboration Interculturelle LaTeX

Expérience

Développeur Full-Stack & Ingénieur IA — Projet Personnel

2025 – Présent
  • Conception et développement autonomes d'une plateforme SaaS de transformation de données par IA, de l'architecture à la mise en production
  • Implémentation de systèmes LLM en production : RAG hybride (pgvector + BM25), GraphRAG, RAPTOR, text-to-SQL avec streaming SSE
  • Intégration de 15+ connecteurs de sources de données (bases relationnelles, APIs SaaS, S3, scraping web) et pipeline d'extraction documentaire multi-format
  • Architecture de sécurité complète : multi-tenant, RBAC, JWT RS256, SSO, 2FA, GDPR, audit logging, billing Stripe

Data Scientist & Ingénieur ML

Projet ENP-China — Aix-Marseille Université

2023 – 2025
  • Chercheur principal et développeur pour la plateforme HistText, gestion de projet indépendante
  • Exploration et résolution de défis ML complexes dans le traitement de textes historiques à grande échelle
  • Communication de concepts techniques par ateliers de formation dans 4 pays
  • Collaboration interdisciplinaire avec historiens, linguistes et informaticiens internationaux

Doctorant & Scientifique ML

Laboratoire LIS / IrAsia — Aix-Marseille Université

2019 – 2022
  • Recherche indépendante sur subvention ERC Avancée européenne, apprentissage auto-dirigé
  • Publié 5+ articles à comité de lecture, rédaction technique et communication
  • Présenté la recherche dans des conférences internationales
  • Mentoré et collaboré avec équipes de recherche internationales

Projets Clés

2025 –

Plateforme Data & IA SaaS

Projet Entrepreneurial — En développement

Plateforme SaaS de transformation et d'analyse de données combinant extraction IA, RAG avancé, text-to-SQL, connecteurs multi-sources et tableaux de bord analytiques. Architecture multi-tenant avec pipeline de traitement.

FastAPIReactTypeScriptPostgreSQLpgvectorLangChainLangGraphlitellmCeleryDocker
2023 – 2025

HistText

Plateforme d'Analyse de Textes à Grande Échelle

Plateforme full-stack traitant des milliards de tokens de documents historiques avec NER, recherche full-text, visualisations interactives et package R client. Déployée pour la communauté internationale.

RustReactPythonRPostgreSQLApache SolrDocker
2020 –

EventExtractionPapers

Ressource communautaire Open Source

Liste curated de ressources NLP sur l'extraction d'événements. Référence largement utilisée dans la communauté de recherche.

NLPEvent ExtractionOpen Source
2024

ENP-Corpus Creator

Pipeline OCR & Annotation

Suite d'outils transformant des images numérisées en corpus sémantiquement enrichis : OCR (Google Vision), interface d'annotation web interactive, classification par raccourcis clavier. Conçu pour documents multilingues complexes.

PythonGoogle Vision APIWebOCR
2023 – 2024

Dataset NER Chinois & Pipeline ML

Ingénierie de Données & ML

Le plus grand dataset NER annoté de textes chinois historiques (1872–1949) avec contrôle qualité automatisé, pipeline ML et benchmarks reproductibles. Données librement disponibles.

PythonPostgreSQLAnnotationML Pipeline
2023

Modèle de Langue & Tokenisation Chinoise

Développement de Modèles ML

Modèles de tokenisation atteignant 83% de précision (+35% d'amélioration) pour le chinois transitionnel, en collaboration avec Academia Sinica.

PyTorchTensorFlowTokenisationFine-tuning
2022

Simulation OCR & Robustesse ML

Recherche Expérimentale

Approche d'augmentation de données réduisant l'impact d'erreur OCR de 50%, avec framework de benchmarking pour la robustesse des modèles.

PyTorchTransformersData Augmentation
2021

Transfer Learning & Adaptation

Développement & Optimisation ML

Few-shot learning atteignant 93% de récupération de performance avec données minimales, architectures character-aware pour textes historiques.

BERTTransformersFew-shotAdaptation

Publications

2024

HistText: An Application for Leveraging Large-Scale Historical Textbases

JDMDH 2024 — Journal of Data Mining & Digital Humanities

2024

A Dataset for Named Entity Recognition and Entity Linking in Chinese Historical Newspapers

B. Blouin, C. Armand, C. Henriot

LREC-COLING 2024, Torino, Italy

2023

Unlocking Transitional Chinese: Word Segmentation in Modern Historical Texts

B. Blouin, H.-H. Huang, C. Henriot, C. Armand

NLP4DH 2023, Tokyo, Japan

2022

Simulation d'erreurs d'OCR dans les systèmes de TAL pour le traitement de données anachroniques

B. Blouin, B. Favre, J. Auguste

TALN 2022 (JEP-TALN-RECITAL), Avignon

2021

Transferring Modern Named Entity Recognition to the Historical Domain: How to Take the Step?

B. Blouin, B. Favre, J. Auguste, C. Henriot

NLP4DH 2021, Silchar, India

2021

Creating Biographical Networks from Chinese and English Wikipedia

B. Blouin, N. van den Bosch, P. Magistry

Journal of Historical Network Research, Vol. 5, No. 1

2020

Contextual Characters with Segmentation Representation for Named Entity Recognition in Chinese

B. Blouin, P. Magistry

PACLIC 34, Hanoi, Vietnam

Formation

2022

Doctorat en Informatique (Machine Learning)

Aix-Marseille Université

Thèse : Extraction d'événements à partir de fac-similés de documents anciens pour les études en histoire

Directeur : Prof. Benoit Favre — Subvention ERC Avancée ENP-China (n° 788476)

2019

Master Informatique (IA/ML)

Aix-Marseille Université

2016

Licence Informatique

Aix-Marseille Université

Contact

N'hésitez pas à me contacter pour discuter d'opportunités, de collaborations ou simplement pour échanger.