INTESCIA GROUP
AI

SOCIETEINFO - Data Scientist - Stage

INTESCIA GROUP · Carquefou, B5, FR

Actively hiring Posted 4 months ago

Data Scientist (H/F)

Stage

**Rejoignez le Groupe INTESCIA, leader de la Business Intelligence en Europe !

Qui sommes-nous ?**

INTESCIA est un acteur majeur dans le domaine de la data, du digital et de l’intelligence économique. Nous accompagnons les entreprises en leur fournissant des solutions innovantes pour optimiser leur gestion, leur performance financière et leur prise de décision. Grâce à nos expertises en business intelligence, veille stratégique et data analytics, nous aidons nos clients à transformer l’information en un véritable levier de croissance.

Nos atouts :

  • Un groupe en pleine expansion, reconnu pour son expertise et ses solutions à forte valeur ajoutée.
  • Une culture d’innovation, où la créativité et l’amélioration continue sont au cœur de notre ADN.
  • Des équipes passionnées et engagées, évoluant dans un environnement stimulant et collaboratif.

Votre mission :

Le groupe INTESCIA recrute pour l’une de ses marques, SociétéInfo.

Intégré(e) à notre équipe, vous contribuerez à la conception d’un pipeline complet d’extraction et d’analyse de documents juridiques.

L’objectif est de transformer des documents PDF hétérogènes (statuts, actes, modifications, etc.) en données structurées exploitables, en combinant OCR avancé et intelligence artificielle (NER et modèles de langage récents).

Vous interviendrez sur un projet à forte valeur ajoutée, mêlant vision par ordinateur, NLP et modèles de langage modernes.

Vos activités :

  • OCR – Extraction et structuration de texte

  • Étudier et comparer différentes solutions OCR : Tesseract, EasyOCR, Google Vision API, etc.

  • Mettre en place une pipeline robuste d’extraction depuis des PDF hétérogènes

  • Nettoyer, structurer et normaliser les textes extraits

  • Gérer des cas complexes :

    • Documents scannés
    • Signatures
    • Tableaux
    • Colonnes multiples
    • Qualité variable des scans
  • NER – Extraction d’entités juridiques

  • Développer un modèle de Named Entity Recognition (NER) pour identifier automatiquement :

    • Dénomination sociale
    • Numéro SIREN / SIRET
    • Dirigeants
    • Dates d’événements
    • Types d’actes (création, modification, dissolution, fusion, etc.)
  • Tester et comparer différentes approches :

    • Modèles pré-entraînés (SpaCy, HuggingFace, etc.)
    • LLM récents (ex : Gemma)
    • Méthodes hybrides inspirées d’approches modernes d’extraction structurée
  • Évaluer les performances (précision, rappel, F1-score) et proposer des optimisations

Le profil que nous recherchons :

  • Étudiant(e) en Master 1 ou Master 2 en Data Science, Intelligence Artificielle, Informatique ou équivalent
  • Intérêt marqué pour le NLP, les LLM et l’extraction d’information
  • Goût pour les projets techniques concrets avec impact métier

Vos compétences :

  • Bonne maîtrise de Python
  • Connaissances en NLP / Machine Learning
  • Expérience avec au moins une librairie type SpaCy, HuggingFace ou équivalent
  • Compréhension des problématiques liées à l’OCR et au traitement de documents
  • Rigueur, autonomie et esprit d’analyse

Expérience :

  • Une première expérience en projet NLP, OCR ou LLM est un plus
  • Une expérience sur des données juridiques ou documents structurés est appréciée

Ce que nous vous offrons :

  • Poste basé à : Carquefou
  • Type de contrat : Stage
  • Rémunération fixe
  • Horaires de travail : 09h00 - 17h00
  • Dates de démarrage :
    • Mars 2026 (stage de M2)
    • Mai 2026 (stage de M1)

Tags & focus areas

Used for matching and alerts on DevFound
Internship Data Science Ai
Common Questions

Frequently asked questions

Quick answers about how DevFound's AI matching, resumes, and referrals work.

DevFound's AI Copilot ingests your profile, goals, and live job data to deliver curated matches in seconds. Every match includes a resume variant, suggested referrals, and interview prep so you can act immediately. The more feedback you provide, the sharper the Copilot becomes.

AI-led job searches shrink the hours spent sifting through boards and formatting resumes. DevFound pairs automation with your personal outreach, so you reserve energy for interviews and negotiation. Traditional networking still matters, but AI gives you a lift before you even send a message.

Modern AI roles expect comfort with production-grade code, data fluency, and practical ML tooling. The strongest candidates pair deep technical chops with storytelling—translating model impact to product, GTM, and exec partners. Continuous learning keeps you ahead as stacks evolve.

DevFound rewards active seekers. Keep your profile fresh, respond to match quality prompts, and enable alerts so you never miss a role. The AI prioritizes companies and teams that align with your feedback, accelerating both introductions and interview invites.

High-density tech hubs continue to host the deepest AI talent pools, yet distributed teams are catching up fast. Use DevFound filters to hone in on onsite, hybrid, or fully remote roles and watch openings expand across time zones.

DevFound aggregates thousands of remote AI openings and flags the nuances—core hours, async culture, and visa needs—up front. The Copilot also recommends how to position your distributed work experience so hiring managers know you can thrive on a remote team.