Extraction et identification de contenu de documents numérisés.
Reconnaissance de diverses entités nommées à partir de documents numérisés.

Missions

  • Étudier, implémenter et comparer les solutions OCR et NER existantes.
  • Prototyper une approche à partir de briques Open Source et On Premise.
  • Capitaliser sur vos travaux afin de concevoir une nouvelle offre qu’OCTO pourra proposer à ses clients.

Conditions

Type of internship:Stage de fin d'étude, stage de pré-embauche
Location:Paris
Salary:1500 € bruts
Date:2020

Profile

  • Vous avez des connaissances sur les concepts et approches Data Science.
  • Vous savez développer en Python et le traitement d'image et de texte vous intéresse.
  • Vous êtes motivé·e par l’exploration, l’identification et l’implémentation de solutions de l’état de l’art et par la conception de nouvelles approches.
  • Bien que focalisé·e sur les aspects Data Science, vous êtes prêt·e à présenter votre solution à divers clients d’OCTO afin de pouvoir la tester dans des cas réels.

Context

Étape 1 : Étude de l’état de l’art
Identifiez les approches récentes de transformation des documents numérisés en texte (OCR) et d’identification d’entités nommées (NER). Vous identifierez les indicateurs de mesure de performance et comparerez les solutions existantes afin d’identifier les approches les plus prometteuses.

Étape 2 : Expérimentations
Implémentez les approches les plus prometteuses et testez-les sur divers jeux de données afin d’évaluer leurs performances respectives.

Étape 3 : Conception et réalisation d’un prototype
Développez un prototype permettant la détection d’entités nommées sur des documents numérisés. Vous vous appuierez sur les résultats de la phase d’expérimentation afin de concevoir et réaliser un benchmark de votre solution.

Étape 4 : Partage
Partagez au sein de la communauté OCTO ce que vous aurez appris, à travers une restitution interne et un article sur le blog OCTO.

Internship target

Un nombre croissant d’entreprises exprime le besoin d’exploiter le contenu de documents numérisés (rapports, contrats, factures...).

L’objectif du stage sera de concevoir une solution permettant la reconnaissance et l'extraction d’entités nommées au sein de documents numérisés.

Management

Vous effectuerez votre stage au sein de la tribu Applied Intelligence Data Science & Data Advisory (AIDA), et serez encadré·e par un Octo. Vous serez suivi·e tout au long de votre projet (entretiens hebdomadaires avec votre tuteur, soutien de l’équipe AIDA et de la communauté OCTO en cas de difficultés techniques).