Industrialisation du processus ETL dans le cadre de projets Data avec le service AWS Glue.
Automatiser le traitement des données dans le cadre d'un projet Data à l'aide du service AWS Glue.

Missions

  • Étudier comment les outils leaders du marché des ETL mettent en œuvre les bonnes pratiques de code (test, versioning, CI/CD).
  • Étudier les fonctionnalités standard de Glue et définir comment y intégrer ces bonnes pratiques de code. Cela peut aussi être comment automatiser la création et la configuration de différents services de Glue.
  • Développer un prototype de mise en œuvre dans AWS.

Conditions

Type of internship:Stage de fin d'étude, pré-embauche
Location:OCTO Technology 34 avenue de l'Opéra 75002 Paris
Salary:1500 € bruts
Date:2020

Profile

  • Vous aimez coder en Python et vous avez une sensibilité aux bonnes pratiques de code (clean code, tests, packaging, etc).
  • Vous êtes intéressé·e par ce que les solutions Cloud peuvent apporter à la valorisation de la Data.
  • Vous êtes passionné·e par le Big Data, l’analytics et l’IA.

Context

Étape 1 : Cadrage

Concevoir le cadrage sur le déroulement fonctionnel et technique du projet, sur l’organisation que vous souhaitez mettre en place, ainsi que les moyens à votre disposition. Il vous sera demandé de formaliser le besoin et d’en déduire un plan d’actions.

Étape 2 : Étude technique

- Étudier en détails les différentes offres de Glue : Crawler, Job, Notebook. Les axes de recherche sont : l’automatisation de leur création et configuration avec Ansible/Terraform, l’intégration d’une application packagée avec Glue Job, l’intégration de Glue Job/Notebook avec les autres services DevOps comme Jenkins, Code Deployment AWS, etc.
- Étudier les offres ETL pour comprendre comment elles répondent au besoin de CI/CD.
- Concevoir la solution dans AWS.

Étape 3 : Développement

- Développer un prototype dans un environnement AWS.
- Démontrer son utilité via un use-case ETL.

Étape 4 : Partage

Partager au sein de la communauté OCTO et Accenture ce que vous aurez appris, à travers une restitution interne et un article sur le blog OCTO.

Internship target

AWS est un acteur majeur des offres de services en Cloud. Un de ces services est Glue AWS, pour tous les traitements de type ETL. L’objectif du stage est de définir une méthode et développer les outils qui permettent de mettre en œuvre les bonnes pratiques de code dans Glue.

Management

Vous serez encadré·e par un·e (ou deux) Data Scientist·s - Cloud Engineer·s de l’équipe INPL et suivi·e tout au long de votre projet (entretiens hebdomadaires avec votre tuteur, soutien de la communauté OCTO en cas de difficultés techniques).