Etude de nouveaux formats de stockage ACID-compatible - Delta Lake
Analyser et comprendre en quoi de nouveaux formats tels que Delta Lake de stockage ACID-compatible peuvent contribuer à l'industrialisation d’architectures data de demain.

Missions

  • - Découvrir les fonctionnalités ACID des fichiers Delta Lake.
  • - Tester scalabilité de la fonctionnalité Time-Travel (Datasets versioning).
  • - Étudier la faisabilité et scalabilité des insert, update, delete.
  • - Comprendre son mode de fonctionnement pour apprendre les limites et cas d’usage.
  • - Contribuer à la communauté à travers des deep dives techniques et métier.

Conditions

Type of internship:Stage de fin d'études
Location:Paris
Salary:1500 € bruts
Date:2021

Profile

  • - H/F
  • - Vous avez une appétence et une envie de monter en compétence sur le Big Data et un intérêt pour le traitement distribué des données
  • - Vous êtes actuellement élève en 3e année d’une école d’informatique ou généraliste ou en 2e année de Master.
  • - Vous avez déjà la maîtrise d’un langage de programmation parmi Scala ou Python (idéalement), Java
  • - Vous avez un intérêt pour les bonnes pratiques de développement (craftsmanship), la volonté de lire le code des autres et en apprendre sur leur fonctionnement.

Context

La promesse de support ACID sur Big Data est très attirante pour construire ce que Databricks appelle LakeHouse. Il est donc important de non seulement savoir que ça existe mais également savoir comment ça marche afin de pouvoir découvrir les limites et identifier des cas d’usage

Internship target

#1: Mise à niveau & découverte de l’écosystème Delta Lake
Si vous ne vous sentez pas à l’aise avec Scala et Delta Lake, cette étape vous permettra de les découvrir un peu mieux.

#2: La plongée dans le code
Dans cette étape on va plonger dans le code source pour répondre à des questions qu’on s’était posées à l’étape précédente. C’est ici que vous allez prendre vos premières notes en vue de la restitution finale :)

#3: Test
Il est temps de passer aux tests et voir comment Delta Lake peut nous aider à construire de meilleures architectures de données. On va donc écrire du code en Python ou Scala, et déployer des stacks d'infrastructure avec Terraform dans un cloud provider qui supporte Delta Lake à travers Databricks service.

#4: Partage
Les résultats de l’étude devront s’inscrire dans nos programmes de R&D et feront l’objet d’un rapport formel à cette fin. Vous pourrez être amené à rédiger une communication plus large de votre étude. Dans tous les cas, Vous présenterez vos résultats à la communauté OCTO. Cerise sur le gâteau: une contribution à la communauté (PR ou aide sur mailing list et SO).

Management

Vous serez encadré par deux consultants data engineers de la tribu Nouvelles Architectures de Données chez OCTO. Vous serez suivi tout au long de ce projet (entretiens hebdomadaires avec tes tuteurs, soutien de la communauté OCTO...).