Aller au contenu principal

Dagster

Overview

Dagster, c'est la plateforme moderne d'orchestration de workflows pour data engineering qui pense que la gouvernance des données, c'est important. Développée par Elementl, elle se concentre sur la gouvernance des données, le lineage et l'observabilité. Tu utilises une approche déclarative (assets et ops) pour définir des workflows, tu as une gouvernance des données intégrée, et une observabilité complète. Si tu bosses avec des pipelines data et que tu veux de la gouvernance, c'est un bon choix.

Dagster se distingue par son focus sur la gouvernance des données (tu sais d'où viennent tes données), son approche assets-first (les données sont des assets), son observabilité intégrée (tu vois tout ce qui se passe), et son rôle de standard moderne pour l'orchestration de workflows data avec gouvernance.


Informations essentielles

PropriétéValeur
Site officielhttps://dagster.io/
LicenceApache 2.0
NationalitéÉtats-Unis (Elementl)
LangagePython
LicenceApache 2.0
ÉcosystèmeData engineering, gouvernance des données, Python
DifficultéIntermédiaire à avancé

Cas d'usage typiques

  • Pipelines data avec gouvernance
  • Workflows nécessitant lineage complet
  • Pipelines data complexes avec observabilité
  • Data engineering avec gouvernance intégrée
  • Workflows nécessitant traçabilité des données
  • Pipelines data modernes

Intégrations et écosystème

  • Intégration Python native
  • Compatible avec les outils data (Pandas, Spark, etc.)
  • Intégration avec les services cloud
  • Compatible avec les bases de données
  • Support des conteneurs et Kubernetes
  • Intégration avec les outils de monitoring

Avantages

  • Focus sur gouvernance des données : tu sais d'où viennent tes données, comment elles ont été transformées, où elles vont
  • Approche assets-first : les données sont des assets, pas juste des fichiers
  • Observabilité intégrée : tu vois tout ce qui se passe, monitoring, logs, métriques
  • Lineage complet : tu traces tout le parcours de tes données
  • Adapté aux workflows data : fait pour les pipelines data, feature engineering, ML pipelines
  • Communauté active : tu ne seras pas seul, il y a plein de ressources

Limites

  • Focus principalement sur Python : si tu ne bosses pas en Python, ce n'est pas pour toi
  • Courbe d'apprentissage : il faut comprendre les concepts avant de commencer
  • Il te faut une infrastructure (serveur Dagster) : il faut s'en occuper, c'est du travail
  • Moins mature qu'Airflow : mais ça évolue rapidement
  • La configuration peut être complexe : surtout si tu veux utiliser des fonctionnalités avancées

Ressources