Dagster

Overview

Dagster, c'est la plateforme moderne d'orchestration de workflows pour data engineering qui pense que la gouvernance des données, c'est important. Développée par Elementl, elle se concentre sur la gouvernance des données, le lineage et l'observabilité. Tu utilises une approche déclarative (assets et ops) pour définir des workflows, tu as une gouvernance des données intégrée, et une observabilité complète. Si tu bosses avec des pipelines data et que tu veux de la gouvernance, c'est un bon choix.

Dagster se distingue par son focus sur la gouvernance des données (tu sais d'où viennent tes données), son approche assets-first (les données sont des assets), son observabilité intégrée (tu vois tout ce qui se passe), et son rôle de standard moderne pour l'orchestration de workflows data avec gouvernance.

Informations essentielles

Propriété	Valeur
Site officiel	https://dagster.io/
Licence	Apache 2.0
Nationalité	États-Unis (Elementl)
Langage	Python
Licence	Apache 2.0
Écosystème	Data engineering, gouvernance des données, Python
Difficulté	Intermédiaire à avancé

Cas d'usage typiques

Pipelines data avec gouvernance
Workflows nécessitant lineage complet
Pipelines data complexes avec observabilité
Data engineering avec gouvernance intégrée
Workflows nécessitant traçabilité des données
Pipelines data modernes

Intégrations et écosystème

Intégration Python native
Compatible avec les outils data (Pandas, Spark, etc.)
Intégration avec les services cloud
Compatible avec les bases de données
Support des conteneurs et Kubernetes
Intégration avec les outils de monitoring

Avantages

Focus sur gouvernance des données : tu sais d'où viennent tes données, comment elles ont été transformées, où elles vont
Approche assets-first : les données sont des assets, pas juste des fichiers
Observabilité intégrée : tu vois tout ce qui se passe, monitoring, logs, métriques
Lineage complet : tu traces tout le parcours de tes données
Adapté aux workflows data : fait pour les pipelines data, feature engineering, ML pipelines
Communauté active : tu ne seras pas seul, il y a plein de ressources

Limites

Focus principalement sur Python : si tu ne bosses pas en Python, ce n'est pas pour toi
Courbe d'apprentissage : il faut comprendre les concepts avant de commencer
Il te faut une infrastructure (serveur Dagster) : il faut s'en occuper, c'est du travail
Moins mature qu'Airflow : mais ça évolue rapidement
La configuration peut être complexe : surtout si tu veux utiliser des fonctionnalités avancées

Ressources

Documentation Dagster : https://docs.dagster.io/
GitHub : https://github.com/dagster-io/dagster

Overview​

Informations essentielles​

Cas d'usage typiques​

Intégrations et écosystème​

Avantages​

Limites​

Ressources​