Dagster
Overview
Dagster, c'est la plateforme moderne d'orchestration de workflows pour data engineering qui pense que la gouvernance des données, c'est important. Développée par Elementl, elle se concentre sur la gouvernance des données, le lineage et l'observabilité. Tu utilises une approche déclarative (assets et ops) pour définir des workflows, tu as une gouvernance des données intégrée, et une observabilité complète. Si tu bosses avec des pipelines data et que tu veux de la gouvernance, c'est un bon choix.
Dagster se distingue par son focus sur la gouvernance des données (tu sais d'où viennent tes données), son approche assets-first (les données sont des assets), son observabilité intégrée (tu vois tout ce qui se passe), et son rôle de standard moderne pour l'orchestration de workflows data avec gouvernance.
Informations essentielles
| Propriété | Valeur |
|---|---|
| Site officiel | https://dagster.io/ |
| Licence | Apache 2.0 |
| Nationalité | États-Unis (Elementl) |
| Langage | Python |
| Licence | Apache 2.0 |
| Écosystème | Data engineering, gouvernance des données, Python |
| Difficulté | Intermédiaire à avancé |
Cas d'usage typiques
- Pipelines data avec gouvernance
- Workflows nécessitant lineage complet
- Pipelines data complexes avec observabilité
- Data engineering avec gouvernance intégrée
- Workflows nécessitant traçabilité des données
- Pipelines data modernes
Intégrations et écosystème
- Intégration Python native
- Compatible avec les outils data (Pandas, Spark, etc.)
- Intégration avec les services cloud
- Compatible avec les bases de données
- Support des conteneurs et Kubernetes
- Intégration avec les outils de monitoring
Avantages
- Focus sur gouvernance des données : tu sais d'où viennent tes données, comment elles ont été transformées, où elles vont
- Approche assets-first : les données sont des assets, pas juste des fichiers
- Observabilité intégrée : tu vois tout ce qui se passe, monitoring, logs, métriques
- Lineage complet : tu traces tout le parcours de tes données
- Adapté aux workflows data : fait pour les pipelines data, feature engineering, ML pipelines
- Communauté active : tu ne seras pas seul, il y a plein de ressources
Limites
- Focus principalement sur Python : si tu ne bosses pas en Python, ce n'est pas pour toi
- Courbe d'apprentissage : il faut comprendre les concepts avant de commencer
- Il te faut une infrastructure (serveur Dagster) : il faut s'en occuper, c'est du travail
- Moins mature qu'Airflow : mais ça évolue rapidement
- La configuration peut être complexe : surtout si tu veux utiliser des fonctionnalités avancées
Ressources
- Documentation Dagster : https://docs.dagster.io/
- GitHub : https://github.com/dagster-io/dagster