KServe
Overview
KServe (anciennement KFServing) est un framework de serving de modèles pour Kubernetes. Il permet de déployer des modèles de ML/IA comme des endpoints HTTP avec autoscaling, routage de trafic (canary, A/B) et support de CPU et GPU.
KServe te permet de standardiser le déploiement de modèles sur Kubernetes, avec un contrôle fin du trafic et des ressources. Intégration native avec Kubernetes (CRD, ingress, autoscaling), conçu pour la prod (canary, monitoring, rollbacks), compatible avec plusieurs frameworks de modèles.
Informations essentielles
| Propriété | Valeur |
|---|---|
| Site officiel | https://kserve.github.io/ |
| Repository | https://github.com/kserve/kserve |
| Licence | Apache-2.0 |
| Type | Serving de modèles sur Kubernetes |
| Déploiement | Kubernetes (CRD, opérateur) |
| Usage principal | Exposer des modèles ML/LLM comme API |
| Public cible | Équipes plateforme, MLOps, SRE |
TL;DR
KServe te permet de standardiser le déploiement de modèles sur Kubernetes, avec un contrôle fin du trafic et des ressources.
Points clés à retenir :
- Intégration native avec Kubernetes (CRD, ingress, autoscaling)
- Conçu pour la prod (canary, monitoring, rollbacks)
- Compatible avec plusieurs frameworks de modèles
- Nécessite une bonne maîtrise de Kubernetes
- Peut être surdimensionné pour de très petits use cases
Cas d'usage typiques
- Exposer un modèle de classification ou régression à partir d'un pipeline ML existant
- Mettre en production un petit modèle de recommandation ou de scoring
- Point d'entrée pour une brique IA utilisée par plusieurs services backend
Avantages
- Intégration native avec Kubernetes (CRD, ingress, autoscaling)
- Conçu pour la prod (canary, monitoring, rollbacks)
- Compatible avec plusieurs frameworks de modèles
Limites
- Nécessite une bonne maîtrise de Kubernetes
- Peut être surdimensionné pour de très petits use cases
Ressources
- Documentation : https://kserve.github.io/website/
- GitHub : https://github.com/kserve/kserve