KServe

Overview

KServe (anciennement KFServing) est un framework de serving de modèles pour Kubernetes. Il permet de déployer des modèles de ML/IA comme des endpoints HTTP avec autoscaling, routage de trafic (canary, A/B) et support de CPU et GPU.

KServe te permet de standardiser le déploiement de modèles sur Kubernetes, avec un contrôle fin du trafic et des ressources. Intégration native avec Kubernetes (CRD, ingress, autoscaling), conçu pour la prod (canary, monitoring, rollbacks), compatible avec plusieurs frameworks de modèles.

Informations essentielles

Propriété	Valeur
Site officiel	https://kserve.github.io/
Repository	https://github.com/kserve/kserve
Licence	Apache-2.0
Type	Serving de modèles sur Kubernetes
Déploiement	Kubernetes (CRD, opérateur)
Usage principal	Exposer des modèles ML/LLM comme API
Public cible	Équipes plateforme, MLOps, SRE

TL;DR

KServe te permet de standardiser le déploiement de modèles sur Kubernetes, avec un contrôle fin du trafic et des ressources.

Points clés à retenir :

Intégration native avec Kubernetes (CRD, ingress, autoscaling)
Conçu pour la prod (canary, monitoring, rollbacks)
Compatible avec plusieurs frameworks de modèles
Nécessite une bonne maîtrise de Kubernetes
Peut être surdimensionné pour de très petits use cases

Cas d'usage typiques

Exposer un modèle de classification ou régression à partir d'un pipeline ML existant
Mettre en production un petit modèle de recommandation ou de scoring
Point d'entrée pour une brique IA utilisée par plusieurs services backend

Avantages

Intégration native avec Kubernetes (CRD, ingress, autoscaling)
Conçu pour la prod (canary, monitoring, rollbacks)
Compatible avec plusieurs frameworks de modèles

Limites

Nécessite une bonne maîtrise de Kubernetes
Peut être surdimensionné pour de très petits use cases

Ressources

Documentation : https://kserve.github.io/website/
GitHub : https://github.com/kserve/kserve

Overview​

Informations essentielles​

TL;DR​

Cas d'usage typiques​

Avantages​

Limites​

Ressources​