Aller au contenu principal

KServe

Overview

KServe (anciennement KFServing) est un framework de serving de modèles pour Kubernetes. Il permet de déployer des modèles de ML/IA comme des endpoints HTTP avec autoscaling, routage de trafic (canary, A/B) et support de CPU et GPU.

KServe te permet de standardiser le déploiement de modèles sur Kubernetes, avec un contrôle fin du trafic et des ressources. Intégration native avec Kubernetes (CRD, ingress, autoscaling), conçu pour la prod (canary, monitoring, rollbacks), compatible avec plusieurs frameworks de modèles.


Informations essentielles

PropriétéValeur
Site officielhttps://kserve.github.io/
Repositoryhttps://github.com/kserve/kserve
LicenceApache-2.0
TypeServing de modèles sur Kubernetes
DéploiementKubernetes (CRD, opérateur)
Usage principalExposer des modèles ML/LLM comme API
Public cibleÉquipes plateforme, MLOps, SRE

TL;DR

KServe te permet de standardiser le déploiement de modèles sur Kubernetes, avec un contrôle fin du trafic et des ressources.

Points clés à retenir :

  • Intégration native avec Kubernetes (CRD, ingress, autoscaling)
  • Conçu pour la prod (canary, monitoring, rollbacks)
  • Compatible avec plusieurs frameworks de modèles
  • Nécessite une bonne maîtrise de Kubernetes
  • Peut être surdimensionné pour de très petits use cases

Cas d'usage typiques

  • Exposer un modèle de classification ou régression à partir d'un pipeline ML existant
  • Mettre en production un petit modèle de recommandation ou de scoring
  • Point d'entrée pour une brique IA utilisée par plusieurs services backend

Avantages

  • Intégration native avec Kubernetes (CRD, ingress, autoscaling)
  • Conçu pour la prod (canary, monitoring, rollbacks)
  • Compatible avec plusieurs frameworks de modèles

Limites

  • Nécessite une bonne maîtrise de Kubernetes
  • Peut être surdimensionné pour de très petits use cases

Ressources