Aller au contenu principal

Text Generation Inference (TGI)

Overview

TGI est un serveur d'inférence open source maintenu par Hugging Face, conçu pour servir efficacement des modèles de génération de texte : support de nombreux modèles du Hub Hugging Face, optimisations pour GPU et multi-GPU, API HTTP standardisée.

TGI est une brique prête à l'emploi pour servir des modèles texte issus de Hugging Face, avec de bonnes performances et un écosystème riche. Intégration naturelle avec le Hub Hugging Face, optimisé pour des workloads GPU ; bon compromis entre facilité de mise en œuvre et performance.


Informations essentielles

PropriétéValeur
Site officielhttps://huggingface.co/docs/text-generation-inference
Repositoryhttps://github.com/huggingface/text-generation-inference
LicenceApache-2.0
TypeServing de modèles de génération de texte
MainteneurHugging Face
DéploiementDocker, Kubernetes, GPU
Usage principalExposer des LLM ou modèles texte comme API

TL;DR

TGI est une brique prête à l'emploi pour servir des modèles texte issus de Hugging Face, avec de bonnes performances et un écosystème riche.

Points clés à retenir :

  • Intégration naturelle avec le Hub Hugging Face
  • Optimisé pour des workloads GPU
  • Bon compromis entre facilité de mise en œuvre et performance
  • Principalement centré sur les modèles compatibles Hugging Face
  • Nécessite une infra GPU adaptée

Cas d'usage typiques

  • Déployer un modèle de génération de texte (assistant, résumé, traduction)
  • Servir un LLM spécialisé (doc interne, support, QA)
  • Intégrer un LLM à des pipelines applicatifs (chatbots, agents, outils internes)

Avantages

  • Intégration naturelle avec le Hub Hugging Face
  • Optimisé pour des workloads GPU
  • Bon compromis entre facilité de mise en œuvre et performance

Limites

  • Principalement centré sur les modèles compatibles Hugging Face
  • Comme pour vLLM, nécessite une infra GPU adaptée

Ressources