Text Generation Inference (TGI)
Overview
TGI est un serveur d'inférence open source maintenu par Hugging Face, conçu pour servir efficacement des modèles de génération de texte : support de nombreux modèles du Hub Hugging Face, optimisations pour GPU et multi-GPU, API HTTP standardisée.
TGI est une brique prête à l'emploi pour servir des modèles texte issus de Hugging Face, avec de bonnes performances et un écosystème riche. Intégration naturelle avec le Hub Hugging Face, optimisé pour des workloads GPU ; bon compromis entre facilité de mise en œuvre et performance.
Informations essentielles
| Propriété | Valeur |
|---|---|
| Site officiel | https://huggingface.co/docs/text-generation-inference |
| Repository | https://github.com/huggingface/text-generation-inference |
| Licence | Apache-2.0 |
| Type | Serving de modèles de génération de texte |
| Mainteneur | Hugging Face |
| Déploiement | Docker, Kubernetes, GPU |
| Usage principal | Exposer des LLM ou modèles texte comme API |
TL;DR
TGI est une brique prête à l'emploi pour servir des modèles texte issus de Hugging Face, avec de bonnes performances et un écosystème riche.
Points clés à retenir :
- Intégration naturelle avec le Hub Hugging Face
- Optimisé pour des workloads GPU
- Bon compromis entre facilité de mise en œuvre et performance
- Principalement centré sur les modèles compatibles Hugging Face
- Nécessite une infra GPU adaptée
Cas d'usage typiques
- Déployer un modèle de génération de texte (assistant, résumé, traduction)
- Servir un LLM spécialisé (doc interne, support, QA)
- Intégrer un LLM à des pipelines applicatifs (chatbots, agents, outils internes)
Avantages
- Intégration naturelle avec le Hub Hugging Face
- Optimisé pour des workloads GPU
- Bon compromis entre facilité de mise en œuvre et performance
Limites
- Principalement centré sur les modèles compatibles Hugging Face
- Comme pour vLLM, nécessite une infra GPU adaptée