En 2026, les modèles de langage open source ont atteint un niveau de qualité remarquable. Gemma 4 de Google, LLaMA 3.3 de Meta ou Mistral peuvent être auto-hébergés sur du matériel grand public, avec une confidentialité totale de vos données. Ce guide vous explique tout, du choix du modèle à l'exposition d'une API compatible OpenAI.
TL;DR : Pour commencer rapidement, utilisez Heberking AI — l'infrastructure est déjà configurée, vous choisissez le modèle et vous obtenez une API Ollama en 60 secondes.
La première décision est la taille du modèle. En 2026, la quantization Q4_K_M permet de faire tourner des modèles 7-9B sur un GPU 8 Go ou même sur CPU avec un SSD NVMe rapide.
| Modèle | Paramètres | VRAM min. | Format recommandé | Usage idéal |
|---|---|---|---|---|
| Gemma 4 1B | 1B | CPU | Q4_K_M | Chatbot simple, embarqué |
| Gemma 4 4B | 4B | 2 GB | Q4_K_M | Assistants, résumé, RAG léger |
| Phi-4 Mini | 3.8B | 2.5 GB | Q4_K_M | Raisonnement, code |
| Gemma 4 9B | 9B | 6 GB | Q4_K_M | Qualité générale, multilingue |
| LLaMA 3.3 8B | 8B | 5.5 GB | Q4_K_M | Polyvalent, long contexte |
| Mistral 7B | 7B | 4.5 GB | Q4_K_M | Écriture, instruction following |
La quantization réduit la précision des poids du modèle de 16 bits (FP16) à 4 bits (Q4), divisiant par 4 l'espace mémoire avec une perte de qualité souvent inférieure à 2% sur les benchmarks standards. Le suffixe _K_M indique une quantization par bloc avec calibration (plus précise que Q4_0). C'est le format le plus populaire pour un usage production sur matériel standard.
Ollama est le moteur de référence pour servir des modèles GGUF localement. Il expose une API compatible avec l'API OpenAI, ce qui simplifie l'intégration avec vos applications.
# Installation (Linux)
curl -fsSL https://ollama.ai/install.sh | sh
# Télécharger et lancer Gemma 4 4B
ollama pull gemma4:4b-it-q4_K_M
ollama serve
Une fois lancé, Ollama écoute sur http://localhost:11434. Vous pouvez tester avec :
curl http://localhost:11434/api/chat -d '{
"model": "gemma4:4b-it-q4_K_M",
"messages": [{"role": "user", "content": "Bonjour !"}],
"stream": false
}'
Ollama 0.3+ supporte nativement l'endpoint /v1/chat/completions compatible OpenAI. Vous pouvez donc utiliser la bibliothèque openai standard en changeant simplement la base URL :
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama", # non vérifié par Ollama
)
response = client.chat.completions.create(
model="gemma4:4b-it-q4_K_M",
messages=[{"role": "user", "content": "Quel est le sens de la vie ?"}],
)
print(response.choices[0].message.content)
Ollama écoute par défaut uniquement sur localhost. Pour exposer l'API à vos équipes ou à vos applications distantes, il faut un reverse proxy :
# Nginx — exemple de configuration simple
server {
listen 443 ssl;
server_name ai.monentreprise.com;
location / {
proxy_pass http://127.0.0.1:11434;
proxy_set_header Authorization "Bearer $http_authorization";
# Ajoutez ici une validation de token ou basic auth
}
}
Alternative sans configuration : Heberking AI gère le reverse proxy, l'authentification JWT, le SSL et la gestion multi-utilisateurs pour vous. Votre équipe accède via une URL sécurisée dès la création de l'instance.
Ollama limite par défaut le contexte à 2048 tokens. Pour les modèles qui supportent des contextes longs (Gemma 4, LLaMA 3.3 supporte 128k), augmentez via le paramètre num_ctx dans le Modelfile ou via l'API :
curl http://localhost:11434/api/chat -d '{
"model": "gemma4:9b-it-q4_K_M",
"options": {"num_ctx": 32768},
"messages": [...]
}'
Si votre GPU n'a pas assez de VRAM pour le modèle complet, vous pouvez charger une partie des couches sur GPU et le reste en RAM avec --gpu-layers N. Même 10-20 couches sur GPU accélèrent significativement l'inférence.
En 2026, héberger un LLM de qualité est accessible à quiconque dispose d'un serveur standard. La quantization Q4_K_M offre un excellent compromis qualité/taille, et Ollama simplifie radicalement la gestion des modèles et l'exposition d'une API. Pour les équipes qui ne veulent pas gérer l'infrastructure, des solutions comme Heberking AI automatisent l'ensemble du processus.
Heberking AI s'occupe de tout : Ollama, SSL, reverse proxy, gestion multi-utilisateurs. Gemma 4, LLaMA, Mistral disponibles.
Essayer gratuitement →