Choix technologiques

Quel modèle, pour quel usage, hébergé où ? Ce chapitre donne les critères de décision, le paysage des modèles en 2026, des recommandations concrètes par cas d'usage et l'architecture cible.

Critères de choix d'un modèle

Qualité

Performance sur le type de tâche visé.

Coût

Prix au token + coût d'infrastructure.

Latence

Temps de réponse.

Souveraineté

Niveau de maîtrise juridictionnelle.

Capacités spécifiques

Taille du contexte, vision, agents, multimodal.

Écosystème

Intégrations, outils tiers, communauté, documentation.

Le paysage des modèles en juin 2026

Cette photographie reflète l'état du marché à juin 2026. Le rythme reste soutenu : un nouveau modèle phare paraît en moyenne tous les 3 à 6 mois, et les références positionnées « haut de gamme » aujourd'hui basculent typiquement vers le « quotidien » d'ici quelques mois — quand elles ne sont pas tout simplement supplantées. C'est précisément pour cette raison qu'il vaut mieux raisonner par catégorie que par nom de modèle : la liste ci-dessous est destinée à vieillir, la grille de lecture non.

Frontière

Haut de gamme

Raisonnement complexe, code avancé, agents. Coût élevé → forte valeur ajoutée.

Modèles fermés

Claude Opus 4.7 (Anthropic) GPT-5.5 (OpenAI) Gemini 3.* (Google) Grok (xAI)

Modèles ouverts

Qwen 3.7 (Alibaba) DeepSeek V4 Llama 5 (Meta)

Équilibrés

Le quotidien

La majorité des usages. Bon ratio qualité / prix / latence.

Modèles fermés

Claude Sonnet 4.6 (Anthropic) GPT-5.* (OpenAI) Gemini 3 Pro/Flash (Google) Mistral Large/Medium

Modèles ouverts

Gemma 4 (Google) Llama 4 Maverick (Meta) Kimi K2.6 (Moonshot) GLM 5.1 (Z.ai) GPT-OSS:120b (OpenAI)

Légers

Le volume

Tâches simples à grande échelle. Coût & latence très bas.

Modèles fermés

Claude Haiku (Anthropic) GPT-4.* (OpenAI) Gemini Flash (Google) Mistral Nemo

Modèles ouverts

Mistral Small Llama (Meta) Qwen (Alibaba) GLM 4.* (Z.ai) GPT-OSS:20b (OpenAI) Phi-4 (Microsoft) Granite (IBM)

Spécialisés

Par modalité

Code, image, vidéo, voix, embeddings.

Modèles fermés

Firefly · image (Adobe) Nano Banana · image (Google) GPT-Image 2 · image (OpenAI) Sora · vidéo (OpenAI) Veo · vidéo (Google) Whisper · voix (OpenAI) ElevenLabs · voix Suno · musique

Modèles ouverts

Flux · image Stable Diffusion · image HunyuanVideo · vidéo (Tencent) Wan · vidéo (Alibaba) Codestral · code (Mistral)

Recommandations par cas d'usage

Pas un modèle unique : une stratégie multi-modèles, arbitrée entre qualité, coût et souveraineté.

Cas d'usage	Modèle recommandé	Hébergement	Justification
Assistant général	Claude Sonnet / GPT-4o	Cloud EU	Qualité + intégration M365
Code (devs)	Claude / GitHub Copilot	Cloud EU	Performance code supérieure
RAG documentaire interne	Mistral Large + embeddings OSS	Cloud souverain / Bedrock EU	Équilibre souveraineté / qualité
Chatbot client externe	Claude Haiku / Mistral Small	Bedrock EU / souverain	Coût + latence + souveraineté
Traitement à gros volume	Mistral Small / Claude Haiku	Selon volume	Coût critique
Automatisations / agents	Claude Sonnet / GPT-4o	Selon sensibilité	Qualité de raisonnement
Analyse stratégique / COMEX	Claude Opus / GPT premium	Cloud EU + ZDR	Qualité maximale
Données ultra-sensibles	Llama 70B / Mistral open weight	On-premise	Souveraineté maximale
Génération d'images marketing	Firefly + Midjourney	API directes	Firefly « safe » commercialement
Transcription / synthèse	Teams Copilot, Otter	Cloud EU	Intégration fluide

Architecture cible en 5 couches

Du poste de travail à l'infrastructure modèles — avec une gateway IA au centre pour le routage multi-modèles, le filtrage, l'audit et le FinOps.