Chapitre 05

Choix technologiques

Quel modèle, pour quel usage, hébergé où ? Ce chapitre donne les critères de décision, le paysage des modèles en 2026, des recommandations concrètes par cas d'usage et l'architecture cible.

Critères de choix d'un modèle

Qualité

Performance sur le type de tâche visé.

Coût

Prix au token + coût d'infrastructure.

Latence

Temps de réponse.

Souveraineté

Niveau de maîtrise juridictionnelle.

Capacités spécifiques

Taille du contexte, vision, agents, multimodal.

Écosystème

Intégrations, outils tiers, communauté, documentation.

Le paysage des modèles en juin 2026

Cette photographie reflète l'état du marché à juin 2026. Le rythme reste soutenu : un nouveau modèle phare paraît en moyenne tous les 3 à 6 mois, et les références positionnées « haut de gamme » aujourd'hui basculent typiquement vers le « quotidien » d'ici quelques mois — quand elles ne sont pas tout simplement supplantées. C'est précisément pour cette raison qu'il vaut mieux raisonner par catégorie que par nom de modèle : la liste ci-dessous est destinée à vieillir, la grille de lecture non.

Frontière

Haut de gamme

Raisonnement complexe, code avancé, agents. Coût élevé → forte valeur ajoutée.

Modèles fermés

Claude Opus 4.7 (Anthropic) GPT-5.5 (OpenAI) Gemini 3.* (Google) Grok (xAI)

Modèles ouverts

Qwen 3.7 (Alibaba) DeepSeek V4 Llama 5 (Meta)
Équilibrés

Le quotidien

La majorité des usages. Bon ratio qualité / prix / latence.

Modèles fermés

Claude Sonnet 4.6 (Anthropic) GPT-5.* (OpenAI) Gemini 3 Pro/Flash (Google) Mistral Large/Medium

Modèles ouverts

Gemma 4 (Google) Llama 4 Maverick (Meta) Kimi K2.6 (Moonshot) GLM 5.1 (Z.ai) GPT-OSS:120b (OpenAI)
Légers

Le volume

Tâches simples à grande échelle. Coût & latence très bas.

Modèles fermés

Claude Haiku (Anthropic) GPT-4.* (OpenAI) Gemini Flash (Google) Mistral Nemo

Modèles ouverts

Mistral Small Llama (Meta) Qwen (Alibaba) GLM 4.* (Z.ai) GPT-OSS:20b (OpenAI) Phi-4 (Microsoft) Granite (IBM)
Spécialisés

Par modalité

Code, image, vidéo, voix, embeddings.

Modèles fermés

Firefly · image (Adobe) Nano Banana · image (Google) GPT-Image 2 · image (OpenAI) Sora · vidéo (OpenAI) Veo · vidéo (Google) Whisper · voix (OpenAI) ElevenLabs · voix Suno · musique

Modèles ouverts

Flux · image Stable Diffusion · image HunyuanVideo · vidéo (Tencent) Wan · vidéo (Alibaba) Codestral · code (Mistral)

Recommandations par cas d'usage

Pas un modèle unique : une stratégie multi-modèles, arbitrée entre qualité, coût et souveraineté.

Cas d'usageModèle recommandéHébergementJustification
Assistant généralClaude Sonnet / GPT-4oCloud EUQualité + intégration M365
Code (devs)Claude / GitHub CopilotCloud EUPerformance code supérieure
RAG documentaire interneMistral Large + embeddings OSSCloud souverain / Bedrock EUÉquilibre souveraineté / qualité
Chatbot client externeClaude Haiku / Mistral SmallBedrock EU / souverainCoût + latence + souveraineté
Traitement à gros volumeMistral Small / Claude HaikuSelon volumeCoût critique
Automatisations / agentsClaude Sonnet / GPT-4oSelon sensibilitéQualité de raisonnement
Analyse stratégique / COMEXClaude Opus / GPT premiumCloud EU + ZDRQualité maximale
Données ultra-sensiblesLlama 70B / Mistral open weightOn-premiseSouveraineté maximale
Génération d'images marketingFirefly + MidjourneyAPI directesFirefly « safe » commercialement
Transcription / synthèseTeams Copilot, OtterCloud EUIntégration fluide

Architecture cible en 5 couches

Du poste de travail à l'infrastructure modèles — avec une gateway IA au centre pour le routage multi-modèles, le filtrage, l'audit et le FinOps.