Google lance Gemini 3.1 Flash-Lite : 2,5× plus rapide, 45 % moins cher que la version précédente

Google a annoncé le 12 mai 2026 Gemini 3.1 Flash-Lite, son nouveau modèle ultra-efficace. Tarif d’entrée : 0,25 $ par million de tokens. Sur les benchmarks de génération, il est 45 % plus rapide et 2,5× plus performant en latence que la version précédente.

La guerre des prix s’intensifie

À 0,25 $ le million de tokens en entrée, Gemini 3.1 Flash-Lite se positionne en concurrence frontale avec GPT-4o Mini d’OpenAI. La cible : les usages à fort volume et faible valeur unitaire — classification de tickets, extraction de données, modération de contenu, premier niveau de support. Sur ces scénarios, le coût par appel devient un critère décisif.

Performance à prix réduit

Google met aussi en avant les gains de latence. Pour des workflows agentiques qui enchaînent plusieurs appels en cascade, la rapidité d’inférence change la donne : une opération qui prenait sept secondes en passe à moins de trois. Sur des volumes industriels, l’économie devient considérable.

Ce que ça change pour les entreprises

Pour les TPE et PME alsaciennes, le mouvement confirme une tendance lourde : les modèles commodités deviennent extrêmement bon marché. La vraie question n’est plus le coût unitaire, mais le choix architectural : où placer le modèle premium, où se contenter du Flash-Lite, et comment router intelligemment selon le besoin. L’ingénierie de prompts cède la place à l’ingénierie de routage.

Source : LLM Stats — AI News

La guerre des prix s’intensifie

Performance à prix réduit

Ce que ça change pour les entreprises

Google Cloud Next 2026 : TPU 8e génération et 75% du code écrit par l’IA

Apple x Google : pourquoi Siri passe sous moteur Gemini

Google Gemini 3.1 Flash-Lite : la guerre des prix de l’inférence s’accélère