Google a annoncé le 12 mai 2026 Gemini 3.1 Flash-Lite, son nouveau modèle ultra-efficace. Tarif d’entrée : 0,25 $ par million de tokens. Sur les benchmarks de génération, il est 45 % plus rapide et 2,5× plus performant en latence que la version précédente.
La guerre des prix s’intensifie
À 0,25 $ le million de tokens en entrée, Gemini 3.1 Flash-Lite se positionne en concurrence frontale avec GPT-4o Mini d’OpenAI. La cible : les usages à fort volume et faible valeur unitaire — classification de tickets, extraction de données, modération de contenu, premier niveau de support. Sur ces scénarios, le coût par appel devient un critère décisif.
Performance à prix réduit
Google met aussi en avant les gains de latence. Pour des workflows agentiques qui enchaînent plusieurs appels en cascade, la rapidité d’inférence change la donne : une opération qui prenait sept secondes en passe à moins de trois. Sur des volumes industriels, l’économie devient considérable.
Ce que ça change pour les entreprises
Pour les TPE et PME alsaciennes, le mouvement confirme une tendance lourde : les modèles commodités deviennent extrêmement bon marché. La vraie question n’est plus le coût unitaire, mais le choix architectural : où placer le modèle premium, où se contenter du Flash-Lite, et comment router intelligemment selon le besoin. L’ingénierie de prompts cède la place à l’ingénierie de routage.
Source : LLM Stats — AI News

