Inférence.

Google lance Gemini 3.1 Flash-Lite : 2,5× plus rapide, 45 % moins cher que la version précédente

Gemini 3.1 Flash-Lite est positionné à 0,25 $ le million de tokens en entrée. Une offensive directe sur le segment des usages à fort volume et faible coût, en concurrence avec GPT-4o Mini d’OpenAI.

Mat · 14 Mai 2026 · 2 min

Google

Google TurboQuant : compression mémoire IA de 6x sans perte de précision

Google publie TurboQuant : compression du cache KV des LLM à 3 bits, 6x moins de mémoire, 8x plus rapide sur H100, sans perte de précision. Présenté à ICLR 2026.

Nicolas · 27 Mar 2026 · 4 min