Google TurboQuant : compression mémoire IA de 6x sans perte de précision
Google publie TurboQuant : compression du cache KV des LLM à 3 bits, 6x moins de mémoire, 8x plus rapide sur H100, sans perte de précision. Présenté à ICLR 2026.
Google publie TurboQuant : compression du cache KV des LLM à 3 bits, 6x moins de mémoire, 8x plus rapide sur H100, sans perte de précision. Présenté à ICLR 2026.
Veille IA // Jeudi 27 mars 2026 // Strasbourg Une juge fédérale de San Francisco vient de bloquer les sanctions de l’administration américaine contre Anthropic, le créateur de Claude. Le…
GPT-5.3 Instant réduit les hallucinations de 26.8% et devient le modèle par défaut de ChatGPT. OpenAI change de stratégie : moins de hype, plus de fiabilité.
10 000 agents publics français testent désormais un assistant IA basé sur Mistral Medium 3, hébergé sur infrastructure SecNumCloud. La souveraineté numérique en action.