Google
Google TurboQuant : compression mémoire IA de 6x sans perte de précision
Google publie TurboQuant : compression du cache KV des LLM à 3 bits, 6x moins de mémoire, 8x…