Un consortium d’acteurs européens vient de publier EuroLLM-22B, un grand modèle de langue entièrement open source, conçu pour couvrir les 24 langues officielles de l’Union européenne. Entraîné sur le supercalculateur MareNostrum 5 du Barcelona Supercomputing Center, le modèle se présente, sur plusieurs benchmarks, comme comparable aux références internationales.
Un modèle, 24 langues, des règles européennes
L’angle linguistique est central. La plupart des grands modèles, américains ou chinois, sont entraînés majoritairement en anglais et en chinois — les langues européennes plus petites (estonien, maltais, lituanien, slovène…) en pâtissent à des degrés divers. EuroLLM-22B prend le problème par l’autre bout : parité linguistique assumée entre les 24 langues officielles. Pour l’administration, l’éducation, la recherche dans les pays « petits » au sens linguistique, c’est un changement structurel.
Open source et infrastructure européenne
Deux briques rendent l’annonce significative au-delà de la prouesse technique. D’une part, le modèle est publié en open source — poids, code d’entraînement, méthodologie. N’importe qui peut l’héberger, l’auditer, l’affiner. D’autre part, il a été entraîné en Europe, sur infrastructure européenne (MareNostrum 5, un des plus puissants supercalculateurs du continent). La chaîne complète — données, calcul, mise à disposition — reste sur le sol européen.
On peut y voir…
… la traduction concrète d’un discours qui tournait jusqu’ici un peu à vide. La « souveraineté numérique européenne » a longtemps été un slogan posé sur des réalités américaines. EuroLLM-22B coche les cases qui manquaient : modèle ouvert, hébergeable en local, entraîné sur calcul européen, aligné sur la diversité linguistique de l’Union. Cela ne résout pas tout — les usages, l’écosystème d’outils autour, la pérennité du financement public restent des questions ouvertes. Mais il existe désormais une option dont on peut discuter en pratique, pas seulement en théorie.
Source : L’Usine Digitale — EuroLLM-22B

