Google Meet : comment Google et DeepMind ont créé la traduction en direct

par Yohann Poiron le 15/09/2025

Google vient de lever le voile sur l’envers du décor de son ambitieuse fonctionnalité de traduction en direct dans Google Meet. Ce projet, qui devait initialement prendre cinq ans, a finalement été concrétisé en seulement deux ans grâce à la collaboration entre les équipes audio engineering, product management et Google DeepMind.

Un vieux rêve enfin accompli

Jusqu’ici, traduire une conversation en temps réel était un casse-tête technologique. Les anciennes solutions passaient par un processus en trois étapes : transcrire l’audio → traduire le texte → générer une nouvelle voix. Résultat : des latences de 10 à 20 secondes, un vrai frein à toute discussion naturelle. Pire encore, les voix générées manquaient d’intonation et de personnalité.

Avec l’arrivée de nouveaux modèles audio à grande échelle, Google a pu franchir un cap : ces modèles réalisent des traductions “one-shot”, c’est-à-dire qu’ils commencent à produire l’audio traduit presque immédiatement après réception de la voix source.

Deux secondes de retard, pas plus

Les ingénieurs expliquent avoir trouvé un équilibre parfait : 2 à 3 secondes de latence seulement. Suffisamment court pour que la conversation paraisse fluide, mais assez long pour que l’auditeur ait le temps de traiter ce qu’il entend. En clair, l’expérience se rapproche d’un interprète humain simultané.

Des défis techniques et linguistiques

Bien sûr, tout n’a pas été simple. Les équipes Google Meet et Google DeepMind ont dû gérer plusieurs contraintes :

Les accents et variations de prononciation,
Les bruits de fond et problèmes réseau,
La fidélité de la traduction face à des idiomes ou des structures grammaticales complexes.

Certaines langues latines (espagnol, portugais, italien, français) se sont montrées plus simples à intégrer, alors que l’allemand ou d’autres langues avec une syntaxe différente ont demandé plus de travail.

Et après ?

Pour l’instant, le modèle reste assez littéral, ce qui peut donner lieu à des traductions cocasses. Mais, Google prévoit déjà des évolutions grâce à l’intégration future de LLMs plus avancés, capables de saisir le ton, l’ironie et les nuances culturelles.

L’objectif est clair : transformer Google Meet en un outil de communication universel, où les barrières linguistiques disparaissent presque totalement.

Pourquoi c’est une avancée majeure ?

Pouvoir dialoguer en direct avec une personne d’un autre pays sans attendre une traduction interminable change la donne, aussi bien dans le monde professionnel que dans les échanges personnels. Entreprise internationale, université ou simple appel entre amis, les applications sont infinies.

Google marque ainsi un grand coup face à Zoom et Microsoft Teams, en plaçant l’IA non plus comme un gadget, mais comme un véritable outil de communication humaine.