Les traducteurs automatiques nous comprennent-ils ?

Les traducteurs automatiques nous comprennent-ils ?

Qu’ils s’appellent DeepL, Google Traduction ou Reverso, les traducteurs automatiques sont omniprésents. Afin qu’ils nous comprennent mieux, l’UE lance sa plateforme ELG qui promet de faciliter le développement de technologies dédiées aux langues européennes. L’occasion de revenir aux origines de ces outils aussi pratiques que maladroits…

Les espoirs de science-fiction dans lesquels Internet et la traduction automatique allaient permettre au monde de s’unir et de communiquer d’une seule voix, dans l’amour et le respect des cultures se sont quelque peu estompées d’un horizon proche. Toujours pas de paix universelle en vue avec Google Traduction. Notons tout de même, n’en déplaise au mythe de Babel, que cela n’a pas empêché l’humanité de construire de très grandes tours vaniteuses partout dans le monde. Et ce malgré l’emploi de mains d’œuvres étrangères à des tarifs attractifs. 

Si nos outils traducteurs peinent encore à faire briller les subtilités des textes que nous leur confions, ils sont toutefois en train d’évoluer comme jamais avec les nouvelles technologies, clouds, réseaux neurones, et autres aboutissements so 2020. Des traducteurs rudimentaires jusqu’à la traduction par synthèse vocale, passage en revue de leur histoire et de leur fonctionnement.

La vérité sur l’origine des traducteurs automatiques

L’exaltante histoire de la traduction automatique débute aux balbutiements de l’informatique, à la fin des années 40. Loin de se douter qu’ils allaient finir dans la poche de leurs créateurs, les ordinateurs s’apprivoisent alors pour optimiser la trajectoire de divers projectiles guerriers ou pour traduire les messages codés de l’ennemi. Si vous avez vu le film The Imitation Game tout ceci est de l’eau pour vous. C’est donc tout naturellement à travers les sciences de la cryptographie que sont théorisés aux états-unis les premiers traducteurs de langage humain automatiques. Un vieux rêve dont les fondements sont posés en 1949 dans le très vendeur  mémorandum Translation du scientifique Américain Warren Weaver qui sera l’initiateur reconnu de la course au traducteur magique. Dès lors, au début des années 50, de nombreux centres dédiés fleurissent dans les universités américaines.

Aujourd’hui, la traduction automatique est considérée une discipline à part entière. Mais comme trop de bonnes inventions elle est alors investie en tant que technologie militaire dédiée à traduire rapidement et grossièrement des textes à une échelle industrielle. Son nom, TA pour Translation Aids. Une technologie qui prend ses sources dans de nombreux domaines issus des mathématiques : logique, statistiques et probabilités, neurologie et cybernétique. Mais pas encore de linguistique ou de sémantique pourtant essentielles aux langues.

Analyse syntaxique ou sémantique ?

L’analyse syntaxique c’est l’analyse de la structure globale d’une phrase, puis sa retranscription dans la langue cible à partir de règles grammaticales. Cela donne une traduction mot à mot rendant le document traduit inexploitable sans une ré-édition humaine. Une approche américaine pionnière inspirée par la théorie de l’information qui diffèrera de celles des russes et des britanniques qui entrent tous indépendamment dans la course des langues en abordant une approche centrée sur une traduction par le sens, plutôt que purement syntaxique. Russes et anglais amèneront notamment le principe de langue intermédiaire. L’idée est de transposer les sens d’une langue vers une autre langue intermédiaire comme l’anglais. Puis de traduire de cette langue intermédiaire à la langue cible. Les efforts sont concentrés sur la sémantique et la synthèse finale. Ce procédé permet de traduire plusieurs combinaisons de langues à partir d’une base commune, et sera rapidement généralisé.

Quelle que soit l’approche, c’est un exercice complexe à l’époque. Rappelons que le circuit de votre four à micro-onde est théoriquement des millier de fois plus puissant que toutes les salles remplies de tubes à lampes qui servaient de calculateur à ces pionniers. Ne leur dites pas qu’il n’a été programmé que pour afficher l’heure.

L’ENIAC en 1946, premier calculateur électronique

Guerre froide et remises en question

Pendant ce temps, le monde s’enfonce peu à peu dans la guerre froide et dans la course aux fusées -avec ou sans ogives nucléaires. En 1957 l’URSS  réussit la première mise en orbite d’un satellite avec Sputnik, touchant l’oncle Sam dans son égo. Le besoin de traiter rapidement les journaux et documents techniques soviétiques pompés par l’espionnage, pousse le gouvernement Américain à investir toujours plus copieusement dans ces technologies prometteuses. On se surprend alors à espérer un monde meilleur où les barrières de la langue disparaîtraient en résolvant de nombreux problèmes de communication. Même les traducteurs commencent à craindre pour leur emploi. 

En réalité un débat persiste aux USA en ce qui concerne le retour sur investissement de ces recherches très coûteuses et dont on ne voit pas le bout. Les mots et les expressions d’une langue à l’autre sont d’une telle richesse et peuvent avoir tant de nuances que l’ordinateur est très loin de pouvoir rivaliser avec le cerveau humain. Malgré les gros efforts de vulgarisation des chercheurs pour légitimer politiquement la destination de tout cet oseille, le gouvernement s’interroge. 

Celui-ci crée alors L’ALPAC en 1964 pour “Automatic Language Processing Advisory Committee. Son but est de mettre son nez dans ces recherches obscures par consensus scientifique afin de réguler les financements. Le rapport qui en sort la même année est très pessimiste sur l’avenir de la Translation Aid et met un coup de frein aux recherches.  

John Robinson Pierce, directeur de la recherche d’AT&T et dirigeant de l’ALPAC.

Ces débats ne stoppent pas pour autant les recherches puisque la même année le premier traducteur automatique russe vers anglais est opérationnel sur un IBM Mark II. La société Systran naît alors en 1968 aux états-unis avec l’objectif d’améliorer la traduction des documents du russe vers l’anglais. Très vite sous contrat du gouvernement pour l’espionnage, elle permet aussi la traduction des documents techniques de l’anglais vers le russe pour la collaboration symbolique des deux blocs dans le programme spatial Apollo-Soyouz en 1973. En 1985, Jean Gachot un industriel français spécialisé dans la robinetterie la rachète (si si) et la maintiendra comme l’une des principales puissances de son domaine. Les services de renseignements américains utilisent toujours ses technologies aujourd’hui.

La course pour la TA est relancée dans les années 70, notamment par la Commission européenne, dont les besoins de traduction multilingue dans la construction de l’UE atteignent le million de documents par an. On assiste alors à la naissance de systèmes spécialisés, pour la météo et le spatial notamment. La qualité est tolérable pour des documents techniques mais les difficultés persistent pour les documents plus généralistes comportant plus de nuances. Ne parlons même pas de littérature. Toutefois les recherches avancent de bon train dans les années 80 notamment grâce à l’amélioration de la mémoires des machines. Elles progressent en linguistique avec des bases de données plus riches et la capacité à mémoriser des combinaisons de plus en plus complexes. Aucune évolution majeure ne verra le jour jusqu’à l’arrivée d’internet et de la traduction automatique statistique.

L’arrivée d’Internet et l’analyse statistique

C’est le web qui va permettre à la trad auto de franchir un nouveau cap. Dans les années 90 la société Systran, encore elle, fournit le premier service de traduction en ligne à Yahoo : Babel Fish . Un nom emprunté au poisson-traducteur dans Le Guide du voyageur Galactique de Douglas Adam, et devenu Bing Translator depuis. Le modèle de traduction Systran fonctionne alors grâce à l’analyse syntaxique, grâce à des dictionnaires très fournis qui lui servent de base de données comparative.

La version professionelle de Systran, au début des années 2000

Après avoir lui aussi utilisé les technologies de Systran sous licence pendant plusieurs années, Google lance son propre service Google Traduction en 2006 et marque un tournant. Comme pour son moteur de recherche, son terrain de jeu pour la traduction devient le web tout entier. C’est la naissance de l’analyse statistique dans les traducteurs.

Le principe est simple : si un mot ou une expression ont déjà été traduits quelque part, pourquoi refaire le travail. Il suffit de recopier cette traduction en vérifiant sa validité par des occurence statistiques. Elle se fait chez Google à une échelle jamais vue en analysant les milliards de pages web à sa disposition. L’efficacité est sans appel puisque les phrases traduites semblent avoir beaucoup plus de sens face aux classiques analyses syntaxiques. On peut comparer l’analyse statistique à l’action de taper une expression en anglais dans un moteur de recherche pour vérifier qu’on l’a bien écrite. Ainsi Google peut enrichir en permanence son dictionnaire de correspondances.

Cest ainsi que des blagues de mauvais goût peuvent apparaître en trompant lalgorithme, comme ici en 2012.

Mais dans le domaine littéraire les ordinateurs restent dépassés par la subtilité des jeux de mots et des expressions imagées. L’idée est alors de combiner l’analyse linguistique avec l’analyse statistique. Dans un premier temps le logiciel va effectuer la traduction avec la méthode syntaxique, puis comparer la qualité de sa traduction par rapport à d’autres occurrences et choisir la meilleure.

En 2011, Systran montrant son système d’analyse syntaxique/Statistique combinée

Réseaux de neurones et deep learning

Et nous voici enfin de retour à nos plus fraîches avancées. En 2015 OpenMT (NIST Open Machine Translation) lance un concours de traducteurs automatique qui voit pour la première fois apparaître un traducteur basé sur le deep Learning. Jusqu’ici le langage intermédiaire était l’anglais, le traducteur traduisait en anglais votre phrase, puis dans la langue cible. Avec le deep learning cela tend à devenir de l’histoire ancienne.

De façon abstraite un réseau de neurones est un système inspiré schématiquement par le fonctionnement des neurones biologiques. Il se compose de plusieurs unités interconnectées séparées et disposées en couches. Ils peuvent être composés de centaines et de centaines de couches, on les appelle alors  “réseaux neuronaux profonds”.

Avec des techniques algorithmiques basées sur des probabilités statistiques de doctorants, il apprend à reconnaître les modèles de la même manière qu’un bébé humain apprend à connaître son environnement. En se fixant un objectif, ils ajustent constamment leur comportement et leurs ” connaissances ” sur des centaines d’itérations. C’est du pain béni pour la traduction automatique.

Comment ça marche ?

D’abord, un premier réseau de neurones code le document source en une séquence de vecteurs qui représentent la signification des mots. Les vecteurs équivalent à une langue intermédiaire. En l’occurence c’est une représentation mathématique précise de ce que la phrase doit vouloir dire. Pour cela un contexte est généré pour chaque mot en se basant sur la relation entre le mot et le contexte du mot précédent. En utilisant ce nouveau contexte, la traduction correcte du mot est sélectionnée parmi toutes ses traductions possibles hors contexte.

Ensuite, il y a la phase de transfert. Il s’agit d’une phase de décodage par un second réseau de neurone au cours de laquelle la phrase est générée dans la langue cible. Pour cela le vecteur est traduit à l’aide du dictionnaire précédemment compilé et la qualité de la traduction est évaluée.

On utilise des techniques équivalentes pour que les chatbots aient l’air intelligents.

Un diagramme par Adam Geitgey via Medium, que vous n’êtes pas obligés de comprendre.

Qu’il s’agisse du français Reverso, de l’allemand DeepL ou de Google Trad, tous ont franchi le cap des réseaux de neurone ces 3 dernières années. Google Traduction malgré sa base de données imbattable n’est pas le meilleur élève en la matière, bien souvent surpassé en qualité  par DeepL ou Reverso. La quantité de données et l’analyse statistique ne sont plus les armes fatales dans le monde de la traduction automatique. C’est la qualité de la programmation de ces nouvelles technologies qui définit peu à peu la fidélité des traduction.

Malgré ces avancées et toute la technologie dont nous disposons, nous faisons face aux mêmes dilemmes qu’à l’heure des pionniers. La traduction automatique est loin de pouvoir se passer de l’homme et reste avant outil d’assistance.

Le projet européen dédié aux langues

L’Europe vient de révéler son projet de plateforme dédiée à faciliter le développement d’outils de logiciels de traduction.

Avec L’European Grid Platform, l’idée est de mettre un coup de projecteur sur les centaines d’entreprises européennes commercialisant des technologies linguistiques et de leur apporter des moyens de se développer ensemble. On peut y trouver des projets qu’un assistant vocal type Alexa, parlant le basque en langue native. Mais aussi la mise à disposition d’outils parfois difficiles d’accès.

Ces outils incluent des projets open sources pouvant offrir des briques de développement communes aux développeur. C’est le projet de Jörg Tiedemann de l’université d’Helsinki qui a mis à disposition ses modèles de traduction en open source. Ces derniers reposent sur des réseaux de neurones et implémentent des architectures comprenant des fonctions mathématiques complexes coûteuse à développer. Cette mise à disposition peut aider les développeurs à créer des outils pour des langages à faible densité ou mis de côté «Les langues minoritaires reçoivent trop peu d’attention parce qu’elles ne sont pas commercialement intéressantes (…) cet écart doit être comblé» confiait Tiedemann au magazine Spectrum.

Un constat aussi, que les géants mondiaux ne peuvent assurer le temps de polissage d’un développeur dédié. La couverture de toutes les langues est pourtant un interêt majeur sur un continent qui tente de maintenir une union économique et sociale chevauchant des dizaines de langues maternelles. Le tout évidemment avec la volonté de prendre en autonomie autour des nouvelles technologies ! Sur le site on peut lire “Nous percevons l’ELG comme un antidote infrastructure à l’extinction du langage numérique. Il fournira une large couverture d’offres pour toutes les langues européennes, petites et grandes, pas seulement celles qui bénéficient déjà d’un bon support technologique.” L’heure est donc à faire chuter la frontière des langues tout en les conservant.

Quel futur proche pour les les logiciels de traduction ?

La démocratisation des technologie de reconnaissance et de synthèses vocales réalistes tend à rapprocher la traduction en temps réelles à l’aide de voix de synthèses fluides. On en a vu avec la démonstration impressionnante (ou inquiétante) de Google en 2018.

Cette technologie semble saisir les nuances de certaines phrases et même ajuster son ton pour l’humour. La traduction en temps réel fait donc potentiellement partie des prochaines évolutions prometteuses et nous rapprochent petit à petit d’un vieux rêve de science-fiction.

ParAndréa Malange,
le

Nous contacter

3 min pour un Blonde meilleur

Reportez-nous votre expérience sur la bêta, ou les problèmes que vous constatez.
Sur quel terminal nous avez-vous visité ?*
Quel navigateur utilisez-vous ?*
Si vous avez rencontré un bug, décrivez-le ici*
E-mail