Alors que nous avons tous déjà utilisé, même sans le savoir, «  Google trad  », nous sommes en réalité une minorité à connaître et à comprendre l’algorithme efficace de ce traducteur numérisé. Et pourtant le mystère est grand et la magie est surprenante. Dans un article récent, des scientifiques à l’origine de cet outil constatent même que leur technologie démontrerait la théorie du langage proposée par le philosophe du XXe siècle Ludwig Wittgenstein. Selon sa conception philosophique, les mots ont un sens contextualisé, en lien avec leur utilisation, qui domine leur signification individuelle. Quand l’algorithmique donne raison à Wittgenstein, c’est le monde entier de la linguistique qui s’agite  !

Dans son œuvre emblématique Tractatus logico-philosophicus, Wittgenstein explique que les mots n’ont pas de caractère propre, mais possèdent un sens directement lié à leur utilisation dans une phrase ou dans un texte. En cela, le langage fonctionnerait sur des règles logiques, voire mathématiques, par des combinaisons de mots qui fournissent une certaine force sémantique au langage. La phrase «  Le ciel est nuageux  » exprime un fait, un état en lien avec le ciel, avant d’expliciter la notion même de ciel. Wittgenstein propose donc que la théorisation du langage suive cette logique du sens contextualisé pour pouvoir représenter au mieux le sens des mots dans la réalité.

Chaque mot devient un objet mathématique
Le traducteur de Google utilise l’algorithme word2vec qui permet de catégoriser les mots selon leurs usages. Pour cela word2vec convertit chaque mot en objet mathématique pour construire un schéma neuronal propre aux techniques d’apprentissage algorithmiques. Cet objet mathématique est en fait un vecteur, d’où les origines du terme word2vec pour from words to vectors (mots en vecteurs). Ce réseau neuronal développe des connexions selon une certaine probabilité entre les mots selon leur utilisation dans les millions de textes fournis à l’algorithme pendant la phase d’apprentissage. L’efficacité de l’algorithme word2vec pour traduire des textes avec justesse démontre d’une certaine manière la légitimité de la philosophie de Wittgenstein : les mots n’ont de sens qu’à travers les mots qui l’entourent.

Ces mêmes réseaux de neurones issus de word2vec dévoilent également nos côtés les plus sombres et les plus biaisés. En 2016, cet algorithme est utilisé sur des articles de Google News pour catégoriser les noms de métier selon leur genre, dans le but d’associer au métier masculin son homologue féminin. Le résultat est le miroir désagréablement surprenant de nos usages : le féminin de docteur est infirmière, et le féminin de développeur informatique est femme au foyer. Certains diront que l’algorithme est profondément sexiste, mais il ne révèle en réalité que nos propres biais cognitifs qui sont le vrai coupable de cette «  genrification  » des métiers.

L’algorithmique a décidément encore beaucoup de choses à dévoiler. Vous ne verrez plus jamais une traduction en ligne comme avant… à la translation littérale se substituera dans votre esprit la translation vectorisée  !


Publié dans Le Point

Docteur en sciences de formation et entrepreneuse, elle navigue depuis plus de 10 ans dans les sciences numériques entre les États-Unis et la France. Aurélie a utilisé ses compétences en mathématiques et programmation informatique dans de nombreuses disciplines telles que l’ingénierie, la médecine, l’éducation, l’économie, la finance ou encore le journalisme. Aurélie s’engage plus généralement à développer un monde technologique inclusif en luttant contre les biais algorithmiques et en communiquant régulièrement et auprès du plus grand nombre sur les technologies numériques et l’intelligence artificielle.

Une pensée sur “Quand l’algorithmique donne raison à Wittgenstein”

  1. Partons de l’idée suivante : la philosophie consite à associer des concepts de la vie à des mots. Faut-il comprendre qu’un algorithme qui analyse la grammaire des phrases tel que word2vec, sur une très très grande quantité de phrases diverses, et créant des associations statistiques de mots ayant un contexte grammatical similaire et – dans l’exemple de l’article – un genre différent, serait donc une tendance déterministe – donc programmable – à tenir des « raisonnements philosophiques » ? Cela impliquerait que l’on peut « programmer de la philosophie », n’est-ce pas ? Voilà qui donne du crédit à Harari qui voit dans le cerveau de « sapiens » un lot d’algoritmes innés (par sa génétique) et acquis (par son expérience). Il n’en faut pas moins pour enviseager – à terme – une « IA forte ». En lisant l’article, je n’ai pas pensé à Wittgenstein (que je ne connais pas), mais plutôt au domaine d’expertise « grammaire générative et transformationnelle » de Noam Chomsky. De plus, je ne pense pas seulement à Google Trad, mais aussi au projet « reverso context » lequel est bien français et dont la base de donnée est en partie « open source », ayant cette même logique de traduction contextelle et d’analyse de similarité grammaticale, et non « mot à mot ».

Laisser un commentaire