Overblog
Editer l'article Suivre ce blog Administration + Créer mon blog

France

 

Directeur de publication

Moussa T.  Yowanga

Rédacteur en chef

 Ahmat Zeidane Bichara

 Siège :  France

 Email :  raf.journal09@gmail.com

Géo-localisation

Publié par Ahmat Zeïdane Bichara

Que dira-t-on encore de plus ? Voilà là encore une question intéressante qu’aborde l’œil de Fabien. L’intelligence artificielle saurait-elle capable de décrypter le langage sur les lèvres ? C’est vrai que l’on constate une évolution des techniques et technologies d’une manière stupéfiante et inquiétante, mais néanmoins la question cruciale que tout être censé doit se poser, est de savoir si c’est programme informatique prendront le dessus un jour sur l’homme ? Le célèbre magazine français « Sciences & Avenir » nous apporte encore quelques éléments de prouesse de la science à cette question, d’après sa publication de Janvier 2017 N°839. « De nouveaux algorithmes ont obtenu de meilleurs résultats que les humains pour décrypter les mouvements des lèvres. Le secret de leur réussite : un apprentissage fondé sur le visionnage de milliers de vidéos ».

L’intelligence est don du ciel, qu’effectivement l’homme doit mettre au profit de l’humanité pour son évolution et bien-être. Mais le constat des prouesses de la science de ces dernières décennies ne serait-il pas inquiétant pour le sort de l’humanité ?Nous découvrons ici le résultat d’un travail d’un ordinateur d’un vaisseau qui semble bien décrypter le langage sur les lèvres des astronautes et nous lisons à ce propos : « C’est après avoir lu sur leurs lèvres une conversation entre deux membres de l’équipage que Hal, l’ordinateur du vaisseau de 2001 : l’odyssée de l’espace va se rebeller contre l’intelligence humaine. Le scénario de ce film de science-fiction, imaginé dans les années de 1960, pourrait un jour devenir réalité car désormais, l’intelligence artificielle excelle  dans la lecture sur les lèvres. Pour preuve : à deux semaines d’intervalle en novembre dernier, deux équipes constituées de chercheurs de l’université d’Oxford (Royaume-Uni) et de la société DeepMind (filiale de Google) ont dévoilé les performances d’un algorithme doté de cette aptitude réservée jusqu’alors aux humains. Toutes deux ont utilisé la méthode très efficace, et désormais en vogue, des « réseaux convolutifs », une déclinaison de l’apprentissage automatique. Et dans les deux cas, les capacités humaines ont été surpassées ! Ainsi la première équipe a atteint un taux de réussite de 93,4% lors de tests avec un logiciel nommé LipNet (52,3% pour les hommes). Alors que la seconde affichait des performances de seulement 46,3%. Trop peu ? Il ne faut pas se fier aux apparences, car l’algorithme le plus impressionnant est bien ce dernier, qui utilise une base de données différente pour l’entrainement. Pour comprendre, il faut savoir que celui-ci consiste à soumettre au logiciel des vidéos de personnes en train de parler. D’abord avec le son, pour qu’il apprenne à associer  tel mot ou phonème à tel mouvement des lèvres. Puis avec des vidéos muettes : en fonction de ce qu’il a vu et entendu précédemment, le logiciel fait des suggestions, qui sont validées ou non. Les chercheurs lui indiquent où il a commis une erreur, ils relancent la procédure … et ainsi de suite jusqu’au stade où il ne progresse plus. Après quoi, ils lui présentent une série de vidéos muettes inédites et notent les résultats obtenus. »

Certes, ces prouesses scientifiques sont impressionnantes, cependant elles restent limitées dans son fonctionnement. Dans notre cas ici, le décryptage semble être limité par une base de données, selon les critiques des experts : « Pour LipNet, les chercheurs ont utilisé une base de données appelée Grid, dédié à la recherche. Il s’agit d’extraits vidéo de trois secondes où 34 personnes prononcent chacune un millier de phrases dépourvues de sens. Celles-ci ne sont que des suites de mots (51 au total) conçues sur le même ordre : un verbe à l’impératif, une couleur, une préposition, une lettre, un chiffre (de 1 à 10) et un adverbe. Elles sont prononcées face caméra, avec la bouche du locuteur bien éclairée. Une partie de ce corpus a servi à l’entrainement de l’algorithme, une autre a été réservée à l’évaluation des performances. Par ailleurs, trois malentendant formés à la lecture sur les lèvres ont visionné dix minutes de vidéos ayant servi à entrainer LipNet. Puis leurs performances ont à leur tour été testées. Résultat : le taux d’erreurs moyen a été de 47,7% quand celui de LipNet ne dépassait pas 6,6%. Implacable. Vraiment ? Ces résultats ont en effet été assez vite critiqués dans la communauté scientifique. Neil Lawrence, professeur en apprentissage automatique à l’université de Sheffield (Royaume-Uni), comme le chercheur canadien en intelligence artificielle Alan Mackwork ont ainsi pointé du doigt la base de données Grid. Selon eux, son contenu limité et très formaté aurait facilité la tâche de LipNet. Un étudiant chercheur d’Oxford, Adam Mccarthy, a demandé aux créateurs de l’algorithme pourquoi ils ne s’étaient pas plutôt servis de dizaines de milliers de vidéos disponibles sur Youtube. Réponse : ce matériau contenait trop de « bruit », c’est-à-dire de données parasites qu’il aurait fallu nettoyer pour le préparer à des fins de recherche. »

Choix et commentaire de Fabien Essibeye Fangbo,journaliste stagiaire

Pour être informé des derniers articles, inscrivez vous :

Commenter cet article