Par le passé, l’ordinateur était déjà capable d’imiter des voix avec un haut degré de précision. Mais aujourd’hui, la quantité de sons « modèles » nécessaire ne se mesure plus en heures, mais en dizaines de secondes.

Baidu, un géant technologique chinois, affirme être en mesure de synthétiser une voix à partir d’un enregistrement original beaucoup moins long.

Pour cloner une voix, il suffit désormais de moins d’une minute de voix originale

Souvenez-vous du film La Môme sorti en 2007 : à l’époque, le fait que la voix d’Edith Piaf puisse être « collée » aux paroles prononcées par Marion Cotillard en a ému plus d’un. Le résultat était spectaculaire, mais la technologie de synthèse vocale à l’époque prenait un temps fou. Ces dernières années, avec l’avènement des réseaux neuronaux, les choses s’accélèrent.

En 2017, Baidu, le « Google chinois », a présenté une technologie baptisée Baidu Deep Voice, capable de synthétiser une voix ayant à disposition un enregistrement modèle de tout juste 30 minutes. VoCo, un logiciel d’Adobe, se contentait de 20 minutes d’audio. La start-up canadienne Lyrebird affirme pouvoir gérer avec une minute seulement de voix originale. Mais voilà qu’en ce début de 2018, Baidu annonce être en mesure de synthétiser une voix à partir de quelques dizaines de secondes de voix seulement !

La fin de la biométrie vocale ?

Selon The New Scientist, lors de tests, la voix synthétisée par le logiciel de Baidu était identifiée dans 95 % des cas comme appartenant à la personne. Les personnes ayant écouté des items sonores originaux et synthétisés ont donné aux items synthétisés une note globale de 3,16 sur 4.

Le logiciel de Baidu est capable de gérer le chinois comme l’anglais. Cette nouvelle est inquiétante, vu le potentiel d’utilisation de cette solution à des fins de fraude. Au fur et à mesure que les banques lancent avec enthousiasme la « biométrie vocale » sur leurs plateformes d’appel (à savoir, l’identification du client rien que par sa voix), la prochaine circulation sur Internet de voix clonées peut engendrer un préjudice considérable. Un phénomène similaire se produit déjà dans le monde de la pornographie, où les visages de célébrités sont « insérés » en lieu et place des visages des acteurs.