La synthèse vocale, également appelée TTS, est une forme de technologie d'assistance qui apporte facilité et confort dans la vie. Le système lit les textes numériques à haute voix et suffisamment clairement pour qu'une personne puisse les comprendre. La synthèse vocale est également connue sous le nom de technologie de lecture à voix haute, largement acceptée pour sa flexibilité. Il suffit d'une simple pression pour convertir le texte du site Web en audio.
Le système s'étend à tous les appareils tels que les smartphones, les ordinateurs portables, les ordinateurs de bureau et les tablettes, considérés comme idéaux pour les enfants, le public de plus de 20 ans et les personnes handicapées. La difficulté de lire et la fatigue oculaire causées par les appareils électroniques disparaissent avec la synthèse vocale, tandis que la concentration, l'apprentissage et l'habitude de lire en ligne augmentent grâce à l'écoute. Donc, si vous êtes un blogueur, un lecteur ou un propriétaire de site Web, la synthèse vocale est un logiciel qui élargira votre horizon de connaissances. Mais quels sont les avantages d'avoir une voix pour tout, sans limitation et sans frontière ? Il est séparé en fonction des utilisateurs, car ce sont eux qui utilisent les services.
Permettre aux gens de converser avec des machines est un rêve de longue date de l'interaction homme-machine. La capacité des ordinateurs à comprendre la parole naturelle a été révolutionnée ces dernières années par l'application de réseaux neuronaux profonds (par exemple, Google Voice Search). Cependant, générer de la parole avec des ordinateurs - un processus généralement appelé synthèse vocale ou texte-parole (TTS) — est encore largement basé sur ce qu'on appelle TTS concaténatif, où une très grande base de données de courts fragments de parole est enregistrée à partir d'un seul locuteur puis recombinée pour former des énoncés complets. Il est donc difficile de modifier la voix (par exemple, passer à un autre locuteur ou modifier l'accent ou l'émotion de leur discours) sans enregistrer une toute nouvelle base de données.
Le processus TTS comporte plusieurs étapes :
Il existe plusieurs types de technologies TTS, notamment :
GSpeech propose de nombreuses fonctionnalités, notamment des solutions de synthèse vocale (TTS) en ligne, SaaS et sur site pour une grande variété de sources telles que les sites Web, les applications mobiles, les livres électroniques, le matériel d'apprentissage en ligne, les documents, l'expérience client quotidienne, l'expérience de transport et bien plus encore. Comment une entreprise, une organisation et des éditeurs qui intègrent la technologie TTS en bénéficient.
La technologie TTS offre une plus grande accessibilité aux personnes malvoyantes, dyslexiques ou ayant des difficultés de lecture, leur permettant d’accéder à l’information et de communiquer plus facilement.
En offrant aux utilisateurs un moyen alternatif de consommer votre contenu, vous pouvez améliorer l'optimisation des moteurs de recherche (SEO) de votre site Web WordPress. Cela est particulièrement important pour les utilisateurs qui s'appuient sur des lecteurs d'écran pour naviguer sur le Web.
La technologie TTS peut améliorer l'expérience utilisateur en offrant une manière plus naturelle et intuitive d'interagir avec les appareils, réduisant ainsi le besoin de saisie ou de lecture manuelle.
La technologie TTS peut fournir une assistance client 24h/7 et XNUMXj/XNUMX, répondre aux questions fréquemment posées et fournir des informations aux clients de manière plus efficace et efficiente.
La technologie TTS peut augmenter la productivité en automatisant des tâches telles que la saisie de données, la transcription et la lecture, libérant ainsi du temps pour des tâches plus importantes.
La technologie TTS peut prendre en charge plusieurs langues, ce qui en fait un outil précieux pour les entreprises et les organisations qui opèrent à l’échelle mondiale.
La technologie TTS peut améliorer la compréhension de lecture en permettant aux utilisateurs d’écouter le texte tout en suivant le mot écrit, ce qui facilite la compréhension d’informations complexes.
La technologie TTS peut réduire la fatigue oculaire en offrant une alternative à la lecture et à la saisie, ce qui en fait un outil précieux pour les personnes qui passent de longues heures devant des écrans.
La technologie TTS peut augmenter l’engagement en offrant une expérience plus interactive et immersive, ce qui en fait un outil précieux pour les applications éducatives et de divertissement.
La technologie TTS peut offrir un avantage concurrentiel en proposant une manière unique et innovante d’interagir avec les appareils, distinguant ainsi votre produit ou service de la concurrence.
Cela a conduit à une forte demande de TTS paramétrique, où toutes les informations nécessaires pour générer les données sont stockées dans les paramètres du modèle, et le contenu et les caractéristiques de la parole peuvent être contrôlés via les entrées du modèle. Jusqu'à présent, cependant, le TTS paramétrique a eu tendance à sembler moins naturel que concaténatif. Les modèles paramétriques existants génèrent généralement des signaux audio en faisant passer leurs sorties via des algorithmes de traitement du signal appelés vocodeurs.
WaveNet change ce paradigme en modélisant directement la forme d'onde brute du signal audio, un échantillon à la fois. En plus de produire un discours plus naturel, l'utilisation de formes d'onde brutes signifie que WaveNet peut modéliser tout type d'audio, y compris la musique.
Les chercheurs évitent généralement de modéliser des fichiers audio bruts car ils se déroulent très rapidement : en général 16,000 XNUMX échantillons par seconde ou plus, avec une structure importante à de nombreuses échelles de temps. Construire un modèle complètement autorégressif, dans lequel la prédiction de chacun de ces échantillons est influencée par tous les précédents (en termes statistiques, chaque distribution prédictive est conditionnée par toutes les observations précédentes), est clairement une tâche difficile.
Toutefois, PixelRNN et PixelCNN Des modèles publiés précédemment ont montré qu'il était possible de générer des images naturelles complexes non seulement un pixel à la fois, mais un canal de couleur à la fois, ce qui nécessite des milliers de prédictions par image. Cela nous a incité à adapter nos PixelNets bidimensionnels à un WaveNet unidimensionnel.
L'animation ci-dessus montre comment un WaveNet est structuré. Il s'agit d'un réseau neuronal entièrement convolutif, où les couches convolutives ont divers facteurs de dilatation qui permettent à son champ récepteur de croître de manière exponentielle avec la profondeur et de couvrir des milliers de pas de temps.
Au moment de l'apprentissage, les séquences d'entrée sont des formes d'ondes réelles enregistrées à partir de locuteurs humains. Après l'apprentissage, nous pouvons échantillonner le réseau pour générer des énoncés synthétiques. À chaque étape de l'échantillonnage, une valeur est extraite de la distribution de probabilité calculée par le réseau. Cette valeur est ensuite réinjectée dans l'entrée et une nouvelle prédiction est effectuée pour l'étape suivante. Construire des échantillons étape par étape comme cela est coûteux en termes de calcul, mais nous avons trouvé cela essentiel pour générer un son complexe et réaliste.
Nous avons formé WaveNet en utilisant certains des ensembles de données TTS de Google afin que nous puissions évaluer ses performances. La figure suivante montre la qualité de WaveNets sur une échelle de 1 à 5, comparée aux meilleurs systèmes TTS actuels de Google (paramétrique et concaténative), et avec la parole humaine en utilisant Scores moyens d'opinion (MOS)Les MOS sont une mesure standard pour les tests subjectifs de qualité sonore et ont été obtenus lors de tests en aveugle avec des sujets humains (à partir de plus de 500 évaluations sur 100 phrases de test). Comme nous pouvons le constater, les WaveNets réduisent l'écart entre l'état de l'art et les performances de niveau humain de plus de 50 % pour l'anglais américain et le chinois mandarin.
Pour le chinois comme pour l'anglais, les systèmes TTS actuels de Google sont considérés parmi les meilleurs au monde. Améliorer les deux avec un seul modèle est donc une réussite majeure.
GSpeech dispose d'un algorithme de synthèse vocale basé sur l'IA, l'un des plus avancés et réalistes du marché. La plupart des synthétiseurs vocaux (y compris Siri d'Apple) utilisent ce que l'on appelle la synthèse concaténative, dans laquelle un programme stocke des syllabes individuelles (des sons tels que « ba », « sht » et « oo ») et les assemble à la volée pour former des mots et des phrases. Cette méthode s'est améliorée au fil des ans, mais elle semble toujours guindée.
En comparaison, WaveNet utilise l'apprentissage automatique pour générer de l'audio à partir de zéro. En fait, il analyse les formes d'onde d'une énorme base de données de discours humains et les recrée à un rythme de 24,000 2016 échantillons par seconde. Le résultat final comprend des voix avec des subtilités comme des claquements de lèvres et des accents. Lorsque Google a dévoilé WaveNet pour la première fois en XNUMX, il était beaucoup trop gourmand en ressources informatiques pour fonctionner en dehors des environnements de recherche, mais il a depuis été considérablement allégé, montrant un pipeline clair de la recherche au produit.