La reconnaissance vocale sous Linux suit les plates-formes Windows et Mac, car Microsoft et Apple ont investi beaucoup de temps et d'argent pour ajouter des logiciels de commande vocale ou d'assistant vocal dans leurs systèmes d'exploitation de base.
Bien que la situation ne soit pas sombre pour Linux, comme c'est le cas avec de nombreuses technologies de pointe, l'univers libre et open-source reste un pas en arrière, en particulier avec les outils de commande vocale.
Reconnaissance vocale Linux native
Aucune distribution Linux ne se concentre sur la reconnaissance vocale. Cependant, les applications qui prennent en charge la capacité de reconnaissance vocale s'appuient sur une poignée de bibliothèques open source, notamment Sphinx, Kaldi, Julius et Mozilla Deepspeech.
Espace négatif / Mockup.Photos
Ces bibliothèques s'appuient sur un corpus vocal pour proposer des variations de sons afin d'entraîner l'IA et donc traduire correctement la parole en texte. Cependant, les projets open source sont moins sophistiqués (car ils bénéficient de plus petites contributions pour former l'IA), ce qui signifie que la plupart des applications de synthèse vocale pour Linux bâclent fréquemment la conversion. Habituellement, ils le bâclent tellement que l'on ne sait pas ce qu'aurait pu être le discours original.
Options pour Linux Speech to Text
Utilisez l'une des cinq voies de solution.
- Faites confiance aux applications Linux natives disponibles dans les référentiels de votre distribution, le cas échéant.
- Amazon a rendu Alexa disponible pour Linux, y compris pour Raspberry Pi. Vous devrez effectuer de nombreux ajustements personnalisés pour que cet arrangement fonctionne, mais cela fonctionnera.
- Accédez à l'API Google Speech dans votre navigateur via DictationIO. Ce service fonctionne uniquement pour la dictée; vous ne pouvez pas l'utiliser pour la commande vocale. Il est alimenté par l'IA de Google, donc la qualité est bonne.
- Utilisez un service comme Alexa ou Google Assistant comme utilitaire de commande vocale pour Linux via le service Triggercmd. Triggercmd s'exécute sur votre ordinateur; utilisez-le pour appeler Alexa ou Google Assistant et demandez à ces outils d'exécuter des scripts Bash spécifiques en fonction de votre commande. Dites quelque chose comme "OK Google, demandez à la commande de déclenchement d'ouvrir la calculatrice". L'Assistant Google sert d'intermédiaire avec Triggercmd pour exécuter le script Bash spécifié par l'expression "ouvrir la calculatrice".
- Utilisez Wine ou une machine virtuelle avec un logiciel pour Windows comme Dragon NaturallySpeaking. Avec les bons réglages, vous pouvez utiliser le moteur Dragon pour la transcription, bien que cette solution ne fonctionne pas pour les applications de commande vocale.