Aller au contenu

Whisper (système de reconnaissance vocale)

Un article de Wikipédia, l'encyclopédie libre.
Whisper

Informations
Créateur OpenAI OpCo (d) et OpenAIVoir et modifier les données sur Wikidata
Développé par OpenAIVoir et modifier les données sur Wikidata
Dépôt github.com/openai/whisperVoir et modifier les données sur Wikidata
Type Bibliothèque logicielle Python (d)
Modèle d'apprentissage automatique (d)Voir et modifier les données sur Wikidata
Licence Licence MITVoir et modifier les données sur Wikidata

Whisper est un modèle d'apprentissage automatique pour la reconnaissance et la transcription vocales, créé par OpenAI et publié pour la première fois en tant que logiciel open source en septembre 2022 [1].

Il est capable de transcription en anglais, en français et dans d’autres langues, pour un total de 99 langues [2],[3] et peut également traduire vers l'anglais. OpenAI affirme que la variété des sources langagières mobilisées lors de son développement l’a rendu peu sensible aux différences d’accents, au bruit de fond et même à l’usage de jargons par rapport à d’autres logiciels développés antérieurement[4].

Whisper s’appuie sur les techniques propres à OpenAi, notamment l'apprentissage profond faiblement supervisé, réalisé à l'aide d'une architecture de transformateur codeur-décodeur.

Contexte de développement

[modifier | modifier le code]

La reconnaissance vocale a été étudiée de longue date; les premières approches utilisaient des méthodes statistiques, telles que la déformation temporelle dynamique, puis plus tard ont été testés des modèles de Markov cachés. Autour des années 2010, les modèles les plus courants se sont appuyés sur des réseaux neuronaux profonds, ce qui a été rendu possible par les progrès du Big Data et le développement de processeurs plus puissants[5]. Les premières approches mobilisant l'apprentissage profond pour la reconnaissance vocale ont intégré des réseaux de neurones convolutifs. Ceux-ci étaient toutefois limités du fait de leur limitation pour capturer des données séquentielles, ce qui a ensuite conduit au développement des approches Seq2seq, qui incluent des réseaux de neurones récurrents utilisant la LSTM (long short-term memory) .

Les transformateurs, introduits en 2017 par Google, se sont substitués à des approches antérieures pour progresser dans la résolution des difficultés posées par l'apprentissage automatique et sont devenus l'architecture neuronale de base dans plusieurs domaines comme la modélisation du langage et la vision par ordinateur ; [6] les approches faiblement supervisées de formation de modèles d’apprentissages de la reconnaissance vocale ont été reconnues au début des années 2020 comme les plus prometteuses utilisant des réseaux de neurones profonds[7].

Sources d’apprentissage et capacités

[modifier | modifier le code]

Whisper a été formé par apprentissage semi-supervisé sur 680 000 heures de données multilingues, dont environ un cinquième (117 000 heures) étaient des données audio non anglaises. Whisper ne surpasse pas les modèles spécialisés dans l'ensemble de données LibriSpeech, mais lorsqu'il est testé sur des ensembles de données plus variés, il apparait plus robuste et commet de l’ordre de 50 % d'erreurs en moins que les autres modèles en cours à la même époque[8].

Whisper a un taux d'erreur différent en ce qui concerne la transcription de différentes langues, avec un taux d'erreur de mot plus élevé dans les langues sous-représentées dans les données qui ont servi de base à son entraînement[9].

L’outil peut être installé sur une machine autonome[10].

Références

[modifier | modifier le code]
  1. (en-US) Golla, « Here Are Six Practical Use Cases for the New Whisper API » [archive du ], Slator, (consulté le )
  2. François BEDIN, « OpenAI lance Whisper : un système de reconnaissance vocale qui fonctionne avec 99 langues », sur 01net.com, (consulté le )
  3. (en-US) Dickson, « How will OpenAI's Whisper model impact AI applications? » [archive du ], VentureBeat, (consulté le )
  4. (en-US) Wiggers, « OpenAI open-sources Whisper, a multilingual speech recognition system » [archive du ], TechCrunch, (consulté le )
  5. (en) Dong Yu et Li Deng, Automatic speech recognition: a deep learning approach, London Heidelberg, 2015th, coll. « Signals and communication technology », , 9 p. (ISBN 978-1-4471-5778-6)
  6. (en) Uday Kamath, Kenneth L. Graham et Wael Emara, Transformers for machine learning: a deep dive, Boca Raton London New York, First, coll. « Chapman & Hall/CRC machine learning & pattern recognition », , xix (ISBN 978-0-367-76734-1)
  7. (en) Gerhard Paaß et Sven Giesselbach, Foundation Models for Natural Language Processing, coll. « Artificial Intelligence: Foundations, Theory, and Algorithms », , 313–382 p. (ISBN 978-3-031-23189-6, DOI 10.1007/978-3-031-23190-2_7, arXiv 2302.08575, S2CID 257019816), « Foundation Models for Speech, Images, Videos, and Control »
  8. (en-US) « Introducing Whisper » [archive du ], openai.com, (consulté le )
  9. (en-US) Wiggers, « OpenAI debuts Whisper API for speech-to-text transcription and translation » [archive du ], TechCrunch, (consulté le )
  10. « Whisper V3 : Révolutionner la reconnaissance vocale et au-delà - Plato Data Intelligence », (consulté le )