پرش به محتوا

ویسپر (سیستم بازشناسی گفتار)

از ویکی‌پدیا، دانشنامهٔ آزاد
ویسپر (سیستم بازشناسی گفتار)
نویسنده(های)
اصلی
اوپن‌ای‌آی[۱]
انتشار اولیه۲۱ سپتامبر ۲۰۲۲
مخزنhttps://github.com/openai/whisper
نوشته‌شده باپایتون
نوع
مجوزپروانه ام‌آی‌تی

ویسپر (به انگلیسی: Whisper) یک مدل یادگیری ماشینی برای تشخیص و ترانویسی گفتار است که توسط اوپن‌ای‌آی تولید شد و اولین بار به صورت منبع باز در سپتامبر ۲۰۲۲ منتشر شد.[۲]

این مدل قادر به رونویسی گفتار به زبان انگلیسی و چندین زبان دیگر است و همچنین قادر است چندین زبان غیر انگلیسی را به انگلیسی ترجمه کند.[۱] به گفته اوپن‌ای‌آی در این مدل ترکیبی از داده‌های آموزشی مختلف استفاده شده که منجر به بهبود شناخت لهجه‌ها، نویز پس زمینه و اصطلاحات تخصصی (در مقایسه با مدل قبلی) شده است.[۳]

ویسپر یک مدل آکوستیک یادگیری عمیق با نظارت ضعیف است که با استفاده از معماری ترنسفورمر ساخته شده است.[۱] ویسپر در در مقایسه با دیگر مدل‌ها، ۵۰٪ خطاهای کمتری ایجاد می‌کند.[۴] ویسپر نسبت به رونویسی زبان‌های مختلف، نرخ خطای متفاوتی دارد، با نرخ خطای کلمه بالاتر در زبان‌هایی که به خوبی در داده‌های آموزشی نشان داده نشده‌اند.[۵]

نسخه دوم ویسپر در ۸ دسامبر ۲۰۲۲ منتشر شد.[۶] نسخه سوم در نوامبر ۲۰۲۳ منتشر شد.[۷]

منابع

[ویرایش]
  1. ۱٫۰ ۱٫۱ ۱٫۲ Radford, Alec; Kim, Jong Wook; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (2022-12-06). "Robust Speech Recognition via Large-Scale Weak Supervision". arXiv:2212.04356 [eess.AS].
  2. Golla, Ramsri Goutham (2023-03-06). "Here Are Six Practical Use Cases for the New Whisper API". Slator (به انگلیسی). Archived from the original on 2023-03-25. Retrieved 2023-08-12.
  3. Wiggers, Kyle (September 21, 2022). "OpenAI open-sources Whisper, a multilingual speech recognition system". TechCrunch (به انگلیسی). Archived from the original on February 12, 2023. Retrieved February 12, 2023.
  4. "Introducing Whisper". openai.com (به انگلیسی). 2022-09-21. Archived from the original on 2023-08-20. Retrieved 2023-08-21.
  5. Wiggers, Kyle (2023-03-01). "OpenAI debuts Whisper API for speech-to-text transcription and translation". TechCrunch (به انگلیسی). Archived from the original on 2023-07-18. Retrieved 2023-08-21.
  6. "Announcing the large-v2 model · openai/whisper · Discussion #661". GitHub (به انگلیسی). Retrieved 2024-01-08.
  7. OpenAI DevDay: Opening Keynote (به انگلیسی), retrieved 2024-01-08