ویسپر (سیستم بازشناسی گفتار)
نویسنده(های) اصلی | اوپنایآی[۱] |
---|---|
انتشار اولیه | ۲۱ سپتامبر ۲۰۲۲ |
مخزن | https://github.com/openai/whisper |
نوشتهشده با | پایتون |
نوع | |
مجوز | پروانه امآیتی |
ویسپر (به انگلیسی: Whisper) یک مدل یادگیری ماشینی برای تشخیص و ترانویسی گفتار است که توسط اوپنایآی تولید شد و اولین بار به صورت منبع باز در سپتامبر ۲۰۲۲ منتشر شد.[۲]
این مدل قادر به رونویسی گفتار به زبان انگلیسی و چندین زبان دیگر است و همچنین قادر است چندین زبان غیر انگلیسی را به انگلیسی ترجمه کند.[۱] به گفته اوپنایآی در این مدل ترکیبی از دادههای آموزشی مختلف استفاده شده که منجر به بهبود شناخت لهجهها، نویز پس زمینه و اصطلاحات تخصصی (در مقایسه با مدل قبلی) شده است.[۳]
ویسپر یک مدل آکوستیک یادگیری عمیق با نظارت ضعیف است که با استفاده از معماری ترنسفورمر ساخته شده است.[۱] ویسپر در در مقایسه با دیگر مدلها، ۵۰٪ خطاهای کمتری ایجاد میکند.[۴] ویسپر نسبت به رونویسی زبانهای مختلف، نرخ خطای متفاوتی دارد، با نرخ خطای کلمه بالاتر در زبانهایی که به خوبی در دادههای آموزشی نشان داده نشدهاند.[۵]
نسخه دوم ویسپر در ۸ دسامبر ۲۰۲۲ منتشر شد.[۶] نسخه سوم در نوامبر ۲۰۲۳ منتشر شد.[۷]
منابع
[ویرایش]- ↑ ۱٫۰ ۱٫۱ ۱٫۲ Radford, Alec; Kim, Jong Wook; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (2022-12-06). "Robust Speech Recognition via Large-Scale Weak Supervision". arXiv:2212.04356 [eess.AS].
- ↑ Golla, Ramsri Goutham (2023-03-06). "Here Are Six Practical Use Cases for the New Whisper API". Slator (به انگلیسی). Archived from the original on 2023-03-25. Retrieved 2023-08-12.
- ↑ Wiggers, Kyle (September 21, 2022). "OpenAI open-sources Whisper, a multilingual speech recognition system". TechCrunch (به انگلیسی). Archived from the original on February 12, 2023. Retrieved February 12, 2023.
- ↑ "Introducing Whisper". openai.com (به انگلیسی). 2022-09-21. Archived from the original on 2023-08-20. Retrieved 2023-08-21.
- ↑ Wiggers, Kyle (2023-03-01). "OpenAI debuts Whisper API for speech-to-text transcription and translation". TechCrunch (به انگلیسی). Archived from the original on 2023-07-18. Retrieved 2023-08-21.
- ↑ "Announcing the large-v2 model · openai/whisper · Discussion #661". GitHub (به انگلیسی). Retrieved 2024-01-08.
- ↑ OpenAI DevDay: Opening Keynote (به انگلیسی), retrieved 2024-01-08