Перайсці да зместу

Распазнаванне маўлення

З Вікіпедыі, свабоднай энцыклапедыі
Версія ад 04:14, 12 жніўня 2024, аўтар Włodzimierz Lewoniewski (UEP) (размовы | уклад) (Змены ў спасылках (DOI: 10.1121/1.1911801))
(розн.) ← Папярэдн. версія | Актуальная версія (розн.) | Навейшая версія → (розн.)

Распазнаванне маўлення – гэта міждысцыплінарнае падполе камп’ютарнай лінгвістыкі, якое займаецца распрацоўкай метадалогій і тэхналогій, што дазваляюць камп’ютару распазнаваць і пераўтвараць маўленне ў тэкст. Распазнаванне маўлення таксама вядома як ASR (англ.: automatic speech recognition — «аўтаматычнае распазнаванне маўлення») альбо проста STT (англ.: speech-to-text — «маўленне ў тэкст»). Сюды ўключаюцца веды і даследаванні ў галінах лінгвістыкі, інфарматыкі і электратэхнікі.

Некаторыя сістэмы распазнавання маўлення патрабуюць так званага «навучання». Гэты метад уяўляе сабой начытку пэўным дыктарам тэксту альбо асобнага слоўніка ў сістэму, пасля чаго сістэма аналізуе голас чалавека і выкарыстоўвае яго для далейшай дакладнай налады. Сістэмы, якія не выкарыстоўваюць метад навучання, называюцца «дыктаранезалежнымі».[1] Сістэмы, якія выкарыстоўваюць — «дыктаразалежнымі».

Праграмы для распазнавання маўлення ўключаюць такія галасавыя карыстальніцкія інтэрфейсы, як галасавы набор (напрыклад, «Патэлефанаваць дадому»), маршрутызацыя званкоў (напрыклад, «Я жадаю зрабіць групавы званок»), кіраванне прадметамі хатняга ўжытку, пошук (напрыклад, знайсці падкаст, дзе былі ўжыты пэўныя словы), просты ўвод даных (увод нумара банкаўскай карткі), падрыхтоўка структурных дакументаў (напрыклад, справаздача па радыялогіі), вызначэнне характарыстык дыктара, апрацоўка маўлення ў тэкст (STT) (напрыклад, тэкставыя працэсары або электронная пошта) і авіясфера (як правіла, так званы direct voice input – кіраванне некаторымі функцыямі самалёта простымі камандамі).

З тэхналагічнага пункту гледжання, распазнаванне маўлення мае доўгую гісторыю з некалькімі хвалямі буйных інавацый. Прарывы ў такіх сферах, як глыбокае навучанне і Big Data далі важкія падставы для развіцця ASR увогуле. Поспехі ў плыні можна заўважыць не толькі па колькасці акадэмічных артыкулаў, але і па ўкараненні метадаў глыбокага навучання ў дачыненні да сістэм распазнавання маўлення. Такія гіганты сучаснага ІТ, як Google, Microsoft, IBM, Baidu, Apple, Amazon, Nuance, SoundHound, iFLYTEK прадставілі свае тэхналогіі распазнавання маўлення заснаваныя на метадах глыбокага навучання.

Раннія распрацоўкі

[правіць | правіць зыходнік]

У 1952 годзе тры даследчыкі Bell Labs пабудавалі сістэму для распазнавання маўлення аднаго чалавека. Гэтая сістэма працавала паводле прынцыпу лакалізацыі фармант у энергетычным спектры кожнага выказвання.[2]

У дачыненні да маўлення Гунар Фант распрацаваў мадэль паводле тыпу «крыніца-фільтр» і апублікаваў яе ў 1960 годзе, што потым аказалася сапраўднай знаходкай.

На жаль, фінансаванне Bell Labs на некалькі гадоў спынілася, калі ў 1969 годзе ўплывовы Джон Пірс напісаў адкрыты ліст, які крытыкаваў даследаванні па распазнаванні маўлення.[3] Такім чынам, Пірс спыніў грашовую падтрымку праэкта да моманту, пакуль Джон Фланаган не пераняў пасаду.

Рэдж Рэдзi, студэнт Стэнфардскага універсітэту, быў першым, хто працягнуў працаваць над распазнаваннем бесперапыннага маўлення ў канцы 60-х гадоў. Папярэднія ж сістэмы патрабавалі, каб дыктар рабіў паўзу пасля кожнага слова. Сістэма Рэдзі паспяхова выкарыстоўвалася ў шахматах.

Таксама прыкладна ў гэты час савецкія даследчыкі вынайшлі алгарытм дынамічнай трансфармацыі часавай шкалы (альбо DTW — Data Time Warping), які быў выкарыстаны для стварэння распазнавальніка, здольнага працаваць на 200 словах слоўніка.[4] Прынцып алгарытму DTW заключаецца ў апрацоўцы маўленчага сігнала шляхам дзялення яго на кароткія фрэймы (напрыклад, па 10 мс) і постапрацоўцы кожнага фрэйма асобна. Хаця DTW потым і будзе заменена больш познімі алгарытмамі, методыка падзелу сігналу на фрэймы стане падставай для далейшых алгарытмаў. Дасягненне дыктаранезалежнасці было галоўнай нявырашанай задачай даследчыкаў у той перыяд.

У канцы 1960-х гадоў Леанард Баўм распрацаваў матэматыку ланцугоў Маркава ў Інстытуце Аналізу Абароны. Праз дзесяць гадоў для распазнавання маўлення Джэймс Бэйкер і Джанет М. Бэйкер (студэнты Раджа Рэдзі) пачалі выкарыстоўваць Схаваныя Маркаўскія Мадэлі (HMM — Hidden Markov Model).[5] Джэймс Бэйкер даведаўся пра HMM, калі атрымоўваў вышэйшую адукацыю ў Інстытуце Аналізу Абароны падчас летняй практыкі. Выкарыстанне НММ дазволіла даследчыкам аб’яднаць розныя крыніцы ведаў, такія як акустыка, мова і сінтаксіс у адзіную імавернасную мадэль.

У сярэдзіне 1980-х гадоў IBM пад кіраўніцтвам Фрэда Элінэка стварылі пішучую машынку на галасавым кіраванні пад назвай Tangora, якая магла справіцца з 20000 слоў слоўніка.[6] Пры статыстычным падыходзе Элінэка звярталася менш увагі на эмуляцыю працэсаў распазнавання і разумення маўлення мозгам. Замест гэтага былі прыменены метады статыстычнага мадэлявання, падобныя да HMM. (група Элінэка сама незалежна выявіла прымяненне HMM да маўлення).[7] Аднак такі прарыў быў спрэчна сустрэты лінгвістамі, паколькі алгарытмы НММ былі занадта спрошчаныя для тлумачэння многіх агульных рыс чалавечых моў.[8] Тым не менш, HMM аказаўся вельмі карысным сродкам для мадэлявання маўлення і стаў дамінуючым алгарытмам распазнавання маўлення ў 1980 годзе[9], цалкам замяніўшы папярэднія алгарытмы DTW.

Большая частка прагрэсу ў галіне належала новым магчымасцям камп’ютараў, якія ў той час развіваліся надзвычай інтэнсіўна. У канцы праграмы DARPA ў 1976 годзе, лепшым камп’ютарам для даследчыкаў быў PDP-10 з 4 Мб аператыўнай памяці. Каб дэкадзіраваць толькі 30 секунд маўлення, камп’ютарам патрабавалася ажно 100 хвілін.[10] Калі хуткасць камп’ютараў павялічылася, даследчыкі пачалі вырашаць больш складаныя праблемы, такія як вялікія слоўнікі, акустычная незалежнасць, шумная абстаноўка і гутарковае маўленне. Гэтае пераключэнне на больш складаныя задачы тлумачыла пладавітасць 1980-х гадоў як заслугу фінансавання DARPA. Так быў дасягнуты прагрэс у дыктаранезалежнасці спачатку шляхам навучання на вялікай колькасці розных дыктараў, а потым праз адаптацыю сістэмы пад пэўнага дыктара падчас дэкадзіравання. Далейшае зніжэнне частаты памылак у словах стала магчымым дзякуючы замене акустычных мадэляў максімальнага падабенства дыскрымінацыйнымі.[11]

У сярэдзіне 1980-х гадоў з’явіліся мікрапрацэсары для распазнавання маўлення. Напрыклад, RIPAC, дыктаранезалежны чып для бесперапыннага маўлення (створаны для тэлефонных сэрвісаў), быў прадстаўлены ў Нідэрландах у 1986 годзе.[12] Ён быў распрацаваны CSELT/Elsag і выраблены SGS.[13].

Практычнае распазнаванне маўлення

[правіць | правіць зыходнік]

У 1990-я гады з’явіліся першыя камерцыйна паспяховыя тэхналогіі распазнавання маўлення. Двума самымі раннімі прадуктамі былі Dragon Dictate, спажывецкі прадукт, выпушчаны ў 1990 годзе па цане 9000 долараў, і распазнавальнік ад Kurzweil Applied Intelligence, выпушчаны ў 1987 годзе.[14][15] У 1992 годзе AT&T разгарнула службу Voice Recognition Call Processing (Апрацоўка званкоў з дапамогай распазнання голаса) для маршрутызацыі тэлефонных званкоў без удзелу чалавека-аператара.[16] Гэтая тэхналогія была распрацавана Лоўрэнсам Рабінерам і іншымі з Bell Labs. У гэты час слоўнікавы запас тыповай сістэмы камерцыйнага распазнавання маўлення ўжо перавышаў сярэдні чалавечы слоўнікавы запас. Былы студэнт Раджа Рэдзі, Хуэдонг Хуанг, распрацаваў сістэму Sphinx-II пры CMU. Сістэма Sphinx-II была першай, якая не залежала ад дыктара, мела вялікі слоўнікавы запас, бесперапыннае распазнаванне маўлення і, акрамя таго, мела найвышэйшыя адзнакі па ацэнцы DARPA.

Lernout & Hauspie, бельгійская кампанія па распазнаванні маўлення, набыла некалькі іншых кампаній, у тым ліку Kurzweil Applied Intelligence ў 1997 годзе і Dragon Systems ў 2000 годзе. Тэхналогіі L&H былі выкарыстаны ў Windows XP. L&H былі лідарамі галіны, пакуль у 2001 годзе фінансавы скандал не паклаў канец кампаніі. Маўленчая тэхналогія L&H была набыта ScanSoft, якія ў 2005 годзе пераўтварыліся ў Nuance.[17] Apple першапачаткова ліцэнзіравалі праграмны софт ад Nuance для забеспячэння лічбавага дапаможніка Siri магчымасцю распазнавання маўлення.

У 2000-я гады DARPA стала спонсарам дзвюх праграм распазнавання маўлення: Effective Affordable Reusable Speech-to-Text (EARS) у 2002 годзе і Global Autonomous Language Exploitation (GALE). EARS фінансавалі маўленчы тэлефонны корпус, які змяшчаў 260 гадзін запісаных размоў больш чым 500 дыктарамі.[18] GALE жа была сканцэнтравана на вяшчанні навін на арабскай і кітайскай мовах.

Першая спроба кампаніі Google ў распазнаванні маўлення адбылася ў 2007 годзе пасля найму некаторых даследчыкаў з Nuance.[19] Першым прадуктам быў GOOG-411, служба кіравання тэлефоннымі званкамі. Запісы, зробленыя праз GOOG-411 далі каштоўныя даныя, якія дапамаглі Google палепшыць свае сістэмы распазнавання. Галасавы пошук Google зараз падтрымлівае больш чым 30 моў.

Сучасныя сістэмы

[правіць | правіць зыходнік]

У пачатку 2000-х гадоў у распазнаванні маўлення дагэтуль дамінавалі традыцыйныя падыходы: напрыклад, Схаваныя Маркаўскія Мадэлі, спалучаныя са штучнымі нейроннымі сеткамі прамой дыстрыбуцыі (feedforward artificial neural networks).[20] Сёння, аднак, многія аспекты распазнавання маўлення былі зроблены прымусова глыбокім метадам навучання (deep learning) пад назвай LSTM (Long short-term memory) - рэкурэнтнай нейронавай сеткі, апублікаванай Зэппам Хохрайтэрам & Юргенам Шмідхуберам у 1997 годзе.[21] LSTM пазбегла праблемы знікнення градыенту і магла спраўляцца з задачамі «Вельмі Глыбокага Навучання»[22], якія патрабуюць успамінаў пра падзеі, якія адбыліся тысячы дыскрэтных часовых крокаў назад, што вельмі важна для прамовы. У 2015 годзе сістэма распазнавання маўлення Google перажыла рэзкі скачок прадукцыйнасці на 49% праз CTC(Connectionist Temporal Classification)-навучаную LSTM[23], якая цяпер даступная праз Google Voice для ўсіх карыстальнікаў смартфонаў.

Выкарыстанне глыбокіх нерэкурэнтных сетак у дачыненні да акустычнага мадэлявання было прадстаўлена ў 2009 Джэфры Хінтанам і яго студэнтамі з Універсітэта Таронта, а таксама Лі Дэнам[24] і яго калегамі з Microsoft Research, першапачаткова ў рамках сумеснай працы паміж Microsoft і Універсітэтам Таронта, якая пасля была пашырана, каб уключыць IBM і Google (адсюль падзагаловак «Агульныя погляды чатырох даследчых груп» у іх аглядным артыкуле 2012 г.).[25] Кіраўнік па даследаванням Microsoft назваў гэта новаўвядзенне «найболей рэзкім змяненнем у дакладнасці з 1979 года».[26] У адрозненні ад стабільных паступовых паляпшэнняў на працягу апошніх некалькіх дзесяцігоддзяў, прымяненне глыбокага навучання знізіла частату слоўных памылак на 30%.[26] Гэта новаўвядзенне было хутка прынята ва ўсіх магчымых сферах. Далей даследчыкі пачалі выкарыстоўваць метады глыбокага навучання таксама і для мадэлявання мовы.

У доўгай гісторыі распазнавання маўлення, як дробныя, так і глыбокія нейронныя сеткі былі даследаваны на працягу 1980-х, 1990-х і некалькі гадоў у 2000-я гады.[27][28][29] Але гэтыя метады не маглі параўнацца з тэхналогіяй Гаўссаўскай сумесі размеркавання/Схаванай Маркаўскай мадэллю (GMM-НММ), заснаванай на дыскрымінацыйных генератыўных мадэлях маўлення.[30] Шэраг ключавых цяжкасцяў быў метадалагічна прааналізаваны ў 1990-х гадах. Такія праблемы, як памяншэнне градыенту (gradient diminishing)[31], слабая структура часовай карэляцыі ў нейронавых мадэлях, адсутнасць вялікіх навучальных даных і вялікай вылічальнай магутнасці ў тыя дні азадачыла большасць даследчыкаў, якія былі вымушаны адступіць ад канцэпцыі нейронавых сетак, займаючыся генератыўнымі падыходамі мадэлявання.[32][33] Але ў 2009-2010 гадах, сітуацыя змянілася: Хінтан і Дэн у супрацоўніцтве з калегамі Універсітэту Таронта, Microsoft, Google і IBM адрадзілі прымяненне глыбокіх нейронавых сетак у дачыненні да распазнавання маўлення.[34][35][36][37]

Мадэлі, метады і алгарытмы

[правіць | правіць зыходнік]

Акустычнае мадэляванне і моўнае мадэляванне з’яўляюцца важнымі часткамі сучасных статыстычных алгарытмаў распазнавання маўлення. Схаваныя Маркаўскія Мадэлі шырока выкарыстоўваюцца ў шэрагу сістэм. Моўнае мадэляванне таксама выкарыстоўваецца ў шмат іншых сферах, такіх як класіфікацыя дакументаў ці статыстычны машынны пераклад.

Схаваныя Маркаўскія Мадэлі

[правіць | правіць зыходнік]

Сучасных універсальных сістэм распазнавання прамовы на аснове схаваных Маркоўскіх мадэляў. Гэта статыстычныя мадэлі, якія даюць на выхадзе паслядоўнасці знакаў або колькасці. Сістэмай гидрометеомониторинга выкарыстоўваюцца ў распазнаванні прамовы, таму што маўленчай сігнал можна разглядаць як кавалкава-стацыянарнага сігналу або кароткага часу стацыянарнага сігналу. У кароткія тэрміны (напрыклад, 10 мілісекунд), гаворка можа быць аппроксимирован стацыянарным працэсам. Гаворка можа разглядацца як Маркоўская мадэль для многіх выпадковых мэтаў.

Яшчэ адна прычына, чаму HMM карыстаюцца папулярнасцю, заключаецца ў тым, што мадэлі могуць быць навучаны аўтаматычна. Акрамя таго, яны дастаткова простыя для фармалізацыі.

Алгарытм дынамічнай трансфармацыі часовой шкалы (DTW)

[правіць | правіць зыходнік]

Алгарытм дынамічнай трансфармацыі часовай шкалы (альбо DTW) гістарычна выкарыстоўваўся ў распазнаванні маўлення, але зараз ён заменены на больш паспяховы HMM падыход.

DTW ўяўляе сабой алгарытм для вымярэння падабенства паміж двума паслядоўнасцямі, якія могуць змяняцца па часу або хуткасці. Напрыклад, падабенства ў манеры хаджэння будзе выяўлена нават тады, калі ў адным відэа адзін чалавек ідзе павольна, а другі ідзе хутчэй, або нават пры наяўнасці паскарэнняў і тармажэнняў на працягу аднаго назірання. DTW ўжываецца да відэа, аўдыё і графікі, але на самой справе, любыя дадзеныя, якія могуць быць ператвораныя ў лінейнае прадстаўленне, могуць быць прааналізаваны з дапамогай DTW.

Нейронныя сеткі

[правіць | правіць зыходнік]

Нейронавыя сеткі з'явіліся як прывабны падыход да акустычнага мадэлявання ASR ў канцы 1980-х гадоў. З тых часоў, нейронавыя сеткі выкарыстоўваліся ў многіх аспектах распазнавання маўлення, такіх як класіфікацыя фанэмы[38], распазнавання ізаляванага слова[39], распазнаванне аўдыёвізуальнага маўлення, аўдыёвізуальныя распазнаванне дыктара і адаптацыя да пэўных дыктараў.

У адрозненне ад HMM, нейронавыя сеткі не робяць ніякіх здагадак аб функцыі статыстычных уласцівасцей і маюць некалькі якасцяў, што робіць іх прывабнымі мадэлямі для распазнавання маўлення. Пры выкарыстанні нейрасетак для ацэнкі верагоднасці пэўнага гукавога сегмента дыскрымінацыйнае навучанне робіцца натуральным і эфектыўным. Аднак, нягледзячы на іх эфектыўнасць у класіфікацыі кароткатэрміновых часовых адзінак (напрыклад, асобных фанем і слоў)[40], нейронавыя сеткі рэдка бываюць удалымі для бесперапынных задач распазнавання, у асноўным з-за адсутнасці здольнасці мадэляваць часовыя залежнасці.

Аднак нядаўнія LSTM Рэкурэнтныя Нейронныя Сеткі (RNN) і Нейронныя Сеткі Затрымкі Часу (TDNN) паказалі сябе здольнымі ідэнтыфікаваць скрытыя тэрміновыя залежнасці і карыстацца гэтай інфармацыяй для выканання разнастайных задач па распазнаванню маўлення.[21][41][42] and Time Delay Neural Networks(TDNN's)[43]

Глыбокія сеткі прамой дыстрыбуцыі (DNN)

[правіць | правіць зыходнік]

Поспех DNN у распазнаванні маўлення вялікага слоўніка адбыўся ў 2010 годзе з дапамогай прамысловых і навуковых даследчыкаў. Тады былі прыняты вялікія выходныя пласты DNN на аснове залежных ад кантэксту станаў HMM, пабудаваных дрэвамі рашэнняў.[44][45] [46]

Адным з асноватворных прынцыпаў глыбокага навучання з'яўляецца скасаванне ручнога стварэння прыкмет і выкарыстоўванне неапрацаваных прыкмет («raw» features). Гэты прынцып упершыню быў паспяхова даследаваны ў архітэктуры глыбокага аўтакадавальніка ў дачыненні да «сырой» спектраграмы, паказаўшы сваю перавагу над Мел-Кэпстральнымі прыкметамі[47], якія ўтрымліваюць некалькі этапаў фіксаванай трансфармацыі з спектраграмы. Сапраўдныя «сырыя» прыкметы («raw» features of speech) маўлення (сігналы) зусім нядаўна паказалі сваю выдатную прымяняльнасць у выніках распазнавання.[48]

Распазнаванне маўлення «ад канца да канца»

[правіць | правіць зыходнік]

З 2014 года было праведзена шмат даследаванняў, зацікаўленых у так званым «end-to-end» ASR (распазнаванні маўлення «ад канца да канца»). Традыцыйныя падыходы, пабудаваныя на фанетычнай аснове (маюцца на ўвазе Схаваныя Маркаўскія Мадэлі) патрабавалі асобныя кампаненты і навучанне пад тое альбо іншае вымаўленне, акустычныя і моўныя мадэлі. Мадэлі ‘End-To-End’ сумяшчаюць усе кампаненты маўленчага распазнавальніка. Гэта дастаткова каштоўная асаблівасць, таму што яна спрашчае працэс навучання і працэс размяшчэння. Напрыклад, N-грамная моўная мадэль патрабуецца для ўсіх HMM. А такая тыповая мадэль часта займае некалькі гігабайтаў памяці, што робіць яе непрактычнай для размяшчэння на мабільных прыладах.[49] Такім чынам, сучасныя камерцыйныя ASR сістэмы ад Google і Apple (па стане на 2017 г.) разгорнуты на воблаку і патрабуюць падлучэнняў да сеткі, у адрозненні ад размяшчэння на самім устройстве.

Першай спробай End to End ASR была выканана з дапамогай Нейрасеткавай тэмпаральнай класіфікацыі (СТС), уведзенай Алексам Грэйвсам з Google DeepMind і Наўдзіпам Джэйтлі з Універсітэту Таронта[50]. Мадэль складалася з рэкуррэнтных нейронавых сетак і пласта СТС. Мадэль RNN-CTC сумесна вывучае вымаўленчую і акустычную мадэль разам, аднак ён не здольны вывучаць саму мову падобна HMM. Такім чынам, мадэль СТС можа непасрэдна ператвараць гукі прамовы ў англійскія сімвалы, але такія мадэлі робяць шмат арфаграфічных памылак, таму павінны спадзявацца на асобную моўную мадэль для вырашэння арфаграфічных нюансаў.

Альтэрнатыўны падыход да мадэляў CTC – увага-заснаваныя мадэлі (attention-based models). Адначасова ў 2016 годзе такія мадэлі былі прадстаўлены Чэнам і інш. з універсітэту Меллона-Карнэгі і Google Brain, а таксама Bahdanaua і інш. з Манрэальскага ўніверсітэта.[51][52] Мадэль пад назвай "Listen, Attend and Spell" (LAS) літаральна «слухае» гукавы сігнал, «звяртае ўвагу» да розных частак сігналу і адначасова «піша» транскрыпцыю пачутага. У адрозненні ад мадэляў СТС, увага-заснаваныя мадэлі не маюць здагадак аб умоўнай незалежнасці і могуць вывучыць усе кампаненты распазнавальніка маўлення, непасрэдна ўключаючы вымаўленне, акустычную і моўную мадэлі. Гэта азначае, што падчас устаноўкі, няма неабходнасці «насіць» з сабой моўную мадэль, што робіць распрацоўку вельмі практычнай для размяшчэння на ўстройствах з абмежаваным аб'ёмам памяці. У апошнія гады дадзеныя тэхналогія буйна развіваюцца і з моманту стварэння LAS-мадэлі былі прапанаваны такія мадэлі, як LSD (Latent Sequence Decompositions) і WLAS ("Watch, Listen, Attend and Spell", мадэль, здольная «чытаць па вуснах»).[53][54]

Паспяховымі прыкладамі выкарыстання тэхналогіі распазнавання маўлення ў мабільных прыладах з'яўляюцца: увод адраса голасам у Яндекс.Навігатары, галасавы пошук Google Now, галасавыя асістэнты ад Яндэкс (Аліса) і Google (Siri) і многае іншае. Акрамя мабільных прылад, тэхналогія распазнавання прамовы знаходзіць шырокае распаўсюджванне ў іншых сферах:

  • Тэлефанія: аўтаматызацыя апрацоўкі ўваходных і выходных званкоў шляхам стварэння галасавых сістэм самаабслугоўвання ў прыватнасці для атрымання даведачнай інфармацыі і кансультавання, замовы паслуг / тавараў, змены параметраў дзеючых паслуг, правядзення апытанняў, анкетавання, збору інфармацыі, інфармавання і любыя іншыя сцэнарыі;
  • Рашэнні "Разумны дом": галасавой інтэрфейс кіравання сістэмамі «Разумны дом»
  • Бытавая тэхніка і робаты: галасавой інтэрфейс электронных робатаў; галасавое кіраванне бытавой тэхнікай і г.д;
  • Дэсктопы і ноўтбукі: галасавы ўвод у камп’ютарных гульнях і прыкладаннях;
  • Аўтамабілі: галасавое кіраванне ў салоне аўтамабіль - напрыклад, сістэма навігацыі;
  • Сацыяльныя сэрвісы для людзей з абмежаванымі магчымасцямі.[55][56][57][58]
  • Медыцына: аўтаматызацыя складання/рэдагавання медыцынскай дакументацыі, частка тэрапеўтычнага курса для пацыентаў з праблемамі памяці.[59]  

Дадатковая інфармацыя

[правіць | правіць зыходнік]

Канферэнцыі і часопісы
Папулярныя канферэнцыі распазнавання маўлення, якія праводзяцца кожны год ці два ўключаюць SpeechTEK і SpeechTEK Europe, ICASSP, Interspeech/Eurospeech, а таксама IEEE ASRU. Канферэнцыі ў галіне апрацоўкі натуральнай мовы (NLP), такія як ACL, NAACL, EMNLP і HLT, пачынаюць уключаць дакументы і па апрацоўцы маўлення. Важныя часопісы ўключаюць IEEE Transactions on Speech and Audio Processing, Computer Speech and Language, and Speech Communication.Кнігі

Кнігі, падобныя да "Fundamentals of Speech Recognition" Лоўрэнса Рабінэра могуць быць карыснымі для атрымання некаторых базавых ведаў, аднак кнігі такіх гадоў (1993) ужо лічацца значна ўстарэлымі на фоне сучасных ведаў. Дадаткова добрай крыніцай можа быць "Statistical Methods for Speech Recognition" Фрэдэрыка Йелінэка i "Spoken Language Processing (2001)" Хуэдонга Хуанга. і г.д. Нядаўна аднаўлёная кніга "Speech and Language Processing (2008)", напісаная Жураўскім і Мартынам дэманструе базу і сучасны (на той момант) стан ASR.Добрае і даступнае ўвядзенне ў тэхналогію распазнавання маўлення і яе гісторыю раскрываецца ў кнізе "The Voice in the Machine. Building Computers That Understand Speech" Роберта Піракцыні (2012). Адносна сучаснай кнігай распазнавання маўлення з'яўляецца «Automatic Speech Recognition: A Deep Learning Approach» (Выдавецтва: Springer), напісаная Д. Ю. і Л. Дэнге (2014)[60]. Кніга змяшчае матэматычна арыентаваныя падрабязнасці аб тым, як метады глыбокага навучання ўспадкаваны і рэалізаваны ў сучасных сістэмах распазнавання маўлення на аснове DNN і звязаныя з імі метадамі глыбокага навучання.[61]

  1. Speaker Independent Connected Speech Recognition- Fifth Generation Computer Corporation. Fifthgen.com. Архівавана з першакрыніцы 11 November 2013. Праверана 15 June 2013.
  2. Juang, B. H.; Rabiner, Lawrence R. "Automatic speech recognition–a brief history of the technology development" (PDF): 6. Архівавана (PDF) з арыгінала 17 Жнівень 2014. Праверана 17 студзеня 2015. {{cite journal}}: Шаблон цытавання journal патрабуе |journal= (даведка)
  3. Pierce, John R. (1969). "Whither speech recognition?". Journal of the Acoustical Society of America. 46 (48): 1049. Bibcode:1969ASAJ...46.1049P. doi:10.1121/1.1911801. ISSN 0001-4966.
  4. Benesty, Jacob; Sondhi, M. M.; Huang, Yiteng (2008). Springer Handbook of Speech Processing. Springer Science & Business Media. ISBN 3540491252.
  5. First-Hand:The Hidden Markov Model - Engineering and Technology History Wiki. ethw.org. Архівавана з першакрыніцы 3 April 2018. Праверана 1 May 2018.
  6. Pioneering Speech Recognition. Архівавана з першакрыніцы 19 February 2015. Праверана 18 January 2015.
  7. James Baker interview. Архівавана з першакрыніцы 28 August 2017. Праверана 9 February 2017.
  8. A Historical Perspective of Speech Recognition. Communications of the ACM. Архівавана з першакрыніцы 20 January 2015. Праверана 20 January 2015.
  9. Juang, B. H.; Rabiner, Lawrence R. "Automatic speech recognition–a brief history of the technology development" (PDF): 10. Архівавана (PDF) з арыгінала 17 Жнівень 2014. Праверана 17 студзеня 2015. {{cite journal}}: Шаблон цытавання journal патрабуе |journal= (даведка)
  10. McKean, Kevin (8 April 1980). "When Cole talks, computers listen". Sarasota Journal. AP. Праверана 23 November 2015.
  11. Morgan, Nelson; Cohen, Jordan; Krishnan, Sree Hari; Chang, S; Wegmann, S (2013). Final Report: OUCH Project (Outing Unfortunate Characteristics of HMMs). CiteSeerX 10.1.1.395.7249.
  12. Cecinati, R; Ciaramella, A; Venuti, G; Vicenzi, C (February 1987). "A Custom Integrated Circuit with Dynamic Time Warping for Speech Recognition". CSELT Technical Reports. 15 (1).
  13. MIT News: Low power chip speech recognition', 2017.
  14. Speech Recognition Through the Decades: How We Ended Up With Siri. PC World. Архівавана з першакрыніцы 13 January 2017. Праверана 28 July 2017.
  15. Ray Kurzweil biography. KurzweilAINetwork. Архівавана з першакрыніцы 5 February 2014. Праверана 25 September 2014.
  16. Juang, B.H.; Rabiner, Lawrence. "Automatic Speech Recognition – A Brief History of the Technology Development" (PDF). Архівавана (PDF) з арыгінала 9 Жнівень 2017. Праверана 28 Ліпень 2017. {{cite journal}}: Шаблон цытавання journal патрабуе |journal= (даведка)
  17. Nuance Exec on iPhone 4S, Siri, and the Future of Speech. Tech.pinions (10 кастрычніка 2011). Архівавана з першакрыніцы 19 November 2011. Праверана 23 November 2011.
  18. Switchboard-1 Release 2. Архівавана з першакрыніцы 11 July 2017. Праверана 26 July 2017.
  19. The Power Of Voice: A Conversation With The Head Of Google's Speech Technology. Tech Crunch. Архівавана з першакрыніцы 21 July 2015. Праверана 21 July 2015.
  20. Herve Bourlard and Nelson Morgan, Connectionist Speech Recognition: A Hybrid Approach, The Kluwer International Series in Engineering and Computer Science; v. 247, Boston: Kluwer Academic Publishers, 1994.
  21. а б Hochreiter, S; Schmidhuber, J (1997). "Long Short-Term Memory". Neural Computation. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276.
  22. Schmidhuber, Jürgen (2015). "Deep learning in neural networks: An overview". Neural Networks. 61: 85–117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637.
  23. Alex Graves, Santiago Fernandez, Faustino Gomez, and Jürgen Schmidhuber (2006). Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural nets. Proceedings of ICML'06, pp. 369–376.
  24. Li Deng. Li Deng Site.
  25. NIPS Workshop: Deep Learning for Speech Recognition and Related Applications, Whistler, BC, Canada, Dec. 2009 (Organizers: Li Deng, Geoff Hinton, D. Yu).
  26. а б Markoff, John (23 Лістапад 2012). "Scientists See Promise in Deep-Learning Programs". New York Times. Архівавана з арыгінала 30 Лістапад 2012. Праверана 20 студзеня 2015.
  27. Morgan, Bourlard, Renals, Cohen, Franco (1993) "Hybrid neural network/hidden Markov model systems for continuous speech recognition. ICASSP/IJPRAI"
  28. T. Robinson. (1992) A real-time recurrent error propagation network word recognition system Архівавана 3 верасня 2017 года., ICASSP.
  29. Waibel, Hanazawa, Hinton, Shikano, Lang. (1989) "Phoneme recognition using time-delay neural networks. IEEE Transactions on Acoustics, Speech and Signal Processing."
  30. Baker, J.; Li Deng; Glass, J.; Khudanpur, S.; Chin-Hui Lee; Morgan, N.; O'Shaughnessy, D. (2009). "Developments and Directions in Speech Recognition and Understanding, Part 1". IEEE Signal Processing Magazine. 26 (3): 75–80. Bibcode:2009ISPM...26...75B. doi:10.1109/MSP.2009.932166.
  31. Sepp Hochreiter (1991), Untersuchungen zu dynamischen neuronalen Netzen Архівавана 6 сакавіка 2015 года., Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber.
  32. Y. Bengio (1991). "Artificial Neural Networks and their Application to Speech/Sequence Recognition," Ph.D. thesis, McGill University, Canada.
  33. Deng, L.; Hassanein, K.; Elmasry, M. (1994). "Analysis of the correlation structure for a neural predictive model with application to speech recognition". Neural Networks. 7 (2): 331–339. doi:10.1016/0893-6080(94)90027-2.
  34. Hinton, Geoffrey; Deng, Li; Yu, Dong; Dahl, George; Mohamed, Abdel-Rahman; Jaitly, Navdeep; Senior, Andrew; Vanhoucke, Vincent; Nguyen, Patrick; Sainath, Tara; Kingsbury, Brian (2012). "Deep Neural Networks for Acoustic Modeling in Speech Recognition: The shared views of four research groups". IEEE Signal Processing Magazine. 29 (6): 82–97. Bibcode:2012ISPM...29...82H. doi:10.1109/MSP.2012.2205597.
  35. Deng, L.; Hinton, G.; Kingsbury, B. (2013). "New types of deep neural network learning for speech recognition and related applications: An overview". 2013 IEEE International Conference on Acoustics, Speech and Signal Processing: New types of deep neural network learning for speech recognition and related applications: An overview. p. 8599. doi:10.1109/ICASSP.2013.6639344. ISBN 978-1-4799-0356-6.
  36. Keynote talk: Recent Developments in Deep Neural Networks. ICASSP, 2013 (by Geoff Hinton).
  37. Keynote talk: "Achievements and Challenges of Deep Learning: From Speech Analysis and Recognition To Language and Multimodal Processing," Interspeech, September 2014 (by Li Deng).
  38. Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, K. J. (1989). "Phoneme recognition using time-delay neural networks". IEEE Transactions on Acoustics, Speech and Signal Processing. 37 (3): 328–339. doi:10.1109/29.21701.
  39. Wu, J.; Chan, C. (1993). "Isolated Word Recognition by Neural Network Models with Cross-Correlation Coefficients for Speech Dynamics". IEEE Transactions on Pattern Analysis & Machine Intelligence. 15 (11): 1174–1185. doi:10.1109/34.244678.
  40. S. A. Zahorian, A. M. Zimmer, and F. Meng, (2002) "Vowel Classification for Computer based Visual Feedback for Speech Training for the Hearing Impaired," in ICSLP 2002
  41. Fernandez, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). "Sequence labelling in structured domains with hierarchical recurrent neural networks". Proceedings of IJCAI (PDF). Архівавана з арыгінала (PDF) 15 Жнівень 2017.
  42. Graves, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey (2013). "Speech recognition with deep recurrent neural networks". arXiv:1303.5778 [cs.NE]. ICASSP 2013.
  43. Waibel, Alex (1989). "Modular Construction of Time-Delay Neural Networks for Speech Recognition" (PDF). Neural Computation. 1 (1): 39–46. doi:10.1162/neco.1989.1.1.39. Архівавана (PDF) з арыгінала 29 чэрвеня 2016.
  44. Yu, D.; Deng, L.; Dahl, G. (2010). "Roles of Pre-Training and Fine-Tuning in Context-Dependent DBN-HMMs for Real-World Speech Recognition". NIPS Workshop on Deep Learning and Unsupervised Feature Learning.
  45. Dahl, George E.; Yu, Dong; Deng, Li; Acero, Alex (2012). "Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition". IEEE Transactions on Audio, Speech, and Signal Processing. 20 (1): 30–42. doi:10.1109/TASL.2011.2134090.
  46. Deng L., Li, J., Huang, J., Yao, K., Yu, D., Seide, F. et al. Recent Advances in Deep Learning for Speech Research at Microsoft. ICASSP, 2013.
  47. L. Deng, M. Seltzer, D. Yu, A. Acero, A. Mohamed, and G. Hinton (2010) Binary Coding of Speech Spectrograms Using a Deep Auto-encoder. Interspeech.
  48. Tüske, Zoltán; Golik, Pavel; Schlüter, Ralf; Ney, Hermann (2014). "Acoustic Modeling with Deep Neural Networks Using Raw Time Signal for LVCSR" (PDF). Interspeech 2014. Архівавана (PDF) з арыгінала 21 снежня 2016.
  49. Jurafsky, Daniel (2016). Speech and Language Processing.
  50. Graves, Alex (2014). "Towards End-to-End Speech Recognition with Recurrent Neural Networks". ICML.
  51. Chan, William; Jaitly, Navdeep; Le, Quoc; Vinyals, Oriol (2016). "Listen, Attend and Spell: A Neural Network for Large Vocabulary Conversational Speech Recognition". ICASSP.
  52. Bahdanau, Dzmitry (2016). "End-to-End Attention-based Large Vocabulary Speech Recognition". arXiv:1508.04395 [cs.CL].
  53. Chan, William; Zhang, Yu; Le, Quoc; Jaitly, Navdeep (10 October 2016). "Latent Sequence Decompositions". arXiv:1610.03035 [stat.ML].
  54. Chung, Joon Son; Senior, Andrew; Vinyals, Oriol; Zisserman, Andrew (16 November 2016). "Lip Reading Sentences in the Wild". arXiv:1611.05358 [cs.CV].
  55. Overcoming Communication Barriers in the Classroom. MassMATCH (18 сакавіка 2010). Архівавана з першакрыніцы 25 July 2013. Праверана 15 June 2013.
  56. Speech recognition for disabled people. Архівавана з першакрыніцы 4 April 2008.
  57. Friends International Support Group
  58. Tang, K. W.; Kamoua, Ridha; Sutan, Victor (2004). "Speech Recognition Technology for Disabilities Education". Journal of Educational Technology Systems. 33 (2): 173–84.
  59. Suominen, Hanna; Zhou, Liyuan; Hanlen, Leif; Ferraro, Gabriela (2015). "Benchmarking Clinical Speech Recognition and Information Extraction: New Data, Methods, and Evaluations". JMIR Medical Informatics. 3 (2): e19. doi:10.2196/medinform.4321. PMC 4427705. PMID 25917752.{{cite journal}}: Папярэджанні CS1: непазначаны свабодны DOI (спасылка)
  60. Yu, D.; Deng, L. (2014). "Automatic Speech Recognition: A Deep Learning Approach (Publisher: Springer)". {{cite journal}}: Шаблон цытавання journal патрабуе |journal= (даведка)
  61. Deng, Li; Yu, Dong (2014). "Deep Learning: Methods and Applications" (PDF). Foundations and Trends in Signal Processing. 7 (3–4): 197–387. doi:10.1561/2000000039. Архівавана (PDF) з арыгінала 22 кастрычніка 2014.