Տրանսֆորմեր (խորը ուսուցում)
Ենթակատեգորիա | Արհեստական նեյրոնային ցանց, deep learning model | |
---|---|---|
Կիրառությունը | Բնական լեզուների վերամշակում, համակարգչային տեսլական, statistical machine translation, automatic summarization | |
Նախորդ | recurrent neural network, long short-term memory | |
Հայտնաբերման ամսաթիվ | 12 Հունիսի 2017 | |
Մշակող | Google Brain, Ashish Vaswani, Noam Shazeer | |
Կազմված է | encoder, Դեշիֆրատոր |
Տրանսֆորմերը խոր ուսուցման ճարտարապետություն է, որը մշակվել է Google-ի հետազոտողների կողմից և հիմնված է բազմակողմանի ուշադրության մեխանիզմի վրա, որն առաջարկվել է 2017 թվականին «Ուշադրությունն այն ամենն է, ինչ ձեզ հարկավոր է» հոդվածում։[1] Տեքստը ձևափոխվում է թվային ներկայացումների, որոնք կոչվում են տոկեններ, և յուրաքանչյուր տոկեն փոխակերպվում է վեկտորի՝ բառի ներդրման աղյուսակից՝ որոնման միջոցով։[1] Յուրաքանչյուր շերտում յուրաքանչյուր տոկեն այնուհետև համապատասխանեցվում է համատեքստային պատուհանի շրջանակում այլ (առանց դիմակավոր) տոկենների հետ զուգահեռ բազմակողմանի ուշադրության մեխանիզմի միջոցով, ինչը թույլ է տալիս ուժեղացնել հիմնական տոկենների ազդանշանը և նվազեցնել պակաս կարևորներինը։
Տրանսֆորմերներն ունեն կրկնվող միավորներ չունենալու առավելություն, հետևաբար ավելի քիչ ուսուցման ժամանակ են պահանջում, քան ավելի ռեկուրենտ նյարդային ճարտարապետությունները (RNN), ինչպիսիք են երկար կարճաժամկետ հիշողությունը (LSTM)։[2] Ավելի ուշ տարբերակները լայնորեն ընդունվել են մեծ լեզվական մոդելների (LLM), ինչպիսիք են Վիքիպեդիայի կորպուսը և Common Crawl-ը, տվյալների հավաքածուների ուսուցման համար։[3]
Տրանսֆորմերներն սկզբում ստեղծվել են որպես մեքենայական թարգմանության նախորդ կառուցվածքների բարելավում,[4][5] բայց այնուհետ գտել են բազմաթիվ կիրառություններ: Դրանք լայնածավալ օգտագործվում են բնական լեզվի մշակման, համակարգչային տեսողության (տեսողության տրանսֆորմերների), ամրապնդման ուսուցման,[6][7] աուդիո,[8] մուլտիմոդալ ուսուցման, ռոբոտաշինության,[9] և նույնիսկ շախմատ խաղալու մեջ։.[10] Այն նաև հանգեցրել է նախապես պատրաստված համակարգերի զարգացմանը, ինչպիսիք են գեներատիվ նախապես պատրաստված տրանսֆորմերները (GPTs) [11] և BERT[12] (երկուղղորդված կոդավորիչների ներկայացումները տրանսֆորմերներից):
Ծանոթագրություններ
[խմբագրել | խմբագրել կոդը]- ↑ 1,0 1,1 Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). «Attention is All you Need» (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 30.
- ↑ Hochreiter, Sepp; Schmidhuber, Jürgen (1 November 1997). «Long Short-Term Memory». Neural Computation. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. ISSN 0899-7667. PMID 9377276. S2CID 1915014.
- ↑ «Better Language Models and Their Implications». OpenAI. 2019-02-14. Արխիվացված օրիգինալից 2020-12-19-ին. Վերցված է 2019-08-25-ին.
- ↑ Bahdanau; Cho, Kyunghyun; Bengio, Yoshua (September 1, 2014). «Neural Machine Translation by Jointly Learning to Align and Translate». arXiv:1409.0473 [cs.CL].
- ↑ Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (August 17, 2015). «Effective Approaches to Attention-based Neural Machine Translation». arXiv:1508.04025 [cs.CL].
- ↑ Քաղվածելու սխալ՝ Սխալ
<ref>
պիտակ՝ «10
» անվանումով ref-երը տեքստ չեն պարունակում:
- ↑ Parisotto, Emilio; Song, Francis; Rae, Jack; Pascanu, Razvan; Gulcehre, Caglar; Jayakumar, Siddhant; Jaderberg, Max; Kaufman, Raphaël Lopez; Clark, Aidan; Noury, Seb; Botvinick, Matthew; Heess, Nicolas; Hadsell, Raia (2020-11-21). «Stabilizing Transformers for Reinforcement Learning». Proceedings of the 37th International Conference on Machine Learning (անգլերեն). PMLR: 7487–7498.
- ↑ Radford, Alec; Jong Wook Kim; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (2022). «Robust Speech Recognition via Large-Scale Weak Supervision». arXiv:2212.04356 [eess.AS].
- ↑ Monastirsky, Maxim; Azulay, Osher; Sintov, Avishai (February 2023). «Learning to Throw With a Handful of Samples Using Decision Transformers». IEEE Robotics and Automation Letters. 8 (2): 576–583. doi:10.1109/LRA.2022.3229266. ISSN 2377-3766.
- ↑ Ruoss, Anian; Delétang, Grégoire; Medapati, Sourabh; Grau-Moya, Jordi; Wenliang, Li; Catt, Elliot; Reid, John; Genewein, Tim (2024-02-07). «Grandmaster-Level Chess Without Search». arXiv:2402.04494v1 [cs.LG].
- ↑ Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim; Louf, Remi; Funtowicz, Morgan; Davison, Joe; Shleifer, Sam; von Platen, Patrick; Ma, Clara; Jernite, Yacine; Plu, Julien; Xu, Canwen; Le Scao, Teven; Gugger, Sylvain; Drame, Mariama; Lhoest, Quentin; Rush, Alexander (2020). «Transformers: State-of-the-Art Natural Language Processing». Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. էջեր 38–45. doi:10.18653/v1/2020.emnlp-demos.6. S2CID 208117506.
- ↑ «Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing». Google AI Blog. 2 November 2018. Արխիվացված օրիգինալից 2021-01-13-ին. Վերցված է 2019-08-25-ին.