Jump to content

Տրանսֆորմեր (խորը ուսուցում)

Վիքիպեդիայից՝ ազատ հանրագիտարանից
Տրանսֆորմեր
Մեքենայական ուսուցման մոդել Խմբագրել Wikidata
ԵնթակատեգորիաԱրհեստական ​​նեյրոնային ցանց, deep learning model Խմբագրել Wikidata
ԿիրառությունըԲնական լեզուների վերամշակում, համակարգչային տեսլական, statistical machine translation, automatic summarization Խմբագրել Wikidata
Նախորդrecurrent neural network, long short-term memory Խմբագրել Wikidata
Հայտնաբերման ամսաթիվ12 Հունիսի 2017 Խմբագրել Wikidata
ՄշակողGoogle Brain, Ashish Vaswani, Noam Shazeer Խմբագրել Wikidata
Կազմված էencoder, Դեշիֆրատոր Խմբագրել Wikidata
Տրանսֆորմերի ստանդարտ կառուցվածք, ձախ կողմում կոդավորիչն է, իսկ աջ կողմում՝ ապակոդավորիչը:

Տրանսֆորմերը խոր ուսուցման ճարտարապետություն է, որը մշակվել է Google-ի հետազոտողների կողմից և հիմնված է բազմակողմանի ուշադրության մեխանիզմի վրա, որն առաջարկվել է 2017 թվականին «Ուշադրությունն այն ամենն է, ինչ ձեզ հարկավոր է» հոդվածում։[1] Տեքստը ձևափոխվում է թվային ներկայացումների, որոնք կոչվում են տոկեններ, և յուրաքանչյուր տոկեն փոխակերպվում է վեկտորի՝ բառի ներդրման աղյուսակից՝ որոնման միջոցով։[1] Յուրաքանչյուր շերտում յուրաքանչյուր տոկեն այնուհետև համապատասխանեցվում է համատեքստային պատուհանի շրջանակում այլ (առանց դիմակավոր) տոկենների հետ զուգահեռ բազմակողմանի ուշադրության մեխանիզմի միջոցով, ինչը թույլ է տալիս ուժեղացնել հիմնական տոկենների ազդանշանը և նվազեցնել պակաս կարևորներինը։

Տրանսֆորմերներն ունեն կրկնվող միավորներ չունենալու առավելություն, հետևաբար ավելի քիչ ուսուցման ժամանակ են պահանջում, քան ավելի ռեկուրենտ նյարդային ճարտարապետությունները (RNN), ինչպիսիք են երկար կարճաժամկետ հիշողությունը (LSTM)։[2] Ավելի ուշ տարբերակները լայնորեն ընդունվել են մեծ լեզվական մոդելների (LLM), ինչպիսիք են Վիքիպեդիայի կորպուսը և Common Crawl-ը, տվյալների հավաքածուների ուսուցման համար։[3]

Տրանսֆորմերներն սկզբում ստեղծվել են որպես մեքենայական թարգմանության նախորդ կառուցվածքների բարելավում,[4][5] բայց այնուհետ գտել են բազմաթիվ կիրառություններ: Դրանք լայնածավալ օգտագործվում են բնական լեզվի մշակման, համակարգչային տեսողության (տեսողության տրանսֆորմերների), ամրապնդման ուսուցման,[6][7] աուդիո,[8] մուլտիմոդալ ուսուցման, ռոբոտաշինության,[9] և նույնիսկ շախմատ խաղալու մեջ։.[10] Այն նաև հանգեցրել է նախապես պատրաստված համակարգերի զարգացմանը, ինչպիսիք են գեներատիվ նախապես պատրաստված տրանսֆորմերները (GPTs) [11] և BERT[12] (երկուղղորդված կոդավորիչների ներկայացումները տրանսֆորմերներից):

Ծանոթագրություններ

[խմբագրել | խմբագրել կոդը]
  1. 1,0 1,1 Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). «Attention is All you Need» (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 30.
  2. Hochreiter, Sepp; Schmidhuber, Jürgen (1 November 1997). «Long Short-Term Memory». Neural Computation. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. ISSN 0899-7667. PMID 9377276. S2CID 1915014.
  3. «Better Language Models and Their Implications». OpenAI. 2019-02-14. Արխիվացված օրիգինալից 2020-12-19-ին. Վերցված է 2019-08-25-ին.
  4. Bahdanau; Cho, Kyunghyun; Bengio, Yoshua (September 1, 2014). «Neural Machine Translation by Jointly Learning to Align and Translate». arXiv:1409.0473 [cs.CL].
  5. Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (August 17, 2015). «Effective Approaches to Attention-based Neural Machine Translation». arXiv:1508.04025 [cs.CL].
  6. Քաղվածելու սխալ՝ Սխալ <ref> պիտակ՝ «
    10» անվանումով ref-երը տեքստ չեն պարունակում:
  7. Parisotto, Emilio; Song, Francis; Rae, Jack; Pascanu, Razvan; Gulcehre, Caglar; Jayakumar, Siddhant; Jaderberg, Max; Kaufman, Raphaël Lopez; Clark, Aidan; Noury, Seb; Botvinick, Matthew; Heess, Nicolas; Hadsell, Raia (2020-11-21). «Stabilizing Transformers for Reinforcement Learning». Proceedings of the 37th International Conference on Machine Learning (անգլերեն). PMLR: 7487–7498.
  8. Radford, Alec; Jong Wook Kim; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (2022). «Robust Speech Recognition via Large-Scale Weak Supervision». arXiv:2212.04356 [eess.AS].
  9. Monastirsky, Maxim; Azulay, Osher; Sintov, Avishai (February 2023). «Learning to Throw With a Handful of Samples Using Decision Transformers». IEEE Robotics and Automation Letters. 8 (2): 576–583. doi:10.1109/LRA.2022.3229266. ISSN 2377-3766.
  10. Ruoss, Anian; Delétang, Grégoire; Medapati, Sourabh; Grau-Moya, Jordi; Wenliang, Li; Catt, Elliot; Reid, John; Genewein, Tim (2024-02-07). «Grandmaster-Level Chess Without Search». arXiv:2402.04494v1 [cs.LG].
  11. Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim; Louf, Remi; Funtowicz, Morgan; Davison, Joe; Shleifer, Sam; von Platen, Patrick; Ma, Clara; Jernite, Yacine; Plu, Julien; Xu, Canwen; Le Scao, Teven; Gugger, Sylvain; Drame, Mariama; Lhoest, Quentin; Rush, Alexander (2020). «Transformers: State-of-the-Art Natural Language Processing». Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. էջեր 38–45. doi:10.18653/v1/2020.emnlp-demos.6. S2CID 208117506.
  12. «Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing». Google AI Blog. 2 November 2018. Արխիվացված օրիգինալից 2021-01-13-ին. Վերցված է 2019-08-25-ին.