Ամրապնդման ուսուցում
«Ամրապնդման ուսուցումը» (անգլ.՝ Reinforcement learning) մեքենայական ուսուցման ոլորտ է, որը կոնկրետ իրավիճակում պարգևատրումը առավելագույնի հասցնելու համար կոնկրետ գործողություններ է ձեռնարկում։ Ամրապնդման ուսուցումը մեքենայական ուսուցման երեք հիմնական օրինակներից մեկն է՝ վերահսկվող ուսուցման և չվերահսկվող ուսուցման հետ մեկտեղ։
Ի՞նչ է ԱՈՒ-ն
[խմբագրել | խմբագրել կոդը]Ամրապնդման ուսուցումը տարբերվում է վերահսկվող ուսուցումից նրանով, որ կարիք չկա պիտակավորված մուտքային/ելքային զույգերի ներկայացման և ոչ օպտիմալ գործողությունների հստակ ուղղման կարիք։ Փոխարենը շեշտը դրվում է հետախուզման (չարտացվող տարածքի) և շահագործման (ներկայիս գիտելիքների) միջև հավասարակշռություն գտնելու վրա։ Մասամբ վերահսկվող ԱՈւ ալգորիթմները կարող են համատեղել վերահսկվող և ԱՈւ ալգորիթմների առավելությունները։
Շրջակա միջավայրը սովորաբար նշվում է Մարկովի որոշման գործընթացի (MDP) տեսքով, քանի որ այս համատեքստում ուժեղացման ուսուցման շատ ալգորիթմներ օգտագործում են դինամիկ ծրագրավորման տեխնիկա։ Դասական դինամիկ ծրագրավորման մեթոդների և ամրապնդման ուսուցման ալգորիթմների միջև հիմնական տարբերությունն այն է, որ վերջիններս չեն ենթադրում MDP-ի ճշգրիտ մաթեմատիկական մոդելի իմացություն և թիրախավորում են խոշոր MDP-ներին, որտեղ ճշգրիտ մեթոդները դառնում են անիրագործելի[1]։
ԱՈՒ օրինակ
[խմբագրել | խմբագրել կոդը]Խնդիրը հետևյալն է. մենք ունենք գործակալ և պարգև, որոնց միջև կան բազմաթիվ խոչընդոտներ։ Գործակալը պետք է գտնի մրցանակին հասնելու լավագույն հնարավոր ճանապարհը։ Հաջորդող օրինակը ավելի հեշտությամբ է բացատրում խնդիրը։
Վերոնշյալ պատկերը ցույց է տալիս ռոբոտը, ադամանդը և կրակը։ Ռոբոտի նպատակն է ստանալ պարգևը, որը ադամանդն է և խուսափել կրակի խոչընդոտներից։ Ռոբոտը սովորում է՝ փորձելով բոլոր հնարավոր ուղիները, այնուհետև ընտրելով այն ճանապարհը, որը նրան պարգևատրում է նվազագույն խոչընդոտներով։ Յուրաքանչյուր ճիշտ քայլ ռոբոտին պարգև կտա, իսկ յուրաքանչյուր սխալ քայլը կհանի ռոբոտի պարգևը։ Ընդհանուր պարգևը կհաշվարկվի, երբ այն հասնի վերջնական նպատակին[2]։
ԱՈՒ օգտագործման ոլորտներ
[խմբագրել | խմբագրել կոդը]ԱՈՒ-ի հայտնիության հիմնական գրավականը դա սովորական ալգորիթմ է, որն օգտագործվում է տարբեր խաղեր լուծելու և երբեմն գերմարդկային կատարողականության հասնելու համար։
- Համակարգչային կլաստերներում[3] ռեսուրսների կառավարում
Տարբեր առաջադրանքներին սահմանափակ ռեսուրսներ բաշխելու ալգորիթմների նախագծումը դժվար է և պահանջում է մարդու կողմից ստեղծված էվրիստիկա։
- Վեբ համակարգերի կոնֆիգուրացիա
Վեբ համակարգում կան 100-ից ավելի կարգավորելի պարամետրեր, և պարամետրերի ճշգրտման գործընթացը պահանջում է որակավորված օպերատոր և որոշ թեստեր։
ԱՈՒ-ն կարող է կիրառվել նաև քիմիական ռեակցիաներն օպտիմալացնելու համար։ Հետազոտողները ցույց են տվել, որ իրենց մոդելը գերազանցել է ժամանակակից ալգորիթմը և ընդհանրացվել է տարբեր հիմքում ընկած մեխանիզմների վրա՝ «Քիմիական ռեակցիաների օպտիմիզացում խորը ամրապնդման ուսուցմամբ» հոդվածում։
Ծանոթագրություններ
[խմբագրել | խմբագրել կոդը]- ↑ Osiński, Błażej; Budek, Konrad (2018 թ․ հուլիսի 5). «What is reinforcement learning? The complete guide». deepsense.ai (ամերիկյան անգլերեն). Արխիվացված է օրիգինալից 2021 թ․ նոյեմբերի 1-ին. Վերցված է 2021 թ․ նոյեմբերի 1-ին.
- ↑ «Reinforcement learning». GeeksforGeeks (ամերիկյան անգլերեն). 2018 թ․ ապրիլի 25. Վերցված է 2021 թ․ նոյեմբերի 1-ին.
- ↑ «Կլաստերային համակարգեր։ Mechatronics ընկերությունը։ Beowulf կամ Computing Power». newtravelers.ru. Վերցված է 2021 թ․ նոյեմբերի 1-ին.
Արտաքին հղումներ
[խմբագրել | խմբագրել կոդը]- Reinforcement Learning: An Introduction Արխիվացված 2021-09-21 Wayback Machine
- Resource Management with Deep Reinforcement Learning
- Reinforcement Learning Specialization
Գրականություն
[խմբագրել | խմբագրել կոդը]- Recent Advances in Reinforcement Learning: Sertan Girgin, Manuel Loth, Rémi Munos, Philippe Preux, Daniil Ryabko
- Design of Experiments for Reinforcement Learning: Christopher Gatti
- Deep Reinforcement Learning: Frontiers of Artificial Intelligence: Mohit Sewak
- Recent Advances in Reinforcement Learning: Pack Kaelbling