Transformer (ikasketa automatikoko eredua)
Transformer 2017an sortutako ikasketa automatiko sakoneko eredu bat da, nagusiki hizkuntzaren prozesamenduan (HP) erabiltzen dena. Neurona-sare errepikakorrak (RNN) bezala, Transformerrak datu-sekuentzia ordenatuak kudeatzeko diseinatuta daude. Sekuentziak hizkuntza naturaleko esaldiak direnean, hainbat zereginetarako balio dute, hala nola, itzulpen automatikorako eta testuen laburpengintza automatikorako. Hala ere, RNNak ez bezala, Transformerrek sekuentzia osoa ez dute modu ordenatuan prozesatu behar. Beraz, kasuan kasuko datuak hizkuntza naturala badira, Transformerrek derrigorrez ez dute esaldiaren hasiera osorik prozesatu behar esaldiaren amaiera prozesatzen hasi aurretik. Ezaugarri hori dela eta, Transformerrek RNN ereduak baino paralelizatzeko-ahalmen handiagoa ematen du entrenamenduan zehar.[1]
Sortu ziren unetik bertatik Transformerra HPren punta-puntako arkitekturen oinarrizko osagai bilakatu da, kasu askotan, epe laburrerako memoria luzea (LSTM) bezalako neurona-sare errepikatuzko ereduak ordezkatuz. Transformer arkitekturak entrenatze-konputazioetan paralelizazio gehiago erabiltzea errazten duenez, askoz ere datu gehiagorekin egin daiteke entrenamendua. Horrek aurrez entrenatutako sistemak garatzea ahalbidetu du, hala nola, BERT (Bidirectional Encoder Representations from Transformers) eta GPT-2. Horiek kaleratu aurretik hizkuntza orokorreko datu kopuru izugarri handiagoekin entrenatzen dira, eta, ondoren, hizkuntza-zeregin zehatzetara moldatu daitezke.[2][3]
Entrenamendua
[aldatu | aldatu iturburu kodea]Transformerrak normalean erdi gainbegiratutako ikasketa izaten dira: gainbegiratu gabeko aurre entrenamendua egiten dute hasieran, eta gainbegiratutako moldatze fina gero. Aurreko entrenamendua, normalean, moldatze fina baino askoz ere datu multzo handiagorekin egiten da, entrenamendurako datu etiketatu asko eskuratzea zaila delako. Aurrez entrenatzeko eta sintonizazio fina lortzeko zereginen artean hauek zaldu ohi dira:
- hurrengo esaldiaren iragarpena[2]
- galdera-erantzun sistemak [3]
- Irakurrriaren ulermena
- sentimenduen analisia [4]
- parafraseatzea[5]
Aplikazioak
[aldatu | aldatu iturburu kodea]Transformerren aplikazio gehienak hizkuntzaren prozesamenduko eremukoak dira (HP), adibidez, itzulpen automatikoaren zereginak eta denbora serieen iragarpena.[6] GPT-2, BERT, XLNet eta RoBERTa bezalako itxurazko erdu ugarik, Transformerren HPrekin lotutako zeregin ugari ondo burutzeko gaitasuna erakusten dute eta mundu errealeko aplikazioak aurkitzeko ahalmena dute. [2][3] Horien artean hauek egon daitezke:
- itzulpen automatikoa
- dokumentuen laburpena
- Testu-sorkuntza automatikoa
- Entitateen izenen ezagutzea (NER, Named Entity Recognition)[7]
- ahotsaren ezagupena[7]
- sekuentzia biologikoen analisia[8]
Erreferentziak
[aldatu | aldatu iturburu kodea]- ↑ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia. (2017-12-05). «Attention Is All You Need» arXiv:1706.03762 [cs] (Noiz kontsultatua: 2020-06-09).
- ↑ a b c (Ingelesez) «Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing» Google AI Blog (Noiz kontsultatua: 2020-06-09).
- ↑ a b c (Ingelesez) «Better Language Models and Their Implications» OpenAI 2019-02-14 (Noiz kontsultatua: 2020-06-09).
- ↑ doi: . Bibcode: 2018arXiv180407461W..
- ↑ (Ingelesez) Wang, Alex; Singh, Amanpreet; Michael, Julian; Hill, Felix; Levy, Omer; Bowman, Samuel. (2018). «GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding» Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP (Association for Computational Linguistics): 353–355. doi: . (Noiz kontsultatua: 2020-06-09).
- ↑ (Ingelesez) Allard, Maxime. (2020-03-05). «What is a Transformer?» Medium (Noiz kontsultatua: 2020-06-09).
- ↑ a b (Ingelesez) Monsters, Data. (2017-09-26). «10 Applications of Artificial Neural Networks in Natural Language Processing» Medium (Noiz kontsultatua: 2020-06-09).
- ↑ (Ingelesez) Rives, Alexander; Goyal, Siddharth; Meier, Joshua; Guo, Demi; Ott, Myle; Zitnick, C. Lawrence; Ma, Jerry; Fergus, Rob. (2019-04-29). Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences. doi: . (Noiz kontsultatua: 2020-06-09).