Wstępnie przeszkolony transformator generatywny

Wstępnie przeszkolony transformator generatywny (GPT)^[1] (ang. generative pre-trained transformer)^[2] – rodzaj dużego modelu językowego, czyli modelu uczenia maszynowego, który został wytrenowany na ogromnych zbiorach danych tekstowych i potrafi generować tekst na podstawie podanego mu kontekstu. GPT jest jednym z największych i najbardziej zaawansowanych modeli językowych. Pierwszy model GPT został przedstawiony przez amerykańską spółkę OpenAI w 2018 roku^[3]. Do 2024 roku OpenAI przedstawiła cztery wersje GPT. Modele GPT są również rozwijane przez inne firmy, takie jak: EleutherAI^[4], Cerebras^[5].

W uproszczeniu można powiedzieć, że GPT jest programem komputerowym, który przetwarza ogromne ilości tekstu, aby nauczyć się reguł języka. Następnie, gdy dostanie fragment tekstu, potrafi wygenerować sensowne i poprawne gramatycznie kontynuacje zdania, a gdy dostanie zapytanie, potrafi wygenerować sensowne odpowiedzi^[6]. Model GPT był trenowany na różnorodnych źródłach danych, w tym na artykułach z Wikipedii, artykułach prasowych i różnorodnych tekstach z internetu^[6].

Tym, co odróżnia GPT od innych rozwiązań LLM, jest fakt, że model może być trenowany metodą uczenia nienadzorowanego. Dzieje się tak w pierwszej fazie treningu. W kolejnej fazie model jest trenowany metodą nadzorowaną, ale skupioną na konkretnych zastosowaniach^[3].

GPT jest modelem opartym na sieciach neuronowych – transformatorach, które zostały specjalnie zaprojektowane do przetwarzania sekwencji danych, takich jak tekst^[3]. Sieci neuronowe są matematycznymi modelami, które próbują naśladować sposób działania ludzkiego mózgu, dzięki czemu potrafią uczyć się na podstawie przykładów i przetwarzać duże ilości danych. W przypadku GPT, sieci neuronowe są wykorzystywane do trenowania modelu językowego na dużym zbiorze danych tekstowych.

Jednym z najbardziej znanych zastosowań modelu GPT jest aplikacja ChatGPT udostępniona przez OpenAI.

Rozwój modeli GPT

Kolejne generacje modeli GPT wprowadzały liczne ulepszenia oraz zwiększały ich zdolności, co pozwoliło na ich szerokie zastosowanie w dziedzinach takich jak przetwarzanie języka naturalnego, analiza danych czy tworzenie syntetycznych tekstów.

GPT-1, pierwszy model z serii, został wydany w 2018 roku. GPT-1 jako pierwszy model w serii GPT zastosował innowacyjne podejście do uczenia nienadzorowanego i uczenia transferowego. Umożliwiło to generowanie tekstów o większej spójności i zrozumiałości w porównaniu do wielu wcześniejszych modeli przetwarzania języka naturalnego, co stanowiło istotny krok w rozwoju sztucznej inteligencji opartej na przetwarzaniu języka naturalnego.

GPT-2 zostało wydane w lutym 2019 roku, a GPT-3 w czerwcu 2020 roku.

Kolejne wersje wprowadzały fundamentalne zmiany w architekturze i usprawnienia względem GPT-1, takie jak: zwiększenie liczby parametrów , co pozwoliło na lepsze modelowanie języka, oraz wytrenowanie na znacznie większym i bardziej zróżnicowanym zbiorze danych, dzięki czemu modele były w stanie lepiej generalizować i radzić sobie z różnorodnymi zadaniami związanymi z przetwarzaniem języka naturalnego.

Postęp w rozwoju modelu GPT-3 pozwolił na przełom w postaci nabycia przez model umiejętności wykonywania prostych zadań arytmetycznych, w tym tworzenia fragmentów kodu i wykonywania zadań wymagających pewnego poziomu inteligencji^[7]. GPT-4, najnowsza generacja modeli GPT, została udostępniona 14 marca 2023 roku. Nowszy model charakteryzuje się o 82% niższym prawdopodobieństwem udzielenia odpowiedzi na żądania użytkowników dotyczących treści niedozwolonych oraz o 40% większym prawdopodobieństwem przedstawienia odpowiedzi zgodnych z faktami w porównaniu z modelem GPT-3.5^[8].

Postęp i złożoność kolejnych wersji modelu GPT obrazuje tabela:

Model	Parametry	Warstwy dekodera	Rozmiar kontekstu tokenów	Warstwa ukryta	Rozmiar partii
GPT-1	117 milionów	12	512	768	64
GPT-2	1,5 miliarda	48	1024	1600	512
GPT-3	175 miliardów	96	2048	12 288	3,2 mln
GPT-4	1 bilion^{[potrzebny przypis]}	768	8192 do 32 768	49 152	Nieznany

Przypisy

↑ Sztuczna inteligencja albo nas zbawi, albo zabije. Mam tyle samo nadziei, co obaw [online], CHIP – Technologie mamy we krwi!, 18 marca 2023 [dostęp 2024-05-25] (pol.).
↑ A short history of AI. „The Economist”, s. 56, 20th July 2024.
↑ ^a ^b ^c Improving Language Understanding by Generative Pre-Training.
↑ EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J. [dostęp 2023-04-08]. (ang.).
↑ Cerebras Systems Releases Seven New GPT Models Trained on CS-2 Wafer-Scale Systems.
↑ ^a ^b GPT-3: Its Nature, Scope, Limits, and Consequences. „Minds & Machines”. 30, 681–694, 2020. DOI: 10.1007/s11023-020-09548-1.
↑ ChatGPT – historia i wersje [online], Wszystko O ChatGPT [dostęp 2023-04-17] (pol.).
↑ GPT-4 [online], openai.com [dostęp 2023-04-17] (ang.).

Linki zewnętrzne

Andrej Karpathy: State of GPT. Microsoft Build. (wideo)
But what is a GPT? Visual intro to transformers | Chapter 5, Deep Learning w serwisie YouTube

[1] Sztuczna inteligencja albo nas zbawi, albo zabije. Mam tyle samo nadziei, co obaw [online], CHIP – Technologie mamy we krwi!, 18 marca 2023 [dostęp 2024-05-25] (pol.).

[2] A short history of AI. „The Economist”, s. 56, 20th July 2024.

[oai-3] Improving Language Understanding by Generative Pre-Training.

[4] EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J. [dostęp 2023-04-08]. (ang.).

[5] Cerebras Systems Releases Seven New GPT Models Trained on CS-2 Wafer-Scale Systems.

[s-6] GPT-3: Its Nature, Scope, Limits, and Consequences. „Minds & Machines”. 30, 681–694, 2020. DOI: 10.1007/s11023-020-09548-1.

[7] ChatGPT – historia i wersje [online], Wszystko O ChatGPT [dostęp 2023-04-17] (pol.).

[8] GPT-4 [online], openai.com [dostęp 2023-04-17] (ang.).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]