Naukowcy z WIT pracują nad polską wersją ChatGPT. Będzie on uzupełniony materiałem w języku polskim oraz danymi związanymi z polskim kontekstem społeczno-kulturalnym. Pierwsza, testowa wersja ma zostać opublikowana już w pierwszej połowie przyszłego roku.
Badania prowadzi zespół z konsorcjum naukowego CLARIN-PL z Katedry Sztucznej Inteligencji na Wydziale Informatyki i Telekomunikacji.
– W strategii naszej uczelni badania związane ze sztuczną inteligencją są wpisane na pierwszym miejscu jako główny kierunek rozwoju. Trzeba przy tym pamiętać, że sztuczna inteligencja może mieć rozmaite zastosowania, a kto inny, jeśli nie uczelnia, powinien dążyć do tego, żeby były one jak najbardziej pozytywne – mówi dr hab. inż. Tomasz Kajdanowicz, prof. uczelni, kierownik Katedry Sztucznej Inteligencji.
Jednym z kierunków związanych z rozwojem sztucznej inteligencji są wielkie modele językowe. W ostatnim czasie rekordy popularności bije uruchomiony w grudniu 2022 r. ChatGPT. To generatywny transformer językowy stworzony przez firmę OpenAI, który teoretycznie jest w stanie odpowiedzieć na każde zadane mu pytanie, zachowując przy tym wysoką poprawność językową. Znajduje tym samym zastosowanie w edukacji, biznesie i życiu codziennym.
Wielkie modele językowe
Naukowcy z Politechniki Wrocławskiej już od wielu lat zajmują się badaniami technologii językowych w ramach projektu CLARIN-PL. W jego ramach stworzyli infrastrukturę badawczą wykorzystywaną głównie w obszarach nauk humanistycznych i społecznych. W ostatnich czterech latach pracowali nad wieloma zróżnicowanymi bazami danych i bazami do przetwarzania języka naturalnego.
– W ten sposób wpisaliśmy się w to, co jest obecnie symbolem sztucznej inteligencji, czyli wielkie modele językowe. Doszliśmy również do wniosku, że konieczne jest stworzenie wielkiego polskiego modelu językowego, który w przyszłości byłby podstawą do opracowania takich rozwiązań jak polski ChatGPT – wyjaśnia dr hab. inż. Maciej Piasecki, prof. uczelni, koordynator konsorcjum naukowego CLARIN-PL.
W ramach planowanych badań naukowcy chcą zebrać wszelkie dostępne zasoby językowe oraz wiedzę dotyczącą budowy wielkich modeli językowych i opracować rozwiązanie, które będzie dostępne dla wszystkich zainteresowanych osób.
– W tej chwili modele językowe zaczynają kształtować język, którym się posługujemy. Coraz więcej treści jest generowanych na życzenie użytkownika, a czasem wręcz w jego zastępstwie. Dlatego chcielibyśmy, żeby nasz model bardzo dobrze oddawał specyfikę języka polskiego i pozytywnie na niego oddziaływał – podkreśla prof. Maciej Piasecki. – To ogromne wyzwanie, dlatego chcemy wyjść z inicjatywą utworzenia konsorcjum, obejmującą możliwie jak największą liczbę podmiotów naukowych i firm prywatnych. W projekcie współpracujemy już m.in. z Ministerstwem Cyfryzacji i Ośrodkiem Przetwarzania Informacji – Państwowy Instytut Badawczy – dodaje.
Specyfika języka
Opracowanie „polskiej” wersji ChatGPT jest o tyle ważne, że obecnie rozwiązanie stworzone przez firmę OpenAI ciągle nie najlepiej radzi sobie z wieloma elementami związanymi z językiem polskim.
– Podejrzewamy, że podczas trenowania ChatGPT nie widział za dużo języka polskiego w stosunku do innych języków. W związku z tym jest duża szansa, że przygotowując odpowiedzi, nadpisuje pewną wiedzę dotyczącą polskiej kultury, obyczajów i faktów danymi z innych języków. W trakcie testów zwróciliśmy uwagę, że dotyczy to zwłaszcza polskiej kultury i historii, popełnia też trochę błędów gramatycznych i stylistycznych – tłumaczy dr inż. Jan Kocoń z Katedry Sztucznej Inteligencji. – W naszym interesie jest, by nad tym panować i mieć kontrolę nad informacjami, które są związane z naszych krajem – dodaje.
Obecnie we Wrocławskim Centrum Sieciowo-Superkomputerowym kończy się kompletowanie dużej infrastruktury badawczo-rozwojowej, która będzie wykorzystywana do tworzenia wielkiego, polskiego modelu językowego. Kluczowym elementem będzie jeden z pierwszych w naszym kraju superkomputerów wyspecjalizowany w przetwarzaniu języka naturalnego i sztucznej inteligencji.
– Kupujemy sprzęt warty prawie 130 mln zł. Składa się na niego m.in. 300 kart graficznych H100, stosowanych do trenowania głębokich sieci neuronowych, ponad 30 petabajtów (jeden petabajt to tysiąc terabajtów) miejsca na dyskach twardych i petabajt pamięci RAM – wymienia dr inż. Jan Kocoń. – Nie czekaliśmy na ten sprzęt z założonymi rękami. Już teraz mamy zebrane prawie 300 gigabajtów czystego tekstu pochodzącego z różnych źródeł i liczba ta cały czas rośnie. Zatrudniamy też 60 osób przygotowujących instrukcje do tego systemu, przy pomocy których można go stroić pod realizację naszego modelu językowego. Do badań można dołączyć już teraz – podkreśla.
Naukowcy planują, że pierwsza wersja programu trafi do otwartych testów już w pierwszej połowie przyszłego roku.
Nie tylko ChatGPT
Badania nad wielkimi modelami językowymi to niejedyne projekty związane z wykorzystaniem sztucznej inteligencji, nad którymi obecnie pracują nasi naukowcy z Wydziału Informatyki i Telekomunikacji.
Przed tygodniem otrzymali oni grant w wysokości ponad miliona złotych na opracowanie narzędzia ułatwiającego przeszukiwanie decyzji sądowych. Będzie on realizowany we współpracy z dwiema uczelniami z Francji i Wielkiej Brytanii, a pracami pokieruje prof. Tomasz Kajdanowicz.
Dofinansowanie pochodzi z konkursu Open & Re-usable Research Data & Software (ORD) prowadzonego przez sieć CHIST-ERA, w którym wspierane są badania z zakresu technologii informacyjnych oraz komunikacyjnych.