Zespół lingwistyczno-informatyczny prof. Macieja Piaseckiego z Katedry Sztucznej Inteligencji otrzymał wyróżnienie prezesa Polskiej Akademii Nauk za stworzenia słownika „Słowosieć" (ang. plWordNet), który zawiera ponad 190 tys. haseł, 285 tys. znaczeń i ponad 600 tys. relacji.
Według prof. Macieja Piaseckiego, koordynatora Infrastruktury Badawczej CLARIN-PL, jest to jeden z największych słowników języka polskiego w historii i jeden z dwóch największych na świecie słowników typu wordnet, który wciąż się rozrasta.
Słowosieć – to relacyjny słownik semantyczny, który odzwierciedla system leksykalny języka polskiego i został stworzony przez naszych naukowców z myślą nie tylko o informatykach, którzy zajmują się m.in. komputerowym przetwarzaniem tekstów, ale i zwykłych użytkownikach języka czy cudzoziemcach, którzy uczą się polskiego. Słowosieć to interaktywny słownikiem, w którym sprawnie poruszać mogą się nie tylko ludzie, ale i programy komputerowe. Słownik można pobrać za darmo lub przeglądać w dowolnym momencie tutaj.
Badacze opisali ponad 190 tys. słów (haseł) z języka polskiego poprzez pokazanie ich powiązań z innymi słowami. W słowniku wyróżniono ponad 600 tys. różnych rodzajów relacji między słowami. Dla ponad 80 tys. znaczeń leksykalnych udostępnia również oznaczenia ze względu na wydźwięk emocjonalny – pozytywny, negatywny, dwuznaczny lub neutralny, a także wzbudzane emocje i reprezentowane wartości fundamentalne.
– Hasła słownika są budowane w bardzo prosty sposób, np. ze słowem samochód powiązane są synonimy takie jak auto czy wóz. Osobno wymienione są także różne rodzaje samochodów: autobus, taksówka, kabriolet, a także pojęcia, w których mieści się pojęcie samochodu: pojazd dwuśladowy czy środek lokomocji. Wśród słów, z którymi jest powiązany samochód, są też części samochodu: silnik, spryskiwacz, podwozie, zaś jego wyrazami bliskoznacznymi są fura i bryka – tłumaczy prof. Maciej Piasecki. Dodaje, że pojedyncze znaczenia w Słowosieci połączone są wzajemnymi relacjami leksykalno-semantycznymi (łącznie 57 typów, 107 podtypów) i tak powstaje sieć, w której każdy wyraz jest zdefiniowany poprzez odniesienie do innych wyrazów.
Słowosieć może służyć także jako słownik polsko-angielski i angielsko-polski, ponieważ została połączona z pierwszym i przez lata największym wordnetem na świecie – Princeton WordNet. Jest także bardzo ważnym zasobem w komputerowym przetwarzaniu języka i badaniach nad sztuczną inteligencją, m.in. znalazła w swoim czasie też zastosowanie w automatycznych tłumaczeniach Google Translate. Słowosieć powstaje dzięki pracy lingwistów, którzy są wspomagani przez opracowane narzędzia informatyczne do eksploracji bardzo dużych baz tekstów (ponad 4,5 miliarda słów). Opracowane na PWr programy uczą się m.in. znaczeń słów na podstawie ogromnej bazy tekstów i proponują opisy znaczeń do zatwierdzenia lingwistom.
– Słowosieć można wykorzystywać do automatycznych tłumaczeń, analizy tekstów czy mowy, szczególnie analizy semantycznej, w tym wydobywania wiedzy. Programistom słownik mógłby pomóc w tworzeniu skuteczniejszych i inteligentniejszych wyszukiwarek czy w lepszym zarządzaniu informacjami w bazach dokumentów. Słownik ma też pomóc w rozwoju tzw. Internetu Semantycznego. Może stosowany przez nas język opisu słów nie jest precyzyjny, ale wystarczy, by pomóc w analizie tekstów – opowiada naukowiec.
Słownik Słowosieć wzorowany jest na amerykańskim słowniku Princeton Wordnet, który jest pierwszym i największym słownikiem tego typu (zawiera ok. 150 tys. haseł). Początkowo Wordnet, tworzony w latach 80. miał służyć tylko eksperymentom dotyczącym uczenia się przez dzieci znaczeń wyrazów. Z czasem okazało się, że zastosowań jest znacznie więcej.
Według prof. Piaseckiego, wiele państw, tworząc własne sieci słów, decyduje się tylko na tłumaczenie amerykańskiego wordnetu. Tymczasem polscy badacze postanowili opracować słownik od nowa, w oparciu o bardzo duże korpusy (zbiory) tekstów, dzięki czemu lepiej oddaje realia polskiego języka.
– Mam nadzieję, że osiągniemy 200 tys. haseł. Tyle zawiera największy w historii słownik języka polskiego, stąd nasz cel. Ale chcemy poszukiwać naturalnych granic języka – dodaje prof. Maciej Piasecki. Słowosieć już w tej chwili przekracza kompetencję językową większości rodzimych użytkowników języka polskiego. Prace nad nią pochłonęły już łącznie ponad 50 osobolat i są realizowane przez unikatowy interdyscyplinarny zespół istniejący nieprzerwanie od 2005 roku.
Polski wordnet jest budowany wspólnym wysiłkiem leksykografów i informatyków z Grupy Technologii Językowych Politechniki Wrocławskiej. Decyzją władz uczelni Słowosieć jest dostępna bezpłatnie do powszechnego (również komercyjnego) użytku w oparciu o licencję wzorowaną na licencji Princeton WordNet. Użytkownicy mogą przeglądać Słowosieć również za pomocą aplikacji mobilnej oraz WordNetLoom-Viewera (aplikacji umożliwiającej podgląd siatki znaczeń Słowosieci), a także pobierać pliki źródłowe. Programiści mają także dostęp do Słowosieci na poziomie usługi sieciowej i programistycznego API.
Prace nad Słowosiecią realizowane są dzięki grantom Ministerstwa Nauki i Szkolnictwa Wyższego i Funduszom Unijnym, a obecnie – w ramach ogólnoeuropejskiej infrastruktury naukowej CLARIN oraz polskiego konsorcjum CLARIN-PL.