O uczeniu sztucznej inteligencji rozpoznawania emocji użytkowników i o związanych z tym dylematach rozmawiamy z dr. inż. Janem Koconiem z Katedry Sztucznej Inteligencji WIT.
Agata Grzelińska: Podobno da się nauczyć sztuczną inteligencję rozpoznawania emocji konkretnego użytkownika.
Dr. inż. Jan Kocoń: Rzeczywiście da się to zrobić. Jest to dość trudne zadanie. Dlatego że w kwestii emocji i wrażliwości mamy do czynienia ze zjawiskami subiektywnymi. Pod wpływem emocji każdy z nas reaguje indywidualnie. Możemy różnie reagować na ten sam bodziec.
Dla nas podczas pracy nad personalizacją modeli językowych takimi bodźcami najczęściej są teksty. Bodźcami mogą być też memy, obrazy, nagrania itp.
– Stosując metody sztucznej inteligencji, najlepiej rozwiązuje się zadania, na które większość ludzi odpowiada tak samo. Na przykład jeżeli tekst jest po angielsku, oczekujemy, że wszyscy odpowiadający powiedzą, że jest po angielsku. Dzięki temu model nauczy się rozpoznawać teksty napisane po angielsku. Albo większość ekspertów bez problemu określi, że dany tekst jest o polityce, sporcie czy medycynie – mówi naukowiec z WIT.
Z emocjami nie jest już tak prosto.
Właśnie! W myśl tej zasady: jeżeli chciałbym się dowiedzieć, czy dany tekst, film, mem jest śmieszny, czy smutny, to idealną sytuacją byłoby, żeby wszyscy zareagowali tak samo. Niestety tak nie jest. W przypadku zadań subiektywnych sytuacja mocno się komplikuje. Nie tylko dlatego, że na pytanie: „Jakie emocje wzbudza w tobie ten tekst?” ludzie odpowiedzą różnie. Często ludzie wewnętrznie są niezgodni. Jednego dnia mają złe samopoczucie i wszystko widzą w czarnych barwach, więc oceniają tekst jako negatywny. Innego, gdy są w świetnym humorze, ten sam tekst mogą ocenić jako pozytywny albo nawet zabawny.
Na postrzeganie treści wpływ może mieć sytuacja na świecie. Zapewne zupełnie inaczej ocenialibyśmy tekst o Rosji trzy lata temu, a zupełnie inaczej teraz, z perspektywy wojny za naszą wschodnią granicą.
Z pewnych spraw nie wypada się śmiać.
Wróćmy do subiektywnego spojrzenia na rzeczywistość. Z naszej perspektywy trudnością, wręcz dużym wyzwaniem jest stworzenie takich modeli, które są w stanie zrozumieć kontekst człowieka, przeanalizować wiedzę o nim i dobrać treść do jego upodobań. Mam wrażenie, że podołaliśmy temu zadaniu.
Dzisiaj już wiemy, że można nauczyć modele językowe rozpoznawania wrażliwości użytkownika. Teraz zadajemy sobie inne pytania – ile model musi wiedzieć o człowieku, żeby istotnie lepiej określał, jakie emocje wzbudza dana treść u konkretnego człowieka.
Jak dużo trzeba zadać pytań, wypełnić ankiet, żeby model się nauczył?
Różnie bywa. Teraz jesteśmy na etapie tworzenia własnego zbioru danych do bardzo różnych zadań subiektywnych. To nie są tylko emocje, ale też obraźliwość, humor czy bardzo subiektywne pytania, które trudno wrzucić do tych trzech szufladek, np.: „Czy podoba ci się ten tekst?”, „Czy rozumiesz ten tekst?”, „Czy jest w nim sarkazm lub ironia?”.
Mamy już kilka zbiorów z sieci, które zgromadzono przy okazji innych projektów. Co ciekawe, nikt wcześniej na tych zbiorach nie robił badań i nie próbował tworzyć spersonalizowanych modeli. Są to zbiory, w których wiele osób odpowiadało w sposób subiektywny. Oceniane teksty dotyczyły głównie zagadnienia obraźliwości. Naukowcy budowali na tych zbiorach modele, robiąc po prostu głosowanie większościowe. Jeżeli na 10 oceniających, sześć uznało tekst za obraźliwy, a cztery za nieobraźliwy, to większościowo zapadała decyzja, że tekst jest obraźliwy i tak uczono model.
Tymczasem okazuje się, że do tworzenia modeli spersonalizowanych wystarczą tylko cztery teksty. Cztery losowe teksty ocenione przez człowieka jako obraźliwe wystarczą, żeby model „czuł”, jakie treści ten człowiek uznaje za obraźliwe.
To znaczy, że jesteśmy bardzo przejrzyści dla sztucznej inteligencji?
W pewnym sensie tak. Zależy jeszcze, jakie zjawisko obserwujemy. W projekcie Sentimenti 20 tys. osób oceniało 30 tys. jednostek leksykalnych ze „Słowosieci” pod kątem wydźwięku i emocji. Dodatkowo oceniali 7 tys. tekstów z sieci. Wychodziło po 50 ocen na tekst. Każdy z tekstów był oceniany pod kątem 8 emocji podstawowych z modelu Plutchika, takich jak: radość, złość, smutek itp. Oceniano też wydźwięk: pozytywny, negatywny lub neutralny i wymiar pobudzenia. Każdy tekst był oceniany według skali. Było to bardzo subiektywne zadanie.
I jaki był wynik?
Okazało się, że właściwie każdy tekst był kontrowersyjny. Ludzie oceniali je bardzo różnie. Personalizacja powodowała, że dla niektórych wymiarów emocji wyniki zadania poprawialiśmy nawet o 40 pkt procentowych względem modelu bazowego, który nie wiedział nic o człowieku. Aż tak duża była rozbieżność w decyzjach. Do tego jednak była niezbędna wiedza o człowieku.
W przypadku obraźliwości różnica między modelem spersonalizowanym a niespersonalizowanym oscylowała na korzyść spersonalizowanego w okolicach od 5 do 10 pkt procentowych. To nadal jest dużo. Niepewność, która zostaje, jest naszą wewnętrzną niepewnością.
– Mamy jeszcze za mało danych z zewnątrz, by poprawić jakość takich modeli. Grupa prof. Przemysława Kazienki z Katedry Sztucznej Inteligencji w projekcie Emognition zajmuje się rozpoznawaniem emocji z sygnałów fizjologicznych. Planujemy kiedyś połączyć te dwa światy i jednocześnie mieć wiedzę z badań na tekstach i z różnego rodzaju czujników, zegarków, smartfonów. Mamy nadzieję, że ta dodatkowa wiedza pomoże stworzyć model, który jeszcze lepiej będzie wiedział, co czujemy – komentuje dr. inż. Jan Kocoń.
To brzmi z jednej strony wspaniale, ale z drugiej trochę strasznie.
Tak. Z tyłu głowy pojawia się 100 tys. pytań, do czego złego można użyć takich modeli. Próbujemy wymyślić, jak wykorzystać je dobrze. Firmy już z takiej wiedzy korzystają i pokazują reklamy dobrane do naszych zainteresowań. Lepiej, żebyśmy wiedzieli, jak tego typu rozwiązania oddziałują na rzeczywistość. Wiedząc, do czego złego można je wykorzystać, możemy temu zapobiec.
Żyjemy w bardzo starzejącym się społeczeństwie. Niewykluczone, że w przyszłości będą się nami zajmowały roboty, bo zabraknie personelu zapewniającego opiekę starszym ludziom. Pewnie chcielibyśmy, żeby taki robot rozumiał naszą wrażliwość. Żeby rozumiał, czego naprawdę chcemy, a nie czego chce większość w podobnej sytuacji.
Można sobie wyobrazić, że bardzo samotny człowiek zaprzyjaźni się z takim robotem i poczuje mniej samotny. To brzmi bardzo przygnębiająco. A może jednak nie?
Brzmi to tragicznie. Jednak z drugiej strony, jeżeli postawimy na szali przyjaźń z robotem lub ciężką depresję z samotności, to jednak przyjaciel robot jest zdecydowanie lepszą opcją. To krok w dobrą stronę.
Czy zasadne są obawy, że skoro maszyny tak dobrze nas rozumieją, to w przyszłości nami zawładną i będą manipulować? Kiedyś tego typu obawy wydawały się abstrakcyjne. Dzisiaj rozważamy je w kategoriach możliwych scenariuszy.
To prawda. Jest cały szereg dylematów, przed którymi stajemy. Bardzo mocno wsiąknęliśmy w świat cyfrowy, który ułatwia nam wiele spraw, ale też nas upośledza. Jeżeli całe życie korzystam z GPS-u, to przestaję umieć korzystać z map i znaków drogowych. Z drugiej strony chciałbym używać GPS-a, który poprowadzi mnie taką trasą, jaka mi się spodoba. Albo inny przykład: chcę mieć serwis informacyjny, w którym przeczytam tylko ciekawe wiadomości prasowe, a nie głupoty.
Nie widzimy tego, co nas nie interesuje. Jednak tracimy szansę na zobaczenie czegoś nowego, co mogłoby nas zainteresować. Z jednej strony ułatwienie, z drugiej ograniczenie. Jak uniknąć tego typu ograniczeń? Zadbać o świadomość?
Świadomość też. Jednak masowa personalizacja wiąże się z ryzykiem. W mediach społecznościowych już wycinana jest mowa obraźliwa. Głównie są to teksty, które ewidentnie łamią prawo. Większość z nas to akceptuje. Nie jest to jednak rozwiązanie idealne, bo istnieje duży margines tematów, na które możemy rozmawiać kulturalnie, mimo że część ludzi uważa je za obraźliwe. I vice versa – model już coś wycina, a większość z nas nie widzi w tym nic obraźliwego.
Mamy nadzieję, że modele spersonalizowane będą osobom bardziej wrażliwym dokładnie filtrować sieć i wytną to, co ich drażni, ale nie wytną tych treści zupełnie. Na zasadzie: „Ok, nie będziesz tego widział, ale pozwól innym o tym rozmawiać”.
Klasyczny model obecnie wycina za dużo. Również to, o czym chcemy kulturalnie rozmawiać na forum. Ryzyko jest takie, że pozamykamy się w bańkach informacyjnych. Każdy będzie widział tylko swoją, czyli internetową utopię…
W efekcie będzie przekonany, że cały świat taki jest i wszyscy myślą podobnie…
Gdy taki człowiek wyjdzie ze swojej bańki informacyjnej i zetknie się z rzeczywistością, dozna szoku. Nie będzie w stanie normalnie reagować. Widziałem już kilka prac naukowych temu poświęconych. Mam nadzieję, że na kanwie badań o personalizacji znajdziemy sposób, jak przepuszczać wiedzę spoza bańki, by człowiek bezboleśnie się otwierał na perspektywę z zewnątrz i uniknął szoku.
Jako społeczeństwo musimy nauczyć się żyć wśród ludzi, którzy mają różne, nieraz bardzo odmienne poglądy. Liczymy na to, że badania nad personalizacją pomogą nam znaleźć złoty środek pomiędzy preferencjami człowieka a wrzutkami spoza bańki. I że ten złoty środek pomoże nam jako społeczeństwu zbliżyć się do siebie. Sprawi, że zaczniemy się lepiej rozumieć.
Rozmawiała: Agata Grzelińska