Wydział Informatyki i Telekomunikacji

System do analizy autentyczności nagrań głosowych nagrodzony w CreatiWITy

Data: 21.04.2026

Projekt Izabeli Paniczek, dotyczący wykrywania manipulacji w nagraniach głosowych, zdobył trzecie miejsce w konkursie CreatiWITy 2026. System wykorzystuje metody sztucznej inteligencji i wspiera użytkownika w ocenie wiarygodności nagrań audio.

Praca pt. „Opracowanie systemu analizy autentyczności nagrań głosowych” powstała pod opieką dr hab. inż. Krzysztofa Brzostowskiego, prof. uczelni. Jej celem było stworzenie aplikacji, która pozwala wykrywać manipulacje w nagraniach audio, a jednocześnie jest dostępna dla szerokiego grona użytkowników.

Absolwentka Inżynierii Systemów wspomniała, że zależało jej, aby zająć się czymś związanym z dźwiękiem. Wcześniej w trakcie swojej działalności w KN Neuron zajmowała się modelami generatywnymi muzyki.

Narastający problem

Inspiracją do podjęcia tematu była rosnąca skala manipulacji dźwiękiem zarówno w przestrzeni publicznej, jak i w życiu codziennym.

– Coraz częściej spotykamy się z nagraniami, w których ktoś rzekomo coś powiedział, choć w rzeczywistości tak nie było. Przy pomocy sztucznej inteligencji potrafimy dziś bardzo wiarygodnie imitować głos lub generować wypowiedzi – mówi Izabela Paniczek.

Jak podkreśla autorka, problem dotyczy nie tylko znanych osób i polityków, ale także zwykłych ludzi. Coraz większą rolę odgrywa m.in. wykorzystanie generowanych wypowiedzi w rozmowach telefonicznych, które mogą być wykorzystywane również do oszustw.

– Wystarczy odpowiednia liczba próbek głosu, by możliwe było jego odtworzenie. W przypadku osób publicznych jest to łatwiejsze, bo jest większy dostęp do ich głosów. Takie zagrożenia zaczynają dotyczyć również życia codziennego – dodaje.

Coraz większa dostępność narzędzi generujących mowę sprawia, że tworzenie realistycznych nagrań nie wymaga dziś zaawansowanej wiedzy. Imitowanie dźwięku jest też zależne od mocy obliczeniowej komputera. Im lepszy procesor lub karta graficzna, tym większe możliwości uzyskania naturalnego brzmienia.

– Modele Text-To-Speech są dziś szeroko dostępne, często nawet bezpłatnie. Choć dźwięk bywa jeszcze lekko robotyczny, w praktyce wiele osób nie jest w stanie odróżnić go od prawdziwego nagrania – podkreśla.

Brak narzędzi dla użytkowników

Choć technologie generowania i modyfikowania dźwięku rozwijają się dynamicznie, rozwiązania pozwalające wykrywać manipulacje nie są powszechnie dostępne.

– Zauważyłam, że istnieje wiele narzędzi do analizy tekstu, które próbują wykrywać treści generowane przez AI. W przypadku dźwięku takich ogólnodostępnych rozwiązań brakuje – wyjaśnia nasza studentka.

Dostępne systemy funkcjonują głównie jako narzędzia komercyjne, kierowane do firm. Brakuje aplikacji, z których mógłby korzystać indywidualny użytkownik.

System do analizy nagrań

Odpowiedzią na ten problem jest opracowany przez autorkę system, który umożliwia analizę autentyczności nagrań głosowych. Narzędzie dostępne jest zarówno w formie aplikacji mobilnej, jak i komputerowej.

Użytkownik może wgrać plik audio lub nagrać dźwięk bezpośrednio w aplikacji. Aplikacja analizuje nagranie i określa prawdopodobieństwo jego autentyczności. Model nie zwraca wyłącznie prostej odpowiedzi „tak” lub „nie”, ale wskazuje procent w jakim nagranie jest autentyczne lub zmanipulowane.

Do trenowania modelu wykorzystano m.in. popularne zbiory danych stosowane w badaniach naukowych, takie jak ASVspoof 2019 oraz In-the-Wild. Dodatkowo zastosowano techniki rozszerzania zbioru danych, m.in. zmianę wysokości tonu i dodawanie szumu, co pozwoliło lepiej przygotować model na wcześniej nieznane metody manipulacji głosu.

Autorka testowała model zarówno na publicznie dostępnych zbiorach danych, jak i własnych nagraniach, obejmujących także przykłady imitacji głosów znanych osób. Łącznie wykorzystano ponad 10 tysięcy próbek audio.

Wyjaśnialność decyzji

Wynik analizy prezentowany jest m.in. w formie mapy cieplnej na spektrogramie, wskazującej fragmenty nagrania i zakresy częstotliwości, które miały największy wpływ na ocenę. Dodatkowo system generuje opis tekstowy interpretujący wyniki analizy.

– Użytkownik może zobaczyć, które elementy nagrania wpłynęły na decyzję systemu i wrócić do konkretnych fragmentów audio. Dzięki temu narzędzie nie tylko analizuje, ale też buduje zaufanie do wyników – wyjaśnia Izabela Paniczek.

Autorka podkreśla, że rozwój technologii generatywnych sprawia, że systemy wykrywające manipulacje muszą być stale aktualizowane.

– To nie jest rozwiązanie, które można stworzyć raz na zawsze. Modele generujące dźwięk będą coraz lepsze, dlatego konieczne jest jego regularne aktualizowanie i uczenie na nowych danych – zaznacza.

Obecnie aplikacja studentki dobrze radzi sobie z wykrywaniem manipulacji, jednak planowane są dalsze prace nad jego rozwojem i ulepszeniem wybranych elementów.