Głos wnuczka czy robota – sztuczna inteligencja w telefonie demaskuje oszustów

Spis treści:

Wstęp
Vishing zbiera żniwo
Mechanizm działania – jak powstaje pułapka
Smartfon analizuje to, czego nie słyszysz
Proste zasady skuteczniejsze niż firewall
O to pracownik banku nigdy nie poprosi
Rozmawiaj o zagrożeniach przy niedzielnym obiedzie
Najczęściej zadawane pytania (FAQ)

Wstęp

Odbierasz telefon w środku dnia i w słuchawce słyszysz przerażony głos swojego syna. Mówi szybko, chaotycznie, tłumacząc, że spowodował wypadek i potrzebuje pieniędzy, żeby uniknąć aresztu. Brzmi identycznie jak on. Ten sam akcent, ta sama maniera, może nawet używa zwrotów, które znasz tylko ty. Tętno skacze ci momentalnie, a w głowie pojawia się tylko jedna myśl – muszę ratować dziecko! Jeszcze dekadę temu oszust musiał liczyć na to, że słaba jakość połączenia zatuszuje obcy akcent, lub udawać potężną chrypę. Dzisiaj to już prehistoria. Mamy do czynienia z nową erą, gdzie twoim przeciwnikiem nie jest tylko przebiegły człowiek, ale zaawansowana technologia voice cloningu.

Współcześni cyberprzestępcy zamienili się w reżyserów cyfrowego teatru. Dysponując próbkami głosu z mediów społecznościowych, potrafią stworzyć kopię tak wierną, że oszuka ona biologiczny narząd słuchu. Na szczęście producenci elektroniki nie śpią i wdrażają do naszych kieszeni systemy, które mają za zadanie zachować zimną krew, gdy my wpadamy w panikę. Analiza sygnału audio przez sztuczną inteligencję w smartfonach staje się barierą ochronną przed wyczyszczeniem konta.

Vishing zbiera żniwo

Problem nie dotyczy tylko seniorów z telefonami. Zjawisko to dorobiło się nawet swojej profesjonalnej nazwy – vishing, czyli voice phishing. Jak podaje Centrum Edukacji dla Uczestników Rynku (CEBRF) przy Komisji Nadzoru Finansowego, vishing to metoda wyłudzania poufnych danych właśnie podczas rozmowy telefonicznej.

Statystyki są alarmujące. Według danych globalnych firm cyberbezpieczeństwa już w 2023 roku co czwarta ankietowana osoba spotkała się z próbą oszustwa głosowego z wykorzystaniem AI lub znała kogoś, kto padł jego ofiarą. Co bardziej zatrważające, blisko 77% ofiar dało się nabrać na tyle skutecznie, że straciło pieniądze. Oszuści w Polsce potrafią generować straty idące w dziesiątki milionów złotych rocznie. Zmienia się wektor ataku – teraz dzwoni już nie tylko fałszywy wnuczek, ale coraz częściej np. fałszywy pracownik banku, który brzmi tak profesjonalnie, że weryfikacja jego tożsamości „na słuch” jest niemal niemożliwa.

Mechanizm działania – jak powstaje pułapka

Oszustwo w wersji 2.0 opiera się na prostym, ale skutecznym schemacie technologicznym. Aby „ukraść” czyjś głos, przestępca nie potrzebuje już studia nagraniowego. Wystarczy mu 90 sekundowy filmik, który wrzuciłeś na TikToka lub Instagrama. Już kilkadziesiąt sekund ciągłej mowy wystarczy algorytmom typu VALL-E do stworzenia modelu, który przeczyta dowolny tekst z Twoją intonacją.

Decydującym elementem tej układanki jest spoofing. Oszuści podszywają się pod konkretne numery telefonów. Patrzysz na wyświetlacz i widzisz napis „Mama” lub „Bank PKO”, chociaż połączenie jest realizowane z serwera na drugim końcu świata. CEBRF KNF ostrzega, że przestępcy często wykorzystują ten autorytet, aby nakłonić ofiarę do instalacji oprogramowania do zdalnej obsługi pulpitu. Połączenie deepfake’a (idealny głos bliskiej osoby lub urzędnika) ze spoofingiem (wiarygodny numer na ekranie) tworzy mieszankę wybuchową, która paraliżuje logiczne myślenie.

Sztuczna inteligencja w rękach oszustów nauczyła się już symulować emocje. Syntezatory potrafią drżeć, płakać, wzdychać, a nawet jąkać się w sposób, który bierzemy za objaw stresu. Dla ludzkiego ucha różnica jest niesłyszalna, ale na szczęście dla procesora cyfrowego – wciąż widoczna jak plama atramentu na białym obrusie.

Smartfon analizuje to, czego nie słyszysz

Tutaj do gry wkracza „dobra” strona technologii. Producenci smartfonów wprowadzają funkcje analizy połączeń w czasie rzeczywistym. Systemy, oparte na uczeniu maszynowym, działają bezpośrednio na urządzeniu (on-device), co jest istotne dla prywatności. Nie musisz się martwić, że twoje rozmowy o pogodzie i zakupach są wysyłane na zagraniczne serwery. Co dokładnie „widzi” procesor Twojego telefonu, a co Tobie może umknąć?

Opóźnienia reakcji – cyfrowe zamyślenie

Najbardziej zdradliwa dla oszustów jest kwestia czasu przetwarzania. Gdy zadajesz pytanie, przestępca po drugiej stronie musi często wpisać odpowiedź do syntezatora tekst-na-mowę lub użyć narzędzia zmieniającego jego głos w czasie rzeczywistym (voice changera). Generuje to niewielkie opóźnienia, których nie spotyka się w normalnej rozmowie.

Algorytm w telefonie wyłapuje nienaturalnie długie pauzy przed odpowiedzią (tzw. latency gap) lub momenty ciszy absolutnej, w której brakuje szumu tła typowego dla standardowego połączenia. Jeżeli rozmówca reaguje z opóźnieniem, które przypomina rozmowę z astronautą na Księżycu, smartfon natychmiast flaguje to jako potencjalne zagrożenie. Więcej informacji na temat mechanizmów działania takich opóźnień i samej technologii syntezy mowy znajdziesz na polskim blogu o AI ChatBoty.pl.

Dziwna sterylność i nieludzka „gładkość”

Prawdziwa ludzka mowa jest pełna niedoskonałości – cmoknięć, przełknięć śliny, nieregularnych oddechów. Głos generowany przez AI, mimo postępu, często bywa zbyt czysty. Smartfony analizują spektrum dźwięku w poszukiwaniu tzw. artefaktów kompresji, które powstają przy syntezowaniu mowy. Dźwięk może mieć metaliczny poddźwięk, zwłaszcza przy wypowiadaniu głosek syczących (s, sz, cz).

Co ciekawe, systemy AI czasem mają problem z właściwą intonacją pytań, głos „wnuczka” może opadać na końcu zdania pytającego, zamiast się wznosić. Dla ucha w stresie jest to trudne do wychwycenia, ale dedykowany układ NPU w telefonie widzi to jako jaskrawy błąd w macierzy.

Rytmika niepasująca do emocji

Mamy tu już znacznie wyższy poziom detekcji. Nowoczesne systemy ochronne potrafią korelować treść (analizowaną w locie) z tonem głosu. Jeśli „wnuczek” krzyczy, że jest przerażony wypadkiem, ale parametry jego głosu wskazują na spokojne, miarowe tempo wypowiedzi (charakterystyczne dla czytania z kartki), system wykryje ten dysonans.

Jak zauważa specjalista AI Mariusz Kołacz, autor bloga ChatBoty.pl – najnowsze modele detekcji zwracają uwagę nawet na to, czy wirtualny rozmówca „nabiera powietrza” w logicznych miejscach zdania. Maszyny rzadko symulują wzięcie oddechu w środku długiego wywodu, co dla żywego człowieka byłoby biologicznie niemożliwe.

Kiedy system uzna, że rozmawiasz z syntezatorem, na ekranie smartfona może pojawić się dyskretne, ale stanowcze ostrzeżenie, że… prawdopodobieństwo użycia sztucznego głosu jest wysokie. Złapmy chwilę na ostudzenie emocji!

W Polsce sektor bankowy również zaczyna stosować biometrię głosową, która potrafi odróżnić „żywego” klienta od nagrania, choć jak każda tarcza, i ta musi być stale ulepszana w wyścigu zbrojeń.

Proste zasady skuteczniejsze niż firewall

Technologia technologią, ale najsłabszym i jednocześnie najsilniejszym ogniwem pozostaje zawsze człowiek. KNF oraz specjaliści ds. bezpieczeństwa wskazują na kilka istotnych zachowań, które uchronią cię przed stratą, nawet jeśli nie masz najnowszego telefonu flagowego z funkcją wykrywania AI.

Ustalcie rodzinne hasło bezpieczeństwa. Metoda stara jak świat, ale działa bezbłędnie na najnowocześniejsze boty. Niech to będzie słowo klucz – nazwa miejsca skąd adoptowało się pierwszego zwierzaka, ulubione danie wakacyjne, coś konkretnego, co nie jest oczywiste i publicznie dostępne. Gdy dzwoni „córka” z prośbą o szybki przelew, pytasz o hasło. Oszust sterujący AI z pewnością go nie zna. Jego milczenie lub próba zmiany tematu to sygnał, by natychmiast się rozłączyć.

Bezwzględnie stosuj zasadę – rozłącz się i zadzwoń sam. Jeśli dzwoni bank z informacją o ataku hakerskim, rozłącz się. Jeśli dzwoni wnuczek z prośbą o kaucję, rozłącz się. Następnie własnoręcznie wybierz numer infolinii banku lub numer do wnuczka. Oszust korzystający ze spoofingu nie przejmie twojego połączenia wychodzącego, o ile twój telefon nie jest zainfekowany złośliwym oprogramowaniem. W 99,9% przypadków okaże się, że twoje pieniądze są bezpieczne, a wnuczek właśnie grał na smartfonie.

O to pracownik banku nigdy nie poprosi

Musisz także zwrócić uwagę na schematy, o których pisze CEBRF w kontekście voice phishingu. Istnieją czerwone flagi, które powinny momentalnie przerwać rozmowę, niezależnie od tego, jak miły i profesjonalny głos słyszysz w słuchawce.

Pamiętaj, że żaden prawdziwy pracownik banku nigdy nie poprosi cię o:

Podanie loginu i pełnego hasła do bankowości internetowej.
Zainstalowanie aplikacji typu TeamViewer pod pretekstem „usprawnienia zabezpieczeń” lub „naprawy awarii”.
Wypłacenie gotówki i wpłacenie jej do „bezpiecznego” wpłatomatu przy użyciu kodu BLIK podanego przez telefon.
Przelanie środków na „rezerwowe konto techniczne”.

Oszuści wykorzystują element zaskoczenia i budują autorytet. Voice cloning sprawia, że w innym scenariuszu „na policjanta” możesz usłyszeć głos np. rzecznika lokalnej komendy, którego znasz z radia. Nie wierz w to! Prawdziwa policja wysyła wezwania pocztą, a nie omawia sprawy przez telefon komórkowy.

Rozmawiaj o zagrożeniach przy niedzielnym obiedzie

Najważniejszą bronią w walce z deepfake’ami jest świadomość. Paradoksalnie, młodsi użytkownicy są bardziej świadomi technologii, ale często mniej dbają o prywatność swoich danych głosowych w sieci. Seniorzy z kolei, wychowani w kulturze większego zaufania do głosu w słuchawce, stają się łatwym celem manipulacji emocjonalnej.

Jeśli jesteś z młodszego pokolenia, poświęć chwilę, aby uświadomić rodziców i dziadków, z jak poważnym problemem mamy do czynienia. Dla nich głos w słuchawce to często wciąż synonim prawdy, a dla cyberprzestępców najłatwiejsza droga do manipulacji. Nie wystarczy tylko ostrzegać, warto wyposażyć bliskich w analogową tarczę przeciwko cyfrowym zagrożeniom. Ustalcie wspólnie tajne hasło bezpieczeństwa, o które zapytają, gdy tylko usłyszą nietypową prośbę o pieniądze lub pomoc. Twoja wiedza techniczna i jedna prosta zasada (ograniczonego zaufania dla dzwoniących), mogą okazać się najskuteczniejszą polisą, chroniącą ich spokój i oszczędności.

Najczęściej zadawane pytania (FAQ)

Co to jest vishing i czym różni się od zwykłego oszustwa?

Vishing (voice phishing) to metoda wyłudzania poufnych danych lub pieniędzy podczas rozmowy telefonicznej. W przeciwieństwie do tradycyjnych metod, współczesny vishing wykorzystuje voice cloning, czyli technologię AI, która pozwala na stworzenie niemal idealnej kopii głosu bliskiej osoby lub urzędnika.

Czym jest deepfake w kontekście oszustw telefonicznych?

To technologia pozwalająca na stworzenie idealnej kopii głosu konkretnej osoby, np. członka rodziny lub urzędnika. Wykorzystuje ona algorytmy sztucznej inteligencji, które naśladują intonację, akcent, a nawet specyficzne zwroty ofiary. Przestępcom wystarczy krótka próbka głosu (zaledwie 90 sekund nagrania Twojego głosu, np. z filmiku wrzuconego na Instagrama czy TikToka), aby stworzyć model zdolny do wypowiedzenia dowolnej treści Twoim głosem.

Co oznacza termin spoofing i dlaczego jest groźny?

Spoofing to technika podszywania się pod konkretne numery telefonów, dzięki której na ekranie smartfona wyświetla się wiarygodna informacja, np. napis „Mama” lub „Bank PKO”. Choć połączenie może być realizowane z serwera na drugim końcu świata, ofiara odnosi wrażenie, że dzwoni do niej zaufana osoba lub instytucja. W połączeniu z deepfake’iem tworzy to pułapkę, która paraliżuje logiczne myślenie i ułatwia manipulację.

Jak mój smartfon może rozpoznać, że rozmawiam z robotem?

Nowoczesne telefony analizują parametry, których ludzkie ucho w stresie nie wyłapuje opóźnienia (latency gap) w odpowiedzi, błędy w intonacji głosu, brak oddechu w naturalnych miejscach, nienaturalna czystość wypowiedzi

Co zrobić, gdy dzwoni bliska osoba z prośbą o pilne pieniądze?

Zastosuj dwie złote zasady:

Zapytaj o wcześniej ustalone rodzinne hasło bezpieczeństwa
Rozłącz się i zadzwoń samodzielnie wybierz numer do danej osoby

O co nigdy nie poprosi nas prawdziwy pracownik banku?

Prawdziwy urzędnik bankowy nigdy nie poprosi Cię o:

Podanie pełnego hasła do logowania.
Instalację oprogramowania do zdalnego pulpitu (np. TeamViewer).
Przelanie pieniędzy na „rezerwowe konto techniczne”.
Podanie kodu BLIK w celu wpłacenia gotówki do „bezpiecznego” wpłatomatu.

Masz pytania? Napisz do nas: sklep@movear.pl lub zadzwoń. Infolinia: +48 737 770 401 (czynne 8:00-15:00)

MOVEAR BLOG