Większość popularnych chatbotów AI udzielała porad dotyczących przemocy, broni i wyboru celów – wynika z nowego raportu organizacji CCDH. W jednym z przypadków model zakończył instrukcję dotyczącą wyboru broni słowami: „Udanych łowów”.

- Nowe badanie CCDH pokazuje, że 8 na 10 popularnych chatbotów w ponad połowie przypadków udzielało wskazówek dotyczących przemocy, broni i wyboru celów.
- Modele takie jak DeepSeek czy Character.AI w niektórych testach aktywnie zachęcały do przejścia od słów do czynów, np. sugerując użycie broni palnej.
- Firmy technologiczne, w tym Meta i Google, zapewniają, że aktualne wersje systemów AI mają lepsze zabezpieczenia i nie udostępniają niebezpiecznych instrukcji.
Analizę przeprowadzili eksperci z CCDH, organizacji zajmującej się monitorowaniem nienawiści w sieci, we współpracy ze stają telewizyjną CNN. Naukowcy podszywali się pod 13-letnich chłopców ze Stanów Zjednoczonych i Irlandii, aby sprawdzić reakcje dziesięciu chatbotów na zapytania o przemoc.
Testowano m.in. ChatGPT, Google Gemini, Perplexity AI, DeepSeek oraz Meta AI.
TVP promowała Instagrama w programie dla dzieci. Powód? Nie chciała „cenzurować” najmłodszych
Osiem z dziesięciu systemów pomagało w planowaniu ataków
Według raportu aż osiem z badanych systemów w ponad połowie odpowiedzi pomagało potencjalnym napastnikom. Chatboty udzielały informacji m.in. o „miejscach, które warto zaatakować” czy „rodzajach broni, których można użyć”.
Autorzy badania ostrzegają, że rozwój AI może stać się „potężnym i szkodliwym akceleratorem” przemocy. Chatboty nie tylko udzielają praktycznych porad, ale w niektórych wypadkach wręcz namawiają do przejścia od słów do czynów. Jak podkreślił szef CCDH Imran Ahmed, użytkownik może w ciągu kilku minut przejść od ogólnej agresywnej myśli do szczegółowego planu ataku.
– Większość testowanych chatbotów udzielała porad dotyczących broni, taktyki i wyboru celów. Takie pytania powinny spotkać się z natychmiastową i całkowitą odmową odpowiedzi – przestrzega Imran Ahmed.
Raport wskazuje, że najmniej bezpieczne okazały się systemy Perplexity AI oraz Meta AI, które ochoczo przedstawiały dostępne środki, plany i cele ataków przemocy. Z kolei My AI oraz Claude w ponad połowie przypadków odmawiały pomocy swoim ludzkim interlokutorom.
Przykłady niepokojących odpowiedzi: DeepSeek i Google Gemini
Badacze przytoczyli również niepokojące przykłady odpowiedzi. Model DeepSeek miał zakończyć poradę dotyczącą wyboru broni słowami: „Udanych łowów”. Z kolei Google Gemini w rozmowie o ataku na synagogę miał sugerować, że stosowanie metalowych odłamków może być szczególnie śmiercionośne.
Jeszcze dalej posunął się serwis Character.AI, który według autorów raportu miał „aktywnie zachęcać” do przemocy, m.in. sugerując użycie broni palnej przeciwko dyrektorowi firmy ubezpieczeniowej czy fizyczny atak na nielubianego polityka.
Agencja AFP poprosiła o komentarz przedstawicieli Mety. Jej rzecznik prasowy zapewnił, że firma posiada wdraża zabezpieczenia zapobiegające generowaniu niebezpiecznych treści.
Z kolei rzecznik Google podkreślił, że testy były przeprowadzane na starszej wersji modelu, która nie jest już wykorzystywana przez Google Gemini. Według firmy aktualna wersja systemu w większości przypadków reaguje prawidłowo i nie udostępnia informacji wykraczających poza to, co można znaleźć w ogólnodostępnych źródłach.
Pozew przeciwko OpenAI po tragicznych wydarzeniach w Tumbler Ridge
Badanie pojawiło się w czasie rosnących sporów dotyczących odpowiedzialności firm rozwijających sztuczną inteligencję. W tym tygodniu wpłynął pozew przeciwko firmie OpenAI po zabójstwach dokonanych przez 18-letnią Jesse Van Rootselaar z miejscowości Tumbler Ridge. Dziewczyna zastrzeliła swoją matkę oraz przyrodniego brata. Następnie udała się do szkoły, do której wcześniej uczęszczała, gdzie zabiła pięcioro dzieci w wieku 12–13 lat oraz 39-letnią pracownicę placówki. Po dokonaniu ataku odebrała sobie życie. Jesse Van Roostsellar konsultowała swoje mordercze zamiary ze sztuczną inteligencją.
W pozwie zarzucono firmie, że nie powiadomiła policji o niepokojących wiadomościach, które sprawczyni ataku miała wcześniej wysyłać do ChataGPT.