Duże modele językowe, tworzone przez różne firmy i trenowane na odmiennych danych, coraz częściej udzielają niemal identycznych odpowiedzi na otwarte pytania. Różnorodność, którą miała gwarantować sztuczna inteligencja, może być znacznie mniejsza niż zakładano.

- Różne modele AI często odpowiadają niemal tak samo, nawet jeśli pochodzą od innych firm i są tworzone w różnych krajach.
- AI bywa znacznie mniej kreatywna niż ludzie. W tych samych zadaniach, np. wymyślaniu reklamy ludzie podają dużo bardziej różnorodne i nieprzewidywalne odpowiedzi.
- Wniosek dla użytkowników? Ogólne pytania prowadzą do schematycznych odpowiedzi, a dopiero szczegółowy kontekst i konkretne informacje mogą sprawić, że AI odpowie inaczej.
- Przy pracy z AI trzeba uważać na powtarzalne schematy. Wprawne oko rozpozna charakterystyczne metafory i utarte sformułowania – ostrzegają gospodarze programu „Technologiczne Zero”.
– Badania naukowe wskazują na to, że modele językowe, tzw. LLM-y, m.in. taki jak chociażby chat GPT, zaczynają się upodabniać do siebie. I jest to dość zaskakujące, bo przecież obietnica była inna – mówił dr Tomasz Rożek w programie „Technologiczne Zero”, powołując się na analizę „Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)”. Razem z ekspertem ds. cyberbezpieczeństwa Mateuszem Chrobokiem, próbował znaleźć odpowiedź na pytanie dlaczego tak się dzieje.
Sztuczna inteligencja coraz mniej kreatywna. Winni ludzie?
Badanie obejmowało wiele modeli językowych, zarówno otwartych, jak i zamkniętych, pochodzących z różnych krajów i opartych na różnych architekturach. Mimo to, gdy modele otrzymywały otwarte polecenia, na przykład prośbę o opis zachodu słońca albo metaforę upływu czasu, odpowiedzi okazywały się bardzo do siebie podobne. W wielu przypadkach pojawiały się te same obrazy i porównania, takie jak czas opisywany jako rzeka lub woda.
Nawet zwiększenie losowości (dostawcy aplikacji wykorzystujących modele językowe dają taką możliwość) nie przynosiło oczekiwanego efektu.
Rozmówcy zwracają uwagę, że największe ujednolicenie dotyczy modeli typu Instruct, czyli zaprojektowanych do rozmowy z człowiekiem i wykonywania poleceń w możliwie naturalny sposób. Inaczej zachowywały się modele pełniące rolę sędziów treści, których zadaniem jest ocenianie, czy dana wypowiedź jest szkodliwa lub niebezpieczna. W ich przypadku podobieństwo odpowiedzi było statystycznie mniejsze.
Cała sztuczna inteligencja opiera się na Wikipedii
Jednym z możliwych wyjaśnień zjawiska jest korzystanie z podobnych zasobów kulturowych i informacyjnych. W przypadku modeli otwartych wiadomo, że były trenowane między innymi na Wikipedii i innych publicznie dostępnych stronach internetowych, w dużej mierze anglojęzycznych. W przypadku modeli zamkniętych szczegóły zbiorów treningowych nie są znane, co sprawia, że podobieństwo odpowiedzi jest jeszcze trudniejsze do jednoznacznego wyjaśnienia.
W rozmowie pojawia się również odniesienie do wcześniejszych badań sugerujących, że modele językowe odzwierciedlają światopogląd i założenia swoich twórców.
Modele tracą kreatywność przez testy?
Istotną rolę w ujednolicaniu odpowiedzi mogą odgrywać także benchmarki i testy porównawcze. Modele są stale oceniane według standaryzowanych testów, a firmy rywalizują o jak najlepsze wyniki procentowe. Taka presja sprzyja dopasowywaniu modeli do określonych schematów odpowiedzi i ograniczaniu przestrzeni możliwych wariantów. W rozmowie w „Technologicznym Zerze” pojawia się porównanie do klucza odpowiedzi w teście, do którego wszyscy muszą się dostosować.
Badanie pokazuje również wyraźną różnicę między ludźmi a modelami językowymi. Gdy te same zadania, na przykład wymyślenie reklamy produktu, otrzymywali ludzie, ich odpowiedzi charakteryzowały się większą losowością i różnorodnością. Modele natomiast konsekwentnie wybierały najbardziej prawdopodobne słowa i konstrukcje, co prowadziło do powtarzalności.
Schematyczne pytania, schematyczne odpowiedzi modeli AI
Rozmówcy podkreślają też znaczenie kontekstu i sposobu formułowania poleceń. Modele silnie reagują na pierwsze elementy promptu, a szerokie, ogólne pytania częściej prowadzą do tych samych schematycznych odpowiedzi. Dopiero bardziej szczegółowy, osadzony w konkretnym kontekście opis sytuacji może skierować model w inną przestrzeń odpowiedzi.
W rozmowie pojawia się także wątek praktycznych konsekwencji tego zjawiska. Powtarzalne metafory i schematy językowe mogą stać się jedną z metod rozpoznawania treści generowanych przez sztuczną inteligencję. Jednocześnie rozmówcy zaznaczają, że opisywane badanie dotyczy jedynie wąskiego wycinka zastosowań modeli językowych i nie wyczerpuje całej złożoności ich działania.
Więcej w programie „Technologiczne Zero”: