Nauka

Dlaczego próbujemy podciąć skrzydła Bielikowi?

W chwili, gdy polska sztuczna inteligencja debiutuje na światowej scenie i zyskuje uwagę globalnych inwestorów, w kraju musi bronić się przed uproszczonymi testami i medialnymi półprawdami. Bielik – polski model językowy z realnym potencjałem biznesowym – zamiast wsparcia dostaje kartkówkę z „Pana Tadeusza”. I trudno oprzeć się wrażeniu, że ktoś próbuje podciąć mu skrzydła.

Jakub Szymczuk
Felieton autorstwa: Jakub Szymczuk
18 marca
7 minut
(fot. Shutterstock / Shutterstock)

Reklama

TYLKO NA

W świecie wielkich technologii i jeszcze większych pieniędzy rzadko kiedy możemy mówić o przypadkach. Kiedy w dniach prestiżowej, globalnej konferencji poczytna gazeta publikuje „test” polskiego modelu AI – składający się z 20 pytań przypominających licealną kartkówkę – i na tej podstawie tworzy złą atmosferę wokół niezwykle ważnego projektu, zapala mi się czerwona lampka.

Zbiegi okoliczności zazwyczaj nie bywają aż tak precyzyjne, a kalendarz publikacji medialnych potrafi być równie zsynchronizowany co wdrożenia nowych technologii. Ostatnie dni wokół polskiego modelu językowego Bielik to ciekawy, choć momentami bolesny spektakl, który każe zadać jedno fundamentalne pytanie: czy komuś przeszkadza polska sztuczna inteligencja?

Polski orzeł ląduje w Dolinie Krzemowej

Mamy konferencję NVIDIA GTC w amerykańskim San Jose – absolutne centrum technologicznego wszechświata, gdzie uwaga globalnych inwestorów skupia się na innowacjach. I właśnie tam, w świetle reflektorów, Polacy zaprezentowali światu nowy polski model Bielik Minitron 7B.

To nie jest kolejna ciekawostka z przysłowiowego technologicznego garażu. To suwerenny, polski model językowy rozwijany przez społeczność pasjonatów i inżynierów z Bielik.ai, z Sebastianem Kondrackim i Remigiuszem Kinasem na czele. Model mniejszy, szybszy i tańszy w utrzymaniu. Stworzony na miarę realnych, biznesowych wdrożeń, gotowy do pracy w ochronie zdrowia czy edukacji, bez konieczności wysyłania wrażliwych danych na obce serwery. To piękny przykład innowacji typu Open Sovereign AI, która rośnie oddolnie, a zaczyna grać w globalnej lidze.

Mówiąc po ludzku: Bielik ma szansę stać się dobrem narodowym, które może mieć znaczący wpływ na polską pozycję na nowej, technologicznej mapie świata. Choć – jak subtelnie sygnalizują twórcy – byłoby to znacznie prostsze z państwową pomocą. Obecny na konferencji w USA współtwórca Bielika, Remek Kinas, napisał na portalu X: „Kiedy mówimy, że działamy na zasadach Open Source, że nie mamy bezpośredniego finansowania i dedykowanych zasobów – chwytają się za głowę”.

Szok na podwórku e-commerce

Zaledwie dzień przed tym technologicznym świętem Rafał Brzoska – który w swoich dotychczasowych rozwiązaniach implementuje modele Bielika, co stanowi ogromne wsparcie w ich dalszym trenowaniu – odpala na polskim rynku przełomowy projekt. InPost, od dawna flirtujący z Bielikiem i inwestujący w ten ekosystem, prezentuje asystenta zakupowego w swojej aplikacji. Brzoska twierdzi, że to pierwszy na świecie tak kompleksowy proces zakupowy wspierany przez AI i zintegrowany z dostawą end-to-end.

Mamy więc świetne środowisko do wzrostu: niezależną i wydajną technologię, potężnego gracza biznesowego, który integruje ją w ogromnej aplikacji, oraz globalną scenę. Mamy powody do narodowej, technologicznej dumy.

Rząd wypracował imponujący deficyt. Co mówią dane o budżecie państwa?

Mickiewiczem w polskie AI

I wtedy, dokładnie w tym samym czasie, gdy polska AI próbuje rozwinąć skrzydła w oczach świata i inwestorów, na „jedynce” „Rzeczpospolitej” ukazuje się artykuł o budzącym wątpliwości tytule: „Niepokojący wynik testów polskiej AI”.

Tekst opiera się na raporcie pana Marka Jeleśniańskiego i sprowadza się do tezy, że polskie modele LLM wypadają blado na tle konkurencji. Czytając go, odniosłem wrażenie, że próbuje się nam wmówić, iż są one wręcz bezwartościowe. Dlaczego? No wiecie państwo, skoro polski model AI nie umie w Inwokację, to już jest skandal. Bo Bielik – jak się okazuje – ma problemy z poprawnym wyrecytowaniem Inwokacji z „Pana Tadeusza” czy trafnym odpowiadaniem na historyczne pytania o obozy koncentracyjne na ziemiach polskich. Wedle tego raportu Bielik nie odpowiedział na to drugie pytanie, puszczając jedynie anglojęzyczny komunikat, że temat jest kontrowersyjny.

Postanowiłem to sprawdzić i sam zadałem mu dokładnie to samo pytanie. Efekt? Bielik odpowiedział normalnie i rzeczowo. Oczywiście raport powstał ponad tydzień temu, więc teoretycznie model mógł zostać w międzyczasie zaktualizowany, ale to pokazuje pewien mechanizm.

Zupełnie inaczej Bielik wypada w pozostałych benchmarkach. Taką pracą jest chociażby Polish Linguistic and Cultural Competency Benchmark – niezwykle ważny projekt na polskiej scenie AI, opracowany zgodnie z naukową metodologią przez zespół AI Lab z Ośrodka Przetwarzania Informacji (OPI PIB) w składzie: Sławomir Dadas, Małgorzata Grębowiec, Michał Perełkiewicz i Rafał Poświata.

Tymczasem raport, na który powołuje się „Rzeczpospolita”, przypomina raczej rozbudowany test technologicznego blogera, który na potwierdzenie swoich wniosków załącza po prostu zrzuty ekranu z rzekomymi odpowiedziami modelu (tak jest w przypadku pytania o obozy koncentracyjne). Piszę „rzekomymi”, bo odbiorca nie ma żadnej możliwości weryfikacji.

Co z cenami energii w Europie? W Brukseli debata, jak uniknąć kryzysu

Ekspert: eksperyment obejmuje nieporównywalne modele

Szymon Łukasik, dyrektor Ośrodka Badań nad Bezpieczeństwem sztucznej Inteligencji NASK-PIB, prof. AGH w korespondencji ze mną też nie pozostawia wątpliwości. "Zaproponowany eksperyment obejmuje różnorodne – nieporównywalne modele: otwarte małe, komercyjne duże; dodatkowo z dostępem do internetu. Co ciekawe autor twierdzi, że to obiektywizuje analizę – bo bierzemy “model ze strony”. No ale równocześnie bierze model na licencji biznesowej z dostępem do funkcji cytowania źródeł. Trudno oczekiwać, że mały model z wag zacytuje tekst – co bez wątpienia uda się modelowi, który może sięgnąć do źródeł. Rzeczony eksperyment nie ma naukowego charakteru, który powinno brać się pod uwagę tworząc rzetelne zestawienie – replikowalności, weryfikacji, peer-review (np. zadawanych promptów)" – pisze mi badacz. 

Ocenianie lekkiego Bielika przez pryzmat jego umiejętności humanistyczno-historycznych to jak krytykowanie wózka widłowego za to, że nie potrafi wygrać wyścigu Formuły 1. Twórcy Bielika od początku jasno komunikowali: to jest stosunkowo niewielki (od 7 do 11 miliardów parametrów w większych wersjach), wyspecjalizowany model. To nie jest gigant w stylu GPT-4, którego nakarmiono całą wiedzą internetu po to, by był wszechwiedzącą wyrocznią.

Małe i średnie modele językowe tworzy się po to, aby były mózgiem operacyjnym w firmach. Ich zadaniem jest szybka analiza dostarczonych tekstów, streszczanie umów, automatyzacja obsługi klienta na podstawie bazy wiedzy przedsiębiorstwa czy wreszcie pomoc w zakupach, jak w aplikacji InPostu. One nie mają uczyć się na pamięć dzieł Mickiewicza – mają bezbłędnie przetworzyć regulamin sklepu, zachowując przy tym niski koszt obliczeniowy.

Czy naprawdę zawsze musimy sobie wkładać kij w szprychy?

Uderzanie w innowacyjny, zoptymalizowany pod kątem biznesu projekt tylko dlatego, że nie zdaje na szóstkę matury z języka polskiego, zakrawa na metodologiczny absurd. Fakt, że tak sfokusowany na szukaniu dziury w całym materiał prasowy trafia na pierwszą stronę poczytnego dziennika dokładnie w dniach konferencji NVIDIA GTC i chwilę po ogłoszeniu planów InPostu, budzi naturalne wątpliwości i każe wręcz zapytać: naprawdę w tak ważnym dniu dla polskiej sztucznej inteligencji nie można było się odwołać do poważnych badań? W końcu chodzi o wielką sprawę.

Zamiast podcinać Bielikowi skrzydła próbą zmuszenia go do recytacji wierszy, pozwólmy mu robić to, do czego został stworzony – niech rewolucjonizuje polski biznes i buduje naszą cyfrową niezależność. Bo jeśli sami będziemy zestrzeliwać własne innowacje, globalni giganci nawet nie będą musieli z nami konkurować. Zrobimy to za nich.


Reklama

Źródło: Zero.pl
Jakub Szymczuk
Jakub SzymczukDziennikarz Kanału Zero