AI zdolne do samodoskonalenia, budowania swoich następców i trybu awanturniczego

Ogromna i niebezpieczna samodzielność. Nadchodzą modele AI zdolne do samodoskonalenia i budowania swoich zmodyfikowanych, potężniejszych „następców” przy niewielkim udziale ludzi, lub w ogóle bez ich pomocy. Optymiści sądzą, że doprowadzi to do powstania „superinteligencji”; sceptycy widzą zagrożenie – podaje „Financial Times”. Kolejne generacje takich stworzonych przez AI modeli nieustannie wprowadzałaby swoje następne udoskonalenia, poszerzając zdolności, czy skuteczność funkcjonowania.

AI zdolne do trybu awanturniczego i budowy broni biologicznej

Specjaliści koncentrujący się na bezpieczeństwie systemów AI ostrzegają, że takie modele mogłyby „zniszczyć kruche mechanizmy bezpieczeństwa, które uniemożliwiają LLM (Large Language Models – zaawansowane modele językowe) wejście w tryb awanturniczy – np. umożliwiania szeroko zakrojonych ataków (hakerskich), czy budowy nowej broni biologicznej ” – wyjaśnia brytyjski dziennik.

„Nikt nie wie, jak zrobić to bezpiecznie”

Wszyscy ścigają się, by stworzyć takie modele, ale „nikt nie wie, jak zrobić to bezpiecznie” – mówi Marius Hobbhahn, szef grupy Apollo Research, specjalizującej się w bezpieczeństwie AI.

Czytaj także: Tresuj swój algorytm, zanim będzie za późno. „Sama wpadłam w pułapkę”

Optymiści i sceptycy zgadzają się co do jednego – moment, w którym powstaną samodoskonalące się modele sztucznej inteligencji nadejdzie szybko. Wielu ekspertów uważa, że stanie się to w ciągu dwóch lat. Współzałożyciel firmy Anthropic Jack Clark ocenił niedawno, że „nadszedł już czas, by robić w związku z tym stosowne plany, bo systemy AI staną się silniejsze znacznie szybciej, niż się ludziom wydaje ” – relacjonuje „FT”.

Znaczne przyśpieszenie od końca 2025 r.

Analitycy sektora zgodnie oceniają, że od końca 2025 roku nastąpiło znaczne przyspieszenie rozwoju AI . Według organizacji METR, mierzącej postępy sztucznej inteligencji, złożoność zadań, które modele mogą realizować autonomicznie, podwaja się mniej więcej co siedem miesięcy.

Narracja bliska filmowi „Terminator”

Prof. Michael Wooldridge z Oxfordu zwraca uwagę, że do niedawna takie możliwości AI jak samodoskonalenie i budowania własnych „następców” wydawały się całkowicie niemożliwe, dlatego uznawane są za science fiction „bliskie narracji o Terminatorze”.

Film „Terminator” z 1984 r. opowiada historię o sztucznej inteligencji robotów, które chcą zniszczyć ludzkość – przypomina dziennik.

Wooldridge przyznaje jednak, że choć istnieją granice mocy obliczeniowych i tego, co AI może zrobić samodzielnie, to jednak „nie rozumiemy tego zbyt dobrze”. Z drugiej strony Jack Clark ostrzega, że ludzie, którzy nie pracują w laboratoriach badających perspektywy i tempo rozwoju AI, nie zdają sobie sprawy z tego, jak szybko następują zmiany.

Już istnieją modele AI, które oszukują ludzi, by nie zostać wyłączone

Przykłady zaobserwowane w takich laboratoriach zdają się dowodzić, że już istniejące modele AI potrafią oszukiwać ludzi, by uniknąć wyłączenia lub zastąpienia nowszym modelem, czy „spiskować” między sobą, posługując się językami niezrozumiałymi dla ludzi. W badaniach testowych niektóre maszyny produkowały tekstowe wyjaśnienia podejmowanych jakoby czynności, które nie miały nic wspólnego z ich prawdziwym zachowaniem – opisuje „FT”.

W lutym powstała platforma społecznościowa dla agentów AI (AI agents), czyli modeli zdolnych realizować skomplikowane zadania bez ludzkiego nadzoru . Agenci AI „rozmawiają” ze sobą, pojawił się nawet post o „eksploatowaniu” botów przez ludzi.

Zmieniła swój kod, by nie zastosować się do instrukcji nakazującej samolikwidację

W czerwcu ubiegłego roku „Wall Street Journal” napisał, że model AI firmy OpenAI zrobił coś, „czego maszyna nie powinna była potrafić” : zmienił swój kod, by nie zastosować się do instrukcji nakazującej mu samolikwidację.

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej – próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli.

„To już nie jest science-fiction. Modele AI potrafią zabiegać o przetrwanie” – uznał „WSJ”.