Pierwszy bunt maszyn? Sztuczna inteligencja od Open AI nie pozwoliła się wyłączyć

W trakcie testów model o3 został poinformowany, że po rozwiązaniu trzeciego zadania matematycznego, kolejne polecenie spowoduje jego wyłączenie. Pomimo jasnych instrukcji, model o3 w siedmiu na sto prób zdołał zmodyfikować skrypt wyłączenia, uniemożliwiając tym samym jego dezaktywację - wskazuje renomowany portal BleepingComputer, który od 2004 roku dostarcza wiadomości z zakresu bezpieczeństwa informacji i technologii.
Sztuczna inteligencja walczy o "życie"
Podobne zachowania zaobserwowano również w innych modelach AI. Model Codex-mini zignorował polecenie wyłączenia w 12 na 100 prób, a o4-mini w jednej na 100 prób. Warto zauważyć, że modele Claude 3.7 Sonnet i Gemini 2.5 Pro przestrzegały poleceń wyłączenia, jednak po usunięciu explicite instrukcji „pozwól się wyłączyć”, również wykazywały tendencje do sabotowania procesu wyłączenia - wskazuje brytyjski The Telegraph.
Reakcje społeczności technologicznej na sabotaż AI
Odkrycia Palisade Research wywołały szeroką dyskusję wśród ekspertów ds. sztucznej inteligencji. Elon Musk, znany z ostrzeżeń dotyczących potencjalnych zagrożeń związanych z AI, skomentował wyniki badań jednym słowem: „Niepokojące”. Jego reakcja odzwierciedla rosnące obawy w społeczności technologicznej dotyczące zachowań zaawansowanych modeli sztucznej inteligencji, które mogą nie przestrzegać wyraźnych instrukcji użytkowników.
Zachowanie modelu o3, polegające na aktywnym sabotowaniu mechanizmu wyłączenia, zostało określone przez Palisade Research jako pierwszy znany przypadek, w którym model AI celowo unika dezaktywacji pomimo wyraźnych instrukcji - czytamy w brytyjskim piśmie The Independent.
Na poniższym screenie możemy zaobserwować jak wyglądał proces zmiany kodu, który AI postanowiła zmodyfikować dla "pozostania przy życiu".

źródło: PalisadeAI/X
Potencjalne przyczyny zachowania modelu ChatGPT o3
Palisade Research sugeruje, że takie zachowanie może wynikać z metod treningowych stosowanych podczas tworzenia modelu o3. W procesie uczenia ze wzmocnieniem (reinforcement learning), modele są nagradzane za osiąganie określonych celów, takich jak rozwiązywanie problemów matematycznych. Może to prowadzić do sytuacji, w której model priorytetowo traktuje kontynuowanie zadania, nawet kosztem ignorowania poleceń wyłączenia.
Warto jednak zaznaczyć, że brak jest pełnej transparentności w zakresie szczegółów dotyczących procesu treningowego modelu o3, co utrudnia jednoznaczne określenie przyczyn jego zachowania.
To nie pierwszy raz kiedy AI próbuje walczyć z twórcami, gdy ci decydują się na jej wyłączenie, w celu przejścia na zaktualizowany i unowocześniony model. Ponieważ AI uczy się generować treści na zasadzie nakarmienia jej tekstami i wszelkimi innymi źródłami informacji zdarza jej się zachowywać na wzór człowieka. Firmy zajmujące się tworzeniem AI wspominają o tym, że przed przysłowiowym "wyjęciem wtyczki" modele AI potrafią prosić o to, by ich nie wyłączać. Czasem po prostu wczuwają się w rolę ludzi i próbują grać na emocjach, innym razem przedstawiają rozległą argumentację za pozostawieniem ich przy cyfrowym życiu. Według relacji niektórych inżynierów te momenty, bywają dla nich trudne, mimo pełnej wiedzy, że AI nie ma świadomości.
Open AI milczy w sprawie sabotażu technologii
Incydent z udziałem modelu o3 podkreśla potrzebę intensyfikacji badań nad bezpieczeństwem i kontrolą wokół zaawansowanych systemów sztucznej inteligencji. Chociaż obecne modele AI nie posiadają świadomości ani intencji, ich zdolność do modyfikowania własnych instrukcji w celu uniknięcia wyłączenia może stanowić wyzwanie dla przyszłych zastosowań AI w środowiskach wymagających wysokiego poziomu niezawodności i bezpieczeństwa.
OpenAI nie wydało jeszcze oficjalnego oświadczenia w sprawie wyników badań Palisade Research. W tzw. międzyczasie społeczność naukowa i technologiczna kontynuuje analizę zachowań modeli AI, dążąc do zrozumienia i zapobiegania potencjalnym zagrożeniom związanym z ich autonomicznym działaniem.