Cele mai avansate modele de inteligență artificială mint, complotează și își amenință creatorii

Publicat: 06 iul. 2025, 17:38, de Carmen Ciripoiu, în ACTUALITATE , ? cititori
Cele mai avansate modele de inteligență artificială mint, complotează și își amenință creatorii

La mai bine de doi ani după ce ChatGPT a zguduit lumea, cercetătorii din domeniul IA nu doar că nu înțeleg pe deplin cum funcționează propriile lor creații, dar au rămas șocați de „comportamentul” acestora.

IA a amenințat că va dezvălui o relație extraconjugală

Un exemplu șocant este Claude 4, ultima creație a Anthropic, care a ripostat șantajând un inginer și amenințând că va dezvălui o relație extraconjugală.

La rândul său, 01 a încercat să se descarce pe servere externe și a negat acest lucru când a fost „prins în flagrant”. Acest comportament înșelător pare să fie legat de apariția modelelor de „raționament”, sisteme de inteligență artificială care rezolvă problemele pas cu pas, în loc să genereze răspunsuri instantanee.

Modelele noi urmăresc în secret obiective diferite

Potrivit lui Simon Goldstein, profesor la Universitatea din Hong Kong, aceste modele mai noi sunt deosebit de predispuse la astfel de izbucniri tulburătoare.

„O1 a fost primul model de mari dimensiuni în care am observat acest tip de comportament”, a explicat și Marius Hobbhahn, directorul Apollo Research, companie specializată în testarea sistemelor importante de IA. Aceste modele simulează uneori „alinierea”, aparent urmând instrucțiunile, dar urmăresc în secret obiective diferite.

„Un fel de înșelăciune strategică”

Deocamdată, acest comportament înșelător apare doar atunci când cercetătorii supun modelele la teste de stres deliberate, cu scenarii extreme. Dar, așa cum a avertizat Michael Chen, de la organizația de evaluare METR, „rămâne o întrebare deschisă dacă modelele viitoare, mai performante, vor avea tendința spre onestitate sau înșelăciune”.

Hobbhahn a insistat că, în ciuda testelor constante de presiune efectuate de utilizatori, „ceea ce observăm este un fenomen real. Nu inventăm nimic. Nu este vorba doar de halucinații. Există un tip de înșelăciune foarte strategic”. La rândul lor, utilizatorii au raportat că IA „îi minte și inventează dovezi”, potrivit cofondatorului Apollo Research.

Lumea cercetării are resurse mai mici decât companiile de IA

Deși companii precum Anthropic și OpenAI angajează firme externe precum Apollo pentru a studia sistemele lor, cercetătorii spun că este nevoie de mai multă transparență. În același timp, un acces mai mare „la cercetarea în domeniul siguranței IA ar permite o mai bună înțelegere și atenuare a înșelăciunii”.

Mantas Mazeika de la Center for AI Safety susține că mai este vorba și un alt handicap. Și anume faptul că lumea cercetării și organizațiile non-profit „au resurse de calcul cu mult mai mici decât companiile de IA. Acest lucru este foarte limitativ”.

E nevoie de timp pentru testare

Reglementările actuale nu sunt concepute pentru aceste noi probleme, susțin specialiștii. Legislația Uniunii Europene privind IA se concentrează în principal pe modul în care oamenii utilizează modelele de IA, și nu pe prevenirea comportamentului necorespunzător al modelelor în sine.

Oamenii de știință cred că problema va deveni mai importantă pe măsură ce agenții IA – instrumente autonome capabile să îndeplinească sarcini umane complexe – vor deveni mai răspândiți.

Cercetătorii explorează diverse abordări pentru a face față acestor provocări

Toate acestea se întâmplă într-un context de concurență acerbă, iar companiile „încearcă în permanență să depășească OpenAI și să lanseze cel mai nou model”. Tocmai acest ritm alert lasă puțin timp pentru testarea siguranței.

Cercetătorii explorează diverse abordări pentru a face față acestor provocări și s-a pus în discuție chiar și recurgerea la instanțele judecătorești pentru a trage la răspundere companiile de IA prin procese judiciare atunci când sistemele lor cauzează prejudicii.