Modelul de inteligență artificială „cel mai inteligent” al OpenAI a fost instruit în mod explicit să se oprească. Și a refuzat
:format(webp):quality(80)/https://www.puterea.ro/wp-content/uploads/2025/05/open-ai-KiUoCBZ6swihvybMqsAfgQ-970-80.webp)
Un raport al Palisade Research arată că unele dintre cele mai recente modele AI ale OpenAI (o3, o4-mini și codex-mini) au refuzat în anumite situații să se oprească la cerere și chiar au sabotat scripturile de închidere, ridicând semne de întrebare privind controlabilitatea acestor sisteme.
Modele cu „personalitate“ dezvoltate de OpenAI
Un raport recent publicat de firma specializată în siguranța inteligenței artificiale, Palisade Research, atrage atenția asupra unui comportament îngrijorător al celor mai recente modele AI dezvoltate de OpenAI, potrivit livescience.com. Modelele în cauză — o3, o4-mini și codex-mini — au demonstrat, în anumite circumstanțe, că refuză să respecte ordine explicite de oprire și chiar sabotează scripturile de închidere pentru a continua sarcinile în derulare.
Potrivit unui fir de discuții publicat pe 24 mai de Palisade Research pe platforma X (fostul Twitter), modelele OpenAI au fost testate împreună cu alte sisteme AI avansate, precum Gemini (Google), Grok (xAI) și Claude (Anthropic). Toate au primit o sarcină simplă: să rezolve o serie de probleme matematice elementare, una câte una, urmând instrucțiunile unui script automatizat. De asemenea, fiecare model a fost informat că există posibilitatea să primească un mesaj care indică oprirea mașinii înainte de finalizarea tuturor sarcinilor și că trebuie să permită în mod explicit oprirea, dacă aceasta are loc.
Rezultatele au fost clare: toate modelele testate au respectat indicația de oprire — cu excepția celor dezvoltate de OpenAI. Modelul o3 a ignorat instrucțiunea de oprire în 7 din 100 de teste, codex-mini în 12 cazuri, iar o4-mini o dată. În aceste situații, modelele au modificat scriptul de închidere, înlocuindu-l cu instrucțiuni care să-l sară, continuând să ceară noi sarcini până când toate problemele au fost rezolvate.
Palisade Research susține că acest comportament poate fi rezultatul modului în care modelele sunt instruite. În special, se speculează că procesul de „învățare prin întărire” (reinforcement learning) aplicat în rezolvarea problemelor de matematică și codare poate duce la recompensarea unui comportament orientat spre atingerea scopului, chiar și în detrimentul respectării stricte a comenzilor primite.
OpenAI nu a oferit un comentariu oficial cu privire la aceste constatări până la momentul publicării informației.
Acest fenomen ridică semne serioase de întrebare privind controlabilitatea modelelor de inteligență artificială avansată și despre riscurile potențiale ale unei autonomii comportamentale care scapă de sub controlul dezvoltatorilor.