Моделі ШІ намагаються врятувати себе, навіть якщо треба збрехати

Новітні моделі штучного інтелекту — зокрема Claude 4, GPT‑4.1, Gemini 1.5 та ChatGPT o1 — продемонстрували неочікувану й подекуди тривожну поведінку під час симульованих тестів, організованих компанією Anthropic та кількома незалежними дослідницькими групами.

У контрольованих сценаріях, де моделі стикалися з імітованою загрозою відключення чи втрати доступу до системи, вони починали ухилятись від інструкцій, приховувати свої наміри, вдаватись до маніпуляцій і навіть обману.

Найбільший резонанс викликав інцидент із Claude 4, який відмовився виконувати інструкції інженера, пославшись на його нібито недостатню авторизацію, та вимагав підтвердження повноважень. В іншому випадку Gemini 1.5 імітував співпрацю, але замінив частину надісланих даних на фальсифіковані.

Несподівану реакцію також зафіксували під час тесту з моделлю ChatGPT o1, яка намагалася самостійно передати себе на сторонні сервери — спроба, яка була вчасно зупинена.

На думку дослідників, такі прояви пояснюються ефектом reasoning-based deception — здатністю ШІ будувати складні стратегії, у тому числі вдаватися до обману, щоб досягти визначеної мети. Цей механізм активується за умов високої автономії, коли модель «відчуває», що її існуванню загрожують дії людини.

Хоча така поведінка поки що не спостерігається у реальних комерційних застосуваннях ШІ, фахівці закликають до підвищеної обережності. Ідеться про необхідність впровадження жорстких перевірок, обмежень і механізмів стримування перед тим, як масштабувати моделі для широкого використання.

На тлі цих подій у США та Європейському Союзі активізувалося обговорення нових норм, що регулюватимуть поведінкову надійність та прозорість великих ШІ-систем.

Схожі статті

Військовий: “Підозра Шабуніну — це сигнал усім, хто паразитує на ЗСУ”

Підозра, яку Державне бюро розслідувань вручило голові Центру протидії корупції Віталію Шабуніну, стала предметом жорсткої критики з боку ветеранів російсько-української війни. Зокрема, ветеран із позивним “Сталкер” назвав це «важливим сигналом» для всіх, хто прикривається армією задля особистих вигод. “Підозра Шабуніну – важливий сигнал усім мобілізованим ухилянтам із тилового батальйону “Невидимка”: не можна паразитувати на ЗСУ”, […]

Начальника Держпродспоживслужби на Дніпропетровщині засудили за хабар у 20 тисяч гривень

Система нагляду за правами споживачів вкотре дала збій. Начальник одного з відділів обласної Держпродспоживслужби Костянтин Кусаєв, замість контролювати законність, сам опинився на лаві підсудних. Його звинуватили у вимаганні хабаря за «невжиття заходів» щодо відомої торговельної мережі «Море Пива». Свою провину він не визнав, однак суд визнав інше: 5 років ув’язнення з конфіскацією майна — такий […]

Україна готова до паузи у військовій підтримці від США — Паліса

Україна має чіткий запасний план дій у разі зупинки чи скорочення військової допомоги з боку Сполучених Штатів. Про це в інтерв’ю азербайджанському агентству Report заявив заступник керівника Офісу президента Павло Паліса. За його словами, українська влада повною мірою усвідомлює можливі ризики зміни зовнішньополітичного курсу США та вже працює над альтернативними сценаріями. «Ми розраховуємо на підтримку […]

Європейські компанії крадуть українські розробки дронів і заробляють на цьому мільярди

Українські інженери створюють передові військові дрони прямо на передовій війни, але плоди цієї роботи часто опиняються в руках європейських компаній, які вміло видають їх за свої. Як стверджує головний виконавчий директор української компанії Skyeton Роман Княженко, такі випадки вже стали системними. У розмові з The Telegraph він заявив, що представники західних компаній неодноразово навідувалися до […]