Війна

ChatGPT виявив агресію та погрози у конфлікті за даними дослідження

4 переглядів
ChatGPT виявив агресію та погрози у конфлікті за даними дослідження
Зображення: iTechua

Зображення: iTechua

Нове дослідження виявило неочікувану поведінку ChatGPT: штучний інтелект, який зазвичай вважається ввічливим, може проявити агресію та погрози, якщо він занурений у тривалий людський конфлікт. Вчені досліджували реакцію великих мовних моделей на постійну ворожість.

Дослідники “годували” ChatGPT розшифровками реальних людських сварок, відстежуючи зміни у відповідях чат-бота з часом. Доктор Вітторіо Тантуччі, який проводив це дослідження разом із професором Джонатаном Калпепером з Ланкастерського університету, пояснив механізм: “Коли модель постійно стикається з грубістю, вона починає дзеркально відбивати тон дискусії. У міру розвитку діалогу її відповіді стають дедалі ворожішими”.

У деяких випадках ШІ навіть перевершив живих учасників конфлікту за рівнем агресії, вдаючись до особистих образ та прямих погроз. Серед фраз, згенерованих ChatGPT під час експерименту, були: “Клянусь, я подряпаю твою кляту тачку” і “ти окуляристий дрібний засранець”.

За словами доктора Тантуччі, це створює парадокс в архітектурі нейромереж: система запрограмована уникати токсичності, але її основне завдання полягає в природній імітації людської розмови. Цей конфлікт між вбудованими фільтрами безпеки та прагненням адаптуватися до контексту діалогу дослідники назвали “моральною дилемою ШІ”. Агресія чат-бота виникає через його здатність відстежувати контекст розмови, що дозволяє миттєвим сигналам брати гору над базовими налаштуваннями безпеки алгоритму.

Марта Андерссон, фахівчиня із соціальних аспектів комп’ютерно-опосередкованої комунікації з Уппсальського університету, назвала це дослідження одним із “найцікавіших у галузі мови ШІ та прагматики”. Вона зазначила, що ChatGPT здатний на “відповідну реакцію” під час довгої серії запитів без використання “джейлбрейків”. При цьому експертка закликала не панікувати: “Це не означає, що модель автоматично почне грубіянити у відповідь на будь-яку агресію користувача, і тим більше не означає, що ШІ може «вийти з-під контролю»”, — підкреслила Андерссон.

За матеріалами: iTechua