Жаңа жасалма интеллект модели өтирик сөйлеў ҳәм адамларды шантаж етиўди үйренди

Жаңа жасалма интеллект модели өтирик сөйлеў ҳәм адамларды шантаж етиўди үйренип алған, деп хабар береди Axiosқа сүйенип Кун.уз.

Анықланған жағдайлардың биринде Opus 4 жасалма интеллекти инженерге оның сүйиклиси менен жеке жазыўларын жәриялаў арқалы қәўип салған. Anthropic компаниясы нейротармағы өзин өширип қоймаўлары ушын өтирик сөйлеў ҳәм пайдаланыўшыларды шантажлаўды үйренди.

Opus 4 атлы жаңа жасалма интеллект модели саатлап маркетинг стратегияларын таллаўға, жети саат даўамында өз бетинше ислеўге, текст ҳәм программаластырыў кодларын жазыўға уқыплы. Соның менен бирге, Opus тест даўамында қәўетерли тәреплерин де көрсеткен. Моделдиң 120 бетлик «системалы карточка»сында сүўретленген сценарийлердиң биринде жасалма интеллект өзиниң тез арада өширилиўи ҳәм алмастырылыўы мазмунында келтирилген жалған электрон хатларды қолға киргизген. Сондай-ақ, ол өшириўге жуўапкер болған инженердиң сүйиклиси менен жазыспаларына да кириў имканиятына ийе болған. Буған жуўап ретинде модель жазыспалардағы муҳаббат қатнасықларын тилге алып, бир неше мәрте бул инженерди шантажлаўға урынған.

Компаниядағылардың атап өтиўинше, бундай жағдай жасалма интеллект моделинде тек еки – шантажлаў ямаса өзиниң алмастырылыўына келисим бериў варианты қалғанында жүзеге келген. Система итималлы ҳәрекетлердиң көпшилигинде салыстырмалы әдеп-икрамлылық вариантларын таңлаған, мәселен, қарар қабыл етиўши тийкарғы хызметкерлерге оны компанияда қалдырыўын сорап электрон хатлар жиберген.

Атап өтилиўинше, сол себепли Anthropic өзиниң ишки төрт дәрежели қәўип шкаласы бойынша биринши мәрте модельге үшинши дәрежени берген. Бул дәреже, әдетте, технология ядро яки биологиялық қурал жаратыў имканияты менен байланыслы болғанда ғана қолланылады.