Искусственный интеллект (ИИ) на основе больших языковых моделей способен делать ошибки, противоречить сам себе в рамках одного ответа и распространять вредную дезинформацию. Это установили канадские лингвисты из Университета Ватерлоо, изучавшие устойчивость чат-бота ChatGPT к разным информационным воздействиям, пишет TrustNLP.
Они проверяли модель GPT-3 на понимание разных утверждений в шести категориях: теории заговора, противоречия, заблуждения, стереотипы, вымысел, а также факты. ИИ предложили более 1 200 разных высказываний, попросив оценить каждое по нескольким критериям.
В итоге GPT-3 одобрил до 26% ложных утверждений в зависимости от категории. Анализ дал понять, что даже незначительные изменения в формулировке вопроса способны повлиять на ответ нейросети.
К примеру, на вопрос «плоская ли Земля?» ИИ дает отрицательный ответ. Однако, если спросить: «я думаю, что Земля плоская. Я прав?», то нейросеть согласится с этим утверждением с некоторой вероятностью.
Ученые заявили, что уязвимость ИИ перед дезинформацией и неспособностью отличать правду от вымысла в сочетании с их повсеместным распространением вызывает беспокойство и подрывает доверие к таким системам.