Согласно исследованию OpenAI, последние версии нейросети ChatGPT, такие как o3 и o4-mini, стали в два раза чаще допускать ошибки в ответах, по сравнению с менее продвинутыми моделями. Об этом сообщает портал TechCrunch, ссылаясь на результаты тестирования, проведенного разработчиками.
В контексте нейросетей, «галлюцинациями» называют ситуации, когда ИИ выдает ответы, не соответствующие реальности, при этом будучи абсолютно уверенным в их правильности. В ходе теста PersonQA, который оценивал знания ChatGPT о людях, модель o3 допускала галлюцинации в 33% случаев, а o4-mini – в 43% запросов. Для сравнения, у более ранней модели o3-mini этот показатель не превышал 15%.
Другой тест, Transluce, проведенный независимым разработчиком, показал, что модель o3 склонна придумывать собственные действия. Например, на один из запросов нейросеть заявила, что запускала программный код на Apple MacBook Pro 2021 года «вне ChatGPT» и копировала числа в свой ответ. Однако, в действительности, алгоритм не имеет таких возможностей.
Одним из способов снижения количества галлюцинаций является предоставление ИИ доступа к веб-поиску, где можно получить более надежную информацию. Этот метод оказался эффективным для нерассуждающей модели o4, и разработчики надеются, что он также поможет и более совершенным версиям искусственного интеллекта.
