Новые ChatGPT стали чаще выдавать неверные ответы, чем старые версии

Все новости

Согласно исследованию OpenAI, последние версии нейросети ChatGPT, такие как o3 и o4-mini, стали в два раза чаще допускать ошибки в ответах, по сравнению с менее продвинутыми моделями. Об этом сообщает портал TechCrunch, ссылаясь на результаты тестирования, проведенного разработчиками.

В контексте нейросетей, «галлюцинациями» называют ситуации, когда ИИ выдает ответы, не соответствующие реальности, при этом будучи абсолютно уверенным в их правильности. В ходе теста PersonQA, который оценивал знания ChatGPT о людях, модель o3 допускала галлюцинации в 33% случаев, а o4-mini – в 43% запросов. Для сравнения, у более ранней модели o3-mini этот показатель не превышал 15%.

Другой тест, Transluce, проведенный независимым разработчиком, показал, что модель o3 склонна придумывать собственные действия. Например, на один из запросов нейросеть заявила, что запускала программный код на Apple MacBook Pro 2021 года «вне ChatGPT» и копировала числа в свой ответ. Однако, в действительности, алгоритм не имеет таких возможностей.

Одним из способов снижения количества галлюцинаций является предоставление ИИ доступа к веб-поиску, где можно получить более надежную информацию. Этот метод оказался эффективным для нерассуждающей модели o4, и разработчики надеются, что он также поможет и более совершенным версиям искусственного интеллекта.

Григорий Мальцев
Григорий Мальцев

Григорий Мальцев - спортивный обозреватель из Новосибирска с фокусом на NBA. За плечами 8 лет работы в медиа, где он развивает авторский подход к анализу баскетбольных матчей. Славится подробными разборами игровых комбинаций и статистических показателей команд НБА. Ведёт популярный подкаст о заокеанском баскетболе.

Обзор актуальных спортивных новостей