Новости Железо и технологии Google измерил достоверность ИИ: лидер рейтинга ошибается в 31% случаев

Google измерил достоверность ИИ: лидер рейтинга ошибается в 31% случаев

Сегодня, 12:50

Согласно данным внутреннего исследования Google, современные чат-боты на основе искусственного интеллекта демонстрируют относительно низкую точность при работе с фактами. Специально разработанный набор тестов FACTS Benchmark Suite показал, что даже наиболее продвинутые модели не преодолевают порог в 70% достоверности информации.

В ходе оценки, проведённой командой Google FACTS совместно с платформой Kaggle, проверялась способность моделей корректно работать с фактами в четырёх практических сценариях. Тестирование включало проверку внутренних знаний системы, умение искать информацию в сети, следование предоставленному документу без добавления вымысла, а также корректное понимание графиков, диаграмм и изображений.

Наивысший результат в 69% общей точности показала модель Gemini 3 Pro, а другие распространённые системы, такие как ChatGPT-5, Claude 4.5 Opus и Grok 4, продемонстрировали результаты в диапазоне от 51% до 62%. Особенно низкие показатели были зафиксированы в заданиях, требующих анализа визуальных данных, где точность часто опускалась ниже 50%.

Результаты указывают на то, что в среднем каждый третий ответ, сгенерированный чат-ботом, может содержать фактические ошибки, при этом системы часто выдают информацию с высокой степенью «уверенности», что может вводить пользователей в заблуждение.

Многие существующие методы оценки ИИ сосредоточены на способности модели выполнить задачу, а не на фактической достоверности её ответов. Новое исследование подчёркивает необходимость дополнительной проверки информации, полученной от ИИ-ассистентов, особенно в профессиональных контекстах. Вопрос эффективности такой работы остаётся открытым. ведь в некоторых случаях ручная проверка ответов может занять больше времени, чем самостоятельное решение задачи.

👀 Control Resonant — Remedy рассказала море подробностей о своей новой игре

Новости Железо и технологии Аналитика и статистика Google нейросети

Об авторе

Arkadiy Andrienko

Автор статей и новостей

Как технический журналист VGTimes, я с одинаковым удовольствием обсуждаю новейшие графические процессоры и углубляюсь в тонкости классических RPG. Начиная с 2018 года пишу об играх и оборудовании, мой опыт работы в области звукорежиссуры позволил мне хорошо разбираться в нюансах аудиотехнологий, и я всегда нахожусь в поиске чего-то нового в области игрового оборудования. Когда я не пишу о технологиях, то, скорее всего, я исследую постапокалиптические пустоши в Fallout, управляю колонией в RimWorld или командую армиями в Hearts of Iron IV. Для меня игры — это больше, чем просто хобби — это страсть, которая подпитывает мой творческий потенциал и поддерживает связь с постоянно развивающимся миром технологий.

...Развернуть

Комментарии1