Сотрудники OpenAI публично обвинили XAI в том, что результаты тестирования модели искусственного интеллекта Grok3 имеют вводящие в заблуждение Бенчмарк

robot
Генерация тезисов в процессе

ChainCatcher сообщает, согласно отчету Jinse, сотрудник OpenAI публично обвинил компанию XAI, принадлежащую Маску, в том, что результаты тестирования модели искусственного интеллекта Grok3, выпущенной компанией, имеют вводящий в заблуждение Бенчмарк. В то же время сооснователь XAI Игорь Бабушкин настаивает на том, что компания не совершала ничего нечестного. Графики XAI показывают, что две версии Grok3 - Grok3 Reasoning Beta и Grok3 mini Reasoning - превзошли текущую самую мощную модель o3-mini-high от OpenAI на AIME 2025. Однако сотрудники OpenAI быстро указали на платформе X, что графики XAI не включают оценку o3-mini-high в условиях "cons@64" для AIME 2025. Бабушкин на платформе X заявил, что OpenAI ранее также публиковало вводящие в заблуждение графики тестирования, аналогичные Бенчмарк. Несмотря на то, что эти графики были использованы для сравнения производительности их собственных моделей.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить