Theo tin từ ChainCatcher, theo báo cáo của Jinshi, một nhân viên của OpenAI đã công khai chỉ trích công ty XAI của Elon Musk, cho rằng kết quả kiểm tra Điểm chuẩn của mô hình AI mới nhất của công ty Grok3 là mơ hồ. Trong khi đó, Igor Babushkin, người sáng lập kiêm đồng sáng lập của XAI, đã khẳng định rằng công ty không có hành vi không đúng.
Biểu đồ của xAI cho thấy hai phiên bản của Grok3 - Grok3 Reasoning Beta và Grok3 mini Reasoning - vượt trội so với mô hình mạnh nhất hiện có của OpenAI, o3-mini-high, tại AIME 2025. Tuy nhiên, các nhân viên của OpenAI đã nhanh chóng chỉ ra trên nền tảng X rằng biểu đồ của xAI không bao gồm điểm AIME 2025 cho o3-mini-cao trong điều kiện "cons@64".
Babushkin argued on the X platform that OpenAI had also released similar misleading Điểm chuẩn test charts in the past. Although these charts were used to compare the performance of their own models.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Công ty OpenAI đã công khai chỉ trích kết quả kiểm tra Điểm chuẩn của mô hình trí tuệ nhân tạo mới nhất xAI Grok3 là có tính đa nghĩa
Theo tin từ ChainCatcher, theo báo cáo của Jinshi, một nhân viên của OpenAI đã công khai chỉ trích công ty XAI của Elon Musk, cho rằng kết quả kiểm tra Điểm chuẩn của mô hình AI mới nhất của công ty Grok3 là mơ hồ. Trong khi đó, Igor Babushkin, người sáng lập kiêm đồng sáng lập của XAI, đã khẳng định rằng công ty không có hành vi không đúng. Biểu đồ của xAI cho thấy hai phiên bản của Grok3 - Grok3 Reasoning Beta và Grok3 mini Reasoning - vượt trội so với mô hình mạnh nhất hiện có của OpenAI, o3-mini-high, tại AIME 2025. Tuy nhiên, các nhân viên của OpenAI đã nhanh chóng chỉ ra trên nền tảng X rằng biểu đồ của xAI không bao gồm điểm AIME 2025 cho o3-mini-cao trong điều kiện "cons@64". Babushkin argued on the X platform that OpenAI had also released similar misleading Điểm chuẩn test charts in the past. Although these charts were used to compare the performance of their own models.