Le 23 février, les données de Jinshi ont récemment révélé qu'un employé d'OpenAI a publiquement accusé la société xAI d'Elon Musk de publier des résultats de tests de Benchmark trompeurs pour son dernier modèle d'IA, Grok3. En réponse, le cofondateur d'xAI, Igor Babushkin, a affirmé que la société n'avait rien fait de mal. Les graphiques d'xAI montrent que les deux versions de Grok3 - Grok3 Reasoning Beta et Grok3 mini Reasoning - ont surpassé le modèle disponible le plus puissant d'OpenAI, o3-mini-high, lors du test AIME 2025. Cependant, les employés d'OpenAI ont rapidement souligné sur la plateforme X que les graphiques d'xAI n'incluaient pas le score d'AIME 2025 d'o3-mini-high dans la condition "cons@64". Babushkin a argumenté sur la plateforme X en disant qu'OpenAI avait également publié dans le passé des graphiques de tests de Benchmark similaires trompeurs, bien que ces graphiques soient destinés à comparer les performances de ses propres modèles.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Un employé d'OpenAI a publiquement accusé les résultats des tests de Benchmark de Grok3 d'être trompeurs
Le 23 février, les données de Jinshi ont récemment révélé qu'un employé d'OpenAI a publiquement accusé la société xAI d'Elon Musk de publier des résultats de tests de Benchmark trompeurs pour son dernier modèle d'IA, Grok3. En réponse, le cofondateur d'xAI, Igor Babushkin, a affirmé que la société n'avait rien fait de mal. Les graphiques d'xAI montrent que les deux versions de Grok3 - Grok3 Reasoning Beta et Grok3 mini Reasoning - ont surpassé le modèle disponible le plus puissant d'OpenAI, o3-mini-high, lors du test AIME 2025. Cependant, les employés d'OpenAI ont rapidement souligné sur la plateforme X que les graphiques d'xAI n'incluaient pas le score d'AIME 2025 d'o3-mini-high dans la condition "cons@64". Babushkin a argumenté sur la plateforme X en disant qu'OpenAI avait également publié dans le passé des graphiques de tests de Benchmark similaires trompeurs, bien que ces graphiques soient destinés à comparer les performances de ses propres modèles.