OpenAI o3 模型性能遭遇质疑：第三方测试结果显示表现远不及官方声称

大众生活网/ 发布时间：2025-04-21/ 浏览次数：

近日，人工智能领域迎来重要进展，OpenAI推出了备受瞩目的多模态推理大模型o3与o4-mini。据官方介绍，这两款模型号称是目前最强、最智能的AI产品。

然而，这一声称引发了外界的广泛质疑。专业研究机构在独立测试后发现，o3的实际表现与其宣称的能力存在显著差距。这种差异不仅让人对OpenAI的技术真实性产生怀疑，也让整个行业开始关注AI模型评测标准的客观性问题。

去年12月，在预发布阶段，OpenAI曾宣称其模型能够准确解答超过25%的FrontierMath难题，这一成绩远超同行水平。当时，研究主管马克·陈还在直播中表示，内部测试结果显示模型性能优于行业平均水平。

然而，第三方测试结果却显示，o3的实际得分仅约为10%，与官方宣传存在明显差距。虽然OpenAI强调其测试环境可能与第三方有所不同，但这种解释仍难以完全说服外界。

值得注意的是，这种情况并非个例。随着人工智能领域的竞争日益激烈，模型评测中的"争议"现象已经成为行业普遍问题。例如，近期埃隆·马斯克创立的xAI公司也因被指在基准测试中存在误导性数据而备受关注；同样，Meta在其最新开源模型Llama 4的性能宣传上也被质疑存在不一致的问题。

这些事件共同表明，在AI技术快速发展的今天，如何确保评测结果的真实性和客观性，已经成为整个行业需要认真面对的重要课题。

责编：戴露露

此文转载于网络，转载目的在于传递更多信息，并不代表大众生活网赞同其观点和对其真实性负责。若有来源错误或者侵犯您的合法权益，您可通过邮箱与我们取得联系，我们将及时进行处理。邮箱地址：nfrbw_tousu@sina.com

本文地址：http://www.nfrbw.com/Insight/shishang/5606.shtml