近日,人工智能领域迎来重要进展,OpenAI推出了备受瞩目的多模态推理大模型o3与o4-mini。据官方介绍,这两款模型号称是目前最强、最智能的AI产品。
然而,这一声称引发了外界的广泛质疑。专业研究机构在独立测试后发现,o3的实际表现与其宣称的能力存在显著差距。这种差异不仅让人对OpenAI的技术真实性产生怀疑,也让整个行业开始关注AI模型评测标准的客观性问题。
去年12月,在预发布阶段,OpenAI曾宣称其模型能够准确解答超过25%的FrontierMath难题,这一成绩远超同行水平。当时,研究主管马克·陈还在直播中表示,内部测试结果显示模型性能优于行业平均水平。
然而,第三方测试结果却显示,o3的实际得分仅约为10%,与官方宣传存在明显差距。虽然OpenAI强调其测试环境可能与第三方有所不同,但这种解释仍难以完全说服外界。
值得注意的是,这种情况并非个例。随着人工智能领域的竞争日益激烈,模型评测中的"争议"现象已经成为行业普遍问题。例如,近期埃隆·马斯克创立的xAI公司也因被指在基准测试中存在误导性数据而备受关注;同样,Meta在其最新开源模型Llama 4的性能宣传上也被质疑存在不一致的问题。
这些事件共同表明,在AI技术快速发展的今天,如何确保评测结果的真实性和客观性,已经成为整个行业需要认真面对的重要课题。
责编:戴露露