苹果炮轰AI推理模型:全是假思考!所谓思考只是一种假象

内容摘要快科技6月8日消息,苹果近日发表了一篇研究论文,称推理模型全都没真正思考,无论DeepSeek、o3-mini还是Claude 3.7都只是另一种形式的 模式匹配 ,所谓思考只是一种假象。有人总结到:苹果刚刚当了一回马库斯,否定了所有大模型

快科技6月8日消息,苹果近日发表了一篇研究论文,称推理模型全都没真正思考,无论DeepSeek、o3-mini还是Claude 3.7都只是另一种形式的 模式匹配 ,所谓思考只是一种假象。

苹果炮轰AI推理模型:全是假思考!所谓思考只是一种假象

有人总结到:苹果刚刚当了一回马库斯,否定了所有大模型的推理能力。

苹果团队认为,现有评估主要集中在既定的数学和编码基准上,看模型最终答案是否正确,但可能存在模型训练时见过类似题目。

并且,这些评估大都缺乏对 思考过程质量 的分析,比如中间步骤是否逻辑一致、是否绕弯路等。

为了更客观测试推理模型的推理能力,他们设计了4类谜题环境:汉诺塔、跳棋交换、过河问题、积木世界,并且这4类谜题的难度可以精确控制.

随着问题变难,推理模型初始会延长思考,但随后思考深度反而下降,尽管仍有充足token预算,它们却在最需要深入思考时选择了放弃!

并且,当问题复杂度继续增加并超过某个临界点时,无论是推理模型还是标准模型都会经历完全的性能崩溃,准确率直线下降至零。

对此,有网友讽刺到: 苹果拥有最多的资金,2年了也没有拿出像样的成果,现在自己落后了,却来否定别人的成果。

据悉,Apple Intelligence在2024年WWDC正式亮相,在这一年里,苹果宣传中的许多功能都经历延期、不够完善甚至被下架。

不过也有人指出,这篇论文没有看上去那么消极,而是呼吁设立更好的推理机制和评估办法。

 
举报 收藏 打赏
今日推荐
浙ICP备19001410号-1

免责声明

本网站(以下简称“本站”)提供的内容来源于互联网收集或转载,仅供用户参考,不代表本站立场。本站不对内容的准确性、真实性或合法性承担责任。我们致力于保护知识产权,尊重所有合法权益,但由于互联网内容的开放性,本站无法核实所有资料,请用户自行判断其可靠性。

如您认为本站内容侵犯您的合法权益,请通过电子邮件与我们联系:675867094@qq.com。请提供相关证明材料,以便核实处理。收到投诉后,我们将尽快审查并在必要时采取适当措施(包括但不限于删除侵权内容)。本站内容均为互联网整理汇编,观点仅供参考,本站不承担任何责任。请谨慎决策,如发现涉嫌侵权或违法内容,请及时联系我们,核实后本站将立即处理。感谢您的理解与配合。

合作联系方式

如有合作或其他相关事宜,欢迎通过以下方式与我们联系: