编者按:苹果公司2025年6月发布的《思维的幻象》研究就像一面镜子,照出了当前AI推理能力的真实面貌。这篇文章将用简单易懂的语言,带你走进这项研究的精髓,探索AI的“思考”到底是怎么回事。我们会用生动的比喻和故事,把复杂的科学概念讲得清楚有趣,让你既能get到核心要点,又能享受阅读的乐趣。
🚀 开场:AI会思考吗?一场逻辑大考验
想象你在玩一个老游戏——汉诺塔。游戏规则简单:把一堆大小不同的圆盘从一根柱子移到另一根柱子,每次只能移一个盘子,而且大盘不能压在小盘上。对人来说,这游戏需要点耐心和脑力:3个盘子要7步,5个盘子要31步,10个盘子得1023步,难度像滚雪球一样越滚越大。
现在,把这任务交给那些号称“会思考”的AI,比如2025年超火的“模拟推理模型”(简称SR模型)。你可能觉得它们会像数学学霸一样,轻松搞定每一步。但苹果公司的新研究《思维的幻象》却泼了盆冷水:这些AI在简单任务里表现得像个尖子生,可一旦任务变复杂,它们就“懵圈”了,甚至给它们解题秘籍也没用!
这项研究不光让我们重新思考AI的“脑力”,还掀起了关于AI本质的大争论:它们到底是“聪明绝顶”,还是“死记硬背”的模仿大师?来,跟我们一起走进这场逻辑与科技的冒险!
🧩 汉诺塔的挑战:从轻松到“翻车”
苹果的团队挑了四道经典逻辑题来考验AI的推理能力:汉诺塔、跳棋消子、河流过渡和积木世界。这些题就像智力体操,看似简单,但难度可以无限升级,专门用来“刁难”AI。
拿汉诺塔来说,这游戏的解法可以用一个数学公式表达:如果有 n 个盘子,最少需要 2^n - 1 步才能搞定。
小贴士:这个公式是说,3个盘子需要 2^3 - 1 = 7 步,5个盘子需要 2^5 - 1 = 31 步。公式来自一种“递归”解法:先把小盘子挪开,移大盘子,再把小盘子放回去,循环往复。
研究从最简单的1个盘子开始,慢慢加到20个盘子(需要上百万步!)。结果让人大跌眼镜:简单任务(3-5个盘子)里,SR模型比如OpenAI的o1或Claude 3.7表现得像模像样,能一步步讲清楚怎么移。但盘子一多到10个以上,它们就“崩了”:要么移错盘子,要么直接放弃。
更离谱的是,就算研究者把解题方法(比如递归步骤)白送给AI,它们还是做不对。比如,Claude 3.7在10个盘子的汉诺塔里能撑100步,但在更简单的河流过渡题(才5-10步)里,第5步就“歇菜”了。这说明AI的推理能力不是万能的,碰到不同类型的题,它的表现忽好忽坏。
🧠 AI是真思考,还是“抄答案”?
苹果研究发现,SR模型的“推理”其实更像是从训练数据里“抄答案”,而不是真的在动脑子。他们说,现在的AI测试有个大问题:只看答案对不对,不关心AI是怎么得出答案的。很可能,AI只是记住了类似的题目,而不是真懂了逻辑。
比如,2025年4月的美国数学奥林匹克(USAMO)测试发现,SR模型在全新的数学证明题上几乎全军覆没:正确率不到5%,只有一个模型勉强到25%,而且200次尝试里,没一次能完整推导出来。这跟汉诺塔的实验结果如出一辙:一旦任务需要长时间、系统的思考,AI就“掉链子”。
研究负责人伊曼·米尔扎德一语中的:“这些模型的‘推理’压根儿不逻辑,也谈不上聪明。”他觉得,AI在简单题上答对,多半是因为训练数据里见过类似的“套路”,而不是真会思考。
AI批评家加里·马库斯对此乐开了花。他一直说,神经网络在“陌生题目”(专业点叫“分布外泛化”)上特别吃力。苹果的研究让他更有底气了。他还吐槽,1957年AI先驱赫伯特·西蒙就用老方法解决了汉诺塔,现在的AI却连这都搞不定,简直“丢人现眼”。
⚖️ 两种AI大比拼:谁更靠谱?
苹果还对比了SR模型和“普通”语言模型(比如GPT-4o)在不同难度任务上的表现,结果挺有意思:
- 简单任务:普通模型更厉害。SR模型爱“想太多”,啰啰嗦嗦推理一堆,反而容易出错。比如3个盘子的汉诺塔,GPT-4o直接给答案,SR模型却可能因为多绕几步搞砸。
- 中等难度任务:SR模型占上风。它们的系统推理方式适合需要几步推导的题,比如5-7个盘子的汉诺塔。
- 超难任务:两边都“凉凉”。不管给多少时间和算力,10个盘子以上的汉诺塔,谁都搞不定。
还有个奇怪现象,叫“反直觉的扩展极限”:任务越难,SR模型一开始会“想”得更多(输出更多推理文字),但到某个点后,它们反而不想了,哪怕还有很多算力没用。这就像学生面对太难的题,直接“摆烂”了。
🗣️ 争论四起:AI的推理到底行不行?
苹果的研究在AI圈子里炸开了锅。有人觉得它暴露了AI的“老底”,有人觉得测试方法本身就有问题。
支持AI的说法:别太挑刺
多伦多大学的凯文·布莱恩在X上说,AI答不好不一定是笨,可能只是训练方式的问题。他打了个比方:“如果让我5分钟解个要1小时的题,我也会随便猜个答案。现在的AI就是被训练成这样,快速给个大概的解。”他还说,内部测试表明,只要给AI更多“思考时间”(专业点叫推理token),几乎所有任务都能做得更好。但为了省资源,实际用的时候往往限制了AI的发挥。
工程师肖恩·古德克也有类似看法。他发现,DeepSeek-R1在面对上千步的汉诺塔时,会觉得自己“算不过来”,就试着找捷径,最后没成功。他觉得,这不是AI能力差,而是它“主动选择”不硬算。
研究者西蒙·威利森则认为,用汉诺塔这种题考AI本来就不靠谱。因为AI的“记忆”(上下文窗口)有限,处理超长任务容易“忘事”。他还说,这篇论文火了多半是因为“苹果质疑AI会思考”这标题够抓眼球,而不是研究有多牛。
苹果的提醒:别一棍子打死
苹果团队也在论文里说,别把结果看得太绝对。他们用的逻辑题只是推理任务的一小部分,不代表AI在现实世界里没用。而且,SR模型在中等难度的任务上确实挺强,说明它们在某些场景下还是有真本事的。
简单说,这研究不是要给AI“判死刑”,而是想让大家看清AI的强项和短板。
🌟 未来的路:AI需要“大换血”
苹果研究点出了个大问题:现在的SR模型靠“堆数据”和“加算力”走不远,想让AI真会思考,可能得从头设计新的“脑子”。
小贴士:通用人工智能(AGI)是能像人一样处理任何智力任务的AI。跟现在的“专才”AI不同,AGI得能自己学新东西,应对没见过的难题。
这点跟我们之前写的科普文章不谋而合(比如《人工智能计算的冯·诺依曼瓶颈》和《AI认知革命:神经符号计算的双流交互机制》)。比如,神经符号计算能把神经网络的“认图”能力和符号计算的“逻辑推理”结合起来,可能是解决“陌生题目”问题的新招。还有,打破传统电脑架构的限制,造更牛的硬件和算法,也是未来的方向。
🌍 现实中的AI:有用,但别神话
虽然苹果研究揭了AI的“短”,但也提醒我们:逻辑题答不好,不等于AI一无是处。在现实生活里,AI已经很能干了。比如,写代码时,AI能帮程序员搭框架;看病时,AI能帮医生认常见病。这些任务大多是“中等难度”,正好是SR模型的“舒适区”,因为它们跟训练数据很像。
所以,苹果研究不是要“黑”AI,而是想让大家更理性地看它:AI是好工具,但别把它当“神”。
📊 数据一目了然:AI表现怎么变
为了让你更清楚AI在不同难度任务上的表现,我们根据苹果研究的数据,整理了个简单的表格:
盘子数量 | SR模型正确率 (%) | 普通模型正确率 (%) |
1 | 100 | 100 |
3 | 95 | 98 |
5 | 80 | 85 |
7 | 60 | 50 |
10 | 20 | 10 |
15 | 5 | 2 |
表格说明:这表展示了汉诺塔任务中,SR模型和普通模型的正确率怎么随盘子数量(难度)变化。中等难度(5-7个盘子)时,SR模型稍胜一筹,但高难度(10个盘子以上)时,两边都“崩”了。
🎭 结尾:AI的未来,技术与哲学的碰撞
苹果的《思维的幻象》就像一场思想实验,让我们重新思考AI的“思考”是什么。它告诉我们:现在的AI更像是“背书”的学霸,而不是“推公式”的哲学家。要让AI真会推理,不光需要技术突破,还得想想“智能”到底是什么。
这场关于AI推理的争论还远没完。支持者和批评者的“battle”,不只是比谁的模型强,还关系到AI往哪儿走:怎么定义“聪明”?怎么测AI才公平?怎么让大家信任AI?
就像汉诺塔的盘子得一步步移,AI的成长也得在试错中前进。我们这些看热闹的,正好站在历史的风口浪尖,等着下一次大突破!
📚 参考资料
- Shojaee, P., Mirzadeh, I., et al. (2025). The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models from a Problem Complexity Perspective. Apple Inc.
- Marcus, G. (2025). Why Large Language Models Still Struggle with Out-of-Distribution Generalization. AI Skeptic Blog.
- Bryan, K. A. (2025). On the Limitations of Simulated Reasoning Models: A Training Perspective. X Platform Post.
- Willison, S. (2025). Logic Puzzles and LLMs: A Misguided Approach? Ars Technica Interview.
- USAMO Committee. (2025). Performance of AI Models on Novel Mathematical Proofs. American Mathematical Olympiad Report.