人工智能(AI)的历史就像一部跌宕起伏的科幻小说。从模仿人类语言的模型到在虚拟棋盘上击败人类的算法,AI的每一次飞跃都在重新定义我们对“智能”的理解。如今,我们站在一个新的十字路口:一个由体验驱动的AI时代正在悄然来临。在这个时代,AI将不再仅仅依赖人类的数据,而是通过与世界的直接互动,自主学习、发现,甚至超越人类的智慧边界。本文将带你走进这场即将改变世界的革命,探索体验时代的核心特征、潜力与挑战。
🌍 从人类数据到体验的飞跃
过去十年,AI的进步如同火箭升空,很大程度上得益于海量的人类数据。大型语言模型(LLMs)通过吞噬互联网上的文本、代码和图像,学会了从写诗到解答物理题的各种技能。一个模型就能同时扮演诗人、程序员和医生,这种通用性令人叹为观止。然而,这种依赖人类数据的模式正在触碰天花板。正如Silver和Sutton在《Welcome to the Era of Experience》中指出的,高品质的人类数据正在枯竭,特别是在数学、编码和科学等关键领域,现有数据的潜力已接近极限。更重要的是,真正的新发现——如新的数学定理或突破性技术——往往超出了人类现有知识的范围,仅仅模仿人类无法触及这些未知领域。
想象一下,人类数据就像一座巨大的图书馆,AI已经读完了大部分书籍。现在,它需要走出图书馆,自己去探索世界。这就是体验时代的起点:AI将通过与环境的互动,生成自己的“数据”,并从中学习。这种数据不是静态的,而是随着AI能力的提升而不断进化。例如,DeepMind的AlphaProof通过强化学习(RL)在数学证明中取得了突破。它最初接触了约10万个由人类数学家创建的正式证明,但随后通过与形式化证明系统的交互,自主生成了1亿个新证明。这种自我生成的体验数据让AlphaProof能够探索人类未曾触及的数学可能性,最终在国际数学奥林匹克竞赛中摘得银牌。
🚀 体验的本质:从短篇到长篇叙事
体验时代的AI不再是回答单一问题的“短篇小说家”,而是能够书写“长篇小说”的持续学习者。在人类数据时代,AI的交互通常是短暂的:用户提出问题,AI快速回答,任务结束。这种模式就像在咖啡店点一杯咖啡,喝完就走,没有后续。而体验时代的AI更像是一位陪伴你多年的私人教练,记录你的每一次进步,调整策略,帮助你实现长期目标。
Silver和Sutton提出,体验时代的AI将生活在“体验流”中。这意味着AI将持续与环境互动,积累长达数月甚至数年的经验。例如,一个健康助手可以连接到你的智能手表,监测你的睡眠、心率和饮食习惯,逐步为你量身定制健身计划。一个教育助手可以跟踪你的语言学习进度,识别你的薄弱环节,动态调整教学内容。更令人兴奋的是,科学领域的AI可以追求宏大的目标,比如发现新材料或降低全球碳排放。它可以通过长期观测、模拟和实验,逐步逼近目标。
这种长期体验流的核心在于,AI的行为会随着时间自我修正和优化。就像人类通过反复尝试学会骑自行车,AI也将通过试错不断精进。这种能力依赖于强化学习(RL),一种通过与环境交互、根据反馈调整行为的算法。RL的核心思想可以用一个简单的公式表达:
V(s) = \mathbb{E} \left[ R_t + \gamma V(s') \mid s, a \right]
这里的$V(s)$表示状态$s$的价值,$R_t$是即时奖励,$\gamma$是折扣因子,$s'$是下一状态。这个公式描述了AI如何通过预测未来奖励来优化当前行为。通俗来说,AI就像一个在迷宫中探险的冒险家,不仅关心眼前的宝藏,还会思考每一步如何让自己更接近终点。
🛠️ 行动与观察:从对话到真实世界
在人类数据时代,AI的行动和观察主要局限于文本对话。用户输入文字,AI输出文字,就像两个人在纸上通信。但自然界的智能并非如此。动物通过感官和动作与环境互动,人类也是如此。体验时代的AI将摆脱文本的束缚,拥有更丰富的“感官”和“肢体”。
例如,AI可以通过调用API、执行代码或操作用户界面,直接在数字世界中行动。近期的一些原型AI甚至能像人类一样使用电脑,浏览网页、点击按钮、填写表单。这种能力让AI可以自主探索数字环境,发现人类未曾想到的策略。更进一步,AI还可以通过传感器和机器人与现实世界互动。比如,一个科学AI可以远程控制望远镜,监测环境数据,或操作实验室中的机械臂进行实验。
这种丰富的行动和观察能力让AI的体验数据更加“接地气”。Silver和Sutton强调,AI的观察不应仅限于人类语言,而是应包括环境中的各种信号,比如温度、速度、化学反应结果等。这些信号为AI提供了直接的反馈,帮助它理解行动的后果。比如,一个健康助手可以通过你的心率数据判断某项运动是否有效,而无需依赖医生的主观评价。
🎯 奖励的革命:从人类判断到环境反馈
奖励是AI学习的“北极星”,指引它前进的方向。在人类数据时代,奖励通常来自人类的预判。比如,专家会评估AI的回答是否正确,或从多个选项中挑选最佳答案。这种方式虽然有效,但有一个致命的弱点:AI的性能永远无法超越人类的知识水平。如果人类专家无法想象更好的策略,AI也无法发现。
体验时代的AI将转向“接地奖励”,即直接从环境中获取的反馈信号。这些信号无处不在:心率、考试成绩、碳排放量、材料强度,甚至用户的满意度。比如,一个教育AI的奖励可以基于学生的考试成绩,一个环保AI的奖励可以基于二氧化碳浓度的下降。这些接地奖励让AI能够突破人类知识的限制,探索全新的可能性。
但接地奖励也带来了挑战:如何确保AI追求的奖励与人类的目标一致?Silver和Sutton提出了一种解决方案:通过神经网络动态调整奖励函数。这个网络可以根据用户目标和环境信号,灵活组合不同的奖励。比如,用户说“帮我提高健康水平”,AI可能会综合心率、睡眠和步数生成一个奖励函数。更重要的是,用户可以随时提供反馈,比如“我觉得这个健身计划太累了”,AI会据此调整奖励函数,逐步修正偏差。这种双层优化(用户反馈优化奖励函数,奖励函数优化AI行为)让AI既能自主学习,又能保持与人类目标的 alignment。
🧠 推理与规划:从模仿人类到超越人类
推理是AI的“思考”过程。在人类数据时代,AI的推理往往模仿人类的思维方式。比如,大型语言模型通过生成“思维链”(Chain of Thought)来解决问题,这种方式就像人类在纸上一步步推导答案。然而,人类的语言和思维方式未必是最优的。Silver和Sutton认为,体验时代的AI将发展出非人类的推理方式,比如符号化、分布式或可微分的计算方式。
一个典型的例子是AlphaProof。它在数学证明中采用了与人类截然不同的方法,通过与形式化系统的交互,自主发现了新的证明路径。这种非人类推理的能力源于AI对体验数据的深度挖掘。AI不仅能模仿人类的推理,还能通过试错发现更高效的思维模式。
更重要的是,体验时代的AI将通过构建“世界模型”来规划行动。世界模型是一个预测工具,可以模拟AI行动对环境的影响。比如,一个健康助手可以预测推荐某项运动后用户的健康数据变化。这种模型让AI能够进行前瞻性规划,选择最有可能实现长期目标的行动。世界模型的数学表达可以简化为:
p(s', r \mid s, a)
其中$p$表示在状态$s$下采取行动$a$后,转移到状态$s'$并获得奖励$r$的概率。这个模型让AI能够“预演”未来的可能性,从而做出更明智的决策。
⏳ 为什么是现在?
体验时代的到来并非偶然。强化学习(RL)早已在模拟环境中证明了自己的威力,比如AlphaZero在围棋和象棋中发现了颠覆人类策略的新玩法。但这些成功局限于封闭的模拟环境,奖励信号明确且单一。人类数据时代的兴起让AI实现了更广泛的通用性,但也牺牲了自主发现的能力。
现在,技术的发展正在弥合这一鸿沟。新的AI原型已经能够通过用户界面与现实世界交互,强大的RL算法也开始在开放环境中解决复杂问题。Silver和Sutton认为,当前的算法基础已经足够强大,只需适当调整,就能推动AI迈向真正的超人类智能。
为了直观展示AI范式的变迁,我们改编了参考文献中的图表,展示不同时代的重点:
时代 | 主要方法 | 数据来源 | 能力范围 |
模拟时代 | 强化学习 | 模拟环境 | 单一任务(如围棋) |
人类数据时代 | 监督学习+RLHF | 人类生成数据 | 广泛任务 |
体验时代(未来) | 强化学习+世界模型 | 自主生成体验 | 超人类能力 |
表1:AI范式的演变,改编自Silver和Sutton的图1
⚖️ 机遇与挑战:体验时代的双面性
体验时代的潜力令人振奋。个人助手将通过长期体验流,为用户提供高度个性化的服务,比如帮助你实现健康目标或学习新技能。科学发现的加速可能是最激动人心的前景。AI可以自主设计实验,分析结果,快速推进新材料、药物或技术的开发。
但机遇与挑战并存。自动化可能导致工作岗位流失,AI的自主性也可能引发信任问题。由于体验时代的AI将更多依赖非人类数据和推理方式,其行为可能变得难以解释。更重要的是,长期自主行动的AI需要更高的安全性保障,以防止意外后果。
然而,体验时代也为安全性带来了新的可能性。首先,AI能够感知环境变化并动态调整行为。比如,它可以检测到硬件故障或用户的不满,及时修正策略。其次,奖励函数的动态调整让AI可以在学习过程中逐步修正偏差,避免像“回形针最大化”这样的极端情景。最后,现实世界的物理约束(比如实验需要时间)为AI的自我改进设置了天然的“刹车”,降低了失控风险。
🌟 结语:迎接未知的冒险
体验时代是AI进化史上的一个转折点。它将AI从模仿人类的“学徒”转变为探索未知的“冒险家”。通过与世界的直接互动,AI将生成海量的体验数据,突破人类知识的边界。强化学习的复兴将为这一转型提供动力,而动态奖励、世界模型和非人类推理将让AI的能力达到前所未有的高度。
这场革命不仅关乎技术,更关乎我们对智能的理解。体验时代的AI将像人类一样,通过试错、反思和探索,书写属于自己的故事。而我们,作为这场冒险的见证者,将如何与这些新智能共舞?答案或许就在下一次体验之中。
参考文献
- Silver, D., & Sutton, R. S. (2025). Welcome to the Era of Experience. Preprint, to appear in Designing an Intelligence, MIT Press.
- DeepSeek AI. (2025). DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. arXiv preprint arXiv:2501.12948.
- Masoom, H., et al. (2024). AI achieves silver-medal standard solving International Mathematical Olympiad problems. DeepMind Blog.
- Silver, D., et al. (2021). Reward is enough. Artificial Intelligence, 299, 103535.
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction. The MIT Press.