AI 的记忆迷宫：解码短期历史与信息炼金术

admin

引言：当机器开始“回忆”

想象一下，你正在与一位无所不知的数字助理交谈。你可能问它天气，让它安排日程，甚至与它探讨生命的意义。但你有没有想过，这位聪明的伙伴是如何记住你们之前的对话，如何在海量的信息流中保持专注，又是如何避免在无尽的数据中迷失自我的？答案，就藏在一种精妙的设计之中——我们称之为“记忆组件（Memory Component）”。这不仅仅是简单的存储，更像是一种为人工智能量身打造的、动态的、不断进化的“记忆系统”。它赋予了 AI 回溯过去、理解当下、甚至规划未来的能力。今天，就让我们一起潜入 AI 大脑的深处，探索这个迷宫般却又至关重要的记忆组件，看看它是如何通过“短期历史（Short Term History）”和“记忆冷凝器（Memory Condenser）”这两个核心部分，上演一场精彩绝伦的信息管理大戏。

⏳ 短期历史：信息洪流的初筛官

在 AI 的世界里，每一刻都充满了信息——用户的指令、传感器的读数、系统内部的状态变化，甚至 AI 自己的思考过程，这些共同构成了一条汹涌澎湃的“事件流（event stream）”。这条河流混杂着金沙与泥石，既有至关重要的指令，也充斥着大量无关紧要的“噪音”。如果任由这条信息洪流直接冲击 AI 的“大脑皮层”（即处理核心），它很快就会不堪重负。

这时，“短期历史”组件就扮演起了第一道关卡的“初筛官”。它的首要职责，就是过滤。如同经验丰富的编辑审阅稿件，它会 deftly 地识别并剔除那些对当前任务或长期目标意义不大的事件。参考文献中明确提到，它会过滤掉诸如 AgentChangeStateObservation（智能体状态变化的观察，可能过于频繁且细节）或 NullAction/NullObservation（空操作/空观察，代表无事发生或无有效输入）这类事件。我们可以想象，这就像是在一场重要的会议中，自动忽略掉房间里空调的嗡嗡声或是远处模糊的交通噪音，从而让注意力集中在关键的讨论上。

为什么要过滤？因为 AI 的“注意力”或者说“工作记忆”（我们称之为“上下文（context）”）是有限的。就像我们人类无法同时记住电话号码、购物清单和昨天晚餐的每一道菜一样，AI 的处理核心也有其容量限制。这个限制通常由“上下文窗口（context window）”的大小或用户设定的“令牌限制（token limit）”来定义（令牌是 AI 理解语言的基本单位）。过滤掉不必要的事件，就是在为真正有价值的信息腾出宝贵的空间。

经过“短期历史”这位初筛官的精心挑选，剩下的“精华”事件会被转化为结构化的“消息（messages）”，然后被注入（injected）到 AI 的“上下文”中。这就像是将筛选后的关键信息，清晰地写在了 AI 的“临时记事板”上，供它在接下来的思考和行动中随时查阅。这个记事板上的内容，构成了 AI 对“当下”以及“刚刚发生过什么”的理解基础。

然而，这个记事板的空间是有限的。当新的信息不断涌入，记事板很快就会被写满。这时，如果不想丢失旧的信息，就需要一种更聪明的办法了。于是，“短期历史”的第二个关键功能——历史压缩（condensing）——便应运而生。

📦 上下文窗口：有限空间的智慧

在我们深入探讨“记忆冷凝器”的奥秘之前，让我们先花点时间，仔细审视一下这个“上下文窗口”或“令牌限制”。为什么 AI 的工作记忆不是无限的？这背后其实是计算资源和模型设计的现实考量。

想象一下，AI 每处理一步，都需要回顾之前的相关信息。如果这个“之前”可以无限延伸，那么每次决策所需参考的信息量将呈指数级增长。这不仅会消耗惊人的计算能力（GPU/TPU 时间、电力），还会大大拖慢 AI 的反应速度。这就好比要求一个人在写邮件时，必须同时回忆起他一生中收发的所有邮件内容一样，既不现实，也无必要。

现代大型语言模型（LLM）通常基于 Transformer 架构，其核心机制“注意力（Attention）”虽然强大，但其计算复杂度与上下文长度的平方（或至少是超线性）相关。这意味着上下文窗口越大，所需的计算资源和时间就越多。因此，设计者必须在记忆的广度与处理的效率之间做出权衡。

这个有限的上下文窗口，就像是 AI 的“意识焦点”。它决定了 AI 在任意时刻能够“直接看到”的信息范围。虽然有限，但这并不完全是坏事。它迫使 AI 必须学会区分信息的主次，提炼关键内容——这本身就是一种智能的体现。

但是，当对话持续很长时间，或者任务涉及跨越多个步骤的复杂逻辑时，这个有限的窗口就会带来麻烦。AI 可能会“忘记”对话早期的重要约定，或者丢失复杂任务的关键中间步骤。这就如同我们试图记住一个冗长故事的所有细节，最终只剩下模糊的印象。如何突破这个限制，让 AI 既能保持高效运转，又能拥有更长久的“记忆”？这正是“记忆冷凝器”将要施展的“魔法”。

✨ 记忆冷凝器：信息炼金术士

当“短期历史”监测到上下文窗口即将溢出（或者达到了用户设定的令牌上限）时，它并不会粗暴地丢弃最旧的信息。相反，它会启动一个更为精密的程序，将接力棒交给它的搭档——“记忆冷凝器（Memory Condenser）”。这位“冷凝器”堪称一位信息炼金术士，它的任务不是简单地删除，而是将大量原始信息“提炼”成高度浓缩的“精华”——也就是摘要（summaries）。

这个过程是如何进行的呢？参考文献告诉我们，压缩并非一蹴而就，而是分块（chunks）进行的。当需要压缩时，“短期历史”会将上下文中的消息划分成若干逻辑块。然后，“记忆冷凝器”介入，开始它的“炼金”工作。

有趣的是，这个“炼金”过程有着明确的优先级和顺序：

首先处理智能体（Agent）的活动：冷凝器会先聚焦于 AI 自身的行动和观察记录。它会从最早的智能体活动块开始（通常是夹在两次用户消息之间的那部分活动记录）。为什么优先处理 AI 自己的经历？因为这通常记录了 AI 为完成任务所做的尝试、遇到的问题以及获得的结果，是其学习和改进的关键依据。这就像我们在复盘一个项目时，会先回顾我们自己团队做了什么，遇到了哪些挑战。
然后处理后续的智能体活动块：完成最早的智能体活动块的摘要后，冷凝器会继续处理较晚的智能体活动块，同样是将它们浓缩成摘要。
最后处理用户消息（有条件地）：当所有智能体的活动块都被“炼金”完毕后，如果上下文空间仍然不足，冷凝器才会开始考虑压缩用户消息（user messages）。但这里有一个重要的前提：它通常会逐一处理用户消息，并且只处理那些足够大（large enough）的消息。更关键的是，它会避免压缩那些紧随 AgentFinishAction 事件之后的用户消息。为什么？因为 AgentFinishAction 通常标志着 AI 完成了一个子任务或一个阶段，紧随其后的用户消息很可能包含了新的指令、反馈或是对下一阶段任务的描述。这些信息被认为是“任务相关的，潜在重要的（potentially important）”，需要被优先保留在上下文中，以确保 AI 能够准确理解并执行用户的意图。这体现了一种对任务连续性和用户指令核心地位的尊重。

这个过程就像是在整理一大堆会议记录。你不会把所有录音都存着，而是会先整理出每次讨论的关键决策和行动项（对应 AI 的活动），然后再考虑是否需要为那些冗长的背景介绍或讨论（对应用户消息）写一个简短的概述，但一定会保留老板最后布置的新任务（对应重要的用户指令）。

那么，这些摘要是如何产生的呢？它们并非由“记忆冷凝器”凭空捏造。“记忆冷凝器”会将选定的信息块发送给一个更强大的存在——大型语言模型（LLM）。LLM 凭借其强大的自然语言理解和生成能力，读取原始信息块，并生成一个简洁、准确、能够抓住核心内容的摘要。

📜 摘要的诞生与归宿

摘要的生成过程本身就是一个小小的奇迹。LLM 接收到来自“记忆冷凝器”的请求和原始信息块，就像收到了一份需要撰写摘要报告的原始材料。它会运用其庞大的知识库和对语言模式的深刻理解，识别出信息中的关键实体、事件、关系和意图，然后用精炼的语言重新组织，生成一段新的文本——这就是摘要。

参考文献中提到，这个由 LLM 生成的摘要，会以一种特定的格式返回，称为 AgentSummarizeAction。这可以看作是 LLM 完成摘要任务后，给“记忆冷凝器”发回的一个“工作成果报告”。这份报告里就包含了那段浓缩了信息精华的摘要文本。

拿到这份宝贵的摘要后，“记忆冷凝器”并不会让它消失。它会将这个 AgentSummarizeAction 及其包含的摘要内容，保存（saved）到一个更持久的地方——状态（State）。这个“状态”可以理解为 AI 的一个更深层次、更长期的记忆库。虽然它可能不像“上下文”那样被 AI 时刻“意识”到，但它存储了过去的经验总结，可以在需要时被检索和利用。这就像我们把重要的会议纪要归档，虽然平时不看，但需要回顾历史决策时，可以随时找出来。

那么，摘要仅仅是存起来就完事了吗？并非如此。摘要还有一个至关重要的使命：回到“上下文”中去。

当一个信息块被成功总结后，这个新生成的、言简意赅的摘要，会被注入（injected）回“短期历史”管理的那个“上下文”中，取代（in place of）原来那个冗长、占据大量空间的原始信息块。

想象一下那个写满了字的“临时记事板”（上下文）。当空间不足时，我们并没有直接擦掉最上面的几行字。而是，我们拿起一张便利贴，用几个关键词总结了那几行字的内容（生成摘要），然后把这张便利贴贴在了原来那几行字的位置上（注入摘要，替换原文）。这样一来，记事板的空间被释放出来了，可以记录新的信息；同时，过去信息的核心内容并没有丢失，而是以一种更紧凑的形式保留了下来。AI 依然可以通过阅读这张“便利贴”来了解“之前发生了什么重要的事情”。

这个“摘要替换原文”的机制，是整个记忆组件设计的点睛之笔。它使得 AI 能够在有限的上下文窗口内，维持对远超窗口容量的信息的“记忆”。这是一种动态的、滚动的记忆更新方式，确保了 AI 既能专注于当下，又不会完全遗忘过去。

🤖 人工智能记忆的未来展望

我们刚刚一起探索了 AI 记忆组件中“短期历史”和“记忆冷凝器”的精妙协作。通过过滤噪音、利用有限的上下文、智能地压缩历史信息，并以摘要的形式保留核心内容，AI 得以在信息洪流中保持清醒，并拥有了超越其“瞬时意识”范围的记忆能力。

这种记忆机制的重要性不言而喻。它对于构建能够进行长期对话、执行复杂多步任务、理解长篇文档、甚至实现个性化交互的 AI 系统至关重要。没有有效的记忆管理，AI 就像一个永远活在“当下”的生物，无法从过去的经验中学习，也无法构建连贯的认知图景。

当然，目前的记忆组件设计也并非完美。未来的研究可能会在以下几个方面继续探索和改进：

摘要质量的提升：如何让 LLM 生成的摘要更准确、更全面地捕捉原始信息的精髓，尤其是在处理高度复杂或模糊的信息时？如何避免摘要过程中引入偏见或丢失关键细节？
更灵活的压缩策略：除了基于顺序和类型的优先级，是否可以引入基于“信息重要性”或“与当前任务相关性”的动态评估，来决定哪些内容需要被更优先地保留或压缩？
多模态记忆：当前的讨论主要集中在文本信息。未来的 AI 需要处理图像、声音、视频等多种类型的数据。如何设计能够有效管理和压缩多模态信息的记忆组件？
长期记忆的检索与整合：当需要回忆更久远的信息时，AI 如何高效地从“状态”或其他长期记忆库中检索相关的摘要，并将其与当前上下文无缝整合？
终身学习与记忆遗忘：人类记忆有遗忘机制，这有助于我们过滤掉过时或不再相关的信息。AI 是否也需要类似的“主动遗忘”机制，以避免被无尽的、可能已经失效的旧知识所淹没？

探索 AI 的记忆，就像是在绘制一幅通往更高级人工智能的地图。我们今天所见的“短期历史”和“记忆冷凝器”，可能只是这幅宏伟蓝图中的初步勾勒。但它们所展示的智慧——过滤、聚焦、压缩、提炼——无疑为我们揭示了机器智能在模仿、甚至可能在某一天超越人类认知功能的道路上，迈出的坚实一步。

结论：记忆，智能的基石

从嘈杂的事件流中筛选真金，在有限的上下文空间里运筹帷幄，再通过精妙的“炼金术”将历史浓缩为智慧的结晶——AI 的记忆组件，以其独特的方式，模拟着生命体记忆的某些核心功能。它或许没有人类记忆那般丰富的情感色彩和主观体验，但其高效、逻辑严谨的信息管理机制，正在为构建更强大、更可靠、更能理解我们复杂世界的 AI 奠定基础。下一次当你与 AI 互动时，不妨想象一下它内部那个不知疲倦运转着的“短期历史”过滤器和“记忆冷凝器”炼金炉，正是它们，让这场跨越硅基与碳基的对话，得以流畅而有深度地延续下去。记忆，无论是对人还是对机器，终究是通往真正智能的必经之路。

参考文献 (Illustrative Bibliography):

[Internal Design Document] (Implied Source). Agent Memory Component: Short Term History and Condenser Specification v1.0. (这是根据您提供内容推测的内部文档)
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30. (Transformer 架构的基础论文，与上下文窗口和注意力机制相关)
Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901. (展示了 LLM 的强大能力，是实现高质量摘要的基础)
Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., ... & Fung, P. (2023). Survey of hallucination in natural language generation. ACM Computing Surveys, 55(12), 1-38. (讨论 LLM 生成内容（如摘要）的准确性挑战)
Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press. (与智能体（Agent）的行动、观察和状态概念相关)

admin

代码世界的炼金术士：当 AI 拿起键盘修复 Bug

引言：告别繁琐，拥抱智能修复

想象一下，您是一位软件世界的建筑师，日夜精心构筑着代码的大厦。然而，总有些恼人的“小虫子”（Bug）悄然潜入，留下一个个待办事项（Issue）。修复它们，往往需要耗费大量时间和精力。但如果，我们能召唤一位不知疲倦、精通代码的“炼金术士”，让它自动阅读问题描述，理解症结所在，甚至直接挥舞键盘，尝试炼制出修复代码呢？这听起来像是科幻小说，但借助人工智能的力量，这正逐渐成为现实。今天，就让我们一同走进 OpenHands GitHub & GitLab Issue Resolver 的奇妙世界——一个旨在让 AI 智能体自动解决软件开发问题的得力助手。它依托于强大的 OpenHands 项目（正如其 GitHub 主页所展示的那样），致力于赋予 AI 像人类开发者一样工作的能力。准备好了吗？让我们揭开这位 AI 炼金术士的面纱，看看如何邀请它入驻您的代码工坊。

⚙️ 第一步：为 AI 助手安家落户——配置 GitHub Actions 工作流

要让这位 AI 助手在您的代码仓库里“安家”并自动干活，最优雅的方式莫过于使用 GitHub Actions 工作流。这就像是给它设定好工作时间和触发条件。以下是详细的“安家指南”，融合了 Resolver 的说明文档和 GitHub 官方文档的精髓：

🔑 打造一把“万能钥匙”：创建个人访问令牌 (PAT)
- AI 助手需要获得授权才能访问您的代码仓库（读取代码、创建分支、提交拉取请求、评论 Issue 等）。
- 请前往您的 GitHub 令牌设置页面，创建一个新的细粒度令牌 (fine-grained token)（通常比传统令牌更安全，推荐！）。Resolver 的 README 文件直接提供了令牌创建页面的链接（这些链接通常需要您先登录 GitHub，正如提供的 github.com/login?return_to=... URL 所示）。
- 根据 README 的明确要求，为这把“钥匙”授予以下权限范围 (scopes)：
  - Contents (内容：读写权限)
  - Issues (问题：读写权限)
  - Pull requests (拉取请求：读写权限)
  - Workflows (工作流：读写权限) - 允许 Action 在必要时修改工作流文件自身。
- ❗ 特别注意：组织策略检查！ 如果您是在某个 GitHub 组织 (Organization) 内工作，请务必留意！组织管理员可能设置了限制 PAT 使用或需要审批的策略。您必须先检查并根据需要调整这些设置。README 指向了 GitHub 关于设置组织 PAT 策略的官方文档获取详细指导。这通常涉及进入组织的“设置” -> “个人访问令牌” -> “设置”进行配置。
🧠 连接“智慧大脑”：获取 LLM API 密钥
- 整个操作的核心驱动力来自一个大型语言模型 (LLM)。Resolver 需要一个 API 密钥才能与这个“大脑”沟通。
- README 强烈推荐使用 Anthropic 的 Claude API（示例中特别提到了 claude-3-5-sonnet），当然，其他强大的模型如 OpenAI 的 GPT-4 也被支持，但对于复杂问题，效果可能稍逊一筹。
📄 部署“行动指南”：安装工作流文件
- 将 Resolver 提供的示例工作流文件 examples/openhands-resolver.yml（虽然文件内容未直接提供，但文档中说明了它的存在）复制到您自己仓库的 .github/workflows/ 目录下。这个文件定义了 OpenHands Resolver Action 何时运行以及如何运行。
🔐 配置“仓库门禁”：设定工作流权限
- GitHub Action 本身也需要执行权限。请导航至您仓库的 Settings -> Actions -> General。
- 在 Workflow permissions (工作流权限) 部分，选择 "Read and write permissions" (读写权限) 选项。
- 至关重要的一步：启用 "Allow Github Actions to create and approve pull requests" (允许 GitHub Actions 创建和批准拉取请求) 的设置。
- ❗ 企业/组织策略再检查！ 如果这些选项是灰色不可选或受限状态，那很可能是更高级别（组织或企业）的策略在起作用。README 引导您查阅企业版 GitHub Actions 的策略设置文档。该文档解释了企业管理员如何设定默认的工作流权限（例如，只读 vs. 读写）以及控制 Actions 批准 PR 的能力。
🤫 保管“机密信息”：设置 GitHub Secrets
- 切记，永远不要将 API 密钥或 PAT 这样的敏感信息直接写在工作流文件里！请使用 GitHub Secrets 来安全地存储它们。
- 前往您仓库的 Settings -> Secrets and variables -> Actions，然后点击 Secrets 标签页。
- 根据 GitHub 关于使用 Secrets 的官方文档和 Resolver README 的说明，创建以下 Secrets：
  - 必需：
    - LLM_API_KEY：粘贴您在第 2 步获取的 LLM API 密钥。
  - 可选 (但推荐，更清晰安全)：
    - PAT_TOKEN：粘贴您在第 1 步创建的个人访问令牌。(如果未提供，Action 可能会尝试使用默认的 GITHUB_TOKEN，但在某些场景下（如跨 fork 创建 PR 或复杂操作）权限可能不足。使用专用 PAT 更稳妥)。
    - PAT_USERNAME：与该 PAT 关联的 GitHub 用户名。
    - LLM_BASE_URL：仅在您使用代理或自托管 LLM 服务端点时需要。
- 提示： 这些 Secrets 也可以在组织级别定义（如 Secrets 文档所述），并授权给特定的仓库使用，这对于计划在多个项目中部署 Resolver 非常方便。
🔧 (可选) “个性化定制”：进行自定义配置
- 除了 Secrets，您还可以通过 GitHub Variables (变量，通常用于非敏感配置) 来微调 Resolver 的行为。前往 Settings -> Secrets and variables -> Actions，点击 Variables 标签页。
- OpenHands 关于 GitHub Action 的文档列出了一些可配置项：
  - LLM_MODEL：指定不同的模型 (例如 LLM_MODEL="openai/gpt-4o")。默认可能是一个推荐的 Claude 模型。
  - OPENHANDS_MAX_ITER：限制 AI 助手的思考/行动步数 (例如 OPENHANDS_MAX_ITER=10)。
  - OPENHANDS_MACRO：更改用于召唤 AI 助手的关键词 (例如 OPENHANDS_MACRO="@解决它" 而不是 @openhands-agent)。
  - OPENHANDS_BASE_CONTAINER_IMAGE：为 AI 助手使用自定义的沙箱运行环境。
  - TARGET_BRANCH：指定 PR 合并的目标分支，而非默认的 main (例如 TARGET_BRANCH="develop")。

🚀 第二步：召唤 AI 助手出马——触发工作流

一切就绪后，通过 GitHub Actions 工作流召唤这位 AI 助手就变得非常简单了，正如 README 和 OpenHands 文档所描述：

🏷️ 标签召唤 (fix-me)：
- 为您希望 AI 助手处理的任何 GitHub Issue 添加 fix-me 标签。
- AI 助手会将整个 Issue 的讨论串（原始描述及所有评论）作为理解问题的上下文。
- 工作流会自动运行，尝试修复问题，如果成功则创建一个草稿 Pull Request (PR)（如果不是完全成功，可能只推送一个分支），然后在原始 Issue 下评论告知结果，并自动移除 fix-me 标签。
💬 提及召唤 (@openhands-agent 或自定义宏)：
- 在某个 Issue 下发表一条新的评论，以 @openhands-agent（或您通过 OPENHANDS_MACRO 自定义的宏）开头。
- AI 助手将仅关注 Issue 的描述和这条特定的评论作为上下文。这对于给出非常具体的指令很有用。
- 工作流执行相同的后续动作：尝试修复、创建 PR/分支、评论结果。
🔄 迭代反馈 (进阶用法)：
- AI 可能无法一次就完美解决问题。OpenHands 文档描述了一个迭代优化的过程：
- 仔细审查 AI 助手创建的 PR。
- 直接在 PR 上提供反馈（可以是总体评论、代码审查建议或针对某行代码的评论）。
- 要让 AI 助手根据您的反馈再次尝试，您可以将 fix-me 标签添加到这个 PR 本身，或者在 PR 的某条评论中提及 @openhands-agent。

🛠️ 手动掌控：在本地运行 Resolver

如果您不想使用 GitHub Actions，或者需要更精细的控制（例如，用于测试或处理 GitLab 上的 Issue），您也可以在本地安装并运行 Resolver。

安装：
- pip install openhands-ai
访问令牌：
- GitHub: 创建一个细粒度 PAT，包含权限：Content, Pull requests, Issues, Workflows。如果您没有目标仓库的直接推送权限，可以先 fork 它。
- GitLab: 创建一个 PAT，包含权限：api, read_api, read_user, read_repository, write_repository。
环境变量：
- 在您的终端环境中设置以下变量：
  - GITHUB_TOKEN 或 GITLAB_TOKEN
  - GIT_USERNAME (可选，与令牌关联的用户名)
  - LLM_MODEL (例如 anthropic/claude-3-5-sonnet-20241022)
  - LLM_API_KEY
  - LLM_BASE_URL (可选)

运行命令：

解决一个 Issue：

        python -m openhands.resolver.resolve_issue --selected-repo OWNER/REPO --issue-number ISSUE_NUM

(如果使用 Poetry 从源码安装，则用 poetry run python openhands/resolver/resolve_issue.py ...)。输出结果会写入 output/ 目录。

响应 PR 评论：

        python -m openhands.resolver.send_pull_request --issue-number PR_NUMBER --issue-type pr

可视化成功运行的结果： (先找出成功的运行记录，然后可视化指定的记录)

        grep '"success":true' output/output.jsonl | sed 's/.*[imath:0]"number":[0-9]*[/imath:0].*/\1/g'
        python -m openhands.resolver.visualize_resolver_output --issue-number ISSUE_NUMBER --vis-method json

从成功的运行结果上传 PR：

        python -m openhands.resolver.send_pull_request --issue-number ISSUE_NUMBER --username YOUR_GIT_USERNAME --pr-type [branch|draft|ready]

如果想上传到您自己的 fork，添加 --fork-owner YOUR_GIT_USERNAME。

✍️ 定制指令与疑难解答

自定义 AI 指令： 您可以通过在仓库根目录创建一个名为 .openhands_instructions 的文件来指导 AI 助手的总体策略。该文件的内容会被注入到 AI 的提示 (prompt) 中。
寻求帮助： 如果遇到任何问题，README 建议在 All-Hands-AI/OpenHands 仓库提交 Issue（您提供的 Issue 页面链接显示了该项目活跃的开发和问题跟踪状态），发送邮件至 contact@all-hands.dev，或者加入他们的 Slack 工作区（邀请链接通常在 OpenHands 主项目的 README 中）。

结语：未来已来，人机协作新篇章

OpenHands Issue Resolver 无疑是迈向 AI 辅助软件开发的重要一步。通过自动化地根据问题描述和评论尝试修复 Bug，它将开发者从重复性工作中解放出来，让他们能专注于更复杂的挑战和代码审查。虽然它可能无法一次性完美解决所有问题，但其与 GitHub Actions 的无缝集成以及支持迭代反馈的机制，使其成为增强而非取代人类开发者的强大工具。请牢记，尤其是在组织或企业环境中，务必仔细配置权限和机密信息，并参考相关的 GitHub 官方文档以确保安全合规。代码世界的这位 AI 炼金术士已经准备就绪，等待您的召唤！

admin

AI 行动的“安全屋”：深入 OpenHands Runtime 的心脏

🏠 引言：当 AI 不再纸上谈兵

在人工智能（AI）日益强大的今天，我们不仅希望 AI 能“思考”，更期待它能“行动”——浏览网页、编写代码、执行命令，如同一个真正的数字助手或开发者。然而，赋予 AI 行动能力，尤其是在我们的计算机上执行任意代码的能力，就像是给了它一把威力巨大的钥匙。如何确保这把钥匙只用来开该开的门，而不会意外或恶意地破坏我们的“家”？这正是 OpenHands 项目中一个至关重要的组件——Runtime（运行时环境）——所要解决的核心问题。它不仅仅是一个执行器，更像是一个为 AI 精心打造的、既灵活又极其安全的“行动基地”或“安全屋”。今天，就让我们一起潜入这个系统的核心，探索 Runtime 的奥秘，特别是其基于 Docker 的精妙设计。

🤔 筑起高墙：为何需要一个沙盒化的 Runtime？

想象一下，你邀请一位能力超群但背景未知的“超级助理”（AI 智能体）来帮你整理房间（执行任务）。你肯定不希望它在整理书架时，顺手把你的保险箱密码也“整理”走了，或者不小心打翻了珍贵的花瓶。同理，让 AI 直接在我们的主计算机（宿主系统）上执行代码，存在着巨大的风险。OpenHands Runtime 文档明确指出了构建一个沙盒化（sandboxed）环境的几大理由，我们可以将其理解为给这位“超级助理”提供一个专门的、隔离的工作间：

🛡️ 安全至上 (Security): 这是最重要的原因。沙盒能有效阻止不受信任的代码（可能来自 AI 的生成或外部交互）访问或篡改宿主系统的敏感资源，防止潜在的恶意行为或意外破坏。就像工作间有坚固的墙壁，保护外面的世界不受内部活动的影响。
⚙️ 环境一致 (Consistency): “在我这儿明明能跑！”——这种程序员间的经典抱怨，沙盒可以有效避免。它确保了代码在任何机器上运行时，环境都是标准统一的，大大减少了因环境差异导致的问题。
⚖️ 资源可控 (Resource Control): AI 的某些操作可能会意外地消耗大量计算资源（CPU、内存）。沙盒允许我们对这些资源进行限制和管理，防止“失控”的进程拖垮整个宿主系统。
🚪 隔离运行 (Isolation): 如果有多个 AI 任务或不同用户同时工作，沙盒能确保它们在各自独立的环境中运行，互不干扰，也与宿主系统隔离。
🔍 便于复现 (Reproducibility): 当出现问题或 Bug 时，一个固定、可控的沙盒环境使得复现问题、诊断错误变得更加容易。

🏗️ 精巧的建筑：Runtime 如何运作？

OpenHands 的 Runtime，特别是其默认的 Docker Runtime，采用了一种经典的客户端-服务器 (client-server) 架构，并巧妙地利用了 Docker 容器技术来实现沙盒化。让我们拆解一下它的工作流程：

蓝图输入 (User Input): 用户可以提供一个基础的 Docker 镜像（image）作为起点。这就像是指定了“安全屋”的基本结构和材料。
定制建造 (Image Building): OpenHands 会在这个基础镜像之上，添加自己的“料”——主要是 Runtime 客户端 (runtime client) 的代码，构建出一个新的、定制化的 Docker 镜像，我们称之为 “OH runtime image”。这相当于在基础结构上加装了 OpenHands 特有的通信和执行设备。
启动“安全屋” (Container Launch): 当 OpenHands 启动时，它会使用这个定制的 “OH runtime image” 来启动一个 Docker 容器 (container)。这个容器，就是我们前面提到的那个隔离的“安全屋”。
内部就位 (Server Initialization): 在容器内部，一个名为 ActionExecutor 的服务器进程会启动。它负责初始化必要组件，比如一个 bash shell 环境，并加载用户指定的任何插件 (plugins)。这位“管家”已经准备好接收指令了。
远程通讯 (Communication): OpenHands 的后端（位于 openhands/runtime/impl/eventstream/eventstream_runtime.py）作为“指挥中心”，通过 RESTful API 与容器内的 ActionExecutor 服务器进行通信。它发送需要执行的动作 (actions)，并等待接收执行结果——观察 (observations)。
执行指令 (Action Execution): 容器内的 Runtime 客户端接收到来自后端的动作指令后，会在这个安全的沙盒环境中执行它们（比如运行 shell 命令、操作文件、执行 Python 代码等）。
汇报结果 (Observation Return): ActionExecutor 服务器将执行的结果（成功、失败、输出内容等）打包成观察信息，通过 API 发回给后端的“指挥中心”。

Runtime 客户端的角色至关重要，它像是一位驻扎在“安全屋”内的可靠中介：负责接收指令、安全地执行各种类型的动作、管理沙盒内部的状态（如当前工作目录、加载的插件），并将结果以统一的格式汇报给后端。

🏷️ 智能缓存术：高效的镜像管理

频繁地构建 Docker 镜像可能非常耗时。为了提高效率，OpenHands 设计了一套巧妙的三标签 (three-tag) 系统来管理 Runtime 镜像，兼顾了可复现性和灵活性。这套系统有点像智能化的缓存策略：

Source Tag (源码标签): 最精确。基于 OpenHands 源代码目录内容的哈希值生成。如果源码没变，这个标签就不变。
- 格式示例: oh_v{版本号}_{16位源码哈希}
Lock Tag (锁定标签): 次精确。基于基础镜像名称、pyproject.toml (项目配置) 和 poetry.lock (依赖锁定) 文件内容的哈希值生成。它代表了 OpenHands 的依赖环境。
- 格式示例: oh_v{版本号}_{16位锁定哈希}
Versioned Tag (版本化标签): 最通用。由 OpenHands 版本号和基础镜像名称组合而成。
- 格式示例: oh_v{版本号}_{转换后的基础镜像名}

构建流程 (Build Process) 体现了这种智能：

无需重构 (No re-build): 首先检查是否存在具有相同 Source Tag 的镜像。如果有，太棒了！直接使用现有镜像，完全不用重新构建。
最快重构 (Fastest re-build): 如果没有 Source Tag 匹配，接着检查是否存在具有相同 Lock Tag 的镜像。如果有，说明依赖环境没变，只需基于这个镜像，跳过所有安装步骤（如 poetry install, apt-get），仅仅复制最新的源代码进去，然后打上新的 Source Tag。速度飞快！
较快重构 (Ok-ish re-build): 如果连 Lock Tag 也没有匹配，就查找 Versioned Tag 对应的镜像。这个镜像里大部分依赖应该已经安装好了，能节省不少时间。
最慢重构 (Slowest re-build): 如果以上三种标签的镜像都不存在，那就只能从用户提供的基础镜像从头开始构建一个全新的镜像了。这个新镜像会被打上所有三种标签（Source, Lock, Versioned）。

这套机制确保了：相同的源码和 Dockerfile 总能产生可复现的镜像；微小的源码改动能极快地完成重构；而 Lock Tag 则始终指向特定基础镜像、依赖和 OpenHands 版本组合下的最新稳定构建。

🚀 不止于 Docker：多样的 Runtime 类型

虽然 Docker Runtime 是默认且常用的选择，但 OpenHands 的 Runtime 架构设计得相当灵活，支持多种实现方式。Runtime 的 README 文件揭示了这一点：

Docker Runtime (默认): 我们已经详细讨论过。它在本地通过 Docker 容器运行，提供强大的隔离性，是开发、测试和需要完全环境控制场景的理想选择。
Local Runtime (本地运行时): 这个模式下，ActionExecutor 服务器直接在用户的宿主机器上运行，没有 Docker 容器的开销。优点是启动快、设置简单、直接访问本地资源。但极其重要的是：它不提供任何隔离！ 所有操作都以运行 OpenHands 的用户权限执行。因此，它仅适用于开发者在信任环境中快速测试，绝不应用于处理不可信代码或生产环境。
Remote Runtime (远程运行时): 专为在远程环境执行而设计。它通过一个自定义的 HTTP API 连接到一个远程服务器（该服务器负责创建、暂停、恢复和停止运行环境），并将动作请求发送给远程执行。这非常适合需要可扩展性、分布式执行或云部署的场景，可以减少本地资源的消耗。正如 SWE-Bench 评估文档中提到的，这种模式目前处于测试阶段 (beta)，并已应用于并行运行评估任务，例如在 SWE-Bench 基准测试中，可以通过设置 RUNTIME=remote 和相应的 API URL 及密钥来使用。
其他实现 (Modal, Runloop): README 还提到了基于 Modal 和 Runloop API 的实现，展示了其架构的可扩展性。
自定义 Runtime: 用户甚至可以创建自己的 Runtime 子类，并通过配置文件指定使用，提供了极高的灵活性。

这种多样性使得 OpenHands 可以适应从本地快速开发到大规模云端评估的不同需求。

🧩 扩展能力：插件系统

为了让 Runtime 的功能更易于扩展和定制，OpenHands 还引入了一个插件系统 (Plugin System)。

插件被定义为继承自基础 Plugin 类的 Python 类。
可用的插件会被注册到一个全局字典 ALL_PLUGINS 中。
用户可以在配置中指定需要加载哪些插件 (Agent.sandbox_plugins)。
插件在 Runtime 客户端启动时异步初始化。
Runtime 可以利用初始化后的插件来扩展其能力，例如，文档中提到了一个 Jupyter 插件的例子，可能用于执行 IPython 代码单元。

虽然插件系统的详细文档仍在完善中，但它为 Runtime 增添了强大的可塑性。

✨ 结语：安全、灵活、可控——AI 行动的基石

OpenHands Runtime，特别是其核心的 Docker Runtime 实现，通过巧妙的沙盒化设计、高效的镜像管理策略以及灵活的架构（支持多种运行时类型和插件），为 AI 智能体提供了一个既安全可靠又功能强大的行动环境。它解决了执行任意代码的核心安全问题，同时保证了环境的一致性和资源的可控性。无论是本地开发调试，还是大规模的云端评估，Runtime 都扮演着不可或缺的基石角色，确保 AI 的行动既能“大展拳脚”，又始终处于“安全屋”的保护之下。随着 AI 能力的不断进化，这样健壮的运行时环境将是推动 AI 从“思考者”迈向“行动者”的关键所在。