开发工具·2026年6月9日·10 分钟

AI 编程里的 Loop:Peter Steinberger 与 Boris Cherny 到底在说什么

作者深度解析 AI 编程领域热议的 “Loop” 概念,指出它的本质是由模型驱动决策的自动化编排循环,而不是单纯重复提示。文章梳理了从 ReAct、AutoGPT、ralph 到多 Agent 编排的演进,并提醒开发者:当模型写代码变得越来越便宜,真正昂贵的部分已经转向 loop 管理、反馈机制与停止边界。

AI 编程里的 Loop:Peter Steinberger 与 Boris Cherny 到底在说什么

作者深度解析 AI 编程领域热议的 “Loop” 概念,指出它的本质是由模型驱动决策的自动化编排循环,而不是单纯重复提示。文章梳理了从 ReAct、AutoGPT、ralph 到多 Agent 编排的演进,并提醒开发者:当模型写代码变得越来越便宜,真正昂贵的部分已经转向 loop 管理、反馈机制与停止边界。

封面

本周 AI 编程圈里被重复最多的一句话只有六个词,但几乎没人能把它解释清楚。一条推文把整个时间线都卷了进去,于是作者用 /last30days 追踪了大家争论的那个词。结论是:这个概念是真的,有五年的技术脉络,而且真正的反转在于,现在昂贵的不是模型,而是 loop。

那条抓住整个时间线的推文

这周,一条推文让整个 AI 编程圈都盯住了同一个问题。Peter Steinberger 在 2026 年 6 月 7 日发出这句话,浏览量超过 220 万,回复区很快变成了一场关于“它到底是什么意思”的争论。

“这里是每月提醒:你不该再给 coding agent 写 prompt 了。你应该设计那些会给 agent 写 prompt 的 loops。”

@steipete,2026 年 6 月 7 日

这就是所有人都在引用的句子。最关键的回复来自 Varadh Jain,他问了唯一真正重要的问题:这在实践中到底长什么样?随后 Matthew Berman 的回答成了整场讨论的情绪注脚。

“除了他和 Boris,没人知道。”

@MatthewBerman,2026 年 6 月 7 日

这才是真正的故事。不是“loops 是未来”这么简单,而是一个六词短语拿到了两百万浏览量,转发它的人却还在回复区争论它的含义。作者没有翻白眼,因为他自己每晚都会运行一个 loop,在睡觉时为大约 30 个开源 repo 打开 Pull Request。90 秒的研究返回了 15 条 Reddit 讨论、21 条 X 帖子,以及一个不太舒服的模式:AI 编程里声量最大的概念,很多复述它的人其实解释不清。一个阵营喊着 prompt engineering 已死;另一个真正把手放在键盘上的阵营则谨慎得多。

“这不是 ralph/goal loops,那已经是老东西了。它大概是某种持续编排 loop,用来监督其他线程或 agents。”

@trashpandaemoji,2026 年 6 月 7 日

这条回复几乎是当时最接近正确答案的说法。先记住它。

Loop 到底是什么

Boris Cherny 在 2024 年 9 月把 Claude Code 当作一个 side project 做了出来。现在据说它已经支撑了 GitHub 上接近 4% 的公开 commit。2026 年 6 月 2 日,在 WorkOS 主办的 Acquired Unplugged 活动上,他给出了目前最清楚的定义。

“现在它又升级了,到了下一波抽象。我已经不再提示 Claude 了。我有正在运行的 loops,它们会提示 Claude,并判断下一步该做什么。我的工作是写 loops。”

Boris Cherny,WorkOS Acquired Unplugged,2026 年 6 月 2 日

更直白地说,loop 是你写的一段小程序:它替你提示 coding agent,读取 agent 产出的结果,判断任务是否完成;如果没完成,就再次提示它。你不再是 loop 里那个不断敲 prompt 的人。你变成了 loop 的作者。模型变成了一个子程序。

Boris 把这件事讲成三个阶段,把自己放在这条阶梯上,就很容易理解。一年前,他还用自动补全手写代码。后来,他并行跑 5 到 10 个 Claude 会话,逐个提示它们。现在,他不再亲自提示。是他写的 loops 在提示 Claude;几百个 agents 会读取他的 GitHub、Slack 和 Twitter,然后决定接下来该构建什么。他还给出了数据。

“过去 30 天里,我对 Claude Code 的贡献 100% 都是 Claude Code 写的。我合并了 259 个 PR。”

Boris Cherny,经 Simon Willison 引用,2025 年 12 月 27 日

他在 11 月删除了自己的 IDE,此后再也没打开过。prompt-engineering-is-dead 阵营容易跳过的细节是:他并不是说工程师已经没用了。仍然需要有人决定构建什么、和客户交流、协调团队;他也说过,优秀工程师比以往更重要。工作没有消失,只是上升了一个层级:从写代码,变成写“会写代码的东西”。

从 ReAct 到编排:loop 的谱系

回复区之所以混乱,是因为 loop 这个词至少藏了五种东西。按照从旧到新的顺序,可以这样看。

第一阶段是学术意义上的 while loop。2022 年的 ReAct 论文把它形式化了:模型推理、调用工具、读取结果,然后重复,直到完成。一个模型,一个 loop,一个人在旁边看着。

第二阶段是 2023 年的 AutoGPT:给它一个目标,让它自己提示自己。它后来之所以出名,很大程度上是因为它会不停空转却什么都做不成。这个失败让很多人之后几年都觉得 agents 只是玩具。

第三阶段就是 Trash Panda 说的“老东西”:Geoffrey Huntley 在 2025 年 7 月发布的 ralph loop。它简单到近乎冒犯:一个 bash one-liner,把同一个 prompt 文件反复喂给 agent。真正的创新不是复杂度,而是纪律:每一次迭代都会把上下文重置为一组固定的 anchor files,而不是让对话无限增长。Huntley 用它花了大约 297 美元构建了一门完整的编程语言。

第四阶段把这件事产品化了。2026 年春天,Codex 和 Claude Code 都发布了 /goal 命令:运行 ralph loop,直到一个小型 validator 模型确认任务完成。

第五阶段才是 Boris 和 Steinberger 真正在说的东西,它确实是新的,而不只是改名。这里发生了四个变化:loop 变成了工作单元,而不是单个任务;loops 开始监督其他 loops,并发运行,还能按计划执行;调度取代了人的手动启动,loop 运行在基础设施的时间里,而不是运行在你的注意力里;持久性变成了明确要求,有 git-backed state 和崩溃恢复,因为这些东西必须能在重启后继续工作。ralph 默认你的终端一直开着;2026 年版本默认它不会一直开着。所以 Trash Panda 对了两次:单 Agent 的 ralph loop 已经是老东西,而叠在其上的多 Agent 编排 loop 才是新层。

它不就是戴了帽子的 cron job 吗

整个语料里最好的怀疑论只用了四个词,出现在某个热情讨论 loops 未来的帖子下。

“Cronjobs 现在也在搞有趣的重新包装。”

X 回复,loops 讨论,2026 年 6 月

这个问题值得正面回答,因为它说对了一半。是的,调度层就是 cron。Boris 真的把自己的 loop 跑在 cron 上。Claude Code 的 /loop 命令底层也使用 cron。如果你对 loop 的全部定义只是“按时间运行的东西”,那我们 1975 年就发明了它,大家可以回家了。

但 cron 从来没有中间那部分。cron job 运行固定脚本;loop 运行模型,让模型查看当前状态、决定下一步做什么、执行、检查是否成功,并决定要不要继续。决策来自 agent,而不是你,也不是硬编码的分支。把这些东西叠起来,让一个 loop 分发和监督其他 loops,给它们持久共享状态,你就得到了 cron 表达不了的东西。诚实的说法不是“loops 是新的魔法”,也不是“loops 只是 cron”。它更像是:cron 加上一个位于循环体里的决策者,而真正有趣的工程问题,是你围绕这个决策者加上哪些东西,才能让它不至于冲下悬崖。

真正构建一个 loop 时,它长什么样

理论说够了。上手入口只有一行。Claude Code 发布了 /loop,Boris 自己的例子就是最标准的起点。把下面这句粘进去,然后替换其中的名词:

/loop babysit all my PRs. Auto-fix build issues, and when comments come in, use a worktree agent to fix them.

他后来还给出了更完整的配方。几天后,Boris 发布了五条运行 Opus 数小时乃至数天的建议。

用他自己的说法,这五条是:使用 auto mode 处理权限,这样 Claude 不会反复请求批准;使用动态工作流,让 Claude 编排数百乃至数千个 agents 来完成任务;使用 /goal/loop 轻推 Claude 持续前进直到完成;在云端使用 Claude Code,这样你可以合上电脑;确保 Claude 有办法端到端自验证自己的工作。

@bcherny,2026 年 6 月

第五条是炒作叙事经常跳过、实践者最关心的那条:一个 loop 是否可信,取决于它检查自己工作的能力。

这就是整个概念的缩影。你没有写具体步骤。你写的是意图和停止行为,然后 loop 在每一次 tick 中提示 agent。在 TikTok 上,这个解释对普通观众也很清楚。

“Loop mode 是 AI 编程从一次性 prompt 转向后台运行的最清晰信号之一。”

@ai.native.founder on TikTok,2026 年 6 月

更深的一端是 Steve Yegge 在 1 月发布的 Gas Town:20 到 30 个 Claude Code 实例,由一个 Mayor agent 协调;patrol agents 运行持续 loop;状态存储在 git 里,因此工作可以在崩溃后继续。这就是 Trash Panda 试图描述的、会监督其他线程的持续编排 loop,而且它已经发布并开源。

但研究中最实际的一课是:loop 的质量只和它检查自己的能力一样好。增长最快的子主题不是编排,而是验证。

“你的 coding agent 可以跑得很快,但坏 commit 也会很快复利。”

@DanKornas,2026 年 6 月

Kornas 正在做 roborev:一个在后台 review 每个 commit 的工具,并在上下文还新鲜时把发现反馈给 agent。一个只写代码、没有反馈的开放 loop,是一台制造自信错误的机器。一个会写、会跑、会读结果、会修正的 loop,才是真正可用的东西。魔法不在 loop 本身,而在它内部的反馈。

反转:loop 现在才是昂贵的部分

研究从哲学问题转成财务问题,是从一位一线工程师对 agents 神话的降温开始的。

“我今年上线的每个 AI agent,本质上都是一个 for-loop、一次 LLM 调用,以及围绕 JSON 解析的一段 try/catch。唯一 agentic 的部分,是月底的 Anthropic 账单。”

@rohit_jsfreaky,2026 年 6 月

这个账单不是玩笑。本月最有分量的凭证是:Uber 在四个月内烧掉年度 AI 预算后,把工程师在 Claude Code 和 Cursor 上的额度限制为每人每个工具每月 1500 美元。当模型几乎免费地写代码后,成本就转移到了运行 loop 这件事上。

“AI 编程里最昂贵的东西不再是写代码,而是管理 agent loop。”

@runes_leo,2026 年 6 月

生产环境里最让人担心的失败模式,是停不下来的 loop。

“没有 guardrails,你会得到无限循环,以及比预算高几个数量级的账单惊喜。”

@cv_usk,2026 年 6 月

这就是为什么 2026 年每一篇严肃讨论 loops 的文章都会收敛到同三个硬停止条件:最大迭代次数、无进展检测,以及 token 或美元预算上限。浪漫版本的 loops 是:你写好 loops,一千个 agents 在一夜之间替你构建公司。生产版本则是:你写 loops,而你的大部分工作是确保它们会停下来。Gartner 把 agentic AI 放在“期望膨胀峰值”,但真正部署 agents 的组织只有大约 17%。时间线上的热闹和实际凭证之间的距离,才是当下的真实状态。

关键不是 loops,而是 skills

作者自己的判断是:loop 是管道,真正的资产是它调用的 skill。

Steinberger 另一条反复强调的观点,和 loops 放在一起看更耐久:如果你做某件事超过一次,就把它变成自动化 skill;如果你做了一件难事,事后把它变成 skill,这样下一次就是免费的。一个内部没有可复用 skills 的 loop,只是围绕陌生人的 while true。一个调用一组锋利、经过测试、命名清楚的 skills 的 loop,才是会复利的系统。真正正在迁移到这种方式的 Reddit 实践者说得最好:

“Twitter 上很多人在翻白眼,但我的耳朵竖起来了。”

r/ChatGPTCoding,2026 年 6 月

所以,“WTF is a loop” 的答案不是“prompt engineering 已死”这种热梗。答案是:停止成为 loop 里的那个人。写一次 loop,给它值得调用的 skills 和能自检的反馈,给它设置停止上限,然后让它跑在 cron 上;你去决定下一步该构建什么。Steinberger 和 Boris 是从两侧描述同一种东西。真正知道的人,是已经构建过它的人。好消息是,从这个月开始,入口已经变成了一条 slash command。

研究中的关键模式

  • loop 是 cron 加上循环体中的决策者:每一次 tick 中,由模型而不是硬编码分支选择下一步动作。
  • 这条谱系是真实存在的:2022 年 ReAct,2023 年 AutoGPT,2025 年 ralph,2026 年春天的 /goal,再到现在的编排 loops。单 Agent ralph 已经是旧层,多 Agent 监督才是新层。
  • loop 的质量取决于反馈。持续 review 和验证关卡,才会让 loop 变得可信。
  • 昂贵资源已经从 token 转向 loop 管理。需要限制迭代次数、检测无进展,并设置美元预算。
  • loop 内部的可复用单元是 skill,而不是 prompt。会调用清晰命名 skills 的 loops 才能复利;每次都重新推导的 loops 只会烧钱。

研究来源概览

  • Reddit:17 个声音,来自 r/ClaudeAI、r/AI_Agents、r/ExperiencedDevs;47 条讨论,3.4 万 upvotes。
  • X:21 个声音,包括 steipete、bcherny、runes_leo;56 条帖子,175 次 repost。
  • YouTube:4 个声音,包括 WorkOS、Lenny's Podcast、Y Combinator 的演讲转录。
  • TikTok:6 个声音,包括 ai.native.founder、nikpolale;34 条 clips。
  • Instagram:4 个声音,包括 sequenzy_com、ai.builders;14 条 reels。
  • Hacker News:12 个声音,54 条 stories,1000 条 comments。
  • GitHub:6 个 repo,包括 gastownhall/gastown、NousResearch/hermes;steipete 259+ PRs。
  • 主要声音:steipete、bcherny、runes_leo、rohit_jsfreaky、MatthewBerman。

以上整理来自 2026 年 6 月 7 日运行的 /last30days,检索面包括 “designing loops that prompt coding agents”、“ai loops” 和 “coding loops”。