Below you will find pages that utilize the taxonomy term “Agent”
在 Opus 4.6 与 GPT-5.4 之后,我们需要的未必是“更会写代码”的模型
问题不在于还要不要更强,而在于强在哪儿
过去两年,AI 编程领域几乎一直在讲同一件事:模型越来越强,写代码越来越好,能连续完成的工作越来越多,审代码、修问题、在整个代码仓库里改代码也越来越稳。
这个判断并没有错。强模型确实在快速接手软件开发里很多重复、机械、消耗注意力的工作,比如样板代码、搭建测试框架、接口对接、常规修补和局部重构。这些事情以前需要工程师持续盯着做,现在越来越多都可以交给模型。
但当模型已经很会做这些事之后,一个更关键的问题就出现了:我们继续追求“更强”,到底是在追求什么?
如果“更强”的意思,主要还是补全更快、更会用主流框架、更会修常见问题,那么这条路当然还有价值,但它的好处会越来越集中在“把东西做出来”这一层,而不是“决定到底该怎么做”这一层。
真正值得问的,不是要不要更强模型,而是下一阶段的“强”,到底应该体现在:
- 更会写代码;
- 还是更会把限制条件找出来、把分歧讲清楚、把结果验证清楚。
这是两个完全不同的方向。
软件为什么会先在“默认写法”上越来越像
很多人说,模型变强之后,软件会越来越同质化。这个判断有一半是对的,但需要说得更准确一点。
真正先变得越来越像的,往往不是软件的全部价值,而是它的默认写法、默认交互方式、默认系统结构,以及默认的取舍方式。
原因并不复杂。模型的工作方式决定了:当你没有把条件说清楚时,它就会按自己见过的大量常见做法来补空白。模型越强,这种补法就越顺、越稳、越像一个成熟团队会交出来的答案。
于是,在缺少明确约束的情况下,越来越多的软件会在这些地方变得相似:
- 接口的组织方式相似;
- 前端交互套路相似;
- 数据表设计相似;
- 常见功能的默认行为相似。
这并不等于所有软件都会失去差异化。真正能拉开差距的东西,很多本来就不主要体现在代码表面,而体现在更深的地方:
- 你服务哪类用户,优先满足谁;
- 你把什么当成功指标;
- 你容忍什么失败,不容忍什么失败;
- 你如何设计反馈机制。
所以,更准确的说法不是“软件会越来越同质化”,而是:
当限制条件说得不够清楚时,软件的默认实现会越来越像;而那些真正决定差异化的取舍,如果没有被明确讲出来,也会被模型悄悄抹平。
前者通常是效率提升,后者才是真正的风险。
模型该替你接手什么,不该替你接手什么
这里有一个比“模型更强”更重要的问题:模型到底替你接手了哪一类信息。
我更愿意把工程里的信息分成两类。
第一类,是实现层的信息。
它包括样板代码、粘合代码、框架约定、重复的字段映射、机械性的测试补齐,以及按固定套路做迁移和修补。这类信息很重要,但通常不决定产品或系统真正特别在哪里。它很花时间,却很少体现真正的业务判断。模型替你处理掉这部分,通常是好事。
第二类,是决策层的信息。
它包括目标到底是什么、边界在哪里、失败的代价有多大、默认值怎么选、性能和一致性怎么平衡、风险由谁承担,以及哪些边界情况是核心问题而不是小噪声。这类信息才真正决定一个系统“为什么要这么做,而不是那么做”。它不一定都写在需求文档里,但必须以某种形式被明确下来,后面还能回头查、拿出来讨论、拿结果去验证。
问题不在于模型会不会补全信息,而在于它会不会开始替你补全那些本来应该由人亲自决定的东西。
如果模型主要接手的是实现层的信息,那么它其实是在帮工程系统减少不必要的复杂度。这和过去几十年的软件工程方向是一致的:高级语言帮人摆脱底层机器细节,运行环境帮人处理一部分内存问题,云平台帮人接手很多基础设施运维,框架帮人接手一部分界面和状态管理的样板。今天,编程模型接手更多实现层负担,也是在延续这条路。
但如果模型在条件不清楚时,开始替你决定默认决策,那它接手的就不只是实现成本,而是在用“常见做法”代替你的真实意图。这就不只是效率提升,而是决策权开始转移了。
所谓“更强”,至少应该强在这两件事上
把限制条件找回来
现实工程里,真正重要的约束很少完整地体现在用户给定的prompt里。它们分散在需求文档、历史提交、测试用例、代码注释,甚至是一些默认不该破坏的旧行为里。
一个更强的系统应该能把这些约束尽量找回来,知道哪些边界是显式要求,哪些边界是历史包袱,哪些边界碰不得,哪些地方其实还没有被定义清楚。
把分歧摊开讲清楚
在很多工程问题上,并不存在唯一自然的标准答案。缓存策略怎么选、一致性和性能怎么平衡、默认值该偏保守还是偏激进、失败时该优先保护系统还是优先保护体验,这些都涉及取舍。
弱一点的模型,往往会悄悄给出一个“最像标准答案”的方案;更强的模型,则应该明确告诉你:这里至少有几条合理路径,它们分别意味着什么成本、风险和责任,哪些地方必须由人拍板,而不该由模型替你默认决定。
这类能力,看似降低了自动化程度,但它决定了自动化到底是在帮你执行,还是在替你决策。
结论:我们需要更强模型,但不是只会更强地猜
所以,在 Opus 4.6、GPT-5.4 之后,我们仍然需要更强的编程模型。问题从来不在于“强模型是不是多余”,而在于我们到底希望这种“更强”意味着什么。
如果“更强”只是更会补全、更会排查问题、更会套用主流架构、更会把空白处用常见最佳做法填满,那么这条路当然还有价值,但它会越来越局限在实现层。它越成功,默认答案就越顺;默认答案越顺,那些真正重要却没有被明确说出来的取舍,就越容易被一起抹平。
但如果“更强”意味着:
- 更擅长发现哪些限制条件还没说清楚;
- 更擅长指出哪些默认选择不能自己替人拍板;
- 更擅长把模糊目标变成可以验证的条件;
那么这条路远远没有到头。
Agent Control via Time‑Travel Checkpoints
Table of Contents
- What Is a Time-Travel Agent
- Time-Travel vs. ReAct (web search example)
- Why use time-travel checkpoints
- When to time-travel vs. append results
- Challenges: side-effects and filesystem rollback
- Conclusion and outlook
What Is a Time-Travel Agent
A time‑travel agent is a normal agent loop with one extra skill: it can set checkpoints before running tools, and jump back to them if things start to go wrong. When it jumps back, it also adds simple rules (like “prefer X” or “avoid Y”) so the next attempt is more focused.
Dive into Context Engineering: Lessons from the Gemini CLI
Table of Contents
Introduction
Written against repository Gemini CLI at revision
dc0e0b416592860bdc0846aed0386e1a9637a51e.
Why Context Matters
This guide is aimed at engineers and architects who build or operate LLM-powered developer tools. Gemini CLI is more than a chat wrapper. It assembles environment facts, project knowledge, user memory, IDE state, and agent-specific instructions into a cohesive context bundle—the structured payload that accompanies every user prompt. The following sections dissect that engine, layer by layer, and show how the pieces interact in code.