AI Coding News

April 16, 2026

Key Signals

  • OpenAI 发布大规模 Codex 更新,新增后台计算机操控、内置浏览器和 90 多个插件——这是该公司构建统一 AI "超级应用"的最明确信号。 Codex 现在可以在 Mac 上使用虚拟光标控制桌面应用程序,多个代理可以并行运行而不干扰用户的工作流程。基于 Atlas 引擎的内置浏览器允许开发者为前端反馈标注网页,新的心跳自动化功能则支持持续运行的代理来监控 Slack、分类收件箱或按计划自动唤醒。Codex 目前拥有 300 万周活跃用户,每月新增 100 万用户,正在快速从编码工具扩展到通用知识工作领域。 [1][2][3]

  • Claude Opus 4.7 在所有主要平台上线,具备更强的指令遵循、视觉和记忆能力——但新分词器和更深度的自适应思考将增加 token 消耗。 Anthropic 最新的 Opus 模型现已在 Anthropic API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry 和 GitHub Copilot(推广期间按 7.5 倍高级请求乘数计费,截至 4 月 30 日)上可用。包括 Intuit、GitHub 和 Notion 在内的早期测试者反馈称多步骤任务性能更强。不过,该模型更加字面化的指令遵循意味着现有提示词可能产生意想不到的结果,Anthropic 也提醒用户将看到更高的 token 使用量。 [4][5]

  • GitHub CLI 推出 gh skill 命令,这是一个跨代理技能管理工具,可在 Copilot、Claude Code、Cursor、Codex、Gemini CLI 和 Antigravity 之间通用。 Agent Skills(代理技能)是可移植的指令集,用于教 AI 代理执行特定任务,现在可以从单个 CLI 进行发现、安装、版本锁定和发布。该命令包含供应链完整性功能,如基于内容寻址的变更检测、不可变发布和 SKILL.md 前置元数据中的溯源信息,为代理技能生态系统带来了包管理器级别的保障。 [6]

  • "计算机操控"正在成为下一个竞争前沿,Codex、HuggingFace HoloTab 和 Claude Code 都在推动 AI 代理通过 UI 而非 API 来操作软件。 Codex 的后台桌面控制、Anthropic 现有的 Mac 级别 Claude Code 功能,以及 HuggingFace 基于 Holo3-35B-A3B 模型的新 HoloTab Chrome 扩展,都反映了让代理像人类一样点击、输入和导航应用程序的趋势融合。这种方法绕过了对预构建集成的需求,为缺乏 API 的遗留工具、内部仪表盘和 Web 应用打开了自动化的可能性。 [1][7]

  • Factory 以 15 亿美元估值融资 1.5 亿美元,凸显投资者对企业级 AI 编码代理的持续热情,尽管市场竞争日益激烈。 本轮融资由 Khosla Ventures 领投,Sequoia Capital、Insight Partners 和 Blackstone 参投,使 Factory 与 Anthropic、Cursor 和 Cognition 并列成为企业代码生成领域的有力竞争者。Factory 的差异化在于可动态切换不同基础模型,其客户包括摩根士丹利、安永和 Palo Alto Networks。 [8]

  • 开发者对 Claude Code 产品方向的不满情绪持续上升,Anthropic 的容量限制迫使一系列被视为产品降级的改变。 一篇广泛传播的博客文章记录了近期多项回退:移除计划模式中的"清除上下文并执行"选项、在没有官方公告的情况下禁止第三方工具使用 Pro/Max 订阅额度、缓存 TTL 从 1 小时缩短到 5 分钟,以及随 Opus 4.7 一起彻底移除扩展思考预算(仅保留自适应思考)。这些变更影响所有用户(包括 API 付费用户),这一模式正被拿来与"enshittification"(劣质化)进行类比。 [9]

AI Coding News

  • Claude Opus 4.7 在指令遵循和视觉方面取得显著提升,但引发 token 成本担忧且未取得安全突破。 Anthropic 最新的 Opus 模型支持超过前代 3 倍像素的图像输入,增强了基于文件系统的记忆功能,并在金融和法律任务的 GDPval-AA 基准测试中达到业界领先水平。安全指标与 Opus 4.6 大致相当,在受控物质的减害建议方面出现轻微退步。Anthropic 将 Opus 4.7 定位为首个接收最初为未发布的 Mythos 级模型开发的网络安全防护措施的低能力模型。 [5]

  • Cursor 3 围绕管理并行代理而非编辑文件重新设计了开发者界面,标志着 AI 编码工具领域的一次重大理念分裂。 内部数据显示,与 2025 年 3 月相比用户行为完全逆转——Cursor 用户中运行自主代理的人数已是使用 Tab 补全的两倍,公司自身 35% 的 PR 由云端代理编写。新工作区将所有代理集中在一个侧边栏中,支持本地到云端的切换,并增加了插件市场。社区反应两极分化:部分用户赞赏代理优先的方向,而另一些用户报告称在 Cursor 上使用高级模型每周花费 2,000 美元,而切换到 Claude Code Max 后以十分之一的价格获得了相当的产出。 [10]

  • Cloudflare 的 Code Mode MCP 服务器将代理与大型 API 交互的 token 消耗降低了 99.9%,可能改变 MCP 服务器的设计方式。 Code Mode 不再将 Cloudflare 的 2,500 多个 API 端点逐个暴露为 MCP 工具(需消耗 117 万 token),而是仅提供两个元工具——search()execute()——通过类型感知 SDK 让模型在安全的 V8 隔离沙箱中编写和执行 JavaScript 代码以访问 OpenAPI 规范。固定约 1,000 token 的占用量不受 API 规模影响。Cloudflare 已在其 Agents SDK 中开源了 Code Mode SDK 供第三方使用。 [11]

  • Google 以 Apache 2.0 许可证发布 Gemma 4,为开发者提供具有原生函数调用和 256K 上下文窗口的开放权重模型,可用于代理工作流。 该系列包括 2B 和 4B 边缘模型、26B MoE 模型(推理时仅激活 3.8B 参数)和 31B 稠密模型,后者在 GPQA Diamond 上得分 84.3%——几乎是 Gemma 3 成绩的两倍。原生视频、图像和音频处理加上结构化 JSON 输出使这些模型成为代理管道中可行的即插即用选项。Apache 2.0 许可证是 Google 最佳开放模型首次采用,消除了所有商业限制。 [12]

  • Amazon 正在加深对模型上下文协议 的投入,向 MCP 规范贡献了 Tasks 和 Elicitations,并将其托管 MCP 服务器用作草案功能的试验场。 AWS 高级首席软件工程师 Clare Liguori(同时也是 MCP 核心维护者)在纽约的 MCP 峰会上强调了向始终在线代理的转变趋势。Amazon 还将其 Kiro AI 开发工具扩展至公司所有职能部门,因为发现非工程师群体的使用需求同样强烈。 [13]

  • Hugging Face 推出 HoloTab,一款像人类一样浏览网站的 Chrome 扩展,加入了来自 Anthropic、OpenAI 和 Google 的"计算机操控"代理阵营。 HoloTab 基于 Holo3-35B-A3B 模型(Hugging Face 称其在 OSWorld-Verified 基准测试中突破了计算机操控前沿),可直接在浏览器中处理表单填写、消息回复和职业社交外联等任务,无需网站特定集成。这种方法是对 MCP 风格结构化访问的补充:MCP 让软件适配 AI,而计算机操控让 AI 适配现有软件。 [7]

  • Spotify 已在开发流程中采用"代理优先"策略,其最优秀的工程师据报已不再直接编写代码。 该公司的高级项目经理和高级工程师将讨论 Spotify 如何重组团队、将工程角色从实现转向意图定义,以及如何将代理集群部署到 DevOps、安全和云管理中。定于 4 月 29 日举行的网络研讨会还将探讨这种方法是否适用于没有 Spotify 规模和预算的中小型企业。 [14]

Feature Update

  • OpenAI Codex 发布迄今最大规模更新,新增后台计算机操控、内置浏览器、图像生成、记忆功能和 111 个插件集成。 新版 Codex 桌面应用(底层引擎为 v0.122.0 版本)允许代理在后台使用虚拟光标控制 Mac 桌面应用,同时用户可继续正常工作。基于 Atlas 的内置浏览器支持内联标注,可为前端工作提供反馈。通过 gpt-image-1.5 进行图像生成不收取额外费用。受 OpenClaw 启发的心跳自动化功能允许持续线程按计划触发,新的记忆系统可跨会话保留用户偏好。面向开发者的新增功能包括 GitHub 审查评论处理、多终端标签页、SSH 连接远程开发机(alpha 阶段)以及用于跟踪计划和产物的摘要面板。ChatGPT Enterprise 和 Business 客户可使用新的按量计费定价。 [1][2][3][17][23]

  • Claude Code v2.1.111 新增 Opus 4.7 xhigh 性能级别、云端 /ultrareview 命令和 Max 订阅用户的自动模式。 xhigh 性能级别介于 high 和 max 之间,可通过 /effort--effort 和模型选择器使用。新的 /ultrareview 命令使用并行多代理分析在云端运行全面代码审查——无参数调用即可审查当前分支,也可传入 GitHub PR URL。自动模式不再需要 --enable-auto-mode 标志。其他新增功能包括 /effort 交互式滑块、用于建议只读允许列表的 /less-permission-prompts 技能,以及 Windows 上的 PowerShell 工具渐进式推出。大量修复解决了 iTerm2+tmux 中的终端撕裂、LSP 诊断排序、插件错误处理和 Bedrock/Vertex 上的速率限制错误信息等问题。 [15]

  • Claude Code v2.1.112 紧急修复了 Opus 4.7 上线后影响自动模式的"claude-opus-4-7 暂时不可用"错误。 [16]

  • Copilot CLI 在一天内发布四个版本(v1.0.28–v1.0.31),新增 Claude Opus 4.7 支持、/statusline 自定义和远程控制会话恢复。 v1.0.29 添加了 Claude Opus 4.7 模型支持、用于 CI 管道调试的 --list-env 标志,以及将 COPILOT_AGENT_SESSION_ID 作为 shell 命令和 MCP 服务器的环境变量。v1.0.30 引入了 /statusline 命令(别名 /footer)用于自定义状态栏项目,并恢复了剪贴板图片粘贴功能。v1.0.28 新增从 --resume 选择器连接远程控制会话、COPILOT_DISABLE_TERMINAL_TITLE 支持和改进的 MCP 迁移文档。v1.0.31 修复了 Windows 和 Ubuntu 终端上的提示框渲染问题。 [18][19][20][21]

  • GitHub CLI gh skill 以公开预览形式发布,为代理技能生态系统带来包管理器级别的完整性保障。 技能是遵循 agentskills.io 开放 Agent Skills 规范的可移植指令集。gh skill install 命令自动检测每个代理宿主的正确目录,而 gh skill publish 则根据规范验证技能并检查仓库安全设置(标签保护、密钥扫描、代码扫描)。版本锁定同时支持发布标签和提交 SHA,写入 SKILL.md 前置元数据的溯源信息会随技能一起传播到任何复制位置。 [6]

  • Claude Opus 4.7 现已在 GitHub Copilot 模型选择器中面向 Pro+、Business 和 Enterprise 用户提供,覆盖 VS Code、Visual Studio、Copilot CLI、Cloud Agent、github.com、Mobile、JetBrains、Xcode 和 Eclipse。 Opus 4.7 将在未来几周内为 Copilot Pro+ 用户替代 Opus 4.5 和 4.6。推广定价将高级请求乘数设为 7.5 倍,截至 4 月 30 日。Enterprise 和 Business 管理员须在 Copilot 设置中启用 Claude Opus 4.7 策略。 [4]

  • OpenCode v1.4.7 新增 Claude Opus 4.7 xhigh 自适应推理,修复 Cloudflare AI Gateway 对 OpenAI 推理模型的兼容性,并向工作区传递认证上下文。 GitHub Copilot gpt-5-mini 现在使用低推理强度以获得更好的请求兼容性。Azure 模型默认设置 store=true 以修复存储响应要求。bash 工具在处理大量命令输出时内存占用更低,会话现在即使在提供商 SDK 未标记为可重试的情况下也会重试 5xx 错误。 [22]