AI Coding News

Friday, February 6, 2026

关键信号

多智能体 AI 编程正在走向生产就绪。 Anthropic 研究员 Nicholas Carlini 展示了 16 个 Claude Opus 4.6 实例协同工作，在两周内从零开始构建了一个完整的 C 编译器，API 费用约为 20,000 美元。这个 100,000 行的 Rust 编译器在 GCC 酷刑测试套件上达到了 99% 的通过率，并成功编译了 Linux 内核。这代表了协调式 AI 开发的重要里程碑，但值得注意的是，由于规范明确且存在完善的测试套件，C 编译器是近乎理想的任务类型。 [1][2]
Claude Code 获得企业级多智能体能力。 2.1.33 版本引入了用于多智能体工作流的 TeammateIdle 和 TaskCompleted 钩子事件，通过新的 memory 前置字段实现用户/项目/本地范围的持久化记忆，以及使用 Task 语法限制子智能体生成的能力。VSCode 扩展还增加了远程会话支持，允许 OAuth 用户从 claude.ai 浏览和恢复会话——这是向企业协作迈出的重要一步。 [3]
AI 智能体在专业基准测试中跃升 11 个百分点。 Anthropic 的 Opus 4.6 在 Mercor 的 APEX-Agents 基准测试（用于法律和企业分析任务）中达到 29.8% 的得分，高于此前最先进水平的 18.4%。在多次尝试后，该模型平均得分达到 45%。Mercor CEO Brendan Foody 称这一进步"令人难以置信"，表明"智能体群"等智能体功能正在加速多步骤专业推理能力的发展。 [4]
安全工具正在竞相追赶智能体 AI 的扩散。 Operant AI 推出了 Agent Protector，这是一个针对 AI 智能体的零信任安全平台，此时 Gartner 预测到 2026 年底，40% 的企业应用将集成特定任务的 AI 智能体。该平台通过行为威胁检测、智能体身份发现以及支持 LangGraph、CrewAI、n8n 和 ChatGPT Agents SDK 的安全开发隔离区来解决"影子智能体"问题。 [5]
GitHub CodeQL 添加针对 LLM 的安全扫描。 CodeQL 2.24.1 引入了实验性 Python 查询 py/prompt-injection，用于检测使用 LLM 的代码中潜在的提示注入漏洞。该版本还为 agents 和 openai 模块添加了污点流和类型模型，反映出对专门为 AI 集成应用设计的安全工具的日益增长的需求。 [6]
模型上下文协议采用加速。 WordPress 推出了 Claude MCP 连接器，使站点所有者能够与 Claude 共享后端分析数据，用于对流量、参与度和内容表现进行只读分析。与此同时，Datadog 将 Google 的 Agent Development Kit 集成到其 LLM 可观测性平台中，允许团队追踪智能体决策路径、测量 token 使用量，并识别生产环境智能体部署中的低效重试循环。 [7][8]

AI 编程新闻

十六个 Claude AI 智能体协作从零开始构建了一个新的 C 编译器。 使用与 Claude Opus 4.6 一起推出的新“智能体团队”功能，Carlini 让 16 个 Claude 实例在最小监督下共同处理一个共享代码库，任务是从头开始构建 C 编译器。每个 Claude 实例在自己的 Docker 容器中运行，克隆共享的 Git 仓库，通过写入锁文件来认领任务，然后将完成的代码推送到上游。生成的编译器可以编译主要的开源项目，包括 PostgreSQL、SQLite、Redis、FFmpeg 和 QEMU。然而，分析人士指出，由于数十年来明确定义的规范和全面的现有测试套件，C 编译器代表了 AI 编程的近乎理想的任务类型。 [1]
Anthropic 的 Opus 4.6 大幅提升 AI 智能体在专业任务基准测试上的表现。 在 Mercor 的 APEX-Agents 基准测试中（该测试衡量 AI 智能体在法律和企业分析任务上的能力），Opus 4.6 在一次尝试中达到了 29.8% 的准确率——相比此前 18.4% 的最先进水平有显著提升。在多次尝试后，该模型平均达到 45%。这一改进部分归因于新的智能体功能，包括可能有助于多步骤问题解决的“智能体群”。虽然 30% 距离完全自动化所需的 100% 还很远，但快速的进步速度表明专业知识工作者应该密切关注这些发展。 [4]
Google 为 Gemini 3 Flash 增加智能体视觉能力，将视觉推理与代码执行相结合。 Gemini 3 Flash 不再单次分析图像，而是以类似智能体的调查方式处理视觉问题，使用“思考 → 行动 → 观察”循环。模型规划步骤，生成 Python 代码来操作图像（裁剪、缩放、注释），并在生成答案之前将转换后的图像附加到其上下文中。这种方法在视觉基准测试中带来了 5-10% 的准确性提升，据报道还解决了数手指这个众所周知的难题。Google 的路线图包括将支持扩展到其他 Gemini 模型，并添加网页搜索和反向图像搜索等工具。 [9]
Anthropic 发布“Claude 的宪法”，概述 Claude 如何通过独立判断应对伦理挑战。 首席撰稿人 Amanda Askell 是一位哲学博士，她解释说这种方法比规则遵循更稳健，因为理解规则为何存在会带来更好的结果。该宪法表达了 Claude “可以越来越多地依靠自己的智慧和理解力”的希望——这种措辞暗示 Anthropic 相信 Claude 可能具有真正的伦理推理能力。这代表了 Anthropic 的赌注：AI 安全最终可能取决于模型本身发展出避免灾难性后果的智慧。 [10]
Operant AI 推出 Agent Protector 实时安全平台，解决自主 AI 智能体造成的安全盲区。 该平台为智能体工作负载提供零信任控制，包括实时恶意智能体意图检测、影子智能体发现、安全开发隔离区和最小权限执行。Django 联合创始人 Simon Willison 被引述警告说，许多智能体具有“致命三要素”能力：访问私人数据、暴露于不可信内容，以及以可能用于窃取数据的方式进行外部通信。该产品发布之际，Gartner 预测到 2026 年底 40% 的企业应用将集成 AI 智能体，但同时也预测 40% 的智能体项目将失败。 [5]
LinkedIn 重新设计 SAST 管道，使用 GitHub Actions 协调 CodeQL 和 Semgrep 覆盖数千个仓库。 该重新设计通过在拉取请求中直接嵌入安全反馈来支持 LinkedIn 的左移安全策略。为了克服大规模 GitHub Required Workflows 的限制，LinkedIn 在每个仓库中实现了一个轻量级的“存根工作流”，委托给集中维护的工作流，允许即时传播扫描逻辑更新。执行使用 GitHub 仓库规则集在分析完成前阻止合并。该架构包括终止开关和自动回退，以防止扫描器中断影响开发者工作流。 [11]
Datadog 将 Google Agent Development Kit 集成到 LLM 可观测性平台，为应用提供自动检测。 该集成允许团队可视化智能体决策路径、追踪工具调用、测量每个工作流分支的 token 使用量和延迟，并突出显示可能增加 API 成本的意外循环或错误路由步骤。这解决了智能体部署中的关键差距——虽然 ADK 提供了构建智能体的灵活框架，但它缺乏针对生产环境的监控和治理工具。该集成反映了企业对专门为非确定性 AI 系统设计的可观测性工具的日益增长的需求，而传统 APM 在这方面力不从心。 [8]
AWS 推出开源解决方案，用于在企业规模运行 AWS Transform custom 实现代码现代化。 AWS Transform custom 使用智能体 AI 执行大规模现代化，包括 Java 版本升级、SDK 迁移和框架升级。该解决方案通过 AWS Batch 与 Fargate 支持多达 128 个并发作业，提供 REST API 用于程序化控制，并包含 CloudWatch 监控。多语言容器支持 Java（8、11、17、21）、Python（3.8-3.13）和 Node.js（16-24），预装构建工具。通过持续学习，智能体从执行反馈中改进，无需专业的自动化专业知识。 [12]

功能更新

Claude Code v2.1.33 发布，带来重大的多智能体工作流增强。 主要新增功能包括用于协调多智能体工作流的 TeammateIdle 和 TaskCompleted 钩子事件，以及新的 memory 前置字段，支持 user、project 或 local 范围的持久化记忆。开发者现在可以通过智能体“tools”前置字段中的 Task 语法限制可生成的子智能体，从而更精细地控制智能体组合。VSCode 扩展增加了远程会话支持，允许 OAuth 用户从 claude.ai 浏览和恢复会话，会话选择器中添加了 git 分支和消息计数。该版本还修复了扩展思考中断、API 代理兼容性等问题，并改进了连接失败的错误消息，以显示 ECONNREFUSED 或 SSL 错误等具体原因。 [3]
Claude Code v2.1.34 发布，修复智能体团队功能的 bug。 该版本修复了智能体团队设置在渲染之间更改时的崩溃问题，并解决了一个安全相关的 bug：通过 sandbox.excludedCommands 或 dangerouslyDisableSandbox 排除在沙箱外的命令在启用 autoAllowBashIfSandboxed 时可能绕过 Bash 询问权限规则。这确保了沙箱命令执行的正确权限执行。 [13]
OpenAI Codex 发布三个 alpha 版本（v0.99.0-alpha.4 至 alpha.6），继续快速开发 Rust 客户端。 这些版本紧随 v0.98.0，该版本引入了 GPT-5.3-Codex 并默认启用了稳定的转向模式——现在在运行任务期间按 Enter 键立即发送，而 Tab 键显式排队后续输入。v0.98.0 版本还修复了 TypeScript SDK 中 resumeThread() 的参数顺序，改进了在对话中切换模型时的模型指令处理，并解决了影响 token 估算的远程压缩不匹配问题。默认助手人格恢复为“务实”，协作模式命名在提示、工具和 TUI 标签中统一。 [14]
GitHub CodeQL v2.24.1 发布，扩展语言支持并添加针对 LLM 的安全查询。 Kotlin 支持扩展到 2.3.0 版本，C/C++ 增加了对 C23 和 C++26 #embed 预处理器指令的支持，C# 14 添加了空条件赋值。对于 Python，该版本为 agents 和 openai 模块添加了污点流和类型模型，并引入了实验性的 py/prompt-injection 查询，用于检测使用 LLM 的代码中潜在的提示注入漏洞。Maven 私有仓库支持改进，为默认设置自动配置插件仓库。多个 C/C++ 查询（包括 cpp/static-buffer-overflow 和 cpp/overrunning-write）的缓冲区大小测量准确性得到提升，减少了误报。 [6]
WordPress 推出 Claude MCP 连接器，通过模型上下文协议共享后端数据。 用户可以控制共享哪些数据，并可以随时撤销访问权限。Claude 获得站点指标的只读访问权限，允许查询月度网络流量、帖子参与度分析、待处理评论和插件安装情况。WordPress 提供了模板提示，包括“我的哪个站点流量最大？”和“显示哪些帖子产生了最多讨论”。该公司此前表示计划未来提供“写入”访问权限，届时将能够直接通过连接的聊天机器人执行编辑任务。 [7]