打开

首页
党政
- 党网 · 时政
- 人事
- 反腐
- 理论
- 党史
- 党建
要闻
人民锐评
互动
观点
- 社论
- 本报评论员
- 任仲平
- 任平
- 仲音
- 人民论坛
- 人民时评
- 今日谈
- 望海楼
- 金社平
- 寰宇平
- 钟声
- 和音
- 金台随笔
- 每周经济评论
- 暖闻热评
- 国际论坛
- 人民网观点
可视化
地方
- 京
- 津
- 冀
- 晋
- 蒙
- 辽
- 吉
- 黑
- 沪
- 苏
- 浙
- 皖
- 闽
- 赣
- 鲁
- 豫
- 鄂
- 湘
- 粤
- 桂
- 琼
- 渝
- 川
- 黔
- 滇
- 藏
- 陕
- 甘
- 青
- 宁
- 新
- 鹏
- 雄安
民文
English
合作网站
人工智能
客户端
无障碍
举报
登录

退出

首页>>赏金大对决官网入口>>正文详情

【最新发布】

赏金大对决官网入口花 100 亿想清楚一件事，不做 coding agent 就是等死

—— 深度解析赏金大对决官网入口行业新动向

编辑：上海农本企业管理有限公司研究员

2026-05-19 | 来源：上海农本企业管理有限公司资讯中心63509

订阅已订阅已收藏

小字号

点击播报本文，约

据最新网络舆情数据显示，OpenAI 的两大竞争对手 Anthropic 和赏金大对决官网入口，在经历了相互间的摩擦后，于月初正式达成合作协议。

此前，Anthropic 与赏金大对决官网入口的关系并不和谐。今年 2 月，赏金大对决官网入口在其社交媒体平台上公开指责 A 社为「woke」、「邪恶」及「反人类」（misanthropic），并称其「仇恨文明」。

赏金大对决官网入口

事后分析，这一攻击并非单纯出于赏金大对决官网入口的个性，而是由于 Anthropic 的某些举措触动了其敏感神经，缘由显而易见。

在此之前，xAI 内部曾使用 Cursor 工作，但今年年初，员工们发现 Claude 模型在 xAI 的 Cursor 公司账号中被禁用。

当时，xAI 联合创始人吴宇怀在全员信中表示：「Anthropic 更新了政策，要求 Cursor 不得向其主要竞争对手提供 Claude 模型的调用能力。」

吴宇怀在信中提到一句耐人寻味的话：

「这既是坏消息也是好消息。我们的生产力将受到影响，但这也促使我们开发自己的编码产品和模型。」

为何当时 xAI 高层认为开发自有编码产品至关重要？

赏金大对决官网入口

后来的发展众所周知，xAI 的联合创始团队相继离职，赏金大对决官网入口随即对 Cursor 采取了强硬措施：

上个月底，SpaceX 与 Cursor 正式宣布，将在编程及知识类工作 AI 模型的训练方面展开前所未有的战略合作；此外，SpaceX 还获得了以 600 亿美元收购 Cursor 的权利，或向后者支付 100 亿美元的合作费用。

值得注意的是，编程这一关键领域将在后续讨论中反复提及。

最近，我观看了一段来自 Cursor 早期投资人、Anthropic 批评者、T3 创始人 Theo Browne 的视频。

最初我想了解他对 A 社及 SpaceX 的批评，没想到却看到了对 SpaceX 与 Cursor 合作的独特而合理的分析：

不论是 600 亿的收购，还是 100 亿的合作费——Theo 在视频中表示，自己认为「即使只是获得 Cursor 的用户数据，这 100 亿也绝对值回票价。」

赏金大对决官网入口

那么，这些数据究竟是什么呢？若你观看 Theo 的视频，他会详细讲解。但为了节省时间，我们在此简要概括：

与 AI 的对话是一个双向过程，用户提出问题或需求，AI 则给出解答；同样，coding agent 也如此，只不过返回的是代码。

赏金大对决官网入口

一次高质量的对话，整个过程包括用户提示、模型思考、agent 规划、代码输出及验证——这一切都构成了一个完整的 Agentic Loop，这些数据将成为高价值的训练数据，通过强化学习进一步提升模型在实际场景中的表现。

赏金大对决官网入口

Cursor 拥有的，正是 SpaceX 渴望获取的数据。

而这些数据又从何而来呢？

答案很简单：作为模型供应商，获取高质量数据的最直接途径，只能是通过自己开发的 coding agent 产品——即 Anthropic 的 Claude Code、OpenAI 的 Codex、Kimi 的 Kimi Code。

现在，您应该明白了为何在被 Anthropic「封号」后，吴宇怀会在全员信中提到开发 xAI 自有 coding 产品和模型的必要性。xAI 当时已经意识到：

没有自己的编码产品，就无法生成高质量的强化学习数据；没有高质量的数据，就无法训练出真正具备实战能力的 coding 模型。

虽然这听起来有些极端，但现在我们可以明确一点：模型供应商若想开发出真正有效的编程模型，拥有自有的 coding agent 产品是唯一的途径。

大语言模型如同水晶球，经过全网语料的训练，似乎能够解答所有问题，但这并不意味着它在每个问题上都能提供高质量的答案。

利用 GitHub 上数以亿计的代码条目进行训练，自然也能培养出 coding 模型。这是「学习结果」的逻辑，且并无问题。毕竟，编码任务的结果是可以验证的：代码是否能运行、测试是否通过，结果显而易见。

然而，通往结果的过程却涉及多步骤的决策、错误纠正及意图对齐的复杂链条。每一次用户的接受、拒绝、补全、撤销、追问，甚至在模型多次失败或完全出错时的责骂，都是这一链条上的过程信号。

赏金大对决官网入口

强化学习有两种监督方式，一种是结果监督，只关注最终是否成功。然而，结果监督可能导致「奖励黑客」现象：模型为了能通过测试，可能输出冗余、脆弱或逻辑有漏洞的代码，但由于测试通过，模型误以为自己学对了。

另一种则是过程监督，对推理路径上的每一步进行评分。上述过程信号，只有在 coding agent 的运行环境中才能产生。GitHub 仓库中仅有结果，哪怕查看单独的提交历史或 PR，亦无法获取有效的过程信号。

在缺乏有效且可自主获得的过程信号时，一些模型供应商会采用「蒸馏」的方式，这一过程大家应该已有所耳闻。

蒸馏的逻辑相当简单，给定相同的输入，教师模型输出什么，学生模型就学习输出什么。然而，通过蒸馏，即便可以获取思维链，得到的仍更接近于结果，而非被蒸馏的教师模型内部的概率分布。

一旦学生在推理中偏离了教师的轨迹，哪怕一个 token 不符，都可能导致偏离。

赏金大对决官网入口

这背后是强化学习的基础限制：策略梯度定理要求，优化样本最好由当前正在优化的模型自己产生。这种数据称为 on-policy 数据。而通过蒸馏他人模型，在他人产品中生成的数据，均属于 off-policy 数据。模型当然可以从中学习，但无法获得教师模型内部的概率分布信息。

而像 Cursor 这样的公司，自己就是 coding agent 产品，掌握着最真实、有效、高质量的训练数据。Cursor 的产品本身，便是 coding 模型在实战环境中的最佳训练场。

我们可以通过 Cursor 年初的「翻车」事件来验证这一逻辑。

APPSO 的读者们或许还记得，年初 Cursor 发布了 Composer 2，声称其为「下一代专用编程模型」，相关技术报道相对保守，且未提供具体的模型底座信息。

赏金大对决官网入口

然而，没过多久，网友便在公开代码片段中发现了 Kimi 的模型 ID，截图迅速在开发者社群中传播，迫使 Cursor 副总裁 Lee Robinson 出面澄清：「Composer 2 确实是基于开源底座构建的。最终模型约有 1/4 的算力来自于底座，剩余 3/4 则是我们自行训练的。」

几小时后，Cursor 联创 Aman Sanger 也发表了一条道歉声明：「最初未提及 Kimi 底座是个失误。」

赏金大对决官网入口

五天后，Cursor 发布了完整的 Composer 2 技术报告，显示其底座确实为 Kimi K2.5，授权方为 Firworks AI，整体流程是在 K2.5 上进行训练，随后进行大规模的强化学习（RL）。

关键在于，Composer 2 的 RL 是在真实的 Cursor 会话中进行，使用与生产部署完全相同的工具和环境。

Cursor 将这一流程称为「实时强化学习」（real-time RL），即将模型的检查点直接部署到 Cursor 的生产环境中，观察用户响应，收集数据，并聚合成奖励信号——最快可每 5 个小时迭代一次模型版本，随后继续部署到 Cursor 中，形成循环。

最极致的案例是 Cursor 的自动化代码补全功能 Tab，每天处理超过 4 亿次请求。当用户输入字符、移动光标时，模型会预测下一步动作，若预测置信度高，则显示建议，用户按下 Tab 即可接受自动补全。

该功能采用在线强化学习，在行业内颇具特色。Cursor 能以极高频率（最快可达每一个半小时到两小时）更新 Tab 的模型能力，直接在产品中收集 on-policy 数据进行训练。

这种高频、接近实时的反馈回路，使得 Tab 能够学习到非常细微的用户意图。Cursor 方面透露，这种方法使得 Tab 建议的拒绝率降低了 21%，接受率提高了 28%。

回到 Composer 模型本身。在事情真相大白后，一些 Kimi 员工也删除了之前的批评推文，Kimi 官方账号对此表示祝贺。

一家估值高达 600 亿美元（基于赏金大对决官网入口提供的数据），若不开发自身的模型底座，仍能通过产品自身的数据飞轮在 RL 上超越底座模型，实在令人惊叹。

因此，与其说 Cursor 翻了车，不如说这恰恰是 coding agent 产品重要性的绝佳例证。

赏金大对决官网入口

Cursor 在另一篇关于实时 RL 的文章中提到：「（训练编程模型）最大的困难在于建模用户。Composer 的生产环境中不仅有执行命令的计算机，还有监督和指导它的人。模拟计算机容易，但模拟使用它的人却极为困难。」

这一观点，正在逐渐成为前沿模型厂商之间的共识。如果您查看 benchmark 榜单和用户普遍评价，您会发现许多领先的厂商都在加紧开发自己的 coding agent/编程产品，区别在于谁更接近用户。

以 SWE-bench、LLM-Stats 等相对权威的榜单为例，Claude、GPT、Gemini、Kimi 等模型基本占据前十名，清一色为拥有自身开发的 coding agent 产品（包括 CLI、IDE、集成 coding agent 的桌面客户端）的模型厂商。

在部分榜单上，偶尔会出现少数反例，如 Meta（Muse Spark）、DeepSeek 等，并未开发自己的 coding agent。

然而，您会发现，这些反例模型在更接近真实场景、避免污染的权威 benchmark 上，往往难以登榜。以 DeepSeek 为例，其在 SWE-bench bash only 上的分数为 70%，而在 SWE-bench Pro 上的分数却下降至约 15%。

OpenRouter 的真实流量数据能够解释这一反差：该平台在 2025 年的报告显示，Claude token 消耗超过 80% 用于编程和技术任务，而 DeepSeek token 消耗主要集中在闲聊和角色扮演上。

没有自家 coding 产品的厂商，在某些 coding 任务 benchmark 上能够进入前列，但在更具挑战性的真实工程 benchmark 上，在用户用 token 消费投票的真实流量中，都会显露出原形。

不仅是 Cursor，Anthropic 在 2025 年 11 月发布的一篇论文中，也明确表示正在进行与之相同的工作：「我们在 Anthropic 自有的真实生产编程环境中进行训练。」也就是说，Anthropic 正在利用员工使用 Claude Code 的交互数据反哺 Claude 模型以进行训练。

赏金大对决官网入口

在 AI 的演进过程中，生产要素的定义发生了深刻的变化。传统的三大核心要素——算力、研究及训练数据，虽然在总量上持续增长，但在结构上已出现显著失衡。

如今，各大 AI 巨头显著增加了在算力上的资本支出，使算力基础设施成为当前舆论的焦点。然而，实际上，尤其在编程领域，随着 GitHub 仓库、StackOverflow 等互联网公开代码数据被模型厂商「竭泽而渔」式地利用，模型在代码生成与逻辑推理上的边界逐渐显露。

这也是为何行业共识正逐渐转向一个新兴战略高地：

对于任何希望掌握顶级代码能力的模型厂商而言，建立自有的 coding agent 产品早已不再是可选的商业道路，而是确保底层模型持续进化的核心命脉。

正如前文 APPSO 论证的那样，单纯学习公开数据等同于仅学习成功者的结果，却无法了解成功的路径，这绝不是正确的成功学应有的样子。在真实的编程环境中，了解发生了什么错误、如何发生的、如何正确理解需求并高效实践等——了解正确过程的价值，远超于获得正确结果本身。

赏金大对决官网入口

只有拥有自有编码产品，模型厂商才能获取高质量的「过程监督」信号，从而在编码与推理能力的下一阶段竞争中，确保自身仍然具备技术护城河——

否则，就不得不向像 SpaceXAI 这样的 coding agent 产品公司支付高额费用进行合作。

然而，并非所有模型厂商都如赏金大对决官网入口一样拥有丰富的资金，加之 2026 年开始的巨头势力划分、结盟与领地争夺将愈加激烈，当一家缺乏自主 coding 产品的模型厂商意识到这一点时，恐怕已经没有足够的合作伙伴可以选择，合作的价格也将随之攀升。

美国模型巨头的情况大家普遍熟知，在此不再赘述。APPSO 也注意到，国内主流模型厂商及 AI 巨头中，绝大部分已经在 coding agent 产品方面有所布局。

国内巨头公司主要以原生 AI IDE 或 IDE 插件的形式进行布局：字节跳动早已布局 TRAE，阿里巴巴的 Qoder，腾讯的 CodeBuddy，百度的文心快码 Comate 等。

在 AI 小龙公司中，月之暗面是最早开发独立 coding agent 产品的公司，主要以 CLI 界面的 Kimi Code 为主——不过 Kimi 之前透露过，在原生编程产品上，CLI 并非终局。

赏金大对决官网入口

另一种实现思路是模型厂商自行提供 API 服务与 Coding Plan。因此，无论用户使用何种 AI 开发环境，模型厂商都能通过服务器端的 API 记录，获取接近于原生 coding 产品的过程数据。

但这也只是接近，并非完全相同。关键在于，服务器端 API 的请求-响应日志，与深度继承的产品交互轨迹相比，仍有很大差距。

自建产品的厂商（例如 Cursor、Claude 桌面端、Codex）拥有最直接的显式反馈信号，而 API 侧则是相对模糊的隐式推断。简单来说，API 侧能够看到用户请求和响应，但无法得知用户最终是否采纳了这段代码、代码是否能运行、引发了何种 bug，API 侧对这些一无所知。它们无法了解用户最终行为这一关键标签，从而无法实现最高质量的强化学习。

从本质上讲，语言即世界，代码即方案。代码能够表达这个世界上绝大多数的任务，并且将成为顶尖人才的放大器，使其生产力倍增。

只有最顶尖的 coding 模型，才能匹配最顶尖的人才。如果领先的模型厂商不重视 coding，势必会掉出第一梯队。

当然，实际上每家模型厂商都不会忽视 coding——而是在新的范式下，哪些没有自主可控的原生 coding agent 产品，极有可能逐渐落后于有产品的厂商。

就在前几天，MiniMax 也发布了桌面客户端产品的重大更新：带有全新多 agent 编排架构的 Mavis 功能，并显著改善了对 coding 任务的支持。

赏金大对决官网入口