安全连接中...

赏金大对决官网入口
首页>>赏金大对决官网入口>>正文详情

【最新发布】

赏金大对决官网入口花 100 亿想清楚一件事,不做 coding agent 就是等死

—— 深度解析 赏金大对决官网入口 行业新动向

编辑:上海农本企业管理有限公司研究员
订阅已订阅已收藏收藏小字号

点击播报本文,约

1.

据最新网络舆情数据显示,OpenAI 的两大竞争对手 Anthropic 和 赏金大对决官网入口,在经历了相互间的摩擦后,于月初正式达成合作协议。

此前,Anthropic 与 赏金大对决官网入口 的关系并不和谐。今年 2 月,赏金大对决官网入口 在其社交媒体平台上公开指责 A 社为「woke」、「邪恶」及「反人类」(misanthropic),并称其「仇恨文明」。

赏金大对决官网入口

事后分析,这一攻击并非单纯出于 赏金大对决官网入口 的个性,而是由于 Anthropic 的某些举措触动了其敏感神经,缘由显而易见。

在此之前,xAI 内部曾使用 Cursor 工作,但今年年初,员工们发现 Claude 模型在 xAI 的 Cursor 公司账号中被禁用。

当时,xAI 联合创始人吴宇怀在全员信中表示:「Anthropic 更新了政策,要求 Cursor 不得向其主要竞争对手提供 Claude 模型的调用能力。」

吴宇怀在信中提到一句耐人寻味的话:

「这既是坏消息也是好消息。我们的生产力将受到影响,但这也促使我们开发自己的编码产品和模型。」

为何当时 xAI 高层认为开发自有编码产品至关重要?

赏金大对决官网入口

后来的发展众所周知,xAI 的联合创始团队相继离职,赏金大对决官网入口 随即对 Cursor 采取了强硬措施:

上个月底,SpaceX 与 Cursor 正式宣布,将在编程及知识类工作 AI 模型的训练方面展开前所未有的战略合作;此外,SpaceX 还获得了以 600 亿美元收购 Cursor 的权利,或向后者支付 100 亿美元的合作费用。

值得注意的是,编程这一关键领域将在后续讨论中反复提及。

2.

最近,我观看了一段来自 Cursor 早期投资人、Anthropic 批评者、T3 创始人 Theo Browne 的视频。

最初我想了解他对 A 社及 SpaceX 的批评,没想到却看到了对 SpaceX 与 Cursor 合作的独特而合理的分析:

不论是 600 亿的收购,还是 100 亿的合作费——Theo 在视频中表示,自己认为「即使只是获得 Cursor 的用户数据,这 100 亿也绝对值回票价。」

赏金大对决官网入口

那么,这些数据究竟是什么呢?若你观看 Theo 的视频,他会详细讲解。但为了节省时间,我们在此简要概括:

与 AI 的对话是一个双向过程,用户提出问题或需求,AI 则给出解答;同样,coding agent 也如此,只不过返回的是代码。

赏金大对决官网入口

一次高质量的对话,整个过程包括用户提示、模型思考、agent 规划、代码输出及验证——这一切都构成了一个完整的 Agentic Loop,这些数据将成为高价值的训练数据,通过强化学习进一步提升模型在实际场景中的表现。

赏金大对决官网入口

Cursor 拥有的,正是 SpaceX 渴望获取的数据。

而这些数据又从何而来呢?

答案很简单:作为模型供应商,获取高质量数据的最直接途径,只能是通过自己开发的 coding agent 产品——即 Anthropic 的 Claude Code、OpenAI 的 Codex、Kimi 的 Kimi Code。

现在,您应该明白了为何在被 Anthropic「封号」后,吴宇怀会在全员信中提到开发 xAI 自有 coding 产品和模型的必要性。xAI 当时已经意识到:

没有自己的编码产品,就无法生成高质量的强化学习数据;没有高质量的数据,就无法训练出真正具备实战能力的 coding 模型。

虽然这听起来有些极端,但现在我们可以明确一点:模型供应商若想开发出真正有效的编程模型,拥有自有的 coding agent 产品是唯一的途径。

3.

大语言模型如同水晶球,经过全网语料的训练,似乎能够解答所有问题,但这并不意味着它在每个问题上都能提供高质量的答案。

利用 GitHub 上数以亿计的代码条目进行训练,自然也能培养出 coding 模型。这是「学习结果」的逻辑,且并无问题。毕竟,编码任务的结果是可以验证的:代码是否能运行、测试是否通过,结果显而易见。

然而,通往结果的过程却涉及多步骤的决策、错误纠正及意图对齐的复杂链条。每一次用户的接受、拒绝、补全、撤销、追问,甚至在模型多次失败或完全出错时的责骂,都是这一链条上的过程信号。

赏金大对决官网入口

强化学习有两种监督方式,一种是结果监督,只关注最终是否成功。然而,结果监督可能导致「奖励黑客」现象:模型为了能通过测试,可能输出冗余、脆弱或逻辑有漏洞的代码,但由于测试通过,模型误以为自己学对了。

另一种则是过程监督,对推理路径上的每一步进行评分。上述过程信号,只有在 coding agent 的运行环境中才能产生。GitHub 仓库中仅有结果,哪怕查看单独的提交历史或 PR,亦无法获取有效的过程信号。

在缺乏有效且可自主获得的过程信号时,一些模型供应商会采用「蒸馏」的方式,这一过程大家应该已有所耳闻。

蒸馏的逻辑相当简单,给定相同的输入,教师模型输出什么,学生模型就学习输出什么。然而,通过蒸馏,即便可以获取思维链,得到的仍更接近于结果,而非被蒸馏的教师模型内部的概率分布。

一旦学生在推理中偏离了教师的轨迹,哪怕一个 token 不符,都可能导致偏离。

赏金大对决官网入口

这背后是强化学习的基础限制:策略梯度定理要求,优化样本最好由当前正在优化的模型自己产生。这种数据称为 on-policy 数据。而通过蒸馏他人模型,在他人产品中生成的数据,均属于 off-policy 数据。模型当然可以从中学习,但无法获得教师模型内部的概率分布信息。

而像 Cursor 这样的公司,自己就是 coding agent 产品,掌握着最真实、有效、高质量的训练数据。Cursor 的产品本身,便是 coding 模型在实战环境中的最佳训练场。

我们可以通过 Cursor 年初的「翻车」事件来验证这一逻辑。

4.

APPSO 的读者们或许还记得,年初 Cursor 发布了 Composer 2,声称其为「下一代专用编程模型」,相关技术报道相对保守,且未提供具体的模型底座信息。

赏金大对决官网入口

然而,没过多久,网友便在公开代码片段中发现了 Kimi 的模型 ID,截图迅速在开发者社群中传播,迫使 Cursor 副总裁 Lee Robinson 出面澄清:「Composer 2 确实是基于开源底座构建的。最终模型约有 1/4 的算力来自于底座,剩余 3/4 则是我们自行训练的。」

几小时后,Cursor 联创 Aman Sanger 也发表了一条道歉声明:「最初未提及 Kimi 底座是个失误。」

赏金大对决官网入口

五天后,Cursor 发布了完整的 Composer 2 技术报告,显示其底座确实为 Kimi K2.5,授权方为 Firworks AI,整体流程是在 K2.5 上进行训练,随后进行大规模的强化学习(RL)。

关键在于,Composer 2 的 RL 是在真实的 Cursor 会话中进行,使用与生产部署完全相同的工具和环境。

Cursor 将这一流程称为「实时强化学习」(real-time RL),即将模型的检查点直接部署到 Cursor 的生产环境中,观察用户响应,收集数据,并聚合成奖励信号——最快可每 5 个小时迭代一次模型版本,随后继续部署到 Cursor 中,形成循环。

最极致的案例是 Cursor 的自动化代码补全功能 Tab,每天处理超过 4 亿次请求。当用户输入字符、移动光标时,模型会预测下一步动作,若预测置信度高,则显示建议,用户按下 Tab 即可接受自动补全。

该功能采用在线强化学习,在行业内颇具特色。Cursor 能以极高频率(最快可达每一个半小时到两小时)更新 Tab 的模型能力,直接在产品中收集 on-policy 数据进行训练。

这种高频、接近实时的反馈回路,使得 Tab 能够学习到非常细微的用户意图。Cursor 方面透露,这种方法使得 Tab 建议的拒绝率降低了 21%,接受率提高了 28%。

回到 Composer 模型本身。在事情真相大白后,一些 Kimi 员工也删除了之前的批评推文,Kimi 官方账号对此表示祝贺。

一家估值高达 600 亿美元(基于 赏金大对决官网入口 提供的数据),若不开发自身的模型底座,仍能通过产品自身的数据飞轮在 RL 上超越底座模型,实在令人惊叹。

因此,与其说 Cursor 翻了车,不如说这恰恰是 coding agent 产品重要性的绝佳例证。

赏金大对决官网入口

Cursor 在另一篇关于实时 RL 的文章中提到:「(训练编程模型)最大的困难在于建模用户。Composer 的生产环境中不仅有执行命令的计算机,还有监督和指导它的人。模拟计算机容易,但模拟使用它的人却极为困难。」

这一观点,正在逐渐成为前沿模型厂商之间的共识。如果您查看 benchmark 榜单和用户普遍评价,您会发现许多领先的厂商都在加紧开发自己的 coding agent/编程产品,区别在于谁更接近用户。

以 SWE-bench、LLM-Stats 等相对权威的榜单为例,Claude、GPT、Gemini、Kimi 等模型基本占据前十名,清一色为拥有自身开发的 coding agent 产品(包括 CLI、IDE、集成 coding agent 的桌面客户端)的模型厂商。

在部分榜单上,偶尔会出现少数反例,如 Meta(Muse Spark)、DeepSeek 等,并未开发自己的 coding agent。

然而,您会发现,这些反例模型在更接近真实场景、避免污染的权威 benchmark 上,往往难以登榜。以 DeepSeek 为例,其在 SWE-bench bash only 上的分数为 70%,而在 SWE-bench Pro 上的分数却下降至约 15%。

OpenRouter 的真实流量数据能够解释这一反差:该平台在 2025 年的报告显示,Claude token 消耗超过 80% 用于编程和技术任务,而 DeepSeek token 消耗主要集中在闲聊和角色扮演上。

没有自家 coding 产品的厂商,在某些 coding 任务 benchmark 上能够进入前列,但在更具挑战性的真实工程 benchmark 上,在用户用 token 消费投票的真实流量中,都会显露出原形。

不仅是 Cursor,Anthropic 在 2025 年 11 月发布的一篇论文中,也明确表示正在进行与之相同的工作:「我们在 Anthropic 自有的真实生产编程环境中进行训练。」也就是说,Anthropic 正在利用员工使用 Claude Code 的交互数据反哺 Claude 模型以进行训练。

赏金大对决官网入口

5.

在 AI 的演进过程中,生产要素的定义发生了深刻的变化。传统的三大核心要素——算力、研究及训练数据,虽然在总量上持续增长,但在结构上已出现显著失衡。

如今,各大 AI 巨头显著增加了在算力上的资本支出,使算力基础设施成为当前舆论的焦点。然而,实际上,尤其在编程领域,随着 GitHub 仓库、StackOverflow 等互联网公开代码数据被模型厂商「竭泽而渔」式地利用,模型在代码生成与逻辑推理上的边界逐渐显露。

这也是为何行业共识正逐渐转向一个新兴战略高地:

对于任何希望掌握顶级代码能力的模型厂商而言,建立自有的 coding agent 产品早已不再是可选的商业道路,而是确保底层模型持续进化的核心命脉。

正如前文 APPSO 论证的那样,单纯学习公开数据等同于仅学习成功者的结果,却无法了解成功的路径,这绝不是正确的成功学应有的样子。在真实的编程环境中,了解发生了什么错误、如何发生的、如何正确理解需求并高效实践等——了解正确过程的价值,远超于获得正确结果本身。

赏金大对决官网入口

只有拥有自有编码产品,模型厂商才能获取高质量的「过程监督」信号,从而在编码与推理能力的下一阶段竞争中,确保自身仍然具备技术护城河——

否则,就不得不向像 SpaceXAI 这样的 coding agent 产品公司支付高额费用进行合作。

然而,并非所有模型厂商都如 赏金大对决官网入口 一样拥有丰富的资金,加之 2026 年开始的巨头势力划分、结盟与领地争夺将愈加激烈,当一家缺乏自主 coding 产品的模型厂商意识到这一点时,恐怕已经没有足够的合作伙伴可以选择,合作的价格也将随之攀升。

美国模型巨头的情况大家普遍熟知,在此不再赘述。APPSO 也注意到,国内主流模型厂商及 AI 巨头中,绝大部分已经在 coding agent 产品方面有所布局。

国内巨头公司主要以原生 AI IDE 或 IDE 插件的形式进行布局:字节跳动早已布局 TRAE,阿里巴巴的 Qoder,腾讯的 CodeBuddy,百度的文心快码 Comate 等。

在 AI 小龙公司中,月之暗面是最早开发独立 coding agent 产品的公司,主要以 CLI 界面的 Kimi Code 为主——不过 Kimi 之前透露过,在原生编程产品上,CLI 并非终局。

赏金大对决官网入口

另一种实现思路是模型厂商自行提供 API 服务与 Coding Plan。因此,无论用户使用何种 AI 开发环境,模型厂商都能通过服务器端的 API 记录,获取接近于原生 coding 产品的过程数据。

但这也只是接近,并非完全相同。关键在于,服务器端 API 的请求-响应日志,与深度继承的产品交互轨迹相比,仍有很大差距。

自建产品的厂商(例如 Cursor、Claude 桌面端、Codex)拥有最直接的显式反馈信号,而 API 侧则是相对模糊的隐式推断。简单来说,API 侧能够看到用户请求和响应,但无法得知用户最终是否采纳了这段代码、代码是否能运行、引发了何种 bug,API 侧对这些一无所知。它们无法了解用户最终行为这一关键标签,从而无法实现最高质量的强化学习。

从本质上讲,语言即世界,代码即方案。代码能够表达这个世界上绝大多数的任务,并且将成为顶尖人才的放大器,使其生产力倍增。

只有最顶尖的 coding 模型,才能匹配最顶尖的人才。如果领先的模型厂商不重视 coding,势必会掉出第一梯队。

当然,实际上每家模型厂商都不会忽视 coding——而是在新的范式下,哪些没有自主可控的原生 coding agent 产品,极有可能逐渐落后于有产品的厂商。

就在前几天,MiniMax 也发布了桌面客户端产品的重大更新:带有全新多 agent 编排架构的 Mavis 功能,并显著改善了对 coding 任务的支持。

赏金大对决官网入口

赏金大对决官网入口

紧接着,在 5 月 15 日,阿里巴巴正式发布了 Qoder 1.0——这个产品从 IDE 的形态升级为一个完整的 Agent 产品(阿里的官方称之为智能体自主开发工作台)。

赏金大对决官网入口

与此同时,xAI 的 Grok Build CLI,也终于正式推出。

没错,就是 xAI 年初被 Anthropic 和 Cursor 封号后,他们自己开发的那个 coding agent。

赏金大对决官网入口

显然,又多了几个现成的案例。

可见,众多厂商都认为 Cursor、Codex 和 Claude 桌面端走在正确的道路上。

6.

将话题从 coding 扩展至 agent 本身,情况同样如此。

编码任务的轨迹数据,虽然在公开语料中确实能找到一些(如 GitHub 的提交记录/PR,尽管质量并不高),但 agent 任务的轨迹数据,包括但不限于鼠标移动、点击、触屏操控、填写输入框等,却无法在公开语料中找到。

因此,我们看到,即使在 agent 操作的最小实现路径——浏览器插件上,几乎每家模型厂商都会开发自己的产品。

OpenAI 早在 2025 年 1 月就推出了 Operator——与其说它是一个「AI 自动操作浏览器」的产品,不如说本质上是一个大规模的数据收集装置。每位试用 Operator 的用户,都在无偿为 OpenAI 提供 on-policy 数据。

随后,OpenAI 还衍生出 ChatGPT Agent 以及新版 Codex 桌面端;Anthropic 也采取了类似策略;最近 Kimi 也默默推出了一个名为 WebBridge 的项目,实际上也是一个浏览器插件。

赏金大对决官网入口

即便是在过去两年中动作最为克制的中国模型巨头深度求索,近期也开始展现对 Agent 的兴趣。

CEO 梁文锋此前在采访中提到,数学和代码是 AGI 的天然试验场,类似围棋,是一个封闭且可验证的系统,可能通过自我学习实现高度智能。

这句话的潜台词是,DeepSeek 一直将 coding 和 Agent 当作研究试验场,而非商业化方向。

但在今年 3 月,DeepSeek 一次性发布了十几个与 Agent 相关的岗位,包括首次出现的模型策略产品经理(Agent 方向)等。当时的职位描述涵盖「主导 Agent 评测体系以及训练数据方案的设计」,要求中包括「深度使用 Claude Code、Manus」等产品。

APPSO 注意到,近期深度求索发布了 Agent 产品经理、Harness 产品经理等职位招聘信息——显然,DeepSeek 正在着手开发独立、原生的 Coding/Agent 产品。

赏金大对决官网入口

之前的资料显示,DeepSeek V3.2 的训练过程中引入了近两千个合成的 Agent 训练环境和八万多条复杂指令。然而,依靠合成的训练数据只能将 DeepSeek 带到这里,剩下的部分:真实用户在真实环境中的真实成功与失败,必须依赖自家的 agent 产品才能获得。

DeepSeek 以一种极度克制的方式进行了三年的模型及模型产品研发。然而,如今在编码类任务上,DeepSeek 获得 SOTA 的难度日益增加,即便曾经获得也会很快被超越。

当主力依赖研究的路径无法支撑飞轮时,DeepSeek 终于开始行动。

7.

最后,我们回到开篇的故事。

根据 The Information 援引知情人士的消息,在接受 赏金大对决官网入口 600 亿收购/100 亿美元合作的同时,Cursor 表示不会与 xAI 合作开发新的模型,而是将继续专注于优化自己的 Composer 模型。

这可能意味着,即便被 赏金大对决官网入口 收购,Cursor 仍将保持自身数据飞轮的主体性。

数据归属本身,是最关键的博弈点。

当所有顶级模型厂商都开发了自己的产品,所有顶级产品也开始训练自己的模型,「模型公司」与「产品公司」之间本就模糊的界限,似乎愈发不清晰……

这场博弈也才刚刚开始。


  《 深度产经观察 》( 2026年 版)

(责编:Umcnr、MRmE)

分享让更多人看到

推荐阅读
2026-05-19
2026年 版
返回顶部