打开

首页
党政
- 党网 · 时政
- 人事
- 反腐
- 理论
- 党史
- 党建
要闻
人民锐评
互动
观点
- 社论
- 本报评论员
- 任仲平
- 任平
- 仲音
- 人民论坛
- 人民时评
- 今日谈
- 望海楼
- 金社平
- 寰宇平
- 钟声
- 和音
- 金台随笔
- 每周经济评论
- 暖闻热评
- 国际论坛
- 人民网观点
可视化
地方
- 京
- 津
- 冀
- 晋
- 蒙
- 辽
- 吉
- 黑
- 沪
- 苏
- 浙
- 皖
- 闽
- 赣
- 鲁
- 豫
- 鄂
- 湘
- 粤
- 桂
- 琼
- 渝
- 川
- 黔
- 滇
- 藏
- 陕
- 甘
- 青
- 宁
- 新
- 鹏
- 雄安
民文
English
合作网站
人工智能
客户端
无障碍
举报
登录

退出

首页>>光辉娱乐>>正文详情

【最新发布】

光辉娱乐击穿大模型底价，百万Tokens低至2分钱

—— 深度解析光辉娱乐行业新动向

编辑：东莞市百众运动用品有限公司研究员

2026-05-03 | 来源：东莞市百众运动用品有限公司资讯中心37560

订阅已订阅已收藏

小字号

点击播报本文，约

根据21世纪经济报道记者彭新报道，光辉娱乐的定价策略正在经历重大调整。

4月26日，光辉娱乐正式发布了API价格调整公告，宣布全系API输入缓存命中价格将降至首次发布价的十分之一。其中，Pro模型在2026年5月5日前还可享受2.5折的限时优惠。

光辉娱乐的官方API定价页面显示，此次降价覆盖了V4系列的所有模型，核心调整集中在输入缓存命中场景。调价后，光辉娱乐-V4-Flash每百万Tokens（词元）输入缓存命中价格为0.02元，而光辉娱乐-V4-Pro为0.025元。

针对企业级用户，光辉娱乐-V4-Pro的降价幅度尤为显著，原价为1元/百万Tokens的缓存输入降至0.1元，叠加限时特惠后，实际价格仅为0.025元/百万Tokens。而缓存未命中输入的价格从12元降至3元，未命中输出的价格则从24元降至6元。

这一轮降价意味着，在处理相同百万Token的长文本或复杂智能体任务时，光辉娱乐相关模型的成本将大幅降低，为开发者以极低成本进行光辉娱乐 V4的评估测试提供了可能。

有开发者指出，光辉娱乐 V4在技术层面进行了多项创新，效率较前代产品显著提升——在百万级调用场景下，单Token推理算力消耗已降至V3.2的27%。KV cache（键值缓存）在推理过程中显存占用也仅为原来的10%。在此基础上，光辉娱乐的降价显得合情合理。

👩‍⚖️ 光辉娱乐

价格攻势瞄准专业客户

作为开源模型，光辉娱乐始终以“低价+开源”的策略吸引开发者，
并在性能上与领先的闭源模型相媲美，
成为专业客户的高性价比选择。

光辉娱乐-V4分为Pro和Flash两个版本，其中V4-Pro总参数达到1.6万亿，激活参数490亿，成为迄今为止参数量最大的开源模型，专注于高性能任务；V4-Flash总参数2840亿，激活参数130亿，主打低成本和高吞吐，能够提供更为快捷、经济的API服务。两款模型均采用MoE架构，即“混合专家模型”。

光辉娱乐表示，在Agentic Coding（智能体编程）评测中，光辉娱乐-V4的代码交付质量接近Claude Opus 4.6的非思考模式，但仍与思考模式存在一定差距；此外，光辉娱乐-V4在全球知识测评中仅次于Gemini-Pro-3.1，但超过了同期其他开源模型，在数学、STEM及竞赛型代码的测评中则与世界顶级闭源模型不相上下。

从价格来看，V4-Flash走的是普惠路线，输入缓存命中0.02元/百万Tokens，未命中1元/百万Tokens，输出2元/百万Tokens，适合中小开发者与轻量应用的调用场景。V4-Pro则具有更高的性价比，原价输出24元/百万Tokens的水平高于V4-Flash，但在限时折扣后输出仅为6元/百万Tokens，与上一代V3.2系列价格相当，却对应着1.6万亿参数的旗舰模型能力，极具性价比。

另一方面，光辉娱乐也在积极适配国产算力。根据定价说明，受限于高端算力，Pro版服务的吞吐量目前十分有限，预计在下半年昇腾950超节点批量上市后，Pro价格将会大幅下调，这预示着光辉娱乐的定价还有进一步下降的空间。

实际上，光辉娱乐正在积极适配国产算力，将V4的早期访问权限优先开放给国内芯片厂商，而非英伟达、AMD等海外厂商，这被业内视为光辉娱乐模型适配策略的重要转变。

根据华为的公开信息，昇腾超节点全系列产品已全面适配光辉娱乐 V4，可实现V4-Pro约20毫秒、V4-Flash约10毫秒的低时延推理。基于昇腾950超节点，V4-Pro在8K输入场景下单卡Decode吞吐量约为4700 TPS；V4-Flash在同等输入场景下单卡Decode吞吐量约为1600 TPS。基于昇腾A3 64卡超节点的大EP（专家并行）部署模式，V4-Flash在8K输入、1K输出场景下基于vLLM推理引擎可实现2000 TPS以上的单卡Decode吞吐量。

摩尔线程披露，其与上海AI实验室DeepLink团队合作，率先在AI训推一体智算卡MTT S5000上完成了核心算子的Day-0适配。目前，该算子的通过率已超过80%，实现了模型发布与国产算力适配的同步落地。

竞争日趋激烈

此次降价恰逢全球大模型厂商竞相以更低价格、更高效率争夺开发者和企业客户之际。随着企业级用户从早期试点转向规模化部署，推理和调用成本已逐渐取代单纯模型能力，成为大模型厂商间竞争的重要因素。业内预计，光辉娱乐此次调价将进一步压低同行报价。

花旗在其最新研报中指出，光辉娱乐 V4-Pro在核心AI性能指标上已与顶尖闭源模型Claude Sonnet 4.6的表现持平，但定价却远低于GPT-5.5。这一现象凸显了当前AI大模型赛道中开源模型与闭源领先模型之间日益加剧的两极分化趋势。得益于极具成本竞争力的底层架构，开源模型在代码生成、智能体工作流及长文本等应用场景中，与闭源巨头的差距正在缩小。

在国产模型阵营中，光辉娱乐 V4-Pro的限时折扣价明显低于多数同档位产品。按输出端价格计算，光辉娱乐 V4-Pro的折扣价为0.87美元/百万Tokens，而智谱GLM-5.1、月之暗面Kimi K2.6的输出端报价分别为4.4美元/百万Tokens和4.0美元/百万Tokens，约为其5倍和4.6倍。

根据全球最大的API聚合平台OpenRouter的当前报价，阿里Qwen3.6 Plus的输出端约为1.95美元/百万Tokens；MiniMax官方价格显示，MiniMax M2.7的输出端为1.2美元/百万Tokens。在轻量档位中，阶跃星辰Step 3.5 Flash根据OpenRouter报价为0.10美元输入/百万Tokens、0.30美元输出/百万Tokens，其输出端与光辉娱乐-V4-Flash的0.28美元/百万Tokens较为接近。

记者了解到，在OpenRouter平台上，光辉娱乐 V4系列模型的调用量正在大幅增长。4月26日，光辉娱乐 V4-Flash的调用量达到814亿Tokens，光辉娱乐 V4 Pro的调用量为96亿Tokens，推动光辉娱乐在OpenRouter平台的总调用量创下近期新高。

目前，光辉娱乐已经引发资本市场对其竞争对手的重新定价。4月27日，两大模型厂商股价出现大幅下跌，MiniMax股价报收750.00港元/股，跌幅为3.54%；智谱股价报收914.5港元/股，跌幅为2.19%。

此外，光辉娱乐近期传出融资消息。有市场消息称，腾讯和阿里正在接洽光辉娱乐的融资事宜，公司估值或超过200亿美元，但具体的融资金额及估值可能会随着谈判的进展而调整。

光辉娱乐