![]() |
![]() |
![]() |
|
新闻资讯
|
|
| 视频新闻 | |
| 协会新闻 | |
| 国内新闻 | |
| 国际新闻 | |
|
协会通告 |
| 河北省中小企业技术创新服务协会—唐山分会成立通知 |
| 河北省中小企业技术创新服务协会人员名单 |
| 河北省中小企业技术创新服务协会—保定分会成立通知 |
| 河北省中小企业技术创新服务协会关于征集新会员的通知 |
| 河北省中小企业技术创新服务协会诚招业务员 |
| 河北省中小企业技术创新服务协会业务范围 |
| 河北省中小企业技术创新服务协会驻省内各地办事处 |
|
供求信息 |
| 建设银行:创新推进普惠金融 服务助力小微企业 |
| 河北 省级中小企业创业辅导基地开始申报 |
| 具备五个条件可申报河北省中小企业创业辅导基地 |
| 农行河北分行助力小微企业发展 |
| 资金投资合作 |
| 无边界培训:企业人力资本新引擎 |
| 技术创新方法培训服务 |
| 科技查新咨询服务 |
原本预计在 2026 年春节上演的中国 AI 大戏,延迟到了五一假期前。
这周五,DeepSeek V4 千呼万唤始出来。
同样在这周,Qwen、Kimi、小米、腾讯都不约而同拿出了自己最新的代表作。
从 Artificial Analysis 最新放榜的开源模型智能指数看,开源模型的前几名已经都是中国模型。
其中,TOP2 都是这周发布的。他们也是这几天 OpenRouter 真实调用量上挤入全球 TOP5 的两家公司。
这已经不是 DeepSeek 和 Kimi 这么默契了。往回看看前面几次。
2025 年 1 月,DeepSeek R1 和 Kimi K1.5 前后两个小时内发布,都把目标指向 OpenAI o1。
一个月后,DeepSeek NSA 和 Kimi MoBA 几乎同时出现,都在改造 Transformer 最核心的注意力机制。
2025 年 4 月,Kimi 的 Kimina Prover Preview 和 DeepSeek-Prover-V2 先后发布,都在向形式化数学推理和定理证明方向推进。
时隔一年,现在,又一次,Kimi K2.6 和 DeepSeek V4 在同一周先后发布,两个万亿参数的开源模型,前后脚摆到了桌面上。
发力相同的技术方向,几乎同时到达同一个路口。这已经不像巧合了。
这次又撞了什么
先看这一轮各自拿出了什么。
DeepSeek V4 是一个 1.6 万亿参数的 MoE 模型,49B 激活参数,原生支持 100 万 token 上下文。它的核心叙事是效率革命,相比上一代 V3.2,单 token 推理算力需求下降了 73%,KV cache 压缩到原来的十分之一。
简单说,同样的硬件能处理多得多的请求,同样长度的文本花的钱少得多。
与此同时,V4 完成了对华为昇腾芯片的深度适配,从英伟达 CUDA 生态向华为 CANN 架构做了底层代码迁移,也让这一轮发布多了一层国产算力迁移的意味。
Kimi K2.6 是一个万亿参数的 MoE 多模态模型,32B 激活参数,256K 上下文。它的核心叙事不是更大或更便宜,而是更持久。
在测试中,K2.6 可以不间断编码 13 小时,处理超过 4000 次工具调用,修改 4000 多行代码,完成一个接近性能极限的开源金融撮合引擎的深度重构。
这不是普通的“代码能力提升”,而是在测试模型能不能从一次性回答,进入长时间、多工具、多 Agent 协作的工作状态。
K2.6 还引入了 Agent 集群架构,支持 300 个子 Agent 并行协作。月之暗面的 RL 基础设施团队已经用 K2.6 驱动的 Agent 连续自主运行了 5 天,负责监控、故障响应和系统运维。
它们总在同一个路口相遇,但开出去的方向并不一样。至少在这一轮,一个更像是在重写模型基础设施的成本结构,另一个更像是在验证模型能否进入更长周期的真实任务。方向不同,但在同一周发布这件事本身,已经足够让人截图发群了。
但两家也有高度一致的选择,万亿参数的 MoE 架构、开源、继续相信 Scaling Law。截至目前,它们也是中国仅有的两个已开源的万亿参数模型。
比撞车更有意思的事
多次撞车是一个好段子,但它背后有一个更值得注意的现象,两家的技术路线正在相互启发。
上一次,是 Kimi K2 借鉴了 DeepSeek V3 带火的 MLA 注意力机制。MLA 是一种压缩注意力计算和 KV 缓存以提升效率的方案,DeepSeek V3 让它成为中国开源模型技术栈里的显性选项。
这一次,是 DeepSeek V4 把 Muon 优化器作为模型架构层的三大更新之一。Muon 是一种二阶优化器,解决的是训练阶段参数更新的效率和稳定性问题,用来取代已经用了 10 年的 Adam。Kimi 是最早把 Muon 系优化器推到万亿参数级训练并系统公开经验的团队之一,杨植麟在 GTC 2026 演讲中称其可以带来 2 倍的 token 效率提升。而 V4 也跟进使用 Muon 优化器,用来提升收敛效率和训练稳定性。
换句话说,MLA 省的是推理时的钱,Muon 省的是训练时的路。而这两条路,已经在两家之间来回走了一遍。
这就让“撞车”不再只是发布时间上的巧合,而变成了技术栈层面的回声。更像是两家公司一边竞争,一边把对方探索过的技术思路变成自己下一轮实验的参考坐标。
这种相互启发还在继续延伸。在注意力机制上,DeepSeek 探索的是稀疏注意力,Kimi 下一代模型探索的是线性注意力,路径
|