智谱GLM-5V-Turbo“擦枪走火”，国产多模态智能体战争一触即发-河北省中小企业技术创新服务协会

协会通告

供求信息

智谱GLM-5V-Turbo“擦枪走火”，国产多模态智能体战争一触即发

发布时间：2026/5/11 9:19:20

在国产大模型的激烈竞争中，智谱的GLM系列一直掌握着一张极具商业价值的王牌：极强的代码能力。

随着AI的主要形式从大语言模型转向智能体，行业竞争进入下半场，开发者和开发生态是付费意愿最强的群体。

但是，行业巨头们对AI的期许显然不仅仅是一个“外包的程序员”，只有成为一个能真正接管系统工作流的全能型智能体，才能让AI进入每个普通人的生活。

因此，一个强大的AI只会敲键盘还远远不够，它必须长出眼睛，去审视网页排版、看懂海报图表、甚至要理解GUI上各种非文本的复杂信息。

前几天，DeepSeek灰度测试“识图模式”已经打响了第一枪。

如今，智谱也紧紧跟随，正式开启了多模态领域的全新探索。在最新模型GLM-5V-Turbo的技术报告中，我们可以清晰地认识到，这是智谱向原生多模态智能体发起的新一轮冲锋，也是一份充满技术暴力、工程妥协和商业考量的自白书。

向大语言模型中增加视觉能力，这个思路在过去几年中早已被频繁尝试。

然而，由此诞生的视觉语言模型（VLM）往往只是个拼接而成的产物，语言模型是绝对的大脑，视觉模块只是一个外挂摄像头。

也就是说，模型压根无法理解图像等信息中蕴含的逻辑。把二维的视觉信号强行压缩至一维的token序列，带来的结果就会是看不懂图像、忽略关键细节甚至产生严重的幻觉，自然也无法作为智能体使用。

因此，GLM-5V-Turbo在开篇就定下了基调：

多模态感知绝对不能只是一个辅助接口，它必须成为模型推理、规划、工具调用和任务执行的原生核心组件。

因此，为了实现真正的“原生”，智谱这次在底层架构上动了三次大手术：

1.重构视觉底座：专为Agent而生的CogViT

智能体需要操控用户的电脑，因此在图形用户界面中，模型不仅要知道图片里有什么，还要关注各种容易被忽视的细节，哪怕一个长宽可能只有几个像素的按钮。

为此，智谱自研了一套高参数效率的视觉编码器CogViT，并采用两阶段的预训练：

第一阶段是特征重构，两个教师模型中，SigLIP2负责让模型识别语义，DINOv3负责让模型识别纹理，最后通过掩码图像建模增强模型视觉特征的表达；

第二阶段是图文对齐，通过引入NaFlex方案来处理动态分辨率，将全局的Batch Size直接提升至64K。

这种设计方式直接将智谱新模型的空间感知和几何理解能力拉满，也为后续操控网页和手机UI打下了基石。

2.工程与算法的平衡：多模态多Token预测（MMTP）

多模态能力的引入，必然伴随着显存和算力消耗的指数级膨胀。

关注AI领域的开发者应该都知道，智谱近半年来算力储备并不宽裕，此前引发激烈讨论的价格调整已经侧面印证了在大规模推理面前，算力成本就是一个黑洞。

引入多Token预测（MTP）以提升推理效率是业内普遍使用的做法，不过智谱在引入MTP时，采用了一个教科书级别的工程决策：

直接把包含大量信息的视觉特征直接传给MTP预测头不可行，那就采用一个共享的特殊token“<|image|>”作为视觉输入的占位符。

看似简单的改动，其实最符合“工程实用主义”。它大幅降低了流水线并行中的通信复杂度，直接避免了显存爆炸这个让人头疼的问题。

除此之外，在保证模型收敛稳定的前提下，这个“巧思”还能极大降低训练和推理的算力成本。

3.破除长尾魔咒：超大规模多模态强化学习系统

目前，智能体的训练思路与大语言模型本质上并无区别，使用的仍然是强化学习。

但是，在智能体的训练过程中，单任务强化学习很容易让模型陷入震荡。

而智谱的研究团队发现，多任务协同强化学习能够让模型见识到更丰富的策略分布，甚至出现跨任务的思维模式迁移。

因此，智谱在超过30个任务类别上进行了联合强化学习，并在基础设施上实现全流水线解耦和异步执行。他们不仅将视觉切分这个环节从前向传播阶段提前至数据加载阶段，还对GPU之间的通信做出了极致的内存管理。

技术的底层重构，最终指向的永远是商业变现逻辑的跃迁。

GLM-5V-Turbo展现出的多模态深度研究能力，正在预示着智谱AI应用的两点商业变局：

一是用多模态深度研究打破传统文本SaaS的壁垒。

对于此前大部分AI助手，大多只能阅读纯文本内容。即便是允许用户上传图片、视频、PDF等附件，一旦其中包含的非文本信息过多，AI的识别能力就会断崖式下降。

然而，GLM-5V-Turbo能够自主循环执行“规划→多模态阅读→状态更新”这套工作流，直接解析各种图表、文档、PPT中的高价值视觉信息，直接交付Markdown商业报告和高度结构化的幻灯片。