在国产大模型的激烈竞争中,智谱的GLM系列一直掌握着一张极具商业价值的王牌:极强的代码能力。
随着AI的主要形式从大语言模型转向智能体,行业竞争进入下半场,开发者和开发生态是付费意愿最强的群体。
但是,行业巨头们对AI的期许显然不仅仅是一个“外包的程序员”,只有成为一个能真正接管系统工作流的全能型智能体,才能让AI进入每个普通人的生活。
因此,一个强大的AI只会敲键盘还远远不够,它必须长出眼睛,去审视网页排版、看懂海报图表、甚至要理解GUI上各种非文本的复杂信息。
前几天,DeepSeek灰度测试“识图模式”已经打响了第一枪。
如今,智谱也紧紧跟随,正式开启了多模态领域的全新探索。在最新模型GLM-5V-Turbo的技术报告中,我们可以清晰地认识到,这是智谱向原生多模态智能体发起的新一轮冲锋,也是一份充满技术暴力、工程妥协和商业考量的自白书。
向大语言模型中增加视觉能力,这个思路在过去几年中早已被频繁尝试。
然而,由此诞生的视觉语言模型(VLM)往往只是个拼接而成的产物,语言模型是绝对的大脑,视觉模块只是一个外挂摄像头。
也就是说,模型压根无法理解图像等信息中蕴含的逻辑。把二维的视觉信号强行压缩至一维的token序列,带来的结果就会是看不懂图像、忽略关键细节甚至产生严重的幻觉,自然也无法作为智能体使用。
因此,GLM-5V-Turbo在开篇就定下了基调:
多模态感知绝对不能只是一个辅助接口,它必须成为模型推理、规划、工具调用和任务执行的原生核心组件。
因此,为了实现真正的“原生”,智谱这次在底层架构上动了三次大手术:
1.重构视觉底座:专为Agent而生的CogViT
智能体需要操控用户的电脑,因此在图形用户界面中,模型不仅要知道图片里有什么,还要关注各种容易被忽视的细节,哪怕一个长宽可能只有几个像素的按钮。
为此,智谱自研了一套高参数效率的视觉编码器CogViT,并采用两阶段的预训练:
第一阶段是特征重构,两个教师模型中,SigLIP2负责让模型识别语义,DINOv3负责让模型识别纹理,最后通过掩码图像建模增强模型视觉特征的表达;
第二阶段是图文对齐,通过引入NaFlex方案来处理动态分辨率,将全局的Batch Size直接提升至64K。
这种设计方式直接将智谱新模型的空间感知和几何理解能力拉满,也为后续操控网页和手机UI打下了基石。
2.工程与算法的平衡:多模态多Token预测(MMTP)
多模态能力的引入,必然伴随着显存和算力消耗的指数级膨胀。
关注AI领域的开发者应该都知道,智谱近半年来算力储备并不宽裕,此前引发激烈讨论的价格调整已经侧面印证了在大规模推理面前,算力成本就是一个黑洞。
引入多Token预测(MTP)以提升推理效率是业内普遍使用的做法,不过智谱在引入MTP时,采用了一个教科书级别的工程决策:
直接把包含大量信息的视觉特征直接传给MTP预测头不可行,那就采用一个共享的特殊token“<|image|>”作为视觉输入的占位符。
看似简单的改动,其实最符合“工程实用主义”。它大幅降低了流水线并行中的通信复杂度,直接避免了显存爆炸这个让人头疼的问题。
除此之外,在保证模型收敛稳定的前提下,这个“巧思”还能极大降低训练和推理的算力成本。
3.破除长尾魔咒:超大规模多模态强化学习系统
目前,智能体的训练思路与大语言模型本质上并无区别,使用的仍然是强化学习。
但是,在智能体的训练过程中,单任务强化学习很容易让模型陷入震荡。
而智谱的研究团队发现,多任务协同强化学习能够让模型见识到更丰富的策略分布,甚至出现跨任务的思维模式迁移。
因此,智谱在超过30个任务类别上进行了联合强化学习,并在基础设施上实现全流水线解耦和异步执行。他们不仅将视觉切分这个环节从前向传播阶段提前至数据加载阶段,还对GPU之间的通信做出了极致的内存管理。
技术的底层重构,最终指向的永远是商业变现逻辑的跃迁。
GLM-5V-Turbo展现出的多模态深度研究能力,正在预示着智谱AI应用的两点商业变局:
一是用多模态深度研究打破传统文本SaaS的壁垒。
对于此前大部分AI助手,大多只能阅读纯文本内容。即便是允许用户上传图片、视频、PDF等附件,一旦其中包含的非文本信息过多,AI的识别能力就会断崖式下降。
然而,GLM-5V-Turbo能够自主循环执行“规划→多模态阅读→状态更新”这套工作流,直接解析各种图表、文档、PPT中的高价值视觉信息,直接交付Markdown商业报告和高度结构化的幻灯片。