宇泛发布HiMTok多模态大模型核心技术<br>开启AI多模态输出新时代-会员动态-中国安全防范产品行业协会

宇泛发布HiMTok多模态大模型核心技术
开启AI多模态输出新时代

03-21 宇泛UNIUBI 关键字：宇泛 HiMTok 多模态大模型浏览量：

自去年底宇泛宣布启动自研多模态大模型UUMM-4B项目以来，许多人一直对我们的技术进展充满期待。近日，宇泛团队正式发布了突破性成果HiMTok，该成果通过创新方法实现了大模型图像分割能力的内生式集成，这标志着宇泛在多模态技术领域迈出了关键的一步。

　　未来，该技术将与宇泛VLA项目一脉相承，推动大模型从单一文本输出向图像、机器人动作（Robot Action）等多模态全面升级，为宇泛AI在智能制造、智慧城市等领域的深度落地奠定基础。

HiMTok技术突破

让大模型“看懂”并“输出”图像

　　HiMTok的核心目标是打破传统大模型仅能输出文本的限制，赋予其精细化图像分割能力。通过三大技术创新，宇泛团队实现了多模态大模型的跨越式发展：

　　1、掩码表征革新：将图像分割掩码转化为“可理解的语言”。HiMTok创新性地将图像分割掩码（mask）编码为最多32个具有层次化粒度的一维“掩码令牌”（mask tokens），这些令牌从粗到细逐步描述物体的位置、形状和边缘，突破了传统像素级处理的效率瓶颈。所有掩码令牌的集合可以看作是一种新的“语言”。

　　2、端到端生成范式：大模型“像写句子一样生成图像分割结果”。基于宇泛自研的多模态大模型，HiMTok实现了掩码令牌序列的端到端生成。大模型可直接输出掩码令牌，配合轻量化解码器实时还原高精度分割结果，全程无需依赖外部分割模型（如SAM、Mask2Former），大幅简化了系统架构。

▲对话中提及图像分割

　　3、多任务统一建模：统一架构实现多任务高效协同。通过统一的令牌表示方法，HiMTok使视觉分割任务与文本生成任务共享Transformer架构。在保持模型结构和参数规模基本不变的前提下，实现了图像理解、图像分割、目标检测等多任务的有机融合，显著提升了学习效果和泛化性，同时降低了训练和推理开销。

　　研究人员设计了渐进式训练策略和层次化掩码损失监督，相比于直接高分辨率联合训练，不仅可以节省大约三分之二的训练开销（仅需约110 A800 GPU days），也能够使得模型训练过程平稳进行。

　　实验分析：

　　在指代分割、推理分割、开放词汇分割等经典分割任务上显著超越过去的方法，无需外挂任何基础分割模型，模型可以准确理解用户指令并进行像素级别的定位，图像分割速度相比结合专家分割模型的大模型方法提升50%；

　　通过Mask-CoT方式，可以进一步提高大模型的目标检测准确度和精细度，在公开benchmark上的检测指标达到92.9% （RefCOCO val），显著优于其他同尺寸模型；

　　模型的通用视觉理解能力得到了很好的保持，没有因为获得了图像分割能力而被牺牲，说明我们的方法可以让图像分割能力丝滑嵌入大模型框架中。

▲关于REC基准测试的结果

技术连贯性

从图像输出到Robot Action的战略布局

　　HiMTok是宇泛多模态输出战略的重要起点，其技术架构与未来规划高度协同：

　　当前阶段（图像模态）：HiMTok赋能大模型实现精细化图像分割，为“大小脑协同机器人”提供精确的环境感知能力。机器人通过视觉输入理解场景，生成掩码令牌实现对细粒度视觉特征的感知，从而精准抓取与操作。

　　下一阶段（Robot Action模态）：基于HiMTok的掩码表征技术，宇泛将进一步开发机器人动作序列生成能力。大模型可直接输出机器人控制指令（如“向左移动20cm”“抓取红色圆柱体”），结合实时传感器数据，实现从感知到决策的闭环控制。

　　终极目标：通过VLA系统内各个模态的深度融合，构建“智能决策中枢”，使机器人具备自主任务规划、环境自适应与持续学习能力，推动AI从“辅助工具”向“协作伙伴”进化。

行业应用

从安全生产到机器人革命

　　未来，有HiMTok加持的多模态大模型，将在多个领域展现落地潜力：

　　1、作业环境安全（Workplace safety）

　　通过HiMTok的高精度图像分割能力，系统可实时识别如建筑工地、能源化工厂、能源电力、地铁高铁、桥梁隧道等场所的危险源、风险点、违规操作行为等，自动框选风险区域并预警，就像一位专家级的AI安全员24小时守护城市生命线安全。

　　2、智能制造质量检测

　　大模型可快速定位产品瑕疵，生成精细化分割掩码，指导机械臂精准剔除缺陷品，降低人工检测成本与误判率。

　　3、通用机器人场景

　　在物流、服务、通用机器人场景中，HiMTok帮助机器人理解复杂环境，高层任务规划和实时反馈。

　　HiMTok的发布不仅是宇泛技术实力的里程碑，更标志着AI行业迈向多模态输出的新阶段。未来，宇泛将持续深化多模态大模型研发，加速VLA项目落地，构建“感知-理解-决策-执行”的全链条智能体系。通过技术创新与场景深耕，宇泛为智能制造、AI City等领域注入核心动能，推动人类社会向更智能、更高效的未来迈进。

微信扫描二维码，关注公众号。

2024安防行业优秀解决方案评价推荐专题报道

2024中国国际社会公共安全产品博览会暨智能