会员动态 > 正文
宇泛发布HiMTok多模态大模型核心技术
开启AI多模态输出新时代
03-21   宇泛UNIUBI      关键字:宇泛 HiMTok 多模态 大模型      浏览量:
自去年底宇泛宣布启动自研多模态大模型UUMM-4B项目以来,许多人一直对我们的技术进展充满期待。近日,宇泛团队正式发布了突破性成果HiMTok,该成果通过创新方法实现了大模型图像分割能力的内生式集成,这标志着宇泛在多模态技术领域迈出了关键的一步。
  自去年底宇泛宣布启动自研多模态大模型UUMM-4B项目以来,许多人一直对我们的技术进展充满期待。近日,宇泛团队正式发布了突破性成果HiMTok,该成果通过创新方法实现了大模型图像分割能力的内生式集成,这标志着宇泛在多模态技术领域迈出了关键的一步。
  未来,该技术将与宇泛VLA项目一脉相承,推动大模型从单一文本输出向图像、机器人动作(Robot Action)等多模态全面升级,为宇泛AI在智能制造、智慧城市等领域的深度落地奠定基础。
HiMTok技术突破
让大模型“看懂”并“输出”图像
  HiMTok的核心目标是打破传统大模型仅能输出文本的限制,赋予其精细化图像分割能力。通过三大技术创新,宇泛团队实现了多模态大模型的跨越式发展:
  1、掩码表征革新:将图像分割掩码转化为“可理解的语言”。HiMTok创新性地将图像分割掩码(mask)编码为最多32个具有层次化粒度的一维“掩码令牌”(mask tokens),这些令牌从粗到细逐步描述物体的位置、形状和边缘,突破了传统像素级处理的效率瓶颈。 所有掩码令牌的集合可以看作是一种新的“语言”。
  2、端到端生成范式:大模型“像写句子一样生成图像分割结果”。基于宇泛自研的多模态大模型,HiMTok实现了掩码令牌序列的端到端生成。大模型可直接输出掩码令牌,配合轻量化解码器实时还原高精度分割结果,全程无需依赖外部分割模型(如SAM、Mask2Former),大幅简化了系统架构。
▲对话中提及图像分割
  3、多任务统一建模:统一架构实现多任务高效协同。通过统一的令牌表示方法,HiMTok使视觉分割任务与文本生成任务共享Transformer架构。在保持模型结构和参数规模基本不变的前提下,实现了图像理解、图像分割、目标检测等多任务的有机融合,显著提升了学习效果和泛化性,同时降低了训练和推理开销。
  研究人员设计了渐进式训练策略和层次化掩码损失监督,相比于直接高分辨率联合训练,不仅可以节省大约三分之二的训练开销(仅需约110 A800 GPU days),也能够使得模型训练过程平稳进行。
  实验分析:
  在指代分割、推理分割、开放词汇分割等经典分割任务上显著超越过去的方法,无需外挂任何基础分割模型,模型可以准确理解用户指令并进行像素级别的定位,图像分割速度相比结合专家分割模型的大模型方法提升50%;
  通过Mask-CoT方式,可以进一步提高大模型的目标检测准确度和精细度,在公开benchmark上的检测指标达到92.9% (RefCOCO val),显著优于其他同尺寸模型;
  模型的通用视觉理解能力得到了很好的保持,没有因为获得了图像分割能力而被牺牲,说明我们的方法可以让图像分割能力丝滑嵌入大模型框架中。
▲关于REC基准测试的结果
技术连贯性
从图像输出到Robot Action的战略布局
  HiMTok是宇泛多模态输出战略的重要起点,其技术架构与未来规划高度协同:
  当前阶段(图像模态):HiMTok赋能大模型实现精细化图像分割,为“大小脑协同机器人”提供精确的环境感知能力。机器人通过视觉输入理解场景,生成掩码令牌实现对细粒度视觉特征的感知,从而精准抓取与操作。
  下一阶段(Robot Action模态):基于HiMTok的掩码表征技术,宇泛将进一步开发机器人动作序列生成能力。大模型可直接输出机器人控制指令(如“向左移动20cm”“抓取红色圆柱体”),结合实时传感器数据,实现从感知到决策的闭环控制。
  终极目标:通过VLA系统内各个模态的深度融合,构建“智能决策中枢”,使机器人具备自主任务规划、环境自适应与持续学习能力,推动AI从“辅助工具”向“协作伙伴”进化。
行业应用
从安全生产到机器人革命
  未来,有HiMTok加持的多模态大模型,将在多个领域展现落地潜力:
  1、作业环境安全(Workplace safety)
  通过HiMTok的高精度图像分割能力,系统可实时识别如建筑工地、能源化工厂、能源电力、地铁高铁、桥梁隧道等场所的危险源、风险点、违规操作行为等,自动框选风险区域并预警,就像一位专家级的AI安全员24小时守护城市生命线安全。
  2、智能制造质量检测
  大模型可快速定位产品瑕疵,生成精细化分割掩码,指导机械臂精准剔除缺陷品,降低人工检测成本与误判率。
  3、通用机器人场景
  在物流、服务、通用机器人场景中,HiMTok帮助机器人理解复杂环境,高层任务规划和实时反馈。
  HiMTok的发布不仅是宇泛技术实力的里程碑,更标志着AI行业迈向多模态输出的新阶段。未来,宇泛将持续深化多模态大模型研发,加速VLA项目落地,构建“感知-理解-决策-执行”的全链条智能体系。通过技术创新与场景深耕,宇泛为智能制造、AI City等领域注入核心动能,推动人类社会向更智能、更高效的未来迈进。

微信扫描二维码,关注公众号。