近日,在上海人工智能实验室发布的多模态大模型榜单 MMBench 中,来自佳都科技中央研究院的TransCore-M超过LLaVA、mPLUG-Owl2、Qwen-VL-Chat 等 20 余个来自世界一流大学和业界大厂的多模态大模型,分别在 4 个榜单中都高居第二。
近日,在上海人工智能实验室发布的多模态大模型榜单 MMBench 中,来自佳都科技中央研究院的TransCore-M超过LLaVA、mPLUG-Owl2、Qwen-VL-Chat 等 20 余个来自世界一流大学和业界大厂的多模态大模型,分别在 4 个榜单中都高居第二。目前,TransCore-M 的模型和推理 demo 已在 huggingface 开源,并开放体验。
△MMBench榜单(其一),MMBench是上海AI lab和南洋理工大学联合推出的
基于ChatGPT的全方位多模能力评测体系。
模型架构与训练
TransCore-M 采用预训练和指令微调两种训练策略,来提升模型的多模态能力:
l预训练阶段:冻结视觉模块(Visual Encoder)和语言模型(PCITransGPT),使用大量图文数据将图像和文本知识进行对齐;
l指令微调阶段:构造多样性的文本和多模态联合数据,保持视觉模块冻结,将视觉对齐模块和语言模型进行全参微调,使得模型能够具备更丰富的多模态理解能力。
交通行业能力
技术上,佳都科技布局视觉模型多年,自 2015 年开始加强在人脸识别、视频大数据领域的技术投入,2017 年成立中央研究院,开展数据和智能中台建设,2019年推出城轨智慧运营系统华佳 Mos,2020 年开始研发基于数字孪生技术的 AR(增强现实)引擎,将多维信息和 3D 虚拟界面融合。
应用场景方面,佳都长期深耕智慧大交通主赛道,积累了深厚的智慧交通行业项目经验和数据优势。一类是直接与视觉感知有关,主要是前端的采集智能设备,另一类是交通场景,包括车站客流分析、行车图优化、应急调度指挥、智能运维、智能安检,信号灯调优、交通拥堵分析、综合枢纽与公交客流分析导向等。
通过将以往的经验和数据沉淀为行业资产,多模态大模型深度融合了丰富的领域知识,结合高质量的专业语料库,确保模型具有卓越的理解和判断能力。
点击huggingface 主页中的 demo 链接后,用户仅需上传图片,即可与TransCore-M 进行对话。
示例1:交通视觉描述
示例2:交通违规检测
示例3:路况检测
示例4:异常事件检测
示例5:异常事件检测