佳都科技中央研究院多模态大模型TransCore-M 发布！MMBench高居第二-会员动态-中国安全防范产品行业协会

会员动态 > 正文

佳都科技中央研究院多模态大模型TransCore-M 发布！
MMBench高居第二

2023/12/4 14:20 佳都科技 关键字：佳都科技多模态大模型发布浏览量：

近日，在上海人工智能实验室发布的多模态大模型榜单 MMBench 中，来自佳都科技中央研究院的TransCore-M超过LLaVA、mPLUG-Owl2、Qwen-VL-Chat 等 20 余个来自世界一流大学和业界大厂的多模态大模型，分别在 4 个榜单中都高居第二。

　　近日，在上海人工智能实验室发布的多模态大模型榜单 MMBench 中，来自佳都科技中央研究院的TransCore-M超过LLaVA、mPLUG-Owl2、Qwen-VL-Chat 等 20 余个来自世界一流大学和业界大厂的多模态大模型，分别在 4 个榜单中都高居第二。目前，TransCore-M 的模型和推理 demo 已在 huggingface 开源，并开放体验。

△MMBench榜单（其一），MMBench是上海AI lab和南洋理工大学联合推出的

基于ChatGPT的全方位多模能力评测体系。

　　模型架构与训练

　　TransCore-M 采用预训练和指令微调两种训练策略，来提升模型的多模态能力：

　　l预训练阶段：冻结视觉模块（Visual Encoder）和语言模型（PCITransGPT），使用大量图文数据将图像和文本知识进行对齐；

　　l指令微调阶段：构造多样性的文本和多模态联合数据，保持视觉模块冻结，将视觉对齐模块和语言模型进行全参微调，使得模型能够具备更丰富的多模态理解能力。

　　交通行业能力

　　技术上，佳都科技布局视觉模型多年，自 2015 年开始加强在人脸识别、视频大数据领域的技术投入，2017 年成立中央研究院，开展数据和智能中台建设，2019年推出城轨智慧运营系统华佳 Mos，2020 年开始研发基于数字孪生技术的 AR（增强现实）引擎，将多维信息和 3D 虚拟界面融合。

　　应用场景方面，佳都长期深耕智慧大交通主赛道，积累了深厚的智慧交通行业项目经验和数据优势。一类是直接与视觉感知有关，主要是前端的采集智能设备，另一类是交通场景，包括车站客流分析、行车图优化、应急调度指挥、智能运维、智能安检，信号灯调优、交通拥堵分析、综合枢纽与公交客流分析导向等。

　　通过将以往的经验和数据沉淀为行业资产，多模态大模型深度融合了丰富的领域知识，结合高质量的专业语料库，确保模型具有卓越的理解和判断能力。

　　点击huggingface 主页中的 demo 链接后，用户仅需上传图片，即可与TransCore-M 进行对话。

示例1：交通视觉描述

示例2：交通违规检测

示例3：路况检测

示例4：异常事件检测

示例5：异常事件检测

微信扫描二维码，关注公众号。

相关新闻：

行业新闻