依图天问大模型
2024/9/30 12:42:00 关键字:
依图科技2023年发布的“天问”多模态大模型,将图像视频感知与大模型结合,在城市公共安全领域率先实践,让场景情境理解会思考、可对话、能进化,在全国范围内的几十个项目中得到了实战部署。它在视频语义搜索、万物搜索、AI智能体编排、算法零样本冷启动等方面表现出色,尤其在公共安全、智慧城市、智慧交通、内容审核、智慧园区等多个领域实现了突破性的实践。
企业名称:上海依图网络科技有限公司
产品概况:
AI大模型赋能智慧城市,以“1个多模态大模型基座+2个世界模型+1个智能体+N个应用场景”赋能一网统管、智慧应急、重大活动安保、智能交通管控、智慧工地、智慧社区等智慧城市的多个应用场景,为城市管理和服务提供决策支持,提高城市运行效率,促进可持续发展。基于数据和算力驱动的智慧运营。关键技术指标:
大模型时代下进入AI 2.0,基于Transformer架构,依图天问多模态大模型彻底颠覆了传统安防行业的碎片化特点,会呈现3个特性:
“会思考”:多模态大模型不再像过去一样只是某种算法、某种工具,而是呈现出助手、智能体的特征,让机器看一遍视频,它能够准确识别视频中的内容,将机器看视频的能力转化为直观的算法,为安防行业带来了革命性的变革。
“可对话”:人使用多模态大模型的过程更像与另外一个人交流。用户可以通过语义搜索和语音指令调取视频,例如,仅需简单地说出“请调取有积水的点位视频”,系统便能迅产品创新点:
依图科技天问多模态大模型,具备以下技术亮点和优势:
一、安防领域专用多模态大模型训练及构建
虽然行业内出现大量开源的多模态大模型,但其对于视频监控场景来说,它们距离实战都有明显距离,主要有如下原因:
1. 视觉数据分布缺陷:差异点来自拍摄视角、场景和关注点。有无对应分布的领域数据,误报差距有 2个量级,是可用和不可用的区别。
2. 精度目标不同:通用模态大模型主要应用场景是对话、图文问答等,更强调全面性,也就是能处理任务多,但对精度要求低,错误率到 1%基本满足诉求;对于监控场景而言,误报率通常要求到百万分之一甚至更高。
3. 领域知识缺失:对于不同场景 (如小区、工厂、交通等),对于安全隐患定义是有明显差异的;通用多模态大模型通常会欠缺这部分知识
上述问题的解决重点在于领域数据的积累,特别是低概率出现的数据,针对性的解决方案是数据飞轮。其主要挑战在于:
1. 对应用场景的深刻理解,开发出针对特定场景的可落地的应用
2. 标注标注效率,确认大规模训练的可行性
3. 技术水平的先进性,保证对领域数据的充分利用,提升整体迭代效率
二、少样本学习解决视觉基础任务
在现实世界中,许多视觉识别任务属于长尾分布,即大部分类别的样本数量非常有限。特别是针对特定领域的应用落地,领域数据往往稀缺且难以获取。这些所谓的“冷启动”问题对于传统的机器学习模型来说是一个巨大的挑战,因为它们需要大量的标注数据来训练。少样本学习技术通过从少量样本中快速学习,使得机器能够识别这些长尾类别,从而极大地扩展了机器视觉的应用范围。在制造业中,新产品的设计和生产周期越来越短。少样本学习技术可以帮助快速部署视觉识别系统,以识别和处理新产品,无需等待大量数据的积累。在安全监控领域,需要检测的异常行为往往是罕见的。少样本学习技术能够快速适应这些罕见事件的检测,提高系统的响应速度和准确性。
获取大量高质量的标注数据通常需要耗费大量的时间和资源。在某些领域,如工业图像分析,获取标注数据可能涉及到专业知识,使得数据采集更加困难。少样本学习技术减少了对大量标注数据的依赖,从而降低了数据采集和标注的成本。企业可以减少在数据采集和标注上的投入,将资源更多地用于产品开发和市场推广等其它方面,同时也有助于适应快速变化的市场。在快速变化的市场中,企业需要快速推出新的产品和服务。少样本学习技术使得视觉识别系统能够快速适应新的市场需求,加速产品创新。
传统的机器学习模型在面对新任务时,通常需要重新收集数据、训练模型,这一过程可能非常耗时。少样本学习技术通过快速从少量样本中学习,显著缩短了模型的迭代周期。一是体现在研发效率的提升。缩短模型迭代周期意味着研发团队可以更快地测试和优化他们的产品,提高研发效率。二是有助于快速适应客户需求。在客户提出新的需求时,可以迅速调整视觉识别系统,快速响应客户需求,提高客户满意度。
三、2D向3D视觉大模型的范式升级
在治安监控领域,精确的深度信息可以显著提升视频监控系统的智能分析能力。通过精确的深度信息,系统能够更准确地识别和追踪嫌疑人或可疑行为,从而提高公共安全。例如,在拥挤的公共场所,深度估计可以帮助监控系统区分人群中的个体,即使在视角受限或光照条件不理想的情况下也能进行有效监控。此外,深度信息还可以用于自动计算安全距离,当检测到有人过于接近关键设施或禁区时,系统可以及时发出警报。在建筑工地,单目深度估计技术可以用于提高工地安全监控的效率和效果。工地环境复杂多变,存在许多潜在的安全风险。利用深度估计技术,监控系统可以精确识别工人与危险区域之间的距离,当工人过于接近危险机械或边缘时,系统可以发出警告,防止事故发生。
四、基于视觉语言大模型的视觉搜索
基于视觉语言大模型的视觉搜索技术是安防领域的核心诉求,它通过结合视觉和语言信息处理的能力,为各种应用场景提供了强大的技术支持。它的技术应用价值主要体现在如下方面:
1. 支持长尾物体和属性的解析:传统的视觉搜索算法往往在处理常见物体和场景时表现良好,但在面对长尾(即不常见或罕见)物体和属性时,其性能会显著下降。基于视觉语言大模型的视觉搜索技术通过融合语言模型的深度语义理解能力,能够更好地理解和识别这些长尾物体。这种能力在安防监控、生物多样性研究、文化遗产保护等领域尤为重要,因为这些领域经常需要识别和分析不常见的物体或行为。
2. 接受不同模态的输入并在相同特征空间中进行搜索:多模态视觉搜索技术能够处理多种类型的输入,包括图像、视频和文本。通过将这些不同模态的信息映射到一个统一的特征空间中,该技术能够实现跨模态的搜索和匹配。这种跨模态的能力在电子商务、内容推荐、社交媒体分析等领域具有广泛的应用前景。例如,用户可以通过上传一张图片或输入一段描述,快速找到相关的商品或信息,极大地提升了用户体验。
3. 理解图片的上下文信息:除了识别图像中的物体,多模态视觉搜索技术还能够理解图像的上下文信息,包括场景的背景、物体间的关系以及可能的情境。这种上下文理解能力使得该技术在城市管理、环境监测、公共安全等领域具有重要价值。例如,通过分析街道的图片,可以识别交通拥堵、非法占道等城市问题,为城市管理提供决策支持。
4. 理解复杂的语义描述:多模态视觉搜索技术通过结合自然语言处理技术,能够理解和处理复杂的语义描述。这意味着用户可以使用自然语言来表达他们的搜索需求,而系统能够准确理解这些描述并返回相关的搜索结果。这种能力在公安、政府、教育等领域尤为重要,因为这些领域经常需要处理复杂的查询和分析任务。国内外市场推广情况:
依图天问大模型在视频语义搜索、万物搜索、AI智能体编排、算法零样本冷启动等方面表现出色,尤其在公共安全、智慧城市、智慧交通、内容审核、智慧园区等多个领域实现了突破性的实践,目前国内国外已经部署了60+个项目。
微信扫描二维码,关注公众号。