会员动态 > 正文
华为NAIE云地协同为电信网络铺就智能升维之路
2020/10/23 8:48:00   C114通信网   蒋均牧   关键字:华为 NAIE云 电信网络 智能升维      浏览量:
随着人类社会的数字化进程不断深入,“联网”在今天已经是如“衣食住行”般的基础需求,业务、运维、联接的复杂度也与日俱增。通过引入AI,打造一张基于用户体验的智能化、全自动的网络,成为电信行业的共同追求。
  随着人类社会的数字化进程不断深入,“联网”在今天已经是如“衣食住行”般的基础需求,业务、运维、联接的复杂度也与日俱增。通过引入AI,打造一张基于用户体验的智能化、全自动的网络,成为电信行业的共同追求。
  而在硬币的另一面,一些问题也随之浮出了水面。比如AI特性的规模应用面临着模型泛化能力差、模型易老化、本地样本少等诸多挑战,从而拖慢了AI在电信网络中的整体普及速度。作为网络转型先驱者的华为,对此给出了“云地协同”这个答案。
  “在将AI能力注入电信网络的旅程中我们发现,仅仅讨论算法问题、考虑如何用数学解决业务问题是不够的,还需要克服很多难点。比如一个模型如果不做管理和控制,半年时间精度就会下滑到原先的60%左右。我们希望‘把困难留给自己,把方便带给客户’,通过不断创新来推动AI在电信行业的快速规模部署,这也是此次提出云地协同解决方案的初衷。”在华为全联接大会2020期间的一场媒体圆桌上,华为网络人工智能(NAIE)产品部总经理韩雨发表示,云端与地端的联动,将使AI模型越用越准确。
  活动上,他还发布了《AI使能自动驾驶网络——华为iMaster NAIE网络人工智能引擎技术白皮书》,该白皮书结合电信网络智能化的市场趋势大背景,阐述了华为在该领域的实践落地,包括华为自动驾驶网络解读、NAIE网络人工智能引擎以及典型应用场景探索等。
  大势所趋:将AI引入电信行业
  从18世纪至今300余年间,世界通过三次工业革命,完成了机械化、电气化、信息化的改造,每一次变革都驱动人类社会迈向新的发展纪元。如果说在21世纪还有哪一种技术可以和历次工业革命中的先导科技相提并论的话,那一定是AI技术。
  作为一项通用目的技术,AI在上世纪七十年代便与空间技术、能源技术一起被誉为“世界三大尖端技术”,同时亦与基因工程、纳米科学一起被认为是“21世纪三大尖端技术”。经历了60余年起起伏伏,近年来AI技术步入成熟增长期,越来越多地与现实世界产生了碰撞,并迅速成为适用于大部分经济活动的基本生产力。
  AI在电信行业同样广受青睐,产业上下游纷纷围绕于此展开布局。在国内,中国移动发布了九天人工智能平台,汇聚内外部优秀AI能力,支撑移动各领域AI应用;中国电信致力于打造智能化“随愿网络”,通过AI赋能平台和传统设备的AI升级,改善用户体验、提升使用效率;中国联通发布了网络AI平台Cube-AI智立方,以提升网络智能水平、降本增效为目标。
  在海外,西班牙电信发布了网络AI架构与Fast OSS架构,逐步建立自身的AI用例开发及运维能力;法国电信以AI/数据为核心推动网络智能化、重塑用户体验,作为2025战略的关键目标;德国电信则利用AI/ML建立了逐渐演进、开源、非集中化、以自治网络为目标的AI Program。
  从ALL IP、ALL Cloud到ALL Intelligence,华为在电信网络架构创新上的探索实践从未停止。早在全云化战略实施过程中便尝试引入AI,以推动网络的自动、自优、自愈、自治。2018年9月,正式提出自动驾驶网络(AND)和5级定义,将AI嵌入到底层网元、中间层网络和上层云端乃至网络的整个生命周期中,以此来实现网络的“无人驾驶、永无故障”。2019年4月,正式发布iMaster NAIE网络AI云服务,成为迈向自动驾驶网络过程中的重要里程碑。
  各大电信行业组织亦已将AI的应用推广纳入议程。比如TMF于2019年5月发布了自动驾驶网络白皮书,并成立自治网络工作组,今年2月对自动驾驶网络技术架构立项。CCSA、3GPP、GSMA、ETSI等组织也陆续发布了自动驾驶网络相关的研究建议、白皮书、案例报告等。
  云地协同:加速AI特性规模应用
  在产业界各方的积极推动下,AI技术已在电信网络的规划、建设、维护、优化等各个环节开启了使能之旅,目前主要聚焦解决感知预测、根因分析和优化控制等问题。典型的AI特性应用像是站点智能节能、故障识别及根因定位、Massive MIMO模式优化,都已初见成效。
  不过经实践发现,AI在网络中走向规模部署的过程中尚存不少挑战。韩雨发例举道,首先是模型泛化能力差,很多场景的AI模型都是一站一模型,如无线流量预测,每个站点的模型都需要根据本地个性化的数据进行训练,而本地资源受限,导致AI模型规模应用难。
  其次,模型易老化。一些场景会发生因泛化或数据偏移而导致的模型精度下降问题,如无线流量预测、DC PUE优化等,AI模型都需要进行重训练。AI模型训练一般会占用较多系统资源,如在网元或网管实施重训练任务,训练效率低,同时也可能会影响设备性能。
  第三,样本少,不出局。部分场景单局点样本量少,不足以支撑模型训练。以核心网KPI异常检测为例,由于单局点发生异常频率很少,训练需要的样本量不够。需要能够汇聚所有局点的全量样本信息,可能还需辅以联邦学习等技术,才能训练得到满足业务精度要求的AI模型。
  最后,试错成本高。设计的模型如果直接在真实环境上使用,可能存在较大风险。比如数据中心设计方案,一旦落地,结果基本不可逆。
  针对于此,华为基于iMaster NAIE创造性地提出云地协同解决方案,以加速AI特性的规模应用。韩雨发介绍说,云地协同是指在运行状态下,云端和地端一起协作完成数据样本上云、模型状态管理、模型重训练、模型/知识下发、择优更新等一系列的闭环任务,同时把云端汇聚的全局网络知识经验、全量数据训练得到的高精度模型,持续注入地端,支撑电信网络智能迭代升级,让网络越来越聪明。其中,云端是指部署在公有云、合营云或HCS上的NAIE云端智能;地端是指集成在网络管控单元的网络AI,以及网元设备中的网元AI。
  他告诉C114,云地协同在实际部署中有三个阶段,针对不同场景可以选择合适的阶段,最终大幅提高网络的资源效率。
  阶段一是云端进行初始模型的训练,运行态由地端根据新增的样本进行在线学习,持续保持模型的精度。这种模式主要适用于模型相对简单、算法结构比较稳定的场景,仅需要根据本地数据进行在线学习,优化调整模型参数,比如核心网变更在线机器值守等。阶段二是云端进行模型的分发,然后在地端根据新增样本进行在线学习。一般适合模型相对复杂,华为会持续进行模型算法结构优化的场景,比如无线KPI异常检测等。阶段三是云地实时协同,模型可以自动化演进。适用于模型复杂、需要用到华为云端高质量标注数据、知识图谱以及仿真等知识能力进行模型优化的场景,比如IP RAN/PTN智能告警、DC PUE优化等。
  打破桎梏:云地协同关键价值详解
  对症下药、打破桎梏,为电信网络铺就一条智能升维之路,正是新方案的价值所在。在媒体圆桌上,韩雨发对此进行了详细的解读。
  其一是借助联邦学习,提升模型泛化能力和训练效率。联邦学习,即是将边缘节点数据保留在本地,通过地端分布式训练和云端模型汇聚的云地协同机制,获得全量数据集中训练方式等同的模型效果,最大的特点就是在地端数据不用出局的情况下提升模型的精度。其应用场景包括,跨运营商部署,运营商的网络业务数据不允许出局;运营商内不同子网之间的模型共享,同样可以解决数据不出局的问题;运营商内网元管理带宽受限,不适合上传大量数据的场景。
  品质家宽是一个典型的案例。韩雨发分享道,家宽业务需要区分游戏、视频、上网、应用下载等,以进行流量的精细化管理,提升用户体验。但当前各地样本不同,导致新项目应用识别精准率低、上市周期长。T国某运营商在每个边缘端的SmartONT上进行本地的模型训练,然后上传模型参数到联邦学习服务器进行汇聚,生成出新的模型以后再下发给网络中的终端(包括新建终端),从而在不需要上传本地数据的前提下快速地提升模型的泛化能力,并可以提高模型训练的效率、加快新项目的上市。部署以后,对于应用的识别准确率在95%以上,保证了用户在使用不同应用时的体验。
  其二是构建云地协同构建网络知识库,提升故障运维辅助效率。借助知识图谱,通过沉淀专家经验和产品知识转化形成故障传播关系等,形成“网络知识库”,可用于故障运维辅助、知识问答等。知识生产系统可部署在云端,包含建模、抽取、打包等,在起始阶段,专业知识需要各个领域的专家编辑领域知识谱schema和推理规则(专家经验)。知识消费系统客户端部署到现场,地端图谱引擎先从云端导入对应产品的知识图谱schema和推理规则,然后对接现网设备采集日志数据,根据下载的schema模型重新组织存储数据,应用推理规则进行故障诊断,给出处理建议。
  其三是建立云端仿真,模型及业务验证安全高效。云端仿真,即通过在云端构建虚拟仿真环境,高效安全地进行模型或业务验证,在避免现网性能或KPI受到影响的同时,支撑网络问题的快速闭环。一方面仿真往往要求很多资源,云端的计算和存储资源丰富,容易满足仿真建立的环境要求;另一方面,在云端建立一个集中化的仿真平台,可以供多个局点共享,而且很多仿真软件是根据授权收费模式,集中化的云端仿真可以大幅降低经济成本。目前NAIE主要支持两种场景的仿真,DC节能仿真和无线网络优化仿真。目前NAIE主要支持两种场景的仿真,DC节能仿真和无线网络优化仿真。
  其四是提升模型版本管理效率,加速AI特性更新。传统网管版本集成升级模式需要经过多层多次的人工动作,往往需要1个月以上的时间才能完成一个版本的更新。如果采用云地协同的自动升级模式,让AI模型市场跟地端网络AI对接,模型训练完成后通过AI市场进行发布,启动局点自动下载升级,整个过程仅需1个小时即可完成。
  “总体来看,云地协同可以实现一点生效、多点复制,AI的特性在一个局点成功实施后,快速地形成知识和经验,在其他局点进行复制,从而实现全网规模应用。”韩雨发如是总结道。

微信扫描二维码,关注中国安防行业网