首页 > 其他分享> > AIOps：企业运维新力量！

AIOps：企业运维新力量！

2021-06-22 10:35:06 作者：互联网

摘要：企业运维需求及挑战，来看看华为AIOps如何解决！

本文分享自华为云社区《【云驻共创】AIOps？企业运维新力量！》，原文作者：启明。

国际惯例，我们先介绍一下AIOps的概念：AIOps，即 Artificial Intelligence for IT Operations，智能运维，将人工智能应用于运维领域，基于已有的运维数据（日志、监控信息、应用信息等），通过机器学习的方式来进一步解决自动化运维没办法解决的问题。

Gartner预测，当前的IT应用程序会发生剧变，而且管理整个IT生态系统的方式也会改变。这些变化的关键是Gartner所称的AIOps平台。

我们今天要讨论的，就是AIOps的需求挑战，以及我们通过怎么样的方式去应对这种挑战。

AIOps需求及挑战

（一）新技术、新挑战，呼唤高度智能的电信网络

近年来，以5G为代表的新技术在电信网络中得到了快速的应用。新技术的应用，给我们带来了很多的收益，比如大连接、低时延、高速率等等。5G的发展，让这些数据都至少有一个数量级的提升。

但是，数据量级的提升，伴随着的，是运维难度的增加，从而给运维带来了如下挑战：

1. 网络复杂性：

数据量级的增大，让网络变得更加复杂：新技术得到了快速应用，旧技术却没有同步退出，导致我们每引入一项新技术，都需要在原来的复杂度上做一个加法。而在某些场景式，甚至要去做乘法。

比如，在无线领域，2G/3G/4G/5G，“四代同堂”；在核心网，PS/CS/MS物联网等等十域并存......如此高的网络复杂度势必会给运维带来相当大的挑战。

2. 2B新需求

运维的第二个挑战是To B的新场景，也就是企业应用。5G的应用推动了智能制造，网络也逐步融入到了企业的生产制造流程当中。在这种情况下，对网络可靠性的要求必然会提高，毕竟网络一旦出问题，生产流程就可能会受影响，甚至会中断，这样造成的损失将会非常大。3.

3. 成本压力

成本压力主要是由前面两个挑战传导而来。前两个挑战导致我们要么面临一个比较复杂的网络，要么就是有更高的要求。如果我们以传统的运维方式去应对的话，必然会导致成本的急剧上升。当然，成本的提高，还有一个因素就是能耗。毕竟，5G的能耗要远高于4G的能耗。

针对上述这些挑战，我们要如何去应对呢？AI技术是关键。

（二）AI是提升电信网络自动化和智能化的关键技术

在运维成本方面，有统计显示，90%的运维都需要人工去参与，而70%的成本就是人力成本。在这种情况下，一个很自然的想法就是能不能使用AI的技术来降低人的成本，来提高运维效率。

比如刚才提到5G能耗问题，我们能否通过人工智能的技术来去降低能耗呢？从过往的实践经验来看，上述问题的答案是肯定的。

接下来，我们通过三个例子来说明。

1. 基站节能

第一个例子是基站节能。基站的能耗是非常高的。在布网初期，基站用户较少，有时候基站常常是空开。针对这种情况，运营商的解决方案是对话务量做出一些预测。如果我们能精准预测话务量的话，那么，在话务量小的时候，我们就可以把一定量的载波关掉，从而达到节能的目的。据统计，在预测话务量的过程中，通过LSTM神经网络来做预测，可以实现节能10%以上。

2. 核心网KPI异常检测

第二个例子，是异常检测。在运营商的核心网部署KPI异常检测服务。原有的异常检测服务，是使用固定阈值进行告警通知。而AI技术，则更加智能、及时、准确地识别异常。

3. 故障识别及根因定位

通常网络上一旦发生故障，就会触发大量的告警，而系统同时又以高经纬维度进行运维派单。如果多个网员上报多个告警，那么就会出现这种重复派单。也就是说发生了一个故障，多网员上报告警，最后可能导致在多个域（无线域和传输域等）都去派单。

（三）开发AI应用仍然面临挑战：开发门槛高、周期长

从上面三个例子我们可以看出，AI相对来说，还是非常靠谱的。但是既然AI如此靠谱，为什么没有得到全面快速的应用呢？因为AI的开发还面临着不小的挑战，简单概括就是六个字：门槛高，周期长。

上图是Gartner的一份研究报告。它从四个维度分析了AI应用的主要障碍。其中最主要的3点：

人员技能
理解增益与用途
数据范围与质量

这就回到我们说的六个字：门槛高，周期长。

1. 门槛高

此处说的“门槛高”，第一点是指缺乏AI算法开发人员。一般的运维团队不会配置专门的AI算法开发人员，这样必然导致AI技能的缺失。

但这不是最关键的，因为AI人员通过培训、培养、招聘等手段，都可以解决。

最关键的，也就是我们说的第二点，算法与业务结合难。如果要想把一个应用做好，最好的是从业务出发，根据业务的实际情况选择合适的算法，这样才能把应用做好。但在实际操作过程中，首先，我们需要有一个业务专家对运维要有深刻的理解；其次，还需要有一个精通AI的算法专家。在这之后，需要他们有充足的时间和意愿坐下来深入的交流。在这里，时间和意愿都会成为阻碍。

第三点是数据。数据包含两个问题：工程问题和标注问题。即，开发一个AI应用实际上是相当大的工程量，因为首先需要接入海量的多模态的数据去完成模型的训练和推理，最后还要去完成结果的展示，包括去对接一些现有的系统。因此除了前面需要的运维专家和算法专家，还需要很多工程开发人员。

2. 周期长

开发门槛高，就决定了开发周期长，毕竟有这么高的门槛，如果不能很好的解决的话，那么周期必然会特别长。开发周期长会导致：

第一，理解增益和用途。怎么理解呢？也就是说，如果我们长时间拿不到结果，那么企业决策人员就可能对AI能产生的效果会表示怀疑；

第二，时间越长，大家对项目的期望就会越高。假设同样是做一个东西取得了同样的效果，比如说故障修复时长降低5%，两年做出来的和一个月做出来的，得到的评价可能就完全不一样。

针对AIOps落地过程中遇到的挑战，华为推出的AIOps服务！现在我们一起来看看AIOps服务具体是什么，以及它是如何解决我们前面面临的挑战的。

华为AIOps服务

上图是AIOps服务的整体框架。AIOps从下到上分成了四层：

第一层：数据的采集和治理。数据采集治理，听上去容易，做起来难，为什么呢？因为要面对的数据类型多，接口和数据类型也不统一。光去适配这些数据，都有可能累的焦头烂额。相对来说，华为AIOps服务首先支持通用的接口，然后对一些常见的设备都已经预置完成，最后能达到自动对接，数据自动治理的一个水平。

第二层：AI原子能力。华为AIOps共有二十多个原子能力，覆盖检测、预测、识别、诊断四大场景。原子能力不仅仅是AI算法的一个实现。每一个原子能力都经过实际局点数据的检验，针对具体的运营场景做过优化。同时，每一个原子能力也都融入了华为以前的运维经验，某些原子能力甚至能做到不训练可以直接使用。

第三层：编排能力。包括流程的编排和大屏的编排，还有RPA的编排。原子能力是AIOps智能运维的基础组件，流程编排操作简单灵活，只需从组件库中拖拽数据及AI运维能力进行组合，即可完成命令场景端到端的图形化编排，真正支撑合作伙伴拉低开发门槛，高效率的构建AI应用编排框架。

第四层：行业AI app。针对最典型的场景开箱即用。通过丰富的2D和3D可视化组件，如提供了超过30个图表控件，覆盖折线、拓扑、列表、柱形等样式，并提供多个地图控件、交互控件及媒体控件搭建。运维效果大屏时只需从组件库里拖拽出各类控件，按需组合自由布局、灵活配置应用的各种报表，辅助监控和分析，例如DIY微服务健康监控大厅，使其能够可视化，展示接口平均成功率、接口平均时延、接口失败率、接口调用次数等。同时提供KPI告警列表，为运营人员提供故障预警参考依据，拖拽所需控件号，对控件的样式，数据及交互进行个性化定制，使其满足展示要求。后端数据还可使用app组合流程里定义的各类中间数据。配置完成后即可一键预览和发布运维效果，大屏展示接口，平均成功率，接口平均时延，接口失败率，接口调用次数等，快速实现DIY可视化大屏。

（一）RPA助力AIOps对接现有运维系统

除了展示位，推理结果必须能够帮助进行故障的恢复。现阶段一般是对接现有的系统，比如工单系统（需要工单邮箱的人要去处理）、自动回复和问题单。如果通过人工去对接，费时费力并且容易出错。因此机器人流程自动化，也就是RPA服务，水到渠成。RPA服务可以完成数据的对接、搬运及工单的发放等等，减少人力投入，降低出错成本。

（二）10+开箱即用的App，支持快速部署

针对一些最典型的场景，华为云AIOps把编排能力都已经提前准备好，也即，有十多种开箱即用的App，如园区网络、DC网络、IT应用、运营商网络等等场景全覆盖；灵活部署，支持公有云、HCS部署、On Premise部署、及云地协同等；开放生态，支持合作伙伴开发行业App，并将AI应用发布到AI市场，合作共赢，共建网络AI生态。

下面我们以“KPI异常检测”App来演示一下如何使用一个开箱即用的App。

第一步：导入网元列表；

第二步：配置性能、告警数据源；

第三步：数据源关联到App；

第四步：启动App；

第五步：查看大屏，分析故障。