一、背景介绍
随着信息化建设的不断完善,IT运行环境日趋复杂,运行监控工作难度加大,尤其是随着信息化建设的不断深入,信息系统越来越多,各类系统越来越复杂,系统的关联度也越来越高。
随着数据处理量成倍增长,应用系统也越来越多,使IT系统运行环境变得更加复杂,主要有以下几个方面问题:
1.统一监控
缺乏一个集中、统一的监控平台,及时发现与解决网络设备、安全设备、操作系统、数据库、中间件、应用系统等出现的问题。
2.运维服务及工单管理
维护过程难以记录过于繁琐,起始、过程、结果都需要人员手工录入,造成记录简单甚至没有,进展过程难以了解;
用户满意度难以准确了解,不是用户直接填报,往往是维护人员填写;
报修途径多通过电话或聊天软件的临时对话,无法做到工作记录,导致工作价值得不到认可;
运维流程及巡检记录的缺失,导致一旦出现较大故障,无法寻根究则,最后往往由运维人员来负责,严重影响运维工作的质效。
3.数据统一呈现
对数据中心相关的容量统计,以及同时位置信息、资产信息、配置信息分散,难以有效支持IT运维过程。
数据中心环境监控系统、网络监控系统,主机监控系统等,这些监控信息没有有效进行整合,要在分散的操作界面上进行分析查看,不利日常的故障处理与分析。
资产配置信息(对象)与监控信息(性能)各自孤立,无法形成一个数据中心的全面信息整体,经常需要IT运维的信息需要,穿行于不同的IT管理工具之间。
二、技术方案体系
1.顶层设计思路
● 数据融合:全省基础设施、机房环境、安防等资源基于协议、接口做到数据融合,解决信息孤岛,形成统一管理、统一展示、统一预警、统一报表
● 闭环管理:基于运维管理制度与现状,借鉴国际、国内相关运维规范,做到运维事件管理闭环,并联动资产资源与知识库、应急预案、专家库等,符合相关要求
● 可视化:建立专属大屏,洞悉全局,提高信息化部门感知,将IT投资转换为成果输出
● 提升决策效率:通过基础数据体系可为项目建设、改造提供数据依据;通过流程闭环管理体制可优化资源、人员、流程、制度等
2.基础数据采集
···网络:支持对所有可网管的交换机、路由器、无线、安全等设备的数据采集
···主机:支持对云主机、Windows、Linux、Unix、Aix、银河麒麟等多种主机的数据采集,包含主机硬件状态
···存储:支持对HP/IBM/EMC/华为等存储设备的监测
···虚拟化:支持对VM虚拟化平台的资源池的监测,包含云主机的运行情况
···应用:支持对数据库、中间件、web等应用的数据采集
···安防/动环:支持对摄像头、视频主机、门禁、温湿度、ups、配电等环境安防的监测
3.核心技术
考虑到运维管理面临的挑战,解决方案必须包含以下三方面的内容:
● 视频系统的监控管理,包括对视频设备本身的工作状态、视频图像质量诊断、运维支撑厂家的管理
● IT基础设施的监控管理,包括对通讯线路的通断、网络设备的工作状态、系统相关的服务器、服务器硬件、数据库等被管对象的管理
● 基于ITIL的工单流程管理(IT运维管理),包括故障流程设计、服务级别管理(SLA)、运维报表管理等内容
三、系统架构
通过一体化运维平台,以统一监控管理为中心,完成对信息化IT基础设施的集中监控管理,通过为业务建模,打通传统IT管理、业务及业务管理部门的价值链,确保IT管理工作价值能够最好的体现,同时让运维管理不再与业务分离,而是紧紧结合于业务,时刻为业务服务,通过屏幕矩阵将IT管理页面挂在墙上,更加方便日常管理工作和对业务的支撑,遵循各类标准化协议与规范,实现包括对网络设备、安全设备、服务器、虚拟化、存储、数据库、中间件等集中管理,构建统一集成的系统资源监控平台,主动、及时地发现问题,解决被动服务的局面,实现高质高效的运维管理。
● 将传统视频分割管理进行有效的整合和关联,形成视频资源链条式的完整监测结构,实现视频统一的管理和调度。
● 从中心机房环境,到所有相关IT资源,全面监测运行状态,实现故障提前预知预判。保障业务持续稳定运行。
● 针对行业特性和用户需求,提供定制化展示服务,将存储、摄像头、基础网络等主要数据进行定制化输出。
● 遵循ITIL/ITSS标准,从协同办公理念出发,简化运维事务处理,用信 息化的手段管理信息化,做到管理上的闭环。实现用户在线报修,服务进程跟踪等基础协同功能,并内置应急演练、知识库、专家库等模块。
四、系统概述
1. 设备监控
网络监控···
方舟科技一体化智能运维平台面向网络运维人员,提供了网络监控和管理的工具、视图、知识,提供了网络拓扑结构、地图拓扑、网络性能监控、网络故障管理、IP地址管理、网络配置管理,对网络设备数据实时监控,及时发现网络故障、流量异常,提高网络管理效率,确保网络的安全性和可靠性,降低运维成本。
拓扑管理提供了自动发现局域网的物理设备和连接,生成局域网物理拓扑图,同时可以有效识别二级和三级拓扑,可直观清晰地显示全网所有骨干网络设备、子网和互联关系。层次化的网络显示符合网络逻辑结构,并且关联设备的性能和告警信息,便于进行故障隔离和快速定位。
安全设备监控···
支持主流安全设备监控,监控指标包括网络设备电源、电源、温度、风扇等的状态及性能指标。
存储监控管理···
管理员需要掌握各个设备的存储极限,保持对存储容量的警觉,保证存储资源的性能和可用性,保证存储的可靠性和灵活性,以便快速准备和资源移动,并在需要的地方满足严格的计算需求。
方舟科技一体化智能运维平台支持同时对多个存储设备的自动监控,监控方式支持SMI-S、SNMP、等方式。动态发现设备存储资源配置、存储卷配置以及存储卷的映射。用户自定义设置性能阈值,方便进行资源故障预警;通过SMI-S国际标准接口进行管理,支持目前主流的存储、磁盘阵列设备。支持在已有的发现信息的基础上对资源进行重新发现并展示发现结果的内容,可以自行选择需要监控的子资源。
存储监控指标支持以下指标:
● 基本信息:包括控制器个数、物理磁盘个数、存储池个数、存储卷个数、光纤接口个数等;
● 可用性:存储可用性状态;
● 存储性能:包括存储的总管理空间大小、剩余管理空间大小、IO累计次数、IO累计时间、IO变化次数、IO间隔时间、缓存命中次数、缓存命中时间、缓存命中率、传输字节数、传输速率、累计空闲时间等;
● 控制器:控制器名称、控制器工作状态等指标;
● 物理磁盘:物理磁盘名称、物理磁盘工作状态等指标;
● 存储池:包括存储池名称、存储池工作状态、存储池总管理空间、存储池剩余管理空间、原始池标识等指标;
● 存储卷:包括存储卷名称、存储卷工作状态、存储卷块大小、存储卷块数量等指标;
● 光纤接:包括光纤接口名称、光纤接口工作状态、光纤接口号、光纤接口类型、光纤接口当前带宽等指标;
服务器监控···
方舟科技一体化智能运维平台支持多协议方式(如SNMP、IPMI等)对主流服务器进行监控,支持HMC方式对IBM小机进行监控。可以使用预置账户对服务器硬件进行发现,也可以在已有的发现信息的基础上对资源进行重新发现,并展示发现结果的内容,并且可以自行选择需要监控的子资源。
方舟科技一体化智能运维平台支持主流服务器的各类组件基本信息的采集,采集内容包括:操作系统名称、BIOS版本、主板零件号、主板序列号、服务端口、产品型号、主机名、服务标识、主板产品名称等;支持主流服务器的各类组件状态的监控,监控指标包括:硬件可用性状态、电源过载状态、内存过热状态、BOMB电池状态、电源管理错误状态、PCIE严重错误状态、CMOS电池状态、风扇制冷错误状态、驱动器错误状态、主电源错误状态、机箱温度状态、内存校验错误状态、处理器状态等;支持主流服务器配置、性能情况的监控,监控指标包括:处理器的个数,风扇个数、风扇转速,电源个数、机箱温度、风扇转速。
方舟科技一体化智能运维平台支持主流网络设备(如Cisco、华为、H3C、锐捷、Dptech、Nortel、迈普)、安全设备(如思科防火墙、华为防火墙、H3C防火墙、天融信防火墙、深信服防火墙、山石防火墙、联想防火墙、网御神州防火墙)等硬件监控,监控指标包括机箱温度,风扇,处理器,电源的硬件状态监控并对发生故障的硬件产生告警。
方舟科技一体化智能运维平台支持对各类主流操作系统的监控。支持对MicrosoftWindows2000、2003、2008等Windows操作系统的监控;支持对SunSolaris、IBMAIX、HP-UX、SCOUnixWare等UNIX操作系统的监控;支持对主流Linux操作系统的监控,包括RedHat、CentOS、SUSE、Fedora、Ubuntu、FreeBSD、SCOOpenserver、Neokylin等操作系统的监控。
Windows操作系统可以通过SNMP和WMI方式获取主机设备的运行状态和性能数据。可以使用预置账户进行发现。支持在已有的发现信息的基础上对资源进行重新发现并展示发现结果的内容,可以自行选择需要监控的子资源。
方舟科技一体化智能运维平台能够管理的主机性能数据包括CPU利用率、磁盘容量、系统内存(物理使用内存及缓存)使用情况、磁盘利用率、文件系统、关键进程、软硬件资源信息等,针对服务器相关的性能指标能够按照实际情况设定不同级别的性能阈值,对于超过性能阈值的性能指标系统能够进行故障告警或预警并通知相应的管理人员。
方舟科技一体化智能运维平台采用图表等方式实时显示主机的CPU利用率、CPU使用情况、内存利用率、磁盘信息、进程等相关信息。实时监控当前主机性能,能够根据当前系统的运行情况,提供深入的性能分析。
打印机监控···
在IT资源统一监控中,管理员可以实时获取打印机状态监控信息,并进行机器抄表,简单方便地实现远程运维。
2.虚拟化监控
方舟科技一体化智能运维平台虚拟化管理包括了包括了对Esxi、citrix、Hyper-V、Openstack、Fushion等虚拟化平台的管理。提供了的虚拟化资源管理、基础架构拓扑、虚拟化TOPN排名、虚拟化报表统计、虚拟化资源发现以及策略配置等功能,提供了对Cluster集群、物理宿主机、数据存储及虚拟主机等资源的 CPU、内存、存储分配及耗用情况进行实时监控,对各组件的占用情况、可用性及性能参数进行统计分析和排名,并以拓扑图形式将各虚拟化资源的连接关系直观展现给用户,便于用户全方位对虚拟化资源进行的查询和管理。
● 系统通过虚拟化平台提供的API接口,可以对宿主机监测包括管理程序、Hypervisor、系统配置参数、CPU占用率(%)、内存利用率(%)、已分配磁盘、磁盘占用率(%)等信息。
● 对虚拟机的监测包括每个虚拟机的CPU状态、CPU占用率(%)、以分配内存大小、内存利用率(%)、磁盘占用率(%)、磁盘剩余空间(MB)、磁盘读速率(KBPS)、磁盘写速率(KBPS)、虚拟机VDA设备等。
● 虚拟化的接口信息包括接口名称、接口IP、MAC地址、掩码、MTU、接口流出速率(KBPS)等指标参数。
● 支持自动发现宿主机、虚拟机、虚拟存储等的变化,当新增虚拟机、删除虚拟机等情况时,新增的虚拟机自动加入监控,删除的虚拟机自动进行删除。
3.基础软件监控
数据库监控···
数据库是客户信息系统中的核心应用,系统提供数据库监控功能对数据库进行管理,保证数据库的安全,优化数据库的性能。
方舟科技一体化智能运维平台能够对运行在主机设备上的各种数据库的运行状态和性能数据进行统一有效的管理。系统支持SQLServer、Oracle、Sybase、Informix、DB2、MySQL、PostgreSQL、神通数据库、达梦、Cache等主流的数据库的监控管理。可以使用预置账户进行发现。支持在已有的发现信息的基础上对资源进行重新发现并展示发现结果的内容,可以自行选择需要监控的子资源。
数据库监控指标支持以下内容:
● 支持监测数据库能否正常访问、特定进程的状态和进程数;
● 支持监测连接数是否过大、读缓存命中率是否过低、写缓存命中率是否过低、死锁数量是否过大、回滚数是否过高等;
● 支持监测表空间和数据文件的大小、状态和使用率、FSFI碎片百分比等;
● 支持监测数据库的会话是否过大、每秒SQL解析次数、库中每秒执行的事务量等;
● 提供SQL语句运行时间排名,可以查看到底是那个具体的SQL语句执行的时间最长;
● 数据库作业情况、文件系统、数据文件、日志文件等各类指标监控和管理。
中间件监控管理···
方舟科技一体化智能运维平台能够支持市场上各类主流Web服务中间件的信息监测,包括:Apache、Tomcat、Nginx、Lighttpd、Weblogic、WebSphereAS、WebSpherePortalServer、OracleAS、SunJESAS、JBossAS、Resin、TongWeb等;
方舟科技一体化智能运维平台可监测各类缓存中间件,包括:Redis、Memcached;
方舟科技一体化智能运维平台可监测各类消息与交易中间件,包括:ActiveMQ、Tuxedo、TongLink/Q、RabbitMQ、Kafka、WebspereMQ、OracleAS、CICS7、TongLINK/Q、SharePoint、ICE、Tuxedo。可以使用预置账户进行发现。支持在已有的发现信息的基础上对资源进行重新发现并展示发现结果的内容,可以自行选择需要监控的子资源。用户可自定义阈值,还可根据自己的需求定制监控指标,一旦出现故障立即报警。
4.业务健康度监控
方舟科技一体化智能运维平台的业务管理是站在整个IT体系的视角关注业务的运行,以业务建模为核心,从业务关联的视角对IT资源进行管理。在宏观的角度去了解IT对业务的支撑情况,从全局掌握业务的健康水平,从业务视角洞察IT异常和变化,使用户可以直观的查看业务系统与IT资源的关系,查看业务系统的告警状况和故障根源,当发现业务系统出现故障时快速实施应急响应预案,快速恢复业务系统正常运转,最大化的降低业务系统故障所造成的损失。
● 稳定性:体现该业务系统运行的平稳性,是否出现过宕机,从而体现该业务在IT基础架构层面的稳定性。
● 健康性:体现业务的关键设备可用度,根据自定义计算模型计算健康度,支持各类健康度计算模型,包括集群关系计算、主备关系计算、运行在关系计算(一票否决)、权重计算。
● 体验度:体现该业务系统运行的流畅性,用户的使用体验感受是否良好,评判的标准来源于对该业务系统所有IT资源的全面监控,例如服务器的CPU利用率是否繁忙、数据库的连接池占用是否过多、网络是否影响过慢等等因素。
5.业务访问质量监控
在方舟科技一体化智能运维平台中对于业务系统的性能管理能够在信息的产生和交互过程中对实时性、准确性及稳定性,进行异常预警,故障定位,规律分析,趋势描述。性能管理包含网络性能管理、应用性能管理、业务性能管理三个方向。其本质实际上是一类以网络流数据为源数据,进行不同深度,不同维度,不同场景解析的高性能实时大数据分析,与传统流数据分析产品不同,性能管理侧重于对业务和性能的理解,而当所有的“源数据”都被赋予性能和质量的标签后,则会产生充满想象的丰富的应用场景。
6.安防视频监控
视频设备管理···
IT资源监控管理系统对视频设备进行管理,实现对目标区域的摄像机、红外摄像机和具有夜视功能的高速智能摄像机的监控管理,可以实时监控上述摄像机的状态是否正常。并对摄像机图像的质量情况、图像雪花情况、抖动情况等相关的指标进行监控,以确认摄像机的运行正常。对不能正常工作的摄像机或性能异常的摄像机发出告警,也可以通过对NVR/DVR设备的IP地址、工作状态、各通道状态、硬盘状态实时监控,使得运维人员对前端存储设备工作状态实时掌控。通过监控DVR设备通道状态实现了对前端非智能摄像机工作状态的掌控,当某些状态异常时,系统同样会发送告警信息,使得维护人员可以直观的了解到前端情况。
视频图像质量诊断···
系统支持对所有前端设备进行视频质量的智能诊断分析,并以列表的形式直观展示。系统能够在视频图像出现视频噪声、模糊、偏色、画面冻结、场景变化、亮度异常、视频丢失时及时的进行智能化的分析、诊断和告警,并记录下所有检测的结果。为了确保告警的准确性,基于深度自学习的神经网络技术,使用实际项目中大量的视频样本数据进行训练,可达到95%以上的告警准确性。
● 视频在线检测:系统自动检测因前端摄像机掉线、损坏、人为恶意破坏或传输中断等故障引起的间断性或持续性视频丢失现象。
● 模糊检测:自动检测因为摄像头故障引起的失焦、镜头损坏引起的图像模糊故障。
● 噪声干扰检测:自动检测因视频图像中由于高斯噪声等引起的图像布满杂乱的色点的图像质量故障。
● 画面冻结检测:自动检测出画面定格停止不动的视频故障。
● 色彩异常检测:自动检测因视频线路接触不良、外部干扰或摄像机故障等原因造成的视频中的画面偏色故障;主要包括全屏单一偏色或多种颜色混杂的带状偏色。
● 遮挡检测:自动检测因异物或认为遮挡摄像头造成摄像头视野部分或者完全被遮挡等故障。
● 亮度检测:自动检测因为摄像机故障、照明异常等原因引起的画面过亮、过暗等故障。
● 对比对检测:自动检测当前画面中对比度过低造成画面不清晰无法准确分辨等故障。
● 云台失效检测:自动检测云台摄像机的云台控制功能是否正常。
录像完整性管理···
系统支持定期检查各路设备的录像状态,以及录像文件的保存完整性,并以列表的形式统一展示,如有缺失也可以清晰展示缺失时间段。帮助运维人员及时发现录像的保存情况,避免关键录像的丢失。
7.其它软硬件监控
对于不支持标准协议也不方便开放接口的设备和软件可以通过IIS、SMTP、DNS、FTP、Domino、Ping、URL、Port、POP3、端到端Remote Ping、Directory Server等实现监控管理。支持在已有的发现信息的基础上对资源进行重新发现,并展示发现结果的内容,可以自行选择需要监控的子资源。
● HTTP/HTTPS/URL监测: 对HTTP /HTTPS服务的运行状况进行监测,包括端口和服务是否正常,计算主页存活率,并且可以对HTTP/HTTPS返回的结果进行分析,判断服务器的工作是否正常。
● SMTP服务、POP3服务监测:对邮件发送服务器的工作状态进行监测,包括邮件数量和邮箱使用量。
● FTP服务监测: 对FTP服务器的工作状态进行监测。在判断条件中可以选择是否允许匿名登录、验证登录、验证文件是否存在等。
● DNS服务监测:对DNS服务的运行、延时及正确性进行监测。
● Ping监测:通过Ping命令来监测广播、对讲、门禁等设备是否正常运行。
IIS监测:响应时间、版本、CPU利用率、内存利用率、IIS可用状态、IIS CPU利用率、内存总容量、主机名、IIS 内存利用率、每秒接收字节数、每秒传送的字节总数、每秒发送字节数、当前连接数、当前匿名用户数、GET请求速率、最大连接数、未找到错误的请求总数、当前非匿名用户数、最大匿名用户数、最大非匿名用户数、总匿名用户数、总非匿名用户数、每秒文件数、每秒接收文件数、文件发送速率、总接收字节数、总每秒字节数、总接收文件数、总发送文件数、总传送文件数、总GET请求数、总POST请求数、操作系统;Web应用:Web站点名称、正常运行时间、IIS总GET请求数、IIS总POST请求数、IIS总接收文件数、IIS总发送文件数、IIS最大匿名用户数、IIS最大非匿名用户数。
Domino监测:响应时间、CPU利用率、内存利用率、连续运行时间、主机名称、服务器可用性、服务器端口状态、SERVER状态、AMGR状态、HTTP状态、Lotus Domino CPU利用率、Lotus Domino 内存利用率、SESSION数、丢弃的会话数、HTTP CPU利用率、HTTP 内存利用率、HTTP响应时间、服务器名、服务器标题、数据目录名称、数据库数量、数据目录数量、内存总容量、版本、操作系统、活动Task数、服务端口;数据目录:数据目录ID、数据目录全路径、目录中文件数、数据子目录名称、目录大小、目录中子目录数;数据库:数据库ID、数据库标题、所在数据目录全路径、数据库名称、数据库文档量;任务:Task ID、TASK启用状态、TASK名称、活动状态。
Exchange监测:响应时间、版本、CPU利用率、内存利用率、连续运行时间、连接总数、发信队列大小、输出队列长度、用户总数、RPC平均响应时间、拒绝的外部连接数、收信队列大小、当前用户数、服务可用性、POP3 CPU利用率、SMTP每秒接收的消息数、当前的外部连接数、每秒发送的消息字节数、信息存储服务可用性、MS Exchange CPU利用率、物理磁盘当前列队长度、SMTP每秒接收的字节数、内存总容量、操作系统、SMTP每秒发送的字节数、每秒日志写入、主机名、当前活动用户连接数、等待传送的邮件数、数据库缓存大小、每秒打开消息数、SMTP CPU利用率、每秒打开文件夹数、每秒接收的消息字节数、当前活动连接数、SMTP每秒发送的消息数、MS Exchange内存利用率、每秒日志延迟、每秒总的字节数、每秒总的消息字节数、SMTP队列长度、错误连接总数、实例名称。
Directory Server监测:可用性。
Connector:当前连接数、当前队列数、当前读操作等待数、当前写操作等待数等。
8.告警管理
方舟科技一体化智能运维平台提供了统一的告警管理平台,通过性能指标采集轮询、调用厂家网管告警接口、网元Trap/Syslog主动推送、第三方系统轮询获取等多样化的来源方式,获得整个网络系统中的各种事件、设备故障、网络异常等告警, 它包括了告警视图,告警策略设置。对客户网络提供告警监控,出现故障后能及时通过短信等方式通告,并能提供告警分析、统计报告,为客户提供主动式的故障解决方式。
在告警列表中提供“关联知识”,帮助运维工程师迅速定位故障,解决问题。可大大缩短故障的中断时间,降低了由故障引起的直接或间接利益损失。
9.移动运维管理
APP移动管理···
移动运维将使IT运维人员不再受到地域的限制,可以在任何地方通过移动或无线网络连接到平台中进行运维工作的处理,再也不会因为突发事件找不到人员而造成重大后果,也不会因为突发事件需要赶往现场而延误处理时间。
微信接入···
当故障来临的时候,工程师不在或无法快速到达办公区,我们应该怎么办?通过微信,运维人员可以对监控的告警信息进行接收,通过查看相关的告警信息,从而快速的锁定问题的所在。
10.自动化运维工具
···自动巡检
巡检管理提供了自动巡检计划管理,支持对巡检计划任务管理、巡检内容设置、巡检方式设置(包括人工、自动)等功能。巡检管理划分为巡检计划管理与巡检报告的编辑、提交与查看两个部分。在巡检计划中设置巡检周期,指定巡检人,以及对巡检报告样式的制定。当巡检计划完成并启用后,系统将按照巡检计划定时生成与巡检计划设置的报告样式一致的巡检报告,再由巡检计划中指定的巡检人来进行编辑,最终提交给巡检计划制定人进行查阅。
支持巡检任务的填写与提交、巡检报告的生成与下载功能。巡检报告支持Excel、Word、PDF的导出功能。巡检报告内容可以自定义;支持对默认指标和自定义指标的巡检。巡检报告可以根据需要设置章节。巡检类型提供系统自检和人工手检。建立巡检计划时,可以预置人工手检项的巡检值,生成巡检报告时,默认采用预置值。提供批量设置巡检资源及巡检项。
···配置文件管理
配置文件管理为用户提供了对网络设备的配置文件进行定期的自动备份功能,网络管理人员可以设置备份策略,系统能够根据配置的策略自动将网络设备的配置文件备份到本地。减少网络设备出现故障时进行设备配置恢复的时间。
同时为用户提供了配置文件的各版本较对功能和配置文件变更的告警功能。基于告警可以及时进行配置文件恢复,减少了网络设备因为异常的配置变更带来的业务中断。
11.报表管理
报表统计分析是方舟科技一体化智能运维平台运维质量的度量依据,方舟科技一体化智能运维平台报表生成灵活,呈现多样,能满足用户不断变化的统计需求,系统可通过报表分析能够有序地展现网络运维的所有管理指标,生成各种分析报告和图表,全面呈现IT系统的设备资源、告警统计、系统运行状况等,为故障诊断、领导决策提供科学的、可量化的依据。
五、运维服务及工单管理
随着信息系统一个接一个的上线,IT设备也越来越多,但运维人员还是那几个,不但工作压力越来越大,由于传统的电话报修无法进行工单记录,对关键事件更没有记录,各项工作的目标进行没有事先约定,导致工作价值得不到认可,运维工作的质效更无法得到提升,传统的IT运维模式早已无法支持日益庞大的信息系统,智能报修告别传统报修的诸多弊端,提供网页、微信、电话等方便快捷的报修和服务申报渠道,让报修和服务更高效、更便捷。同时对用户的IT巡检和项目过程管理进行数字化赋能,最终实现整个运维生命周期的可视化服务及运维人员的质效记录与提升。
1.多渠道报修
智能报修前端同时支持PC端、微信端、电话端报修方式。可在全单位范围内进行“报修请扫描以下二维码关注公众号或拨打XXXX电话”的宣教,还可以将IT技术支持电话和二维码制作成标签,贴到醒目的位置。
后端服务台是整个IT运维体系的核心,可以统一接收前端各个渠道的报修申请,可以实现工单统一处理、集中调度、集中管控,实现报修受理的高效、报修完成的及时、报修监督的到位、报修满意的提高;
2.故障报修
故障报修时,用户仅需通过下拉框选择故障类型,大部分内容通过选择即可完成,还可以通过拍照上传故障图片,使报修申请更清晰、准确、规范。
3.服务申请
信息部门不仅提供故障报修服务,还提供了很多IT服务,小到IP地址申请、VPN账号申请、邮箱申请服务,大到会议保障服务。传统的服务申请方式需要线下提交纸质申请单,非常繁琐。
部署了智能报修之后,用户可以通过微信端进行申请IT服务。提供的具体服务内容可以根据用户单位情况进行自定义。
4.智能服务台
智能服务台简化工单流转流程,当工单到达服务平台后,可通过手动或自动的方式,快速完成工单分派。支持3种派单模式分别适应不同的场景:
人员充足,设有专职(或轮岗)服务台人员
手工派单:由服务台值班人员手工分派工单给对应的工程师。对于紧急事件可不填写工单,应立即处理,但在事后由处理人员 补填工单,记录事件处理过程。
人员不足,没有专职服务台人员
智能派单:智能识别用户报修类型以及工程师繁忙程度,进行自动派单,实现无人值守的服务台。
人员不足,服务台人员为兼职
延时智能派单:默认手工派单,当工单超过一定时限未得到分配时,避免用户等待时间过长,转为智能派单模式。
5.消息自动提醒
···报修人消息提醒
报修人在成功报修后,会自动收到报修成功提醒消息和故障受理通知消息;在维修工程师维修处理过程中,会实时收到处理的每个环节信息。当维修工程师完成维修时,会自动发送服务评价提醒。
···工程师消息提醒
当自动派单或者人工派单时,会自动给对应的维修工程师发送“派单通知”,通知运维人员尽快进行维修处理。
6.报修进度查询
报修人可以通过手机随时查看工单进度,派单,处理,完成,每一个工作节点,都会自动给报修人发送进度消息,让报修人清楚地知道工作进展。
工单处理完成,会自动推送给报修人进行评价,七天未评,自动好评。
7.统计分析
···运维人员质效排名
从运维人员的维度,对一定时间内的完成工单数量、完成效率以及平均满意度等指标进行排名展示,可以反映出运维人员和外包人员的忙碌状态、工作效率、服务质量。信息部门管理人可根据这些统计数据集合工单综合报表对团队成员进行有效的考核激励,从而提升运维团队运维服务质效。
···运维项统计
运维项统计包含报修项和服务项的统计,通过对报修项的统计,可以让管理员清晰的看到一定时间内什么类型的设备出现故障的次数最多,以及各类设备的报修次数占比情况。通过对服务项的统计,可以清晰的展示出各类服务被申请的次数及占比情况。
···申报统计
申报统计报表可以反映出各个部门以及用户的故障以及服务申报次数。支持按照申报次数的的顺序进行展示。
··· 工单统计
工单统计展示一定时间内的工单完成数量的趋势图,通过趋势图可以侧面反映出:运维人员有多忙,工单量的趋势是增还是减,服务外包一年到底多少工作量到底值不值等情况。
··· 工单综合报表
工单综合报表提供各种详实的工单数据,支持多种筛选条件,可以帮助用户从繁多、变化的数据中找到线索,挖掘有价值的信息,从而帮助用户找到提升运维服务效率和质量的线索。
··· 任务计划管理
任务计划管理是一个自动运行,按计划设定的规律创建任务、执行任务的程序能帮助运维人员合理的安排各种任务。是为了处理非突发性事务,比如定期巡检,定期的机器清洁、检修,定期安全审核等
8.项目管理
信息部门内部每年都会有各种各样项目,小到网络割接、系统升级、等保自查,大到信息化建设。目前针对项目管理,信息部门主管主要通过聊天软件或表格的形式来管理,存在协作不方便、信息易失、进度难查询、数据难统计、交付物难存储等痛点
由于信息化项目建设具有一定的行业特殊性,市面已有的项目管理软件,并不一定适用。智能报修的项目管理模块能够帮助IT部门主管实现小到任务,大到项目的数字化管理,从而使得他们能够向上说得清每个投资项目的总体进展、关键里程碑、人员参与情况、时间成本分析;向下掌握清具体某个项目当前所处阶段、负责人、工作内容、存在的问题和风险;
功能特点:
● 方便:可基于微信端实现项目进度填报、上传交付物。
● 过程可控:对于每个项目掌握项目进度进展及建设延迟风险
● 进度可查:便于上级实时查看项目建设进度
● 结果可用:项目文档库统一存储项目交付物并提供下载
六、技术创新点
1.行业优势
针对安防有专门的行业版本,完全符合安防行业特性,根据智慧安防运维要求定制化解决方案。并且有自上而下建立整个安防综合运维管理平台落地项目,在贵州天网中分级部署,实现安防综合运维平台建设。
2.技术架构上对大数据的集成
产品采用Hadoop+Hbase+Zookeeper+Dubbo大数据分布式架构,可视化主要基于H5技术实现,符合未来技术发展,注重产品性能和用户体验化,便于后期扩展,平滑迁移云架构。
3.服务优势
核心团队10年运维行业沉淀,专注运维产品,中立的第三方综合运维管理平台,根据行业提供专业、快速的定制化开化服务,完善的产品本地化服务团队,能够快速对接安防、告警、动环监测等安防各平台,打造客户专属的运维系统。