为将360大数据能力赋能给更多的政企用户,360系统部构筑了通用运维解决方案——xManager,用于在政企项目交付中实现快速安装部署及运维,降低交付与运维成本
概述
xManager 经过一年多的迭代研发,以及在多个政企项目中的实践,已经进化成一款支持任意产品集成,实现快速私有化安装部署、监控运维的解决方案。
作为一个面向企业级复杂业务系统、数据化驱动的智能运维平台,xManager核心功能模块包括集群管理、服务管理、数据收集、风控中心、智能运维中心、数据分析与可视化、安全审计、基础管理,功能架构如图所示:
xManager功能架构图
-
负载能力:支持数万台节点(服务器)的管理,并可以横向扩展; -
产品集成能力:支持任意产品(软件)的集成,并进行图形化快速安装部署、监控运维; -
服务管理与运维能力:具备服务的日常运维、配置变更、状态监控、数据收集等能力; -
数据收集能力:内置多个数据收集器,包括机器基础指标收集,大数据基础设施组件指标收集等;同时支持用户自定义收集,日志数据收集等; -
安全审计能力:从细粒度权限控制、安全巡检、违规阻断、操作审计等维度,全方位保障平台安全; -
数据分析与可视化能力:支持固定报表、多维分析、自助报表的数据分析与可视化能力; -
风控能力:支持对服务状态及收集上来的指标数据进行风控规则的配置,当触发风控规则,实现精准告警,必要时,实现问题与故障的自愈; -
文件分发与命令执行能力:可在秒级完成对数万节点的文件分发及命令下发执行; -
国产环境适配能力:支持国产麒麟操作系统、飞腾CPU、GBase8s数据库;
功能介绍及主要设计
0x01. 自身向导式安装
xManager系统由Java Web后端、前端、Nginx、数据库等核心组件构成,其自身的安装亦有一定的复杂性。为此我们设计了用于安装XManager自身的安装向导。在设计初衷,安装向导甚至可以运行在一台笔记本电脑上,通过安装向导提供的页面,将XManager安装到远程主机上。
启动安装向导
使用安装向导页面,安装XManager
0x02. Manager/Agent设计
xManager为了能够管理各个节点(主机),需要将Agent安装到各个节点上。Agent使用Python开发,集成了Python虚拟环境及运行时的必要包,不依赖节点系统的软件环境。安装后占用磁盘大小大约40M,运行时占用内存不超过80M。
Manager/Agent设计
-
上报心跳给Manager; -
采集并上报节点指标(CPU/内存/磁盘/网络等); -
采集并上报节点的进程信息; -
接收并执行Manager下发的命令,上报执行结果; -
定时执行Agent上的定时任务;
0x03. 服务管理
在xManager的设计中,服务即软件,可安装运行在一个或多个节点上。一个服务主要由安装包、组件(模块)、配置文件、相关脚本(安装,操作)、监控信息(端口,进程名)等组成;xManager内置集成了系统部的大数据基础服务,也可以通过自定义服务,将自己需要集成和私有化部署的软件产品集成进来,统一进行交付;
服务(软件)市场
-
为服务的每一个组件(模块),选择要安装的节点; -
修改服务的默认配置; -
确认并进行安装;

服务的界面化快速安装
服务安装好后,可以对服务进行日常的运维,包括:
-
服务的状态监控; -
服务的启动、停止、重启; -
服务配置的变更与下发; -
服务监控的配置:端口和进程; -
服务安装节点的健康状态和指标监控; -
服务操作的事件审计和告警信息查看;
服务的日常运维
0x04. 数据收集
将一台节点接入XManager进行管理后,Agent会定时将节点的性能指标数据及进程数据采集上报,后续可直接进行监控分析。节点性能指标数据包括CPU、负载、内存、磁盘、IO、网络6个维度,共60余个常用指标,并可以根据需求进行扩展。
节点性能指标
节点进程指标
大数据基础服务指标
xManager支持用户创建一个指标数据收集任务来定义、收集、存储自己的指标数据。任务创建好后,可以由XManager管理并定时运行该任务,也可以由用户自己执行任务,将数据上报到XManager;如图所示:
自定义指标数据收集任务
自定义指标数据收集任务运行流程
日志采集器
-
采集模块:负责从数据源中采集数据,数据源支持:文本文件、MySQL、MSSQL、Elasticsearch、Redis、HTTP等; -
解析模块:负责将采集到的数据进行格式解析,比如:json格式解析、Nginx日志格式解析、KV格式解析等,当然,可以选择不解析,直接原始日志发送; -
转换模块:负责将解析后的数据进行字段转换,比如:IP转换、日期转换、字符串替换、字符串拼接、字符串过滤等等。当然,可以选择不转换,直接原始日志发送; -
发送模块:负责将数据发送至接收方,支持:Kafka、Elasticsearch、HTTP、本地文件、InfluxDB、MySQL等;

界面化创建日志收集任务
采集器运行指标实时监控
0x05. 风控中心
风控中心运作流程
简单风控规则
0x06. 运维工具
运维工具–执行命令
任务控制台
0x07. 安全审计
- 操作审计:记录用户XManager上的一切行为;
- 违规阻断:通过配置阻断规则,阻断用户提交的危险操作;
- 安全巡检:定时检查节点上的安全风险,生成巡检报告;
- 权限控制:菜单、功能、数据三级权限控制;
安全审计
0x08. 其他
如果觉得本博客对您有帮助,请 赞助作者 。