全国服务热线:13864198606

新闻中心 PRODUCT DISPLAY

济南异构类实例安装支持对应监控的CES Agent(Linux)

来源: 发布时间:2024-06-20 258 次浏览

监控与告警是保证异构云服务器(GPU加速型实例、AI加速型实例)高可靠性、高可用性和高性能的重要功能

操作场景

监控与告警是保证异构云服务器(GPU加速型实例、AI加速型实例)高可靠性、高可用性和高性能的重要功能。

华为云主机服务__国内便宜的云服务器__华为企业云服务

通过在异构类(例如,GPU加速型实例、AI加速型实例)的Linux实例上安装支持对应监控的CES Agent,可以为用户提供系统级、主动式、细颗粒度的监控,包含相关异构指标收集和系统事件上报。

当前支持的异构加速卡及对应的监控指标种类如下:

GPU监控指标,请参见操作系统监控指标:GPU。

NPU监控指标,请参见操作系统监控指标:NPU。

本章节介绍如何通过安装脚本为异构(GPU加速型、AI加速型)实例安装支持对应监控的CES Agent:

操作步骤(单台ECS安装)

操作步骤(多台ECS批量安装)

约束与限制

仅支持Linux操作系统。

使用私有镜像创建的云服务器需手动安装监控组件并安装驱动。

对于GPU监控:

支持GPU监控的Linux公共镜像如表1所示。

表1 支持GPU监控的Linux版本

支持GPU监控的规格:G6v、G6、P2s、P2v、P2vs、G5、Pi2、Pi1、P1。

对于NPU监控:

支持NPU监控的Linux公共镜像如所表2示。

表2 支持NPU监控的Linux版本

支持NPU监控的规格:Ai1s, Ai2, Kai1s, Kai2。

前提条件

已配置DNS和安全组,配置方法参考如何配置DNS和安全组?。

已配置委托,配置方法参考如何配置委托?。

实例已安装对应驱动。

GPU加速型实例:已安装GPU驱动。

未安装GPU驱动的云服务器不支持采集GPU指标数据及上报事件。

如果您的弹性云服务器未安装GPU驱动,可参见(推荐)GPU加速型实例自动安装GPU驱动(Linux)。

AI加速型实例:已安装NPU驱动

未安装NPU驱动的云服务器不支持采集NPU指标数据及上报事件。

使用公共镜像创建的AI加速型实例默认已安装特定版本驱动,如果您使用私有镜像创建AI加速型实例,或者因其他原因需要安装驱动,请参考昇腾文档中心对应版本的《CANN软件安装指南》。

说明:

安装驱动需使用默认路径。

驱动安装完后,需重启实例,否则可能导致采集指标及上报事件失败。

驱动正常安装后,最多10分钟将在控制台看到采集到的指标数据。

已安装lspci工具,未安装lspci工具的云服务器影响GPU掉卡事件的上报。

安装lspci工具的方法,请参见(可选)安装lspci工具。

确保云服务器的安装目录都有读写权限,并且安装成功后的Telescope进程不会被其他软件关闭。

操作步骤(单台ECS安装)

本操作以Ubuntu 18.04 64bit操作系统、Pi2规格的GPU加速型实例为例,介绍单台ECS安装支持GPU监控的CES Agent的操作指导。

使用root用户,远程登录弹性云服务器。

执行以下命令,为单台ECS安装支持GPU监控的CES Agent。

以“华北-北京四”为例,其余区域的安装脚本,请参见获取安装脚本。

cd /usr/local && curl -k -O https://uniagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-north-4 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

其中,“cn-north-4”表示区域ID,“0.1.5”是uniagent版本号,“2.6.7.1”是telescope版本号。

当显示如下内容,表示支持GPU监控的CES Agent安装成功。

图1 支持GPU监控的CES Agent安装成功

操作步骤(多台ECS批量安装)

本操作以Ubuntu 18.04 64bit操作系统、Pi2规格的GPU加速型实例为例,介绍多台ECS批量安装支持GPU监控的CES Agent的操作指导。

须知:

批量安装的多台ECS需要归属于同一个VPC。

使用root用户,远程登录其中一台弹性云服务器。

执行以下命令,为这一台ECS安装支持GPU监控的CES Agent。

以“华北-北京四”为例,其余区域的安装脚本,请参见获取安装脚本。

cd /usr/local && curl -k -O https://uniagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-north-4 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

其中,“cn-north-4”表示区域ID,“0.1.5”是uniagent版本号,“2.6.7.1”是telescope版本号。

当支持GPU监控的CES Agent安装成功,且数据采集正常时,可以将此ECS作为跳板机,通过批量安装脚本依次为其他ECS批量安装支持GPU监控的CES Agent。

收集需要批量安装支持GPU监控的CES Agent的所有ECS的IP地址和root用户密码,以iplist.txt格式整理,并上传到ECS跳板机的/usr/local目录下。

iplist.txt格式为“IP地址,root用户密码”,每个记录一行。

示例如下所示(示例中abcd为root用户密码,请按实际值填写):

执行以下命令,为多台ECS批量安装支持GPU监控的CES Agent。

以“华北-北京四”为例,其余区域的批量安装脚本,请参见获取安装脚本。

cd /usr/local && curl -k -O https://uniagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r cn-north-4 -u 0.1.5 -t 2.6.7.1 -d agent.ces.myhuaweicloud.com

其中,cn-north-4是RegoinID,0.1.5是uniagent版本号,2.6.7.1是telescope版本号。

当显示如下内容,表示支持GPU监控的CES Agent安装成功。

图2 支持GPU监控的CES Agent安装成功

获取安装脚本

您可以通过执行以下命令,获取支持GPU监控和NPU监控的CES Agent的安装脚本。

表3 安装脚本的支持区域及获取方式

(可选)安装lspci工具

登录弹性云服务器。

更新镜像源,获取安装依赖。

wget http://mirrors.myhuaweicloud.com/repo/mirrors_source.sh && bash mirrors_source.sh

更多内容,请参见如何使用自动化工具配置华为云镜像源(x86_64和ARM)?

执行以下命令,安装lspci工具。

CentOS系统:

yum install pciutils

Ubuntu系统:

apt install pciutils

执行以下命令,查看安装结果。

lspci -d 10de:

图3 安装结果



华为云共建智能世界云底座[52] 华为公有云专属云主机DeH服务[51] 华为云场景化解决方案[49] 华为公有云产品[44] 华为云云主机[43] 华为云产品服务[43] 华为云服务器应用[43] 华为弹性云服务器[39] 华为公有云架构解决方案[38] 华为云提供的服务[37] 华为虚拟私有云vpc[37] 华为公有云介绍[32] 华为公有云提供哪些计算服务[30] 华为云漏洞扫描[27] 华为云软件开发服务[27] 华为公有云和私有云区别[27] 华为云域名注册[26] 华为云官网登陆[26] 华为公有云解决方案[26] 华为私有云产品有哪些[26] 华为私有云服务[25] 华为云数据库[23] 华为云安全[22] 华为公有云官网[22] 华为私有云的搭建方案[22] 华为云弹性云服务器应用[21] 华为公有云平台[20] 华为公有云行业解决方案[20] 华为私有云解决方案服务定制领导者[20] [19] 华为私有云服务器[19] 华为私有云网格结构[19] 华为公有云视讯解决方案[18] 华为云官网[17] 华为云速建站[17] 华为私有云架构[17] 华为云优势[16] 华为云服务器[16] 华为私有云部署架构[16] 华为云企业邮箱服务 (SAAS[15] 华为云邮箱[15] 华为公有云是什么[15] 华为公有云架构[15] 华为云迁移解决方案[14] 华为公有云解决方案服务定制领导者[14] 华为私有云解决方案[14] 云邮箱)[13] 华为云园区解决方案[13] 华为云服务总代理[13] 华为云速智能客服[13] 华为公有云服务[13] 华为私有云搭建方案[13] 云与计算咨询服务[12] 云与计算培训服务[11] 华为云备份[11] 华为云服务器配置[11] 华为云服务服务中心[11] 华为云服务核心分销商[11] 华为公有云[11] 华为私有云搭建[11] 云迁移与运营支撑服务[10] 公有云私有云混合云[10] 华为云服务器ECS[10] 华为云服务器成功案例[10] 华为云解决方案[10] 华为公有云通用解决方案[9] 华为智慧云课堂解决方案[9] 华为云数据解决方案[8] 华为云是什么[8] 华为私有云平台[8] 云与计算客户支持与运维使能服务[7] 华为云官网网站[7] 华为云智慧教育解决方案[7] 华为云智慧校园解决方案[7] 华为云桌面系统集成商[7] 华为云经销商[7] 华为代理公司有哪些[7] 华为私有云方案[7] 智慧教育云平台解决方案[7] 华为云服务器试用[6] 华为云网站建设服务器[6] 华为手机代理加盟[6] 华为私有云[6] 大数据使能服务[6] 智慧教育云计算解决方案[6] 华为云云主机 [5] 华为云智慧***解决方案[5] 华为云桌面总代理商[5] 云与计算客户支持服务[4] 华为云产品介绍[4] 华为云智慧制造解决方案[4] 华为云场景化解决方案[3] 华为公有云官网[3] 华为公有云通用解决方案[3] 华为弹性云服务器[3] 华为公有云产品 [3] 华为云产品服务[2] 华为云域名注册[2] 华为云数据库[2] 华为云智慧校园解决方案[2] 华为云服务器应用[2] 华为云服务器成功案例[2] 华为云软件开发服务[2] 华为公有云产品[2] 华为公有云介绍[2] 华为公有云和私有云区别[2] 华为公有云服务[2] 华为公有云架构[2] 华为公有云架构解决方案[2] 华为公有云视讯解决方案[2] 华为公有云解决方案[2] 华为私有云产品有哪些[2] 华为私有云服务[2] 华为私有云架构[2] 智慧教育云计算解决方案[2] 云规划设计与实施服务[2] 云邮箱[2] 华为云产品报价[2] 华为公有云通用解决方案 [2] 华为云服务器成功案例[1] 华为云桌面系统集成商[1] 云与计算客户支持与运维使能服务[1] 云迁移与运营支撑服务[1] 云迁移与运营支撑服务 [1] 华为云共建智能世界云底座[1] 华为云备份[1] 华为云安全[1] 华为云官网登陆[1] 华为云弹性云服务器应用[1] 华为云提供的服务[1] 华为云数据解决方案[1] 华为云智慧制造解决方案[1] 华为云服务器[1] 华为云服务核心分销商 [1] 华为云漏洞扫描[1] 华为云迁移解决方案 [1] 华为云速智能客服[1] 华为云邮箱[1] 华为公有云专属云主机DeH服务[1] 华为公有云是什么[1] 华为公有云行业解决方案[1] 华为私有云搭建[1] 华为私有云方案[1] 华为私有云服务.华为公有云专属云主机DeH服务.华为云产品报价[1] 华为私有云的搭建方案[1] 华为私有云网格结构[1] 华为私有云解决方案[1] 华为私有云部署架构[1] 为云产品服务[1] 云与计算咨询服务 [1] 云与计算客户支持与运维使能服务 [1] 云与计算客户支持与运维使能服务 云与计算客户支持服务[1] 华为云是什么 [1] 华为云软件开发服[1] 华为云速智能客服 [1] 华为代理加盟[1] 华为公有云架构解决方案 [1] 华为公有云解决方案服务定制领导者 [1] 华为弹性云[1] 华为弹性云服务器 华为云域名注册 华为云服务器应用[1] 华为私有云搭建 [1] 华为私有云搭建方案 [1] 华为私有云部署架构 [1] 大数据使能服务 [1] 撒[1]