嘘~ 正在从服务器偷取页面 . . .

Nutanix Cluster维护与诊断


简介

管理Nutanix集群涉及配置和监视集群中的实体,包括虚拟机、存储容器和硬件组件。我们可以通过
基于Web的管理控制台或命令行接口管理Nutanix集群,管理Nutanix的方式以以下几种:
● Graphical UI – Prism Element and Prism Central:这是首选的管理方法,可以管理整个环境
(使用Prism Central时)。
● 命令行接口
● nCLI - 获取集群中的状态和配置实体
● aCLI - 管理Nutanix环境中的Acropolis部分
● Nutanix PowerShell cmdlet -用于Windows PowerShell
● REST API - 公开用于编制和自动化的所有GUI组件

Pulse(脉冲)

1、Pulse默认就是启用的,用于监视集群的健康状况,并在发现问题时主动通知客户支持。Pulse的
主要作用包括:
● 自动收集集群数据,不会影响性能。
● 每天每个节点通过电子邮件向支持支持和用户发送一次诊断数据。
● 主动监视(Proactive monitoring)。

2、通过Prism Web控制台配置Pulse,包括开启并关闭,设置接收通知的邮箱,以及设置Pulse收集
信息的选项,选项分为”Basic”和”Basic with Coredump”。默认选项为”Basic with Coredump”。

3、Basic统计包括Zeus、Stargate、Cassandra和Curator子系统信息,CVM信息,Hypervisor和VM
信息,集群配置和性能的信息。核心转储数据(Core dump)是从核心转储文件中提取的信息的摘要,
包括时间戳、文件名和Fatal message。

Health Checks

1、定期运行一组健康检查,提供一系列集群健康指标。可以指定要运行哪些检查,并为每个健康检查
配置可调度检查和其他参数。集群健康检查包括一系列实体,包括AOS、hypervisor和硬件组件。默认
情况下启用一组检查,但是可以在任何时候运行、禁用或重新配置任何检查。

2、点击”Health”进入系统健康页面,左侧为监测实体分类,右侧为系统健康检测的状态Summary。

3、点击每个检测项,可以在右上侧的按钮中选择”Run Check”或”Turn Check Off”。同样也可以点击
“Schedule”设置检测频率。

4、在Web控制台首页有系统健康状况的显示信息。

5、Nutanix集群检查(NCC)是一个脚本框架,可以帮助诊断集群健康状况。当从CVM命令行运行时,
NCC生成一个日志文件,其中输出用户选择的诊断命令。无论集群状态如何,只要单个节点处于启动
状态,就可以运行NCC。脚本根据检索的信息类型对集群或节点运行标准命令。一些插件运行nCLI命
令,可能需要用户输入nCLI密码。密码以纯文本形式登录。

6、ssh登录到CVM运行NCC Health Check

7、可以单独Check某一项,也可以进行全面检查。
ncc health_checks run_all
ncc health_checks network_checks run_all

8、可以在Prism Web控制台下载health check生成的log文件。

aCLI

1、Acropolis提供了一个命令行界面,用于管理主机、网络、快照和VM。

2、要使用aCLI,可使用SSH登录到集群中的一个CVM,并在shell提示符处键入acli。

3、要退出Acropolis CLI并返回到shell,请在< Acropolis >提示符处键入exit。

4、命令示例,查看集群主机,可以进行acli命令界面后执行host.list。 也可以直接在CVM命令行执
行acli host.list。

5、查看主机详细信息和主机上运行的VM虚拟机。
acli host.get 172.16.0.11
acli host.list_vms 172.16.0.11

6、创建网络,分配VLAN,并设置DHCP池。
acli net.create br1_vlan96 vswitch_name=br1 vlan=96 ip_config=192.168.96.1/24
acli net.list
acli net.add_dhcp_pool br1_vlan96 start=192.168.96.100 end=192.168.96.200

7、查看集群中虚拟机列表并查看虚拟机详细信息。
acli vm.list
acli vm.get vm-name

8、关于aCLI的详细命令可以参考Nutanix官方手册。

nCLI

1、Nutanix命令行界面(nCLI)允许您从以下任何一台机器上对Nutanix集群运行系统管理命令:
•本地机器(优先)
•集群中的任何控制器VM

2、在Prism控制台点击右上角的登录名称,例如”admin”,在菜单中点击”Download nCLI”。下载并解
压后,可以放到C盘根目录,然后通过Windows Power Shell登录到集群,例如:
ncli -s 172.16.0.15 -u admin -p password

3、运行ncli需要电脑上安装配置JRE,JRE需要5.0以上的版本。注意需要在系统的环境变量中配置
JAVA的Home目录和路径。

4、命令示例,查看集群中的存储池。
storagepool list

5、查看警告信息。
alert list

6、查看集群DNS和NTP配置
cluster get-name-servers
cluster get-ntp-servers

7、创建一个用户”jacky”并设置为集群管理员。
user create user-name=jacky user-password=password first-name=abc last-name=xyz email-id=abc@xyz.com
user grant-cluster-admin-role user-name=jacky

8、关于nCLI的详细命令可以参考Nutanix官方手册。另外,也可以直接SSH登录到CVM执行ncli命令。

主机维护

1、执行以下命令将主机进入到维护模式。在此之前,请先关闭该主机上运行的VM或将其迁移到别的主
机。如果集群启用了HA,虚拟机会自动迁移到其它主机上。如下图,我们将主机1(172.16.50.1)转
入维护模式,这个主机上运行着虚拟机TestVM-3。
acli host.list
acli host.list_vms host-ip
acli host.inter_maintenance_mode host-ip

2、主机1转入维护模式后,可以看到Test-VM-3自动迁移到了主机3上面。

3、然后关闭CVM再关闭AHV主机。主机硬件维护完毕并开机后,登录到主机检测CVM是否在运行,如果
CVM没有运行,使用virsh start cvm-name启动CVM。CVM启动后,将主机退出维护模式。
acli host.exit_maintenance_mode AHV-hypervisor-IP-address

4、主机维护完成后,虚拟机TestVM-3自动迁回主机1。

日志收集

1、Nutanix CVMs保存日志文件,记录集群生命周期中发生的事件。这些文件存储在
/home/nutanix/data/logs目录中。

2、在Web控制台的Health页面,点击台上角的Action选择”Log Collector”,设置收集日志的时间
范围。

3、使用命令行收集日志,SSH登录到集群中任何一个CVM,运行如下命令进行日志收集。收集完成后,
日志保存在/home/nutanix/data/log_collector目录,使用WinSCP等工具将日志拷贝出来即可。
ncc log_collector run_all


文章作者: kclouder
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 kclouder !
  目录