Nutanix Cluster维护与诊断

管理Nutanix集群涉及配置和监视集群中的实体,包括虚拟机、存储容器和硬件组件。我们可以通过
基于Web的管理控制台或命令行接口管理Nutanix集群,管理Nutanix的方式以以下几种: ● Graphical UI – Prism Element and Prism Central:这是首选的管理方法,可以管理整个环境
(使用Prism Central时)。 ● 命令行接口 ● nCLI - 获取集群中的状态和配置实体 ● aCLI - 管理Nutanix环境中的Acropolis部分 ● Nutanix PowerShell cmdlet -用于Windows PowerShell ● REST API - 公开用于编制和自动化的所有GUI组件
Pulse(脉冲)
1、Pulse默认就是启用的,用于监视集群的健康状况,并在发现问题时主动通知客户支持。Pulse的
主要作用包括: ● 自动收集集群数据,不会影响性能。 ● 每天每个节点通过电子邮件向支持支持和用户发送一次诊断数据。 ● 主动监视(Proactive monitoring)。 2、通过Prism Web控制台配置Pulse,包括开启并关闭,设置接收通知的邮箱,以及设置Pulse收集
信息的选项,选项分为"Basic"和"Basic with Coredump"。默认选项为"Basic with Coredump"。 3、Basic统计包括Zeus、Stargate、Cassandra和Curator子系统信息,CVM信息,Hypervisor和VM
信息,集群配置和性能的信息。核心转储数据(Core dump)是从核心转储文件中提取的信息的摘要,
包括时间戳、文件名和Fatal message。
Health Checks
1、定期运行一组健康检查,提供一系列集群健康指标。可以指定要运行哪些检查,并为每个健康检查
配置可调度检查和其他参数。集群健康检查包括一系列实体,包括AOS、hypervisor和硬件组件。默认
情况下启用一组检查,但是可以在任何时候运行、禁用或重新配置任何检查。 2、点击"Health"进入系统健康页面,左侧为监测实体分类,右侧为系统健康检测的状态Summary。
3、点击每个检测项,可以在右上侧的按钮中选择"Run Check"或"Turn Check Off"。同样也可以点击
"Schedule"设置检测频率。
4、在Web控制台首页有系统健康状况的显示信息。
5、Nutanix集群检查(NCC)是一个脚本框架,可以帮助诊断集群健康状况。当从CVM命令行运行时,
NCC生成一个日志文件,其中输出用户选择的诊断命令。无论集群状态如何,只要单个节点处于启动
状态,就可以运行NCC。脚本根据检索的信息类型对集群或节点运行标准命令。一些插件运行nCLI命
令,可能需要用户输入nCLI密码。密码以纯文本形式登录。
6、ssh登录到CVM运行NCC Health Check
7、可以单独Check某一项,也可以进行全面检查。
   ncc health_checks run_all
   ncc health_checks network_checks run_all
8、可以在Prism Web控制台下载health check生成的log文件。
aCLI
1、Acropolis提供了一个命令行界面,用于管理主机、网络、快照和VM。

2、要使用aCLI,可使用SSH登录到集群中的一个CVM,并在shell提示符处键入acli。

3、要退出Acropolis CLI并返回到shell,请在< Acropolis >提示符处键入exit。

4、命令示例,查看集群主机,可以进行acli命令界面后执行host.list。 也可以直接在CVM命令行执
行acli host.list。
5、查看主机详细信息和主机上运行的VM虚拟机。
   acli host.get 172.16.0.11
   acli host.list_vms 172.16.0.11
6、创建网络,分配VLAN,并设置DHCP池。
   acli net.create br1_vlan96 vswitch_name=br1 vlan=96 ip_config=192.168.96.1/24
   acli net.list
   acli net.add_dhcp_pool br1_vlan96 start=192.168.96.100 end=192.168.96.200
7、查看集群中虚拟机列表并查看虚拟机详细信息。
   acli vm.list
   acli vm.get vm-name

8、关于aCLI的详细命令可以参考Nutanix官方手册。
nCLI
1、Nutanix命令行界面(nCLI)允许您从以下任何一台机器上对Nutanix集群运行系统管理命令:
  •本地机器(优先)
  •集群中的任何控制器VM

2、在Prism控制台点击右上角的登录名称,例如"admin",在菜单中点击"Download nCLI"。下载并解
压后,可以放到C盘根目录,然后通过Windows Power Shell登录到集群,例如: ncli -s 172.16.0.15 -u admin -p password 3、运行ncli需要电脑上安装配置JRE,JRE需要5.0以上的版本。注意需要在系统的环境变量中配置
JAVA的Home目录和路径。
4、命令示例,查看集群中的存储池。
  storagepool list
5、查看警告信息。
  alert list
6、查看集群DNS和NTP配置
   cluster get-name-servers
   cluster get-ntp-servers
7、创建一个用户"jacky"并设置为集群管理员。
  user create user-name=jacky user-password=password first-name=abc last-name=xyz email-id=abc@xyz.com
  user grant-cluster-admin-role user-name=jacky
8、关于nCLI的详细命令可以参考Nutanix官方手册。另外,也可以直接SSH登录到CVM执行ncli命令。
主机维护
1、执行以下命令将主机进入到维护模式。在此之前,请先关闭该主机上运行的VM或将其迁移到别的主
机。如果集群启用了HA,虚拟机会自动迁移到其它主机上。如下图,我们将主机1(172.16.50.1)转
入维护模式,这个主机上运行着虚拟机TestVM-3。 acli host.list acli host.list_vms host-ip acli host.inter_maintenance_mode host-ip
2、主机1转入维护模式后,可以看到Test-VM-3自动迁移到了主机3上面。
3、然后关闭CVM再关闭AHV主机。主机硬件维护完毕并开机后,登录到主机检测CVM是否在运行,如果
CVM没有运行,使用virsh start cvm-name启动CVM。CVM启动后,将主机退出维护模式。
acli host.exit_maintenance_mode AHV-hypervisor-IP-address
4、主机维护完成后,虚拟机TestVM-3自动迁回主机1。
日志收集
1、Nutanix CVMs保存日志文件,记录集群生命周期中发生的事件。这些文件存储在 
/home/nutanix/data/logs目录中。
2、在Web控制台的Health页面,点击台上角的Action选择"Log Collector",设置收集日志的时间
范围。
3、使用命令行收集日志,SSH登录到集群中任何一个CVM,运行如下命令进行日志收集。收集完成后,
日志保存在/home/nutanix/data/log_collector目录,使用WinSCP等工具将日志拷贝出来即可。 ncc log_collector run_all

发表评论