检查主机名及处理
这一步,由于 Power 5 系列小型机配备的 HMC 不再能修改 /etc/hosts, 所以分开论述:
Power 5 系列小型机
分区检查及处理
在所有的逻辑分区的 /etc/hosts 文件中,要包含同样的主机名与 IP 的对应关系。分区检查用 cat /etc/hosts 即可,发现分区缺失,则可用 vi 等编辑工具修改 /etc/hosts 补上。
/etc/hosts
182.1.1.21 hmc01.hmc.net
182.1.1.1 app1_182.hmc.net
182.1.1.2 app2_182.hmc.net
182.1.1.3 app3_182.hmc.net
182.1.1.4 app4_182 .hmc.net
182.1.1.5 vio5_182.hmc.net
182.1.1.6 vio6_182.hmc.net
182.1.1.7 app7_182.hmc.net
182.1.1.8 app8_182.hmc.net
182.1.1.9 app9_182.hmc.net
182.1.1.10 app10_182.hmc.net
能否和 hmc 相互 ping 通以及相互解析地址
HMC 检查及处理
用 ssh 连接到 HMC 上,察看状态 :
ssh hscroot@hmc01
Password:
Last login: Thu Aug 2 09:39:37 2007 from 182.1.1.3
hscroot@hmc01:~>lspartition -dlpar
<#0> Partition:<2*9117-570*657242D, , 182.1.1.1>
Active:<1>, OS:<AIX, 5.3>, DCaps:<0x2f>, CmdCaps:<0xb, 0xb>, PinnedMem:<633>
....
<#9> Partition:<3*9117-570*657240D, , 182.1.1.10>
Active:<1>, OS:<AIX, 5.3>, DCaps:<0x2f>, CmdCaps:<0xb, 0xb>, PinnedMem:<583>
以下情况才算正常:
" 所有的分区都有显示
" 分区状态 Active 均为 1
" 分区 OS 为 AIX5.2 或 AIX5.3
如不正常,则说明 HMC 不能自动正确解析主机名,不能正确连接上各个 LPAR,需要安装 DNS,见准备工作中的 安装 DNS 和 HMC 相应配置。
检验测试
" 在每个分区操作系统里运行:
host hmc01.hmc.net
能解析出 182.1.1.21,说明正常。
host 182.1.1.21
能解析出 hmc01.hmc.net,说明正常。
ping hmc01.hmc.net
能 ping 通,说明正常。
" 从 HMC 控制台的 HMC Mantiance 菜单的 System Configuration 下 Test Network Connectivity 里测试所有分区的主机名,都能 ping 通,说明正常。
" HMC 命令行方式:
host hmc01.hmc.net
能解析出 182.1.1.21,说明正常。
host 182.1.1.21
能解析出 hmc01.hmc.net,说明正常。
ping hmc01.hmc.net
能 ping 通,说明正常。
再执行下面的命令进行确认:
ssh hscroot@hmc01
Password:
Last login: Thu Aug 2 09:39:37 2007 from 182.1.1.3
hscroot@hmc01:~>lspartition -dlpar
<#0> Partition:<2*9117-570*657242D, , 182.1.1.1>
Active:<1>, OS:<AIX, 5.3>, DCaps:<0x2f>, CmdCaps:<0xb, 0xb>, PinnedMem:<633>
....
<#9> Partition:<3*9117-570*657240D, , 182.1.1.10>
Active:<1>, OS:<AIX, 5.3>, DCaps:<0x2f>, CmdCaps:<0xb, 0xb>, PinnedMem:<583>
可以看到,所有分区都能正确解析和状态都正常了。
Power 4 系列小型机
在 HMC 和所有的逻辑分区的 /etc/hosts 文件中,要包含同样的主机名与 IP 的对应关系。
" 分区检查用 cat /etc/hosts 即可,发现分区缺失,则可用 vi 等编辑工具修改 /etc/hosts 补上。
" HMC 需进入 HMC Mantiance 菜单的 System Configuration 下的 Customize Network setting,选择 Hosts,察看分区的主机名和 HMC 名,如发现有不匹配和缺少,请增加(Add)或变更(Change)、删除(Delete),然后 Apply 生效。
检查测试
" 从每个分区操作系统里,ping HMC 名地址能 ping 通。
" 从 HMC 控制台的 HMC Mantiance 菜单的 System Configuration 下 Test Network Connectivity 里测试所有分区的主机名,都能 ping 通。
rsct_rm 服务检查
使用 lssrc -g rsct_rm 命令检查 rsct_rm 资源服务组是否启动正常:
AIX5.3(Power 5)
Subsystem Group PID Status
IBM.ERRM rsct_rm 794758 active
IBM.HWCTRLRM rsct_rm 790660 active
IBM.HostRM rsct_rm 807054 active
IBM.ServiceRM rsct_rm 778376 active
IBM.CSMAgentRM rsct_rm 782484 active
IBM.DRM rsct_rm 811152 active
IBM.DMSRM rsct_rm 798872 active
IBM.AuditRM rsct_rm 720994 active
IBM.LPRM rsct_rm 245886 active
AIX5.2(Power 4)
Subsystem Group PID Status
IBM.ERRM rsct_rm 979022 active
IBM.CSMAgentRM rsct_rm 663750 active
IBM.ServiceRM rsct_rm 684260 active
IBM.AuditRM rsct_rm 880776 active
IBM.LPRM rsct_rm 585924 active
IBM.HostRM rsct_rm 360510 active
IBM.DRM rsct_rm 1114168 active
如果发现进程有没有启动的,进行以下的处理:
" 清除有问题的过程文件
cd /var/ct
rm -rf IW
" 重新运行配置程序:
/usr/sbin/rsct/install/bin/recfgct
" 重启 HMC,等待 5-10 分钟,保证所有资源服务都已启动。
不同逻辑分区的 ct_node_id 号相同
检查操作:
正常情况下各个分区的 ID 号应该各不相同,查看 /var/ct/IW/cfg 文件来进行确认。
[app1][roor][/var/ct/IW/cfg]>cat nodedef.cfg
1 3341028684 localhost 3341028684 IW 1
3341028684 即为 ct_node_id
[app2][roor][/var/ct/IW/cfg]>cat nodedef.cfg
1 3341036876 localhost 3341036876 IW 1
3341036876 即为 ct_node_id
通过运行 /usr/sbin/rsct/install/bin/recfgct 命令来重新生成唯一的 ct_node_id 号,这样就可以解决这个问题。
总结
通过以上的检查和处理方法的描述,就可以解决使用资源动态调整菜单和动态调整 CPU、内存、适配器等资源时出现的类似问题。总的来说,如果一步步参照本文的步骤,基本上能解决所有分区的动态资源调整的问题。大多数问题不需要做完全部检查和处理就可完成,本文也是按可能出现的概率顺序写出,请读者注意使用。