服务器 频道

一次难忘的系统拯救经历

  【IT168 服务器频道】2009年2月14日那天,一台运行着关键业务的服务器发生异常,具体表现在 Remote Desktop 登录后操作相应特别慢,使用任务管理器实时观察,CPU 及 内存占用都没有异常,网络资源占用也与往常一样稳定。之后远程登录意外中断,再次连接时均告失败。使用 ping 进行检测结果正常!立刻启动应急方案,让机房人员使用检查帐号从本地登录系统,等待10多分钟后服务器可以重新访问了,但是工作人员告知硬盘用异常错误。打开事件查看器,确认 HardDisk0 发现大量的坏块。My God!因为赶上星期六,只能请示上级抽调人手从硬件商那里调新硬盘送往机房更换,从下午4时左右开始关注一直到6时40分,机房处理的进度特别的慢,不能否认他们一些人真的缺乏专业的运维知识和技术。初步计划是让机房人员挂接新硬盘并执行软RAID1,将故障硬盘同步到新硬盘上,之后断开镜像。这是一种非常保守也非常高效的一种做法。

  交待了工作内容后,才赶忙下班回家,毕竟今天是情人节!结果很让人失望,机房人员无法按照我交待的正确有效地进行处理故障(PS:最后赶往现场发现软RAID1根本没有正确执行),在第二天早晨我联系上了值班人员被告知服务器无法加电,可能内存也出现了故障,这意味着唯一的一天休息日泡汤了!无奈,匆匆赶往机房。

  到了机房首先对内存作了检查和测试,确实不稳定,最后的折中解决方法是取消双通道的组合,而改为常规的排列方式,到现在为止运行稳定。最终要的就是运营系统如何迁移到新硬盘!?对该系统作了简单的评估,旧硬盘上的系统运营多年,而且包含很多连续的后续配置(富含了应用、目录安全、帐户安全、数据状态等等),如果新装系统必然存在诸多未知问题。所以最好的方案就是有效的将整个硬盘数据迁移至新硬盘。由于旧硬盘包含大量的坏块,而且两块硬盘的容量不同,那么使用 Ghost 不是明智的选择。考虑再三决定使用这些工具来处理此次事故 Windows PE 2.0 中的 imagex 工具;Ntbackup;xcopy。这里之所以不再使用软RAID1 进行磁盘数据的同步实属无奈,因为旧硬盘非常不稳定,转换成动态磁盘后总是被标记为危险状态,那么同步数据必将失败,而且我也付出了惨痛的代价,耗费了很多宝贵的时间。

  首先将新硬盘挂载到服务器上,从 Windows PE 2.0 引导,然后使用 diskpart 对新硬盘分区并格式化,为了确保旧硬盘上的分区及数据索引正确,又适用 Chkdsk /F 作了分区检查,最后使用 imagex 工具成功地对系统分区(C:)及备份管理分区(E:)作了映像,并保存在新磁盘的第二个分区上。很遗憾,还是因为坏块问题,imagex 无法跳过已经损坏的数据块,所以未能完成对应用数据分区(D:)的映像制作,所以我需要采取其他的处理手段。为此重新启动服务器,从旧硬盘引导系统,进入系统后关闭所有相关的服务及应用程序。复查 D: 分区上的数据分布,回忆之前操作失败点的位置,使用 Ntbackup 对可能没有坏块并且数据量少的目录进行了备份,这样不仅快速,而且更加安全,相关的目录权限也能完好的被备份下来。另外使用 xcopy /s /e /c /o 拷贝了一个包含数据的业务应用目录,因为数据量相对比较大,使用 Ntbackup 备份和恢复需要用掉很多时间,况且该目录的目录权限相对简单。这一阶段很顺利的完成了!

  至此,就剩下两个最为关键的数据目录。其中一个目录涉及到复杂的目录权限配置,所以使用一个月前的备份进行了数据恢复,之后再用 xcopy 进行新数据的覆盖,因为使用了 /c 参数,所以即使遇到数据坏块依然可以跳过,而且这个目录中的数据更新相对较少,故整体来说使用再覆盖方式,损失几乎很小很小!另外一个目录因为没有备份,只能使用 xcopy 加参数进行拷贝,这个目录除了数据量大,作了较为复杂的目录权限外,其他没什么特别,由于业务系统的必然性设计,会存在很多重复数据,所以即使因为坏块问题导致数据拷贝不完全也不会造成太大的损失。

  这些数据恢复完毕后,关闭服务器,拔掉旧硬盘,重新启动服务器调整 BIOS,引导至 Windows PE 2.0,使用 imagex 将之前的映像释放到新硬盘的对应分区中。这里尤为要提到一点,我曾在网上看到有网友说:“imagex 无法将动态磁盘的映像恢复到基本磁盘上……”这一说法是完全错误的。imagex 是基于文件方式进行操作的,所以我只需要在恢复该备份后修改 boot.ini 文件即可! 重新启动新硬盘工作正常,重新识别了硬盘,盘符也与原先的相同。

  最后,关闭服务器重新挂接旧硬盘,并从新硬盘引导,确认旧硬盘的卷未被分配盘符,并执行各项应用服务的检查确定没有问题后收工!

  从早上9点多一直搞到晚上快8点,没喝一口水,没吃一口饭(PS:早上出门真应该吃饭了!)总算完成了整体的迁移。效果令人满意!其中走了不少冤枉路,之所以拿出来分享也是希望大家遇到类似问题时能够有效、连续、准确地解决故障问题。

  注:感谢作者gOxiA授权IT168服务器频道刊登此文,原文:http://goxia.maytide.net/read.php/1157.htm

0
相关文章