服务器 频道

陷阱还是馅饼?TMG升级经验总结(图)

  四、TMG产品缺陷

  微软的服务器产品以补丁总多而著称,因此大家在使用过程中慢慢有了这样一个习惯,如果一个服务器产品没有出SP1,一般不会考虑在生产环境中应用。但这次我发现即使有了SP1也不一定包打天下,SP1仍然会有一些缺陷,下面是我使用TMG2010 SP1的经历。

  TMG2010安装完成后,我马上在第一时间安装TMG2010 SP1。SP1安装完成后,立刻发现重启服务器后10多分钟还没能进入系统,我的冷汗立刻就流下来了。额的娘啊,不会刚打完SP1就崩溃了吧。还好,又等了几分钟,终于进入系统了,最奇怪的是,查看一下还没有发现有什么错误,难道TMG要休息一下?感觉去微软论坛看看,这才发现有类似问题的还大有人在,看来这是TMG2010 SP1的通病。解决方法微软也提供了,TMG2010 SP1 Update1就可以解决这个问题,打了Update1之后,TMG算是恢复正常了。只能感叹这个TMG2010 SP1是怎么测试的,难道测试时没有重启过系统?

  TMG服务器安装完成后,我们使用两个TMG服务器组成了一个阵列,然后又配置了负载平衡。负载平衡的效果非常好,1500个用户,分布在两台服务器上的人数分别是740和760。但是,在TMG的控制台上观察,发现目前只使用了第一台TMG服务器的Web缓存,第二台TMG服务器的Web缓存利用率为零。Web缓存非常重要,这可不是闹着玩的,我赶紧对TMG服务器上的缓存内容进行检测。如果想检测TMG的缓存内容,可以去微软下载TMG Tools。TMG Tools中有一个名为Cachedir的工具,可以实时查看TMG服务器的缓存内容。我用Cachedir检查了两台服务器,发现内容很正常,而且两台服务器缓存都有用户访问。那TMG控制台上又怎么解释呢?查了半天,也没有结果,算了,去微软开个CASE吧。还好,微软很快就在测试环境中复现了这个故障。过了几天,微软工程师正式答复:这是个产品Bug,这个CASE我们免费。现在我们只能等产品组出Hotfix,但什么时候能提供hotfix,就没有具体的时间表了,请您耐心等待…我又奇怪了,这个现象非常明显啊,难道一直没有针对阵列进行测试?这微软到底是怎么做产品测试的!

  过了一段时间,SCOM服务器也开始来找麻烦了。SCOM服务器基本每天都会报几个TMG Web缓存的错误,大致内容是这样的:

  警报: Forefront TMG 服务器 - 缓存: “当前每个请求的缓存提取平均毫秒数”错误

  来源: Caching - HQ-TMG2

  路径: HQ-TMG2.chamc.com.cn

  上次修改者: 系统

  上次修改时间: 2011/1/19 19:04:18

  警报描述: 800.375927734375

  这个警报并不复杂,意思是SCOM服务器三分钟内随机统计了5个客户机向TMG服务器发起一个Web请求后所需要的平均响应时间,TMG服务器发现客户机平均需要经过800豪秒才能从TMG服务器收到回应。这就有些不对了,SCOM服务器认为这个平均值应该在300毫秒以下。考虑到客户机发起请求后,如果请求的内容在TMG的Web缓存中,那响应速度应该在10毫秒以内。因此,看到这个警报,我就考虑是否TMG的缓存性能出现了问题。可是,我很快就发现一个难以自圆其说的现象。SCOM服务器发起这个警报的时间,基本都是在夜间或双休日,工作时间内反而没有警报。那就不对了, TMG服务器应该在工作时段负载重啊,怎么反而在工作时段没有这个警报呢?没辙了,再去微软开个CASE吧。微软工程师的水平还是挺高的,查了一番资料后给了我一个挺好的解释:是这样的,如果用户访问的内容在TMG的缓存中,那TMG的响应速度是很快的;如果用户访问的内容不在TMG的缓存中,例如用户下载文件,或者用户使用视频点播,这种情况下TMG就得先从互联网服务器下载数据,然后才能响应用户,这样响应时间就会很长,需要上千甚至上万毫秒都有可能。在工作时间内,很多用户提交的Web请求都可以在TMG缓存中得到响应,因此缓存的利用率高。平均一下,每个用户提交Web请求所需要的平均响应时间就会非常短,SCOM就不容易报警。非工作时间呢,使用TMG服务器的用户少了,TMG的Web缓存利用率就低了,用户的Web请求就不容易从TMG缓存中获得响应(你可以想象一下,非工作时间用户访问的是神马内容),因此统计出来的平均响应时间就长,这时就有可能触发SCOM警告了。

  听了微软的解释,我觉得豁然开朗。哦,原来TMG服务器的缓存性能没问题,这时好事,值得高兴啊。但是,但是,仔细一想就不对了,TMG服务器没问题,你SCOM报什么警啊!存心骚扰是不是?我向微软的工程师咨询:既然如此,SCOM的这个警报到底有什么意义呢?这回轮到微软的工程师张口结舌了,只能推说要和产品组反映这个问题,然后给我答复。过了几天,微软工程师来电话了:经过和产品组确认,确定这又是一个产品Bug!解决方法是等待产品组的Hotfix,Hotfix没出来之前建议先把SCOM的这个警报禁用,免得收到无意义的警报。既然是Bug,那这个CASE还是免费的…

0
相关文章