理顺过程
Tom Ferris是某国际金融机构的服务器和存储部门经理,该公司之所以能够掌握主动性,主要得益于传统灾难恢复方案的运用,在很大程度上也是因为执行了标准化控制。据Ferris介绍,其团队遇到的问题大部分都是由于没有进行充分测试、配置错误或其它问题造成的,后来他们对整个过程进行了修补,并且着重强调这些方面。他指出:“很多高性能应用程序都将重点放在了用于开发备份和失效恢复这类功能的技术上,但我认为这并不能创造出真正的高性能,如果查阅分析家们的评论观点,就会发现我们遇到的大部分系统中断并非是技术原因造成的,而是人为改动导致的结果。”
高性能应用程序结合多种处理主动权同样被应用到了公司中,这使Feffis的团队有机会能够以双赢的方式更改程序规定和管理过程,其目的是让每款应用程序从占有专用服务器转向使用共享组织模块,在这种模式下,软件所有者会从IT部门购买计算、存储、功能等一系列服务。
每项IT服务都会分为黄金服务、白银服务和标准服务三个等级。在配置某应用程序前,所有者需要考虑需要多少处理器资源、多少存储空间以及需要达到的效果。综合所有这些因素来决定此款应用程序是需要配置在独立计算机上、还是带有失效恢复(fail-over)的集群(cluster)上、或者配置到支持本地失效恢复乃至失效恢复到30米外的业务关联站点上。其中,每种服务等级都有特定的标准配置,并且管理模式与三个等级相互兼容。这种加固的结构能够明显降低硬件成本,尤其是应用在高性能结构下。Feffis说,如果你将整个甲骨文(Oracle)数据库与三节点集群结合使用,就像我们公司现在一样,无须拥有众多独立的服务器,便可以覆盖很多数据库,因为已经建立了集群,这样基于应用程序需求的条件,便可以轻松配置数据库“失效恢复(fail-over)”的类型。
其中的一个关键因素是要使产品服务器结构标准化,保证测试和开发中的服务器与其相符。负责发行管理的核心小组会将新代码及变化及时更新到产品中,确保产品经过充分的测试和优化,最终形成正式产品。
在各个阶段的产品环境中,程序开发者和程序所有者不能再以管理员身份进行访问。Ferris解释说:“甚至在整个测试和开发过程中他们都不会有管理访问权限,这样做会使整个环境得到紧密管理以保证测试中的结构与那些产品服务器相符。”
IT小组使用BladeLogic对这些配置进行管理、控制发行和生成现状报告以查询与标准结构不符之处。这些控制手段可以有效阻止错误,避免影响到服务器。同时标准系统图象可以加快生成速度,这对事故恢复起到了很大的帮助作用。
Ferris表示:“我们将Veritas集群服务器、基准操作系统和甲骨文数据库集成到可重复利用的配置中,这样一旦系统崩溃,重建原来的环境会变得比较容易,同时用户还可以设置IP地址变量,这样会使在新环境中对多种程度进行重建变得非常简单。
投入力量提升性能
除了提升防护功能和更易管理复杂结构外,标准配置、标准化处理过程、自动化预备工具及加固型结构能够有效地降低实现高性能所需的成本。其它技术当然也是非常重要的,特别是与集群化存储和服务器相关的领域。
虽然很多关联成本在不断降低,保持数据中心持续运行仍需投入很大的人力成本,更不用提在改善处理过程中需要投入的时间和精力了。随着应用程序更趋复杂化、相互间的依赖性不断增强,在培训、标准化和管理上进行改革的重要性也将日益凸现。
一个著名的案例是,NetWare服务器被建筑工人封存到墙壁后面安全运行了长达四年的时间,从中也许你会有所领悟。其实,对于各个系统来说,最佳的方式就是将其孤立起来,然而,对于大部分商业软件来说这几乎是不可能的,尤其是在科学技术发展迅猛的今天。话又说回来,如果你不能为系统构筑“隔墙”,那么至少可以设置一些“障碍”来保护它的安全吧。 |