兴迪资讯科技有限公司
New Design Information Technologies Ltd.
Power High Availability
PowerHA for AIX® 是 HACMP (High Availability Cluster Multiprocessing) 的新名称。HACMP 应用程序让系统能够应付故障,减少应用程序的停机时间。本文介绍 PowerHA,详细解释如何配置两节点集群。考虑到许多客户都需要这种配置,本文对于理解 PowerHA 和建立两节点集群非常有用。
简介
随着业务需求日益增加,关键的应用程序必须一直可用,系统必须对故障有容忍能力。但是,这些有容错能力的系统的成本很高。因此,需要通过应用程序提供这些能力,同时这个应用程序还应该是经济有效的。
高可用性解决方案可以确保解决方案的任何组件的故障都不会导致用户无法使用应用程序及其数据。实现这一目标的方法是通过消除单一故障点消除或掩盖计划内和计划外停机。另外,保持应用程序高可用性并不需要特殊的硬件。PowerHA 不执行备份等管理任务、时间同步和任何与应用程序相关的配置。
图 1 是故障转移功能的示意图。当一个服务器停机时,另一个服务器接管。
图 1. 故障转移功能
PowerHA 的概述
PowerHA 和 HACMP 这两个词可以互换使用。正如前面提到的,它会消除单一故障点 (SPOF)。下表列出可能存在的 SPOF:
集群对象 |
消除 SPOF 的方法 |
节点 |
使用多个节点 |
电源 |
使用多条电路或不间断电源 |
网络适配器 |
使用冗余的网络适配器 |
网络 |
使用多个网络连接节点 |
TCP/IP 子系统 |
使用非 IP 网络连接相邻节点和客户机 |
磁盘适配器 |
使用冗余的磁盘适配器或多路径硬件 |
磁盘 |
使用多个磁盘以及镜像或 raid |
应用程序 |
添加用于接管的节点;配置应用程序监视器 |
VIO 服务器 |
实现双 VIO 服务器 |
站点 |
添加额外站点 |
主要目标是,当两个服务器中的一个发生故障时,让另一个服务器接管。 PowerHA 集群技术通过提供冗余实现故障转移保护,同时通过并发/并行访问支持水平扩展。
PowerHA 术语
PowerHA 使用许多术语。它们可以分为拓扑组件和资源组件两类。
拓扑组件基本上是物理组件。它们包括:
· 节点:System p 服务器可以是单独的分区或 VIOS 客户机
· 网络:IP 网络和非 IP 网络
· 通信接口:令牌环网或以太网适配器
· 通信设备:RS232 或磁盘的心跳机制
资源组件是需要保持高可用性的逻辑实体。它们包括:
· 应用服务器:它涉及应用程序的启动/停止脚本。
· 服务 IP 地址:最终用户一般通过 IP 地址连接应用程序。这个 IP 地址映射到实际运行应用程序的节点。因为 IP 地址需要保持高可用性,所以它属于资源组。
· 文件系统:许多应用程序需要挂载文件系统。
· 卷组:许多应用程序需要高可用的卷组。
所有资源一起组成资源组实体。PowerHA 把资源组当作单一单元处理。它会保持资源组高可用性。资源组有与其相关联的策略。这些策略包括:
1. 启动策略:这决定资源组应该激活哪个节点。
2. 故障转移策略:当发生故障时,这决定故障转移目标节点。
3. 故障恢复策略:这决定资源组是否执行故障恢复。
当发生故障时,PowerHA 寻找这些策略并执行相应的操作。
PowerHA 的子系统
图 2. PowerHA 的子系统
上图说明 PowerHA 由许多软件组件组成:
· 集群管理器 clstrmgr 是核心进程,它监视集群成员关系。集群管理器包含管理拓扑组件的拓扑管理器、管理资源组的资源管理器、通过 RMC 设施起作用的事件管理器和事件脚本以及对故障做出反应的 RSCT。
· clinfo 进程提供用于在集群管理器和应用程序之间进行通信的 API。clinfo 还提供远程监视功能,可以在集群状态发生变化时运行脚本。
在 PowerHA 5 中,clcomdES 使集群管理器能够以安全的方式进行通信,不需要使用 rsh 和 /.rhost 文件。四川省兴迪资讯科技有限公司
Copyright 2002-2017 www.nditc.com All Rights Reserved