福利来了！好文分享之VMware 灾备设计参考方案

青荷露尖520 08-23 1844

前言：

此刻看官们对“oracle rac关机”大概比较着重，同学们都想要了解一些“oracle rac关机”的相关知识。那么小编同时在网络上收集了一些关于“oracle rac关机””的相关资讯，希望朋友们能喜欢，小伙伴们快快来学习一下吧！

概述灾难恢复的重要意义

统计数据表明：93%的企业，一旦发生数据中心失效达 10 天的情况，通常在一年内就会破产。来自Forrestor在2014年第二季度的咨询报告表明，正常运行时间和数据保护对业务而言非常关键，灾难带来的员工工作效率下降、士气低落、收入下降、声誉受损和影响合规性将对企业产生巨大的消极影响。

图：中断造成的不良影响

灾难的发生往往是出乎人们意料的，当突然发生大的灾难，日常建立的控制措施已不再有效时，组织如何才能保护核心业务不被中断，使灾难的造成的风险降到最低呢？这正是灾难恢复需要考虑的问题。

数据中心的灾难会以不同形式发生，比如电力中断、硬件故障、人为操作失误、以及自然灾害。大量的事例表明，业务中断不是“假如”的问题,而是“何时”的问题。因此，只要是拥有IT信息系统的组织，都应为随时可能发生的中断作好准备。保证业务连续性也就是确保业务连续运作，不管发生什么情况，重要的系统和网络必须具有不间断的可用性。

事实上，灾难恢复的影响不仅仅局限于上面提到的金融领域，政府、公安、医疗、教育等诸多行业都需要使用业务可用性解决方案来保证其业务的可用性，对于这些企业，机关，单位而言，当IT基础设施突然停运，不仅企业内部的业务流转、办公等面临瘫痪，更重要的是，对外与客户或合作伙伴的所有业务交流都不得不陷入停滞。

XXX企业容灾方案现状分析

在国内，很多企业都不具备灾难恢复能力，甚至是一些金融相关的公司都没有真正意义的灾难演练过。主要是设备成本、技术复杂度已经人员IT技能等多方面因素造成的。

XXX公司的采用传统灾备解决方案，并有了多年的积累和发展，但是传统的解决方案还是存在如下诸多问题的。

首先，传统的可用性解决方案是利用特定于应用的解决方案（如：Oracle RAC、MS SQL集群、Exchange Database Access Groups (DAG)等）在应用级别实施业务可用性。虽然这种方法通常可以提供不错的可用性，但是由于每一组应用都有自己的解决方案，因此这种方法有如下弊端：

复杂且昂贵对管理员的技术要求较高出错的风险大许可证较贵(如RAC)专用的备份架构

其次，虽然有一些基础架构层的解决方案可以比应用级解决方案更加经济高效，但是这些解决方案往往在正常运行时间和RTO（恢复时间目标）方面表现得比较差。

除此之外，传统的灾难恢复解决方案很难在现有的物理X86环境中实现，这是因为：

传统的灾难恢复计划依赖于一套非常复杂的流程和基础架构：复制数据中心、复制服务器基础架构、将数据转移到恢复站点的流程、重启服务器的流程、重新安装操作系统的流程等等。由于灾难恢复可能非常复杂，因此各个企业常常发现他们只能为少数几个重要的生产工作负载提供良好的保护，而其他的工作负载（如文件/打印服务器、内部Web服务器、部门级应用）则得不到保护或者保护的不充分。

因为灾难恢复计划和基础架构非常复杂，所以各个企业都极为依赖大量的人员培训、准确且完整的恢复纪录，以及发生停机时恢复流程的准确执行。除此之外，由于恢复计划的测试过程会造成中断，而且成本非常高昂，所以各个企业无法确保所有培训、文档和执行过程都切实可行并且能够成功恢复IT服务。

图：传统的灾难恢复解决方案所面临的挑战

上图描述了传统的灾难恢复解决方案所面临的挑战，由于存在这些挑战，该方案往往会产生如下的后果：

恢复计划的测试往往会失败关键工作负载的基本恢复（如能成功）通常要花费数天或数周的时间管理和维护恢复计划要耗费IT人员大量的时间和资源

简言之，当前的灾备解决方案还无法满足其企业所设定的业务可用性要求。由此，XXX公司提出重新设计和实施中心总部应用到北京IDC的异地远程灾备的需求。

XXX总部应用虚拟化改造完毕后，目前服务器虚拟化比例已经达到大约XX%，XX%的应用已经由虚拟化承载，其中包括XX%的关键应用。需结合应用系统架构给出中心总部应用到北京IDC的异地远程灾备方案及实施日程表，按照日程表完成异地远程灾备。

灾难恢复解决方案

VMware提出的基于虚拟化环境的软件定义的可用性解决方案，该方案不仅可以提供与应用级别可用性方案相类似的RTO与RPO（恢复点目标），同时，它还可以提供基础架构层解决方案所具备的简易性和成本效益。同时，由于该方案充分利用了虚拟化环境的优势，因此它可以达到传统的非软件定义解决方案无法达到的效果。

VMware灾难恢复解决方案包括vCenter Site Recovery Manager和全新的vSphere Replication。

vCenter Site Recovery Manager

如今，企业发现越来越难以提供符合要求的灾难恢复解决方案。而Site Recovery Manager可以帮助企业应对传统灾难恢复方法的各种挑战，满足他们的恢复时间目标（RTO）、恢复点目标（RPO）以及法规遵从性要求。利用Site Recovery Manager，企业可以管理从生产数据中心到灾难恢复站点的故障切换，同时，还可以管理两个互为恢复站点且具有活动工作负载的站点之间的故障切换。

概述

VMware的灾难恢复解决方案分为三个大的模块，如下图不同颜色模块所示：其中灾难恢复编排属于自动化解决方案；复制、备份和恢复属于数据保护解决方案；计算存储属于基础架构解决方案。

图：VMware灾难恢复解决方案

Site Recovery Manager可以自动执行及简化故障切换至新数据中心的过程，从而让所计划的数据中心故障切换（如数据中心迁移）变得更加顺畅。它是一款领先的灾难恢复管理和自动化解决方案，它通过自动执行恢复过程来加快恢复的速度，并将灾难恢复作为VMware虚拟基础架构管理的集成要素，从而简化灾难恢复计划的管理工作。

SRM省去了复杂的手动恢复步骤，支持无中断的恢复计划测试，确保恢复过程的安全可靠。它密切集成vSphere及其他领先存储供应商提供的存储复制软件，使故障切换和恢复变得快捷、可靠、经济，而且便于管理。因此，企业不仅无需担心灾难恢复的风险，还可将所有重要的系统和应用程序纳入到保护范围。

自从2008年面世以来，SRM已得到长足发展。到目前为止，VMware已向一万五千多家客户售出12.5万个许可证，并且该产品还在以每年50%～60%的速度继续增长。

SRM为vSphere平台上的灾难恢复计划增加的巨大价值推动了这种增长，而所增加的成本却相对较低。VMware的许多客户已利用SRM从实际灾难（例如最近在日本发生的海啸和在美国发生的飓风）中快速恢复。下图是一些主要的客户以及SRM的相关市场数据。

图：Site Recovery Manager 的发展趋势与部分客户

SRM需要若干个组件。首先，受保护的站点和故障切换站点都需要一个SRM实例。SRM实例可通过与vSphere和vCenter紧密集成来提供管理和自动化功能。

SRM还需要底层复制产品来将虚拟机复制到故障切换站点。借助SRM，客户可以选择使用vSphere Replication或者使用基于存储的复制。因为vSphere Replication与SRM捆绑在一起，所以无需支付额外费用。基于存储的复制由第三方存储供应商提供，并通过Storage Replication Adapater (SRA)与SRM紧密集成，以使SRM能够利用该存储层协调复制和恢复活动。

最后，SRM在这两个站点上都需要配置vSphere集群和单独的vCenter实例。

图：SRM的主要功能组件

Site Recovery Manager的主要功能特性

VMware vCenter Site Recovery Manager可提供先进的复制、灾难恢复管理、无中断测试、自动故障切换和故障恢复以及计划内迁移功能。它可以管理从生产数据中心到灾难恢复站点的故障切换，以及两个具有活动工作负载的站点之间的故障切换，甚至还可以将多个站点恢复为一个共享的恢复站点。

Site Recovery Manager经常用于计划内迁移和预防性故障切换以避免发生灾难，它的主要功能特性如下：

集中式恢复计划

直接从 vCenter Server 中创建并管理恢复计划。自动发现并显示由 vSphere Replication 或基于阵列的复制保护的虚拟机。将虚拟机映射到故障切换站点上的相应资源(资源池、虚拟交换机和虚拟机文件夹)。指定虚拟机引导顺序。自定义虚拟机 IP 地址。自定义故障切换站点上的低优先级虚拟机的关机。利用自定义脚本扩展恢复计划。利用基于角色的访问控制来控制对恢复计划的访问。将多个站点恢复至一个共享的恢复站点。

自服务，基于策略的调配

可以为Site Recovery Manager 安装了VMware vCenter Orchestrator插件多租户可以根据需求通过vRealize Automation Center中的蓝图（blueprints）预定义的各自的灾难恢复策略

自动执行故障切换

接收关于可能的站点故障的自动警报。只需单击一次鼠标，即可在 vCenter Server 中开始执行恢复计划。自动停止用于恢复的复制数据存储的复制和升级。关闭故障切换站点上的低优先级虚拟机。按照预先指定的引导顺序自动启动受保护的虚拟机。在恢复过程中执行用户定义的脚本和暂停。在故障切换站点上自动重新配置虚拟机 IP 地址。从 vCenter Server 中管理和监控恢复计划的执行。

自动故障恢复

自动故障恢复到原始生产站点。通过自动反向复制到原始站点来重新保护虚拟机。反向执行原始恢复计划。利用 vSphere Replication 中的自动故障恢复功能。

计划内迁移

使用计划内迁移工作流确保数据零损失和应用一致性迁移。在原始站点正常关闭受保护的虚拟机。执行数据同步以强制将关闭的虚拟机完整复制到故障切换站点。执行利用应用一致性虚拟机的恢复计划。

无中断测试

自动执行恢复测试。利用存储快照功能执行恢复测试,而不会中断复制。在隔离网络中恢复虚拟机,以免对生产应用程序造成任何影响。针对测试方案自定义恢复计划的执行。完成测试后自动清理测试环境。在 vCenter Server 中存储、查看和导出测试结果及故障切换执行情况。

支持 vSphere Replication

利用专为 vSphere 和 vCenter Site Recovery Manager 设计的唯一真正基于虚拟化管理程序的复制产品。通过 vCenter 以精细灵活的虚拟机级别直接管理复制。使用与存储无关的复制支持使用低端存储,包括直连存储。执行具备灵活 RPO(介于 15 分钟到 24 小时之间)的异步复制。仅复制发生变更的数据块以提高网络效率。扩展到数百个虚拟机。利用对文件和应用一致性的支持。使用多时间点 (MPIT) 恢复来回到以前的已知状态。支持第三方基于阵列的复制可在主要供应商提供的大量兼容性存储阵列和复制产品中进行选择。使用基于 iSCSI、光纤通道或 NFS 存储的基于阵列的复制解决方案。通过 SRA 确保与 vCenter Site Recovery Manager 紧密集成。自动执行复制和数据同步操作,以实现协调一致的灾难恢复故障切换和计划内迁移。 SRM支持灵活的拓扑

Site Recovery Manager可用于多种不同的故障切换情形，尤其是SRM能帮助客户更好地利用对辅助站点的投资，即，当客户没有处于灾难恢复情形中时，可将辅助站点用于其他工作负载而不是使其处于闲置状态，SRM可用于如下四种不同的故障切换情形：

主动-被动：Site Recovery Manager完全支持传统的主动-被动型灾难恢复情形，即运行应用的生产站点将在故障切换之前一直处于闲置状态的辅助站点中恢复。尽管这是最常见的配置，但此情形也意味着您需要为大部分时间都处于闲置状态的灾难恢复站点投入大量资金。

主动-主动：为了更好地利用恢复站点，Site Recovery Manager还可以使用户在不使用该恢复站点进行灾难恢复时将其用于其他工作负载。用户可以将Site Recovery Manager配置为在故障切换过程中自动关闭或挂起位于恢复站点的虚拟机，这样就可以方便地释放计算容量以用于需要恢复的工作负载。

双向切换：Site Recovery Manager还可以提供双向故障切换保护，这样，您可以同时在这两个站点上运行活动的生产工作负载，并以任一方向对另一站点进行故障切换。另一站点上的备用容量将用于运行需要故障切换的虚拟机。

本地故障切换：尽管这不是常见情形，但有一些客户需要能够在指定的“站点”或园区中进行故障切换，例如，当存储阵列发生故障或者大楼维修迫使您将工作负载移动到其他园区大楼时。这些客户将利用Site Recovery Manager执行此类故障切换。

图：SRM支持灵活的拓扑

超越灾难恢复：灾难规避和计划内迁移

SRM不仅限于进行灾难故障切换，它更常用于日常迁移，例如用于灾难规避和计划内迁移。当然，灾难故障切换是最重要的使用情形，也就是当一个站点停止工作并且需要尽快将虚拟机迁移到辅助站点的时候使用。在这种情况下，SRM可支持完全或局部站点恢复，并将尽快执行故障切换以恢复业务服务。

其他两种使用情形尽管不是那么重要，但却更为常用。灾难规避在企业事先了解灾难将要发生的时候使用，例如，预测到飓风或洪水将要来袭时。在这种情况下，企业一般可在灾难实际来袭之前提早至少几个小时得到通知。企业也经常执行计划内迁移，例如，避免因计划内维护或全局负载平衡而导致停机。对于灾难规避和计划内迁移，现在企业可利用“计划内迁移”工作流程和自动故障恢复来简化迁移流程。

图：三种典型的SRM使用情形

VMware Site Recovery 的工作方式

Site Recovery Manager可以为用户提供创建、管理和执行灾难恢复计划的主要环节。该解决方案已经集成到VMware vCenter管理界面中，可以统一管理虚拟基础架构及该架构的灾难恢复计划。SRM可以简化并自动执行设置、测试和执行恢复计划的主要环节：

设置恢复基础架构：Site Recovery Manager会指导用户完成连接远程站点并连接使用的存储复制软件的操作。还可让用户轻松地将生产资源（包括计算资源和网络资源）映射到恢复站点上相应的资源。

创建恢复计划：Site Recovery Manager具有直观的界面，可以协助用户创建适用于不同故障切换情况和基础架构不同部分的恢复计划。用户可以指定一些虚拟机暂停或关闭，从而释放可用资源以供恢复使用。还可以指定虚拟机启动的顺序、设置用户定义的脚本自动执行，以及必要时决定暂停恢复过程的时间点。

测试恢复计划：Site Recovery Manager可以利用存储阵列的快照功能，在恢复站点上自动创建无中断的、隔离的测试环境，然后将虚拟机连接到用户的隔离测试网络中。它将自动执行在实际故障切换中将使用的恢复计划，并在测试结束后清除测试环境。测试结果会被保存，以便随时查看和导出。

自动执行故障切换：管理员从VMware vCenter启动恢复计划之后，Site Recovery Manager会自动执行恢复计划中的所有步骤，保证恢复完全按照预期执行。管理员通过vCenter可以看到恢复计划的执行情况，并可以随时暂停或停止执行。

随着环境的变化，用户也可以通过vCenter随时更新和修改恢复计划。

灾难恢复自动化和利用软件定义的存储

Site Recovery Manager 可安装VMware vCenter Orchestrator插件，以实现灾难恢复编排过程中每个工作流的自动化。包括无中断测试、自动执行故障切换、自动执行故障恢复以及计划内迁移。

图：工作流自动化

通过vRealize Automation Center中的蓝图（blueprints）预定义灾难恢复策略，租户可以实现针对应用的自助式灾难恢复。

图：自助式灾难恢复计划

在SRM的最新版本中，支持使用软件定义的存储Virtual SAN实现灾难恢复计划，提高了灵活度，简化了管理，同时降低了硬件成本。

图：软件定义的存储实现灾难恢复计划

vSphere Replication

通过使用内置的vSphere Replication，用户可以消除第三方复制成本，并制定更灵活的灾难恢复计划。

概览

vSphere Replication无需采用基于存储阵列的本机复制，即可通过网络在vSphere主机之间复制处于开启状态的虚拟机，该技术具有许多独特的优势：

降低带宽需求消除存储局限性构建灵活的灾难恢复配置

降低带宽需求

vSphere Replication是VMware的专有复制引擎，它仅会将发生变更的数据块复制到恢复站点，与手动复制完整的虚拟机系统副本相比，可确保实现更低的带宽利用率和更高的恢复点目标。

在初始同步期间，利用虚拟机数据的“种子副本”

通过跟踪发生变更的磁盘区域并仅复制增量数据，确保高效利用网络

图：vSphere Replication

消除存储局限性

vSphere Replication在各个虚拟机磁盘(VMDK)级别运行，因而可以在任何存储上托管的数据存储之间进行复制，它可以：

在保护站点重新改变旧存储的用途

对非同类站点采用不同的存储技术（例如SAN相对于NAS、FC相对于iSCSI等）

仅将辅助存储用于受保护的虚拟机，而不是整个环境

构建灵活的灾难恢复配置

在配置要复制的虚拟机时，只需简单单击一下，即可将vSphere Replication配置为确保应用数据和虚拟机数据保持一致，它可以：

与Microsoft的卷影复制服务(VSS)自动集成，可确保恢复副本一致

支持灵活的恢复点目标，可从15分钟至24小时不等

在虚拟机级别通过vCenter Server控制复制

每个集群可扩展为数百个虚拟机

利用vSphere Replication来扩大灾难恢复的覆盖范围

当前，灾难恢复的覆盖范围通常只限于大型数据中心的第一层应用，也就是关键的业务应用。在许多情况下，第二或第三层等非关键应用和小型站点没有真正的灾难恢复保护，而只是使用备份进行保护。这是因为，传统灾难恢复保护不仅成本高昂而且过于复杂，因而无法广泛应用于所有应用和站点。

图：灾难恢复覆盖范围通常受高额保护成本的限制

不幸的是，由于日常活动仍然广泛依赖于第二或第三层应用和小型站点，因此这样的灾难恢复保护会导致大量的业务风险。在理想情况下，各企业应该准备一个经济高效且简单可靠的灾难恢复计划，以满足其所有应用和站点的需要。

而VMware Site Recovery Manager可以提供两种复制选择来供用户使用，它们分别是：

基于存储的传统复制，在许多情况下，它仍将是大型关键业务环境青睐的选择vSphere Replication (VR)，它为复制虚拟机提供了另一种选择。VR是一种经济高效的简单机制，可用于在两个站点之间进行复制，在很多情况下，是第二或第三层应用和小型站点的更好选择

图：SRM可提供广泛的复制选择

由于vSphere Replication的引入，客户现在拥有更多的选择，从而使复制解决方案能够更好地符合业务需求。VR和基于存储的复制可在相同的集群中配合使用，以便为更复杂的环境提供最佳灵活性。

图：VR可提供经济高效且简单的复制

vSphere Replication和基于存储的复制都非常有用，客户可以根据实际情况将两者结合起来使用。vSphere Replication由VMware直接提供，与基于存储的复制相比，它更为经济高效且更简单。基于存储的复制依赖于第三方存储供应商，它更昂贵、复杂，难以管理，但是功能相对强大。下图是两种复制技术在复制提供方，成本，管理以及性能方面的比较。

图：vSphere Replication是基于存储的复制的补充功能

vSphere Replication是将灾难恢复保护扩展至第二或第三层应用和小型站点的极佳方法。

图：将灾难恢复保护扩展至第二、三层应用和小型站点

基于存储的灾难恢复相当昂贵，第一层存储阵列上的存储容量和额外的复制许可证使其成本居高不下。存储、复制和SRM的成本通常在每个虚拟机2000美元左右。尽管与物理灾难恢复相比已经便宜很多，但对于不太关键的业务环境而言，其成本仍然相当高并且可能成为成本障碍。

vSphere Replication更为经济高效。通过支持使用较低端存储阵列、消除对专用复制许可证的需求和提供成本较低的SRM Standard版本许可证，VR可将每个虚拟机的成本降低3倍，即每个虚拟机大约600美元。

由于每个虚拟机的成本更低，因此各企业能够将其灾难恢复保护扩展至更多应用和站点。

vSphere Replication不仅经济高效，简单，它还可以简化复制管理，它在本质上比基于存储的复制更容易管理。

在新的SRM部署中使用基于存储的复制来设置复制是一项复杂的任务。vSphere管理员必须与存储管理员同步才能确保将适当的LUN复制到包含正确复制计划的其他站点。

图：借助vSphere Replication简化复制管理

借助vSphere Replication，一切都将简单许多。vSphere管理员可以从vCenter直接管理复制，从而消除对存储管理员的依赖。另外，管理员可以在虚拟机级别管理复制，因而再也无需进行复杂的虚拟机分组以及将虚拟机映射到LUN。

VR的这一特性使得它对于简易性至关重要的情形（例如对于第二和第三层应用的保护）格外具有吸引力。

实现原理与工作机制

vSphere Replication是深度集成在vSphere平台中的组件，也是当今市场上唯一一款真正的“虚拟化管理程序级”复制引擎。在主站点上，正在运行的虚拟机所用的虚拟机磁盘中如果有数据块发生了变更，这些数据块将发送到辅助站点，并在该处应用于虚拟机磁盘，以制作虚拟机的离线（保护）副本。

图：复制虚拟机中发生变更的数据块

图：vSphere Replication体系结构

vSphere Replication是一款全新设计的产品，专门用于在vSphere集群之间进行复制并支持SRM部署。

它依赖在ESXi中嵌入的vSphere Replication代理，该VSR代理可跟踪已更改的磁盘区域并将最新增量数据发送至受保护的站点。所复制的数据将会被vSphere Replication服务器捕获。每个vSphere Replication服务器实例可以管理大约100个虚拟机。它可捕获最新的磁盘更改并将这些更改应用到已复制的数据。

vSphere Replication可通过与vCenter和SRM紧密集成的vSphere Replication管理服务器进行管理。这两个站点都需要vSphere Replication管理服务器。

所有vCenter操作都通过同一个管理界面完成，使用该界面可以非常轻松地为最多500个虚拟机配置复制：只需右键单击某个虚拟机，并为其副本选择目标位置即可。

此过程有一步是选择“恢复点目标”，此步骤将告知vSphere Replication可以获取多久以前的虚拟机副本，然后它将时时尝试复制数据以满足恢复点目标。

图：为多个虚拟机选择一个恢复点目标

vSphere Replication将会对源虚拟机及其副本执行一次初始完全同步，管理员可以在目标位置放置数据的种子副本，以减少初始复制所需的时间和带宽。虚拟机的种子副本中包含一个虚拟机磁盘文件，管理员可以通过任何途径将该文件放置到目标位置。放置种子并不是一个必需的过程，无论目标位置是否有种子，vSphere Replication都会创建一个初始副本。如果用户获得了一个用于复制的种子，即可使用其中的数据来减少初始同步主磁盘及其副本所需的复制量。种子可以手动创建，也可以通过管理员选择的任何途径复制到相应位置，如采用脱机复制、FTP、“人工传输网络”，甚至使用ISO或虚拟机的克隆。

在完成基准同步之后，vSphere Replication将切换为仅传输已变更的数据块。这种做法可以确保通过网络向目标发送最少量的数据，并实现更高的恢复点目标。在发送唯一性数据之后，无需再次发送。系统仅复制发生变更的数据，这些数据块将发送到目标位置的vSphere Replication设备中。

从受保护的虚拟机的角度看，整个过程是完全透明的，不需要对配置或日常管理进行任何更改。这种复制方式采用的是非侵入形式，与虚拟机中的操作系统无关。

vSphere Replication的优势

vSphere Replication可以提供非常经济高效、简单而又功能强大的复制。

经济高效

VR可以降低存储成本和复制成本，所以更为经济高效。它可以在存储层消除这两个站点对较高端存储阵列的需求。客户可以跨站点使用其他较低端的存储，包括直连存储。例如，一种普遍的选择是将第一层存储放在生产站点，而在故障切换站点使用较低端的存储，例如较旧或较便宜的阵列。另外，vSphere Replication也与SRM捆绑在一起，因而无需花费额外成本，从而消除了基于存储的复制许可证所需的额外成本。

简单

从本质上而言，vSphere Replication也比基于存储的复制更为简单。用户可以从vCenter直接管理复制，从而消除对存储团队的依赖。另外，管理员可在单个虚拟机级别进行管理，从而大幅简化SRM的设置。

功能强大

尽管vSphere Replication简单且经济高效，但仍然是稳健且功能强大的复制解决方案。它可提供15分钟的RPO，并且使用户能够灵活地将RPO设定在15分钟到24小时之间。它可跟踪已更改的磁盘区域并且仅复制最新的增量数据以提高网络效率，还可扩展至最多500个虚拟机。

方案架构设计

VMware vCenter Site Recovery Manager (SRM) 是一个业务连续性和灾难恢复解决方案，可帮助用户计划、测试和执行受保护 vCenter Server 站点与恢复 vCenter Server 站点之间的虚拟机恢复。

通过配置基于阵列的复制，管理员可将 SRM 配置为支持若干第三方磁盘复制机制。管理员也可以使用基于主机的复制，方法是配置 SRM 以使用VMware vSphere Replication 来保护虚拟机工作负载。除此之外，SRM还可以与基于阵列和基于主机的复制同时结合使用。

客户容灾设计要求

设计特征

描述

可靠性

表示设计选择对应的技术能力和相关基础设施的高度可用性。

关键指标：XX.XXX％的正常运行时间。

(99.9%)

可管理性

表示设计选择对环境的灵活性和操作的方便程度的影响，包括可扩展性和灵活性。

关键指标：

每个管理员的服务器。

每个IT人员的客户。

时间部署新的技术。

性能表现

表示的设计选择对环境的性能的影响。这并不必然反映在对基础设施中其他技术的影响。

关键指标：

响应时间

吞吐量

恢复能力

表示设计选择对从突发事件恢复的能力的影响。

关键指标：

RTO - 恢复时间目标。

RPO - 恢复点目标。

（其中RTO要求为5分钟内，RPO要求为2小时内）

安全

表示设计选择对整体的基础设施安全能力的正面或负面影响。也可以表示设计是否满足业务到达一定的合规性政策的能力。

关键指标：

未经授权访问的预防

数据的完整性和保密性

在折衷情况下的辨析能力

实施方案选择

SRM对硬件的要求如下表所示，我们在对SRM进行规划时，必须严格遵循下表中指定的最小或者最佳配置。

表：SRM的硬件要求

将基于阵列的复制与 SRM 结合使用

使用基于阵列的复制时，受保护站点中的一个或多个存储阵列会将数据复制到恢复站点中的对等阵列。通过存储复制适配器 (SRA) ，管理员可以将 SRM 与各种阵列集成。

要将基于阵列的复制与 SRM 配合使用，必须先配置复制，然后才能配置使用该复制的 SRM。如果存储阵列支持一致性组，SRM 将与 vSphere Storage DRS 和 vSphere Storage vMotion 兼容，则可以使用 Storage DRS 和 Storage vMotion 移动 SRM 保护的一致性组内的虚拟机文件。如果存储阵列不支持一致性组，则无法将 Storage DRS 和 Storage vMotion 与 SRM 结合使用。

这种部署方式的示意图如下所示。

图：将基于阵列的复制与 SRM 结合使用

将 vSphere Replication 与 SRM 结合使用

SRM 可使用 vSphere Replication 将数据复制到恢复站点中的服务器。管理员可以将 vSphere Replication 作为虚拟设备进行部署，vSphere Replication 设备包含两个组件。

vSphere Replication 管理服务器:

在恢复站点上配置 vSphere Replication 服务器

从受保护站点启用复制

对用户进行身份验证,并检查用户执行 vSphere Replication 操作的权限

管理和监视复制基础架构

vSphere Replication 服务器:

侦听受保护站点上的 vSphere Replication 主机代理的虚拟机更新

将更新应用到恢复站点上的虚拟磁盘

如果需要，可以在一个站点上部署多个 vSphere Replication 服务器，以平衡虚拟架构中的复制负载。这种部署方式的示意图如下所示。

图：将 vSphere Replication 与 SRM 结合使用

将基于阵列的复制和 vSphere Replication 与 SRM 结合使用

管理员可以在SRM 部署中结合使用基于阵列的复制和 vSphere Replication。要创建使用基于阵列的复制和 vSphere Replication 的混合 SRM 部署，必须为这两种类型的复制配置受保护站点和恢复站点。

设置并连接存储阵列,然后在这两个站点上安装适用的存储复制适配器(SRA)。在这两个站点上部署 vSphere Replication 设备,然后在这些设备之间配置连接。根据需要使用基于阵列的复制或 vSphere Replication 配置要复制的虚拟机。

这种部署方式的示意图如下所示。

图：将基于阵列的复制和 vSphere Replication 与 SRM 结合使用

根据XXX客户生产环境的实际情况，我们建议采用将vSphere Replication与SRM 结合使用的部署方式。

网络设计

把服务从一个物理站点转移到另一个站点对网络无疑是一种挑战，尤其对应那些应用与IP地址绑定的情况。网络地址空间和IP地址分配是设计中的需要考虑的因素，可选择在恢复站点使用相同的IP地址或IP地址不同。

在恢复站点配置相同或不同的IP地址

客户现有的网络基础设施，网络地址空间，用于故障切换测试和故障切换的可用基础设施，在恢复站点的基础实施服务，虚拟机承载的服务等因素是影响规划的考虑因素。

选择1: 相同 IP 地址

在恢复站点使用相同的IP地址的好处是：

易于实施，如果有两个站点之间有拉伸VLAN（stretch VLAN），或者恢复站点完全不与被保护站点共享。故障切换测试或在故障切换过程中无须改变IP地址。隔离网络采用物理交换机提供所需的隔离和灵活性来进行测试，而不会影响生产网络。

相同IP地址的缺点是：

没有拉伸VLAN（stretch VLAN）时，可采用一个移动的VLAN解决方案。这就要求其中一个站点有可用VLAN，但两个站点不能同时使用。这限制了故障切换的粒度。它也限制了执行测试的能力，因为在执行测试要求从生产环境剥离出来的活跃VLAN。需要确保流量在故障切换测试过程或故障切换中不泄露到生产网络。（建立一个独立的网络。）在故障切换测试过程中，有必要以验证用户可以访问独立的测试网络以执行用户测试的权限。这可以用一个带有必要端口转发功能的多宿主VM实现，使用户可以访问隔离网络的工作负载。基础设施服务需要运行在独立的网络进行测试。如果使用物理交换机建立一个独立的网络会成本增加。

客户目前拥有独立的网络，并在这两个网站一个独立的地址空间。

选择 2: 不同 IP 地址

使用不同的IP地址，在恢复站点的好处是，有与现有的IP地址没有网络地址冲突。

不同IP地址的缺点是：

新的DNS条目需要更新和整个网络刷新，网络表里的缓存必须进行更新或刷新。Active Directory域信任可能需要修改。管理配置耗时。需要的应用程序学习和了解变化。

设计特征

选择1：相同

选择2：不同

描述

可靠性

两个设计选择对可靠性没有影响

可管理性

↑

↓

使用相同的 IP 地址更容易管理

性能表现

两个设计选择对性能表现没有影响

恢复能力

↑

↓

使用相同的 IP 地址恢复时间更快

安全

↓

↑

使用不同的 IP 地址可以避免IP地址冲突

图标: ↑ = 对质量的正面影响; ↓ = 对质量的负面影响; o = 对质量没有影响

表：网络——在恢复站点使用相同或不同IP地址

规划决策

客户没有跨主、辅站点的延伸VLAN。每个站点都有独立的网络。主站点和辅助站点都有不同的网络地址空间。恢复站点是一个运行其他工作负载的活跃站点，一些工作负载在故障切换测试或故障转移期间被关闭。

它要求恢复在辅助站点的虚拟机有不同的IP地址，并使用不同的网关地址。

在故障切换测试，客户提供了一个单独的隔离网络和物理交换机进行故障切换测试。在故障转移期间测试，被恢复的虚拟机被连接到这个独立的网络。这是通过将恢复的的虚拟机连接到适当的测试故障的端口组来完成的。

在故障转移期间，客户必须确认必要的网络配置在执行故障切换更改之前完成正确的变更。

SRM通讯端口设置

以下是在SRM环境的通信端口的设置。未列出任何其他的VMware vSphere通信端口设置。

VMware vCenter Server自身并不发起与 SRM的连接。当由远程SRM或一些其他的进程希望充当SRM客户端请求时，才会创建一个连接。

Figure 1. SRM 站点间通信

Figure 2. SRM 站内通信

网络服务

流入端口

流出端口

协议

允许

SRM 到本地 vCenter Server

8095 (SOAP), 9085 (Plug-in download)

80 (SSL)

TCP

是(默认)

SRM 到远程 vCenter Server

80 (SSL)

TCP

是 (默认)

ODBC 到 Microsoft SQL Server （SRM 数据库）

1433

TCP

是(默认)

到Oracle数据库的连接（SRM 数据库）

1521, 1524

TCP

是 (默认)

SRM 到外部API 客户端(WSDL, SOAP)

9007

TCP

是 (默认)

到存储阵列的SRA (供应商提供)

表： SRM 通信端口设置

存储设计存储复制

为应用重启选择什么类型的远程数据复制解决方案有如下的考虑因素：

距离:

短的距离，如校园或城域范围内。

扩展距离，如省，国家或全球

数据网络配置:

直接连接或连接交换机。

数据网络速度。这还受是否使用压缩，在高峰负荷节流带宽，是否为生产中的应用留出足够的带宽等因素影响。

恢复点目标/可容忍数据丢失:

生产环境应用程序的特征.

应用写入文件影响实现恢复点目标所需的带宽

选择何种复制解决方案，需要考虑业务需求和每个应用程序对公司业务的潜在收益影响。

主复制技术如下：

同步复制 – 受保护的站点的每个写必须先由恢复站点被确认，之后才可以确认写。可以达到零的RPO，但距离由带宽和延迟限制。以小于5ms的来回行程延时理论最大距离是465.7英里，然而，在实际应用中，同步复制，不能使用超过约100公里（大约60英里）的距离。异步复制 - 异步复制可以支持更远距离，但数据被发送到恢复站点有一定的滞后性。 RPO受到影响，并且数据丢失依赖于技术，带宽，生产的I / O负载，和循环时间（比较在预定时间周期中所做的更改的重复周期）。连续复制 - 日志式复制类似异步复制;然而，变化是周期产生的，所以多个恢复点是可用的。最近的恢复点仍然是技术，带宽的功能，I / O负载。

针对复制解决方案的设计，客户可与存储供应商确定最合适的复制技术的解决方案，以满足他们的业务需求。

用于解决存储阵列应该是在VMware vCenter站点恢复管理器硬件兼容性列表上应该有一个认证的存储复制适配器（SRA），可与SRM集成。

在Location_A的Site_A和在Location_B 的Site_B的之间的距离为[XX]公里，有[XX] Mbps链路和[XX]％的可用带宽。

客户选择使用Site_A的和Site_B之间的异步复制，以满足他们的RPO/ RTO和业务需求。

占位虚拟机

SRM为添加到SRM保护组中的每个机器在恢复站点创建了占位符的虚拟机。这些虚拟机文件包含虚拟机配置（元数据）文件（而不是虚拟机磁盘文件）。占位虚拟机作为恢复站点的对象被添加到vCenter Server，并且可以在清单移动，但不能开机。

因为仅配置信息存储，占位符的虚拟机需要的存储空间是很小的。虽然本地存储可以用作数据存储，但建议在恢复站点使用共享的非复制数据存储用于存储占位虚拟机，容量推荐为2GB。

快照空间

要执行故障切换测试，在恢复站点需要额外的存储。细节要求取决于解决方案中存储供应商类型。如果使用完全克隆，那么存储空间需要两倍。如果使用快照，那么需要使用原始存储空间的一小部分。需要存储复制适配器（SRA）拍摄快照和故障切换测试过程中提供给恢复站点上的VMwareESXi主机使用。在此期间，从受保护站点到恢复站点的复制不会间断。

配置清单及说明硬件配置需求

SRM对硬件的要求如下表所示，我们在对SRM进行规划时，必须严格遵循下表中指定的最小或者最佳配置。

表：SRM的硬件要求

虚拟化软件配置需求

如果SRM被配置为只从主站点到辅助站点故障切换的虚拟机，只需要为在主站点受保护的虚拟机添加SRM许可证。

如果SRM配置为支持一组虚拟机从主站点到辅助站点故障切换，并且还配置成支持一组不同的虚拟机从辅助站点到主站点的故障切换，则需要在两个站点都添加SRM许可证。

注意：请确保您已经正确安装了SRM软件，以及必要的插件。

VMware建议用于主站点和恢复站点客户购买足够的许可证，从而使故障恢复过程更简单。这也允许提供双向故障转移，如果有必要。

单向许可证

Site_A

Site_B

ESXi 主机上允许被保护虚拟机数量

许可证数量 (每个许可证保护虚拟机个数25)

一共需要的保护 25个虚拟机 SRM许可证个数= 2 (最多一共 50 被保护虚拟机).

表：SRM许可证 – 单向保护

双向许可证

Site_A

Site_B

ESXi 主机上允许被保护虚拟机数量

许可证数量 (每个许可证保护虚拟机个数25)

一共需要的保护25个虚拟机的SRM 许可证个数 = 3 (最多在Site_A 支持50 被保护虚拟机；最多在Site_B支持25个被保护虚拟机).

表：SRM许可证 —— 双向保护

方案总结方案要点将灾难恢复成本降低多达 50%。可从 VMware vCenter Server集中设置和管理恢复计划并替代了易于出错的人工操作手册。可随时对恢复计划进行无中断测试,从而确保实现高度可预测的恢复目标。只需单击一下鼠标即可自动执行站点故障切换和故障恢复的编排,从而确保快速可靠的恢复。简化了计划内迁移和预防性故障切换。可使用 vSphere Replication(免费包括在 vSphere 中),或从多种受支持的基于阵列的复制解决方案中进行选择。使用与应用和硬件无关的单个灾难恢复解决方案即可保护所有虚拟化应用。多租户可以根据需求通过vRealize Automation Center中的蓝图（blueprints）预定义的各自的灾难恢复策略通过工作流编排实现灾难恢复计划方案优势

vCenter Site Recovery Manager 可降低管理和测试的运营成本。vCenter Site Recovery Manager 能够显著降低设置和维护恢复计划所需的人员开销。它用简单、集中化的恢复计划 (定期更新所需的时间和协调工作要少很多)替代了复杂的人工操作手册,实现了这一目的。除了灾难恢复实施外,IT 部门通常在正常工作时间以外的时间进行灾难恢复测试。vCenter Site Recovery Manager 实现了自动化、无中断的灾难恢复测试, 从而消除了此类做法的成本。vSphere Replication 使您可以降低复制软件的成本。

如果 RPO 超过 15 分钟,则您可以利用 vSphere Replication,它包括在 vSphere 中,无需额外成本。利用此产品,便无需购买基于阵列的复制软件,而此类软件每复制 1 TB 数据的成本可能高达 10,000 美元,这还不算日常维护成本。vCenter Site Recovery Manager 与 vSphere Replication 的组合解决方案每年可为每个受保护的虚拟机实现约 7000元的节约。

简化恢复和迁移计划的设置。传统恢复计划的设置十分复杂。它们通常记录在人工操作手册中,不仅容易出错,而且会很快与配置更改不再同步。凭借 vCenter Site Recovery Manager, 设置恢复计划变得简单,只需几分钟而非几个星期即可完成。通过与 vCenter Server 紧密集成的界面,用户只需选择要保护的虚拟机,将虚拟机映射到位于恢复站点的资源,然后指定虚拟机引导顺序。用户还可以包括自定义脚本,并为虚拟机自动重新配置 IP 地址。

图：为什么选择SRM

自动执行站点故障切换和故障恢复,以确保快速可靠的 RTO。 vCenter Site Recovery Manager 自动执行整个站点恢复和迁移流程。用户只需一次单击即可启动故障切换,并且 vCenter Site Recovery Manager 无需人工干预即可自动恢复服务。灾难恢复故障切换工作流会停止复制,在故障切换站点恢复受保护的虚拟机,并集中力量来尽可能缩短响应时间。自动化消除了手动流程中的固有风险,从而确保更快更可靠的 RTO。恢复时间介于 30 分钟到数小时之间,具体取决于配置。自动故障恢复实现了双向迁移。虚拟机可轻松进行故障恢复,以反向执行原始恢复计划。

简化计划迁移和预防性故障切换。vCenter Site Recovery Manager 经常用于自动执行计划的数据中心迁移和预防性故障切换。自动化故障恢复可以快速轻松地将应用迁移回到生产站点。计划内迁移工作流会正常关闭位于原始站点的虚拟机,通过完成复制来同步数据,并在故障切换站点间以应用一致的状态恢复虚拟机且不造成数据损失。

随时执行无中断测试。凭借 vCenter Site Recovery Manager, 可以根据需要随时测试恢复计划,且无需中断生产系统。测试工作流将受保护的虚拟机设置到单独的环境中,从而确保测试虚拟机与生产虚拟机完全隔离。vCenter Site Recovery Manager 提供关于测试结果的详细报告,包括实现的 RTO。利用此信息,您的组织可以确信其灾难防护能够满足业务目标的要求。您可以保存测试结果,并用它们来证明计划符合灾难恢复法规的要求。

缩略语解释

缩略语

解释

SRM

Site Recovery Manager

SDDC

Software Defined Data Center

软件定义的数据中心

SLA

Service Level Agreement

服务级别协议

RPO