建设智算中心-通算平台双活/灾备/迁移机制

最爱雪糕冰淇淋 11-04 62

前言：

如今各位老铁们对“双活数据中心距离限制”大概比较注重，我们都需要了解一些“双活数据中心距离限制”的相关资讯。那么小编也在网上汇集了一些有关“双活数据中心距离限制””的相关知识，希望各位老铁们能喜欢，我们一起来学习一下吧！

原创内容实属不易，请大家多多添加关注。本号将重点聚焦于与人工智能项目从投资到建设、运营的全生命周期方案。结合实际项目经验进行总结，希望能够为大家带来帮助

人工智能算力中心项目，按项目阶段主要分为投资、建设、运营三部分，按服务内容分为通算平台、智算平台、超算平台。本文重点介绍通算平台的同城双活/备份/异地灾备/迁移等可靠性方案，其他内容请参考本号其他章节。

一、常见术语

RPO（Recovery Point Objective）：RPO 是一种衡量容灾恢复能力的指标，它表示在发生灾难性故障时，可以恢复到最近的可用备份的时间点。RPO 越高，意味着在发生故障时，可以恢复到更近的时间点，从而减少数据丢失和业务中断。

RTO（Recovery Time Objective）：RTO 是一种衡量容灾恢复速度的指标，它表示从发生故障到恢复到正常运营所需的时间。RTO 越短，意味着在发生故障时，可以更快地恢复到正常运营状态，减少业务中断。

在云容灾中，RPO 和 RTO 是衡量容灾恢复能力的重要指标，需要根据具体业务需求和风险分析来制定相应的策略。同时，云容灾还需要考虑数据备份和恢复、网络连接和带宽、灾备中心可用性等因素。

二、实现同城双活

1、业务要求，即智算中心需要需要实现同城双活的业务要求

（1）实现服务请求能够跨IDC负载，双活两个机房各承担一部分流量，一般入口流量完全随机。

（2）保证数据零丢失。跨数据中心数据同步和复制技术，实现不同数据中心之间双向同步，实现RPO=0，RTO≈0，保证数据零丢失

（3）故障转移机制，自动将云实例迁移至健康数据中心的物理机，实现业务系统跨数据中心的容灾恢复，RPO=0，RTO<5min。

（4）在线迁移机制，跨数据中心在线迁移机制，即提供多数据中心迁移能力，使在线迁移不受限于同一数据中心。跨数据中心在线迁移机制，可以有效的进行多数据中心之间的资源平衡，以及计划内的跨数据中心热迁移。

2、双活数据中心网络要求

延迟：网络层延迟要求，不同应用对网络层延迟要求差异很大且没有统一标准，一般毫秒级别都可以接受，建议延迟不要超过4.5ms，越小越好。一般情况Mysql关系型数据库，对跨AZ的VM之间的延迟要求4.5ms以内，超过4.5ms，将出现上层应用软件报错。

带宽：云平台自身对带宽要求很低，只有少量的管理数据同步，可以忽略不计，仅就云平台Region功能管理面而言，AZ之间10G互联即可满足；AZ之间的网络带宽建设应该以业务架构为出发点，根据跨AZ之间业务主机互访传输数据量来评估带宽，一般10G/40G/100G不等。

3、双活数据中心网络要求：双活数据中心之间物理积累小于等于100KM

4、双活数据中心之间的通信技术：专线、DWDM、同城裸光纤等

5、云平台同Region多AZ架构要求：在连接上，保证两个AZ之间物理网络三层可达即可，不需要二层连通。

三、容灾备份机制

1、数据备份与恢复系统使用基于快照的整机备份+增量/差异备份技术，对客户端整机数据做先做一次完整备份，后续根据设定的备份任务计划对客户端数据做增量/差异备份，仅备份有改变的数据，备份计划分为实时备份、计划备份、手动备份。

2、常用CDP技术，CDP 连续数据保护技术记录被保护服务器磁盘数据的每一次写操作，备份窗口间隔为 0，即如录像机一样可回溯任意历史点的磁盘状态，达到 RTP＝0 的高指标。创新性的根据对备份时磁盘读写频率的大数据分析给出的图形化的磁盘数据风险等级曲线，可简单明确的选择低风险的时间点做恢复。

3、恢复机制，提供整机恢复、卷恢复和文件恢复 3 种同粒度的恢复方式，以适应不同应用场景，实现分钟或秒级的RTO指标。

（1）整机恢复，适用场景：OS 崩溃、硬件损坏、应用损坏、或其它原因导致的被保护的生产服务器业务中断，需要完整的重建生产服务器，包括 OS、安装与 OS 之上的全部应用和数据库软件，及其相关联的数据文件。

（2）卷恢复，适用场景：生产服务器 OS 及业务系统本身能正常工作，但业务系统使用的存放于非 C：盘的业务数据由于各种原因出现损坏或丢失，需要将业务数据恢复到正常数据的时间点

（3）文件恢复，适用场景：管理员明确的知道特定时间点的哪些文件是正确的状态，且其它的文件都不需要做恢复。包括网络共享方式（将指定备份点加载为网络共享目录）、web在线访问方式（在网页中显示备份点中硬盘上文件夹和文件）

（4）恢复时的客户端连接方式（客户端Agent连接、PXE连接、启动U/光盘）

四、异地灾备

1、异地IDC间数据中心要求

延迟：建议小于10ms

带宽：根据业务要求、业务传输量进行评估。

物理距离：100KM以上

互联技术：MSTP、SD-wan、VPN等

2、异地灾备方案

前提：

（1）源数据中心、目的数据中心都部署云平台，Region之间为大二层网络。

（2）源和目的数据中心都部署备份系统，两者实时同步

步骤：

（1）在源数据中心部署备份系统，备份系统用于本数据中心内虚拟机资源的备份。

（2）在目的数据中心同样部署备份系统，与源数据中心的备份系统两者实时同步，目的数据中心中云主机默认不激活

（3）源数据中心备份系统定时检测vm的状态，如果发现vm不可访问，将激活备数据中心的vm，自动进行地址切换。对外提供服务。

（4）当目的数据中心的备份系统发现源数据中心的备份系统重新恢复访问时，将重新同步数据到源数据中心

五、迁移场景

适用场景：生产服务器硬件需要升级换代；x86 数据中心升级为超融合数据中心；业务系统需要迁移到公有/私有云；公有云的生产服务器在不同区域间的无障碍迁移；不同的公有云间的生产服务器的无障碍迁移。源客户端可以是物理机、虚拟化平台、公/私有云端；目标执行环境也可以是物理机、虚拟化平台、公/私有云端。源和目标的搭配无任何限制，

各种源/目标搭配的迁移，包括 P2P、P2V、 V2V、V2P、P2C、C2P、C2C 迁移。

P2P：物理机到物理机的迁移；

P2V：物理机到虚拟机的迁移；

V2V：虚拟机到虚拟机的迁移；

V2P：虚拟机到物理机的迁移；

P2C：物理机到云端的迁移；

C2P：云端到物理机的迁移；

C2C：云端到云端迁移。

支持如下的虚拟化平台：

Microsoft Hyper-V 、VMware vSphere（ESX\ESXi）、 KVM 、Citrix Xen、 Red Hat Enterprise Virtulization 、Huawei FusionSphere

支持的云计算平台

阿里云；腾讯云；百度云；华为；Amazon AWS、Google；MS Azure；青云； UCloud…

此为系列文章，详细描述智算平台投资、建设、运营相关的规划设计、架构原理等，此关注本号其他章节。

《投资智算中心—“投-建-运”一体化服务》《建设智算中心-三大运营模式篇》《建设智算中心-改善运营服务模式，提高算力利用率》《建设智算中心-用户群体与业务场景分析》《建设智算中心-Flops算力与大模型参数、GPU卡型号间关系》《建设智算中心-需满足企业等保合规要求》《建设智算中心-满足生成式人工智能服务安全基本要求》《建设智算中心-需获取的相关认证》《建设智算中心-通算、智算、超算业务架构》《建设智算中心-多元算力中心组网拓扑图》《建设智算中心-通算平台整体功能架构(1)》《建设智算中心-通算平台整体功能架构(2)》《建设智算中心-通算平台标准组网模式》《建设智算中心-通算平台计算架构原理》《建设智算中心-通算平台存储架构原理》《建设智算中心-通算平台网络架构原理》《建设智算中心-通算平台三级等保建设方案》《建设智算中心-通算平台双活/灾备/迁移机制》

本文地址：http://www.longkongtuishu.com/ca065BAZsBFoPCVRQ.html

标签： #双活数据中心距离限制 #双活数据中心数据同步方案 #双活数据中心数据同步方案怎么做