Karmada跨集群优雅故障迁移特性解析

摘要：在 Karmada 最新版本 v1.3中，跨集群故障迁移特性支持优雅故障迁移，确保迁移过程足够平滑。

本文分享自华为云社区《Karmada跨集群优雅故障迁移特性解析》，作者：Karmada社区。

在多云多集群应用场景中，为了提高业务的高可用性，用户的工作负载可能会被部署在多个集群中。然而当某个集群发生故障时，为保证业务的可用性与连续性，用户希望故障集群上的工作负载被自动的迁移到其他条件适合的集群中去，从而达成故障迁移的目的。

Karmada 在 v1.0 版本发布之前便已支持跨集群故障迁移能力，经历过社区多个版本的开发迭代，跨集群故障迁移能力不断完善。在 Karmada 最新版本 v1.3 （https://github.com/karmada-io/karmada/tree/release-1.3）中，跨集群故障迁移特性支持优雅故障迁移，确保迁移过程足够平滑。

下面我们对该特性展开解析。

▍回顾：单集群故障迁移

在 Kubernetes 的架构中，Node 作为运行 Pod 实例的单元，不可避免地面临出现故障的可能性，故障来源不限于自身资源短缺、与 Kubernetes 控制面失去连接等。提供服务的可靠性、在节点故障发生后保持服务的稳定一直是 Kubernetes 关注的重点之一。在 Kubernetes 管理面，当节点出现故障或是用户不希望在节点上运行 Pod 时，节点状态将被标记为不可用的状态，node-controller 会为节点打上污点，以避免新的实例调度到当前节点上、以及将已有的 Pod 实例迁移到其他节点上。

▍集群故障判定

相较于单集群故障迁移，Karmada 的跨集群故障迁移单位由节点变为了集群。Karmada 支持Push 和 Pull 两种模式来管理成员集群，有关集群注册的信息可以参考Cluster Registration（http://karmada.io/docs/next/userguide/clustermanager/cluster-registration/）。Karmada 根据集群的心跳来判定集群当前的状态。集群心跳探测有两种方式：1.集群状态收集，更新集群的 .status 字段（包括 Push 和 Pull 两种模式）；2.控制面中 karmada-cluster 命名空间下的 Lease 对象，每个 Pull 集群都有一个关联的 Lease 对象。

对于 Push 集群，Karmada 控制面中的 clusterStatus-controller 将定期执行集群状态的收集任务；对于 Pull 集群，集群中部署的 karmada-agent 组件负责创建并定期更新集群的 .status 字段。集群状态的定期更新任务可以通过 --cluster-status-update-frequency 标签进行配置（默认值为10秒）。集群的 Ready 条件在满足以下条件时将会被设置为 False ：· 集群持续一段时间无法访问；· 集群健康检查响应持续一段时间不正常。上述持续时间间隔可以通过 --cluster-failure-threshold 标签进行配置（默认值为30秒）。

每当有 Pull 集群加入时，Karmada将为该集群创建一个 Lease 对象和一个 lease-controller。每个 lease-controller 负责更新对应的 Lease 对象，续租时间可以通过 --cluster-lease-duration 和 --cluster-lease-renew-interval-fraction 标签进行配置（默认值为10秒）。由于集群的状态更新由 clusterStatus-controller 负责维护，因此 Lease 对象的更新过程与集群状态的更新过程相互独立。Karmada 控制面中的 cluster-controller 将每隔 --cluster-monitor-period 时间（默认值为5秒）检查 Pull 集群的状态，当 cluster-controller 在 --cluster-monitor-grace-period 时间段（默认值为40秒）内没有收到来着集群的消息时，集群的 Ready 条件将被更改为 Unknown 。

你可以使用 kubectl 命令来检查集群的状态细节：kubectl describe cluster

▍故障迁移过程

当集群被判定为不健康之后，集群将会被添加上Effect值为NoSchedule的污点，具体情况为：· 当集群 Ready 状态为 False 时，将被添加如下污点：key: cluster.karmada.io/not-ready effect: NoSchedule· 当集群 Ready 状态为 Unknown 时，将被添加如下污点：key: cluster.karmada.io/unreachable effect: NoSchedule 如果集群的不健康状态持续一段时间（该时间可以通过 --failover-eviction-timeout 标签进行配置，默认值为5分钟）仍未恢复，集群将会被添加上Effect值为NoExecute的污点，具体情况为：

·当集群 Ready 状态为 False 时，将被添加如下污点：key: cluster.karmada.io/not-ready effect: NoExecute

·当集群 Ready 状态为 Unknown 时，将被添加如下污点：key: cluster.karmada.io/unreachable effect: NoExecute

当用户创建 PropagationPolicy/ClusterPropagationPolicy 资源后，Karmada 会通过 webhook 为它们自动增加如下集群污点容忍（以 PropagationPolicy 为例）：

apiVersion: policy.karmada.io/v1alpha1

kind: PropagationPolicy

metadata:

  name: nginx-propagation

  namespace: default

spec:

  placement:

 clusterTolerations:

    - effect: NoExecute

      key: cluster.karmada.io/not-ready

      operator: Exists

 tolerationSeconds: 600

    - effect: NoExecute

      key: cluster.karmada.io/unreachable

      operator: Exists

 tolerationSeconds: 600

  ...

其中，tolerationSeconds 值可以通过 --default-not-ready-toleration-seconds 与--default-unreachable-toleration-seconds 标签进行配置，这两个标签的默认值均为600。

当 Karmada 检测到故障群集不再被 PropagationPolicy/ClusterPropagationPolicy 容忍时，该集群将被从资源调度结果中移除，随后，karmada-scheduler 重调度相关工作负载。重调度的过程有以下几个限制：·对于每个重调度的工作负载，其仍然需要满足PropagationPolicy/ClusterPropagationPolicy 的约束，如 ClusterAffinity 或 SpreadConstraints 。· 应用初始调度结果中健康的集群在重调度过程中仍将被保留。

对于 Duplicated 调度类型，当满足分发策略限制的候选集群数量不小于故障集群数量时，将根据故障集群数量将工作负载重新调度到候选集群；否则，不进行重调度。

...

  placement:

 clusterAffinity:

 clusterNames:

        - member1

        - member2

        - member3

        - member5

 spreadConstraints:

      - maxGroups: 2

 minGroups: 2

 replicaScheduling:

 replicaSchedulingType: Duplicated

  ...

假设有5个成员集群，初始调度结果在 member1和 member2 集群中。当 member2 集群发生故障，触发 karmada-scheduler 重调度。

需要注意的是，重调度不会删除原本状态为 Ready 的集群 member1 上的工作负载。在其余3个集群中，只有 member3 和 member5 匹配 clusterAffinity 策略。由于传播约束的限制，最后应用调度的结果将会是 [member1, member3] 或 [member1, member5] 。

对于 Divided 调度类型，karmada-scheduler 将尝试将应用副本迁移到其他健康的集群中去。

  ...

  placement:

 clusterAffinity:

 clusterNames:

        - member1

        - member2

 replicaScheduling:

 replicaDivisionPreference: Weighted

 replicaSchedulingType: Divided

 weightPreference:

 staticWeightList:

          - targetCluster:

 clusterNames:

                - member1

            weight: 1

          - targetCluster:

 clusterNames:

                - member2

            weight: 2

  ...

Karmada-scheduler 将根据权重表 weightPreference 来划分应用副本数。初始调度结果中， member1 集群上有1个副本，member2 集群上有2个副本。当 member1 集群故障之后，触发重调度，最后的调度结果是 member2 集群上有3个副本。

▍优雅故障迁移

为了防止集群故障迁移过程中服务发生中断，Karmada 需要确保故障集群中应用副本的删除动作延迟到应用副本在新集群上可用之后才执行。ResourceBinding/ClusterResourceBinding 中增加了 GracefulEvictionTasks 字段来表示优雅驱逐任务队列：

 // GracefulEvictionTasks holds the eviction tasks that are expected to perform

 // the eviction in a graceful way.

 // The intended workflow is:

 // 1. Once the controller(such as 'taint-manager') decided to evict the resource that

 //    is referenced by current ResourceBinding or ClusterResourceBinding from a target

 //    cluster, it removes(or scale down the replicas) the target from Clusters(.spec.Clusters)

 //    and builds a graceful eviction task.

 // 2. The scheduler may perform a re-scheduler and probably select a substitute cluster

 //    to take over the evicting workload(resource).

 // 3. The graceful eviction controller takes care of the graceful eviction tasks and

 //    performs the final removal after the workload(resource) is available on the substitute

 //    cluster or exceed the grace termination period(defaults to 10 minutes).

 //

 // +optional

 GracefulEvictionTasks []GracefulEvictionTask `json:"gracefulEvictionTasks,omitempty"`

当故障集群被 taint-manager 从资源调度结果中删除时，它将被添加到优雅驱逐任务队列中。gracefulEvction-controller 负责处理优雅驱逐任务队列中的任务。在处理过程中，gracefulEvction-controller 逐个评估优雅驱逐任务队列中的任务是否可以从队列中移除。判断条件如下：

检查当前资源调度结果中资源的健康状态。如果资源健康状态为健康，则满足条件。
检查当前任务的等待时长是否超过超时时间，超时时间可以通过graceful-evction-timeout 标签进行配置（默认为10分钟）。如果超过，则满足条件。

▍总结

Karmada 跨集群优雅故障迁移特性提升了集群故障后业务的平滑迁移能力，希望通过上述分析过程能帮大家更好的理解和使用Karmada 跨集群故障迁移能力。有关该特性的更多详细信息可以参考 Karmada 官网。大家也可以查看 Karmada release （https://github.com/karmada-io/karmada/releases）来跟进 Karmada 最新版本动态。如果大家对 Karmada 跨集群故障迁移特性有更多兴趣与见解，或是对其他特性和功能感兴趣，也欢迎大家积极参与到 Karmada 社区中来，参与社区讨论与开发。附：Karmada社区技术交流地址

https://github.com/karmada-io/karmada

Slack地址：https://slack.cncf.io/

点击关注，第一时间了解华为云新鲜技术~

你可能想看：

质量特性一般包括哪些特性质量特性一般包括哪些特性

质量特性一般有性能、寿命、可靠性等特性。1、性能。质量概念的关键是“满足要求”。这些“要求”应转化为评估、检查和审查所依据的指标的某些特性。其中性能是最重要的特性，性能通常是指产品在功能上满足客户要求...

显卡玩游戏会突然黑屏怎么回事？多种可能性解析，解决方法分享！

图形在玩游戏时屏幕突然变暗是困扰许多游戏爱好者的问题。图形频率过高可能会导致黑屏或游戏突然崩溃，而游戏玩家正在玩游戏。您需要检查您的图形卡是否超频。有些游戏可能需要更高的配置才能正常工作。您可能会遇到...

什么是户口迁移证户口迁移证过期了怎么办

户口迁移证是公民的户口所在地变动时，主要是用于由原户口所在地迁往新落户地址的凭证。若公民户口迁移证（准迁证）到期，是可以带上相关资料重新到当时办理准迁证的机构办理一次续证，办理好续证以后可以继续办理相...

如何用win10 SSD迁移系统(win10系统无损迁移到SSD SSD)

现在很多用户开始选择把系统安装在读写速度更快的SDD固态硬盘中，不过重新安装系统还得进行激活和数据转移，其实借助分区助手就能够无损把操作系统转移到SSD固态硬盘中，接下来就以联想G480迁移win10...

网站怎么迁移（网站怎么迁移服务器）

对新网站后台数据库内容录入中涉及到的表格和数据表的字段结构进行分析，根据新网站后台的实际字段做数据结构转换。将转换后的数据字段直接写入新网站后台数据库对应的表中，这样就需要仔细推敲两个后端的内容模型、...

rmvb是什么格式？怎么将rmvb转换mp4格式

rmvb是一种视频文件的格式，现如今，很多人对于这种格式的文件还是不怎么熟悉，但是却经常需要将rmvb的格式文件转换为mp4格式。今天小编就给大家具体的分享一些有关rmvb视频的内容。rmvb是rea...

scrm和crm的区别是什么？

是一种系统、综合的客户服务管理方案，scrm重点将客户信息与客户关系管理相结合，实现对客户需求的深入了解和反馈服务。CRM只用于管理客户信息，加强客户管理，提高客户服务效率等。scrm模块是指现有的客...

上海御钢35crmo钢材料询价和35crmo钢材料询价

弯曲和高负荷各种仪器的主要部件，螺栓适用于工作温度在400℃以下的锅炉，涡轮发电机转子、主轴、重负荷传动轴和大断面部件：1热处理温度允许调整范围，2表中列举的力学性能适用于截面尺寸小于80 mm的钢材...

linux arm内核编译（linux arm内核）

arm微控制器内核及其特点？ARM开发具体是：工程师使用ARM嵌入式Linux操作系统进行内核编译及文件系统制作，使用相关开发工具进行ARM软、硬件开发设计的专业技术人员。平时所说的ARM7、ARM9...

System Volume Information是什么文件 System Volume Information可以删除吗

有很多朋友们在清理系统的时候遇到一个名为System Volume Information的文件夹，那么这个文件夹到底是什么文件，我们可以清理删除吗？System Volume Information...

时尚性解读：第4种性取向——无性

无性恋是指一些不具有性倾向的人，即不对男性或女性任一性别表现出性倾向的一种倾向，不过无性恋是否是一种性倾向到目前为止都还有争议。而另一种形式则是他们确实没有任何欲望。无性恋的人是怎样的感觉？无性恋可分...

哪里有卖本田喜悦故障灯的本田喜悦110电喷车故障灯长亮着显示通通信故障怎么修？

文章目录：五羊本田喜悦100国三仪表显示灯一直闪是什么问题？本田喜悦110电喷车故障灯长亮着显示通通信故障怎么修？五羊本田100仪表小黄灯什么作用？五羊本田喜悦100车头表那个小灯代表什么？喜悦100...

「书讯」产业集群式转移与产业链跨区域整合

小编推荐《产业集群式转移与产业链跨区域整合》从产业集群式转移的生态学特征出发，引入共生理论，解析了产业集群式转移与产业链跨区域整合的内在关系，探讨了产业集群式转移与产业链跨区域整合的理论逻辑、内在机理...

分布式与集群的区别是什么？

分布式是指将不同功能，或不同地点，或拥有不同数据的多台计算机通过网络连接起来，由控制系统统一管理，完成大规模信息处理的计算机系统。集群是指将多台服务器集中在一起提供同一种服务，在逻辑上可以看做是一台服...

江门产业集群厚积薄发交通网络项目建设如火如荼

00:0000:00详情收起00:0000:00江门中心城区航拍图兴乐摄江门打造珠江西岸新增长极，构建新时代侨都高质量发展新格局文/羊城晚报全媒体记者陈卓栋通讯员江宣谭耀广2021年地区生...

为什么有人认为现在正处于第六次生物集群灭绝时期

　　新西兰一种已于20世纪灭绝的鸟类。　　第六次生物集群灭绝事件可能始于距今1.1万年前的新石器时代，但其中1/4可能将灭绝！全球濒临灭绝的植物种类占全部物种的47%，在以往的集群灭绝时期，而如今每天...

hadoop集群动态添加删除节点

在不重启集群的情况下添加节点，1．配置新节点与namenode之间的ssh免密登陆:3．在Namenode节点的slaves文件中添加新节点的主机名或ip（用于下次重启的时候使用）：4．在新节点中启动...

flink集群方式-Standalone模式

TaskManager：TaskManager:2、安装配置:1）首先在一台机器上安装flink:参考flink本地开发环境安装与部署（单机），2）修改flink-conf.yaml，vi flink...

TKE集群节点max-pod是如何配置的

其实tke集群的每个节点我们都会设置一下最大可容纳的pod数量，那么节点的最大运行pod数量到底是如何定义的呢，下面我们来说说tke不同网络模式下节点新加入tke集群的max_pods是如何进行设置的...

如何统计TKE集群的CRD数量

现在腾讯云的tke托管集群已经需要收费了，会有一些资源最大的限制，具体的限制说明可以参考文档https:那么集群的最大管理节点数量、最大 Pod 数量、最大 ConfigMap 数量、最大 CRD ...

标签: 集群技术

分享给朋友：

问答百科

Karmada跨集群优雅故障迁移特性解析

▍回顾：单集群故障迁移

▍集群故障判定

▍故障迁移过程

▍优雅故障迁移

▍总结

Copyright © 2024 问答百科网 All Rights Reserved.
蜀ICP备11000655号-9