当前位置: 首页 > 编程日记 > 正文

调度框架学习笔记(3)—— 集群调度框架的架构演进过程

本章是 The evolution of cluster scheduler architectures 文章的学习笔记。这篇文章讨论了这些年调度架构是如何发展的以及为什么会这样发展。

首先介绍一下这篇文章的作者:Malte Schwarzkopf,他目前在 MIT 的 PDOS实验室 作博士后,说起作者的这个名字可能有点陌生,但是提起 Google 的集群管理系统 Omega 应该很多人都知道,Omega 这篇文章,就是Malte 在谷歌实习时发表的。

2016 年他和 Ionel Gog 一起在 OSDI 上发表了一篇文章:《Firmament: fast, centralized cluster scheduling at scale》,这份工作也是和谷歌一起合作的,目前Kubernetes也开始拥抱这个工作。

这篇文章讨论了这些年调度架构是如何发展的以及为什么会这样发展。图一展示了集群调度的不同方法:其中灰色的方块对应一个机器,不同颜色的圆圈代表不同的任务,有“S”标志的圆角矩形代表调度器(这个图简化了一些,实际上,每台机器运行多个任务,许多调度器适合多个资源纬度的任务,而不是简单的slots),箭头代表调度器决定的作业放置位置,三种颜色代表不同的工作负载(如网站服务、批量分析和机器学习)。

1545754113511

3.1 中心化调度框架

许多集群调度框架,例如大量高性能计算(high-performance computing,HPC)调度器、 Borg 调度器、各种早期的Hadoop调度器和Kubernetes调度器都是中心化设计的调度框架。单一的调度进程在一台机器上运行(例如Hadoop V1的JobTracker、Kubernetes的kube-scheduler),调度器负责将任务指派给集群内的机器。在中心化调度框架下,所有的工作负载都是由一个调度器来处理,所有的作业都通过相同的调度逻辑来处理(如图)。这种架构很简单并且统一,在这个基础上发展出了许多复杂的调度器。比如Paragon调度器和Quasar调度器,它们使用机器学习的方法来避免负载之间因互相竞争资源而产生的干扰。

1545754150046

现在大部分的集群都运行着不同类型的应用(相反,如Hadoop MapReduce的早期作业)。然而,维护一个处理混合负载的单一调度器是一个很棘手的问题,原因如下:

  1. 希望调度器能区别处理长期运行的作业和批处理作业,这是一个合理的请求。
  2. 因为不同的应用有不同的需求,若要全部满足其需求则需要不断在调度器中增加特性,这样增加了它的逻辑复杂度和部署难度。
  3. 调度器处理作业的顺序变成了一个问题:队列效应(例如头阻塞:head-of-line blocking)和作业积压是一个问题,除非在设计调度器时非常小心。

总之,这些听起来是工程师的噩梦,调度器维护者会不断收到往调度器中添加特性要求的清单。

3.2 两级调度架构

两级调度框架通过将资源调度和作业调度分开的方式来解决这个问题。两级调度允许根据特定的应用来定做不同的作业调度逻辑,并同时保留了不同作业之间共享集群资源的特性。Mesos集群管理系统首先使用了两级调度的方法,Yarn则支持其有限的版本。在Mesos中,资源是主动被提供给应用层的调度器来使用的(调度器可以从下层提供的资源中进行选择),而Yarn则是由应用层来请求资源(并且接受被分配的资源)。如图所示,适用于特定负载的调度器(S0-S2)与资源管理器进行交互,资源管理器则为每个负载动态划分集群的资源。这是一个非常灵活的方式,它允许针对特定负载来自定义调度策略。

1545754188364

但是,两级调度框架也有一些问题。应用层调度器无法看到所有的资源,也就是说,它们没有全局视角,无法看到作业可以被放到哪些机器上执行。相反,它们只能看到资源管理器主动提供的资源(Mesos)或者资源管理器分配给应用(Yarn)的部分资源。这样的设计有几点缺点:

  1. 高优先级抢占(高优先级作业会踢走低优先级作业)会变得很难实现。在基于 offer 的模式下,被运行中作业所占用的资源对上层调度器是不可见的;在基于 request 的模式下,底层的资源管理器必须能理解抢占的策略(这可能与应用程序有关)。
  2. 调度器无法考虑到因其他运行的工作负载造成的干扰可能影响到资源的质量(比如“吵闹的邻居”占据了 I/O 带宽),因为调度器无法看到它们。
  3. 应用特定的调度器对底层资源的很多不同方面很关心,但是它们获得资源的唯一方法就是通过资源管理器提供的 offer/request 接口,这个接口很容易变得非常复杂。

3.3 共享状态调度架构

共享状态调度通过半分布式的模式来解决这个问题,在这种模式下应用层的每个调度器都拥有一份集群状态的副本,并且调度器会独立地对集群状态副本进行更新,如图所示。一旦本地的状态副本产生了变化,调度器会发布一个事务去更新整个集群的状态,有时候因另外一个调度器同时发布了一个冲突的事务时,事务更新有可能失败。

1545754229408

在共享状态调度的框架中,最著名的是Google的Omega、Microsoft的Apollo,以及Hashicorp的Nomad容器调度器。所有的这些都是使用一种方法实现共享状态调度,就是Omega中的“cell state”、Apollo的“resource monitor”以及Nomad中的“plan queue”。Apollo跟其他两个调度框架不同之处在于其共享状态是只读的,调度事务是直接提交到集群中的机器上,机器自己会检查冲突,来决定是接受还是拒绝这个变化,这使得Apollo即使在共享状态暂时不可用的情况下也可以执行。

逻辑上的共享状态调度架构也可以不通过将整个集群的状态分布在其他地方来实现,这种方式(有点像Apollo做的)中,每台机器维护其自己的状态并发送更新的请求到其他对该节点感兴趣的代理,比如调度器、设备健康监控器和资源监控系统等。每个物理设备的本地状态都成为了整个集群的共享状态的分片之一。

然而,共享状态调度架构也有一些缺点,它必须工作在有稳定信息的情况下(这点跟中心化调度器不同),在集群资源的竞争度很高的情况下有可能造成调度器的性能下降(尽管其他框架也有可能出现这种情况)。

3.4 全分布式架构

全分布式架构更加去中心化:调度器之间根本没有任何的协调,并且使用很多各自独立的调度器来处理不同的负载,如图所示。每个调度器都作用在自己本地(部分或者经常过时的)集群状态信息。在分布式调度架构下,作业可以提交给任意的调度器,并且每个调度器可以将作业发送到集群中任何的节点上执行。与两级调度调度框架不同的是,每个调度器并没有负责的分区,相反的是,全局调度和资源划分都是服从统计和随机分布的,与共享状态调度架构有些相似,但是没有中央控制。

1545754299836

尽管全分布式调度架构的概念(多个随机选择)是从1996年出现的,现代意义上的分布式调度应该是从Sparrow论文开始的。Sparrow论文的关键是它假设集群上任务周期都会变的越来越短,这点是以当时一个讨论作为支撑的:细粒度的任务有很多的优势。因此作者假设作业会变得越来越多,这意味着调度器必须支持更高决策的吞吐量,而单一的调度器并不能支持如此高的吞吐量(假设每秒有上百万个任务),因此Sparrow将这些负载分散到很多调度器上。

这个实现的意义重大:缺少中央控制在理论上很吸引人,并且非常合适某些负载,我们会在后面的连载中进行讨论。目前,我们注意到因为分布式调度器是不协调的,它相对于中心化调度、两级调度或共享状态调度拥有更简单的逻辑,例如:

  1. 分布式调度器是基于简单的“slot”概念,将每台机器分成n个标准的“slot”,并放置n个并行作业,这简化了任务的资源需求不统一的事实。
  2. 它使用了拥有简单服务规则的worker-side队列(例如,Sparrow中的FIFO规则),这样限制了调度器的灵活性,因为调度器只能选择将作业放置在哪台设备的队列上。
  3. 分布式调度器很难执行全局不变量(例如公平策略和严格的优先级优先),因为它没有中央控制。
  4. 因为分布式调度器是基于最少知识做出快速决策而设计,它无法支持或承担复杂或特定应用的调度策略,例如,避免任务之间的相互干扰对分布式调度来说很困难。

3.5 混合式调度架构

混合式调度架构是最近(学术界提出的)提出的解决方法,它的出现是为了解决全分布式架构的缺点,它结合了中心化调度和共享状态的设计。这种方式例如Tarcil、Mercury和Hawk一般有两条调度路径,一条是为部分负载设计的分布式调度(例如非常短的作业或者低优先级的批作业),另外一条是中心式作业调度来处理剩下的负载,如图1e所示。混合调度器的每个组成部分的行为与上述描述的部分架构相同。实际上,据我所知,目前还没有真正的混合调度器应用于生产环节当中。

1545754338254

3.6 小结

对不同调度器架构的相对优缺点的讨论并不只是学术探讨,尽管它自然围绕着研究论文。从工业界角度对于Borg、Mesos和Omega论文的深入讨论可以参见Andrew Wang的博文。此外,很多以上讨论的系统都已经部署到大型企业的生产系统中了(比如Microsoft的Apollo、Google的Borg、Apple的Mesos),反过来这些系统激励了其他可用于开源的项目。

如今,很多集群运行容器化的负载,因此有一系列基于容器的框架(Orchestration Frameworks)出现,它们与Google和其他称为“集群管理系统”的很相似。然而,很少有关于这些调度器的框架和设计原则的详细讨论,它们更多的是集中于面向用户调度的API(例如这篇Armand Grillet的报道,文中比较了Docker Swarm、Mesos/Marathon和Kubernetes的默认调度器),然而很多客户既不懂不同调度器的区别,也不知道哪个更适合自己的应用。

图2展示了一部分开源框架的概况,包括它们的结构和调度器所支持的功能。在图表的最底端,也包括Google和Microsoft没有开源的系统作为参考。资源粒度(Resource Granularity)这一列展示了调度器是分配作业给固定大小的slots,还是按照作业多维度的资源需求来分配的(例如CPU、内存、磁盘IO带宽、网络带宽等)。

1545754379941

决定使用哪个调度框架主要的一点就是看集群中是否运行一个异构(例如混合的)负载。例如一个前端服务(例如负载均衡或memcached)和批量数据分析作业(例如MapReduce或spark)相结合的生产环境,这种组合有利于提高系统的资源利用率,但是不同的应用对调度的需求有所不同。在作业混部的情况下,中心化调度可能导致任务的次优分配,因为不能基于单个应用进行逻辑的多样化处理,因此在这种情况下,两级调度和共享状态调度可能更加合适。

大多数面向用户服务的负载运行在资源能满足峰值需求的容器中,但是实际上这些资源都是过度分配的,在这种情况下,能有机会降低给低优先级负载过多分配资源(能继续保证负载的QoS)对提高集群的效率是非常关键的。尽管kubernetes拥有相对比较成熟的方案,Mesos是目前唯一支持这种过多分配资源的开源系统。我们期待未来在这个方面有更多的工作,因为根据Google的Borg集群来看很多集群的利用率依然低于60-70%。在后续的文章中,我们将关注资源预估、过度分配和有效提高机器的资源利用率。

最后,特定的分析和OLAP应用(例如Dremel或者SparkSQL Queries)会从全分布式调度器受益,然而,全分布式调度器(如Sparrow)有严格的功能设置,因此当集群的负载是同构(比如所有作业的运行时间是大概相同的)、配置时间短(也就是任务能被调度到长时间运行的worker上,例如MapReduce作业在YARN中运行)、任务通量高(大部分调度的决定必须能在短时间内做出)时非常合适。我们将在接下来的文章中讨论这些条件,并且讨论为什么全分布式调度器和混合式调度器中的分布式组件只对这些应用有效。现在,我们可以证明分布式调度比其他调度框架更加简单,但是不支持多维度的资源、过度分配和重新调度。

总之,图2中的表格表明对于开源的调度框架依旧有一段路要走,直到它们能匹配一些高级的配置。可以从以下几个方面来采取行动:功能缺失、资源利用率低、作业的性能不可测和“吵闹的邻居”降低效率,并且需要将elaborate hacks加入到调度器中来支持用户的需要。

然而,这里有一些好消息:尽管今天还有很多集群仍然使用中心化调度,但是大部分已经开始迁移到更灵活的设计中。Kubernetes今天已经可以支持调度器插件(kube-scheduler pod可以被其他兼容调度pod的API所替代),更多调度器从1.2版本开始支持“扩展器”来提供定制化策略。据我了解,Docker Swarm在未来可能也会支持调度器插件。

附录:参考资料

集群调度框架的架构演进过程

转载于:https://www.cnblogs.com/zhance/p/10177135.html

相关文章:

查缺补漏 | Python自定义函数

1 默认参数要放在自定义函数参数列表的最后,也就是说下面的定义是不允许的 2 调用函数时熟悉的是位置参数,但是也可以用关键字参数,也就是调用时把参数名写出来(可以通过它来改变参数的顺序)。不过貌似系统定义的函数不能用关键字参数&#x…

ZBar与ZXing使用后感觉

[原]ZBar与ZXing使用后感觉(上) 2014-3-18阅读2011 评论1 最近对二维码比较感兴趣,还是那句老话,那么我就对比了一下zxing和zbar 如果对于这两个的背景不了解的话,可以看我以前的文章,介绍了几个比较基础的…

X-UA-Compatible

X-UA-Compatible是IE8的一个专有<meta>属性&#xff0c;它告诉IE8采用何种IE版本去渲染网页&#xff0c;在html的<head>标签中使用。可以在微软官方文档获取更多介绍。 在IE8刚推出的时候&#xff0c;很多网页由于重构的问题&#xff0c;无法适应较高级的浏览器&a…

[转]【 视频 】PAR、DAR和SAR都是啥

原地址:http://blog.yikuyiku.com/?cat3 PAR —— Pixel Aspect Ratio 像素纵横比DAR —— Display Aspect Ratio 显示纵横比SAR —— Sample Aspect Ratio 采样纵横比 16&#xff1a;9和4&#xff1a;3指的是DAR&#xff0c;DAR和SAR之间没有必然联系。横向上的像素数目/纵向…

登高自卑 | 我的NumPy笔记

注&#xff1a;以下内容来自NumPy中文网 1 NumPy的矢量化和广播两个特征是大部分功能的基础。 矢量化让代码更接近标准的数学符号&#xff0c;更Pythonic&#xff0c;隐藏了所有的显示循环(幕后是C在做显示循环)。 广播即操作的隐式逐元素行为&#xff0c;不仅仅局限于算数运…

TI IPNC Web网页之网页修改教程

web网页程序修改 打开gStudio之后&#xff0c;点击菜单栏中Help->Contents。先把这个诡异的编程语言看一遍吧。这里搬一些东西出来。 GoDB简介 从第一副图片中&#xff0c;我们可以看出&#xff0c;从源文件到可执行文件的过程。 从第二幅图我们可以了解到GoDB是如何跨平台的…

Spring Cloud构建分布式电子商务平台:服务消费(基础)

使用LoadBalancerClient在Spring Cloud Commons中提供了大量的与服务治理相关的抽象接口&#xff0c;包括DiscoveryClient、这里我们即将介绍的LoadBalancerClient等。对于这些接口的定义我们在上一篇介绍服务注册与发现时已经说过&#xff0c;Spring Cloud做这一层抽象&#x…

OPENGL ES 对象的拾取

时间&#xff1a;19:51 2010-12-14 用户问题的说明 响应鼠标操作&#xff0c;其当中有一个非常重要的知识&#xff1a;使用鼠标点取&#xff0c;达到对三维模型对象的捕捉。 对象的拾取&#xff0c;这是3D当中的一个专业术语。也就是在二维屏幕当中选择三维对象。 我们要使用之…

如何禁止NumPy自动跳过数组的中心部分并仅打印角点

import numpy as np import sys np.set_printoptions(thresholdsys.maxsize)

用C#创建Windows服务(Windows Services)

转载自 hyslove最终编辑 hysloveWindows服务在Visual Studio 以前的版本中叫NT服务&#xff0c;在VS.net启用了新的名称。用Visual C# 创建Windows服务不是一件困难的事&#xff0c;本文就将指导你一步一步创建一个Windows服务并使用它。这个服务在启动和停止时&#xff0c;向一…

JS判断滚动条到底部

form:http://www.uphtm.com/js/269.html判断滚动条到底部&#xff0c;需要用到DOM的三个属性值&#xff0c;即scrollTop、clientHeight、scrollHeight。 scrollTop为滚动条在Y轴上的滚动距离。 clientHeight为内容可视区域的高度。 scrollHeight为内容可视区域的高度加上溢出…

docker容器网络 - 同一个host下的容器间通信

2019独角兽企业重金招聘Python工程师标准>>> 对于复杂的应用&#xff0c;不可避免需要多个服务部署在多个容器中&#xff0c;并且服务间存在相互间通信的情况。比如服务A需要连接mysql的容器。本文将介绍docker的容器网络&#xff0c;并通过实践解决在同一个docker …

登高自卑 | 我的PyTorch入门与实践笔记

1 函数名后带下划线会修改函数本身。如y.add_(x)会改变张量y。 2 PyTorch的Tensor和NumPy中的ndarray是可以互相转换的&#xff0c;转换后的对象共享内存(一个变另一个也跟着变)。

234. Palindrome Linked List - Easy

Given a singly linked list, determine if it is a palindrome. Example 1: Input: 1->2 Output: false Example 2: Input: 1->2->2->1 Output: true Follow up:Could you do it in O(n) time and O(1) space? 找中点&#xff0c;反转后半部分&#xff0c;再一一…

Hibernate 获取某个表全部记录时 奇怪现象 (重复出现某个记录)

我用Hibernate连接access的mdb 列出某个表全部记录的时候&#xff0c;发现有一个记录重复了。而直接用jdbc连接&#xff0c;就可以正确列出来。 本来还以为mdb不稳定&#xff0c;还吓了我一跳。毕竟打算用它作为长久数据库嘛~~ 分析了一下&#xff0c;发现正好重复的数据的主键…

iOS7导航栏和状态栏的定制

http://www.cocoachina.com/applenews/devnews/2013/1104/7287.html 转载于:https://www.cnblogs.com/luningning0901/p/4437190.html

2021年浙软夏令营预推免面经

夏令营 时间&#xff1a;七月中旬 参加人工智能分营&#xff0c;为期两周&#xff0c;评分标准&#xff1a;简历上课参与情况项目完成情况(具体占比不明)。 项目是完成三个深度学习模型&#xff0c;系统根据测试用例的通过情况评分。 预推免 时间&#xff1a;九月下旬 评…

ext前后台数据传输的标准化

一、标准化的数据传输是什么 这里所说的标准化主要是指&#xff0c;使用代理提交数据时&#xff0c;格式必须统一化、标准化&#xff0c;而服务器返回的数据格式也必须是标准化的数据。 简言之&#xff0c;使用代理提交数据时&#xff0c;前台--->后台&#xff0c;后台---&g…

对称加密解密类c#

namespace EncryptDLL{ #region 对称加密类 /// <summary> /// 对称加密解密类 /// </summary> public static class SymmetricEncryptClass { #region 对称加密代码 /// <summary> /// 对称加密方法 /// <…

java代码完全手写模仿qq登录界面

这是我模仿QQ2015版界面&#xff0c;实现的基本功能有登陆验证&#xff0c;重置等&#xff0c;当然直接复制代码运行是不一样的&#xff0c;还要注意自己插入自己的图片。 结果截图如下所示&#xff1a; import java.awt.BorderLayout;import java.awt.Color;import java.awt.F…

Vue3 计算属性的特性

computed:里面的方法 仅当依赖的值发生变动时&#xff0c;才会重新进行计算 这样一来解决的是性能问题 而methods里面的方法&#xff0c;哪怕无关值发生变动&#xff0c;也会重新进行计算 下面是两组对比 1-通过distance()计算属性来计算路程 2-通过getDis()方法计算路程…

解读源码中的问题

1.HashMap 构建中如何保证容量为 2 的幂次方 static final int tableSizeFor(int cap) {int n cap - 1;n | n >>> 1;n | n >>> 2;n | n >>> 4;n | n >>> 8;n | n >>> 16;return (n < 0) ? 1 : (n > MAXIMUM_CAPACITY) ?…

User Profile Data Web Part 读取属性字段

User Profile Data Web Part Property NameDisplay NameUserProfile_GUIDIdSIDSIDADGuidActive Directory IDAccountName帐户名FirstName名字SPS-PhoneticFirstName拼音名LastName姓氏SPS-PhoneticLastName拼音姓PreferredName名称SPS-PhoneticDisplayName拼音显示姓名WorkPho…

Linux 环境变量配置

linux 环境&#xff0c;用户通过shell 操作时&#xff0c;系统会为用户初使化环境变量&#xff0c; 比如系统公共资源路径: path , include , bin 等目录。 shell 模式下&#xff0c;执行 export &#xff0c; 查看用户环境变量 , echo $key 查询某个环境变量。设置环境变量&am…

Android 自定义View之3D骰子旋转

你可以指定立方体中每一面骰子的点数&#xff0c;颜色和背景&#xff0c;同时也可以指定执行的动画时间和动画插值器 更多有趣的view 使用 在根目录的build.gradle添加这一句代码&#xff1a; allprojects {repositories {//...maven { url https://jitpack.io }} } 复制代码在…

职业生涯的考虑

职业核心价值&#xff1a;活的有价值&#xff0c;有意义 第一阶段&#xff1a;技术&#xff08;27:2012&#xff5e;30:2015&#xff09;&#xff1a;移动互联网 第二阶段&#xff1a;销售或者管理&#xff08;30:2015&#xff5e;35:2020&#xff09;&#xff1a;成熟公司 第三…

算法的sound和complete

stackoverflow的答案 Soundness and Completeness of a algorithm stackexchange的答案 What does it mean to say an algorithm is Sound and Complete?

ArcGIS API for Silverlight 入门学习笔记(三):基础地图实例

该实例主要是包含六部分&#xff1a;地图范围、坐标、动画效果、全屏、比例尺、进度条。 前期准备工作 前台代码0 <UserControl x:Class"APIforSilverlightSamp.s2" xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation" xmlns:x"ht…

BZOJ 4009 接水果

Description 风见幽香非常喜欢玩一个叫做osu!的游戏&#xff0c;其中她最喜欢玩的模式就是接水果。 由于她已经DT FC了The big black, 她觉得这个游戏太简单了&#xff0c;于是发明了一个更加难的版本。首先有一个地图&#xff0c;是一棵由\(n\)个顶点、\(n-1\)条边组成的树。这…