当前位置: 首页 > 编程日记 > 正文

YARN集群维护部分问题汇总

云梯开发人员在云梯Yarn集群的搭建和维护过程中做了许多工作,本文选择这期间部分较为典型的问题,通过对这些问题的分析和解决方案,为大家分享分布式系统问题调查的经验。

调查的问题

1. 2013年初引入社区0.23时,调查ResourceManager运行过程汇总突然挂掉的问题

现象:监控报警,线上运行的RM突然挂掉,RM异常日志如下,

2012-12-17 17:20:28,294 FATAL org.apache.hadoop.yarn.server.resourcemanager.ResourceManager: Error in handling event type APP_REMOVED to the scheduler

java.lang.NullPointerException

at org.apache.hadoop.yarn.server.resourcemanager.scheduler.SchedulerApp.unreserve(SchedulerApp.java:390)

at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler.completedContainer(FairScheduler.java:590)

at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler.removeApplication(FairScheduler.java:546)

at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler.handle(FairScheduler.java:871)

at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler.handle(FairScheduler.java:80)=

at org.apache.hadoop.yarn.server.resourcemanager.ResourceManager$SchedulerEventDispatcher$EventProcessor.run(ResourceManager.java:340)

at java.lang.Thread.run(Thread.java:662)

处理方法:启动RM继续提供服务,记录bug,开始调查。

调查过程:社区暂无此问题,需要自己分析。

a.分析,查看异常之前的代码,还发现一些其他异常,Error in handling event type NODE_UPDATE to the scheduler,RM的调度器处理Node更新的时候出现NPE,根据异常和代码判断出在AppSchedulable#assignContainer中 在reserved=true的情况下,获取的container的priority和传入的priority不一致导致的。通俗的讲,就是调度器有预订机制,另外在分配资源的时候每个container都有优先级,如果一个应用有在一个NM上预订一个优先级为X的container,另外一个等待的container优先级为更高的Y,当这个NM发生心跳给RM说,可以向它调度一个container,这时调度器本想找一个优先级更高的Y调度到该节点上,却没有找到,导致NPE。

解决方案:调度器应该优先找一个已经预订在该节点上的container分配给该节点,其次才是选择高优先级的container。不过就在我们调查出并解决的时候Apache Hadoop社区也刚好遇到并提供解决方案,因此最终没有贡献给社区。

2. 调查某些情况下RM不调度的问题

现象:RM能接收提交的作业,但是集群中所有作业都无法被调度,日志也没有异常。

调查过程:Dump出RM的进程栈,发现RM处于死循环状态。查看死循环部分的代码,原因是 调度器每次分配一个container给NM,然后对app排序,继续下一次的分配,如果调度器只是把container预订到该NM上,调度器没有调度任务给该NM,对app排序,进行下一次分配,这样就RM进入了死循环,无法工作。

解决方案:如果把某个container预订到NM上,也应该认为分配了相应的任务,退出循环。贡献给社区,YARN-300。

3. 调查RM异常退出的问题

现象:监控报警,线上运行的RM突然挂掉,RM异常日志如下:

2012-12-30 17:14:17,171 FATAL org.apache.hadoop.yarn.server.resourcemanager.ResourceManager: Error in handling event type NODE_UPDATE to the scheduler

java.util.ConcurrentModificationException

分析过程:异常是两个线程同时对一个对象进行操作,一个线程有加锁,另外一个线程没有加锁,导致异常的出现。

解决方案:两个线程都在调用该对象前加锁。贡献给社区,YARN-301

4. 调查网页上显示FairScheduler调度资源不准确的问题

现象:RM网页上显示调度信息不准确,资源使用量越来越大,已经超过集群资源量(内存)。

原因:reserve的时候增加三次,unreserve的时候减少两次,导致数字越来越大。

解决:reserve与unreserve应该相对应,增加多少就得减少多少。社区也有相应的问题,暂未贡献给社区。

5. 客户端提交作业后一直hang着,没反应

现象:用户提交一个作业到RM的某个组,但是RM上配置这个组不接受这个用户作业,这时候客户端一直hang这没反应。

原因:原因是以为RM判断出不允许的作业时,没有做如何处理,导致客户端一直hang着。

解决:增加处理机制,返回给客户端相应的出错信息。贡献给社区 YARN-319。

还有一些RM挂掉的问题,社区刚好解决,我们直接引入,如

https://issues.apache.org/jira/browse/YARN-335 RM出现NPE挂掉

https://issues.apache.org/jira/browse/MAPREDUCE-4144 RM处理Node更新的时候出现NPE

6. 引入Cgroup使Yarn支持对CPU的调度和隔离。

问题:Spark应用是内存密集型,但是对CPU要求不高,而MPI对CPU要求多,只有内存的调度不够。

设计:社区提供的Cgroup,支持CPU的隔离和调度。引入这部分后,我们遇到一个比较严重的问题,它要求NM创建账户,这从运维角度上来说是不可行的,它的目的是为了安全性,但是对内部应用来说必要性不大,另外Cgroup对CPU的隔离不依赖多账户,因此通过修改一个container-executor.c,防止启动container的时候修改账户,而是使用一个统一的账户运行container,即能满足安全需要,又能减少运维人员的工作量。

7. MRApplicationMaster初始化性能优化

问题:MRApplicationMaster初始化很慢。

分析:通过调查发现慢在解析rack上,由于集群大,datanode多,MRApplicationMaster启动的时候会初始化map task,这时候会频繁调用解析脚本,导致初始化慢,严重影响作业的运行时间

解决方案:通过在每个NM上增加一个包含所有datanode的机器名和rack对应信息的文件,MRApplicationMaster启动的时候读取这个文件,防止频繁调用解析脚本,大大加快了作业初始化速度。

经验总结

Hadoop类似的分布式开源框架,出问题还是比较常见的,关键是出问题后如何解决,

a. 一般情况下首先到社区寻找类似的问题,如果已经解决则直接引入即可

b. 如果社区没有解决,那么就需要自己分析,如果是bug问题,则需要通过分析日志和代码,最好能在测试集群上重现相应的问题,若能重现,则通过远程调试或增加打印日志的方式分析相应的问题。找到原因后解决方案则是多种多样的,要结合自己的实际情况选择解决方案。

c. 如果是性能问题,则需要分析性能瓶颈,慢在哪一块,慢在哪一步,慢在哪行代码,多向自己提出这几个问题,则能一步步的定位性能瓶颈,然后就需要创新性的提出一些优化方案。

所以在分布式应用中,无论是bug调查还是性能问题,关键都在于定位原因,原因找到后解决才能确定解决方案。

转载于:https://www.cnblogs.com/shenh062326/p/3550794.html

相关文章:

linux系统管理及vim

1.管理输入输出 在linux系统中,正确输出的编号为1,错误输出编号为2 在系统中用普通用户执行 "student" find /etc -name passwd 因为student用户权限问题会有以下输出 find: ‘/etc/pki/CA/private’: Permission denied ##没有进入权力…

如何用 OS X 的 Xcode 写C语言程序

這篇是給新手看的。 如果你在 Windows 習慣使用 Visual C 或 Dev-C 的話,到了 Mac OS X 可能會突然不知道要怎麼寫程式,尤其當你已經用 Visual C 的 Debugger 用得很上手的話。 最近我們系上的課充滿了 C programming,我也稍微摸懂了 Xcode 的…

【转】初等数论 ——原根、指标及其应用

转自:http://blog.163.com/gc_chdch126/blog/static/172279052201641935828402/ 学习总结:初等数论(3)——原根、指标及其应用 2016-05-19 15:58:28| 分类: 信息学——学习总 | 标签:初等数论 数学 |…

互联网产品评论索引

这里收集一些评论文章,定期查看文章观点的正确性,索引持续更新中 网站前期如何获得推广资源 专访陶瑾:微信公众平台开发先行者转载于:https://www.cnblogs.com/needrunning/p/3000353.html

Apache服务器部署(1)

apache(web服务器)简介: Apache是世界使用排名第一的Web服务器软件。它可以运行在几乎所有广泛使用的计算机平台上,其跨平台和安全性被广泛使用,是最流行的Web服务器端软件之一。它快速、可靠并且可通过简单的API扩充&…

JavaScript关键字this指向

在js中this始终指向一个调用函数的那个对象 var a有种你干掉我啊; //纯粹调用函数 function test(){ console.log(this.a);//默认指向全局对象 } //test();//>windows.test() //作为对象的方法被调用 Function.prototype.logfunction(){ console.log(this.a); } //此时t为一…

项目开发过程中的收获与思考

2013年7月,我正式毕业了,到公司入职,也就正式成为了一名菜鸟程序员。到今天,2014年1月3日,目前主要的工作是公司一个项目中的一个功能模块,到我进入项目组算起,已经过了四个月了。因此&#xff…

【仿汽车之家】价格区间选择控件

仿照汽车之家iOS客户端“找车”栏目的价格区间选择控件,最终实现效果如下: 一、界面实现 *根据屏幕大小以及刻度的大小,宏定义需要用到的一些值 #define SCREENW [UIScreen mainScreen].bounds.size.width #define SCREENH [UIScreen mainScr…

Apache服务器部署(2)

签名CA证书 环境:server1:172.25.1.1 重置虚拟机 挂载yum源 [rootserver1 ~]# yum install mod_ssl -y //下载ssl模块 [rootserver1 ~]# yum install crypto-utils -y //安装加密软件 [rootserver1 ~]# genkey …

ASCII、Unicode、GBK和UTF-8字符编码的区别联系

一直对编码这块晕晕乎乎,今天终于看到一篇写的很清楚也很风趣的文章,转过来mark一下。 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们看到8个开关状态是好的&…

【iOS】快速集成轮播控件

自己写的一个轮播控件,初始化后只要实现两个数据源方法,几行代码就能快速集成,支持本地图片和网络图片,支持点击事件,可定制播放速度、指示器颜色/位置、默认加载图等,效果: 1.下载地址&#xf…

Hibernate中get方法和load方法的区别

一、get和load方法都是根据id去获得对应数据的,但是获得机制不同:如果使用get方法,hibernate会去确认该id对应的数据是否存在,它首先会去session中去查询(session缓存其实就hibernate的一级缓存),如果没有,…

DNS高速缓存

DNS相关资料: 1.什么是DNS DNS(Domain Name System域名系统) 是互联网上存储域名和ip映射关系的一个分布式数据库,它负责把域名转换成ip地址,或ip地址转换为域名。DNS运行于TCP/UDP的53端口上。 2.什么是高速…

将时间改为显示:几天前,几小时前,或者几分钟前

(原博客地址:http://blog.csdn.net/kenhins/article/details/38010811) 方法一: 个人做法是保存时间戳,然后在前端用jq插件做转换,比如 smart-time-ago ----------------------------------------------- 方…

支持placeholder和自适配高度的TextView控件

一.应用于项目的效果如下: 二.使用方法: 1.导入JXTextView.h头文件 2.初始化,并添加到view中: JXTextView *textView [[JXTextView alloc] initWithFrame:CGRectMake(10, 10, 200, 30)];textView.placeholder "请输入内容";tex…

ZOJ 3735 dp

http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode3735 好久没做DP题了,一开始没理解题目里的C(M,3)是干什么,原来就是组合,C M 取3,就等于n*(n-1)*(n-2)/6;题目里还有…

haproxy实现高可用及负载均衡

Haproxy简介: Haproxy是一个使用c语言编写的自由开发源代码软件,它提供高可用性、负载均衡、以及基于http和tcp的应用程序代理。Haproxy特别使用于那些负载特别大的web站点。Haproxy运行在当前的硬件上,完全可以支持数以万计的并发连接&#…

Apache转发到Tomcat

#vi /etc/httpd/conf/httpd.conf 添加下面配置 NameVirtualHost *:80 <VirtualHost *:80>ProxyPreserveHost OnServerName www.域名.comProxyPass / http://www.域名.com:8080/system/ErrorLog logs/error_logCustomLog logs/access_log common</VirtualHost> 作者…

.net基础问题

string sqlstr "select BranchCode,BranchName from t_sys_Branch where Jglx_DataDm{0} and IsVisible1"; sqlstr string.Format(sqlstr, departType); 上述代码运行之后 sqlstr"select BranchCode,BranchName from t_sys_Branch where Jglx_DataDmdepartTyp…

【iOS】NSDate分类,获得中国农历

1.说明&#xff1a; 参考网上代码写的一个分类&#xff0c;只需一句代码就可得到NSDate对象所对应的中国农历、星期。 2.使用方法&#xff1a; &#xff08;1&#xff09;导入分类头文件&#xff1a; #import "NSDateChineseDate.h"&#xff08;2&#xff09;NSDat…

LVS_NAT实现负载均衡

简介&#xff1a; 基于NAT机制实现。当用户请求到达director之后&#xff0c;director将请求报文的目标地址(即VIP)改成选定的realserver地址&#xff0c;同时将报文的目标端口也改成选定的realserver的相应端口&#xff0c;最后将报文请求发送到指定的realserver&#xff1b;…

自定义Push和Pop过渡动画

一、效果和源码 本文介绍如何实现一个NavigationController的自定义Push和Pop过渡动画&#xff0c;运行效果如下&#xff1a; 源码&#xff1a;https://github.com/dolacmeng/TransitionDemo 或http://download.csdn.net/detail/dolacmeng/9572384二、准备工作 首先&#xff0…

centos 安装 mysql 5.7

一&#xff0c;wget http://dev.mysql.com/get/mysql57-community-release-el6-8.noarch.rpm 二&#xff0c;yum localinstall mysql57-community-release-el6-8.noarch.rpm 三&#xff0c;yum install mysql-server 四&#xff0c;mysqld --initialize --usermysql 五&#xf…

c语言:婚礼上的谎言

/* 三对新人参加婚礼&#xff0c;三位新郎A,B,C,三位新娘X,Y,Z。 有人想知道谁与谁结婚&#xff0c;于是就问他们&#xff1a; A说他将和X结婚&#xff1b; X说他的未婚夫是C&#xff1b; C说他将和Z结婚。 这人时候知道他们都在说谎。编程求谁与谁结婚&#xff01; */ /* 思路…

redis主从复制、高可用和集群

redis简介&#xff1a; redis是一个key-value存储系统.和Memcached类似&#xff0c;它支持存储的value类型相对更多&#xff0c;包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hashs&#xff08;哈希类型&#xff09;;这些数据类型都支持push/pop、…

对学习编译原理的看法

我认为编译原理这本书是一门与代码做斗争的课程&#xff0c;学习编译原理能够追寻程序设计语言的本质&#xff0c;了解计算机各种语言编译的原理。学习了编译原理能够更加深入的了解计算机各种高级语言使用的原理&#xff0c;能使自己更加容易更加好的学习好程序语言&#xff0…

iOS提示气泡,带动画

1.效果如图&#xff1a; 从项目中抠出来的&#xff0c;做了简单的封装。 2.用法&#xff1a; //顶部提示HYNoticeView *noticeTop [[HYNoticeView alloc] initWithFrame:CGRectMake(50, 66, 250, 40) text:"这里可以查询全城婚礼人的档期哦&#xff01;" position:…

GIt/Github常用命令

1&#xff09;git init:初始化本地仓库 2&#xff09;创建文件&#xff1a;touch read.txt 3&#xff09;当操作本地的文件时&#xff0c;使用常用的命令&#xff0c;如&#xff08;mv&#xff0c;ls。。&#xff09;就可以操作&#xff0c;当操作暂存区的文件时需要在命令前家…

python练习题(python之“求一个数的阶乘并求结果中从后向前数第一个不为0(零)的数” 等)

实验环境&#xff1a;python2.7 题目1&#xff1a;python之“求一个数的阶乘并求结果中从后向前数第一个不为0(零)的数”程序&#xff1a; import math def factorial(n): #定义一个函数&#xff0c;返回一个数的阶乘 if n0: return 1 else: sumn*factorial(n-…

【动画1】UIView动画

讲一下动画。将分为以下5篇博客。 一&#xff09;UIView动画 二&#xff09;Layer动画 三&#xff09;3D动画 四&#xff09;转场动画 五&#xff09;第三方动画框架 相关代码&#xff1a;https://github.com/dolacmeng/AnimationDemo 参考资料&#xff1a;iOS Animation…