当前位置: 首页 > 编程日记 > 正文

持续集成之“自动化部署”

转自:http://www.infoq.com/cn/news/2011/07/ci-automatic-deployment

前文《依赖管理》中,我们讨论了如何在代码变得庞大,组件增多的情况下,做好外部库和内部组件依赖管理,从而提高构建效率。可以应用的实践包括:一次生成,多次复用;建立统一制品库,外部依赖库可以使用像Maven或Ivy这样的工具进行统一管理;对架构进行调整,使一个大的代码库分成多个组件;每个组件有自己的持续集成体系;对多个组件做持续集成。然而,解决一个问题后,总会有另一个问题等在那里,需要你来解决。这次Joe的团队遇到了部署问题。

星期一早上,Alice一进办公室,就看到一脸倦意的Joe坐在椅子上,喝着咖啡。

“今天怎么来得这么早?看样子,你没睡好啊?”Alice问道。

“当然啦,昨天晚上我就来了。”Joe无精打采地回答道。

“怎么啦?”

“还不是因为新版本上线出了点儿问题”,Joe说道。“看来我们要把部署这件事好好讨论一下,再这样下去,不只我要来,你们也要和我一样啦!呵呵!”

当天下午,Joe邀请了运维团队的主要负责人Tom和Steven,召开了一个关于部署问题的讨论会。

Joe说道:“先请运维部门的Tom介绍一下上周末的新版本上线过程和发现的问题吧。”

Tom描述了上线部署全过程。

不可重复且不可靠、易出错的手工部署过程

  1. 当新版本开发测试完成后,由开发团队的成员在浏览器上登录运维平台,填写上线申请单。申请单的内容包括新版本的上线部署步骤。
  2. 测试人员为了保证能够升级部署成功,首先要复制生产环境中的程序和数据到本地的测试环境中,然后根据上线申请单中所描述的上线部署步骤进行操作,对上线步骤进行验证。
  3. 运维人员登录到运维平台,收到上线申请单后,确认“已收到”。
  4. 运维人员发现上线部署步骤有问题,生产环境的路径与上线部署步骤中描述的不一致。于是与开发人员进行沟通,让开发人员修改上线部署步骤。
  5. 开发人员修改后,再次通知测试人员和运维人员查看并确认。
  6. 确认无误后,运维人员根据部署计划,登录到生产环境中,依照上线部署步骤,手工操作完成。

“上周末上线部署时出现的情况是:在本次部署之前,我们的集群中,有两台机器因HotFix,其程序配置被修改过,与其它机器不一致。因此,该机器上的部署失败,导致部分服务不可用。运维人员查了很长时间没有发现问题,星期日打电话把Joe叫来帮助我们查问题时,Joe才回忆起有那么一次HotFix,但当时负责的运维人员已经离职,没人其它运维人员知道这件事情。”Tom说道,“我们对问题进行了分析,认为应该加强我们的上线流程管理,对于那种HotFix也应该发起一个审批流程,并且在该流程中不但要主要负责人审批,而且要对相关人发出周知通报。另外,我们的运维人员应该对上线单进行严格审核,并对部署中所涉及的机器进行更详细的验证,对生产环境中的任何修改都要进行登记。即使非常紧急,也要在事后补充记录一下。”

“这些方法固然很好,但其实我们可以采用更好的办法来解决。”Joe接着说到,“假如我们在部署运维工作也能够借鉴持续集成的做法,利用一些最佳实践,那么这次部署事故根本就不会发生。比如(1)将部署操作脚本化;(2)进行持续部署验证测试;(3)部署脚本通用化,环境变量等使用配置方式传入;(4)让测试环境尽可能与生产环境一致,至少在成本条件允许的情况下尽量保持相似;(5)对环境配置进行版本控制;(6)任何人不得直接对生产环境进行直接的手工操作,等等。”

将部署操作脚本化,并进行部署验证测试

Bob说道:“嗯,其实那些上线步骤中所描述的内容都可以进行脚本化,之前也讨论过这一问题。目前上线步骤中的内容基本都可以写成自动化脚本,即使现在不行,也可以通过少量改造,使其可以自动化。但问题是... ...”Bob犹豫了一下,接着说道,“如何来验证这些脚本是正确的呢?”

Joe 说道:“保证运维人员是如何验证上线申请单上的上线步骤是正确的呢?同样,我们也可以做一些部署验证就行了。这些部署的验证也可以通过脚本方式来进行,比如在安装之前验证程序所用端口没有被占用,安装之后验证该端口已被该程序所使用;比如安装之前验证程序日志中记录了该程序已停止运行,在安装之后验证程序日志中刻录该程序已重新启动;等等”。

Alice问道:“那我们还要调试这些部署脚本呀?没有线上生产环境,我们怎么调试呢?”

各类环境尽可能相似,并使部署脚本通用化

Joe 回答道:“首先我们应该加强基础设施这方面的投入。在力所能及的情况下,让测试环境与生产环境相似。比如,生产环境可能有100台机器的集群,那我们至少要找两台机器的集群做测试环境。生产环境中使用Tomcat,我们的测试环境和开发环境中也应该使用相同的Tomcat,而不用Jetty。”

Joe 停下来,喝了一口咖啡,接着说道:“这样一来,我们的部署脚本就可以在开发环境、测试环境进行测试了。当开发人员进行本地测试时,可以使用这个脚本进行单机的部署。当测试人员进行集成测试时,可以使用同样的脚本进行多机部署。与机器数量无关的配置可以统一放在某配置文件中。而与机器数量等相关的配置可以放在另外的配置文件中。由于在真正上线部署之前,开发人员和测试人员已经使用同一个脚本进行多次部署,就是对该脚本进行的测试。当我们上线部署时,只有与机器相关的配置文件会有变化,其它配置基本相同,所以上线部署时脚本出错的几率已经比较小了。而且,这种自动化没有人工干预,也不会发生手工误操作。”

Tom问道:“那这些脚本由谁来写?由谁维护呢?”

Joe回答道:“谁最了解情况,就由谁来写。其实,我们也应该像对待产品代码一样,来对待这些脚本和配置文件,把它们放在我们的代码库里,进行版本控制。无论是运维人员还是开发人员,或者测试人员,对这些脚本的修改都应该提交到版本控制库中,除非他所做的修改只是为了测试他自己在本地的程序,那就不用提交了。这样一来,‘谁在什么时候对什么进行了修改,为什么做修改?’这个审计问题就可以直接由版本控制系统来回答,也就做到了所有内容可追踪了。”

对环境管理进行版本控制,杜绝对生产环境的手工直接修改

“听上去,对于配置文件、脚本等进行版本管理的确是解决了运维部署的很多问题。但如何对环境管理进行版本控制呢?”Tom问道。

Joe想了想,说道:“环境管理比较复杂。一般来说,环境包括几个层次,包括硬件及网络配置、操作系统、我们的应用程序所依赖的软件堆栈及其配置、以及我们的应用程序运行时所需的数据及其配置。目前对我们来说,对于硬件及网络配置、操作系统这两层来说,有两种方式进行管理。一种是利用一些专用软件进行自动化的远程配置,即只要给机器加电,就可以通过一些技术对一台机器进行系统的安装与配置。另一种是使用虚拟化技术来进行系统配置管理。对我们现在的游戏平台来说, 使用后者即可。只要将基本的环境做成虚拟机镜像文件,并将其作为环境基线进行版本管理。当然,由于镜像通常较大,所以最好不要使用常见的版本控制工具(如subversion,Git等)进行,而使用某种简单的机制即可。”

Joe停了一下,看看大家没有提问的意思,于是接着说道:“至于基于其上的软件堆栈及堆栈中各软件的配置管理完全可以利用类似于CfEngine,Puppet或Chef的工具进行。这些软件环境管理工具 都提供某种领域专属语言来描述软件堆栈配置,并保存在文本文件中。这些工具一般通过服务器/客户端的工作方式运行,客户端向服务器发送请求,验证本机器节点的软件配置是否与服务器中的设置相符,如果不符,就会自动更新。尤其重要的是,这些更新操作都是幂等的,即无论这些配置在该客户机上执行多少遍,每次的结果状态都是相同的。另外,它们通常能与版本控制工具集成。所以,只要将我们的软件堆栈配置管理信息放到版本控制库中,就可以同时管理数台机器。”

“oh, 对不起,Joe,我想打断一下,”Tom问道:“你能画一个图来解释一下你刚才所说的这种软件环境配置管理工具吗?”

“当然没问题。”Joe拿起笔在白板上画了一个Puppet的工作示意图,如下图所示。

“看上去清楚多啦。”Tom笑道,“通过这种方式,我们就只需要将版本控制库中保存的配置信息检出到本地,进行相应的修改,再提交到版本控制库中,这种工具就会自动帮我们完成必要的配置更新了。是这样的吗?”

“对,”Joe点了点头,说道,“如果我们的部署脚本也是通过这种方式来做的,那么我们就根本没有必要登录到生产环境的机器上,进行手工操作了。而且,Puppet还提供一种Try Run功能,可以进行配置变更的模拟,让你能够对比一下变更前后的不同之处。”

Tom说道:“你说的这些听上去都不错。但并不是所有人都能够修改生产环境的配置信息的。所以我们还是需要一个软件平台来管理上线的申请审批流程。”

“在任何企业中,这种申请审批流程和生产环境变更的授权都是必要的,但这仅仅是审核流程的操作。而真正与软件部署相同的具体操作都不应该在这种审批流程当中。”Joe回答道。

Tom接过话来,说道:“嗯,这样的话,我们仍旧能够做到:有权限的人才能真正修改生产环境的配置文件,同时达到了无人真正直接操作生产环境的目的,避免了手工误操作带来的问题。”

参加本次会议的测试人员和运维人员对这种做法产生了浓厚的兴趣,并要求开发人员给予配合,将目前游戏平台的部署自动化。Tom说道:“这就是我们运维工作的一个方向。让枯燥易出错的重复性手工操作变成受控的自动化,从而解放运维人员,让我们可以关注于更加有价值的运行监控等工作中。”

Alice说道:“这看上去还是有一定的工作量啊。”

“当然,我们可能需要做一些工作,但我想这些投入是值得的。”Joe回答道。“同时,还需要各种角色之间更紧密的配合,而不是像之前那样,通过一个代表上个世纪八十年代先进技术的办公自动化平台来描述部署上线步骤这类关键的业务操作信息。”

Tom也点了点头,说:“嗯,应该使用版本控制方式。但我们还是需要一个上线审批的流程,只不过,这个流程中不再保存上线步骤这类与实际部署相关的业务信息,而只是为了部署人员的资格审核与信息周知的目标。”

经过一番讨论,开发、测试和运维团队在这件事情上达成了一致,并按计划开始实施了。

转载于:https://www.cnblogs.com/itech/archive/2011/08/01/2123356.html

相关文章:

1008: [HNOI2008]越狱(计数问题)

1008: [HNOI2008]越狱 Time Limit: 1 Sec Memory Limit: 162 MBSubmit: 11361 Solved: 4914[Submit][Status][Discuss]Description 监狱有连续编号为1...N的N个房间,每个房间关押一个犯人,有M种宗教,每个犯人可能信仰其中一种。如果相邻房间…

他山之石:Github的使用

一.awesome 关键字 搜索和关键字匹配的优秀项目 awesome springboot 搜索优秀的springboot相关的项目,包括框架、教程等 二.通过in关键词限制搜索范围 xxx in:name 项目名包含xxx的 xxx in:description 项目描述包含xxx的 xxx in:readme 项目的readme文件中包含x…

【java】兴唐第二十节课(Collection 和 ArrayList)

(一)Collection 1、如果实现 --able 名称的接口则证明该类或其子类有该功能 (1)实现Iterable接口代表具有迭代功能 (2)实现Cloneable接口代表具有克隆功能 (3)实现Serializable接口代表具有序列化的功能 …

服务器系统架构分析

我目前的nginx配置是拆散的,这样可以便于在很多个虚拟主机和目录里重用部分配置。 总体是划分为这样一个结构: conf/conf/nginx.confconf/proxy.confconf/rewrite.confconf/location.confconf/port.confconf/upstream.confconf/servers/conf/servers/www…

SharePoint SiteCollection 和SubWeb之间的迁移

因为各种不同的原因,项目里可能碰到需要将一个Site Collection迁移为一个子站点的情况。 实现这种需求只能用 内容部署功能中的导出和导入〉 SiteCollectoin to sub web 示例: cd C:\Program Files\Common Files\Microsoft Shared\web server extensions…

20154312曾林 - Exp1 PC平台逆向破解

1.逆向及Bof基础实践说明 1.1-实践目标 对象:pwn1(linux可执行文件)目标:使程序执行另一个代码片段:getshell内容: 手工修改可执行文件,改变程序执行流程,直接跳转到getShell函数。利…

web App libraries跟referenced libraries的一些问题

该博文内容经参看网上其他资料归纳所成,并注明出处: 问题一:myeclipse中Web App Libraries无法自动识别lib下的jar包(http://blog.csdn.net/tiancai1202000/article/details/49178721) myeclipse,lib中的ja…

无法在数据库 'ycmis2' 中运行 BEGIN TRANSACTION,因为该数据库处于回避恢复模式。...

alter database ycmis2 set EMERGENCY alter database ycmis2 set online 转载于:https://www.cnblogs.com/qanholas/archive/2011/08/03/2126347.html

exchange2003备份与恢复

exchange2003备份与恢复owa 访问的是在线访问方式。连接到服务器里的访问邮箱,操作邮件是在服务器上.先发一邮件永久删除,直接从服务器里把此邮件删除掉。删除之后。服务器里已没有此邮件。下面就是来恢复邮件临时位置随便写一个存在的路径。恢复之后装载…

入门Promise的正确姿势

Promise是异步编程的一种解决方案,从语法上说,Promise是一个对象,从它可以获取异步操作的消息。 Promise的基本用法 Promise构造函数接受一个函数作为参数,该函数的两个参数分别是resolve和reject。它们是两个函数,由J…

雪花算法 Java 版

雪花算法根据时间戳生成有序的 64 bit 的 Long 类型的唯一 ID 各 bit 含义: 1 bit: 符号位,0 是正数 1 是负数, ID 为正数,所以恒取 041 bit: 时间差,我们可以选择一个参考点,用它来计算与当前时间的时间差…

【matlab】第二次上机课

1、采用complex建立一个复数数组和直接创立一个复数数组,并计算它们的幅度。 代码实现: a complex(1,2);b 1 3i;length1 abs(a)lengthe abs(b)重点: 使用comlex创建复数 用abs求幅度(模长) 2、将A[0.8147, 0…

运行代码功能尝试

首先定义个文本域并且给个ID <textarea id"O_txt_1" rows"8" cols"80"> <!--要运行的代码--> </textarea> 然后定义个按钮 <input type"button" value"运行代码" οnclick"runCode(O_txt_1)&qu…

删除当前及子文件夹中的空目录

在对文件进行操作的工程中不免会出现空目录的情况&#xff0c;你想怎么去删除那些空目录一个一个去找&#xff0c;然后删除&#xff1f;不会吧&#xff0c;这也太累了&#xff0c;用批处理吧&#xff0c;帮你提高工作效率的&#xff0c;它会准确的判断然后进行删除。 echo off …

基于WebSocket实现聊天室(Node)

基于WebSocket实现聊天室(Node) WebSocket是基于TCP的长连接通信协议&#xff0c;服务端可以主动向前端传递数据&#xff0c;相比比AJAX轮询服务器&#xff0c;WebSocket采用监听的方式&#xff0c;减轻了服务器压力 本文作为学习websocket的练习&#xff0c;实现在线聊天的功能…

Ruby 之 Block, Proc, Lambda 联系--区别,转载

Ruby 之 Block, Proc, Lambda Block Block 不是对象&#xff0c;是Ruby的语言特性&#xff0c;近似于闭包&#xff08;Closure&#xff09;。 范例&#xff1a; def meth res yield "Block called returns #{res}"endputs meth do next “next_value” end #…

【java】牛客网刷题

1、 给出以下代码 public class TestObj{public static void main(String[] args){Object onew Object(){public boolean equals(Object obj){return true;}};System.out.println(o.equals(“Fred”));}}答案&#xff1a; true 总结&#xff1a; 知识点&#xff1a; &…

Winder摆杆不稳除了PID还可能的原因

1.卷径计算有问题。 2.速度限制住了。 转载于:https://www.cnblogs.com/Lion-Ming/p/11104972.html

javascript断点调试方法

http://www.blogguy.cn/show-728-1.html

Python爬虫案例-获取最新的中国行政区域划分

源网页&#xff1a;中国统计局标准 http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2016/ 打开网页后可以分析出行政区域划分共分为5层 根据传入参数&#xff0c;生成网页地址时需要1-3层的只传本身以及 4层及以后的增加当前省份的前缀。 #生成实际需要解析的页面地址 def …

管理分布式session的四种方式。

应用服务器的高可用架构设计最为理想的是服务无状态&#xff0c;但实际上业务总会有状态的&#xff0c;以session记录用户信息的例子来讲&#xff0c;未登入时&#xff0c;服务器没有记入用户信息的session访问网站都是以游客方式访问的&#xff0c;账号密码登入网站后服务器必…

【matlab】第三章数组和数组的运算

&#xff08;一&#xff09;操作练习 1、构建等差数列的方法 代码实现 //方法1A 5:1:10//输出结果A 5 6 7 8 9 10//方法2 A linspace(1,10,3) //输出结果 A 1.0000 5.5000 10.0000 //注意最后的3指的是一共三个元素//等比数列A logspace(0,2,5)//输…

用PHP生成等比图像的方法

PHP代码 <?php /************************************************************************ * 函数名称&#xff1a;createSmallImg() * 函数说明&#xff1a;创建等比例图片 * 输入参数&#xff1a;$dir 保存路径$source_img 原图片名称$small_ex 缩率图文件名后缀$maxw…

ARM7启动代码

1:PRESERVE8: Reguire8和Preserve8 C和汇编有8位对齐的要求&#xff0c;这两个伪指令可以满足此要求&#xff0c;存在REQUIRE8<——> PRESERVE8的对应关系&#xff0c;但不是说有一个REQUIRE8就要有一个 PRESERVE8&#xff0c;如果是一个c文件和一个汇编文件的调用&#…

一次完整请求的日志

一次完整请求的日志&#xff1a;各种配置文件&#xff1a;spring-mvc.xml<?xml version"1.0" encoding"UTF-8"?><beans xmlns"http://www.springframework.org/schema/beans" rel"nofollow"" target"_blank"…

Aveva Marine C# 二次开发入门001

1# 引用 C:\AVEVA\Marine\OH12.1.SP4\Aveva.ApplicationFramework.dll C:\AVEVA\Marine\OH12.1.SP4\Aveva.ApplicationFramework.Presentation.dll 2# 引用命名空间&#xff0c; using Aveva.ApplicationFramework.Presentation;using Aveva.ApplicationFramework; 3# 继承接口…

搜集《ASP.NET中常用的26个优化性能方法》

1. 数据库访问性能优化    a.数据库的连接和关闭    访问数据库资源需要创建连接、打开连接和关闭连接几个操作。这些过程需要多次与数据库交换信息以通过身份验证&#xff0c;比较耗费服务器资源。ASP.NET中提供了连接池(Connection Pool)改善打开和关闭数据库对性能的影响…

【matlab】我要自学网笔记总结 1.3

1.3 1、在matlab的命令行窗口可以直接进行数学运算 2、π 和平方的使用 S pi*r^2 3、如果输入一个多位小数&#xff0c;输出时只显示小数点后四位&#xff0c;但计算的时候使用的是真实值。 如果要改变显示的位数 &#xff08;1&#xff09;可以在 预设 - 命令行窗口 - 数值…

IT规划的企业应用实践(6)研究背景 之 企业信息化建设的诉求

研究背景 之 企业信息化建设的诉求 从实践角度看&#xff0c;企业信息化建设的诸多问题和诉求&#xff0c;可以归纳为以下几个方面&#xff1a; 1. IT系统本身&#xff1a; l 面对成本的压力和客户的要求&#xff0c;在流程方面、运作方面离不开IT支持&#xff0c;IT系统如何支…