抛弃Python,我们为什么用Go编写机器学习架构?
所有参与投票的 CSDN 用户都参加抽奖活动
群内公布奖项,还有更多福利赠送
作者 | Caleb Kaiser
译者 | 弯月,编辑 | 郭芮
来源 | CSDN(ID:CSDNnews)
如今,众所周知Python是机器学习项目中最流行的语言。尽管R、C++ 和Julia等语言都有各自的支持者和使用情况,但Python仍然是使用最普遍的语言,几乎每个主流的机器学习框架都使用了Python。
然而,在我们的Cortex(用于将机器学习模型部署成API的开源平台)代码库中,87.5%的代码都是Go。
Python引以为豪的机器学习算法只是生产机器学习系统的一个组成部分。如果想大规模运行生产机器学习API,你的基础架构需要实现以下功能:
自动缩放,确保流量波动不会影响API。
API管理,处理同步API部署。
滚动更新,确保更新模型时不会中断用户服务。
我们构建Cortex的目的是自动化上述所有的基础架构,以及日志记录和成本优化等其他问题。
出于以下原因,我们认为Go才是构建满足上述需求的软件的理想之选。
并发对于机器学习的基础架构至关重要
用户可以将许多不同的模型部署成不同的API,并把所有模型都放到同一个Cortex集群中进行管理。Cortex Operator需要通过一些API来管理这些不同的部署,比如:
Kubernetes API,Cortex调用这个API在集群上部署模型。
各种AWS API,包括EC2 Auto Scaling、S3、CloudWatch等,Cortex调用这些API来管理AWS上的部署。
用户不会直接与这些API进行交互。Cortex通过程序调用这些API来管理集群、启动部署和监视API。
以高效、可靠的方式交叉调用这些API是一项难题。采用并发的方式处理这些API调用是最为高效的方式,但同时也带来了复杂性,因为我们不得不担心竞争状况等问题。
Go为解决这个问题提供了一个开箱即用的解决方案:Goroutines。
Goroutines是Go以并发的方式执行代码的函数。我们可以另写一篇文章深入探讨Goroutines背后的工作方式,但概括来说,Goroutines是由Go运行时自动管理的轻量级线程。你可以将多个Goroutine放在一个OS线程上,而且如果Goroutine阻塞了OS线程,则Go运行时会自动将其余的Goroutines移到新的OS线程上。
Goroutines还提供了一种名叫“通道”(channel)的功能,你可以利用这个功能在Goroutines之间传递消息,帮助我们调度请求并防止出现竞争状况。
当然,你也可以利用asyncio等最新的工具在Python中实现这些功能,但Go的设计考虑到了这些情况,使用Go可以减轻我们的工作负担。
使用Go构建跨平台的CLI更容易
Cortex CLI是一个跨平台工具,用户可以使用这个工具直接从命令行部署模型和管理API。
最初,我们使用Python编写了这个CLI,但事实证明,在多个平台上分发这个CLI太困难了。由于Go可以编译成一个二进制文件(不需要管理依赖),所以可以为我们提供了一个简单的解决方案,帮助我们在平台之间分发CLI,而无需额外的工程工作。
Go编译后的二进制文件与解释型语言相比,其性能优势也很明显。根据计算机基准测试结果,Go的速度远胜Python。
许多其他的基础设施CLI工具也是用Go编写的,这绝非偶然,具体的理由请参照下面的第三点。
Go的生态系统非常适合基础设施项目
开源的好处之一在于,你可以向自己欣赏的项目学习。例如,Cortex存在于Kubernetes的生态系统中,而Kubernetes本身也是用Go编写。我们很幸运能够借鉴这个生态系统中许多出色的开源项目,其中包括:
kubectl:Kubernetes CLI
minikube:一种在本地运行Kubernetes的工具
helm:Kubernetes软件包管理工具
kops:管理生产Kubernetes的工具
eksctl:亚马逊EKS的官方CLI
上述这些工具都是Kubernetes项目,而且都是用Go语言编写的。如果你仔细查看CockroachDB和Hashicorp的基础设施项目(包括Vault、Nomad、Terraform、Consul和Packer),就会发现它们统统是用Go语言编写的。
Go在基础架构领域的流行还有另一个影响,那就是大多数对基础架构感兴趣的工程师都很熟悉Go。所以,很容易吸引到这些工程师。我们公司最优秀的一位工程师就是通过AngelList找到我们的,我们很幸运他找到了我们。
Go语言编程是一种享受
我们使用Go构建Cortex的最后一个理由就是,我们很享受Go语言编程。
相对于Python,Go的入门有点艰难。但是,Go的宽容性可以为大型项目带来愉悦感。我们在测试软件上非常严格,但是静态输入和编译(对于初学者来说Go的两大难题)对我们来说就像是防护栏,帮助我们编写(相对而言)没有bug的代码。
你可能会说其他语言有不同的优势,但总的来说,Go能够最大限度地满足我们的技术和美学需求。
Python适用于机器学习,而Go适用于基础架构
我们也很喜欢Python,它在Cortex中占有一席之地,尤其是在处理推理方面。
Cortex服务于TensorFlow、PyTorch、scikit-learn以及其他Python模型,这意味着与模型的接口以及推理之前和之后的处理均在Python中完成。虽然Python代码经过打包部署到Docker容器中,但这些容器是由Go编写的代码编排的。
如果你有兴趣成为一名机器学习工程师,那么必须熟练掌握Python。但是,如果你对机器学习的基础架构感兴趣,则应该认真考虑Go。
原文链接:
https://towardsdatascience.com/why-were-writing-machine-learning-infrastructure-in-go-not-python-38d6a37e2d76
(*本文为AI科技大本营转载文章,转载请联系原作者)
◆
精彩推荐
◆
2020年,由 CSDN 主办的「Python开发者日」活动(Python Day)正式启动。我们将与 PyCon 官方授权的 PyCon中国社区合作,联手顶尖企业、行业与技术专家,通过精彩的技术干货内容、有趣多元化的活动等诸多体验,共同为中国 IT 技术开发者搭建专业、开放的技术交流与成长的家园。未来,我们和中国万千开发者一起分享技术、践行技术,铸就中国原创技术力量。
【Python Day——北京站】现已正式启动,「新春早鸟票」火热开抢!2020年,我们还将在全国多个城市举办巡回活动,敬请期待!
活动咨询,可扫描下方二维码加入官方交流群~
CSDN「Python Day」咨询群 ????
来~一起聊聊Python
如果群满100人,无法自动进入,可添加会议小助手微信:婷婷,151 0101 4297(电话同微信)
推荐阅读
集五福,我用Python
微软开源NAS算法Petridish,提高神经网络迁移能力
AI 没让人类失业,搞 AI 的人先失业了
我国自主开发的编程语言“木兰”是又一个披着“洋”皮的红芯浏览器吗?
小网站的容器化(上)
好扑科技技术副总裁戎朋:从海豚浏览器技术负责人到区块链,揭秘区块链技术之路
你点的每个“在看”,我都认真当成了AI
相关文章:
朴素、Select、Poll和Epoll网络编程模型实现和分析——模型比较
经过之前四篇博文的介绍,可以大致清楚各种模型的编程步骤。现在我们来回顾下各种模型(转载请指明出于breaksoftware的csdn博客) 模型编程步骤对比《朴素、Select、Poll和Epoll网络编程模型实现和分析——朴素模型》中介绍的是最基本的网络编程…

使用VM虚拟机的一点小技巧
今天想为朋友弄一个虚拟机系统文件,这样就可以直接拷贝过去,直接让他用了。哪成想电脑里的系统镜像文件不能用,也不知道是不是VM不支持,反正怎么着也引导不起来了。无奈只好用硬件光驱来装虚拟系统,把2003系统盘装入光…
翻译:AKKA笔记 - Actor消息 -1(二)
消息 我们只是让QuoteRequest到ActorRef去但是我们根本没见过消息类! 它是这样的:(一个最佳实践是把你的消息类包装在一个完整的对象里以利于更好的组织) TeacherProtocol package me.rerun.akkanotes.messaging.protocolsobject …

远程安装oracle 10.2.1 for redhat 5.0 2.6.18-53.el5xen
远程安装oracle <?xml:namespace prefix st1 ns "urn:schemas-microsoft-com:office:smarttags" />10.2.1 for redhat 5.0 2.6.18-53.el5xen<?xml:namespace prefix o ns "urn:schemas-microsoft-com:office:office" />今天有个朋友打电…
伯克利新无监督强化学习方法:减少混沌所产生的突现行为
作者 | Glen Berseth译者 | Arvin编辑 | 夕颜出品 | AI科技大本营(ID: rgznai100)【导读】所有生命有机体都在环境中占据一席之地,使它们在周围不断增加的熵中可以保持相对可预测性。例如,人类竭尽全力保护自己免受意外袭击--我们…
朴素、Select、Poll和Epoll网络编程模型实现和分析——Poll、Epoll模型处理长连接性能比较
在《朴素、Select、Poll和Epoll网络编程模型实现和分析——模型比较》一文中,我们分析了各种模型在处理短连接时的能力。本文我们将讨论处理长连接时各个模型的性能。(转载请指明出于breaksoftware的csdn博客) 我们可以想象下场景,…

Topcoder SRM 663 DIV 1
ABBADiv1 题意: 规定两种操作,一种是在字符串的末尾添加A,另一种是在末尾添加B然后反转字符串。现在给你一个起始串,一个终点串,然后问你是否能够通过以上两种操作,从起始串变为终点串。 题解: …
跨平台PHP调试器设计及使用方法——立项
作为一个闲不住且希望一直能挑战自己的人,我总是在琢磨能做点什么。自从今年初开始接触PHP,我也总想能在这个领域内产生点贡献。那能做点什么呢?我经常看到很多phper说自己设计了一个什么框架,或者说自己搭建了一个什么系统。虽然…
机器推理文本+视觉,跨模态预训练新进展
作者 | 李根、段楠、周明来源 | 微软研究院AI头条(ID:MSRAsia)【导读】机器推理要求利用已有的知识和推断技术对未见过的输入信息作出判断,在自然语言处理领域中非常重要。本文将介绍微软亚洲研究院在跨模态预训练领域的研究进展。近年来&…

[LeetCode]:94:Binary Tree Inorder Traversal
题目: Given a binary tree, return the inorder traversal of its nodes values. For example:Given binary tree {1,#,2,3}, 1\2/3return [1,3,2]. 代码: public class Solution {public static ArrayList<Integer> listResult new ArrayList&l…
腾讯 AI 2019这一年
所有参与投票的 CSDN 用户都参加抽奖活动群内公布奖项,还有更多福利赠送近日,腾讯AI实验室总结了 2019 年其取得重大进展的两大研究方向,推动实现的行业应用以及前沿研究探索方面的成果。一、两大难题攻坚:通用人工智能与数字人用…
跨平台PHP调试器设计及使用方法——探索和设计
在《跨平台PHP调试器设计及使用方法——立项》一文中,我确定了使用xdebug作为调试器插件部分的基础组件。xdebug提供了一个远程调试的功能(相关资料可以详见https://xdebug.org/docs/remote),我们这个项目便是基于这个功能实现的。…

Ubuntu下允许Root用户直接登录图形界面
ubuntu root是默认禁用了,不允许用root登陆,所以先要设置root密码。 执行:sudo passwd root 接着输入密码和root密码,重复密码。再重新启动就可以用root登陆。 另外,默认情况下是不允许用root帐号直接登陆图形界面的。…

携程App for Apple Watch探索
在Apple Watch发布之后,很多App都针对它设计了相应的版本。旅行作为与Apple Watch时间管理特性契合度较高的场景,同时携程旅行作为国内领先的OTA行业App,也成为了首批适配Apple Watch并荣登Apple官网和App Store推荐的应用之一。InfoQ就App f…
跨平台PHP调试器设计及使用方法——通信
首先引用《跨平台PHP调试器设计及使用方法——探索和设计》中的结构图(转载请指明出于breaksoftware的csdn博客) 本文要介绍的是我们逻辑和pydbgp通信的实现(图中红框内内容)。 设计通信之前,我需要先设计一种通信协议…

MVP模式的相关知识
MVP 是从经典的模式MVC演变而来,它们的基本思想有相通的地方:Controller/Presenter负责逻辑的处理,Model提供数据,View负责显示。作为一种新的模式,MVP与MVC有着一个重大的区别:在MVP中View并不直接使用Mod…
“数学不行,还能干点啥?”面试官+CTO:干啥都费劲!
关于数学与程序员的“暧昧”关系,先看看网友的看法:同时编程圈也流传着一个段子:一流程序员靠数学,二流程序员靠算法,末端程序员靠百度,低端看高端就是黑魔法。想一想,我们日常学习、求职、工作…

CentOS7 yum 源的配置与使用
YUM:Yellowdog Updater Modified Yum(全称为 Yellow dog Updater, Modified)是一个在Fedora和RedHat以及CentOS中的Shell前端软件包管理器。基于RPM包管理,能够从指定的服务器自动下载RPM包并且安装,可以自动处理依赖…

跨平台PHP调试器设计及使用方法——协议解析
在《跨平台PHP调试器设计及使用方法——探索和设计》一文中,我介绍了将使用pydbgp作为和Xdebug的通信库,并让pydbgp以(孙)子进程的方式存在。《跨平台PHP调试器设计及使用方法——通信》解决了和pydbgp通信的问题,本文…

测试客户端发图图
转载于:https://blog.51cto.com/ericsong/116942
搜狐、美团、小米都在用的Apache Doris有什么好? | BDTC 2019
【导读】12 月 5-7 日,由中国计算机学会主办,CCF 大数据专家委员会承办,CSDN、中科天玑协办的中国大数据技术大会(BDTC 2019)在北京长城饭店隆重举行。100 顶尖技术专家、1000 大数据从业者齐聚于此,以“大…

cacti邮件告警设置
功能说明对指定流量图形(指定接口)设置最高或最低流量阀值,当流量出现异常偏高或偏低触发阀值,系统自动将异常信息以邮件形式通知指定收件人。如果收件人邮箱是139邮箱,还可以增设短信通知功能。设置前准备设置该功能之…
跨平台PHP调试器设计及使用方法——高阶封装
在《跨平台PHP调试器设计及使用方法——协议解析》一文中介绍了如何将pydbgp返回的数据转换成我们需要的数据。我们使用该问中的接口已经可以构建一个简单的调试器。但是由于pydbgp存在的一些问题,以及调试器需要的一些高级功能,我们还需要对这些接口进行…

Oracle的口令文件(passwordfile)的讲解(摘录)
初学oracle,很多概念迷糊,今天看到这文章,让我有一个比较清晰的认识。转载[url]http://www.itpub.net/viewthread.php?tid906008&extra&page1[/url]1、os认证oracle安装之后默认情况下是启用了os认证的,这里提到的os认证…
如何优雅地使用pdpipe与Pandas构建管道?
作者 | Tirthajyoti Sarkar译者 | 清儿爸编辑 | 夕颜出品 | AI科技大本营(ID: rgznai100) 【导读】Pandas 是 Python 生态系统中的一个了不起的库,用于数据分析和机器学习。它在 Excel/CSV 文件和 SQL 表所在的数据世界与 Scikit-learn 或 Te…

第 十 天 : 添 加 硬 盘 和 分 区 挂 载 等
小Q:狼若回头,必有缘由,不是报恩,就是***; 事不三思必有败,人能百忍则无忧。今天的进度虽然慢了,但是学习状态还是一如往常,只不过今天遇到了不少新的知识点,需要好好想想…
从4个月到7天,Netflix开源Python框架Metaflow有何提升性能的魔法?
作者 | Rupert Thomas译者 | 凯隐编辑 | Jane出品 | AI科技大本营(ID:rgznai100)【导语】Metaflow 是由 Netflix 开发,用在数据科学领域的 Python框架,于 2019 年 12 月正式对外开源。据介绍,Metaflow 解决…
SOA标准发展混乱 国内业务缺少经验
近年来,SOA已经成为国际及我国信息技术领域的重大热点之一。从2005年至今,SOA逐渐成为影响中国IT系统构建的主导思想。从2006年开始,SOA的建设方法已在我国部分行业信息化项目中开始得以越来越广泛的应用。 但热潮背后, SOA概念在…
跨平台PHP调试器设计及使用方法——界面设计和实现
一个优秀的交互设计往往会影响一个产品的命运。在设计这款调试器时,我一直在构思这款调试器该长什么样子。简单、好用是我设计的原则,于是在《跨平台PHP调试器设计及使用方法——立项》一文中,我给出了一个Demo。之后实现的效果也与之变化并不…

AJAX安全-Session做Token
个人思路,请大神看到了指点 个人理解token是防止扫号机或者恶意注册、恶意发表灌水,有些JS写的token算法,也会被抓出来被利用,个人感觉还是用会过期的Session做token更好,服务器存储,加载到客户端页面&…