当前位置: 首页 > 编程日记 > 正文

算力至上?四大AI芯片大对决

来源 | 老石谈芯(ID: laoshi_tanxin)

目前,全世界超过90%的数据都是在过去的两三年之内产生的。随着人工智能、自动驾驶、5G、云计算等各种技术的不断发展,海量数据都将会继续源源不断的产生。预计到2025年,数据总量将比现在增长10倍。在这些技术的发展中,很大的一部分都基于对大数据的研究和分析。正因为如此,很多人就形象的将数据比喻为人工智能时代的石油。

为了对海量的数据进行处理,基于传统CPU的计算结构已经很难满足需求了,我们需要更加强大的硬件和芯片,来更快、更好的完成这些工作。

此外,我们也需要更好的方法,比如使用各种人工智能的算法和模型,来帮助我们进行数据的分析和处理,并得到有意义的结论。如果把这两者结合起来,就产生了各种各样的人工智能芯片。

在这篇文章里,我们来一起看一下关于人工智能芯片的几个有意思的事情。我想讨论的重点,是在实际的工程实践和应用场景里,如何对人工智能加速芯片进行合理的评价和选择,以及各种不同的AI芯片的优缺点都有哪些。我会给大家介绍一个简单的思维框架,帮助大家理解和思考。

讨论:一个前提条件

在开始讨论之前,我们首先要明确一些讨论的前提条件,这些对于接下来的分析至关重要。很多人常犯的一个逻辑谬误,就是在讨论问题的时候缺少一个特定的讨论范围,这个英文叫做context,中文通常翻译成语境,或者上下文。

说白了,这个就是我们在讨论问题的时候,要圈定一个讨论的范围,大家都在这个圈圈里讨论问题。这就像拳击或者格斗比赛一样,要在那个擂台上比拼,不能跑到台下打。否则的话,就会像老郭和于大爷说的那样:

你和他讲道理,他和你讲法制;

你和他讲法制,他和你讲政治;

你和他讲政治,他和你讲国情;

你和他讲国情,他和你讲文化;

你和他讲文化,他和你讲道理......

同样的,对于我们要讨论的人工智能芯片,其实有很多不同的应用领域。从这个角度来看,AI芯片可以分成移动端和服务器端两大类,也有很多人把两类称为终端和云端。

事实上,在这两类应用中,人工智能芯片在设计要求上有着本质区别。比如,移动端更加注重AI芯片的低功耗、低延时、低成本,而部署在云端的AI芯片,可能会更加注重算力、扩展能力,以及它对现有基础设施的兼容性等等。

对于这两类人工智能芯片,我们很难直接进行比较。这就好像一棵大树,它的树干负责支撑起这颗树,并且还能输送各种营养物质。它的树叶就负责进行光合作用,并生产营养物质。但是我们很难比较树干和树叶,究竟谁更有用。

在这篇文章里,我们要把讨论的范围缩小,只关注部署在服务器端的人工智能芯片的相关问题。

此外,我们还需要明确一下具体讨论哪些AI芯片。这篇文章将主要对比四种最常见的芯片:CPU、GPU、ASIC和FPGA。其他的一些相对小众的芯片种类,比如类脑芯片和量子芯片等等,就不列入讨论的范围了。

分析:一个思维框架

我们现在明确了讨论的领域和对象,也就是部署在服务器端的四种常见的芯片,接下来应该确定的是,通过什么样的方式来衡量这些AI芯片的优缺点。

在这里给大家介绍一个我们在工程实践里经常使用的思维框架。具体来说,当我们考虑在数据中心里大量部署AI芯片的时候,通常需要考虑以下几个重要的因素。

首先就是算力,也就是芯片的性能。这里的性能有很多方面,比如这个芯片做浮点或者定点数运算的时候,每秒的运算次数,以及这个芯片的峰值性能和平均性能等等。

但是,算力或者性能其实并不是衡量AI芯片好坏的唯一标准。事实上,在很多时候它甚至不是最重要的标准。那么,还有哪些考虑的因素呢?

在这个思维框架里,一共有五个衡量因素。除了性能之外,还有灵活性、同构性、成本和功耗四点。

其中,灵活性指的是这个AI芯片对不同应用场景的适应程度。也就是说,这个芯片能不能被用于各种不同的AI算法和应用。

同构性指的是,当我们大量部署这个AI芯片的时候,我们能否重复的利用现有的软硬件架构和资源,还是需要引入其他额外的东西。举个简单的例子,比如我的电脑要外接一个显示器,如果这个显示器的接口是HDMI,那么就可以直接连。但是如果这个显示器的接口只有VGA或者DVI或者其他接口,那么我就要买额外的转接头才行。这样,我们就说这个设备,也就是显示器,它对我现有系统的同构性不好。

成本和功耗就比较好理解了。成本指的就是钱和时间,当然如果细抠的话,还有投入的各种人力物力,以及没有选择其他芯片带来的机会成本等等。不过归根到底还是钱和时间。成本包含两大部分,一部分是芯片的研发成本,另一部分是芯片的部署和运维成本。

功耗就更好理解了,指的就是某种AI芯片对数据中心带来的额外的功耗负担。

比较:4种芯片,5个维度

现在我们知道了这个思维框架里的五个重要元素,那么我们就能对前面提到的四种芯片,也就是CPU、GPU、ASIC和FPGA做一个定性的比较了。这里声明一下,这些对比仅代表我个人的观点,也欢迎大家在留言里和我交流你的想法。

CPU

对于CPU来说,它仍然是数据中心里的主要计算单元。事实上,为了更好的支持各种人工智能应用,传统CPU的结构和指令集也在不断迭代和变化。

比如,英特尔最新的Xeon可扩展处理器,就引入了所谓的DL Boost,也就是深度学习加速技术,来加速卷积神经网络和深度神经网络的训练和推理性能。但是相比其他三种芯片,CPU的AI性能还是有一定差距。

CPU最大的优势就是它的灵活性和同构性。对于大部分数据中心来说,它们的各种软硬件基础设施都是围绕CPU设计建设的。所以CPU在数据中心的部署、扩展、运维,包括生态其实都已经非常成熟了。它的功耗和成本不算太低,但也还在可接受的范围内。

GPU

GPU有着大规模的并行架构,非常适合对数据密集型的应用进行计算和处理,比如深度学习的训练过程。和CPU相比,GPU的性能会高几十倍甚至上千倍。因此业界的很多公司,都在使用GPU对各种AI应用进行加速。

GPU的另外一个优势,是它有着比较成熟的编程框架,比如CUDA,或者OpenCL等等,这是GPU在AI领域得到爆发最直接的推动力量之一,也是GPU相比FPGA或者ASIC的最大优势之一。

但是,GPU的最大问题就是它的功耗。比如,英伟达的P100、V100和A100 GPU的功耗都在250W到400W之间。相比于FPGA或ASIC的几十瓦甚至几瓦的功耗而言,这个数字显得过于惊人了。

而对于神经网络的训练来说,它往往需要大量密集的GPU集群来提供充足的算力。这样一来,一个机柜的功耗就可能会超过几十千瓦。这就需要数据中心为它修改供电和散热等结构。比如传统的数据中心大都靠风扇散热,但如果要部署GPU,就可能要改成水冷散热。对于大数据中心来说,这是笔巨大的开销。

伴随着高功耗,更大的问题实际是高昂的电费开支。要知道,现代数据中心的运维成本里,电费开支占40%甚至更高。所以,对于GPU在数据中心里的大规模部署,我们通常考虑的是它所带来的性能优势,能否抵消它带来的额外电费。

ASIC

ASIC就是所谓的人工智能专用芯片。这里的典型代表,就是谷歌阿尔法狗里用的TPU。根据谷歌的数据,TPU在阿尔法狗里替代了一千多个CPU和上百个GPU。

在我们的衡量体系里,这种AI专用芯片的各项指标都非常极端,比如它有着极高的性能和极低的功耗,和GPU相比,它的性能可能会高十倍,功耗会低100倍。

但是,研发这样的芯片有着极高的成本和风险。与软件开发不同,芯片开发全程都需要大量的人力物力投入,开发周期往往长达数年,而且失败的风险极大。放眼全球,同时拥有雄厚的资金实力和技术储备以进行这类研发的公司,大概用两只手就能数的出来。也就是说,这种方案对于大多数公司而言并可能没有直接的借鉴意义。

此外呢,AI专用芯片的灵活性往往比较低。顾名思义,包括谷歌TPU在内的AI专用芯片,通常是针对某种特定应用而设计开发,因此它可能很难适用于其他的应用。在使用成本的角度,如果要采用基于ASIC的方案,就需要这类目标应用有足够的使用量,以分摊高昂的研发费用。同时,这类应用需要足够稳定,避免核心的算法和协议不断变化。而这对于很多AI应用来说是不现实的。

值得一提的是,我国在人工智能专用芯片领域涌现出来了一波优秀的公司,比如寒武纪、地平线,还有之前被赛灵思收购的深鉴科技等等。受篇幅限制,关于这些公司的具体产品和技术,这里就不再展开了。

FPGA

最后再来说一下FPGA。我个人认为,FPGA能够在这些性能指标中达到比较理想的平衡。当然了,我目前的职业就和FPGA紧密相关,所以这个结论有屁股决定脑袋之嫌,谨供大家借鉴。

在性能方面,FPGA可以实现定制化的硬件流水线,并且可以在硬件层面进行大规模的并行运算,而且有着很高的吞吐量。

FPGA最主要的特点其实是它的灵活性,它可以很好的应对包括计算密集型和通信密集型在内的各类应用。此外,FPGA有着动态可编程、部分可编程的特点,也就是说,FPGA可以在同一时刻处理多个应用,也可以在不同时刻处理不同的应用。

在数据中心里,目前FPGA通常以加速卡的形式配合现有的CPU进行大规模部署。FPGA的功耗通常为几十瓦,对额外的供电和散热等环节没有特殊要求,因此可以兼容数据中心的现有硬件基础设施。

在衡量AI芯片的时候,我们也经常使用性能功耗比这个标准。也就是说,即使某种芯片的性能非常高,但是功耗也非常高的话,那么这个芯片的性能功耗比就很低。这也是FPGA相比GPU更有优势的地方。

在开发成本方面,FPGA的一次性成本其实远低于ASIC,因为FPGA在制造出来之后,可以通过重复编程来改变它的逻辑功能。而专用芯片一旦流片完成就不能修改了,但是每次流片都会耗资巨大。这也是为什么包括深鉴在内的很多AI芯片的初创企业,都使用FPGA作为实现平台的原因。

所以说,相比其他硬件加速单元而言,FPGA在性能、灵活性、同构性、成本和功耗五个方面达到了比较理想的平衡,这也是微软最终选用FPGA,并在数据中心里进行大规模部署的主要原因,有兴趣的朋友,可以看之前的文章《FPGA在微软数据中心的前世今生》。

结语

在这篇文章里,我们讨论了人工智能芯片的主要分类,比如按应用场景,可以分成服务器端和移动端两类。我们介绍了四种可以用来执行人工智能应用的芯片,分别是CPU、GPU、ASIC和FPGA。我们还根据一个思维框架,从性能、灵活性、同构性、功耗、成本五个方面,分别衡量了这四种芯片的优缺点。

事实上,对于这个问题并没有一个唯一的答案。我们只有根据特定的“Context”,也就是具体情况具体分析,才能找到最适用于某个应用的AI芯片。而这种理性的思维方式,其实也适用于我们日常工作和生活的各种事情,这也是本文想要传达的最重要的内容。

(注:本文仅代表作者个人观点,与任职单位无关。)

更多精彩推荐
  • DeepFashion实现服装检测搭配

  • 韩辉:国产操作系统的最大难题在于解决“生产关系”

  • 直播电商都用上 AI 实时翻译了!歪果仁也能听懂李佳琦

  • 区块链赋能供应链金融|应用优势与四类常见模式

  • 蓝色巨人IBM全力奔赴的混合云之旅能顺利吗?

相关文章:

JavaScript作用域原理——预编译

JavaScript是一种脚本语言, 它的执行过程, 是一种翻译执行的过程。并且JavaScript是有预编译过程的,在执行每一段脚本代码之前, 都会首先处理var关键字和function定义式(函数定义式和函数表达式)。 一、变量执行之前,会被赋为unde…

VC++实现QQ聊天工具【源代码】

http://down.51cto.com/data/53416转载于:https://blog.51cto.com/6297123/1094981

​炸了!程序员现在没有这点技能都还不能就业了?

数据正在变得越来越常见,小到我们每个人的社交网络、消费信息、运动轨迹……,大到企业的销售、运营数据,产品的生产数据,交通网络数据……如何从海量数据中获得别人看不见的知识,如何利用数据来武装营销工作、优化产品…

javascript表单之间的数据传递

今天有朋友问我关于用javascript来进行页面各表单之间的数据传递的问题,我以前也写过,不过从来没有注意,今天总结了一下,希望能够给大家一些帮助,也帮助我总结以前学过,用过的知识。 一,最简单的…

Vue从Hello World到打包(后端适读)

Vue从Hello World到上线 Vue 简介 Vue是个MVVM框架。 特点:简单易学、体积小、性能高。并且它的源码耦合性非常低,了解它的过程也就是思想进步的过程。 当然,只学这一个框架,无法完成前端的全部工作,除了Vue之外&#…

Android和iOS那个好?

Android和iOS那个好? 应该先往哪个上面投入资源? 多次被人问到此类问题,笔者刚好自己的项目也需要考虑iOS版本。就索性进行了一番调研,于是有了本文(本次不讨论越狱的iOS) 首先从情感上,你…

对话谢宝友:搞真正自研的国产操作系统,而不是伪创新

作者 | 郑丽媛责编 | 屠敏出品 | CSDN(ID:CSDNnews)从国外操作系统的长期垄断到中国自主研发操作系统数十年的起落浮沉,技术自主创新独立已成为国产基础软件的主要突破口。近几年间,随着物联网时代的到来,以…

ASP.NET 学习历程

[注意我不推荐高级技术的书,因为你如果是个高手了就可以自己选择甄别书了,此文只对初学者,因为他们此时没有辨别好快的能力,本人几乎买尽所有的.NET书,有好有坏。] 你所看的第一本书对你以后影响最重要!&a…

http头部消息中的cache-control解释

网页的缓存是由HTTP消息头中的“Cache-control”来控制的,max-age:(只接受 Age 值小于 max-age 值,并且没有过期的对象)max-stale:(可以接受过去的对象,但是过期时间必须小于 max-st…

iframe自动调整高度能在IE5里实现吗

偶已经理解到style"height:expression(main.document.body.scrollHeight)"只对第一次显示的内嵌网页有效,如果里面的内容更新必须把主页刷新一遍才能自动适应新的高度,那么惟一的解决办法就是点击链接后整个页面都刷新一次,如何写成…

SQL Server-流程控制 5,Goto 语句

ylbtech-SQL Server:SQL Server-流程控制 5,Goto 语句SQL Server 流程控制中的 Goto 语句。 1,Goto 语句1 --2 -- 1, Goto语句3 -- Desc:Goto语句可以让程序跳转到一个指定的标签处并执行其后的代码。Goto语句和标签可以在程序4 -- 、批处理和语句块中的任意位置使用…

MLPerf基准测试再发榜,浪潮AI服务器刷新18项纪录

近日,全球倍受瞩目的权威AI基准测试MLPerf公布今年的推理测试榜单,其中浪潮AI服务器NF5488A5一举创造18项性能纪录,在数据中心AI推理性能上遥遥领先其他厂商产品。 MLPerf是当前全球最具影响力的AI计算基准评测组织,由图灵奖得主大…

Web充斥着存在漏洞的过期JavaScript库

虽然使用第三方软件库通常会降低开发的时间,但同时也会增加网站暴露出的攻击表面,对此我们应有充分的认识。因此需要保持第三方软件库的最新版本依赖,以便从安全更新中获益。即便如此,一份近期研究表明,在Alexa排名前7…

asp.net实现C#代码加亮显示

以下是代码片段:StringWriter textBuffer new StringWriter();Match match Regex.Match(HTMLStr,"/",RegexOptions.IgnoreCase | RegexOptions.Compiled);if(matchnull){Response.Write(HTMLStr);return;} string codeType match.Groups["codeType…

应用在大规模推荐系统,Facebook提出组合embedding方法 | KDD 2020

来源 | 深度传送门(ID: deep_deliver)Facebook团队考虑embedding的存储瓶颈,提出了一种新颖的方法,通过利用类别集合的互补分区为每个类别生成唯一的embedding向量,无需明确定义,从而以端到端的方式减小emb…

Android大图裁剪解决办法

某些功能需要拍照或者从相册选择照片后经过裁剪再上传的时候, cropp_w_picpath 可以调用手机自带的com.android.camera.action.CROP这个Intent进行裁剪 通过设置输出大小可以得到图片的大小: intent.putExtra(“outputX”, outputX); intent.putExtra(“…

day03-字符编码与转换

1、编码常识 在python 2中默认编码是 ASCII,而在python 3中默认编码是 unicodeunicode 分为utf-32 (占4个字节),utf-16(占两个字节),utf-8(占1-4个字节),所以utf-16 是最常用的unicode版本,但是在文件里存的还是utf-8,…

Asp.Net下的DataGrid的多层表头

先看下表: 业务员地 区 北京上海深圳张三100200300实际上Asp.Net下的DataGrid只不过是一个HtmlTable,只不过在HtmlTable的基础上添加了很多属性、方法,纳入ViewState机制,来生成、控制它;有了这一点认识,事…

Selenium的延迟等待

2019独角兽企业重金招聘Python工程师标准>>> Selenium的延迟等待分为 显式等待(Explicit Wait) & 隐式等待(Implicit Wait). 1.显式等待 显式等待,就是明确的要等到某个元素的出现或者是某个元素的可点击等条件,等不到,就一直等,除非在规定的时间之内都没找到…

瞧瞧,这样的代码才叫Pythonic

来源 | Python编程时光(ID: Cool-Python)Python由于语言的简洁性,让我们以人类思考的方式来写代码,新手更容易上手,老鸟更爱不释手。要写出 Pythonic(优雅的、地道的、整洁的)代码,还…

linux基础(一)安装系统Centos6.5

安装有常用有:远程网络安装、U盘安装、光盘安装三种方式,以下为光盘进行安装1.出现引导界面,选择安装或升级现有系统,选择第一个安装系统。Install or upgrade an existing system 安装或升级现有的系统 install system with basi…

使用 .NET 对事件进行编程

作者:Ted Pattison  您可能已经对事件进行编程若干年了,但是迁移到 .NET Framework 仍然需要您重新检查事件的内部工作,因为 .NET Framework 中的事件位于委托的顶层。 对委托的了解越多,对事件进行编程时所具有的驾驭能力越强。 开始使用公…

tomcat项目自动发布脚本.脚本运行效果

./update -------------------------------------------------------------- | 确定特定用户执行,否则退出 | -------------------------------------------------------------- Yes,we are the user of testtomcat --------------------------------------------------…

11.11大促来袭,京东如何保障云安全?

2020年4月,国家发改委首次就“新基建”概念作出正式解释。云计算被纳入信息基础设施中的新技术基础设施。据IDC统计,2019年全球云计算基础设施规模超过传统IT基础设施,占全球IT基础设施的50%以上。云计算发展势如破笋,云计算也成为…

分享Kali Linux 2017年第11周镜像文件

分享Kali Linux 2017年第11周镜像文件 Kali?Linux官方于3月12日发布2017年的第11周镜像。这次维持了11个镜像文件的规模。默认的Gnome桌面的4个镜像,E17、KDE、LXDE、MATE、XFCE桌面的各一个,手机版的包括ARMEL和ARMHF。有最近要安装Kali?Linux系统的&…

实现无刷新DropDownList联动效果

在做一个文章添加功能时,想在选择大类后,自动将其所属二级小类显示出来,使用DropDownList的SelectedIndexChanged事件可以很容易实现,但每次选择后页面总要刷新一次,让人感觉很不爽。为实现DropDownList无刷新二级联动…

偷天换日,逼真的天空置换算法

责编 | 晋兆雨来源 | Jack Cui头图 | CSDN付费下载于视觉中国前言天空,是摄像中的一个关键元素。游戏的天空,我们可以随意调节,可以是晴空万里,也可以是风雨交加。现实的天空,我们也可以使用算法进行调整,算…

office2003/2007/2010版本降低宏安全设置方法

如果在公司内部环境中,因为各种系统对Office环境的要求,需要通过降低Office宏安全性的方法来提高系统访问效率的话,可以参考一下方法设置。 Office2003所需的设置如下: 1、打开Office2003,选择"工具"&#x…

【WEB API项目实战干货系列】- API登录与身份验证(三)

上一篇: 【WEB API项目实战干货系列】- 接口文档与在线测试(二) 这篇我们主要来介绍我们如何在API项目中完成API的登录及身份认证. 所以这篇会分为两部分, 登录API, API身份验证. 这一篇的主要原理是: API会提供一个单独的登录API, 通过用户名&#xff0…

ASP.NET中的页面指示标识

页面指示标识 的功能是用来确定在处理aspx文件的时候&#xff0c;需要系统做一些什么特殊的设定&#xff1f;它的语法是&#xff1a;<% directive attributevalue %> 比如&#xff1a;<%import namespace"System.Data"%> 注意属性之间需要空格&#…