加速AI应用落地,英特尔AI 2.0的进阶之道
人工智能模型的复杂度不断增加,对内存的需求也越来越大。深度学习的进一步发展需要解决内存限制问题,而当前的解决方案无法利用所有可用计算,业内人士逐渐意识到需要专用芯片来支持深度学习训练和推理。
英特尔则在人工智能方面提供优越的硬件选择,并通过软件来最大化释放硬件的性能,从而帮助客户无论是数据多么复杂或位于哪里都可以自如运行AI应用。
7月3日-4日,在百度AI开发者大会上,英特尔公司副总裁兼人工智能产品事业部总经理Naveen Rao宣布,英特尔正与百度合作开发英特尔® Nervana™神经网络训练处理器(NNP-T)。这一合作包括全新定制化加速器,以实现极速训练深度学习模型的目的。
此次NNP-T是一类全新开发的高效深度学习系统硬件,能够加速大规模的分散训练。与百度的密切合作能够确保英特尔开发部门始终紧跟客户对训练硬件的最新需求。
从2016年起,英特尔便一直针对英特尔®至强®可扩展处理器优化百度飞桨(PaddlePaddle*)深度学习框架。如今,通过为百度飞桨优化NNP-T,双方能够为数据科学家提供更多的硬件选择。
与此同时,英特尔还通过更多技术来进一步增强这些AI解决方案的性能。例如,凭借英特尔傲腾数据中心级持久内存所提供的更高内存性能,百度能够通过其Feed Stream*(信息流)服务向数百万用户提供个性化移动内容,并通过百度AI推荐引擎获得更高效的客户体验。
此外,鉴于数据安全对于用户极其重要,英特尔还与百度共同致力于打造基于英特尔软件保护扩展(SGX)技术的MesaTEE*——内存安全功能即服务(FaaS)计算框架。
Naveen Rao表示:“未来几年,AI模型的复杂性以及对大规模深度学习计算的需求将爆发式增长。英特尔和百度将延续双方十多年的合作并聚焦于联合设计和开发全新的硬件以及配套软件,从而向‘AI 2.0’的新疆界不断迈进。”
而在英特尔分论坛上,英特尔及其合作伙伴分别就边缘计算、百度超级计算平台的软硬件优化、英特尔 DL Boost、百度海洋引擎与英特尔SGX的合作、爱奇艺在OpenVINO™上的AI实践以及英特尔AEP的分布式系统在AI训练和数据处理上的实践等方面的技术细节进行了探讨。我们将从以下四个演讲中阐释英特尔取得的主要进展。
英特尔DL Boost的至强云端深度学习推理优化实践
英特尔DL Boost是一套旨在加快人工智能深度学习速度的处理器技术。英特尔人工智能资深架构师姚伟峰讲述了利用英特尔DL Boost的至强云端深度学习推理优化实践。
DL Boost基于AVX-512扩展新的矢量神经网络指令集,性能提升是数量级的,具有更好的TCO,为终端用户提供更一致性的体验。他指出,英特尔 DL Boost VNNI就是为加速深度学习推理任务而生。他还从图优化、量化、算子优化三方面详细讲解了XEON深度学习推理优化。
英特尔MKL-DNN优化的深度学习框架和OpenVINO™
英特尔软件产品开发部、资深AI 技术咨询工程师胡英以英特尔MKL-DNN优化的深度学习框架为主讲述了如何利用英特尔AI软件工具加速深度学习。
英特尔MKL-DNN是一个开源的、性能强化的函数库,用于加速在CPU上的深度学习框架,包含高度矢量化和线程化的构建模块,支持利用C和C++接口实施卷积神经网络。
英特尔MKL-DNN主要在以下对象上运行:基元、引擎和流。库文档对这些对象的定义如下所示:
基元——任何操作,包括卷积、数据格式重新排序和内存。基元可以以其他基元为输入,但是智能输出内存基元。
引擎——一种执行设备,如CPU。每个基元都映射为特定的引擎。
流——一种执行环境,将基元提交至流后等待完成。提交至流的基元可能有不同的引擎。流对象也可以跟踪基元间的相关性。
OpenVINO是英特尔基于自身现有的硬件平台开发的一种可以加快高性能计算机视觉和深度学习视觉应用开发速度工具套件,支持各种英特尔平台的硬件加速器上进行深度学习,并且允许直接异构执行。 支持在Windows与Linux系统,使用Python/C++语言。
OpenVINO工具包主要包括两个核心组件,模型优化器和推理引擎。
OpenVINO的主要特点有:
在英特尔平台上提升计算机视觉相关深度学习性能达19倍以上
解除CNN-based的网络在边缘设备的性能瓶颈
对OpenCV,OpenXV*视觉库的传统API实现加速与优化
基于通用API接口在CPU、GPU、FPGA等设备上运行加上
爱奇艺在OpenVINO™上的AI实践
软件工具包OpenVINO,专为在边缘部署深度神经网络而设计,广泛支持各种框架,只需编写一次,可扩展到不同加速器上使用,使边缘AI实现高性能、高效率。
借助英特尔OpenVINO工具包,能够帮助开发人员加快深度神经网络推理应用的开发,支持深度神经网络测试、调整和原型制作,可以帮助开发者进入实际应用的量产阶段。
爱奇艺助理研究员虞科华分享了他们在OpenVINO上的AI应用开发的相关实践 。首先是应用开发方法主要包括三点:
训练模型:固化模型
模型优化:图分割、客制化层、 客制化子图
推理引擎:模型级联计算、多输入尺寸设计、自动评估CPU端执行特征
另外,虞科华指出OpenVINO FPGA后端实践主要包括两方面:1推理引擎: 异构Plugin、 异构执行分析;性能分析:Bitstream精度、异构Affinity设置、流水线化。
OpenVINO目前在爱奇艺的落地服务主要有AI雷达、图文审核、视频标签、图片审核等。
百度计算平台的软硬件优化
作为英特尔重要的合作方,百度AI系统架构师丁瑞全介绍了在百度大规模分布式训练系统中与英特尔在软硬件优化方面的合作。
在系统设计上,百度超级AI计算平台X-MAN与英特尔进行合作共同推动OAI & OAM全球标准定义。
软硬件联合优化方面主要包括四个方面。IO优化,百度Fast-F共享并行文件系统,同时基于英特尔 SPDK,为AI场景海量小文件而优化 ;预处理优化,通过预取 + 硬件Offload + 均衡CPU与AI加速卡配比的方式进行合作;数据下发优化,增加下行链路 + 避免冲突;前后向计算优化,自动混合精度 (AMP) +大显存增大batch size 英特尔 AI芯片可支持bfloat16*, 其动态范围相比float16 的更大液冷+48V供电 支持计算性能更强的芯片;通信优化,软件算法优化以及英特尔 SCR* ICL支持多机互联。
相关文章:

MySQL基础之 恢复数据和数据库迁移
1、mysql命令或者source命令恢复数据 这两个命令在进行恢复数据的时候要检查是否创建数据库。如果数据库不存在,则恢复失败。 数据库迁移 1、相同版本的mysql数据库之间的迁移。 mysqldump -h host1 -uroot -ppwd --all-databases | mysql -h host2 -uroot -ppw…

.Net 文件流 System.IO之Stream
转自 :http://www.cnblogs.com/yukaizhao/archive/2011/07/28/stream.html Stream在msdn的定义:提供字节序列的一般性视图(provides a generic view of a sequence of bytes)。这个解释太抽象了,不容易理解;…

Hinton等人最新研究:大幅提升模型准确率,标签平滑技术到底怎么用?
作者 | Rafael Mller , Simon Kornblith, Geoffrey Hinton译者 | Rachel责编 | Jane出品 | AI科技大本营(ID: rgznai100)【导读】损失函数对神经网络的训练有显著影响,也有很多学者人一直在探讨并寻找可以和损失函数一样使模型效果更好的函数…

WaitForSingleObject和WaitForMultipleObjects用法
转自:http://www.360doc.com/content/10/0512/09/1072296_27178529.shtml 等待函数可使线程自愿进入等待状态,直到一个特定的内核对象变为已通知状态为止。这些等待函数中最常用的是WaitForSingleObject: DWORD WaitForSingleObject(HANDLE hObject, DW…

【面试必问】支撑百万并发的IO多路复用技术你了解吗?
多路复用其实并不是什么新技术,它的作用是在一个通讯连接的基础上可以同时进行多个请求响应处理。对于网络通讯来其实不存在这一说法,因为网络层面只负责数据传输;由于上层应用协议的制订问题,导致了很多传统服务并不能支持多路复…

DllMain already defined in dllmain.obj错误
错误 uafxcw.lib(dllmodul.obj) : error LNK2005: DllMain already defined in dllmain.obj 修改: 去掉宏定义 _USRDLL 转载于:https://blog.51cto.com/co63oc/1122378

典型的数字水印软件
转自:http://blog.csdn.net/pastora/archive/2005/04/15/348413.aspx ---- 目前,数字水印软件既有商品化产品,也有供研究用的免费软件。 商品化软件 ----提供商品化数字水印软件的公司主要有以下一些: ----1.Digimar…

AI、5G、小程序、AIoT纷纷迎来高峰,下一步开发者们要怎么办?
2018 年,上千名开发者与上百名技术专家齐聚一堂,在 CSDN 2018 AI开发者大会上以“AI技术与应用”为核心,深度聚焦人工智能的技术创新与行业应用,真正做到了“只讲技术,拒绝空谈”。今年,在产业智能化的浪潮…

linux第四课
一、配置软件仓库1.yum简介基于rpm软件包的安装部署机制自动解决软件包的依赖关系需要先配置软件仓库2.配置本地的软件仓库a.放入centos7.iso镜像文件到光驱中,确保电源开启b.命令操作# umount /dev/cdrom# ls /mnt# mount /dev/cdrom /mnt# ls /mnt# mkdir -p /rep…

图像处理和图像识别中常用的CxImage函数
1、Load:reads from disk the image in a specific format; 2、Save:saves to disk the image in a specific format; 3、Filter:2D linear filter(图像锐化,可提高图像清晰度); 4、Copy&…

大战三回合:XGBoost、LightGBM和Catboost一决高低 | 程序员硬核算法评测
作者 | LAVANYA译者 | 陆离责编 | Jane出品 | AI科技大本营(ID: rgznai100)【导读】XGBoost、LightGBM 和 Catboost 是三个基于 GBDT(Gradient Boosting Decision Tree)代表性的算法实现,今天,我们将在三轮…

云计算之Docker介绍
1. 百科简介 Docker 是一个开源的应用容器引擎,基于 Go 语言 并遵从Apache2.0协议开源。 Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。 容器是完全使用沙…

还在纠结垃圾分类问题?带你用Python感受ImageNet冠军模型SENet的强大
作者 | beyondma转载自CSDN博客本月1日起,上海正式开始了“史上最严“垃圾分类的规定,扔错垃圾最高可罚200元。全国其它46个城市也要陆续步入垃圾分类新时代。各种被垃圾分类逼疯的段子在社交媒体上层出不穷。其实从人工智能的角度看垃圾分类就是图像处理…

软件开发流程包含哪些内容
2019独角兽企业重金招聘Python工程师标准>>> 能否开发出一个好的软件,关键是看软件开发前期所做的工作,重点是这个软件有没有一个好的 软件开发流程,因为一个好的软件开发流程关系到到这个软件的成败和最后能达到一个什么的效果&a…

在对话框中应用CScrollView显示图像
1、用vs2008创建一个基于对话框的工程DialogView; 2、添加一个新类CMyDocument,基类为CDocument; 3、添加一个新类CMyView,基类为CScrollView; 4、修改CMyDocument的头文件: #pragma once // CMyDocument …

如何用纯 CSS 创作一个同心圆弧旋转 loader 特效
效果预览 在线演示 按下右侧的“点击预览”按钮在当前页面预览,点击链接全屏预览。 https://codepen.io/zhang-ou/pen/OZmXQX 可交互视频教程 此视频是可以交互的,你可以随时暂停视频,编辑视频中的代码。 请用 chrome, safari, edge 打开观看…

Java长见到的面试题,看你能答出几题,就知道自己有多菜了
作者:Java3y前言只有光头才能变强Redis目前还在看,今天来分享一下我在秋招看过(遇到)的一些面试题(相对比较常见的)0、final关键字简要说一下final关键字,final可以用来修饰什么?这题我是在真实的面试中遇到的,当时答得…

数据结构实验之链表一:顺序建立链表
题目描述 输入N个整数,按照输入的顺序建立单链表存储,并遍历所建立的单链表,输出这些数据。输入 第一行输入整数的个数N;第二行依次输入每个整数。输出 输出这组整数。示例输入 8 12 56 4 6 55 15 33 62 示例输出 12 56 4 6 55 15…

深度学习在人脸检测中的应用 | CSDN 博文精选
作者 | 梁志成、刘鹏、陈方杰责编 | 唐小引转载自CSDN(ID:csdnnews)在目标检测领域,可以划分为人脸检测与通用目标检测,往往人脸这方面会有专门的算法(包括人脸检测、人脸识别、人脸其他属性的识别等)&…

vs2008中,在OCX控件中应用doc/view基本步骤
1、利用向导创建一个MFC ActiveX Control控件CMyOCX; 2、在工程中加入ActivDoc头文件和执行文件; class CActiveXDocTemplate : public CSingleDocTemplate { enum { IDR_NOTUSED 0x7FFF }; CWnd* m_pParentWnd; CFrameWnd* m_pFrameWnd; C…
常见存储过程分页PK赛——简单测试分析常见存储过程分页速度
数据的分页是我们再熟悉不过的功能了,各种各样的分页方式层出不穷。今天我把一些常见的存储过程分页列出来,再简单地测一下性能,算是对知识的总结,也是对您好想法的抛钻引玉。废话不多说,开始吧~~ 1.首先建立一张测试表…

YOLOv3模型剪枝,瘦身80%,提速100%,精度基本不变
作者 | CV君转载自我爱计算机视觉(ID: aicvml)如果要在实际应用中部署目标检测,你会想到哪项算法?在52CV目标检测交流群里,被提及最多的,恐怕就是YOLOv3了。虽然新出的一些算法号称“完胜”“吊打”某某某算…

Ubuntu开发用新机安装流程
1.SSH安装 Ubuntu缺省已安装客户端,此处安装服务端 sudo apt-get install openssh-server 确认sshserver是否启动 netstat -tlp | grep ssh 或 ps -e | grep ssh 未启动,选择启动 sudo /etc/init.d/ssh start 2.问题解决:ACPI Error:Method p…

人工智能六十年技术简史
出品 | AI科技大本营(ID:rgznai100)作者:李理,环信人工智能研发中心vp,十多年自然语言处理和人工智能研发经验。主持研发过多款智能硬件的问答和对话系统,负责环信中文语义分析开放平台和环信智能机器人的设…

【Android游戏开发二十五】在Android上的使用《贝赛尔曲线》!
首先对于《赛贝尔曲线》不是很了解的童鞋,请自觉白度百科、google等等... 为了方便偷懒的童鞋,这里给个《贝赛尔曲线》百科地址,以及一段话简述《贝赛尔曲线》: 《贝赛尔曲线》白度百科快速地址:http://baike.baidu.co…

Spring Boot 工程集成全局唯一ID生成器 Vesta
2019独角兽企业重金招聘Python工程师标准>>> 本文内容脑图如下: 文章共 760字,阅读大约需要 2分钟 ! 概 述 在前一篇文章 《Spring Boot工程集成全局唯一ID生成器 UidGenerator》 中给大家推荐了一款由百度开发的基于 Snowflake算…

vs2008中,创建基于对话框的mfc动态库步骤
1、利用MFC Dll向导初始生成一个mfc dll(默认设置); 2、添加一个对话框资源; 3、向工程中添加一个.h、.cpp文件,作为外部的接口; 4、.h头文件的格式仿照于基于控制台的dll的头文件格式; 5、.h头文件中包括资源文件头文…

poj3468 A Simple Problem with Integers
http://acm.hust.edu.cn:8080/judge/problem/viewProblem.action?id14607 题意:题目给你n个数,m个操作,接下来一行给你这n个数,接下的几行给出m个操作,Q a b 表示查询区间[a,b]里的数和和。U a b c 表示把区间[a,b]里的数都加上c…

【Luogu】P1613 跑路
【Luogu】P1613 跑路 一、题目 题目描述 小A的工作不仅繁琐,更有苛刻的规定,要求小A每天早上在6:00之前到达公司,否则这个月工资清零。可是小A偏偏又有赖床的坏毛病。于是为了保住自己的工资,小A买了一个十分牛B的空间…

matlab图形用户界面设计简介
1、File->New->GUI->Create New GUI->Blank GUI->OK即可打开图形用户界面开发环境。 在里面可以拖放需要的控件,包括pushbutton、slider、radiobutton、togglebutton、checkbox、listbox、popupmenu、edit text、static text、table、axes、panel、…