浪潮发布重磅产品“元脑”,专注AI全栈能力输出
整理 | 一一
出品 | AI科技大本营(ID:rgznai100)
4月16日,以“智慧凝聚”为题的IPF2019浪潮云数据中心合作伙伴大会在上海举办。大会重点聚焦浪潮“智慧计算”战略,以AI计算力和创新力,联接、承载、赋能合作伙伴。
为了布局人工智能计算,浪潮从计算平台、管理套件、框架优化、应用加速四个层次致力于打造人工智能基础设施,已成为BAT人工智能服务器供应商,并帮助科大讯飞、商汤、旷视等AI技术公司在语音、图像、视频、搜索、网络等方面提升应用性能。
作为服务器厂商浪潮向合作伙伴秀技能的重要日子。浪潮集团副总裁彭震在当天下午发布了重磅产品浪潮“元脑”,这被浪潮视作其人工智能战略的再度升级,该产品将以输出人工智能全栈能力为主,从“能力构建”转向“能力输出”,推动人工智能新生态的构建。
浪潮认为,元脑是其人工智能全栈能力的载体与具象,将为人工智能提供最基础的创新支撑,赋能生态合作伙伴,加速产业人工智能化进程。
浪潮方面表示,浪潮元脑既包含浪潮的场景化人工智能基础设施,多样化的深度学习框架与工具,以及最新研发的人工智能PaaS平台和AutoML Suite等“有形”产品,同时也凝聚了浪潮多年积累的人工智能算法优化、系统优化服务等“无形”能力。
该系统主要包括以下五大部分:
计算:通过浪潮人工智能计算平台、人工智能超高速计算加速卡、极低延迟RDMA网络与超高带宽并行存储,共同提供极致人工智能计算性能;
框架层:针对最热门的TensorFlow框架,可提供公有云最快训练速度的TensorFlow-Opt优化框架与FPGA计算加速引擎TF2,并支持Caffe、Caffe-MPI、MXNet等主流框架;
PaaS层:最新开发的人工智能PaaS平台面向人工智能企业训练场景,可实现容器化部署、可视化开发、集中化管理等,有效打通开发环境、计算资源与数据资源,提升开发效率;
算法层:最新开发的AutoML Suite可实现非专业人员亦能通过极少操作构建网络模型并获得高精度,极大降低了人工智能开发、应用的门槛和成本。
服务:人工智能软硬件系统级优化、人工智能框架与算法级优化、应用咨询与系统设计等专业人工智能优化服务。
浪潮人工智能 PaaS平台
面向人工智能企业训练场景,拉通用户开发环境、计算资源、数据资源,构建一体化的人工智能开发平台。有效的提升计算资源的使用率,提高开发工程师工作效率。
加速AI企业的应用开发与创新主要分为两部分:聚焦高效的AI计算平台,高效的计算力支撑,精准的资源管理和调度,敏捷的数据整合及加速,流程化的AI场景及业务整合;其次是构建开放的AI创新生态,无缝对接行业ISV,赋能生态伙伴,兼容各AI应用和场景。
自动机器学习平台AutoML Suite
浪潮发布的高并行扩展自动机器学习平台AutoML Suite,可灵活支持本地化或云端部署,为AI客户与开发者提供快速高效开发AI模型的能力。
浪潮推出AutoML自动建模工具,其特点有:
1)一站式可视化处理,用户只需经过数据上传、模型搜索、模型训练、模型评估4个步骤的可视化操作即可为学习任务构建好网络模型,并获得高精度;
2)自动生成CV模型,采用强化学习自动完成分类、回归模型生成,并支持监督学习和无监督学习;
3)部署形式灵活,为全球首个支持On-Premise和Cloud双模式部署的产品,分钟级完成部署;
4)支持多机多GPU卡并行,极大降低模型搜索和模型训练时间,如在模型搜索阶段,采用16 V100 GPU测试,单个模型平均搜索的时间为9.6分钟,较单卡提升10.52X,一天可以搜索144个模型,极大提高生成效率。
浪潮人工智能加速卡
F10A:支持OpenCL的FPGA加速设备
F10A的单芯片峰值运算能力为1.5TFlops,而功耗仅为35W,每瓦特性能达到42GFlops。同时,F10A设计半高半长PCI-E插卡,具有灵活的板卡内存配置,最大支持32G双通道内存,能够寄存更多的并行任务数据。此外,F10A支持2个10Gb光口,可以实现数据直接从网络到板卡处理,无需经过CPU,减低了传输延时。浪潮方面称,F10A是目前业界支持OpenCL的最高密度、最高性能的FPGA加速设备。
基于F10A,浪潮推出面向AI线上推理、GZip算法与WebP图片转码三大云场景的FPGA加速方案,在扩充FPGA生态的同时,也为从事AI开发与应用的公司以及大型数据中心用户提供更高性能功耗比的专用加速芯片选择。
基于FPGA具有可编程专用性,高性能及低功耗的特点,浪潮F10A AI线上推理加速方案针对CNN卷积神经网络的相关算法进行优化和固化,可加速ResNet等神经网络,能够应用于图片分类、对象检测和人脸识别等应用场景。浪潮F10A AI线上推理加速方案部署非常简单,用户只需要将目前深度学习的算法和模型编译成与浪潮深度学习加速解决方案的配置脚本,即可进行线上应用,省去至少3个月到半年的开发周期和相关成本。
F37X: 集成HBM2高速缓存的FPGA AI加速卡
F37X可在不到75W典型应用功耗提供28.1TOPS的INT8计算性能和460GB/s的超高数据带宽,适合于机器学习推理、视频转码、图像识别、语音识别、自然语言处理、基因组测序分析、NFV、大数据分析查询等各类应用场景,实现高性能、高带宽、低延迟、低功耗的AI计算加速。
F37X是浪潮专为AI极致性能设计的尖端FPGA加速卡,它采用Xilinx Virtex UltraScale+架构,提供285万个系统逻辑单元和9024个DSP单元,INT8计算性能达到了28.1TOPS,集成8GB HBM2高速缓存,带宽达460GB/s,相比单DDR4 DIMM提升20倍。
此外,F37X可支持C/C++、OpenCL和RTL三种主流的编程语言开发环境。相应SDx工具套件内含SDAccel™、Vivado®及SDK工具,应用已有的OpenCV、BLAS、Encoder、DNN、CNN等加速库,实现对主流深度学习框架如Caffe、TensorFlow、Torch、Theano等的支持,覆盖机器学习推理、视频图像处理、数据库分析、金融、安全等典型AI应用领域,提供强大的生态支持。
提升AI推理效率的人工智能计算加速引擎TF2
TF2是支持TensorFlow的FPGA计算加速引擎,可帮助人工智能客户快速实现基于主流人工智能训练软件和深度神经网络模型DNN的FPGA线上推理,并通过全球首创的FPGA上DNN的移位运算技术获得人工智能应用的高性能和低延迟。
TF2计算加速引擎由两部分组成。第一部分是模型优化转换工具TF2 Transform Kit,它将经过TensorFlow等框架训练得到的深度神经网络模型数据进行优化转换处理,大幅降低模型数据文件大小,如它可将32位浮点模型数据压缩为4位整型数据模型,使得实际模型数据文件大小精简到原来的1/8,并基本保持原始模型数据的规则存储。
第二部分是FPGA智能运行引擎TF2 Runtime Engine,它可实现将前述已优化转换的模型文件自动转化为FPGA目标运行文件,为了消除深度神经网络如CNN等对FPGA的DSP浮点计算能力的依赖,浪潮创新设计了移位运算技术,它可将32位浮点特征图数据量化为8位整型数据,并结合前述4位整型模型数据,转换卷积操作浮点乘法计算为8位整数移位运算,这将大幅提升FPGA做推理计算的性能并有效降低其实际运行功耗。这也是目前全球首次在保持原始模型计算精度的前提下在FPGA上实现深度神经网络DNN的移位运算。
浪潮元脑系统应该说来讲更是AI系统方面的一个开始,浪潮会持续不断投向元脑产品的开发,不断把我们在AI方面的成功经验,由能力的积累逐渐转变为能力的输出,把它变成一个重要的平台发布给我们的合作伙伴,希望我们的合作伙伴将面向自己各行各业的AI应用和浪潮的元脑整合在一起,形成我们面向各行各业的智慧化的行业的解决方案。浪潮元脑系统如何来进行构成的?我今天也为各位一一道来。
总体而言,浪潮元脑实际上提供了一个一体化的解决方案,是将浪潮的人工智能计算能力、存储能力、网络能力以及人工智能PaaS平台、AutoML Suite 自动算法调优工具集合在一起,提供了一个完整的平台级解决方案,方便其合作方进行人工智能应用开发的一个底层平台。
(本文为 AI大本营整理文章,转载请微信联系 1092722531)
◆
精彩推荐
◆
推荐阅读
售价910元!周志华等人英文新书《演化学习》出炉!
极客头条
史上第一张黑洞照片是用Python合成的?
从头构建恶性肿瘤检测网络 | 100行Python代码理解深度学习关键概念
技术头条
程序员的黑砖窑,东南亚博彩骗局详解
助力 Android 抗衡 iOS,华为发布方舟编译器!
要成为年薪百万的技术大牛必经历这5个阶段, 收好这份超实用的技术进阶指南 | 技术头条
程序员为什么都爱穿冲锋衣?(最全总结)
❤点击“阅读原文”,查看更多精彩文章。
相关文章:

React+Redux+中间件
MVVM是Model-View-ViewModel的缩写。mvvm是一种设计思想。Model 层代表数据模型,也可以在Model中定义数据修改和操作的业务逻辑;View 代表UI 组件,它负责将数据模型转化成UI 展现出来,ViewModel 是一个同步View 和 Model的对象。在…

ピエタ~幸せの青い鳥~相关
先打全所有升级补丁 不然没有end4 补丁下载页 4个end出现方法 只看律视角 选项任意→end1 只看愛视角 选项任意→end2 检查一下 这两个流程的CG是否收全了 开启唯视角以后有些CG是找不回的 只看唯视角 选项任意→end3 只看唯视角 最后一个选项选“唯” 此后只要律或愛的视角开…

【C++】C++11 STL算法(四):二分查找法(Binary search operations)、合并操作
目录一、lower_bound1、原型:2、说明:3、官方demo二、upper_bound1、原型:2、说明:3、官方demo三、binary_search1、原型:2、说明:3、官方demo四、equal_range1、原型:2、说明:3、官…

腾讯开源分布式NoSQL存储系统DCache | 技术头条
作者 | 山宝银,腾讯后台高级工程师,专注于分布式 NoSQL 存储领域的技术研发工作,参与腾讯多个自研存储系统的开发,在分布式系统、高可用与高性能服务等领域有较丰富的经验。来源 | 腾讯技术博客当你在电商平台秒杀商品或者在社交网…
老司机带你学爬虫——Python爬虫技术分享
什么是“爬虫”? 简单来说,写一个从web上获取需要数据并按规定格式存储的程序就叫爬虫; 爬虫理论上步骤很简单,第一步获取html源码,第二步分析html并拿到数据。但实际操作,老麻烦了~ 用Python写“爬虫”有哪…
[转载]分享WCF聊天程序--WCFChat
http://www.cnblogs.com/gaoweipeng/archive/2009/09/04/1560260.html 无意中在一个国外的站点下到了一个利用WCF实现聊天的程序,作者是:Nikola Paljetak。研究了一下,自己做了测试和部分修改,感觉还不错,分享给大家。…

【C++】C++11 STL算法(五):设置操作(Set operations)、堆操作(Heap operations)
目录设置操作(Set operations)一、includes1、原型:2、说明:3、官方demo二、set_difference1、原型:2、说明:3、官方demo三、set_intersection1、原型:2、说明:3、官方demo四、set_symmetric_difference1、…

63万张!旷视发布最大物体检测数据集Objects365 | 技术头条
编辑 | 琥珀来源 | AI科技大本营(id:rgznai100)昨日,在旷视科技联合北京智源人工智能研究院举办的发布会上,旷视研究院发布了物体检测数据集 Objects365,包含 63 万张图像数量,365 个类别数量&a…
(一)Android Studio 安装部署 华丽躲坑
叨叨两句先 小宇之前一直做前后端开发,只是略懂JS,未接触过Java和Android 近期工作任务也是兴趣使然,开始琢磨DJI二次开发 DJI是我最服气的无人机厂商,无人机稳定性极强,性价比狂高,还给了极度丰富的二次开…

linux 环境配置 安装jdk
一. 下载jdk5.0 for linux 到sun的主页 http://java.sun.com/j2se/1.5.0/download.jsp 下载jdk安装文件jdk-1_5_0_05-linux-i586.bin 二. 解压安装jdk 在shell终端下进入jdk-1_5_0_05-linux-i586.bin文件所在目录,执行命令 ./jdk-1_5_0_05-linux-i586.bin 这时会出现…

【C++】C++11 STL算法(六):最小/最大操作(Minimum/maximum operations)、比较运算(Comparison operations)
目录最小/最大操作(Minimum/maximum operations)一、max1、原型:2、说明:3、官方demo二、max_element1、原型:2、说明:3、官方demo三、min1、原型:2、说明:3、官方demo四、min_element1、原型:2…

springboot之定时任务
定时线程 说到定时任务,通常会想到JDK自带的定时线程来执行,定时任务。 回顾一下定时线程池。 public static ScheduledExecutorService newScheduledThreadPool(int var0) {return new ScheduledThreadPoolExecutor(var0);}public static ScheduledExec…

10只机器狗拉卡车!井然有序,毫不费力 | 极客头条
整理 | 琥珀出品 | AI科技大本营(ID:rgznai100)看来,这家娱乐网友多年的机器人公司终于要开始实现商用化了!最先备受期待的是它的网红机器狗 SpotMini。今日凌晨,据多家外媒报道,波士顿动力 (Boston Dynami…

linux下查看nginx,apache,mysql,php的编译参数
有时候nginx,apache,mysql,php编译完了想看看编译参数可以用以下方法 nginx编译参数: #/usr/local/nginx/sbin/nginx -V nginx version: nginx/0.6.32 built by gcc 4.1.2 20071124 (Red Hat 4.1.2-42) configure arguments: --us…

【C++】C++11 STL算法(七):排列操作(Permutation operations)、数值操作(Numeric operations)
排列操作(Permutation operations) 一、is_permutation 1、原型: template< class ForwardIt1, class ForwardIt2 > bool is_permutation( ForwardIt1 first1, ForwardIt1 last1, ForwardIt2 first2 );template< class ForwardIt…

码书:入门中文NLP必备干货:5分钟看懂“结巴”分词(Jieba)
导读:近年来,随着NLP技术的日益成熟,开源实现的分词工具越来越多,如Ansj、盘古分词等。在本文中,我们选取了Jieba进行介绍和案例展示,主要基于以下考虑:社区活跃。截止本文发布前,Ji…

《你必须掌握的Entity Framework 6.x与Core 2.0》正式出版感想
前言 借书正式出版之际,完整回顾下从写博客到写书整个历程,也算是对自己近三年在技术上的一个总结,整个历程可通过三个万万没想到来概括,请耐心阅读。 写博、写书完整历程回顾 从2013年12月注册博客园账号,注册博客园账…

JSF实现“Hello World!”
我们编写一个在页面上显示是“Hello World! ”,我们至少需要编写一个Page对象和一个对应模板文件(tml)。 第一步,Page对象编写 在Tapestry5中Page是与一个页面对应的POJO对象,它不需要继承Tapestry框架的任何基类或实现…

《权力的游戏》最终季上线!谁是你最喜爱的演员?这里有一份Python教程 | 附源码...
译者 | 刘畅编辑 | 琥珀出品 | AI科技大本营(id:rgznai100)《权力的游戏》最终季已于近日开播,对于全世界翘首以待的粉丝们来说,其最大的魅力就在于“无法预知的人物命运”。那些在魔幻时代的洪流中不断沉浮的人们&…

【C++】C++11 STL算法(八):对未初始化内存的操作(Operations on uninitialized memory)、C库(C library)
对未初始化内存的操作(Operations on uninitialized memory) 一、uninitialized_copy 1、原型: template< class InputIt, class ForwardIt > ForwardIt uninitialized_copy( InputIt first, InputIt last, ForwardIt d_first );2、…

OSPF高级设置实现全网互通
OSPF(开放式最短路径优先)是对链路状态路由协议的一种实现,隶属内部网关协议(IGP),故运作于自治系统内部(AS)。采用戴克斯特拉算法(Dijkstras algorithm)被用来计算最短路径树。“Cost”作为路由度量值。链…

学习PHP ?
学PHP的决定真的是好的吗? 不怕又再错一次了吗? 已经是最后的一年半上学时间了.... 真的不愿再走之前那条失败的路,不愿,真的不愿; 这年半无论如何都要把一样技术搞精了 一年半的时间,对我来讲够了....只看…

【数据库】sqlite中的限制:数据库大小、表数、列数、行数、参数个数、连接数等
目录一、参考网址二、详解1、查看、设置sqlite限制命令.limit2、SQLite中的限制汇总1)字符串或BLOB的最大长度2)最大列数3)SQL语句的最大长度4)联接中的最大表数5)表达式树的最大深度6)函数的最大参数个数7…
flutter中的生命周期
前言 和其他的视图框架比如android的Activity一样,flutter中的视图Widget也存在生命周期,生命周期的回调函数提现在了State上面。理解flutter的生命周期,对我们写出一个合理的控件至关重要。组件State的生命周期整理如下图所示: 大…

小鱼易连获腾讯数亿C轮投资,云视频布局产业互联网
4 月 18 日,小鱼易连在北京举行 “鱼腾视界 产业互联” 战略合作暨融资发布会上,正式宣布获得 C 轮融资,由腾讯领投。融得的资金将全面用于小鱼易连云视频系统在产业互联网领域的落地,打通企业、政府、个人三者之间的柔性生态全产…

异步IO一定更好吗?
http://cnodejs.org/blog/?p1015续:异步IO一定更好吗?我之前的一篇文章《异步IO一定更好吗?》中举了一个很变态的例子,用以说明在单碟机械式硬盘上异步IO反而可能降低性能的问题,大家的讨论很热烈。前天的NodeParty杭…

谈谈Python那些不为人知的冷知识(二)
本文转载自Python的编程时光(ID:Python-Time)小明在日常Code中遇到一些好玩,冷门的事情,通常都会记录下来。从上一篇的分享来看,仍然有不少 Pythoner 对这些冷知识存在盲区,所以今天迎来第二篇。如果上篇你…
前端每日实战:45# 视频演示如何用纯 CSS 创作一个菱形 loader 动画
效果预览 按下右侧的“点击预览”按钮可以在当前页面预览,点击链接可以全屏预览。 https://codepen.io/comehope/pen/eKzjqK 可交互视频教程 此视频是可以交互的,你可以随时暂停视频,编辑视频中的代码。 请用 chrome, safari, edge 打开观看。…

【数据库】SQLite和MySQL之间的对比和选择
目录1、各自特定2、使用场景3、选择哪个1、各自特定 SQLite :独立、简单(零配置);适用于为单个应用程序和设备提供本地数据存储。 MySQL:可伸缩、高并发性;适用于客户端/服务器模式企业数据的共享数据存储…

MySql中管理百万级要注意些什么东西(转载)
一、我们可以且应该优化什么? 硬件 操作系统/软件库 SQL服务器(设置和查询) 应 用编程接口(API) 应用程序 二、优化硬件 如果你需要庞大的数据库表 (>2G),你应该考虑使用64位的硬件结构,像Alpha、Sparc或即将推出的IA64。因为MySQL内部使用…