开源一年,阿里轻量级AI推理引擎MNN 1.0.0正式发布
在经过充分的行业调研后,阿里淘系技术部认为当时的推理引擎如TFLite不足以满足手机淘宝这样一个亿级用户与日活的超级App。
于是,他们从零开始自己搭建了属于阿里巴巴的推理引擎MNN。1年前,MNN在Github上开源,截止目前获得了3.9k Stars。
MNN比其他的推理引擎更快更轻量,更符合手机淘宝这样庞大、复杂的生产部署环境。今年3月份,基于MNN的引擎设计与优化理念,阿里在MLSys 2020上发表了论文,并进行了oral presentation。
开源1年以来,基于阿里内外的用户反馈和业务推动,他们称,MNN在许多方面都取得了长足的进步:
在阿里巴巴集团内部得到广泛推广,成为了端上推理引擎的事实标准,覆盖了如手机淘宝、手机天猫、优酷、钉钉、闲鱼等20多个App。
新添了模型训练的支持,从此MNN不再是单纯的推理引擎,而是具有推理+训练能力的深度学习引擎。基于MNN的训练能力,可以进行Quantization Aware Training (QAT)。在MobileNet上,MNN量化训练之后的模型准确率几乎不降。
持续投资于异构硬件后端的优化,尤其是利用ARMv8.2指令集,获得了两倍的性能提升。
进一步完善Python工具链,累计新增超过150个接口。
开源了应用层开箱即用的解决方案MNNKit,包含了人脸跟踪与检测、人像分割、手势识别场景的解决方案。
近日,MNN发布了1.0.0正式版本。相较于0.2.2版本,1.0.0版本的主要升级在于:模型训练、异构性能和Python工具链。
模型训练
模型构建
MNN支持使用 Express (表达式)接口来构建模型,模型的构建、训练和保存具体可以参考说明文档。
VARP x = inputs[0];x = conv1->forward(x);x = _MaxPool(x, {2, 2}, {2, 2});x = conv2->forward(x);x = _MaxPool(x, {2, 2}, {2, 2});x = _Convert(x, NCHW);x = _Reshape(x, {0, -1});x = ip1->forward(x);x = _Relu(x);x = dropout->forward(x);x = ip2->forward(x);x = _Softmax(x, 1);return {x};
据介绍,以MNIST数据集 + Lenet网络为例,一个epoch 60000张图片,一般可达到97-98%的准确率。性能上,同款MBP上,MNN比PyTorch和Caffe都有明显优势;而手机上,MNN也达到了完全可用的性能水准。
量化训练
模型量化既可以降低模型大小,又可以利用硬件特性提升推理性能,可谓业务应用必备之选。但美中不足之处在于,模型量化会带来一定的精度损失 —— 对于精度攸关的项目,就难免要做出艰难的选择。
为此,MNN借助自身模型训练能力,实现了模型训练量化,具体实现可以参考说明文档。精度和压缩率方面,以MobileNet V2为例说明:
模型 | 类型 | 准确率 | 模型大小 |
原始模型 | float32 | 72.324% | 13M |
MNN 训练量化模型 | symm int8 | 72.456% | 3.5M |
TensorFlow 训练量化模型 | symm int8 | 71.1% | 3.5M |
注1:训练和验证均采用ImageNet数据集。训练采用32为batch size,执行100个迭代,即,使用了3200张图片进行训练;精度验证则使用了50000张图片。
注2:原始模型为TensorFlow官方模型,官方准确率为71.8%,但因预处理代码上有细微差别,我们测试原始模型的准确率结果稍高于官方;
可以看出,在实现了73%模型尺寸压缩的情况下,量化模型的精度甚至要稍高于原始模型。
异构性能
x86
在x86上,我们重点优化了矩阵乘法。在分析过AVX和Arm向量乘指令差异后,我们修改了AVX下的权重矩阵布局,降低了I/O布局,以充分利用CPU算力。
此外,我们允许在支持FMA扩展的设备上,启用扩展,将乘法和加法合为一条指令,以进一步降低指令耗时。
当前,FMA扩展的启用开关还放置在CMakeLists.txt中,后续会在运行时判别。
综合两项优化,x86上有30%左右的性能优化。
ARM64
在ARM64上,他们面向中低端设备,调整了矩阵乘法的分块策略,矩阵中每个元素的均摊I/O降低了22%;同时,将数据对齐从32字节调整为64字节,与ARM架构CPU下场景的L1 cacheline匹配;最后,优化了缓存预取。优化结果如下:
ARMv8.2
ARM在「Bringing Armv8.2 Instructions to Android Runtime」一文中,列举了可以在Android运行时中应用的ARMv8.2新特性。其中,FP16 extensions和Dot Product可以分别应用于浮点计算加速和量化计算加速。
FP16 extensions
亦记作asimdhp(Advanced SIMD Half Precision),是ARMv8.2架构的可选扩展。asimdhp可用时,可以使用相关SIMD指令实现float16的读写计算。float16将float32所需的位数降低了一半,因此在SIMD下,可以实现两倍的并发吞吐,从而优化性能。为此,我们在卷积中,采用[N,C/8,H,W,8]的数据布局,新增了部分卷积实现,效果如下:
精度上几乎没有下降,但是性能足足提升了一倍。搭配上MNN转换工具的--fp16输出选项,模型大小还能减小一半。一箭双雕。
Dot Product
亦记作asimddp(Advanced SIMD Dot Product),是ARMv8.2架构的可选扩展。asimddp可用时,可以使用SDOT/UDOT指令实现int8/uint8的点积计算。SDOT/UDOT指令如上图所示,一次可以处理两个4x4 int8/uint8数据乘,并累加到4x1的int32/uint32的寄存器上。这样强大的硬件加速指令,还是双发射的。
实战表现效果也非常明显,在原先int8无法发挥效用的设备上,ARMv8.2也成功实现了耗时减半。
Python工具链
2019年的绿盟开发者大会上,我们发布了MNN的Python前端和Python版的转换、量化、可视化工具。而今,Python又增加了对MNN Express (表达式)、模型训练的封装,累计新增超过150个接口。
依然是前文的Express构图,使用Python改写的版本如下:
class Net(nn.Module): """construct a lenet 5 model""" def __init__(self): super(Net, self).__init__() self.conv1 = nn.conv(1, 20, [5, 5]) self.conv2 = nn.conv(20, 50, [5, 5]) self.fc1 = nn.linear(800, 500) self.fc2 = nn.linear(500, 10)def forward(self, x): x = F.relu(self.conv1(x)) x = F.max_pool(x, [2, 2], [2, 2]) x = F.relu(self.conv2(x)) x = F.max_pool(x, [2, 2], [2, 2]) x = F.convert(x, F.NCHW) x = F.reshape(x, [0, -1]) x = F.relu(self.fc1(x)) x = self.fc2(x) x = F.softmax(x, 1) return x
注:目前Python Express API处于BETA阶段。阿里会根据社区和内部的反馈持续改进Python API,包含进行backward incompatible的改动。
推荐阅读
饿了么交易系统 5 年演化史
360金融首席科学家张家兴:别指望AI Lab做成中台
干货 | 时间序列预测类问题下的建模方案探索实践
写了Bug,误执行 rm -fr /*,我删删删删库了,要跑路吗?| 原力计划
中国 App 出海“变形记”
从货币历史,看可编程货币的升级
你点的每个“在看”,我都认真当成了AI
相关文章:

人生在成败中进步
参考文献《佛经》 人生在成败中进步佛经中有云:“菩萨者,福慧深利,道观双流。”“福慧双修”、“福慧双全”是众生成佛的必由之道,也是众生修行的理想追求。人生中,虽然不可能人人都能成佛,但是佛经有云&am…

【原】YUI压缩与CSS media queries下的bug
大概是上个月,使用YUI压缩一个css文件后,发现只要是被压缩后的css文件有部分根本无法工作,一直都不知啥问题引起的,让我感到头疼。 今天发现了只要是在媒体查询中的样式无法起作用,于是才开始怀疑是media被压缩后引起的…
Spring源码分析【4】-Spring扫描basePackages注解
org.springframework.beans.factory.support.DefaultListableBeanFactory 重要数据结构 /** Map of bean definition objects, keyed by bean name */private final Map<String, BeanDefinition> beanDefinitionMap new ConcurrentHashMap<String, BeanDefinition&…

c语言c++语言中静态变量,函数详解
静态变量,静态函数对于一些c,c的初学者来说,造成了不少的困扰。昨晚和寝室的室友讨论到这 个问题,想了一下,作了一下总结:虽然说c和c在很多人的眼里就是孪生姐妹,其实还是有很大区别的。在这里分…
深度解析MegEngine亚线性显存优化技术
基于梯度检查点的亚线性显存优化方法[1]由于较高的计算/显存性价比受到关注。MegEngine经过工程扩展和优化,发展出一套行之有效的加强版亚线性显存优化技术,既可在计算存储资源受限的条件下,轻松训练更深的模型,又可使用更大batch…

2016-04-28
2019独角兽企业重金招聘Python工程师标准>>> 1.提交form表单之前的函数(校验不错):onsubmit"return A();".2.解析XML的方式:2.1.DOM是用与平台和语言无关的方式表示XML文档的官方W3C标准,基于"树"(DocumentBuilderFactory).2.2.SAX的优点类似于…
Spring源码分析【8】-MyBatis注解方法不能重载
代码如下: 这是不可以的,会报错: 2016-08-18 11:36:00,267 [main] ERROR [org.mybatis.spring.mapper.MapperFactoryBean] - Error while adding the mapper interface com.unix21.mapper.UserMapper to configuration.java.lang.IllegalArgu…
不知道这 7 大 OpenCV 函数怎么向计算机视觉专家进阶?
作者 | Lazar Gugleta译者 | Arvin,责编 | 夕颜头图 | CSDN付费下载自视觉中国出品 | CSDN(ID:CSDNnews)计算机视觉和计算机图形学现在非常流行,因为它们与人工智能息息相关,它们主要的共同点是使用同一个OpenCV库&…

MySQL5.5复制新特性
MySQL5.5复制新特性一.MySQL5.5复制改进MySQL5.5版本对MySQL Replication进行了多项的改良,以提供数据的完整性,性能和应用灵活性更高水平。1.Semisynchronous Replication:主从之间的等待机制2.Slave fsync tuning:调整slave fsync包括sync-…

GitLab 8.7发布
日前,GitLab 8.7版发布。该版本中,添加了新功能和优化,并小幅提升了性能。\\8.7版本发布于8.6版本整整30天之后,跟上了每月22日次版本的进度。最新的版本增加了在单个问题上设置到期日期的支持以及以用户所在时区而不是UTC来显示所…
Java飞行记录器 JRockit Flight Recorder JFR诊断JVM的历史性能和操作
需要展开子树,复制堆栈跟踪,就可以查看到代码调用链,看到自己的业务代码,从而定位到最耗时的代码位置:

vi/vim: 使用taglist插件
本节所用命令的帮助入口: :help helptags :help taglist.txt 上篇文章介绍了在vim中如何使用tag文件,本文主要介绍如何使用taglist插件(plugin)。 想必用过Source Insight的人都记得这样一个功能:SI能够把当前文件中的宏、全局变量、函数等t…
学会这些Python美图技巧,就等女朋友夸我了
来源 | ZackSock(ID: ZackSock)Python中有许多用于图像处理的库,像是Pillow,或者是OpenCV。而很多时候感觉学完了这些图像处理模块没有什么用,其实只是你不知道怎么用罢了。今天就给大家带了一些美图技巧,让…

Linux下的softlink和hardlink(转)
Linux中包括两种链接:硬链接(hard link)和软链接(soft link),软链接又称为符号链接(symbolic link)创建命令:ln -s destfile/directory softlink #建立软连接 ln destfile hardlink #建立硬连接in…

ubuntu安装之后的最初几天一路杂记
我就随便写了啊,没那么正式,想到什么就写什么。 由于大四的毕业设计要做一个牵扯到linux的项目,最近不得不再次玩起了ubuntu,其实前一次(大二的时候吧)就已经在电脑上安装过一个ubuntu了,只不过…

百万级访问量网站的技术准备工作[转帖]
当今从纯网站技术上来说,因为开源模式的发展,现在建一个小网站已经很简单也很便宜,所以很多人都把创业方向定位在互联网应用。这些人里大多数不是 很懂技术,或者不是那么精通,而网站开发维护方面的知识又很分散&#x…
智能驾驶L2的黄金时代,打磨地图是关键
作者 | 自动驾驶从业者,中寰卫星黄亮出品 | AI科技大本营(ID:rgznai100)智能驾驶L2,以我们通俗的定义是,以高级辅助驾驶的产品为主的各种巡航产品,包括定速巡航,自适应巡航ACC,预见性…

css中的垂直居中方法
单行文字 (外行高度固定) line-height 行高, 将line-height值与外部标签盒子的高度值设置成一致就可以了。 height:3em; line-height:3em; 多行文字 图文结合(图和单行文字) 图文结合(图和多行文字…
U盘挂载,gedit,vi,文本模式中文乱码等等问题
U盘或硬盘挂载 首先,我们要查看一下磁盘的分区信息sudo fdisk -l (注意注意,是小写的L,不是1,也不是i) 这里可以看到我的硬盘情况,前面几个是win7系统下的C,D ,E ,F 盘。我现在是在图书馆,没…
一次对语音技术的彻底批判
作者 | Alexander Veysov译者 | 孙薇,编辑 | 夕颜出品 | AI科技大本营(ID:rgznai100)ImageNet的出现带来计算机视觉领域的突破发展,掀起了一股预训练之风,这就是所谓的ImageNet时刻。但与计算机视觉同样重要…

Windows下编译Chrome V8
主要还是参考google的官方文档: How to Download and Build V8 Building on Windows 同时也参考了一些其它的中文博客: 脚本引擎小pk:SpiderMonkey vs V8 Windows 下编译V8引擎-with visual sudio 2010 将google V8 编译成 dll v8学习笔记 步…

mysql子查询
一句话就是子查询的结果作为外部查询的比较条件 所谓子查询是指一个查询语句嵌套在另一个查询语句的内部的查询,也就是select里面还有select。 在select语句中先计算子查询,子查询的结果作为外层另一个查询的过滤条件。 子查询中常用的操作符有ÿ…

Ubuntu查看系统位数及版本
怎么查看本机cup是几位的呢?命令: more /proc/cpuinfo 该命令列出了很多cup信息 找到clflush size ,其值就是cup位数 我的是clflush size: 64 那怎么查看你所装的ubuntu系统是几位的呢?命令: uname -ar Linux wen-lapt…
百度翻译Q1 DAU增长40%,疫情期学生在线学习率猛增
5月11日,百度翻译公布最新的DAU(日活跃用户数量)相关数据,2020年Q1较上一个季度环比增长10%,较去年Q1同比增长40%。 此外,百度翻译还在一个季度内,将翻译的语种扩充了近7倍,目前百度…

Oracle 10g配置RMAN RECOVERY CATALOG
Oracle的RMAN配置信息默认存放在target数据库的控制文件中,当然也可以配置一个recovery catalog服务器来存储这些信息,下面是控制文件和恢复的特性比较,一般来说维护10台以下的oracle数据库备份,可以不需要配置恢复目录. Control …

android Spinner 例子
为什么80%的码农都做不了架构师?>>> 一、主xml:activity_main.xml <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"android:layout_width&q…
ubuntu下vim的配置
写在前面,我写本文的目的不在于教大家怎么来配置VIM,因为我是新手,我也是参考了各位前辈的方法,在此只是记录一下过程,当然我个人觉得更重要的是心得体会。其实大家可能也发觉,国内的抄袭转载现象很严重&am…
赠书 | 从阿里到Facebook,一线大厂这样做深度学习推荐系统
本文内容节选自《深度学习推荐系统》一书。由美国Roku推荐系统架构负责人、前Hulu高级研究员王喆精心编著,书中包含了这场革命中一系列的主流技术要点:深度学习推荐模型、Embedding技术、推荐系统工程实现、模型评估体系、业界前沿实践…………深度学习在…

使用 CAS 在 Tomcat 中实现单点登录
CAS 介绍 CAS 是 Yale 大学发起的一个开源项目,旨在为 Web 应用系统提供一种可靠的单点登录方法,CAS 在 2004 年 12 月正式成为 JA-SIG 的一个项目。CAS 具有以下特点: 开源的企业级单点登录解决方案。CAS Server 为需要独立部署的 Web 应用。…
Windows SDK 7.1 (包含directshow)安装配置
最近一直在做毕业设计的事情,需要利用directshow进行视频开发,但是现在单独的directshow包已经没有了,从directx9.0c开始directshow和directx分开发布,现在的directshow已经集成到windows SDK当中了。 但是说实话,由于…