当前位置: 首页 > 编程日记 > 正文

腾讯优图吴永坚:迈向深度学习,我们面临模型训练与推荐的双重考验

整理 | 琥珀

出品 | AI 科技大本营

 

对腾讯优图的发展历程,吴永坚表示,优图是非常幸运的,幸运的同时也知道优图选对了方向,只要坚持,还是会有收获的。

 

12 月 15 日,以"新趋势、新技术、新应用"为主题的首届腾讯云+社区开发者大会上,腾讯优图实验室总监吴永坚分享了《计算机视觉在产业中的应用实践和前沿思考》。目前,腾讯优图在计算机视觉技术方面的产业研究和应用,涵盖了零售、安防、金融等领域的实际应用案例和经验。

 

640?wx_fmt=jpeg


以下为演讲整理,文章略有删减:

 

什么是计算机视觉?计算机视觉到底是一个什么样的问题?简言之,计算机视觉是一门研究如何让机器“看”的学问,涉及的重要一点是图像理解的技术。

 

大家也许会问为什么计算机视觉在近五年来发展特别快,同时也诞生了很多的创业公司?就本质来讲,计算机视觉能够将线上线下的东西关联,关联人、关联物,这是它能发展起来的一个重要原因。

 

简单介绍下,腾讯优图是腾讯旗下的一个顶尖 AI 实验室,主要专注于人脸、人体、交通、医疗、影像、自动驾驶等有关计算机视觉领域的前沿研究和落地应用,曾有过多次刷新的实验记录。

 

有几个数字需要了解:腾讯优图实验室可提供 12 个行业解决方案,接入超过 70 多个腾讯明星产业的产品,拥有超过 700 多个全球专利。

 

作为一个技术人员来说,我觉得这一组数据都是非常值得骄傲的。同时,实验室每年都会刷新一些新的世界纪录,在今年 10 月,腾讯优图推出了DSFD 人脸检测算法,在两个关于人脸检测的权威数据库 WIDERFACE 和 FDDB 上再次刷新世界纪录。

 

通过展示腾讯优图相关技术栈,可以看到腾讯优图聚焦计算机视觉,输出整体技术能力,希望覆盖到包括社交娱乐、安防、零售在内的各行各业。

 

尝试——从QQ空间到“天天P图”

 

在腾讯内部,我们最先落地的是社交娱乐,这也是我们这几年来一直去做的事情。优图团队在 2012 年成立,当时正处于 PC 互联网和移动互联网时代,我们需要不断将技术输入到 PC 端的相关应用中。而人脸技术在当时对腾讯甚至整个行业都很新。那我们为什么选择这个行业?选择人脸技术这个比较新的领域进行研究?

 

当时,我们发现 QQ 空间上有很多用户上传的图片素材,而很多用户公开的图片中有一半以上是和人的脸部信息相关的,比如自拍、合照等。我们认为这是下一个风口,需要提前布局。

 

虽然我们很早运用了人脸检测的技术,在 QQ 空间或 PC 端进行尝试,但怎么做都没有产生很大的价值。我们对选择的技术方向曾经有过纠结,但我们想既然用户上传这么多图片都有人脸,一定是我们没研究透彻,不等于它没有将来。

 

很幸运,我们等到了另一个移动端的爆款产品“天天P图”。随着 2015 年《武媚娘》电视剧火了起来,我们的技术如人脸美妆、人脸检测有了用武之地。可以说我们是非常幸运的,幸运的同时也知道我们赌对了方向,只要坚持,还是会有亮点的。

 

“天天P图”去年还做的一款变脸 H5 “我的军装照”,更成为现象级刷屏事件,访问量超过 10 亿次,作为创新方面的案例被人民日报重点收录。

 

延伸——从消费场景到产业端

 

从消费互联网到产业互联网,从基于消费场景的不断积累到探索产业场景的应用和落地,这成为腾讯多年发展历程里所经历的一个必然阶段。腾讯优图也开始尝试在产业互联网领域的落地,我们首先瞄准的是安防行业。2017 年,腾讯优图推出了面向治安管理场景的优图天眼智能安防平台,以及面向交通监督场景的智能交通平台。

 

以优图天眼智能安防平台为例,它支持上亿张人脸照的搜索,只要用户上传一张人脸照,就可以跟系统库进行核对反馈,毫秒级别识别速度,比如说对失踪老人和失踪儿童问题有很大的社会价值。我们在今年首届中国国际进口博览会上,以及深圳市人脸核审统一认证平台项目等等,得到了很多客户的认可。

 

除了安防外,我们还在零售领域进行了尝试。

 

这个赛道里最重要的一点就是如何连接好线上线下。如通过人脸检测设备,计算机视觉技术就可以做一个线上线下很好的关联,所以视觉AI将零售自然而言地关联了起来。

 

去年年底,我们跟腾讯云联合推出了“腾讯优Mall智慧零售系统”,可帮助企业用户打造“知人知面更知心”的智慧门店,借助计算机视觉能力为不同的顾客进行定制化推荐等。目前我们已与百丽国际旗下的滔博运动建立合作,今年 5 月,我们还联合微信支付为家乐福上海天山店提供了刷脸支付系统。

 

此外,我们还有在金融行业的尝试。

 

在金融领域最主要的应用是人脸核身的解决方案,它有效提升了银行、保险、证券等行业的核身效率。什么是核身技术?就是验证线下这个人是否是与身份证呈现的是同一个人的技术。这种技术包括身份证 OCR 技术、活体检测和人脸比对技术,综合保障人脸核身的准确性与有效性。目前我们跟腾讯旗下的微众银行有了很好的落地合作。

 

深化——深度学习模型推断与训练研究

 

刚才说了很多案例,接下来我介绍下腾讯优图在深度学习这股技术浪潮中对计算机视觉的研究与思考。

 

首先来看看图像在社交领域的探索。

 

短视频这一年非常火,如何进行实时装饰是一个非常大的技术挑战:

 

  • 第一点,需要有很高的计算精度,因为将装饰物投影到人脸上,看得到的人脸像素要非常稳,就是说从这一帧到下一帧,人脸位置尽量不能浮动,需要很高的精度;

  • 第二点是计算的速度,因为它覆盖了很多计算机型,需要一秒能够处理 100 帧以上;

  • 对模型的大小要求也非常高,因为现在前端的很多处理是放在手机端的,其容量及安装更新都有很大的限制,这就要求我们的大小只能控制在 5 兆以内。

  • 最后,就是需要特别广的平台支持,除了支持如苹果等高端机型以外,我们还要支持其他中低端的机型,至少实现90% 以上的机型覆盖。因为不同的机型计算芯片也不一样,对 CPU、GPU 都要有很好的兼容。

 

我们的首要诉求是,在面对移动端上的实时计算时,对人脸配置需要实时、兼容性好的深度学习前向推断框架。

 

同样在安防和商超场景的模型里,对人脸识别模型的需求也非常大。

 

  • 通过图中展示的学术里程碑,从 2012 年开始,深度学习的训练模型层数在不断加深,训练的能力也越来越强。从最开始的AlexNet/VGGNet模型,到最近的 DPN 结构,模型已经达到了上千层,并且有了更复杂的网络子模型。

  • 从优图的角度来看,业务持续落地带来更多的业务数据,2014 年我们训练的只有百万级别的数据,而现在已是 10 亿级别甚至更高,如果还是使用单机训练的话需要超过半年时间。

  • 在具体的场景里,如安防、娱乐、商超等,每个场景略有不同。如果对每个场景训练独立模型,周期太长,无法满足业务快速迭代的需求;此外百万级搜索参数规模已高达 4GB,带宽成为严重的通信瓶颈。

  • 面对计算、带宽瓶颈和大量定制化的训练需求,这需要我们要有一个大规模集群化平台统一训练和解决。

 

总结来讲,在传统机器学习迈向深度学习的过程中,我们始终面临模型训练与模型推断的挑战。现有的深度学习开源框架,面对这两方面的挑战,无法提供合适的解决方案。

 

实际上,我们内部研发了两个系统:

 

一个是高性能分布式训练平台RadpidFlow,可支持多机多卡训练,提供完整的定点量化解决方案。“定点量化”即意味着从原来的 32 位能够降到 8 位甚至更低,只有 8 位的训练模型才能更快的在前端跑起来,对带宽能够进行充分的利用。

 

另一个是跨平台的框架RadpidNet,能够针对不同的芯片异构设备进行深度定制和优化,资源占用少,计算速度快。

 

值得一提的是,去年,腾讯优图推出了一款移动端开源神经推断网络库 NCNN(RadpidNet的前身)。目前它不仅在业界所有开源深度前向推断框架中排名第一,而且已经被很多公司所应用,在今年被邀请加入了 Facebook ONNX 社区。当然,在我们看来NCNN还是有很多不能满足业务需求的,所以我们后来基于NCNN做了很多研发创新,形成了现在我们使用的RapidNet。

 

演进——性能不断提升,功耗持续优化

 

另外再说一下当前芯片的发展趋势。

 

大家经常会听到 CPU、GPU、AI 芯片,它们到底是什么关系?我简单总结一下芯片的发展趋势。

 

就芯片本身来讲,因面积有限,最开始 CPU 为保证通用处理性能会占用很多的控制单元,而这部分不是用来计算的,算力比较弱;到了 GPU 时代,也就是 NVIDIA 发展起来的一个重要时期,它能够把原来图形处理的设计单元与深度学习进行适配,算力强,但功耗比较高;再往后的专用 AI 芯片,专用卷积加速模块,为 AI 加速设计,包括很多的大公司或创业公司都在做这类的 AI 芯片。

 

通过腾讯优图过去几年尝试的真实场景中所积累的经验,可以发现两个很明显的发展趋势:

 

首先是性价比会越来越高,同样的价格,同一芯片所能提供的算力越来越强,这符合摩尔定律;但如果打通这些芯片横向对比,我们还发现一个规律,单位功耗所买到的算力也越来越高,也就是说,单位算力输出的情况下,功耗越来越低,这就引入了所谓“云+端”的概念。

 

这导致的另一个趋势是,计算力开始从云向端上走。如从前段时间的英伟达的GPU到现在的英特尔Movidus芯片和国内的华为海思芯片都在进行这方面的尝试,腾讯优图深度学习平台的研究方向也从原来的 CPU、GPU 往 AI 芯片的方向上走。

 

在 11 月初的腾讯全球合作伙伴大会上,腾讯优图推出了一系列智能硬件产品,其中包括优图人脸识别一体机、优图盒子及腾讯优图 AI 摄影机。通过软硬件协同,腾讯优图以更低成本、更佳性能和更优体验打造一体化的行业解决方案。

 

图中展现了我们当前在商超里面部署的三款硬件产品,可以看到:优图人脸识别一体机,可实现便利店无人值守自助进店、员工考勤签到等功能;优图盒子,通过摄像机进行前端人脸检测与识别,解决的是存量的问题;腾讯优图 AI 摄影机,解决的则是增量的问题,既可进行人脸检测,也可输出区域热力图。这是比较完整的软硬一体化的、“云+端”的商超场景下的解决方案。

 

目前,优图人脸识别一体机已经率先在上海佘山世茂洲际深坑酒店落地,用户只需“刷脸”就可完成会员注册与绑定、酒店用餐、结账免密支付等操作。

 

总结一下,腾讯优图以计算机视觉技术为核心,通过腾讯云以及腾讯 AI 开放平台将自身的 AI 技术能力输出给更多的开发者和企业,从最底层的计算平台,到中间的算法能力,再到安防、金融、零售、工业、教育等多个行业解决方案的能力输出。

 

最后打个广告,腾讯优图,你身边的视觉AI专家。

 

谢谢大家。

相关文章:

JS子窗口调用父窗口中的函数

很简单只需要一句话就可以了: window.opener.changeColor(); 这里的changeColor()就是父窗口中JS的一个函数 本文转自sucre03 51CTO博客,原文链接:http://blog.51cto.com/sucre/377011,如需转载请自行联系原作者

父亲节遇上端午节,你难道不回家吗?

创业者是孤独的 他们选择了更加艰险的人生。 同时,他们又是幸运的 因为他们背后有一位伟大的父亲。 决定创业时 他说:“大胆去闯吧,有爸爸在” 创业失败时 他说:“累了就回家,有爸爸在” 简单朴实的话语包含的是无私广…

蜘蛛爬虫网络高像素图片抓取工具[搜索引擎]

ZSpider—— 是一款Photo crawler工具。主要功能:免费抓取网络高像素图片,并下载到本地。使用说明:1. 软件环境:Windows XP, 20003, Vista, 2008, Windows 7.NET Framework 3.52. 双击Spider.exe,选择菜单,…

技术流 | 手把手教你用Python设计一个命令行界面

作者 | Yannick Wolff 译者 | 刘旭坤 整理 | Jane出品 | Python大本营对 Python 程序来说,完备的命令行界面可以提升团队的工作效率,减少调用时可能碰到的困扰。今天,我们就来教大家如何设计功能完整的 Python 命令行界面。对 …

送给那些还在迷茫的人

在现在这个高节奏的高效率的时代,两级分化特别厉害。有钱的会越来越有钱,没钱的要么安于现状,要么就越来越穷。  这种思维的产生根源就是不懂得把握机会,其实机会这个东西很奇妙,有时候我们自己也能发现有个机会就摆…

cisco路由器与QOS技术

1 前言随着因特网的普及,网络和人们生活的关系愈加密切,多样化的业务(数据、语音、视频等)应运而生。通常,这些业务对于通信条件的要求各不相同:数据业务对传递的可靠性要求非常高,误码率是最重…

shell介绍,命令历史,命令补全和别名 ,通配符, 输入输出重定向

2019独角兽企业重金招聘Python工程师标准>>> shell介绍 shell是一个命令解释器,提供用户和机器之间的交互; 支持特定语法,比如逻辑判断、循环; 每个用户都可以有自己特定的shell; CentOS7默认shell为bash (…

2018年Python开源项目Top100!只在这里!

整理 | Jane出品 | Python大本营2018 年的最后一天,营长为大家新鲜出炉了一份 2018 年 Python 开源项目 Top100 清单!这些项目都是营长每月通过收集 Mybridge 的数据整理而来的,是不是很棒!(我要在留言区看到你们夸我~…

亲君圆梦,创业一起来

你想像中的创业,是不是办公地点找好了吗?需要注册公司一步一步来呢做哪个行业好呢有没有什么赚钱的项目呢没有你想的那么困难只需要一部手机发个链接点一下 玩一年 创业不花一分钱 校园创业 只需动动手指想要带你一起赚钱一起飞吗?我在厦门亲…

半途而废的香山之旅

今天终于下定决心去香山了!大清早,就和同学小燕两个人买好了路上吃的东西。顶着北京早晨凉爽但有点阻的风骑车自行车向香山的方向进发了!这是我第一次去香山,路线也只能是摸索了!我本来是准备从北四环西路一直往西骑,然…

POwershell 更改文件权限

今天需要给某个网络共享的大文件重新配置一个权限。这个文件夹下面有很多乱七八糟的小文件,很多创建人甚至已经离开公司了。如果一个个地目录手动修改所有者权限,再打开继承关系,这样比较麻烦,这个时候自然是用脚本比较方便了。 1…

“清华帮”AI造富

作者 | 马程;编辑 | 罗丽娟来源 | 全天候科技【导语】如今的AI创业者中,有一大批人出自精英汇聚的 “姚班”和清华的各个院系。他们们凭借技术傍身迅速打造出一批AI独角兽,但在发展过程中,他们又不得不面对资本的压力,…

什么时候是创业最佳时机?7个最佳的励志创业时机GET了吗

1、年轻时人们常说“出名要趁早”,创业也是同样的道理,创业越早,成功的几率就越大。年轻是一种巨大的财富,是无知和天真的完美结合,吸取经验可以作为愚蠢决定的借口。有人说,和职业篮球运动员一样&#xff…

连接ORACLE实例

public class OracleConn {public static Connection getConn() {Connection conn null;try {Class.forName("oracle:jdbc.driver.OracleDriver");String url "jdbc:oracle:thin:localhost:1521:数据库SID";String user "数据库用户名";String…

用Inno Setup来解决.NetFramework安装问题

前段时间朋友接了一个项目,具体是开发一个安装在局域网内的软件,这个软件会定时连接局域网内的服务器来更新本地客户端的一些信息,因为在局域网内存在着多种不同的Windows版本,从WindowsXP、Windows2003及Windows2008到Windows7等…

我想,有间花房

你带我走进你的花房,我无法逃脱花的清香,我不知不觉忘记了方向,你说我世上最坚强,我说你世上最善良,你不知不觉和花儿一样也许每一位 爱花的姑娘,都想有一间属于自己 的花 房 ,在悠闲的午后&…

JS重写提示框(confirm)

<script language"javascript"> /** * 功能&#xff1a;显示提示窗口 * 作者&#xff1a;申楠 qq&#xff1a;38371354 email&#xff1a;amushen1yahoo.com.cn http;//amushen.cnblogs.com * 日期&#xff1a;2005-10-26 * 版本&#xff1a;1.1 * 备注&#…

实现通用人工智能还要多久?Hinton与AlphaGo之父这样回答

作者 | Klye Wiggers 译者 | 刘旭坤 责编 | 琥珀 出品 | AI科技大本营&#xff08;公众号ID&#xff1a;rgznai100&#xff09; 人工智能&#xff08;AI&#xff09;在即将过去的 2018 年进展神速&#xff0c;取得了很多令人瞩目的成就&#xff0c;比如预测用户感兴趣的音乐…

SQL Server 2008备份大全实战(七)

这一篇博文探讨下SQL Server 2008 备份的实际操作&#xff0c;事实上SQL Server 2008并不关心数据是备份到物理磁盘上还是磁带上&#xff0c;在SQL Server 2008数据库备份中&#xff0c;预定义的目标位置叫做设备。这里设备是对硬盘&#xff0c;磁带机等备份存储的通称。通俗些…

一个中心、三大原则,阿里这样做智能对话开发平台

作者 | 阿里巴巴高级算法专家 李永彬&#xff08;水德&#xff09;整理 | 一一出品 | AI科技大本营在阿里巴巴的X峰会上&#xff0c;阿里巴巴-智能服务事业部高级算法专家李永彬&#xff08;水德&#xff09;分享了小蜜智能开发平台的构建&#xff0c;他围绕平台来源、设计理念…

大学生目前普遍存在的问题,看你中招了没?

大学几多歌 上课时清醒没有发呆的多&#xff0c;发呆没有睡觉的多&#xff0c;睡觉没有玩手机的多。下课时自习没有吃零食多&#xff0c;吃零食没有看连续剧多&#xff0c;看连续剧没有游戏多。吃饭时吃早餐的没有吃午餐/晚餐的多&#xff0c;吃午餐/晚餐的没有点外卖的多。听讲…

javascript用感

最近两天一直与javascript打交道&#xff0c;现在想总结下所有值处 以下类型都是自己概括别名 1.创建型 例子: var objdocument.createElement("div");//例如创建个DIV var div1document.createElement("div"); div1.id"ddv"; div1.style.w…

Vulkan Tutorial 12 Fixed functions

Vertex input VkPipelineVertexInputStateCreateInfo结构体描述了顶点数据的格式&#xff0c;该结构体数据传递到vertex shader中。它以两种方式进行描述: Bindings:根据数据的间隙&#xff0c;确定数据是每个顶点或者是每个instance(instancing) Attribute 描述:描述将要进行…

年后跳槽BAT必看:10种数据结构、算法和编程课助你面试通关

作者 | javinpaul译者 | 大鱼编辑 | 一一出品 | AI 科技大本营进入 BAT 这样的巨头企业工作&#xff0c;无疑是很多程序员的梦想。但事实上&#xff0c;能通过这些公司高难度编程面试的只是一小撮人&#xff0c;大多数人因为理论知识和项目实践的匮乏导致在面试后很快被淘汰&am…

戚薇在冰箱放香水,是贫穷限制了想象力!

前有李诞冰箱里放面膜&#xff0c;今有戚薇冰箱里放香水&#xff0c;《拜托了冰箱》真是为观众们打开了新世界的大门。在昨晚播出的节目中&#xff0c;戚薇充分展现了她作为“美妆博主”的实力&#xff0c;冰箱里摆满的香水不仅让冰箱家族看得目瞪口呆&#xff0c;网友们也是激…

使用apache的activemq集合JMS处理异步消息

为什么80%的码农都做不了架构师&#xff1f;>>> 1&#xff1a;先去apache下载 http://activemq.apache.org/ &#xff0c;大约有25M&#xff0c;要有点耐心 直接打开就可以使用&#xff1b;当然它也提供了安装为windows service的方法 2&#xff1a;配置activemq 在…

中国大学生创业报告发布

由中国人民大学牵头&#xff0c;北京师范大学、上海交通大学等30余家高校、企业和社会组织联合跟踪调查的《2017年中国大学生创业报告近日发布。这份覆盖全国52所高校的报告表明&#xff0c;大学生创业意愿持续高涨&#xff0c;大学生创业层次也在不断提升&#xff0c;但大学生…

windows server 2012 application control policy

启用Application Control policy 组策略设置&#xff0c;可以实现基于用户或组的应用程序权限控制&#xff0c;有两点需要注意&#xff1a; 1、策略的顺序是从上到下执行的&#xff0c;allow的策略需要放在上面。 2、在客户端上&#xff0c;或者在远程桌面的服务器上需要启用ap…

你已经是个成熟的表格,该学会NLP了

作者 | 唐都钰、孙一博来源 | 微软亚洲研究院AI头条编者按&#xff1a;在我们的生活中&#xff0c;用语音查询天气&#xff0c;用必应搜索信息&#xff0c;这些常见的场景都离不开一种应用广泛的数据存储方式——表格&#xff08;table&#xff09;。如果让表格更智能一些&…

[Design] Flyweight Pattern

结构模式  结构模式描述如何将类或者类的对象结合在一起形成更大的结构。  结构模式描述两种不同的东西&#xff1a;类与类的实例。结构模式可以分为&#xff1a;类的结构模式和对象的结构模式两种。  类的结构模式&#xff1a;类的结构模式使用继承来把类、接口等组合在一…