当前位置: 首页 > 编程日记 > 正文

商汤62篇论文入选CVPR 2019,一览五大方向最新研究进展

640?wx_fmt=jpeg

(图源自视觉中国)


作为与ICCV、ECCV并称为计算机视觉领域三大国际会议之一,本届CVPR大会共收到5265篇有效投稿,接收论文1300篇,接收率为25.2%。

 商汤科技CVPR 2019录取论文在多个领域实现突破

作为国内CV领域的明星公司,商汤科技及联合实验室共有62篇论文被接收,其中口头报告(Oral)论文18篇,相比2018 CVPR共44篇论文入选,增幅超40%。

 

商汤科技CVPR 2019录取论文在多个领域实现突破:高层视觉核心算法——物体检测与分割、底层视觉核心算法——图片复原与补全、面向自动驾驶场景的3D视觉、面向AR/VR场景的人体姿态迁移、无监督与自监督深度学习前沿进展等。

 

值得一提的是,在CVPR 2019 Workshop NTIRE 2019视频恢复比赛中(包含两个视频去模糊和两个视频超分辨率),来自商汤科技、香港中文大学、南洋理工大学、中国科学院深圳先进技术研究院组成的联合研究团队获得了全部四个赛道的所有冠军。

 

视频恢复不是图像恢复的简单应用,因为其含有大量的时空冗余信息可以利用。目前行业最好的图像超分辨算法是RCAN恢复,但使用EDVR算法视频超分辨率的结果能看到更多的细节,效果大幅提升。作者发明了一种新的网络模块PCD对齐模块,使用Deformable卷积进行视频的对齐,整个过程可以端到端训练。而且在挖掘时域(视频前后帧)和空域(同一帧内部)的信息融合时,作者发明了一种时空注意力模型进行信息融合。此次比赛的EDVR算法代码已开源(开源地址:https://github.com/xinntao/EDVR)。


商汤论文精选:计算机视觉和深度学习技术最新突破


高层视觉核心算法——物体检测与分割


代表性论文:基于混合任务级联的实例分割算法


640?wx_fmt=png

 

对于很多计算机视觉任务来说,级联是一种经典有效的结构,可以对性能产生明显提升。但如何将级联结构引入实例分割的任务仍然是一个开放性问题。简单地将物体检测的级联结构Cascade R-CNN与经典的实例分割算法Mask R-CNN进行结合,带来的提升比较有限。

 

在这篇论文中,作者提出了一种新的框架Hybrid Task Cascade (HTC)。该框架是一个多阶段多分支的混合级联结构,对检测和分割这两个分支交替地进行级联预测,除此之外,他们还引入了一个全卷积的语义分割分支来提供更丰富的上下文环境信息。HTC在COCO数据集上相对 Cascade Mask R-CNN获得了1.5个点的提升。基于提出的框架,他们获得了COCO 2018比赛实例分割任务的冠军。


代表性论文:基于特征指导的动态锚点框生成算法


       640?wx_fmt=png


锚点框(Anchor)是现代物体检测技术的基石。目前主流的物体检测方法大多依赖于密集产生静态锚点框的模式。在这种模式下,有着预定义的大小和长宽比的静态锚点框均匀的分布在平面上。

 

本文反思了这一关键步骤,提出了一种基于特征指导的动态锚点框生成算法,该算法利用语义特征来指导锚点框生成的过程,具有高效率和高质量的特点。本算法可以同时预测目标物体中心区域和该区域应产生的锚点框的大小和长宽比,以及根据锚点框的形状来调整特征,使特征与锚点框相吻合,从而产生极高质量的动态锚点框。

 

本方法可以无缝使用在各种基于锚点框的物体检测器中。实验表明本方法可以显著提高三种最主流的物体检测器(Fast R-CNN, Faster R-CNN, RetinaNet)的性能。

 

底层视觉核心算法——图片复原与补全

 

代表性论文:基于网络参数插值的图像效果连续调节


640?wx_fmt=png

 

图像效果的连续调节在实际中有着广泛的需求和应用, 但是目前基于深度学习的算法往往只能输出一个固定的结果,缺乏灵活的调节能力来满足不同的用户需求。

 

针对这个问题, 本文提出了一种简单有效的方式来达到对图像效果的连续光滑的调节,而不需要进一步繁杂的训练过程。该方法能够在许多任务上得到应用, 比如图像超分辨率,图像去噪,图像风格转换,以及其他许多图像到图像的变换。

 

具体来说,作者对两个或多个有联系的网络的参数进行线性插值,通过调节插值的系数,便可以达到一个连续且光滑的效果调节。他们把这个在神经网络的参数空间中的操作方法称为网络参数插值。本文不仅展示了网络参数插值在许多任务中的应用,还提供了初步的分析帮助更好地理解网络参数插值。

 

代表性论文:基于光流引导的视频修复

      640?wx_fmt=png

 

本文关注视频中的修复问题,虽然近年来图片修复(Image Inpainting)问题取得了很大的进展,可是在视频上完成像素级的修复仍热存在极大的挑战。其困难主要在于:1)保证时序上的连续型 2)在高分辨率下实现修复 3)降低视频对于计算的开销。

 

本文致力于解决这三个问题,同时尽可能保证视频的清晰度。在研究中发现,保证视频的时序一致性,对于视频修复任务来说非常重要,这不仅仅保证了修复后的视频能够有良好的观看体验,同时还帮助从视频本身来抽取真实的像素块来实现更加高效地修复。

 

所以作者提出的框架主要由两部分组成,第一部分是通过深度神经网络实现光流的补全,之后通过补全的光流在整个视频间做像素的传导,从而形成一条在时序上保持一致的像素链。这样缺失的区域就可以通过它来实现修复,并且还能够保证视频的清晰度。

 

面向自动驾驶场景的3D视觉

 

代表性论文:PointRCNN: 基于原始点云的3D物体检测方法

        640?wx_fmt=png       

本文首次提出了基于原始点云数据的二阶段3D物体检测框架,PointRCNN。3D物体检测是自动驾驶和机器人领域的重要研究方向,已有的3D物体检测方法往往将点云数据投影到鸟瞰图上再使用2D检测方法去回归3D检测框,或者从2D图像上产生2D检测框后再去切割对应的局部点云去回归3D检测框。而这些方法中,前者在将点云投影到俯视图上时丢失了部分原始点云的信息,后者很难处理2D图像中被严重遮挡的物体。

 

作者观察到自动驾驶场景中物体在3D空间中是自然分离的,从而可以直接从3D框的标注信息中得到点云的语义分割标注。因此本文提出了以自底向上的方式直接从原始点云数据中同步进行前景点分割和3D初始框生成的网络结构,即从每个前景点去生成一个对应的3D初始框(阶段一),从而避免了在3D空间中放置大量候选框。

 

在阶段二中,前面生成的3D初始框将通过平移和旋转从而规则化到统一坐标系下,并通过点云池化等操作后得到每个初始框的全局语义特征和局部几何特征,他们将这两种特征融合后进行了3D框的修正和置信度的打分,从而获得最终的3D检测框。

 

在提交到KITTI的3D检测任务上进行官方测试时,作者提出的方法在只使用点云数据的情况下召回率和最终的检测准确率均超越了已有的方法并达到了先进水平。目前该方法的已将代码开源GitHub上。

 

面向AR/VR场景的人体姿态迁移

 

代表性论文:基于人体本征光流的姿态转换图像生成

      640?wx_fmt=png

 

本文主要关注人体姿态转移问题,即在给定一幅包含一个人的输入图像和一个目标姿态的情况下,生成同一个人在目标姿态下的图像。作者提出利用人体本征光流描述不同姿态间的像素级对应关系。

 

为此,他们设计了一个前馈神经网络模块,以原始姿态和目标姿态作为输入,迅速对光流场进行估计。考虑到真实光流数据难以获取,他们利用3D人体模型拟合图像中的人体姿态,生成对应姿态变化的光流场数据,用于模型训练。

 

在该光流预测模块的基础上,他们设计了一个图像生成模型,利用本征光流对人体的外观特征进行空间变换,从而生成目标姿态下的人体图像。他们的模型在DeepFashion和Market-1501等数据集上取得了良好的效果。

 

无监督与自监督深度学习前沿进展

 

代表性论文:基于条件运动传播的自监督学习

      640?wx_fmt=png


本文提出一种从运动中学习图像特征的自监督学习范式。(1)在自然场景中,物体的运动具有高度的复杂性,例如人体和常见动物都具有较高的运动自由度。(2)同时,从单张图片中推测物体的运动具有歧义性。现有基于运动的自监督学习方法由于没有很好地解决这两个问题,因而未能高效地从运动中学习到较好的图像特征。

 

为此,作者提出了条件运动传播这个自监督学习任务。训练时,他们将单张图像作为输入,将目标运动场中抽样出来的稀疏运动场作为条件,训练神经网络去恢复目标运动场。这样训练完的图像编码器可以用来作为其他高级任务的初始化。他们在语意分割、实例分割和人体解析等任务中相比以往自监督学习方法获得了较大提升。

 

经过分析,作者发现条件运动传播任务从运动中学习到了物体的刚体性、运动学属性和一部分现实世界中的物理规律。利用这些特性,他们将它应用到交互式视频生成和半自动实例标注,获得了令人满意的效果;而整个过程,没有用到任何人工的标注。

 

Open-MMLab计划,推动学术生态建设


现代AI系统日趋复杂,涉及很多的关键细节,这些细节的优化和调节需要长时间的专注和积累。因此,AI研究的未来推进,也将需要越来越多不同研究背景的团队共同参与,让每个团队专注于某一个方面的开拓与探索。

 

所以商汤科技启动Open-MMLab计划,希望在一个统一的代码架构上,逐步开放实验室积累的算法和模型。目前,商汤科技和香港中文大学多媒体实验室(MMLab)联合开源了两个重要的纯学术代码库MMDetection和MMAction。

 

MMDetection

 

MMDetection是一个基于PyTorch的开源物体检测工具包。该工具包采用模块化设计,支持多种流行的物体检测和实例分割算法,并且可以灵活地进行拓展,在速度和显存消耗上也具有优势。(https://github.com/open-mmlab/mmdetection)

 

目前已经支持单阶段检测器如SSD/RetinaNet/FCOS/FSAF,两阶段检测器如Faster R-CNN/Mask R-CNN,多阶段检测器如Cascade R-CNN/Hybrid Task Cascade等,另外支持许多相关模块如DCN/Soft-NMS/OHEM等,也支持混合精度训练。有很多最新的工作也在MMDetection上开源。

 

商汤团队还提供了完整的训练和测试框架,以及超过200个训练好的模型及其测试结果,希望能为社区提供统一的开发平台和测试基准,助力物体检测的相关研究。

 

MMAction

 

MMAction是一个基于Pytorch的开源视频动作理解工具包,囊括了视频动作分类、时域动作检测(定位)、时空动作检测等视频理解的基础任务。(https://github.com/open-mmlab/mmaction)

 

目前已经支持双流、TSN、SSN等动作分类和动作检测框架和基于Fast R-CNN的时空动作检测基线模型,支持Plain 2D/Inflated 3D/Non-local等流行的网络结构,支持UCF-101、Something-Something、Kinetics、THUMOS14、ActivityNet、AVA等视频数据集,并提供相关的预训练模型。

 

作为Open-MMLab系统开源项目的一部分,团队希望MMAction可以成为视频研究人员的测试平台,促进视频动作理解领域更上新台阶。


(*本文为 AI科技大本营整理文章,转载请微信联系 1092722531


公开课精彩推荐



想跟NVIDIA专业讲师学习TensorRT吗?扫码进群,获取报名地址,群内优秀提问者可获得限量奖品(定制T恤或者技术图书,包邮哦~)


NVIDIA TensorRT是一种高性能深度学习推理优化器和运行时加速库,可以为深度学习推理应用程序提供低延时和高吞吐量。通过TensorRT,开发者可以优化神经网络模型,以高精度校对低精度,最后将模型部署到超大规模数据中心、嵌入式平台或者汽车产品平台中。


640?wx_fmt=jpeg

640?wx_fmt=png

推荐阅读

  • 西交出身,辛书冕获CVPR 2019最佳论文,李飞飞团队获经典论文奖

  • 媲美Pandas?Python的Datatable包怎么用?

  • 蔡徐坤1亿转发量幕后推手被封,能否动摇饭圈文化?| 数据会说话

  • 解密Kernel:为什么适用任何机器学习算法?

  • Python最抢手、Java最流行、Go最有前途,7000位程序员揭秘2019软件开发现状

  • 一张图告诉你到底学Python还是Java!

  • 10分钟读懂什么是容器云?

  • 倒计时10天 | 堪称年度中国最具影响力的以太坊技术盛宴,为何不容错过?

  • 技术面试别扯智力题!


640?wx_fmt=png你点的每个“在看”,我都认真当成了喜欢

相关文章:

cvSaveImage保存图像

转自:http://blog.csdn.net/luhuillll/archive/2009/10/28/4739471.aspx opencv保存图象直接使用cvSaveImage,这个函数.但是windows位图的图象格式是RGBt格式,而opencv的图象存储格式是BGR. 这样导致保存的图象失真.在windows下查看图象好象变绿色了.所以在保存图象…

软工实践原型设计——PaperRepositories

软工实践原型设计——PaperRepositories 写在前面 本次作业链接队友(031602237吴杰婷)博客链接pdf文件地址原型设计地址(加载有点慢...)结对成员:031602237吴杰婷 & 031602636许舒玲原型设计工具:Axure RP 8PSP表格 PSP3.1Personal Software Process…

nagios+sendmail配置

以下为自己安装测试过的,如果有问题,大家一起讨论 系统环境:centos6.2 64位 最小化安装 一 安装nagios 见附件:nagios官方文档(nagios_nrpe20120929_web.pdf) 二 安装配置sendmail 我用hotmail邮箱接收nagi…

真正的博士是如何参加AAAI, ICML, ICLR等AI顶会的?

(图源自视觉中国)整理 | 一一出品 | AI科技大本营(ID:rgznai100)源于对学术的热爱,让很多人走上了博士这条求索之路,而热爱会让他们勤奋付出,勤奋让他们成为佼佼者。在刚刚过去的 ICML 大会上&a…

matlab图像滤波

转自:http://hi.baidu.com/wang%5Fpw/blog/item/36354a637ac87b48eaf8f879.html clc; clear all; Iimread(eight.tif); % %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% % %用中值滤波,多维滤波,使用中心为-4,-8的拉普 % %拉…

​2018你不得不看的国内CRM软件排行榜

2018你不得不看的国内CRM软件排行榜短短几年时间,CRM在中国的发展就已经非常迅猛,现在已经成为了管理软件增长最快的产业。在我们总结的CRM软件排行榜中,腾讯企点的CRM软件赫然摆在前列。而CRM在中国中小企业已经突破千万家,占全国…

二维物体形状识别方法比较

二维物体形状识别方法比较 摘 要 针对模式识别中二维物体的形状识别问题,以二值图像中的物体形状为主要研究对象,依次从特征提取、分类器设计两个主要层面对形状识别方法进行了全面综述,并分析了国内外研究现状,特别是近年来所取…

个人知识管理的10个误区

100个人,有100个对个人知识管理的理解。 当我们热烈的讨论“个人知识管理”的时候,也许我们讨论的根本不是一个东西:你理解的个人知识管理和他理解的个人知识管理根本不同。 拙作《你的知识需要管理》试图去建立一个个人知识管理内容的框架&a…

关于比特币现金升级问题讨论不断升温

过去几周,比特币现金的支持者一直在讨论定于今年11月15日推出的硬叉。大多数人都明白,目前有两个阵营有着完全不同的愿景。看来双方在短期内不会达成妥协。最近,随着时间的推移,双方都在测试某些特性,并发表了关于特定…

阿里AI摘图像识别竞赛WebVision桂冠,万物识别准确率创世界纪录

近日,第三届图像识别竞赛WebVision中,阿里AI击败了全世界150多支参赛队伍,获得冠军。 WebVision由谷歌、美国卡耐基梅隆大学、苏黎世联邦理工大学等机构联合全球视觉技术领域顶级学术会议CVPR发起,是目前图像识别领域最权威的竞赛…

做人工智能必看的45篇论文 | 附下载地址

而AI领域的发展会是IT中最快的。我们所看到的那些黑客技,其后面无不堆积了大量的论文。而且都是最新、最前沿的论文。从某种调度来讲,他们所用的技术跟书籍里的内容确实不是一个时代。要想与时俱进,就必须改变思路——从论文入手。今天给大家…

C# Socket编程(5)使用TCP Socket

TCP 协议(Transmission Control Protocol,传输控制协议)是TCP/IP体系中面向连接(connection oriented)的传输层(transport layer),TCP协议能够检测和恢复IP层提供的主机到主机的信道中可能发生的报文丢失、重复以及其他错误。由于TCP协议是一种面向连接协议:在使用它…

opencv 检测直线、线段、圆、矩形

转自:http://blog.csdn.net/byxdaz/archive/2009/12/01/4912136.aspx 检测直线:cvHoughLines,cvHoughLines2 检测圆:cvHoughCircles 检测矩形:opencv中没有对应的函数,下面有段代码可以检测矩形&#xff…

kaldi 源码分析(十) - gmm-init-mono.c分析

一直没有搞明白 hmm-gmm 之间是通过什么联系起来的,花了些时间查代码,看到最直观联系的就是 gmm-init-mono 工具。 gmm-init-mono 基础类通过上述看到,主要的配置都是 在 topo 文件中, 这里需要将一些常见的名称理解下来,这里直接…

你最需要了解的H3C交换机端口安全模式

以下内容摘自正在全国热销的《Cisco/H3C交换机高级配置与管理技术手册》一书(畅销经典——《Cisco/H3C交换机配置与管理完全手册》(第二版)的配套姊妹篇)。目前京东网和卓越网上都有“满150元减50元,满300元减100元”的…

TCL发布7项AI合作项目,聘任蒋涛为技术顾问

作者 | 夕颜出品 | AI科技大本营(ID:rgznai100)2019 年 6 月 14 日,TCL 举办了以“技术无疆界,合作赢未来”为主题的技术合作开放大会。会上,TCL 面向全球发布了 13 项技术合作项目,其中包括 7 项人工智能技…

Microsoft Platform SDK Febrary 2003更新vc6的SDK网址

Microsoft Platform SDK Febrary 2003更新vc6的SDK网址,目前找到3处,分别为: 1、http://www.x86pro.com/plus/view.php?aid100 2、http://blog.csdn.net/Mobidogs/archive/2007/02/22/1512620.aspx 3、http://blog.chinaunix.net/u1/34831…

11岁姑娘挑战8分钟编程小程序!蚂蚁金服董事长井贤栋:欢迎加入

小蚂蚁说: 9月19日,在阿里巴巴云栖大会现场,一位年仅11岁的小学生万海妍报名参加了支付宝8分钟小程序挑战赛,成为现场最年轻选手。据悉,蚂蚁金服董事长兼CEO井贤栋在会后对万海妍十分赞赏,向她发出邀请&…

MST配置详解

一、 组网需求1. 网络中所有设备都属于同一个MST域。SW1和SW2为汇聚层设备,SW3和SW4为接入层设备。 2. 通过配置MSTP,使不同VLAN的报文按照不同的MSTI转发: VLAN10的报文沿MSTI1转发,VLAN30沿MSTI3转发&#…

CImg库的一个简单例子

转自:http://www.cppprog.com/2009/0424/106.html CImg是一个跨平台的C的图像处理库,提供了加载、处理、显示、保存等一系列功能,其中的图像处理功能尤其强大。 首先,建议先到这里欣赏一下使用CImg代码做的Demo,就是它…

继AutoML后,第四范式发布软硬一体化AI集成系统SageOne

作者 | 夕颜出品 | AI科技大本营(ID:rgznai100)6 月 20 日,AI产品和服务提供商第四范式宣布发布最新 AI 系列产品SageOne Appliance软硬一体化AI集成系统,性能较市面开源工具或GPU解决方案至少提高6倍。这是继 2018 年9 月 18 日第…

Apache 基金会宣布 Apache Pulsar 毕业成为顶级项目

开发四年只会写业务代码,分布式高并发都不会还做程序员? Apache 软件基金会宣布,Apache Pulsar 已经成功地从孵化毕业,成为基金会的一个新的顶级项目。Pulsar 是一个分布式的消息发布/订阅传递平台,旨在实现可扩展性…

CI报Disallowed Key Characters的解决

用CI框架时,有时候会遇到这么一个问题,打开网页,只显示 Disallowed Key Characters 错误提示。有人说 url 里有非法字符。但是确定 url 是纯英文的,问题还是出来了。但清空浏览器历史记录和cookies后。 刷新就没问题了。有时候。打…

刷新中文阅读理解水平,哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型...

作者 | HFL来源 | 哈工大讯飞联合实验室(ID:rgznai100)为了进一步促进中文自然语言处理的研究发展,哈工大讯飞联合实验室发布基于全词覆盖(Whole Word Masking)的中文BERT预训练模型。我们在多个中文数据集上得到了较好…

CImg库中部分函数的作用和用法

部分内容来自于CImg参考手册或CImg的Doxygen手册 1、宏cimg_usage(usage):可以被用来描述程序的目的和使用情况。它通常被插入到 int main(int argc, char **argv)的定义之后。 参数:usage:描述程序目的和使用情况的字符串。 前置条件:使用ci…

golang通过itemid获取zabbix graph监控图

2019独角兽企业重金招聘Python工程师标准>>> #简述 本文将使用golang和第三方http client 库gorequest编写。如需要只使用golang 标准库可以参考我的另外一篇文章golang通过itemid获取zabbix graph监控图 #F&Q 为什么是golang? 网上很容易就能找到使…

n后问题-回溯法

问题描述: 在n*n的棋盘上放置彼此不受攻击的n个皇后。按国际象棋的规则,皇后可以与之处在同一行或者同一列或同一斜线上的棋子。 n后问题等价于在n*n格的棋盘上放置n皇后,任何2个皇后不放在同一行或同一列的斜线上。 算法设计: |i…

CImg库介绍

转自:http://www.cppprog.com/2009/0424/106.html CImg是一个跨平台的C的图像处理库,提供了加载、处理、显示、保存等一系列功能,其中的图像处理功能尤其强大。 首先,建议先到这里欣赏一下使用CImg代码做的Demo,就是它…

谷歌、阿里们的杀手锏:三大领域,十大深度学习CTR模型演化图谱

作者 | 王喆来源 | 转载自知乎专栏王喆的机器学习笔记今天我们一起回顾一下近3年来的所有主流深度学习CTR模型,也是我工作之余的知识总结,希望能帮大家梳理推荐系统、计算广告领域在深度学习方面的前沿进展。随着微软的Deep Crossing,Google的…

MariaDB 基金会 CEO 宣布将于 10 月 1 日卸任

开发四年只会写业务代码,分布式高并发都不会还做程序员? 近日,MariaDB 基金会 CEO Otto Keklinen 在官网宣布自己将在今年 10 月 1 日正式卸任 CEO,转而退居后线,以 CEO 特别顾问的身份辅助新 CEO 顺利渡过过渡期。从…