解读 | 2019年10篇计算机视觉精选论文(上)
作者 | 神经小兮
来源 | HyperAI超神经(ID:HyperAI)
2019 年转眼已经接近尾声,我们看到,这一年计算机视觉(CV)领域又诞生了大量出色的论文,提出了许多新颖的架构和方法,进一步提高了视觉系统的感知和生成能力。因此,我们精选了 2019 年十大 CV 研究论文,帮你了解该领域的最新趋势。
我们看到,近年来,计算机视觉(CV)系统已经逐渐成功地应用在医疗保健,安防,运输,零售,银行,农业等领域,也正在逐渐改变整个行业的面貌。
而今年,CV 领域依然硕果累累,诞生了多篇优秀论文。我们选择了其中十篇论文,以供大家参考、学习,了解该领域的最新趋势与前沿技术。
这十篇论文涵盖了卷积网络的优化,计算机视觉中的无监督学习,图像生成和机器生成图像的评估,视觉语言导航,使用自然语言为两个图像标注变化等。
以下是我们精选的 10 篇论文目录,先一睹为快:
1.EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
EfficientNet:卷积神经网络模型缩放的反思
2.Learning the Depths of Moving People by Watching Frozen People
通过观看静止的人来学习移动的人的深度
3.Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation
增强的跨模态匹配和自我监督的模仿学习,用于视觉语言导航
4.A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction
非视线形状重构的费马路径理论
5.Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Object Detection
Reasoning-RCNN:将自适应全局推理统一到大规模目标检测中
6.Fixing the Train-Test Resolution Discrepancy
修复训练测试分辨率差异
7.SinGAN: Learning a Generative Model from a Single Natural Image
SinGAN:从单个自然图像中学习生成模型
8.Local Aggregation for Unsupervised Learning of Visual Embeddings
视觉聚合的无监督学习的局部聚合
9.Robust Change Captioning
强大的更改字幕
10.HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative Models
HYPE:人类对生成模型的 eYe 感知评估的基准
接下来,我们将从核心思想、关键成就、未来技术应用等方面,详细介绍这 10 篇论文。限于篇幅,我们将解读分为上、中、下三个篇章,欢迎大家持续关注后续内容推送。
1
《EfficientNet:卷积神经网络模型缩放的反思》
论文地址:https://arxiv.org/pdf/1905.11946.pdf
摘要
卷积神经网络(ConvNets)通常是在固定资源预算下开发的,如果有更多资源可用,则会进行扩展以获得更高的精度。在本文中,我们系统地研究了模型缩放,并发现仔细平衡网络的深度,宽度和分辨率,可以带来更好的性能。基于此观察结果,我们提出了一种新的缩放方法,该方法使用简单而高效的复合系数来均匀缩放深度/宽度/分辨率的所有维度。我们证明了此方法在扩展 MobileNets 和 ResNet 方面的有效性。
更进一步,我们使用神经体系结构搜索来设计一个新的基准网络,并对其进行扩展以获得称为 EfficientNets 的模型系列,该模型系列比以前的 ConvNets 具有更高的准确性和效率。特别是,我们的 EfficientNet-B7 在 ImageNet 上达到了最先进的 84.4%top-1 / 97.1%top-5 精度,同时比现有最佳 ConvNet 缩小了 8.4 倍,推理速度提高了 6.1 倍。我们的 EfficientNets 还可以很好地传输并在 CIFAR-100(91.7%),Flowers(98.8%)和其他 3 个传输学习数据集上达到最先进的精度,而参数要少几个数量级。源代码链接:https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet.。
本文核心思想
•CNN 的深度(层数),宽度和输入分辨率应以特定的比例放大,而不是任意放大。
•此外,由于模型缩放的有效性在很大程度上取决于基线网络,因此研究人员利用神经体系结构搜索来开发新的基线模型,并将其按比例缩放以获得一个称为 EfficientNets 的模型系列。
•您可以根据可用资源,选择 EfficientNets 中的一种模型。
关键成就
•EfficientNets 在 8 个数据集中的 5 个上,获得了最优的精度,平均参数减少了 9.6 倍。
•特别是,具有 66M 参数的 EfficientNet 在 ImageNet 上达到了 top-1 准确率 84.4%,top-5 准确率 97-1%,比之前最先进的 CNN - GPipe(参数557M )小了 8 倍,快了 6 倍。
此论文在人工智能界的荣誉
•该论文在机器学习领域的顶尖会议 ICML 2019 上被重点介绍。
未来的研究领域
作者在 Google AI 博客上表示,他们希望 EfficientNets「充当未来计算机视觉任务的新基础」。
有哪些可能的业务应用程序?
这项研究的结果对于商业环境中的计算机视觉应用非常重要,因为提出的方法可以更快,更便宜地从 CNN 获得更准确的结果。
在哪里可以获得实现代码?
•作者已发布了其 TensorFlow EfficientNet 实现的源代码:
https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet 。
•还可用 PyTorch 实现:
https://github.com/lukemelas/EfficientNet-PyTorch
2
通过观看静止的人来学习移动的人的深度
论文地址:https://arxiv.org/pdf/1904.11111.pdf
摘要
我们提出了一种在单目摄像机和人都可以自由移动的情况下,预测密集深度的方法。现有的用于从单目视频恢复动态非刚性物体的深度的方法,对物体的运动施加了强烈假设,并且可能仅恢复稀疏的深度。
在本文中,我们采用数据驱动的方法,从新的数据来源中学习人物深度先验:成千上万的人们模仿人体模型的互联网视频,即以各种自然姿势冻结,而手持摄像机则在现场浏览。因为人是静止的,所以可以使用多视图立体重建来生成训练数据。在推理时,我们的方法使用来自场景的静态区域的运动视差线索来指导深度预测。我们通过移动手持摄像机捕获的复杂人物动作的真实世界序列展示了我们的方法,显示了对前沿的单目深度预测方法的改进,并显示了使用我们预测的深度产生的各种 3D 效果。
本文的核心思想
•这项研究解决了在一个有人类主体的自然场景中,当主体和单个摄像机同时移动时,映射深度的挑战。
•作者使用 YouTube 上模仿人体模型的人的视频数据库 Mannequin Challenge(人体模型挑战数据集)训练了一个深度神经网络,该深度可以通过现有的立体声技术进行映射。
•该网络以 RGB 图像、人类区域掩码和环境初始深度作为输入,然后输出包括环境和人类在内的整个图像的稠密深度图。
•假设人类在移动而场景的其余部分是静止的,则通过视频中两个帧之间的运动视差来估计初始深度。
关键成就
•提出的模型与现有方法相比,能够为人类及其周围环境以明显更高的精度,重新创建移动场景的深度图。
•引入了 Mannequin Challenge 数据集,这是 2,000 个 YouTube 视频的集合,在这些视频中,当摄像机绕着场景转圈时,人们在其中姿势不动。
此论文在人工智能界的荣誉
•该论文在计算机视觉和模式识别的领先会议 CVPR 2019 上获得了最佳论文奖(荣誉奖)。
未来的研究领域是什么?
•扩展模型以适用于移动非人类物体,例如汽车和阴影。
•一次将两个以上的视图合并到模型中,以消除暂时的不一致。
有哪些可能的业务应用程序?
•产生精确的 3D 视频效果,包括合成景深,可感知深度的修补以及将虚拟对象插入 3D 场景。
•使用多个框架扩展视野,同时保持准确的场景深度。
在哪里可以获得实现代码?
•代码和模型在 GitHub 上地址为:
https://github.com/google/mannequinchallenge。
3
用于视觉语言导航的,增强跨模态匹配和自我监督模仿学习
论文地址:https://arxiv.org/pdf/1811.10092.pdf
摘要
视觉-语言导航(Vision-language navigation,VLN)任务是指在真实的三维环境中让具有实体的智能体进行导航并完成自然语言指令。在这篇论文中,我们研究了如何解决这个任务中的三个重点挑战:跨模态参照,不适定反馈,以及泛化问题。我们首先提出了一种新的强化跨模态匹配(RCM)方法,它可以通过强化学习的方式同时促进局部和全局的跨模态参照。
具体来说,我们使用了一个匹配指标,它成为了鼓励模型增强外部指令和运动轨迹之间匹配的固有反馈;模型也使用了一个推理导航器,它用来在局部视觉场景中执行跨模态参照。在一个 VLN benchmark 数据集上进行的评估结果表明,我们提出的 RCM 模型大幅超越已有模型,SPL 分数提高了 10%,成为了新的 SOTA。
为了提高学习到的策略的泛化性,我们还进一步提出了一个自监督模仿学习(SIL)方法,通过模仿自己以往的良好决策的方式探索未曾见过的环境。我们证明了 SIL 可以逼近出更好、更高效的策略,这极大程度减小了智能体在见过和未见过的环境中的成功率表现的差别(从 30.7% 降低到 11.7%)。
本文的核心思想
• 视觉语言导航需要一台机器来解析语言指令,将这些指令与视觉环境匹配,然后根据语言指令中的子短语来导航该环境。
• 为了解决这一艰巨的任务,研究人员介绍了一种新颖的跨模态匹配方法,该方法利用外部奖励和内在奖励来进行强化学习:
它包括一个推理导航器,该导航器从自然语言指令和本地视觉场景中学习,以推断出要重点关注的短语以及查找的位置。
该 agent 配备有一个匹配的注释程序,该注释程序根据从中重构原始指令的可能性来评估执行路径。
另外,细粒度的内在奖励信号会鼓励代理更好地理解文本输入,并对选择不符合指令的轨迹进行惩罚。
• 本文还介绍了一种自我监督的模仿学习(SIL)方法,用于探索以前看不见的环境:
导航器执行多次滚动,然后由匹配的注释器确定良好的轨迹,随后将其用于导航器模仿。
关键成就
•RCM 框架在以下方面优于 R2R 数据集上的最新视觉语言导航方法:
将 SPL 分数从 28% 提高到 35%;成功率提高了 8.1%。
•此外,使用 SIL 模仿 RCM agent 先前在训练集上的最佳体验,会导致平均路径长度从 15.22m 下降到 11.97m,并且对 SPL 度量的结果甚至更好(38%)。
此论文在人工智能界的荣誉
•该论文获得了三项「强烈接受」(Strong Accept)同行评审,并在计算机视觉和模式识别的顶尖会议 СVPR 2019 上被重点介绍。
未来的研究领域是什么?
•使用 SIL 方法探索其他看不见的环境。
有哪些可能的业务应用程序?
•引入的框架可以在许多实际应用中使用,包括:
按照指示在家庭或办公室中移动的家用机器人;
私人助理接受口头指示并在复杂的环境中导航以执行某些任务。
(*本文为AI科技大本营转载文章,转载请联系作者)
◆
精彩公开课
◆
推荐阅读
Github开源趋势榜Top 1:英伟达升级发布二代StyleGAN,效果更完美
讯飞轮值总裁胡郁:大数据是人工智能产业落地的必要保障| BDTC 2019
Google提出移动端新SOTA模型MixNets:用混合深度卷积核提升精度
20行代码发一篇NeurIPS:梯度共享已经不安全了
图灵奖得主Bengio:深度学习不会被取代,我想让AI会推理、计划和想象
VS Code 成主宰、Vue 备受热捧!2019 前端开发趋势必读
阿里云上万个 Kubernetes 集群大规模管理实践
公司倒闭,39 岁重新找工作,薪资不到 8000,太残酷
底层公链行业报告:国产公链未来应积极协助政企开发联盟链;跨链和分层等技术取得较大进展,链链互通将成为现实
你点的每个“在看”,我都认真当成了AI
相关文章:

不错的工具:Reflector for .NET
下载地址: http://www.aisto.com/roeder/dotnet/ 注意:下载时要输一些注册信息,输入用户名时,中间要加一个空格。

Possible MySQL server UUID duplication for server
在mysql enterprise monitor监控过程中出现这样的event事件,Topic: Possible MySQL server UUID duplication for server 事件,从该提示的描述来看貌似是存在重复的uuid,而实际上主从关系并不存在重复的uuid。主从关…

使用VC实现一个“智能”自增减线程池
工作中接手了一款产品的改造。因为该产品可能使用很多线程,所以产品中使用了线程池。(转载请指明来自BreakSoftware的CSDN博客) 线程池的一个优点是降低线程创建和销毁的频率;缺点是可能在比较闲的时候还存在一定数量的空闲线程。…

国内外财务软件科目结构的比较
科目结构是整个会计核算的基础。国内外财务软件都是任意定义科目的分段及科目编码长度,一般都能支持六段到九段。但科目结构在不同的国家有不同的规范,因而在不同的财务软件中也就有不同的控制。在科目分类上,国内外有明显的区别。国外财务软…
朋友圈装死,微博蹦迪,Python教你如何掌握女神情绪变化 | CSDN博文精选
作者 | A字头来源 | 数据札记倌很多人都是在朋友圈装死,微博上蹦迪。微信朋友圈已经不是一个可以随意发表心情的地方了,微博才是!所以你不要傻傻盯着女神的朋友圈发呆啦!本文教你如何用Python自动通知女神微博情绪变化,…

java异常笔记
Throwable是所有Java程序中错误处理的父类,有两种资类:Error和Exception。Error:表示由JVM所侦测到的无法预期的错误,由于这是属于JVM层次的严重错误,导致JVM无法继续执行,因此,这是不可捕捉到的…
2019最新进展 | Transformer在深度推荐系统中的应用
作者 | Alex-zhai来源 | 深度传送门(ID:deep_deliver)【导读】最近基于Transformer的一些NLP模型很火(比如BERT,GPT-2等),因此将Transformer模型引入到推荐算法中是近期的一个潮流。Transformer比起传统的L…

自己架设windows升级服务器
大部分对计算机比较熟悉的朋友都知道,通常安装好Windows 操作系统后要做的第一件事就是上Windows Update网站去给Windows 安装补丁程序,否则各种漏洞对系统就是一个很大的威胁。不过遗憾的是很多人还没有这样的意识,疏忽了给系统打补丁。这也…

内嵌IE网页窗口中消除IE默认脚本设置影响的方法
随着人们对客户端软件界面要求的不断提高,软件开发商面临着一个问题:如何快速廉价开发出各种丰富效果的UI界面。设计出一套丰富控件的界面库是不容易的,且产品经理丰富的想法和UED对效果的追求,往往会使程序员疲于编写这些“效果控件”。目前市面上使用的很多界面库是基于X…

win7 64位操作系统中 Oracle 11g 安装教程(图解)
1.下载Oracle 11g R2 for Windows版本,下载地址如下 官方网站: http://download.oracle.com/otn/nt/oracle11g/112010/win32_11gR2_database_1of2.zip http://download.oracle.com/otn/nt/oracle11g/112010/win32_11gR2_database_2of2.zip 2.解压两…

使用APIHOOK实现进程隐藏
今天翻出一些今年前写的代码。其中一个是09年,我帮一个读研的同学写的一个“无公害恶意”程序。大致要求就是要实现自启动和自我隐藏。我使用的都是些简单的技术,只是实现自我隐藏稍微让我花费了点时间写算法。其实这个算法也很简单,就是大学…
程序员创业前要做哪些准备?
作者 | hsm_computer出品 | CSDN博客在互联网时代,不少干IT的人白手起家,在短短的几年里通过努力干出了一番事业,有房有车有公司,在人前也很光鲜。这就吸引了更多的程序员想要通过自主创业来实现财务自由。殊不知,创业…

Flex编码过程
Flex编码过程当我们开发一个Flex程序,我们重复其他类型网络程序的过程,例如HTML,JSP,ASP和CFML。创建一个有用的Flex程序是很容易的:打开我们最喜欢的文本编辑器,例如Flex Builder,输入XML标签,编译成为SWF…

BufferedWriter
package JBJADV003;import java.io.*;public class BufferedWriterTest { public static void main(String[] args) { try { //创建一个FileWriter 对象 FileWriter fwnew FileWriter("c:\\myDoc\\hello.txt"); //创建一个BufferedWriter 对象 BufferedWriter bwnew…
使用VC内嵌Python实现的一个代码检测工具
最近组内准备整顿代码,领导让我写个简单的python脚本分析代码中注释的行数和无效注释。因为这个需求不是很急,所以我想把简单的事情做复杂点。于是就写了一个用VC内嵌Python,并通过模拟按键和发消息去控制其他软件的工具。(转载请…
Python如何实现24个微信大群万人同步转发直播?
作者 | 猪哥66来源 | CSDN博客今天我们来学习微信机器人多群转发做同步图文直播!一、背景介绍猪哥一年前在建Python学习群的时候就说过,要邀请企业大佬来学习群做直播。其实文章早就写好了,但是一直没有找到好的转发软件,所以耽搁…

ITSM实施三招[案例]
当前国外成熟的ITSM解决方案的实施成本相对比较高,使一些对成本较敏感的的IT部门,成为ITSM实施的一个真空区。对于国内起步阶段的ITSM(IT服务管理)实施来说,南航的ITSM实施之路是一个借鉴。 南航it环境 在各大航空公司…
lr手工添加关联函数的步骤:
点击“确定”后: 如何修改已经创建好的关联规则:

新闻内容实现分页
/**//// <summary> /// 新闻内容分页 /// </summary> /// <param name"content">新闻内容</param> /// <param name"extension">扩展名(aspx,html..)</param> /// <returns></returns>pub…
使用自己的数据集训练MobileNet、ResNet实现图像分类(TensorFlow)| CSDN博文精选
作者 | pan_jinquan来源 | CSDN博文精选之前写了一篇博客《使用自己的数据集训练GoogLenet InceptionNet V1 V2 V3模型(TensorFlow)》https://panjinquan.blog.csdn.net/article/details/81560537,本博客就是此博客的框架基础上,完…

VC下提前注入进程的一些方法1——远线程不带参数
前些天一直在研究Ring3层的提前注入问题。所谓提前注入,就是在程序代码逻辑还没执行前就注入,这样做一般用于Hook API。(转载请指明出处)自己写了个demo,在此记下。 我的demo使用了两种注入方式:1 远线程&a…

【转】用示例说明索引数据块中出现热块的场景,并给出解决方案
文章转自:http://www.luocs.com/archives/582.html

VC下提前注入进程的一些方法2——远线程带参数
在前一节中介绍了通过远线程不带参数的方式提前注入进程,现在介绍种远线程携带参数的方法。(转载请指明出处) 1.2 执行注入的进程需要传信息给被注入进程 因为同样采用的是远线程注入,所以大致的思路是一样的,只是在细…
芬兰开放“线上AI速成班”课程,全球网民均可免费观看
出品 | AI科技大本营(ID:rgznai100)去年,芬兰推出了一个免费的“人工智能线上速成班”项目,目的是向该国民众教授与新技术有关的知识。现在,作为送给全世界的圣诞节礼物,这个项目已面向全球网民开放访问&am…

deepin开通ssh
1、在终端打入下面命令进行安装sudo apt-get install openssh-server2、启用sshservice ssh start 反馈:start: Rejected send message, 1 matched rules; type"method_call", sender":1.56" (uid1000 pid2272 comm"start ssh ") int…

实现等待窗体的几种方式
实现等待窗体的几种方式:下面说明了五种可以实现等待窗体的方式,其中三种给出了代码。准备资料安全访问控件成员为了保证在创建控件的线程上调用控件成员,用下面的方式封装控件的属性、方法、其他自定义成员的访问。如: winWordControl.LoadD…
GitHub宝藏项目标星1.6w+,编程新手有福了
作者 | Rocky0429来源 | Python空间(ID: Devtogether)特别惭愧的是,虽然我很早就知道 GitHub,但是学会逛 GitHub 的时间特别晚。当时一方面是因为菜,看着这种全是英文的东西难受,不知道该怎么去玩ÿ…

VC下提前注入进程的一些方法3——修改程序入口点
前两节中介绍了通过远线程进行注入的方法。现在换一种方法——修改进程入口点。(转载请指明出处) 在PE文件中,其中有个字段标识程序入口点位置。我们通过这个字段,到达程序入口点。PE文件的结构我这儿不讨论(我会在之后…

如何产生签名applet能让applet能够访问本地资源
2019独角兽企业重金招聘Python工程师标准>>> 如何产生签名applet,以使applet能够访问本地资源? 在jdk1.1中,可以使用javakey命令来产生公钥,私钥,证书和签名的jar文件,详细资料请参考: http://java.sun.com/security/usingJavakey.html而java 2对签名机制做了比较大…