29篇计算机视觉领域论文,篇篇惊艳!内附链接!
作者 | 微软亚洲研究院
本文经授权转载自微软研究院AI头条(ID:MSRAsia)
1. Deep High-Resolution Representation Learning for Human Pose Estimation
论文链接:https://arxiv.org/pdf/1902.09212.pdf
该论文在提出了一个新的网络High-Resolution Network (HRNet),可以学到空间精度高语义强的高分辨率表。该网络设计的不同于其他主流网络的有两大关键点:一直保持高分辨率表征;并联不同分辨率的卷积分支。在人体骨架点检测以及目标检测、图像语义分割、人脸 关键点检测等视觉问题上取得了领先的结果,被同行广泛接受和使用。该论文发表在CVPR 2019。
开源地址:https://github.com/HRNet
https://github.com/leoxiaobin/deep-high-resolution-net.pytorch
2. VL-BERT: Pre-training of Generic Visual-Linguistic Representations
论文链接:https://arxiv.org/pdf/1908.08530.pdf
该文发表于ICLR 2020,是最早提出图像和文本联合预训练模型的论文之一。研究员提出了一种新的通用的多模态预训练模型VL-BERT,该模型采用简单而强大的Transformer模型作为主干网络,并将其输入扩展为同时包含视觉与语言输入的多模态形式,适用于绝大多数视觉语义下游任务。为了让VL-BERT模型利用更为通用的特征表示,研究员在大规模图片描述生成数据集Conceptual Captions中进行VL-BERT的预训练,实验证明此预训练过程可以显著提高下游的视觉语义任务的效果,包含视觉常识推理、视觉问答与引用表达式理解等。
3. A Relation Network Based Approach to Curved Text Detection
论文链接:https://icdar2019.org/list-of-accepted-papers/
该论文创新地提出了一套基于关系网络(Relation Network)的新型文字检测框架,有效提升了通用文本行检测的准确率。该论文发表在ICDAR 2019会上。
4. An Anchor-free Region Proposal Network for Faster R-CNN-based Text Detection Approaches
论文链接:https://www.springerprofessional.de/en/an-anchor-free-region-proposal-network-for-faster-r-cnn-based-te/17013452
该论文提出了一种称为anchor-free RPN的物体检测算法来解决经典RPN算法无法有效预测任意方向文本框的问题。该算法不仅在单词级别的文字检测任务上取得很好的结果,而且类似思想在当前物体检测领域也成为主流。该论文发表在IJDAR期刊上。
5. Scalable Training of Deep Learning Machines by Incremental Block Training with Intra-Block Parallel Optimization and Blockwise Model-Update Filtering
论文链接:https://www.microsoft.com/en-us/research/wp-content/uploads/2016/08/0005880.pdf
该论文提出了一种通用分布式优化算法,在增量式学习框架内引入逐块模型更新滤波(BMUF)算法,在线性加速深度学习模型训练的同时,保持模型的准确率。该论文发表在ICASSP 2016会上。
6. Compressing CNN-DBLSTM Models for OCR with Teacher-Student Learning and Tucker Decomposition
论文链接:https://www.sciencedirect.com/science/article/abs/pii/S0031320319302547
该论文提出了一种针对CNN-DBLSTM模型中运算代价最大的CNN部分进行压缩加速的方法,即首先在LSTM部分的指导下,对CNN部分进行知识蒸馏,然后利用Tucker分解算法,对CNN进行进一步压缩和加速,由此得到的模型运行时相比原始模型加速14倍,解决了部署难题。该论文发表在Pattern Recognition期刊上。
7. An Open Vocabulary OCR System with Hybrid Word-Subword Language Models
论文链接:https://ieeexplore.ieee.org/abstract/document/8270022
该论文提出了一种以词与子词为基本语言单元的混合语言模型,来解决光学字符识别(OCR)中的集外词(Out of Vocabulary, OOV)问题。该论文发表在ICDAR 2017 会上。
8. Relation Networks for Object Detection
论文链接:https://arxiv.org/pdf/1711.11575.pdf
在CVPR 2018上,该论文提出了一种即插即用的物体关系模块,第一次实现了完全端到端的物体检测器,该方法也是自注意力模型在视觉领域最早的应用之一。
9. Learning Region Features for Object Detection
论文链接:https://arxiv.org/pdf/1803.07066.pdf
在ECCV 2018上,该论文给出了区域特征提取的通用表达式,并提出了一个完全可学习的区域特征提取方法。
10. Local Relation Networks for Image Recognition
论文链接:https://arxiv.org/pdf/1904.11491.pdf
在ICCV 2019上,该论文提出了一种新的完全无需卷积的神经网络,在ImageNet图像分类基准数据集上取得了超越卷积神经网络的准确率。
11. GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond
论文链接:https://arxiv.org/pdf/1904.11492.pdf
在ICCVW 2019上,该论文改变了学界对于流行的非局部网络工作机制的认识,并提出了一个新的高效的全局关系网络。
12. An Empirical Study of Spatial Attention Mechanisms in Deep Networks
论文链接:https://arxiv.org/pdf/1904.05873.pdf
在ICCV 2019上,研究员提出了一种关于空间注意力机制的通用表达形式,并分析了这一通用表达形式中不同的表达项在各种视觉任务上的表现,为今后空间注意力机制的应用提供参考。
13. Deep Metric Transfer for Label Propagation with Limited Annotated Data
论文链接:https://arxiv.org/pdf/1812.08781.pdf
该论文提出了一种新的半监督学习/迁移学习/小样本学习范式,该范式的核心是利用无监督预训练方法来获得初始图像特征,其在半监督学习上取得近20%(绝对值)的准确率提升,文章发表在ICCVW 2019上。
14. Deformable ConvNets v2: More Deformable, Better Results
论文链接:https://arxiv.org/pdf/1811.11168.pdf
在CVPR 2019上,该论文提出了更强的可变形卷积网络,相比标准卷积其能广泛且显著提升各种视觉感知任务的准确率,包括图像分类,物体检测,语义分割,物体跟踪等等,例如在COCO物体检测基准测试中,相比相同条件下的标准卷积网络能取得近7个点的提升。
15. RepPoints: Point Set Representation for Object Detection
论文链接:https://arxiv.org/pdf/1904.11490.pdf
边界框是视觉物体表示的标准方法,在ICCV 2019上,该论文提出了一种基于点集来替代边界框的物体表示新方法,这一新方法具有更强的表示能力和可解释性。基于这一新的表示,得到了当时最好的无锚点检测器。这一表示方法最近还被推广到实例分割和人体姿态估计中。
16. A Twofold Siamese Network for Real-Time Object Tracking
论文链接:https://arxiv.org/abs/1802.08817
该文章发表在CVPR 2018上,提出了双路孪生网络进行视觉物体跟踪的方案,简称为SA-Siam,其中S代表的是语义(Semantic)分支,而A则代表外观(Appearance)分支。两个分支既独立又互补,取得了极佳的跟踪效果。
17. SPM-Tracker: Series-Parallel Matching for Real-Time Visual Object Tracking
论文链接:https://arxiv.org/abs/1904.04452
在CVPR 2019上,该文章提出了双阶段匹配和创新的串并联结构实现物体的鲁棒、精准跟踪。SPM跟踪器在粗匹配阶段侧重语义理解,在细匹配阶段侧重外观表达,并通过不同训练方式获得了理想的平衡。
18. Unsupervised High-Resolution Depth Learning from Videos With Dual Networks
论文链接:https://arxiv.org/abs/1910.08897
文章发表在ICCV 2019上,提出了基于双网络结构的深度估计学习架构,使用较深的网络提取低分辨率输入图像中的全局特征信息,使用较浅的网络提取高分辨输入图像中的细节特征信息,再将二者结合用来估计高分辨率的深度。与以往方法相比,该方法以更低的计算量获取了更好的深度估计效果,特别是对于图像的精细区域和远距离区域等对分辨率敏感区域的深度估计结果提升显著。
19. Moving Indoor: Unsupervised Video Depth Learning in Challenging Environments
论文链接:https://arxiv.org/abs/1910.08898
在ICCV 2019上,该文章提出了更为鲁棒的光流重建监督信号,以解决难度更大的室内场景下的无监督深度估计。与传统的图像重建信号相比,针对纹理缺失严重的室内场景,利用稀疏到稠密的光流估计方法获取稳定的光流估计,并将光流信息输入相机估计网络克服相机运动复杂的难题,从而实现了深度布局更为复杂多样的室内场景下的稳定的深度估计。
20. Cross View Fusion for 3D Human Pose Estimation
论文链接:https://arxiv.org/abs/1909.01203
文章发表在ICCV 2019上,提出了首个跨摄像头的特征融合网络,通过将“容易”视角的特征融合到“困难”视角,有效地解决了遮挡问题。在Benchmark数据集上显著降低了三维姿态的估计误差。
21. Optimizing Network Structure for 3D Human Pose Estimation
论文链接:https://www.chunyuwang.org/img/ICCV_2019_CiHai.pdf
在ICCV 2019上,该文章提出了基于人体模型的网络Locally Connected Network,该网络参数量少,能够有效缓解Over-fitting。
22. Online Dictionary Learning for Approximate Archetypal Analysis
论文链接:https://www.microsoft.com/en-us/research/publication/online-dictionary-learning-for-approximate-archetypal-analysis/
该文章发表在ECCV 2018上,提出了人体姿态的低维表达方法,通过投影的方式保证姿态估计的正确性。
23. Part-Aligned Bilinear Representations for Person Re-identification
论文链接:http://arxiv.org/pdf/1804.07094.pdf
该文在作者前面的工作弱监督 Deeply-Learned Part-Aligned Representations(https://arxiv.org/pdf/1707.07256.pdf)基础上,引进了人体姿态来帮助人体部件对齐,提升了行人重识别性能。该文发表在ECCV 2018。
24. Semantics-Aligned Representation Learning for Person Re-identification
论文链接:https://arxiv.org/abs/1905.13143
本文即将发表在AAAI 2020上,提出了基于语义对齐的特征学习网络进行行人重识别。我们通过引入对人体空间语义对齐的全视图的重建任务,实现了赋予网络由单(视角)张图像预测全视角人体外观的能力,解决了行人重识别中图像间空间语义不对齐的难题。
25. Uncertainty-aware Multi-shot Knowledge Distillation for Image-based Object Re-identification
论文链接:https://www.msra.cn/wp-content/uploads/2020/01/Uncertainty-aware-Multi-shot-Knowledge-Distillation-for-Image-based-Object-Re-identification.pdf
将发表在AAAI 2020上,通过对同一目标的不同图片的信息的联合学习,获取更全面的对该目标的特征表达,并利用Teacher-Student网络来针对性地将学到的更全面的信息传递给学生网络(单张图像为输入),实现了测试阶段仅需要单张图片作为输入,但更全面和高判别力的特征提取。
26. Mask-Guided Portrait Editing with Conditional GANs
论文链接:https://arxiv.org/abs/1905.10346
文章发表于CVPR 2019,本模型解决了人脸合成中的三个问题:多样性,高质量和可控性。在本文中,研究员们提出了一个基于cGAN的框架,可以分别对眼睛、鼻子、嘴、皮肤和头发进行编辑。我们的模型有许多应用,例如人脸编辑,改变发型,放大眼睛,或者使其微笑。此外,研究员们可以局部修改现有人脸的外观。
27. Learning Pyramid Context Encoder Network for High-Quality Image Inpainting
论文链接:http://openaccess.thecvf.com/content_CVPR_2019/papers/Zeng_Learning_Pyramid-Context_Encoder_Network_for_High-Quality_Image_Inpainting_CVPR_2019_paper.pdf
论文发表CVPR 2019, 基于“由深到浅,多次补全”的构想,提出了一种金字塔式注意力机制的上下文编码网络,可以生成语义合理且纹理细节丰富的图像内容。
28. Learning 2D Temporal Adjacent Network for Moment Localization with Natural Language
论文链接:https://arxiv.org/pdf/1912.03590.pdf
论文发表在AAAI 2020,提出了时序信息处理问题中一种全新的建模思路——二维时间图,在基于自然语言描述的视频内容定位和视频内人体动作检测两个任务上验证了其有效性。
29. Structured Knowledge Distillation for Semantic Segmentation
论文链接:https://arxiv.org/abs/1903.04197v1
文章发表在CVPR 2019。该文提出了结构化的知识蒸馏方法,来蒸馏图像分割中的全局结构化信息以提升轻便网络的性能。
开源地址:https://github.com/irfanICMLL/structure_knowledge_distillation
(*本文由于AI科技大本营转载,转载请联系原作者)
◆
精彩推荐
◆
为了助力对抗疫情,减少线下人员流动和聚集,CSDN与 PyCon 官方授权的 PyCon中国社区合作,举行「Python开发者日」在线系列峰会。通过精彩的技术干货内容、有趣多元化的在线互动活动等,让您足不出户便可与大咖学习交流,共同渡过抗疫攻坚期。扫码入群咨询详情!
推荐阅读
AAAI 2020论文解读:商汤科技发布新视频语义分割和光流联合学习算法
2020年趋势一览:AutoML、联邦学习、云寡头时代的终结
微服务架构何去何从?
百度地图可查49城患者活动轨迹;谷歌申请新操作系统商标;VS Code 1.42发布
互联网人集体的远程办公终将是昙花一现?
远程办公众生相:“云”吃饭、被窝打卡、梳妆台编程.....
你点的每个“在看”,我都认真当成了AI
相关文章:
绑定CPU逻辑核心的利器——taskset
在工作中,我们可能遇到这样的需求:如何评估程序在一核和多核下的工作效率差距?最简单的想法是找一台只有一个CPU逻辑核的机器和一台有多个逻辑核的机器。(转载请指明出于breaksoftware的csdn博客)但是这种方式有明显的…

IDE set arguments
2019独角兽企业重金招聘Python工程师标准>>> code::blocks -> Project -->set programs arguments qtcreater -> Projects --> Build&Run --> Run --> Arguments xcode -> super < -->build-->arguments 转载于:https://my.osch…
2020年AI如何走?Jeff Dean和其他四位“大神”已做预测!
作者 | Khari Johnson译者 | 王艳妮 责编 | 胡巍巍出品 | AI科技大本营(ID:rgznai100)人工智能已经不再是随时准备改变世界的状态,而是已经在改变世界。在迈入2020年这新的一年、以及新的20年代之际,笔者请到了AI方面最…
zookeeper快速入门——简介
在几十年前,一个独立的计算机上往往部署着一套完整的应用系统。当时因为网络稳定性及速度的限制,将相关联的服务部署在一台机器上,让它们使用系统机制通信——比如管道,文件等,往往是最稳定和最高效的。然而随着网络技…

为TextMate扩展全屏功能
今天看代码,感觉TextMate那个窗口太小了点,越看越不爽,就想把它弄成全屏的。于是搜索啊搜索啊搜索,终于让我找到一款很yd的小软件,叫megazoomer, 下载地址是:[url]http://ianhenderson.org/mega…

hdu1406
一道很水很水的题!!!!!!!!!!#include<iostream> using namespace std; int main(){int num1,num2,i,k,j,sum,n;while(cin>>n){ while(n--){cin&g…
zookeeper快速入门——部署
zookeeper有两种运行模式:独立模式和仲裁模式。独立模式就是只运行一个Zookeeper Server,这自然没法解决服务崩溃导致系统不可用的问题。仲裁模式就是以集群的方式运行Zookeeper Server,这样在Leader不可用时,集群内部会发起选举&…
2020,人工智能和深度学习未来的五大趋势
来源 | forbes编译 | Shawn编辑 | Carol出品 | AI科技大本营(ID:rgznai100)虽然近年来人工智能经常成为热门议题,但它还远未实现真正的成就。人工智能技术发展的主要障碍在于投资成本,投资成本影响短期内的回报。而当时…

电脑常见故障 1
死机恐怕是所有电脑故障里面最常见的一种了,但是死机的原因是多种多样的。 如果从硬件入手,先是看看机箱里的温度是否很高,要检查CPU的风扇是否正常运转,并要注意电脑的散热问题;其次可检查内存,检查完内存…

linux常用命令-date-clock-hwclock-type-whois--help-man-info-cal
date:时间管理电子表:晶体震荡器 石英震荡器Linux:rtc 硬件时间NTP:网络时间协义硬件时间(命令:clock)系统时间(命令:date)type COMMAND 判断命令是内部命令…
内存、性能问题分析的利器——valgraind
valgrind是一个知名的分析软件集。我们可以使用它进行内存、多线程及性能等各种问题的分析。它采用非侵入方式,所谓非侵入方式是指:我们不用在代码中插入分析工具的库。这对于开发者来说是友好的。因为如果要将工具编译到文件中,或者要调用其…
这是我见过最卡通的 Python 算法了,通俗易懂
普通程序员,不学算法,也可以成为大神吗?对不起,这个,绝对不可以。可是算法好难啊~~看两页书就想睡觉……所以就不学了吗?就一直当普通程序员吗?如果有一本算法书,看着很轻松……又有…

WebService(Axis2)视频教程与QQ交流群发布
Axis2是目前比较流行的WebService引擎。WebService被应用在很多不同的场景。例如,可以使用WebService来发布服务端 Java类的方法,以便使用不同的客户端进行调用。这样可以有效地集成多种不同的技术来完成应用系统。WebService还经常被使用在SOA中&#x…

fragment类onresume里面刷新操作处理
今天项目中涉及fragment中嵌套多个fragment,但是要根据tag去展示对应的fragment,而不是默认展示的第一个fragment,如果使用activity很容易想到onpause(),onResume()中进行处理,但是你会发现fragment的onpause和onresume只调用一次…
内存问题分析的利器——valgrind的memcheck
在《内存、性能问题分析的利器——valgrind》一文中我们简单介绍了下valgrind工具集,本文将使用memcheck工具分析各种内存问题。(转载请指明出于breaksoftware的csdn博客) 本文所有的代码都是使用g -O0 -g mem_error.c -o mem_erro编译&#…

类项目中的配置文件app.config在打包安装后的信息获取的问题
在一个项目中碰到这样的一个问题,做一个WORD插件,功能在类库项目中实现了,配置信息存在类库项目的配置文件app.config中,在进行打包后,获取的配置文件中的DocType节点信息时,使用以下方法 ConfigurationMa…
AAAI 2020论文解读:商汤科技提出新弱监督目标检测框架
来源 | Object Instance Mining for WeaklySupervised Object Detection编辑 | Carol出品 | AI科技大本营(ID:rgznai100)商汤科技视频大数据团队发表论文《Object Instance Mining forWeakly Supervised Object Detection》,该论文…

20135306黄韧 信息安全系统设计基础期中学习总结
信息安全系统设计基础第八周学习总结 知识点总结 第1章 计算机系统漫游 △计算机系统是由硬件和系统软件组成的,它们共同协作以运行应用程序。计算机内部的信息被表示为一组组的位.它们依据上下文有不同的解释方式。程序被其他程序翻译成不同的形式&…

使用SQL Server维护计划实现数据库定时自动备份
在SQL Server中出于数据安全的考虑,所以需要定期的备份数据库。而备份数据库一般又是在凌晨时间基本没有数据库操作的时候进行,所以我们不可能要求管理员每天守到晚上1点去备份数据库。要实现数据库的定时自动备份,最常用的方式就是使用SQL S…
AI 医疗公司“战疫”在前线
作者 | Just来源 | CSDN(CSDNnews)紧急驰援疫区,涉足AI医疗领域的公司也出动了。截止到2月6日,随着新冠病毒肺炎疫情的不断发展,全国累计已有31161例确诊病例,26359例疑似病例。不过,由于医疗资…
动态执行流程分析和性能瓶颈分析的利器——valgrind的callgrind
在《内存、性能问题分析的利器——valgrind》一文中我们简单介绍了下valgrind工具集,本文将使用callgrind工具进行动态执行流程分析和性能瓶颈分析。(转载请指明出于breaksoftware的csdn博客) 之前的《利器》系列中,我们介绍了两种…

CentOS6.3编译安装Nginx1.4.7 + MySQL5.5.25a + PHP5.3.28
2019独角兽企业重金招聘Python工程师标准>>> 【准备工作】 01 #在编译安装lnmp之前,首先先卸载已存在的rpm包。 02 rpm -e httpd 03 rpm -e mysql 04 rpm -e php 05 06 yum -y remove httpd 07 yum -y remove mysql-server mysql 08 yum -y remove php 0…
GitHub标星14000+,阿里开源的SEATA如何应用到极致?
作者简介:袁鸣凯,家乐福技术总监, 高知特有限技术公司中国区架构师,HP上海研发技术专家,夸客金融首席架构师,现任家乐福中国区技术总监。多年互联网、企业级SOA、微服务、全渠道中台方面的架构设计实战经验…

C++拾趣——有趣的操作符重载
操作符重载是C语言中一个非常有用的特性。它可以让我们比较优雅的简化代码,从而更加方便的编写逻辑。 为什么要使用操作符重载一种常见的用法是重载<<运算符,让标准输出可以输出自定义的类型。比如 #include <iostream>class Sample {friend…

urlparse模块(专门用来解析URL格式)
# -*- coding: utf-8 -*- #python 27 #xiaodeng #urlparse模块(专门用来解析URL格式)#URL格式: #protocol ://hostname[:port] / path / [;parameters][?query]#fragment #parameters:特殊参数,一般用的很少。#1、url…
使用Boost的Serialization库序列化STL标准容器
使用Boost做对象序列化是非常方便的,本文将介绍一种序列化STL标准容器的方法。这是之前设计的异步框架的一个子功能:过程A将标准容器数据序列化成二进制流,然后将该二进制数据发送到过程B,过程B将数据反序列化为标准容器。&#x…
连登GitHub TOP榜,中国开发者在行动!
作者 | 唐小引数据 | 于瑞洋出品 | AI科技大本营(ID:rgznai100)中国开发者正在走向世界中文开源项目正在不断登上 GitHub TOP 榜不久前,一个名叫「wuhan2020」的开源项目进入了 GitHub Trending TOP 榜,截至到现在,已经…

Merge into的使用
用途 merge 命令可以用来用一个表中的数据来修改或者插入到另一个表。插入或者修改的操作取决于on子句的条件。该语句可以在同一语句中执行两步操作,可以减少执行多条insert 和update语句。merge是一个确定性的语句,即不会在同一条merge语句中去对同一条…

PHP和MySQL Web开发从新手到高手,第8天-创建categories管理页面
1. 创建categories管理页面 主要包含以下几个页面: A. index.php, 准备各种变量数据.供展示页面使用. B. categories.html.php, 显示categories. C. form.html.php, 用于编缉或添加作者的页面. 页面郊果: 2. categories页面的主要流程 2.1 是否已登录 if (!user_is_login()){in…

堆状态分析的利器——valgrind的DHAT
在《堆问题分析的利器——valgrind的massif》一文中,我们介绍了如何使用massif查看和分析堆分配/释放的问题。但是除了申请和释放,堆空间还有其他问题,比如堆空间的使用率、使用周期等。通过分析这些问题,我们可以对程序代码进行优…