全球计算机视觉顶会CVPR 2020论文出炉:腾讯优图17篇论文入选
全球计算机视觉顶级会议CVPR2020 (IEEE Conference on Computer Vision and Pattern Recognition,即IEEE国际计算机视觉与模式识别会议) 即将于2020年6月14日-19日在美国西雅图召开。本届大会总共录取来自全球论文1470篇,腾讯优图实验室入选17篇。
作为计算机视觉领域世界三大顶会之一,CVPR 的论文投稿量近三年持续大涨,CVPR官网显示,今年大会论文有效投稿数量6656篇,最终录取1470篇,录取率仅为22%,相比去年降低3个百分点。
本届大会涵盖人体识别、基于图像建模、计算摄影与图像、视频分析与事件识别、脸部和手势分析、文件分析、统计方法与学习等多个主题。腾讯被收录的论文涉及主题广泛,涵盖类比学习、人脸识别、物体检测、行人重识别等热门及前沿领域,这些最新科研成果展示了腾讯在计算机视觉领域的技术实力,同时也将对计算机视觉算法落地化应用起到助推作用。
以下为部分腾讯优图入选CVPR2020的论文:
1.神经网络的滤波器嫁接技术
Filter Grafting for Deep Neural Networks
神经网络存在天然的无效滤波器,滤波器剪枝(filter pruning)技术主要对无效的滤波器进行移除使网络的推理速度增加。然而在这篇文章中,优图提出滤波器嫁接(filter grafting)技术。和pruning相反,优图并不是移除网络的无效滤波器,而是通过引入外部信息的方法来激活无效滤波器使之重新发挥作用。激活的方式为将其他网络的有效滤波器的参数嫁接到无效滤波器上。为了更好地发挥grafting的性能,优图同时提出了信息熵相关的指标评估滤波器的好坏,并用自适应的方式来平衡嫁接网络和被嫁接网络的参数。通过大量的实验,表明grafting后的网络在有效滤波器的数量上和模型性能上均有大幅度的提高。
2.类比学习:基于变换的无监督光流估计
Learning by Analogy: Reliable Supervision from Transformations for Unsupervised Optical Flow Estimation
利用视图合成,进行光流的无监督学习,逐渐成为替代光流监督学习的一类方法。但是在一些剧烈变化的场景上,可能会违背无监督学习的目标,反而导致学习效果不好。这篇文章中,优图提出了一种称为“增广正则化”的学习框架。该框架在一些常规学习框架基础上,利用增广变换的数据多做一次前向,并利用原始数据的变换预测作为监督。在文章中,优图进一步拓展网络,支持共享光流解码器的多视图输入。在多个benchmark上,与其它的无监督方法比,以显著的效果提升,取得了当前最好的正确率。另外,优图提出的无监督方法,使用更少的参数量,就可以媲美最近一些监督方法的效果。
3. 面向密集多角度物体检测的动态修正网络
Dynamic Refinement Network for Oriented and Densely Packed Object Detection
目前主流的物体检测⽅方法在旋转(rotated)及密集排列(densely packed)⽬标场景下,检测性能显著下降。腾讯优图认为主要原因是:深度神经⽹网络中同层神经元感受野、形状、⻆角度单一,不适合处理多⻆度、多形状的目标;模型学到的一般性知识不具备针对特定样本⾃适应调整的能力。针对以上两点,优图提出动态修正⽹络(Dynamic Refinement Network,图1)。具体说来:(1) 设计了自适应感受野调整模块,使模型能够根据目标形状、旋转角度⾃适应地调整感受野,缓解单一的感受野与多变的⽬标之间的矛盾。(2)针对分类与回归任务设计了动态修正分类器 (图2(左))与动态修正回归器(图2(右)),使模型兼顾静态知识(statistic knowledge)和动态知识(dynamic knowledge)的学习,赋予模型依据样本自适应调整的能⼒。结合以上两点, 优图设计了统一的动态修正网络。在当前著名的密集旋转目标检测数据集 (DOTA、HRSC2016、 SKU110K)上,该⽅法均取得了新的最佳性能。
4.自适应课程学习人脸识别函数
CurricularFace: Adaptive Curriculum Learning Loss for Deep Face Recognition
人脸识别中常用损失函数主要包括两类,基于间隔或者难样本挖掘。前一类方法对所有样本都采用一个固定的间隔值,忽略了样本自身的难易信息。后一种方法则在整个网络训练周期都强调困难样本,可能导致网络无法收敛问题。在工作中,优图基于课程学习的思路,提出了一种新的自适应课程学习损失函数。在训练初始阶段,方法主要关注容易的样本;随着训练进行,逐渐关注较难的样本。同时,在同一个训练阶段,不同的样本根据其难易程度被赋予不同的权值。在常用的多个人脸识别benchmark上,该方法相较于SOTA方法都取得了稳定一致的提升。
5.基于注意力卷积二叉神经树的细粒度视觉分类
Attention Convolutional Binary Neural Tree for Fine-Grained Visual Categorization
本文由腾讯优图实验室和中科院软件所联合提出。细粒度视觉分类(Fine-Grained Visual Categorization,FGVC)因样本类间差异更加细微,往往只能借助微小的局部差异才能区分出不同的类别,使其成为一项重要但具有挑战性的任务。本文提出了一种基于注意力机制的卷积二叉神经树结构。具体来说,将传统的决策树与神经网络结合,在树的内部节点中使用路由来确定树内从根到叶的计算路径,并且在树的边上添加了卷积操作增强表示学习,最终决策融合了所有叶节点的预测。该模型以一种由粗到细的层次方式学习具有判别力的特征。此外,采用非对称的策略来增加多尺度特征提取,增强样本的区分性特征表示。采用SGD优化方法以端到端的方式训练整个网络。该方法在CUB-200-2011,Stanford Cars 和 Aircraft数据集上进行了评估,显著优于当前其他的弱监督细粒度方法。
6.基于注意力机制及多关系检测器的小样本物体检测
Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector
本文由香港科技大学和腾讯优图实验室联合提出。目标检测网络已经被广泛应用到安保,自动驾驶,医学图像等各个领域。然而传统的目标检测网络需要使用大量高质量的训练样本对模型进行训练。这些训练样本需要大量的人力物力进行标注,往往无法快速获得,所以无法将目标检测模型快速部署到新样本的检测中,而小样本目标检测方法可以很好地解决这一问题。联合团队提出了一种基于深度孪生网络的小样本目标检测模型,通过基于注意力机制的候选框网络,多关系检测器以及三元组对比训练方法对网络进行改进,使得网络能够不对新物体重新训练即可应用于新类别检测。此外,文章中提供了一个1000类的小样本物体检测数据集,希望可以方便该领域的研究。
该联合团队的工作主要有以下贡献:首先,使用注意力机制对物体检测候选框进行筛选。将待检测新物体的特征作为滤波器在输入图片上进行卷积,以此找出潜在的候选框区域。然后,使用多关系检测器对这些候选框进行分类以及位置调整。多关系检测器对候选框和新物体进行像素级、区域级和全图级的多级关系匹配,以此找出匹配程度最高的区域作为检测输出。最后,构建(目标样本,正样本,负样本)训练样本三元组对模型进行训练,使得网络能够同时学习到相同物体间的相似性和不同物体间的差异性,从而大大提升网络在新样本上的检测性能。该方法在多个数据集上均取得了最好的结果,且无需在新物体上进行任何训练。其基本框架图如下:
7.基于显著性引导级联抑制网络的行人重识别
Salience-Guided Cascaded Suppression Network for Person Re-identification
本文由北京大学、腾讯优图和南方科技大学联合提出。利用注意力机制对全局和局部特征进行建模,作为最终的行人表征,已成为行人再识别(Re-ID)算法的主流趋势。这些方法潜在的局限性是,它们侧重于提取最突出的特征(显著性特征),但重新识别一个人可能依赖于不同情况下显著性特征所掩盖的各种其他的线索,比如身体、衣服甚至鞋子等。为了解决这一局限性,联合团队提出了一种新的显著性引导级联抑制网络(SCSN),该网络使模型能够挖掘多样化的显著性特征,并通过级联的方式将这些特征集成融合到最终的特征表示中。
联合团队的工作主要有以下贡献:第一、我们观察到,以前网络学习到的显著性特征可能会阻碍网络学习其他重要信息。为了解决这一局限性,引入了级联抑制策略,该策略使网络能够逐级挖掘被其他显著特征掩盖的各种潜在的、有用的特征,并融合各级提取的特征作为最后的特征表示; 第二、提出一个显著特征提取(SFE)单元,该单元可以抑制在上一级联阶段学习到的显著特征,然后自适应地提取其他潜在的显著特征,以获得行人的不同线索;第三、开发了一种有效的特征聚合策略,充分增强了网络提取潜在显著特征的能力。实验结果表明,该方法在四个大规模数据集上的性能优于现有最好的方法。特别是,该方法在CUHK03数据集上比目前最好的方法提升7.4%。其基本框架图如下:
8.概念归因的卷积神经网络的全局解释
Towards Global Explanations of Convolutional Neural Networks with Concept Attribution
本文由腾讯优图实验室和香港中文大学合作完成。卷积神经网络(CNN)的广泛应用,使得解释其行为变得越来越重要。其中,全局解释因其有助于理解整个样本类别的模型预测,最近引起了极大关注。但是,现有方法绝大多数都依赖于模型的局部逼近和对单个样本预测的独立研究,这使得它们无法反映出卷积神经网络的真实推理过程。联合团队提出了一种创新的两阶段框架,即对可解释性的攻击(AfI),以更忠实地解释卷积神经网络。 AfI根据用户定义的概念的重要性来解释模型决策。它首先进行特征遮挡分析,该过程类似于攻击模型以得出不同特征的重要性的过程,于是有能力学习全局解释。然后,通过语义任务将特征重要性映射到概念重要性,下图展示了AfI的框架结构。实验结果证实了AfI的有效性及其相比于现有方案的优越性。本文中还演示了其在提供卷积神经网络理解方面的用例,例如基础模型预测和模型认知中的偏差。
9.基于注意力机制提高对抗可迁移性
Boosting the Transferability of Adversarial Samples via Attention
本文由腾讯优图实验室和香港中文大学合作完成。 深度学习模型的广泛部署使得在实践中评估模型的鲁棒性成为必需,尤其是对于安防领域和安全敏感领域例如自动驾驶和医疗诊断。攻击是一种重要的衡量模型鲁棒性的方式,其中针对深度网络图像分类器生成对抗图像是最基本和公认的任务之一。 最近,针对图像分类器的基于迁移的黑盒攻击引起了越来越多的兴趣。这种攻击方式,攻击者需要基于本地代理模型来制作对抗性图像,而没有来自远端实际目标的反馈信息。 在这种具有挑战性的设置下,由于对所使用的本地模型的过度拟合,合成的对抗性样本通常无法获得良好的成绩。因此,文章中提出了一种新颖的机制来减轻过度拟合的问题,从而增强黑盒攻击的可迁移性。不同的网络架构例如VGG16,ResNet,Inception在识别图片时会有相似的图像注意力,比如都倾向于注意猫脸来识别猫。基于此,通过模型提取特征的注意力梯度来规范对抗性示例的搜索。 这种基于注意力规约的对抗样本搜索使得联合团队可以优先考虑攻击可能被各种体系结构共同关注的关键特征,从而促进结果对抗实例的可迁移性。在ImageNet分类器上进行的大量实验证实了文章中策略的有效性,进一步在白盒和黑盒两种条件下对比了最新方法,该攻击策略都表现出了一致的优越性。下图呈现了我们的基于注意力机制的模型攻击框架。
相关文章:

gcc使用总结
1.基本选项 -o 指定输出文件名。如果不给出这个选项,gcc就给出预设的可执行文件a.out。 # cc -o XX XX.c -c 编译、汇编到目标代码,不进行链接 -v 打印较多信息,显示编译器调用的程序。 -E 仅作预处理,不进行编译、汇编…

websecurity - Web Security Testing Framework 超级牛B扫描器
Windows – Websecurify 0.3.exehttp://websecurify.googlecode.com/files/Websecurify%200.3.exeLinux – Websecurify 0.3.tgzhttp://websecurify.googlecode.com/files/Websecurify%200.3.tgzMac – Websecurify 0.3.dmghttp://websecurify.googlecode.com/files/Websecurif…

C中的qsort函数和C++中的sort函数的理解与使用
一、qsort()函数 原型:_CRTIMP void __cdecl qsort (void*, size_t, size_t,int (*)(const void*, const void*)); 参数解释:1、待排序数组首地址;2、数组中待排序元素数量;3、各元素的占用空间的大小;4、指向函数的指…
机器学习新闻综述:2019年AI领域不得不看的6篇文章
作者 | Limarc Ambalina翻译 | 火火酱,编辑 | Carol出品 | AI科技大本营(ID:rgznai100)在这篇机器学习新闻综述中,我们将回顾一些2019年以来在人工智能各个领域广泛传播或产生影响的重大新闻。此外,我们还将…

GDB attach到进程
要调试守护进程等已经启动的进程或是调试陷于死循环的进程可以使用attach命令 格式 attach pid C语言代码 #include <stdio.h> int main(void) { int marks[10]; int i; for(i0;i<12;i) { scanf("%d",&marks[i]); …

Chrome使用技巧和编辑框拖动怪问题。
常用快捷键:ctrlshiftt 重新打开刚关闭的网页ctrlh 打开历史记录ctrl 放大。ShiftEscape 查看任务管理器据说Chrome能调整编辑区大小,我没发现。倒发现Chrome一个问题,选中编辑框中的文字,一直拖动鼠标&a…

Linux中断研究
2019独角兽企业重金招聘Python工程师标准>>> 研究linux系统,不管是做驱动、协议栈还是进程调度等等,都离不开中断。这说明,要想编写正确的linux代码,不了解中断是不行的。 话说曾几何时,在大学的课堂里&…
linux环境内存分配原理
Linux的虚拟内存管理有几个关键概念: Linux 虚拟地址空间如何分布?malloc和free是如何分配和释放内存?如何查看堆内内存的碎片情况?既然堆内内存brk和sbrk不能直接释放,为什么不全部使用 mmap 来分配,munm…
大脑芯片公司Neuralink计划在人脑内植入芯片,他们到底想干什么?
作者 | James Murphy翻译 | 火火酱,编辑 | Carol出品 | AI科技大本营(ID:rgznai100)说实话,科幻电影在遇到Neuralink时也不得不甘拜下风。2019年7月,埃隆马斯克(Elon Musk)宣布,他的公司正在研发…

判断链表是否存在环(及其延伸)
有一个单链表,其中可能有一个环,也就是某个节点的next指向的是链表中在它之前的节点,这样在链表的尾部形成一环。问题:1、如何判断一个链表是不是这类链表?2、如果链表为存在环,如果找到环的入口点…

iOS跳转到各种系统设置界面
定位服务 定位服务有很多APP都有,如果用户关闭了定位,那么,我们在APP里面可以提示用户打开定位服务。点击到设置界面设置,直接跳到定位服务设置界面。代码如下: //定位服务设置界面 NSURL *url [NSURL URLWithString:…

Linux内存管理大图(第三稿)
网友画的还不错就转了 ,该作者一共画了3版 v0.1 v0.2 v0.3 原文地址:http://bbs.chinaunix.net/thread-2018659-1-1.html

VNC的安装与使用
VNC的安装与使用。 说明:文章内容比较简单,献给那些初学者作为参考。 文章分为两部分,第一部分为VNC简介,第二部分为VNC的安装与使用。 文章为小弟结合书籍与小弟的实际操作总结出来的,如有错误与疏漏之处…
百度「AI战疫」:首次开源肺炎CT影像分析AI模型,让诊断从分钟到秒
自疫情爆发以来,多家科技公司纷纷加入了抗击疫情的战役中。 其中,排查疫情是这场战役的重中之重,而 CT 影像已成为新冠肺炎筛查和病情诊疗的重要依据。 然而,在当前疫情诊疗的关键时期,存量患者和新增患者总体数量庞…

Linux_DNS服务器
目录 目录DNS DNS ServerServerSite Master DNS ServerForward DomainReverse Resolution Slave DNS ServerForward lookupReverse lookupSplit DNS ServerDNS DNS(Domain Name System,域名系统),在Internet上作为域名和IP地址映射的一个分布式数据库&am…
多场景下的AI疫情防控“天网”:解读云边端联动下的全栈AI技术
在全民抗疫的特殊时期下,伴随着春运返潮,企业陆续复工,从重点防控的机场、火车站等场所,到学校、企业、社区等密集型场所,都是不能忽视的地点。除了人工逐一测量体温排查外,我们还发现,在人员复…

DHCP配置与DHCP中继代理2
实验二:<?xml:namespace prefix o ns "urn:schemas-microsoft-com:office:office" />Step1、配置DHCP中继代理1) 打开“管理工具”→“路由和远程访问”窗口,启用路由和远程访问,按向导提示完成操作。<?xml:namespac…

查看CPU是i386架构和x86_64架构
查看处理器是32位还是64位 #cat /proc/cpuinfo 检查flags行中有没有lm标记,lm是Long Mode的简写,表示支持64位模式。 #getconf LONG_BIT 输出:32 #getconf WORD_BIT 输出:32 32位的系统中int类型和long类型一般都是4字节&…

malloc一次性最大能申请多大内存空间
受用户态内存地址空间的限制。64 位系统下分配几个 T 不成问题。 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。作者:zz matrix链接:http://www.zhihu.com/question/20836462/answer/22833295来源:知乎考…

MD5算法之C#程序
MD5算法比较特别,最适合用汇编语言来写,好多高级语言对之无能无力或效率极低。 比如我最开始尝试用Python和Euphoria编写,发现不太容易。相比而言,C#作为C家簇 中新兴的一门.net语言,功能比较全面。花了一晚上的工夫终…

unix环境汇编语言常用工具
汇编器 MASM:微软的汇编器不支持unix NASM:unix环境下兼容微软平台 GAS:GNU 的免费软件包,unix环境下最流行跨平台汇编器 安装GNU汇编器 检查binunits RedHat #rpm -qa |grep binunits Debian #dpkg -l|grep binunit 下载地…
用Python远程登陆服务器的最佳实践
来源 | Python编程时光(ID: Cool-Python)在使用 Python 写一些脚本的时候,在某些情况下,我们需要频繁登陆远程服务去执行一次命令,并返回一些结果。在 shell 环境中,我们是这样子做的。$ sshpass -p ${pass…

Exchange Server 2013 LAB Part 4.内部客户端访问
关于Exchange服务器内部客户端访问的更详细介绍,请参考Exchange Server 2010链接:http://xutonglin.blog.51cto.com/8549515/1390715每个组织在AD林中都至少有一台客户端访问服务器和一台邮箱服务器。另外,每个AD站点中都必须至少有一台客户端…

VirtualBox安装64位Linux
VirturlBox安装64位的Linux 原因 virtualbox 本身不带 64 位支持,它的 64 位支持依赖于通过cpu虚拟技术把cpu的64位指令直接映射过去。 所以,要支持64位必须: 1.你的cpu支持64位。 2.你的cpu支持虚拟化,并且你的bios支持把cpu虚…
6个步骤,告诉你如何用树莓派和机器学习DIY一个车牌识别器!(附详细分析)...
作者 | Robert Lucian Chiriac翻译 | 天道酬勤,编辑 | Carol出品 | AI科技大本营(ID:rgznai100)几个月前,作者开始考虑让汽车能够具备检测和识别物体的能力。他很喜欢这个主意,因为已经见识到了特斯拉的能力…

推荐bpython
可能很多人都对ipython比较熟悉,但是我这里要推荐的是bpython,我发现用起来更加顺手。详细的信息可以从其官方网站上获得。下面介绍几个主要的feature(使用系统为Linux):1. 语法高亮:2. 自动提示࿰…

几个定制 iTerm2 的 tip
重装 Mac 才想起来很多配置没有备份过, 找起来麻烦, 所以记一下 按文本开头搜索命令 一个是 Bash 里按上下键直接查找历史, 匹配开头相同的内容最开始是我朋友在 Matlab 下用到提到想要这个方案, 一起找了结果真有于是记录一下配置: ➤➤ cat ~/.inputrc "\e[A":hist…

从1的补码说起计算机的数制
字节换算 bit(b)位 字节(byte)8位 -128~127 0~255 半字2字节16位 -32768~32767 0~65,535 字(word)4字节32位 -2147483848~2147483647 0~4,294,967,295 双字8字节64位 -9223372036854775808~9223372036854775807 0~18,446,744…

类:认识类的继承
先新建一个 VCL Forms Application 工程, 代码中就已经出现了两个类:一个是 TForm 类; 一个是 TForm1 类; TForm1 继承于 TForm.TForm 是 TForm1 的父类; TForm1 是 TForm 的子类. Codeunit Unit1;interfaceuses Windows, Messages, SysUtils, Variants, Classes, Graphics, C…
机器会成为神吗?
作者 | Roman Wiligut翻译 | 天道酬勤,编辑 | Carol出品 | AI科技大本营(ID:rgznai100)看着科技的飞速发展,我们越来越想知道,到底科技发展有没有极限呢?在我看来,没有。至少在我们的…