当前位置: 首页 > 编程日记 > 正文

视觉+Transformer最新论文出炉,华为联合北大、悉尼大学发表

作者 | CV君

来源 | 我爱计算机视觉

Transformer 技术最开始起源于自然语言处理领域,但今年5月份Facebook 的一篇文章将其应用于计算机视觉中的目标检测(DETR算法,目前已有78次引用)使其大放异彩,并迅速得到CV研究社区的关注。

已有研究表明,Transformer 在计算机视觉领域不仅适用于高级任务如图像分类、目标检测、车道线检测等,在低级任务如图像增强中也取得了突破性进展,毫无疑问,Transformer 是目前计算机视觉领域最值得关注的方向之一。

一时间,在各种视觉任务 + Transformer 的论文正如雨后春笋般涌出。

今天,来自华为诺亚方舟实验室、北京大学、悉尼大学的学者公布论文 A survey on Visual Transformer,对该领域进行了较为系统的文献总结,相信对于想要研究、使用Visual Transformer 技术肯定会有帮助。

该文作者信息:

Transformer 技术发展的里程碑事件:

Transformer 的重要事件

下表列出了 Visual Transformer 代表作品:

Transformer 已经进入的视觉方向:图像分类、目标检测、分割、图像增强、图像生成、视频修补、视频描述等,为解决Transformer 计算效率问题,业界也有多篇论文提出了新的改进。以推进 Transformer 在CV工业界的尽快落地。

Transformer 是什么?

Transformer 的提出最开始用于机器翻译,下图展示了原汁原味 Transformer 的结构:

用于早期自然语言处理任务的 Transformer 架构图

这里输入是一种语言的句子,每个单词变换为512维的向量嵌入,Transformer 时对其进行多次的编码和解码,编码模块中每一个编码器Encoder把上一阶段的结果进行编码,最后一个编码器将数据经过多个解码器Decoder 进行解码,解码器之间也进行串联,最后一个解码器输出另一种语言的句子。

每一个编码器Encoder内含有自注意力(self-attention layer)层和一个前馈神经网络(feed-forward neural network)模块。每一个解码器含有自注意力(self-attention layer)层、编码器-解码器注意力层和一个前馈神经网络(feed-forward neural network)模块。

Transformer 的详细结构图

基于Transformer的语言模型获得了成功应用:

基于Transformer构建的代表性语言模型列表

Vision Transformer(ViT,出自谷歌论文 An image is worth 16x16 words: Transformers for image recognition at scale)示意图:

Vision Transformer 框架

IPT的架构图

分类任务上,在 JFT300M 数据集上预训练的 Vision Transformer 在多个图像识别基准上接近或优于 SOTA,在 ImageNet 上达到 88.36% 的准确率,在 CIFAR-10上达到 99.50%,在 CIFAR-100 上达到 94.55%,在 VTAB 套件的 19个任务上达到 77.16%。

iGPT 、 ViT 、BiT-L的详细结果如下表:

Transformer 用于目标检测突破性算法DETR(出自Facebook 论文 End-to-end object detection with transformers)流程图:

DETR 的整体架构

为使得Visual transformer 模型参数量和计算量更小,使其更具实用性,业界提出了不少算法。

下表列举了基于 transformer 的模型压缩代表作:

作者指出了一些未来的研究方向:

开发更适合视觉任务的transformer 模型;

自然语言处理中的transformer往往一个模型可以在多个任务中有效,CV领域中也值得探索;

研究更加计算高效的transformer。

参考链接:

https://arxiv.org/abs/2012.12556


更多精彩推荐
  • 赠书 | 手把手教你自己动手打造一个智能恒温器

  • 仅剩一周!!CSDN年终大放血!人人有份的大奖你确定不来?

  • 对人脑而言,阅读计算机代码和阅读语言有何不同?

  • 最高要价 8888元,小米 11 邀请函现身闲鱼;荣耀与微软签署全球 PC 合作协议;Xfce 4.16 发布|极客头条

  • Python 新人笑、C# 旧人哭,你立的技术 Flag 2020 实现了吗?

相关文章:

易宝典文章——怎样管理Exchange Server 2013邮箱地址

对于一个用户邮箱,即邮箱收件人来讲,在创建时Exchange会为其按照Alias分配一个邮件地址,即主邮件地址,也称为“主SMTP地址”或“默认答复地址”。但是在用户日常使用中可能会出现需要多个邮件地址的情况,比如&#xff…

使用FileUpload控件上传图片并自动生成缩略图、自动生成带文字和图片的水印图

本文借助vs2005中自带的FileUpload控件实现图片文件的上传并生成缩略图。实现过程:选择图片上传成功后,取得已经存在服务器的文件生成缩略图,并且判断是否是图片类型的文件,这个的判断可以在程序中修改,本程序只是判断…

Java -- JDBC 学习--通过Statement进行数据库更新操作

通过 JDBC 向指定的数据表中插入一条记录. 1. Statement: 用于执行 SQL 语句的对象 1). 通过 Connection 的 createStatement() 方法来获取 2). 通过 executeUpdate(sql) 可以执行 SQL 语句. 3). 传入的 SQL 可以是 INSRET, UPDATE 或 DELETE. 但不能是 SELECT 2.…

身份证号码验证-支持新的带x身份证

//--身份证号码验证-支持新的带x身份证functionisIdCardNo(num) { varfactorArr newArray(7,9,10,5,8,4,2,1,6,3,7,9,10,5,8,4,2,1); varerror; varvarArray newArray(); varintValue; varlngProduct 0; varintCheckDigit; varintStrLen num.length; v…

装上后这 14 个插件后,PyCharm 真的是无敌的存在

来源 | Python编程时光作者 | 写代码的明哥Key Promoter X如果让我给新手推荐一个 PyCharm 必装插件,那一定是 Key Promoter X 。它就相当于一个快捷键管理大师,它时刻地在:教导你,当下你的这个操作,应该使用哪个快捷…

批量实现面向对象的实例

<!DOCTYPE html> <html> <head> <meta charset"utf-8"> <title>批量实现面向对象的实例</title> <script type"text/javascript"> window.onload function(){function Person(name,age){this.name name;this.…

读Zepto源码之操作DOM

2019独角兽企业重金招聘Python工程师标准>>> 这篇依然是跟 dom 相关的方法&#xff0c;侧重点是操作 dom 的方法。 读Zepto源码系列文章已经放到了github上&#xff0c;欢迎star: reading-zepto 源码版本 本文阅读的源码为 zepto1.2.0 .remove() remove: function()…

VSS的每日自动备份

小弟在项目中兼职担当配置管理员&#xff0c;备份VSS的重任当然也得我来扛着&#xff0c;不然兄弟们加班加点的劳动果实可能因为什么天灾人祸一不小心就挂了。以往备份VSS的频率是一月一次&#xff0c;近来受到上面的教导&#xff0c;备份频率较少&#xff0c;需要每日备份。难…

当 AI 闯入法律界,第一步是当律师的得力助手

来源 | HyperAI超神经责编 | 晋兆雨头图 | CSDN 下载自视觉中国长久以来&#xff0c;律师这一职业给大众的印象都是精英、雄辩、高薪&#xff0c;而这份工作背后的艰辛却很少被看到。除了出庭之外&#xff0c;律师们要花费大量时间与经历进行法律资料研究、合同文件审查等。为此…

Ubuntu下添加新分区并设置挂载点

Ubuntu下添加新分区并设置挂载点最近在做Android项目&#xff0c;可是解压根文件系统以后&#xff0c;就报警说硬盘不够。当初设置使用的大小为15G。不过扩展分区还是很方便的。当然首先你得设置添加使用的硬盘大小&#xff0c;这次我一下提高到了30G&#xff0c;看它还报警否。…

2016 只剩最后一个月 你的 技术债务 还清了吗?

一夜醒来&#xff0c;猛然发现&#xff0c;2016 已经只剩最后一个月了&#xff01; 回忆过去的 330 多个日与夜&#xff0c;哪些互联网圈的大事让你瞠目结舌&#xff1f; 也许是 AlphaGo 在堪称人脑游戏巅峰的围棋领域屡战告捷&#xff1b; 也许是 Pokmon Go 称霸大洋彼岸&…

给图片加上带版权的水印

我们在网站上有些时候需要给图片加上带版权的水印&#xff0c;.net的Graphics类可以很轻松的实现这一点。效果图&#xff1a;&#xff08;图片最上端的那行字便是我们加上的版权水印了&#xff09;实现代码&#xff1a; /**//// <summary> /// 生成带版权水印的图片 …

重磅推出开发者计划、App Store,赛灵思普及自适应计算的一大步

得开发者得天下。尤其随着AI技术落地趋势加剧&#xff0c;其中大部分创新来自软件应用&#xff0c;市场对软件开发者有着极大需求。因此&#xff0c;无论是互联网公司还是传统的IT厂商都在尝试将开发者沉淀到自己的平台。 作为FPGA的开创者&#xff0c;赛灵思正在突破主要支持硬…

Web 开发人员必备的随机 JSON 数据生成工具

在 Web 开发中&#xff0c;经常会需要一些测试数据来测试接口或者功能时候正确。JSON Generator 就是这样一款生成随机 JSON 数据的在线工具&#xff0c;Web 开发人员必备&#xff0c;记得收藏和分享啊。 您可能感兴趣的相关文章Verlet-js&#xff1a;超炫的开源 JavaScript 物…

bootstrap解析-栅格系统

.container(布局容器) 屏幕宽1200px以上&#xff08;col-lg&#xff09; 1. 默认width为1170px 2. padding,lefet和right各为15px,所以内容width为1140px;屏幕宽992px以上(col-md) 1. 默认width为970px 2. padding,lefet和right各为15px,所以内容width为940px;屏幕宽768px以上(…

asp.net中窗口相关操作总结(javascript)

1.打开新窗口 这个简单:Response.Write("<script language javascript>window.open(url);</script>"); 2.关闭窗口 //关闭当前窗口,并提示用户时候关闭,yes关闭,no退出 Response.Write("<script language javascript>window.close();</sc…

200万注册开发者,13亿张全景图片,90%数据生产环节AI化,百度地图生态全景升级2.0

12月29日&#xff0c; 2020百度地图生态大会在京举办。据介绍&#xff0c;在AI技术加持下&#xff0c;百度地图实现了90%数据生产环节AI化&#xff0c;全新升级生态全景2.0。 百度集团副总裁、百度集团首席信息官(CIO)李莹出席大会并致辞&#xff0c;她表示&#xff1a;“在20…

Sqlite3数据库之第三方库FMDB学习心得

很早之前就接触Sqlite数据库,但是之前对数据库操作未使用任何第三方库,只是实现基本的增、删、改、查功能,自己对着一本iPhone开发入门级的书籍写了一个类,基本能实现上述四个功能。最近在开发一个软件&#xff0c;由于是一个本地应用&#xff0c;经过再三思量&#xff0c;最好…

您会让自己的小孩将来从事软件研发吗?

您会让自己的小孩将来从事软件研发吗&#xff1f;非常多程序猿&#xff0c;都已经30多岁了。过了而立之年&#xff0c;有了自己的老婆&#xff0c;自己温馨的小家庭&#xff0c;自己可爱的小孩。小孩也都是00后的。“您会让自己的孩子从事软件研发吗&#xff1f;”本来小孩的事…

CSDN湘苗培优|成长,从走出舒适区开始

湘苗培优CSDN高校俱乐部报名火热进行中&#xff01;基础训练交付训练实践练习湘苗培优 随着我国信息产业飞速发展&#xff0c;通过常规灌输式培养出来的学员已经不能够满足企业要求。企业更缺乏的是具备自主学习能力、具备综合解决问题能力的高素质技术人才。高素质技术人才需要…

使用VS自带的混淆器防止你的程序被反编译

这里就介绍大家使用VS自带的混淆器dotfuscator.exe来阻止这种行为。首先要做的找到dotfuscator.exe&#xff1a; D:/Microsoft Visual Studio .NET 2003/PreEmptive Solutions/Dotfuscator Community Edition运行dotfuscator.exe首先是是否注册的界面&#xff0c;先不注册吧&am…

【124】排球基本技术

排球基本技术 1.基本技术的概念 是指在规则允许的条件下&#xff0c;运用人体解剖和运动生物力学的原理&#xff0c;所采用的合理击球和完成击球动作的其他配合的总称。 2.排球技术的特点 &#xff08;1&#xff09;完成动作时间短促&#xff1b; &#xff08;2&#xff09;完成…

FairyGUI和NGUI对比

一直在做Unity方面的游戏开发&#xff0c;经同事介绍了解到有这么一个GUI能提供跨平台的能力&#xff0c;有独立UI编辑器&#xff0c;而且功能强大&#xff0c;能够组合成复杂的UI界面&#xff0c;可以导出到Unity,Flash,Starling等&#xff0c;文档还说未来将支持UE4&#xff…

用like语句时的C#格式化函数

*********************************************************************************** * 版权声明 * 此文章为ocean所有&#xff0c;版权归ocean所有&#xff0c;任何网站 *和 媒体转载必须包含此段声明&#xff0c;否则将…

JS-arguments分析

JS-arguments分析waiting……转载于:https://blog.51cto.com/frabbit2013/1242112

200万注册开发者,13亿全景图片,90%数据生产AI化,百度地图如何造生态?

12月29日&#xff0c; 2020百度地图生态大会在京举办。据悉&#xff0c;在AI技术加持下&#xff0c;百度地图实现了90%数据生产环节AI化&#xff0c;并全新升级生态全景2.0。围绕百度地图2020年的各项进展&#xff0c;百度地图总经理季永志做出了全方面回顾&#xff0c;并展示了…

内核中的内存申请:kmalloc、vmalloc、kzalloc、kcalloc、get_free_pages【转】

转自&#xff1a;http://www.cnblogs.com/yfz0/p/5829443.html 在内核模块中申请分配内存需要使用内核中的专用API:kmalloc、vmalloc、kzalloc、kcalloc、get_free_pages;当然,设备驱动程序也不例外;对于提供了MMU功能的处理器而言,Linux提供了复杂的内存管理系统,使得进程所能…

以实例说明如何使用C#从数据库中提取数据,按要求自动生成定制的Excel表格

最近因为需要学习了一下使用C#操作Excel表格&#xff0c;现在把我使用C#如何定制表格的过程提供给需要的兄弟&#xff1a; /*从数据库提取数据*/ string strconn"packet size4096;user idsa;data sourcelocalhost;persist security infoTrue;initial catalogDatabase;pa…

7_7_2013 E.Function

2019独角兽企业重金招聘Python工程师标准>>> Problem E: Function Time Limit: 1 Sec Memory Limit: 32 MB Submit: 52 Solved: 26 [ Submit][ Status][ Web Board] Description Define a function f(n)(f(n-1)1)/f(n-2). You already got f(1) and f(2). Now…

快手日入数据量超 5120TB,数据管治如何做?

​近日&#xff0c;快手大数据团队联合“快手中学”&#xff0c;举办“快手数据管治技术交流会”&#xff0c;各行业数据相关开发者报名参与。在海量的 UGC 数据、业务数据、用户数据背后&#xff0c;支撑快手数据业务的快手大数据平台&#xff0c;秉承“以领先的大数据技术&am…