必看,10篇定义计算机视觉未来的论文
译者 | Major
编辑 | 赵雪
出品 | AI科技大本营(ID:rgznai100)
导语:如果你没能参加 CVPR 2019 , 别担心。本文列出了会上人们最为关注的 10 篇论文,覆盖了 DeepFakes(人脸转换), Facial Recognition(人脸识别), Reconstruction(视频重建)等等。
1.Learning Individual Styles of Conversational Gesture (学习对话姿势中的个体风格)
原文链接:
https://www.profillic.com/paper/arxiv:1906.04160
摘要:对于给定的语音音频输入,它们会生成合理的姿势,来配合声音并合成讲者的相应视频。
使用的模型/架构:语音到姿势转换模型(Speech to gesture translation model)。采用一个卷积音频编码器下采样 2D 语谱图并转换为 1D 信号。接着翻译模型 G 预测一个相应的 2D 姿势时序栈。回归到真实姿势的 L1 提供一个训练信号,与此同时,采用一个对抗判别器 D ,确保所预测姿势和讲者风格一致。
模型精确度:研究人员对基准和实际姿势序列的语音和姿势转换结果进行了定量比较(作者们展示的表格表明新模型损耗较低, PCK 较高)。
使用的数据集: 从 Youtube 上查询得到的针对讲者的姿势数据集。总共采用了 144 小时的视频。其中,80% 用于训练,10% 用于验证,10% 用于测试集,这样每段源视频只出现在一个数据集中。
2.Textured Neural Avatars(神经元模型贴图)
原文链接:
https://www.profillic.com/paper/arxiv:1905.08776
摘要:研究人员提出了一个学习全身神经元贴图的系统(即深层网络),通过不同的身体姿势和相机位置产生一个人的全身效果图。这个自由视角渲染的人体神经元模型无需 3D 显式形状建模。
使用的模型/架构:神经元贴图系统概览。输入姿势对应为一个 “骨骼” 光栅堆栈(一个骨骼对应一个通道)。输入一个全卷积网络(生成器)进行处理,产生肢体定位映射堆栈和肢体协调映射堆栈。这些堆栈用来在肢体协调映射堆栈指定的位置采样身体纹理图,从而产生 RGB 图像。此外,最后的身体定位堆栈图也对应了背景可能性。在学习过程中,遮罩和 RGB 图像与真实姿势进行比较,产生的损失通过采样操作后向传播到全卷积网络和纹理上,使它们进行更新。
模型精确度:就 SSIM(自相似度)指标而言,表现得比其他两个模型更好;在 FID( Frechet 感知距离)指标上的表现比 V2V 表现更差。
使用的数据集:
CMU Panoptic 数据集的 2 个子集
我们自己使用 7 台摄像机对 3 个对象采集的多角度序列,其视角范围大约在 30 度。还有另一文章和 Youtube 上的 2 个单眼短序列。
3.DSFD: Dual Shot Face Detector(DSFD: 双向人脸检测器)
原文链接:
https://www.profillic.com/paper/arxiv:1810.10220
摘要:作者提出了一个创新的人脸检测神经网络,有3个全新的贡献,解决了人脸识别的三个关键方面,包括更好的特征学习、渐进的损失设计,以及基于数据增强的主角指定。
使用的模型/架构:DSFD 框架在一个前向 VGG/ResNet 架构的顶层采用了一个特征增强模块,从原有的特征中产生增强特征,该框架还采用了两个损失层,分别是针对原有特征的名为 first shot PAL 的损失层,和针对增强特征的名为 second shot PAL 的损失层。
模型精确度:在流行的 benchmark(WIDER FACE 和 FDDB )上进行的大量实验表明了与现有的检测器如 PyramiBox 和 SRN 相比,DSFD 具有优越性。
使用的数据集:WIDER FACE 和 FDDB
4.GANFIT: Generative Adversarial Network Fitting for High Fidelity 3D Face Reconstruction (GANFIT:匹配高保真3D人脸重建的对抗生成网络)
原文链接:
https://www.profillic.com/paper/arxiv:1902.05978
摘要:文中提出的深度匹配方法可以从一个图像重建高质量纹理和几何特征,可准确进行身份重现。文中其它地方的重建采用一个 700 浮点数规模的向量表示,并无须采用任何特效进行渲染 ( t 产生的纹理通过模型重建,而没有从图像中直接提取特征 )。
使用的模型/架构:采用一个差分渲染器进行 3D 人脸重建。成本函数主要通过预训练人脸识别网络上的身份特征来确定,并通过梯度下降优化将误差一路返回到潜在参数来优化。端到端可微结构使我们能够使用从计算上来说既廉价又可靠的一阶导数进行优化,因此使用深层网络作为生成器(即统计模型)或作为成本函数具有了可能性。
模型精确度:采用点面距离从 MICC 数据集上获得精确性数据。下表给出的均方差 ( Mean )和标准差( Std. )是该模型最低的。
使用的数据集: MoFA-Test、MICC、Wild ( LFW ) 数据集中带标签的面部、BAM 数据集。
5.DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation, Segmentation and Re-Identification of Clothing Images (DeepFashion2:服装图像检测、动作评估、分割和重新识别的通用基准)
原文链接:
https://www.profillic.com/paper/arxiv:1901.07973
摘要:Deepfashion 2 提供了一个用于服装图像检测、动作评估、分割和重新识别的通用基准。
使用的模型/架构:Match R-CNN 包含了三个主要的组件:特征提取网络 ( FIN )、感知网络( PN )和匹配网络( MN )。
模型精确度:与真实服装相比,Match R-CNN 达到了前 20 的精确度(低于 0.7 ),说明检索基准很有挑战性。
使用的数据集:DeepFashion2 数据集包含了 491K 各类图像,涵盖商业销售库存服装和消费者中的19 类流行服装。
6.Inverse Cooking: Recipe Generation from Food Images(反向烹饪:从食物图像生成配方)
原文链接:
https://www.profillic.com/paper/arxiv:1812.06164
摘要:Facebook 研究人员采用AI从食物图像中生成食谱。
使用的模型/架构:配方生成模型-作者用图像编码器提取图像特征。由成分解码器( Ingredient Decoder)预测成分,并用成分编码器( Ingredient Encoder)编码到成分嵌入中。烹饪指令解码器通过处理图像嵌入、成分嵌入和先前预测的单词,生成食谱标题和烹饪步骤序列。
模型精确度:用户研究结果表明,相对于最先进的图像-配方检索方法,他们的系统具有优势。(优于人工评估和基于检索的系统,获得 49.08% 的 F1 ,良好的 f1 分数意味着错判假阳性和假阴性较低)。
使用的数据集:他们在大规模 Recipe1M 数据集上对整个系统进行评估。
7.ArcFace: Additive Angular Margin Loss for Deep Face Recognition(ArcFace:用于深度人脸识别的附加角度边缘损失)
原文链接:
https://arxiv.org/pdf/1801.07698.pdf
摘要:ArcFace 可以获得更具鉴别力的深度特征,并以可重现的方式在 MegaFace Challenge 中有出色的表现。
使用的模型/架构:为增强类内紧凑性和类间差异性,本文提出附加角度边缘损失(ArcFace),在取样和中心之间加入了一个测地距离边缘。这是出于提高人脸识别模型的识别能力考虑。
模型精确度:综合实验报告表明,ArcFace 始终优于当前最新的模型.
使用的数据集:采用了 CASIA、VGGFace2、MS1MV2 和 DeepGlint-Face (包括 MS1M-DeepGlint 和 Asian-DeepGlint ) 作为训练集,以确保与其他模型进行公平的比较。使用的其它数据集包括:LFW、CFP-FP、AgeDB-30、CPLFW、CALFW、YTF、MegaFace、IJB-B、IJB-C、Trillion-Pairs、iQIYI-VID
8.Fast Online Object Tracking and Segmentation: A Unifying Approach (快速在线对象跟踪和分割:归一化方法)
原文链接:
https://www.profillic.com/paper/arxiv:1812.05050
摘要:通过利用二进制分割任务增强损失,这种名为 SiamMask 的方法改进了用于对象跟踪的流行的全卷积 Siamese 方法的离线训练过程。
使用的模型/架构:SiamMask 的目标是视觉跟踪和视频分割的交叉点,实现更高的实用性。与传统的对象跟踪器相似,它依赖于简单的边界框初始化并在线操作。与 ECO 等最先进的跟踪器不同,SiamMask 能够生成二进制分割遮罩,从而更准确地描述目标对象。SiamMask 有两种变体:三分支结构、两分支结构(有关更多详细信息请参阅论文)。
模型精确度:论文中给出了 SmiaMask 的定量结果,分别针对 VOT(视觉对象跟踪)和DAVIS( Densely 标引视频分割)序列。SiamMask 即使在速度很快或有干扰的情况也能产生精确的分割遮罩。
使用的数据集:VOT2016、VOT-2018、DAVIS-2016、DAVIS-2017和 YouTube-VOS。
9.Revealing Scenes by Inverting Structure from Motion Reconstructions (在动作重建中插入结构再现场景)
原文链接:
https://www.profillic.com/paper/arxiv:1904.03303
摘要:微软的研究团队和合作研究人员从点云中重建了场景的彩色图像。
使用的模型/架构:该方法基于一个作为输入的级联 U-NET,从包含点深度,可选颜色和 SIFT描述符的特定视点渲染点的二维多通道图像,并从该视点输出场景的彩色图像。
他们的网络有3个子网络——VISIBNET、 COARSENET 和 REFINENET。网络输入是一个多维的 ND 阵列。本文探讨了网络变量,输入的是深度、颜色和筛选描述符的不同子集。这 3 个子网络具有相似的架构。它们是具有对称跳跃连接的编码器和解码器层的 U-UNet 。解码器层末端的额外层有助于高维输入。
模型精确度:本文表明,可以从存储的有限信息量和稀疏的三维点云模型体系结构中重建高质量图像(有关更多详细信息,请参阅论文)。
使用的数据集:在700 多个户内和户外 Sfm 重建图像上进行,这些图像是从 NYU2 的MagaDepth 数据集中的 50 多万多角度图像中产生的。
10.Semantic Image Synthesis with Spatially-Adaptive Normalization (空间自适应正则化语义图像合成)
原文链接:
https://www.profillic.com/paper/arxiv:1903.07291
摘要:把涂鸦变成令人惊叹的照片写实的风景!Nvidia Research 利用生成对抗网络创建高度逼真的场景。艺术家可以使用画笔和颜料筒工具设计河流、岩石和云等专属于自己的风景。
使用的模型/架构:
在 SPADE 中,首先将遮罩影射到嵌入空间上,然后进行卷积以产生调制参数 γ 和 β 。与以前的条件归一化方法不同,γ 和 β 不是向量,而是具有空间维度的张量。将产生的 γ 和 β 相乘并按顺序添加到归一化激活元素中。
在 SPADE 发生器中,每个正则层采用分割遮罩来对层活动建模,(左侧)是采用 SPADE 的一个残差模块,(右侧)发生器包含了一系列带有上采样层的 SPADE 残差模块。
模型精确度:这个体系结构通过较少的参数移除主图像到图像转换网络的降采样层,以实现更好的性能。我们的方法成功地在动物到体育活动的不同场景中生成了逼真的图像。
使用的数据集:COCO-Stuff、ADE20K、Cityscapes 和 Flickr Landscape
原文链接:
https://hackernoon.com/top-10-papers-you-shouldnt-miss-from-cvpr-2019-deepfake-facial-recognition-reconstruction-and-more-d5ly3q1w
(*本文为 AI科技大本营原创文章,转载请联系微信 1092722531)
◆
精彩推荐
◆
AI ProCon 2019 邀请到了亚马逊首席科学家@李沐,在大会的前一天(9.5)亲授「深度学习实训营」,通过动手实操,帮助开发者全面了解深度学习的基础知识和开发技巧。
9大技术论坛、60+主题分享,百余家企业、千余名开发者共同相约 2019 AI ProCon!技术驱动产业,聚焦技术实践,倾听大牛分享,和万千开发者共成长。5折优惠票抢购中!
社群福利
扫码添加小助手,回复:大会,加入2019 AI开发者大会福利群,每周一、三、五 更新学习资源、技术福利,还有抽奖活动~
推荐阅读
从ACM班、百度到亚马逊,深度学习大牛李沐的开挂人生
最前沿:堪比E=mc2,Al-GA才是实现AGI的指标性方法论
1万+字原创读书笔记,机器学习的知识点全在这篇文章里
开源之战
别再造假数据了,来试试Faker这个库吧!
国外大神制作的超棒NumPy可视化教程
白话中台战略:中台是个什么鬼?
伟创力回应扣押华为物资;谷歌更新图片界面;Python 3.8.0b3 发布 | 极客头条
沃尔玛也要发币了,Libra忙活半天为他人做了嫁衣?
你点的每个“在看”,我都认真当成了喜欢
相关文章:

有效的rtsp流媒体测试地址汇总
以下是从网上搜集的一些有效的rtsp流媒体测试地址: 1. rtsp://218.204.223.237:554/live/1/0547424F573B085C/gsfp90ef4k0a6iap.sdp 2. rtsp://218.204.223.237:554/live/1/66251FC11353191F/e7ooqwcfbqjoo80j.sdp 3. rtsp://211.139.194.251:554…

java简单的ID生成器
2019独角兽企业重金招聘Python工程师标准>>> https://www.cnblogs.com/hongdada/p/9324473.html https://github.com/apache/incubator-shardingsphere 转载于:https://my.oschina.net/u/3005325/blog/3006311

安装、设置与启动MySql5.1.30绿色版的方法
1、解压 mysql-noinstall-5.1.30-win32.zip(下载地址http://dev.mysql.com/downloads/mysql/5.1.html)2、在 F 盘建立目录 MySql\MySqlServer5.1\ 3、把解压的内容复制到 F:\MySql\MySqlServer5.1\4、在 F:\MySql\MySqlServer5.1\ 中找 my-large.ini 把它复制成 my.ini5、在…

网页中插入VLC播放器播放rtsp视频流步骤
1. 仿照http://download.csdn.net/detail/haowenxin123456789/8044245 中步骤; 2. 从http://www.videolan.org/vlc/index.html 中下载 vlc-2.2.1-win32.exe 并安装到D:\\ProgramFiles文件夹下; 3. 运行:regsvr32 D:\\ProgramFil…

@程序员,“10倍工程师”都在追这四大AI风向
技术的发展,驱动着产业变革,从而改变着我们的生活方式。当5GAI 时代来临,核心的技术生产力就是开发者:开发者研究前沿的科学创新,推动技术发展,将技术应用于实际场景中。开发者是企业实现商业价值必不可少的…

End Credits
我不知道怎么把他删掉... 今晚WC文艺汇演wwww(等待唱歌.jpg 要是能截到屏一定发上来qwqqqqq 话说这首曲子是新发现的QAQ(Xeuphoria的还是那么好听qwqqq 今天学了快读qvq 还有...dpwww P2015 二叉苹果树 有一棵苹果树,如果树枝有分叉,一定是分2叉…

三十六亿的《哪吒》历时五年,如何用AI解决动画创作难题?
作者 | 神经小姐姐来源 | HyperAI超神经( ID: HyperAI )【导读】《哪吒之魔童降世》自 7 月 26 日上映以来,好评如潮,票房一路高歌猛进,目前已突破 36 亿。这款火爆的动画背后,是主创团队历时 5 年的细致打磨。而这漫长…

vb.net结构化异常处理和“邪用”
vb.net中的错误处理包括两种:非结构化异常处理技术和结构化异常处理。非结构化异常处理技术在vb 6.0中使用的比较普遍,即通过Err对象和ON Error、Go To、Resume等语句来实现。这种方式可以跟踪最近产生的异常和最近异常处理程序的位置。而结构化异常处理…

Ubuntu 14.04 64位机上不带CUDA支持的Caffe配置编译操作过程
Caffe是一个高效的深度学习框架。它既可以在CPU上执行也可以在GPU上执行。下面介绍在Ubuntu上不带CUDA的Caffe配置编译过程: 1. 安装BLAS:$ sudo apt-get install libatlas-base-dev 2. 安装依赖项:$ sudo apt-get install libprot…

NAT环境无法访问云端的深层次分析
这是一次我维护runningdoctor时候遇到的问题现象:1.用户无法打开web.runningdoctor.cn 2.监控状态无异常、无报警 3.tracert结果无异常、丢包率正常 4.用户无法访问的时候,我们能打开网站 5.多地代理访问网站,结果正常 6.有打开网站特别慢的时…

Magento(麦进斗)安装问题
安装到数据库那一步会跳出 lib\Zend\Db\Statement\Pdo.php on line 228 错误 解决方案: 在你的php模块里的php.ini文件添加(或者修改)max_execution_time1800 重启你的web服务器(apache,nginx),…

Linux Socket基础介绍
Linux Socket函数库是从Berkeley大学开发的BSD UNIX系统中移植过来的。BSD Socket接口是众多Unix系统中被广泛支持的TCP/IP通信接口,Linux下的Socket程序设计,除了微小的差别之外,也适用于大多数其它Unix系统。 Socket接口是TCP/IP网络的API…

免费公开课 | 基于定制数据流技术的AI计算加速
随着人工智能时代的来临,业内对于更高效率算力的需求也越来越紧迫,而传统的 CPU 计算能力弱,只适合软件编程,并不适合应用于人工神经网络算法的自主迭代运算。为了满足支撑深度学习的大规模并行计算的需求,人工智能芯片…
代替国足踢决赛?马宁当选卡日大战第四官员
卡塔尔杀进亚洲杯决赛。 图片来源:Osports全体育图片社 中新网1月30日电 日本与卡塔尔将会师本届亚洲杯的决赛。北京时间30日,亚足联官方已经公布了本次决赛的裁判组,中国裁判员马宁将担任第四官员。 来自乌兹别克斯坦的亚洲金哨伊尔马托夫将…

AI规模化落地,英特尔至强的七重助力
当今时代,各行各业与人工智能(AI)加速融合,通过智能化创新来寻求业务转型升级。与为数不多的顶级AI研发公司相比,大多数传统行业或企业有着更丰富的 AI 应用场景,推动着规模化的AI应用落地,其AI…

Linux进程编程基础介绍
Linux系统是一个多进程的系统,它的进程之间具有并行性、互不干扰等特点。也就是说,每个进程都是一个独立的运行单位,拥有各自的权利和责任。其中,各个进程都运行在独立的虚拟地址空间,因此,即使一个进程发生…

关于互联网技术基层绩效管理的一些思考
起因是一篇内部的文章,那记录也就留在内部吧,磨炼了的价值观在自己心里就好。 类似的还有 1. 罗振宇不发年终奖:https://xueqiu.com/7118120763/119669075 2. 有赞白鸦强行一波996:https://baijiahao.baidu.com/s?id1623959680…

波纹管 编织管
为什么80%的码农都做不了架构师?>>> 波纹管 编织管 http://wenku.baidu.com/view/4272a9feaef8941ea76e057e.html 转载于:https://my.oschina.net/tadcat/blog/151049

Git基础(常用命令)介绍
版本控制是一种记录若干文件内容变化,以便将来查阅特定版本修订情况的系统. 关于版本控制分为三种:本地版本控制系统,如rcs;集中化的版本控制系统,如CVS、SVN;分布式版本控制系统,如Git。 Git基础要点 G…

MIT开发新加密货币,用户所需数据比比特币减少99%
MIT的研究人员开发了一种新的加密货币,大大减少了用户加入网络和验证交易所需的数据,与当今流行的加密货币相比,最高可达99%。这意味着网络更具扩展性。 像比特币之类流行的加密货币都是构建于区块链上的网络,而区块链是按照一系列…

深入了解AI加速芯片的定制数据流架构与编译器 | 公开课
随着人工智能时代的来临,业内对于更高效率算力的需求也越来越紧迫,而传统的 CPU 计算能力弱,只适合软件编程,并不适合应用于人工神经网络算法的自主迭代运算。为了满足支撑深度学习的大规模并行计算的需求,人工智能芯片…

《GPU高性能编程CUDA实战》中代码整理
CUDA架构专门为GPU计算设计了一种全新的模块,目的是减轻早期GPU计算中存在的一些限制,而正是这些限制使得之前的GPU在通用计算中没有得到广泛的应用。使用CUDA C来编写代码的前提条件包括:(1)、支持CUDA的图形处理器,即由NVIDIA推…

50年来最具影响力的十大编程语言!
作者 | javinpaul译者 | 馨怡责编 | 屠敏出品 | CSDN(ID:CSDNnews)【导语】“适者生存”的自然法则在应用竞争激烈的编程语言界同样适用,而在数百种编程语言中,相对而言,哪些最具影响力?哪些才是…

【基础篇】DatePickerDialog日期控件的基本使用(一)
项目步骤: 1.首先在Main.xml布局文件中添加一个Button标签,用来点击显示日期控件,Main.xml内容如下: <RelativeLayout xmlns:android"http://schemas.android.com/apk/res/android" xmlns:tools"http://sch…

PoPo数据可视化第9期
PoPo数据可视化 聚焦于Web数据可视化与可视化交互领域,发现可视化领域有意思的内容。不想错过可视化领域的精彩内容, 就快快关注吧 :)2018 in the Ito Design Lab(视频内容请关注微信公众号浏览)1900~2018年城市温度异常变化可视化Temperatur…

面向可解释的NLP:北大、哈工大等提出文本分类的生成性解释框架
作者 | Hui Liu, Qingyu Yin, William Yang Wang 译者 | Rachel编辑 | Jane出品 | AI科技大本营(ID: rgznai100)【导语】北大、哈工大和加州大学圣巴巴拉分校在 ACL 2019 的一篇论文中联合提出了一个全新的生成性解释框架,该框架能够对分类策…

pyramid参数
2019独角兽企业重金招聘Python工程师标准>>> 普通参数permission: 该view的访问权限,这个后续会具体介绍。attr: Pyramid默认调用的是view类的__call__函数,如果需要指定调用其他方法,通过attr指定。如attrindex。renderer: 指定构…

Linux下常用的C/C++开源Socket库
1. Linux Socket Programming In C : http://tldp.org/LDP/LG/issue74/tougher.html 2. ACE: http://www.cs.wustl.edu/~schmidt/ACE.html ACE采用ACE_OS适配层屏蔽各种不同的、复杂繁琐的操作系统API。 ACE是一个大型的中间件产品,代码20万行左右&…

前端技术选型的遗憾和经验教训
我是Max,Spectrum的技术联合创始人。Spectrum 是一个面向大型在线社区的开源聊天应用程序,最近被GitHub收购。我们是一个三人团队,主要拥有前端和设计背景,我们在这个项目上工作了近两年时间。 事后看来,以下是我做出的…

时间序列的建模新思路:清华、李飞飞团队等提出强记忆力E3D-LSTM网络
作者 | Yunbo Wang,、Lu Jiang、 Ming-Hsuan Yang、Li-Jia Li、Mingsheng Long、Li Fei-Fei译者 | 凯隐编辑 | Jane出品 | AI科技大本营(ID:rgznai100)【导读】如何对时间序列进行时空建模及特征抽取,是RGB视频预测分类࿰…