英伟达发布新型GAN,豹子秒变沙皮狗!| 技术头条
作者 | 刘静
编译 | 李尔客
转自自图灵TOPIA(ID:turingtopia)
5月9日,英伟达首席研究科学家刘明宇在社交网站公布了其最新研究成果:一种新型的GAN,在测试期间只需几张示例图像,就可以将图像转换为以前从未见过的对象类型。GAN之父Ian Goodfellow也对其进行了转发支持。
人类在泛化方面非常擅长。
当给出一张以前看不见的外来动物的照片时,我们可以用不同的姿势形成同一动物的生动的心理图像,特别是当我们在之前的姿势中遇到过相似但不同的动物(图像)时。
例如,一个人第一次看到一只站立的老虎,我们可以毫不费力地想象它躺下来的样子。
同时,也很容易获得一种伴认知泛化能力,即其他的动物躺下来会是什么样子。
对于现有无监督图像到图像的转换算法,虽然已经在跨图像类转换复杂的外观变化方面非常成功,但基于先验知识从新类的少数样本泛化的能力完全超出了它们的范围。 具体地说,仍然在两个方面受到限制:
首先,模型通常需要在训练期内看到来自目标类的大量图像。
其次,在测试期内,不能将用于转换任务的训练模型重新用于另一转换任务。
简言之,现有的算法不支持小样本泛化。
为了弥合人机与机器想象能力之间的差距,最近英伟达的研究人员提出了几个无监督的图像到图像转换框架(FUNIT)来解决上述限制。
在训练时,FUNIT模型会学习在从一组源类中采样的任何两个类之间转换图像。
在测试时,模型会显示一些它从未见过的目标类的图像。该模型利用这些少量示例图像将源类的输入图像转换为目标类。
首先假设人类的小样本泛化能力是从他们过去的视觉经验中发展出来的 - 如果一个人在过去看过更多不同的对象类别,他们可以更好地想象一个新对象的视图。
基于该假设,研究人员使用包含许多不同对象类的图像的数据集来训练FUNIT模型,以模拟过去的视觉体验。具体来说,他们通过利用另一个类的少量示例图像来训练模型以将图像从一个类转换为另一个类。
假设通过学习从用于翻译任务的少数示例图像中提取外观模式,该模型学习了一种可推广的外观模式提取器,其可以在测试时应用于看不见的类的图像,用于少数镜头到图像到图像的转换任务。
左:训练。 训练集由各种对象类(源类)的图像组成。 我们训练模型来在这些源对象类之间转换图像。右:部署。 我们向训练模型显示目标类的极少数图像,这足以将源类的图像转换为目标类的类似图像,即使模型在训练期间从未见过来自目标类的单个图像。
请注意,FUNIT生成器需要两个输入:1)内容图像(红色线圈选)和2)一组目标类图像(绿色线圈选)。 它旨在生成类似于目标类图像的输入图像的转换。
架构及转换过程
框架基于生成对抗网络(GAN),实验表明,通过将对抗性训练方案与新颖的网络设计相结合,研究人员实现了所需的几次无人监督的图像到图像转换能力。 通过对三个数据集的广泛实验验证,包括使用各种性能指标与几种基线方法的比较,验证了框架的有效性。
少样本无监督的图像到图像转换示例
研究人员展示了动物面部转换,鸟类转换,花卉转换和食物转换的结果。对于每个例子,
y1和y2是测试期间可用的目标类的少数示例图像,
x是源类的输入图像,
x bar是从源类到目标类的转换。
模型能够将豹子转换成沙皮狗,即使它在训练期间从未见过单一的沙皮狗图像。
动物面部转换
鸟类转换
花卉转换
食物转换
结果表明,在训练过程中,当模型没有看到任何目标类的图像时,FUNIT可以基于小样本集生成可信的转换输出。
我们注意到输出图像中的对象与输入具有相似的姿势。
框架的局限性
当看不见的对象类的外观与源类的外观(例如花和动物的面部)显着不同时。 拟议的FUNIT框架未能产生有意义的转换输出。
论文摘要
无监督的图像到图像的转换方法,是指学习利用图像的非结构化(未注册)数据集,将给定类中的图像映射到不同类中的类似图像。
虽然非常成功,但是当前的方法需要在训练时访问源类和目标类中的许多图像。 我们认为这极大地限制了它们的使用。
人类通常具有可以从少数例子中找到新物体本质的能力,研究人员以此为灵感并加以推广,他们寻求一种小样本的、无监督的图像到图像的转换算法,该算法适用于以前从未见过的目标类别。 在测试时仅指定几个示例图片,该模型通过将对抗训练方案与新颖的网络设计相结合,实现了这种小样本的泛化能力。 通过广泛的实验验证和与基准数据集的几种基线方法的比较,验证了所提出框架的有效性。
代码:
https: //nvlabs.github.io/FUNIT
Demo:
https://nvlabs.github.io/FUNIT/petswap.html
论文:
https://arxiv.org/pdf/1905.01723.pdf
(本文为 AI科技大本营转载文章,转载请联系原作者)
◆
CTA核心技术及应用峰会
◆
5月25-27日,由中国IT社区CSDN与数字经济人才发展中心联合主办的第一届CTA核心技术及应用峰会将在杭州国际博览中心隆重召开,峰会将围绕人工智能领域,邀请技术领航者,与开发者共同探讨机器学习和知识图谱的前沿研究及应用。
更多重磅嘉宾请识别海报二维码查看,目前会议早鸟票发售中(原票价1099元),点击阅读原文即刻抢购。添加小助手微信15101014297,备注“CTA”,了解票务以及会务详情。
推荐阅读
人工智能的浪潮中,知识图谱何去何从?
从Pixel 3a到Android Q,一份谷歌AI能力的“成绩单” | Google I/O全程回顾
Python datetime指南:教你如何处理日期和时间(附试题+答案)
从小白到入门算法,我的经验分享给你~
开了个会:破局企业云通信,华为加速 Buff 开发者!
独家! 币安被盗原因找到了! 7074枚比特币竟是这样丢掉的
保送清华成博士,华为 12 年搞通信,他为何如此看待 5G ?| 人物志
补偿100万?Oracle裁900+程序员,新方案已出!
什么叫云原生应用?| 技术头条
@程序员,不加班就滚吧 | 程序员有话说
相关文章:

【Live555】live555源码详解(九):ServerMediaSession、ServerMediaSubsession、live555MediaServer
【Live555】live555源码详解系列笔记 继承协作关系图 下面红色表示本博客将要介绍的三个类所在的位置: ServerMediaSession、ServerMediaSubsession、DynamicRTSPServer DynamicRTSPServer是live555MediaServer中实现的类,用来创建RTSP服务器 17、ServerMediaSession Se…

windows下mysql和linux下mysql主从配置
1. linux下mysql安装版本5.6 windows下mysql版本5.7 不要问我为什么版本不一致 就是想这么搞 2. linux为主服务器 windows为从服务器 3.找到liunx下mysql配置文件 添加如下 然后重新启动 4.添加复制用户 5.查看master状态,记录下两个参数 mysql> show mas…

myeclipse快捷键大全
1.转变大写:ctrlshiftx; 2.转变小写:ctrlshifty; 3.关闭当前窗口:ctrlw; 4.关闭所有的窗口:ctrlshiftw; 5.帮助提示:这个可以选择自己喜欢的键位组合:我比较喜欢ctrlenter; 6.复制当前行:ctrlal…

算力觉醒后,智慧距离勃发就只差一个想法
“太阳把自己的能量以光的形式洒向地面,让植物得以利用光合作用生长成熟;繁茂的草木不仅为动物们提供了栖息的家园,更将太阳的馈赠化为甜蜜的果实,在滋养万灵的同时把自己对未来的希望变成种子,播撒到远方……形成下一…

【Ubuntu】将Ubuntu的源改为国内源
1、备份源 sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak2、查询系统代号 $ lsb_release -a No LSB modules are available. Distributor ID: Ubuntu Description: Ubuntu 20.04.1 LTS Release: 20.04 Codename: focal我在Ubuntu20.4上做的测试,Ubun…
浏览器缓存和webpack缓存配置
网络请求会耗费大量时间和请求,如果可以重用为改变的网络资源,对于用户来说可以更快更流畅的查看网页,对于服务器来说减少了很多负荷,所以浏览器缓存是前端优化的重要内容。本文介绍了浏览器缓存的机制和缓存在webpack中的应用。 …

ipsec ***野蛮模式应用
IPSEC野蛮模式:简介:IKE 的协商模式 在RFC2409(The Internet Key Exchange )中规定,IKE 第一阶段的协商可以采用两种模式:主模式(Main Mode )和野蛮模式(Aggressive Mode…

漫画:什么是LRU算法?
本期封面作者:A17————— 两个月前 —————用户信息当然是存在数据库里。但是由于我们对用户系统的性能要求比较高,显然不能每一次请求都去查询数据库。所以,小灰在内存中创建了一个哈希表作为缓存,每次查找一个用户的时候…

第15章节-Python3.5-Django实现用户登录与前端交互2 14
目的我想登陆成功后显示我的后台管理(实现过程): 新建home.html 在templates目录下代码如下: <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title> </head> <body style"…

【GLib】GLib学习笔记(一):GLib、GObject、GType
1、GLib GLib是 Gtk 库和 Gnome 的基础。glib 可以在多个平台下使用,比如 Linux、Unix、Windows 等。GLib为许多标准的、常用的 C 语言结构提供了相应的替代物。 GLib是GTK的基础库,它由基础类型、对核心应用的支持、实用功能、数据类型和对象系统五个…

tomcat配置tomcat-redis-session-manager
为什么80%的码农都做不了架构师?>>> 今天写了半天程序,有点乏了。想想来配置一下tomcat-redis-session-manager吧,但是按照 官方文档配了总是tomcat启动错误。 java.lang.NoClassDefFoundError: org/apache/commons/pool/impl/Ge…

链式比较、奇怪的字母、有趣的import...Python冷知识(六)
本文转载自Python编程时光(ID:Python-Time)冷知识系列,已经更新至第六篇。谈谈 Python 那些不为人知的冷知识(一)谈谈 Python 那些不为人知的冷知识(二)谈谈 Python 那些不为人知的冷知识&#…

【GLib】GLib学习笔记(二):源码编译
一、源码下载 http://ftp.acc.umu.se/pub/GNOME/sources/glib/本人下载是最新版本(截至2020-08-26):glib-2.65.2.tar.xz 二、安装依赖 1、安装依赖库 sudo apt install cmake sudo apt install zlib1g-dev sudo apt install meson sudo apt install ninja sudo …

java之类和对象
概述 面向过程:面向过程主要是把问题分解成多个不同的步骤,然后把各个步骤变成方法,它更强调过程。代表语言:c 面向对象:面向对象会把问题分解成各个对象,然后各个对象之间进行交互,每个对象内部…

【GLib】GLib学习笔记(三):gtypes、garray、gerror、goption
1、类型:glib/gtypes.h 1.1 基本类型; typedef char gchar; typedef short gshort; typedef long glong; typedef int gint; typedef gint gboolean;typedef unsigned char guchar; typedef unsigned short gushort; typedef unsigned lo…

Bert时代的创新:Bert应用模式比较及其它 | 技术头条
作者:张俊林,中国中文信息学会理事,中科院软件所博士。目前在新浪微博 AI Lab 担任资深算法专家。在此之前,张俊林曾经在阿里巴巴任资深技术专家并负责新技术团队,以及在百度和用友担任技术经理及技术总监等职务。他是…

HashSet 详解
为什么80%的码农都做不了架构师?>>> package com.sun;/* |——SortedSet接口——TreeSet实现类 Set接口——|——HashSet实现类|——LinkedHashSet实现类 HashSet 此类实现 Set 接口,由哈希表(实际上是一个 HashMap 实例&#…

肖仰华:知识图谱落地,不止于“实现”
作者 | Just出品 | AI科技大本营(ID:rgznai100)“知识将比数据更重要,得知识者得天下”,去年十月,在 CSDN 对肖仰华教授的一篇约稿里,他指出数据的真正价值蕴含于其深加工的知识中。从 Google 于 2012 年提…

【摄像头】摄像头相关名词解释
1、白平衡 白平衡,字面上的理解是白色的平衡。白平衡是描述显示器中红、绿、蓝三基色混合生成后白色精确度的一项指标。 那什么是白色?这就涉及到一些色彩学的知识,白色是指反射到人眼中的光线由于蓝、绿、红三种色光比例相同且具有一定的亮度所形成的视觉反应。我们都知道…

金额跳动动画效果
前言 金额效果,因为觉得公司目前的金额太乏味,决定加点效果,也特此写了个小demo,代码非常简单,贴代码方便大家看看 通过 runtime 建立属性(setter/getter方法) /** 由于分类中要添加属性,所以通过runtime方…

POJ 3070 Fibonacci
裸奔的矩阵乘法,当模板了。 #include <iostream>#include <cstring>#include <cstdio>using namespace std;const int N 2;const int MOD 10000;struct Mat {long long mat[N][N];void init() {for(int i 0; i < N; i) {for(int j 0; j &l…

推荐一个小而美的Python代码格式化工具
代码可读性是评判代码质量的标准之一,有一个衡量代码质量的标准是 Martin 提出的 “WFT” 定律,即每分钟爆出 “WTF” 的次数。你在读别人代码或者做 Code Review 的时候有没有 “WTF” 冲动呢? 为了帮助开发者统一代码风格,Pytho…

【摄像头】摄像机工作原理
1、摄像机工作原理 外部光线穿过镜头(lens)后, 经过滤光片(color filter)滤波后照射到光学传感器(Sensor)上面, Sensor 将从 lens 上传导过来的光线转换为电信号,再通过内部的 AD 转换为数字信号。 如果 Sensor 没有集成 DSP,则通…

@程序员,别再自己闷头学了
60 年冬去春来,人工智能技术发展起起落落。现在是 2019 年,属于 AI 不可阻挡的新转机正强势袭来。 科技巨头一向是未来技术发展最重要的风向标。2011 年,随着 Google 将一线业务引入深度学习技术,落伍移动时代的微软也拉起了一支…

linux下的oracle10g rman备份
RMAN是Oracle提供的一个数据库备份和恢复工具,利用rman可以比较方便的对数据库进行备份。Oracle 数据库可运行在归档和非归档模式下,这两者的区别就在于对redo log的处理。归档模式下,当一个redo log 写满之后,就会把这个redo lo…

最全Python算法实现资源汇总!
整理 | Rachel责编 | Jane出品 | Python大本营(ID:pythonnews)【导语】数据结构与算法是所有人都要学习的基础课程,自己写算法的过程可以帮助我们更好地理解算法思路,不要轻视每一个算法,一些虽然看似容易&…

【摄像头】低照度和光圈
1、低照度 低照度摄像机是指在较低光照度的条件下仍然可以摄取清晰图像的摄像头。 照度,即光照强度,是一种物理术语,指单位面积上所接受可见光的能量。单位:勒克斯Lux,简作Lx。 照度和光圈大小的关系:镜头的光圈越大(F值越小),所需的照度越低。这个好理解,光圈大了进…

CART树 python小样例
决策树不断将数据切分成小数据集,直到所有目标变量完全相同,或者数据不能再切分为止,决策时是一种贪心算法,它要在给定的时间内做出最佳选择,但并不关心能否达到最优 树回归 优点:可以对复杂和非线性的数据…

Directx教程(24) 简单的光照模型(3)
在工程myTutorialD3D11_17中,我们重新定义我们的cube顶点法向,每个三角形面的顶点法向都是和这个三角形的面法向是一致的。如下图所示: 在该工程中,我们还修改了CubeModelClass文件,从一个cube.txt文件中读cube顶点位置…

SSM框架之批量增加示例(同步请求jsp视图解析)
准备环境:SSM框架JDK8/JDK7MySQL5.7MAVEN3以上Tomcat8/7应用服务器 示例说明: 分发给用户优惠券,通过checkbox选中批量分发,对应也就是批量增加。 对于公司使用freemarket或者jsp或者volocity,有一定的启示意思。 不论视图用的是jsp或者非jsp…