赠书 | 读懂生成对抗神经网络 GAN,看这文就够了
生成对抗神经网络(Generative Adversarial Nets,GAN)是一种深度学习的框架,它是通过一个相互对抗的过程来完成模型训练的。典型的GAN包含两个部分,一个是生成模型(Generative Model,简称G),另一个是判别模型(Discriminative Model,简称D)。生成模型负责生成与样本分布一致的数据,目标是欺骗判别模型,让判别模型认为生成的数据是真实的;判别模型试图将生成的数据与真实的样本区分开。生成模型与判别模型相互对抗、相互促进,最终生成模型能够生 成以假乱真的数据,判别模型无法区分是生成的数据还是真实的样本,如此一来,就可以利用生 成模型去生成非常逼真的数据。
由于GAN能够生成复杂的高维度数据,因此被广泛应用于学术研究和工程领域。GAN的主要应用包括图像处理、序列数据生成、半监督学习、域自适应(Domain Adaptation)。图像处理是GAN应用最多的领域,包括图像合成、图像转换、图像超分辨率、对象检测、对象变换等;序列数据生成包括音乐生成、语音生成等。
GAN架构
生成模型的输入是低维度的随机噪声(如向量),输出是高维度的张量(如图像或音乐)。判别模型的输入是高维度的张量(如图像或音乐);输出是低维度的张量,如代表输入张量是否来源于真实样本的热向量(one-hot)。在训练阶段,生成模型输出的高维度张量也会输入给判别模 型,由判别模型判断生成的数据是否已经足够像真实的样本数据。模型训练完成之后,在评估阶段就可以通过给生成模型输入低维度的随机噪声,让生成模型输出高维度的张量数据(图像或音乐)。
关于 GAN 的生成和对抗,最早的 GAN 是作者通过警察(判别模型)和造假币者(生成模 型)来举例的。造假币者试图造出非常逼真的假币,警察试图将假币和真币区分开。造假者不断提升造假币的能力,以试图欺骗警察;警察也不断提高自己的辨别能力,将假币尽可能地 识别出来。二者相互对抗、相互竞争,造假者的造假水平和警察的辨别能力都不断地提高,直到最终造假币者能够造出以假乱真的假币,这就是生成对抗的原理。GAN 的架构如图 1-1 所示。
判别模型
判别模型的输入是一个高维度的张量(如图像或音乐),输出是一个低维度的张量,一般是向量(如图像所属类别)。这个转换的过程是典型的降采样(Down Sampling)过程,即将高维度、大尺寸的输入张量逐步转换成低维度、小尺寸的输出张量,最终输出向量的过程。这一降采样的过程与卷积神经网络的过程十分类似。实际上,GAN网络架构中采用卷积神经网络作为判别模型是十分常见的。判别模型的网络架构如图1-2所示。
生成模型
生成模型的输入是一个代表随机噪声的低维度张量,输出是一个代表高维度的张量(如图像 或音乐)。生成模型的转换过程是一个典型的升采样(Up Sampling)的过程,这一过程与反卷积神经网络的操作过程非常类似。实际上,采用反卷积神经网络作为生成模型的情况也是十分常见的。典型的生成模型的网络架构如图1-3所示。
训练方法
由GAN的原理可知,生成模型(G)和判别模型(D)相互对抗,用L (G,D)代表损失函数,其中 判别模型试图最小化误差,生成模型试图最大化误差。最终的误差函数如下:
由式(1-1)可知,生成模型和判别模型对误差都有影响,其中任何一个变动都会导致误差变动。所以,GAN是采用交替训练的方法来训练的,即固定一个模型,训练另外一个模型。
GAN模型的训练过程可以通过以下步骤来完成。
(1)固定生成模型的参数,优化判别模型的参数。首先生成一批样本数据G (z),将它们标记 为生成的样本,然后与真实的样本数据 x(标记为真实样本)一起输入判别模型。由于判别模型 的目标是将二者区分开,因此这是一个典型的分类预测问题,这也是卷积神经网络非常擅长的。实际上,目前主流的 GAN网络的判别模型往往都是卷积神经网络。经过训练,如果判别模型具 备足够的容量,就能够将真实样本与生成的数据区分开,于是可以得到一个判别模型D1。
(2)固定判别模型D1的参数,优化生成模型的参数。生成模型的优化目标是降低判别模型 的准确率,所以应根据判别模型的辨别结果调整生成模型的参数,直到生成模型能够产生让判别模型D1无法区分的生成数据。至此,可以得到一个生成模型G1。
(3)循环执行(1)和(2),交替训练并且升级生成模型和判别模型,每经过一轮训练,就会提高 一些模型的准确率,升级一次模型,最终得到生成模型 G2、G3、G4、⋯、Gn 和对应的判别模型 D2、D3、D4、⋯、Dn。经过以上 n轮训练,不管是生成模型还是判别模型的性能都会得到极大的提升,判别模型能够区分稍有瑕疵的生成数据。为了能够欺骗判别模型,生成模型必须能够生成 几乎没有瑕疵,或者说是能够以假乱真的数据,最终 GAN具备了生成足够逼真的高维度数据的能力。
为什么要学习GAN?
因为GAN功能强大、应用广泛,并且无须限定样本数据分布,就能够生成锐利而清晰的数据。
GAN 的应用场景十分广泛,包括图像生成、图像处理、序列数据生成、半监督学习、域自适应,以及其他相关领域,如医学图像细分(通过图像细分算法精确定位病灶)、隐写术(一种加密技 术,通过将加密信息写入肉眼可视的图像中实现)、持续学习(深度生成重放)。
图像处理是GAN应用最广泛的领域,包括图像生成、图像转换、图像超分辨率、对象检测、对 象变换、视频合成等场景,其中图像生成是 GAN模型的最原始的应用场景。图像转换是指将一 个领域(x)中的图像转换成另一个领域(y)中的图像,如将真人模特的照片转换成动漫卡通人物 的角色;图像超分辨率是指将低分辨率的图像转换成高分辨率图像的场景;对象检测是指检测图 像中是否包含指定的对象(如图像中是否包含狗);对象变换是指将图像中的对象替换成其他对 象,并且在不改变对象背景的前提下,让变换后的图像看起来足够真实;视频合成是指根据当前 视频的内容,预测未来一段时间的视频内容。
序列数据生成是指生成序列化数据的场景,包括语音对话或音乐合成。
半监督学习是指样本数据中只有少量的样本是有标记的,大量的样本数据是没有标记的,这 种类型的数据在生活中广泛存在。GAN能够通过充分利用标记的样本数据所属类别的信息,从理论角度来说,GAN的识别准确率可以达到非常高。
域自适应是迁移学习的一种,是指将在一个领域学习得到的模型应用在另一个领域中,其应用也十分广泛。例如,根据黄种人的人脸数据集训练一个人脸识别模型,如果该模型直接应用于 非黄种人的人脸(如白种人或黑种人)识别,那么识别的准确率可能会很低。域自适应能够提高 模型的适应能力,保证模型在应用于新领域时的性能。
以上内容来自《GAN生成对抗神经网络原理与实践》,还想学习更多 GAN 的知识?
机会来了~
在评论区留言你对 GAN 或者 AI 学习的看法
AI科技大本营将选出三名优质留言
携手【北京大学出版社】送出
《GAN生成对抗神经网络原理与实践》一本
截至6月18日14:00点
更多精彩推荐后疫情时代,RTC期待新的场景大爆发
Python + 爬虫:可视化大屏帮你选粽子
二次元会让人脸识别失效吗?
点分享点收藏点点赞点在看
相关文章:

把Doc文档转换成rtf格式
先在项目引用里添加上对Microsoft Word 9.0 object library的引用。 using System; namespace DocConvert { class DoctoRtf { static void Main() { //创建一个word的实例 Word.Application newApp new Word.Application(); // 指定源文件和目标文件 object Source&quo…

中国书法的造型元素与原理 刘彦湖
为什么80%的码农都做不了架构师?>>> --------------------------------------------------------------------------------中国书法的造型元素与原理 刘彦湖 中国书法是用最基本的元素遵从中国人特有的形式原则建构起来的大厦。 对于元素及其品质的认…

融云任杰:强互动,RTC 下一个“爆点”场景 | 拟合
从无序中寻找踪迹,从眼前事探索未来。2021 年正值黄金十年新开端,CSDN 以中立技术社区专业、客观的角度,深度探讨中国前沿 IT 技术演进,推出年度重磅企划栏目——「拟合」,通过对话企业技术高管大咖,跟踪报…

推荐一个个人感觉比较有吸引力的网站
2019独角兽企业重金招聘Python工程师标准>>> 廖雪峰的官方网站 转载于:https://my.oschina.net/AaronCN/blog/294293

C# 2进制、8进制、10进制、16进制...各种进制间的轻松转换
在.NET Framework中,System.Convert类中提供了较为全面的各种类型、数值之间的转换功能。其中的两个方法可以轻松的实现各种进制的数值间的转换: Convert.ToInt32(string value, int fromBase): 可以把不同进制数值的字符串转换为数字&#x…

solrj操作单机solr
2019独角兽企业重金招聘Python工程师标准>>> 在目前的生产过程中全文检索技术应用越来越广,其中涌现了一批非常好得开源搜索引擎框架,如solr,elasticsearch等等。其中我工作使用最多的是solr,并在此对之前工作做一个总结。 solr的…

基于微软开源深度学习算法,用 Python 实现图像和视频修复
作者 | 李秋键编辑 | 夕颜出品 | AI科技大本营(ID:rgznai100)图像修复是计算机视觉领域的一个重要任务,在数字艺术品修复、公安刑侦面部修复等种种实际场景中被广泛应用。图像修复的核心挑战在于为缺失区域合成视觉逼真和语义合理的像素&…

C#实现光盘做启动盘
一 :编程思想 1、创建启动盘 插入要创建的启动盘,程序自动检测光驱中光盘,利用WMI(Windows管理架构:Windows Management Instrumentation)读取该光盘的序列号(具有唯一性)…

为云服务立规矩——首批可信云服务认证名单公布
俗话说,没有规矩不成方圆。在云服务蓬勃发展的今天,无论从规范行业发展,还是为用户提供保障,推动政府云服务采购的角度来说,云服务市场都需要立规矩。7月15日至16日,以“可信中国云,未来新生态”…

Java:多个文档合并输出到一个文档
多个文档合并输出到一个文档 方法:Java NIO package First;import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.nio.channels.FileChannel; import java.nio.channels.WritableByteChannel;public class Test {pu…
线性表之顺序表(C语言实现)
线性表是从数据元素的逻辑结构上定义的. 这种数据元素的逻辑结构的特征如下: 1.除开第一个和最后一个元素之外.所有元素都有一个前驱元素和后继元素. 2.第一个元素无前驱元素,但有后继元素. 3.最后一个元素有前驱元素,单无后继元素. 可以抽象为如下表述: 元素1元素2元素3元素4元…

C# POP3编程
POP3的使用很简单,所以.net没有向SMTP那样给出相应的类来控制. 废话少说,程序员最需要的使代码,:)! 1.打开VS.NET 2003. 2.新建一个WinForm Application. 3.添加命名空间 using System; using System.Drawing; using System.Collections; using System.ComponentModel; usi…

终于有人把 Python 讲清楚了!
Python因为其优越的特性广泛应用于数据分析、人工智能、Web开发、后端开发、自动化测试/运维、爬虫等领域,也得到了很多企业的青睐。甚至连BATZJ的技术大牛,都无可否认Python现在对于一个程序员发展的重要性!最近一两年,我身边也有…

ASP.NET Core的配置(5):配置的同步[设计篇]
本节所谓的“配置同步”主要体现在两个方面:其一,如何监控配置源并在其变化的时候自动加载其数据,其目的是让应用中通过Configuration对象承载的配置与配置源的数据同步;其二、当Configuration对象承载的配置放生变换的时候如何向…

C#分析数据库结构,使用XSL模板自动生成代码
<html> <head> <TITLE>分析数据库结构,自动生成代码</TITLE> <meta http-equiv"Content-Type" content"text/html; charsetgb2312"> </head> <frameset cols"237,767" rows"*"> <…

超棒整理 | Python 关键字知识点大放送
作者 | 黄伟呢来源 | 数据分析与统计学之美其实前面我已经为大家总结了《Python系统关键字 “超全总结” 及其 “含义”》。今天呢,我将对每一个关键字列出一个例子,供大家参考学习和记忆。1、and、or、notand、or、not关键字都是逻辑运算符,…

linux下java进程占用高问题分析过程
2019独角兽企业重金招聘Python工程师标准>>> 1.用top命令找出占用cpu高的进程,记录下pid 2.用top -H -p pid(上面的pid)查看该进和下各线程占用cpu的情况,找出占用cpu高的线程pid 3.printf "%x\n" pid(上面线程的pid)打印出对应的十…

AWS - Couldformation 初探
AWS里面,所有的管理界面的功能都可以通过API或者JSON脚本实现,这样的好处是很容易的就和cloudwatch一起实现各种HA和autoscaling的应用。豆子初次使用cloudformation,写了一个简单JSON来创建一个EBS的Volume。我的模板定义的很简单࿰…

清华团队让 AI 写诗“更上一层楼”,诗歌图灵测试迷惑近半数玩家
作者 | 黄珊来源 | 数据实战派比特币外挖无穷洞,机神犹未休。卡中窥币影,池里验沙流。屡载吸金主,孤深渍盗求。方知区块链,本是古来游。这首诗歌来自一支清华团队开发的古诗 AI。它的创作才华可不仅限于此。再看下面这首诗&#x…

js中Dom元素及获取方法
DOM基础对象documentdocument.documentElement html部分document.head document.titledocument.body body部分获取元素对象方法document.getElementById(); 通过id找到对象document.getElementsByTagName(); 通过标签名找到对象并放到数组集合中document.getElementsByNam…
JavaBean简单及使用
一、JavaBean简介 JavaBean是使用Java语言开发的一个可重用的组件,在JSP的开发中可以使用JavaBean减少重复代码,使整个JSP代码的开发更简洁。JSP搭配JavaBean来使用,有以下的优点: 1.可将HTML和Java代码分离,这主要是为…

华为发布《AR洞察与应用实践白皮书》,提出用5G点燃AR,用AR照亮5G
[中国,深圳,2021年06月17日] 今日,在华为共赢未来5GAR全球峰会(Better World Summit)上,华为运营商BG首席营销官蔡孟波,发表了主题演讲《5GAR,让梦想照进现实》,提出用5G…

C#中虚函数,抽象,接口的简单说明
虚函数:由virtual声明,它允许在派生类中被重写,要重写方法,必须先声名为virtual public class myclass { public virtual int myint() { 函数体;} } class myclass1:myclass { public override int myint() { 函数体1&…

【开源】博客园文章编辑器4.0版发布
源起 最近个人时间多起来了; 于是打算持续写一点东西; 前面写了两篇关于riot.js的东西; 被博客园的领导移出首页了; 原因之一是排版不整齐; 确实是不整齐,这我认, 然而,我自己可是博…

C#中Timer组件用法
Timer组件是也是一个WinForm组件了,和其他的WinForm组件的最大区别是:Timer组件是不可见的,而其他大部分的组件都是都是可见的,可以设计的。Timer组件也被封装在名称空间System.Windows.Forms中,其主要作用是当Timer组件启动后&am…

微软全球副总裁洪小文:应对数字化转型挑战,跨界共创正当时
2021年6月16日,以“跨界共创”为主题的第四届微软亚洲研究院创新论坛在北京举办。今年,大会讨论的主题围绕“跨界创新”,数十家来自不同行业的企业代表,与微软亚洲研究院的计算机科学家就跨领域融合创新、共创精神推进数字化转型、…

Away3d 骨骼动画优化
很多朋友说Away3D 的骨骼数限制在32根,确切的说应该是Stage3D 的限制。在 AGAL2.0之前 VC寄存器是128个,每个vc常量寄存器最大只能容纳4位,transform占用一个4*4的矩阵,所以如果把一个transform存进vc里面,需要到4个寄…

postgresql中COPY的用法
一.测试创建表:[postgrescacti ~]$ cat test.sql CREATE TABLE weather ( city varchar(80), temp_lo int, temp_hi int, prcp real,date date);二.导入test.sql文件生成表:testdb01> \i test.sql***(Single step mode: verify command)*************…

C#中虚方法重载
在C#中,进行虚方法的重载有些体会,现与大家分享。 首先请大家看看下面的例子, using System; abstract public class contact { public virtual string prinf() { return ("这是虚方法"); } } publi…

Unity 4.x游戏开发技巧集锦(内部资料)
2019独角兽企业重金招聘Python工程师标准>>> Unity 4.x游戏开发技巧集锦(内部资料)淘宝书店地址:http://item.taobao.com/item.htm?spma1z10.3.w4002-6661947338.36.FdOZqM&id40302732808试读样章下载地址:http:/…