当前位置: 首页 > 编程日记 > 正文

基于微软开源深度学习算法,用 Python 实现图像和视频修复

‍‍

作者 | 李秋键

编辑 | 夕颜

出品 | AI科技大本营(ID:rgznai100)

图像修复是计算机视觉领域的一个重要任务,在数字艺术品修复、公安刑侦面部修复等种种实际场景中被广泛应用。图像修复的核心挑战在于为缺失区域合成视觉逼真和语义合理的像素,要求合成的像素与原像素具有一致性。

传统的图像修复技术有基于结构和纹理两种方法。基于结构的图像修复算法具有代表性的是 Bertalmio 等提出的BSCB模型和 Shen 等提出的基于曲率扩散的修复模型 CDD。基于纹理的修复算法中具有代表性的有 Criminisi 等提出的基于 patch 的纹理合成算法。这两种传统的修复算法可以修复小块区域的破损,但是在破损区域越来越大时, 修复效果则直线下降, 并且修复结果存在图像模糊、结构扭曲、纹理不清晰和视觉不连贯等问题。

近年来,随着硬件设备等计算能力的不断提升, 以及深度学习技术在图像翻译、图像超分辨率、图 像修复等计算机视觉领域的迅速发展, 采用深度学习技术的修复方法能够捕获图像的高层语义信息, 与传统的修复方法相比, 具有良好的修复效果。故今天我们使用Python实现Bringing Old Photo Back to Life算法实现对图像和视频的修复。得到的模型评估效果如下:

基本介绍

传统的图像修复技术可以分为基于结构的图像修复技术和基于纹理的图像修复技术两大类。其中,变分偏微分方程模型是基于结构的图像修复技术的典型代表,由变分模型和偏微分方程模型组成。纹理合成是基于纹理的图像修复技术的典型代表。传统数字图像修复技术分类如下图所示。

传统的图像修复方法结果中存在语义信息不完整、图像模糊等问题,无法达到目前对图像修复的要求。而基于深度学习的图像修复算法能够捕获更多图像的高级特征,修复结果较好,所以经常用于图像修复。目前基于生成式对抗网络的图像修复是深度学习图像修复领域的一大研究热点,为图像修复技术的发展奠定了坚实的基础。而我们使用的算法就是基于深度学习的微软开源的Bringing Old Photo Back to Life去修复图像。

1.1 环境要求

本次环境使用的是Python3.6.5+windows平台。主要用的库有:

  • PyTorch模块。PyTorch是一个基于Torch的Python开源机器学习库,用于自然语言处理等应用程序。它主要由Facebookd的人工智能小组开发,不仅能够 实现强大的GPU加速,同时还支持动态神经网络,这一点是现在很多主流框架如TensorFlow都不支持的。PyTorch提供了两个高级功能:1.具有强大的GPU加速的张量计算(如Numpy) 2.包含自动求导系统的深度神经网络 除了Facebook之外,Twitter、GMU和Salesforce等机构都采用了PyTorch。

  • pillow模块。Pillow是Python里的图像处理库(PIL:Python Image Library),提供了了广泛的文件格式支持,强大的图像处理能力,主要包括图像储存、图像显示、格式转换以及基本的图像处理操作等。

  • Numpy模块。Numpy是应用Python进行科学计算时的基础模块。它是一个提供多维数组对象的Python库,除此之外,还包含了多种衍生的对象(比如掩码式数组(masked arrays)或矩阵)以及一系列的为快速计算数组而生的例程,包括数学运算,逻辑运算,形状操作,排序,选择,I/O,离散傅里叶变换,基本线性代数,基本统计运算,随机模拟等等。

  • collections这个模块实现了特定目标的容器,以提供Python标准内建容器 dict、list、set、tuple 的替代选择。Counter:字典的子类,提供了可哈希对象的计数功能;defaultdict:字典的子类,提供了一个工厂函数,为字典查询提供了默认值;OrderedDict:字典的子类,保留了他们被添加的顺序;namedtuple:创建命名元组子类的工厂函数;deque:类似列表容器,实现了在两端快速添加(append)和弹出(pop);ChainMap:类似字典的容器类,将多个映射集合到一个视图里面。

修复模型算法

本文所使用的Bringing Old Photo Back to Life算法流程分别为全局修复、脸部检测、脸部特征加强和特征融合。其中隐空间修复网络采用局部-全局视野融合,其中全局支路采用 nonlocal 模块大大增强处理视野。我们对局部破损图片建立了数据集,训练网络预测破损区域,该破损区域显式的送入 nonlocal 模块,并设置模块感受野为非破损区域

2.1 全局视野修复

本文的模型主要由三个部分组成两个变分自编码器(variational-autoencoder,VAE)和一个latent space 映射网络,每个部分都可以看作是单独的一个模块。下面将介绍网络设计的思想和不同部分的作用。

模型使用了两个 VAE:

第一个 VAE 用于将合成的老照片(模糊、磨损)进行编码到隐空间。

第二个 VAE 用于将对应的干净的老照片进行编码。

然后,在隐空间学习从污损的老照片到干净照片的映射。

就这样,实现了一个老照片的修复算法。

这个有点像在学习控制图片清晰、磨损的一个特征表示,通过控制这个特征,可以达到修复破损照片的目的。

关键代码如下:

model = networks.UNet(in_channels=1, out_channels=1, depth=4, conv_num=2, wf=6, padding=True, batch_norm=True, up_mode="upsample",with_tanh=False, sync_bn=True, antialiasing=True,
)
for image_name in imagelist:idx += 1print("processing", image_name)results = []scratch_image = Image.open(os.path.join(config.test_path, image_name)).convert("RGB")w, h = scratch_image.sizetransformed_image_PIL = data_transforms(scratch_image, config.input_size)scratch_image = transformed_image_PIL.convert("L")scratch_image = tv.transforms.ToTensor()(scratch_image)scratch_image = tv.transforms.Normalize([0.5], [0.5])(scratch_image)scratch_image = torch.unsqueeze(scratch_image, 0)scratch_image = scratch_image.to(config.GPU)P = torch.sigmoid(model(scratch_image))P = P.data.cpu()tv.utils.save_image((P >= 0.4).float(),os.path.join(output_dir, image_name[:-4] + ".png",),nrow=1,padding=0,normalize=True,)transformed_image_PIL.save(os.path.join(input_dir, image_name[:-4] + ".png"))

2.2 局部脸部修复加强

脸部特征的加强使用pixpix2模型对脸部二次修复。其中, Pix2Pix模型由Isola等于2017年提出, 它由U-Net和PatchGAN组成, 分别充当Pix2Pix模型中的生成器和判别器。该模型使用户只需提供一个草图便能生成一个与之对应的高质量图像; 对应到图像着色工作中, 网络接收真实图像的亮度信息, 对亮度信息进行特征提取并预测图像颜色值。

关键代码:

def create_optimizers(self, opt):G_params = list(self.netG.parameters())if opt.use_vae:G_params += list(self.netE.parameters())if opt.isTrain:D_params = list(self.netD.parameters())beta1, beta2 = opt.beta1, opt.beta2if opt.no_TTUR:G_lr, D_lr = opt.lr, opt.lrelse:G_lr, D_lr = opt.lr / 2, opt.lr * 2optimizer_G = torch.optim.Adam(G_params, lr=G_lr, betas=(beta1, beta2))optimizer_D = torch.optim.Adam(D_params, lr=D_lr, betas=(beta1, beta2))return optimizer_G, optimizer_D
def generate_fake(self, input_semantics, degraded_image, real_image, compute_kld_loss=False):z = NoneKLD_loss = Noneif self.opt.use_vae:z, mu, logvar = self.encode_z(real_image)if compute_kld_loss:KLD_loss = self.KLDLoss(mu, logvar) * self.opt.lambda_kldfake_image = self.netG(input_semantics, degraded_image, z=z)assert (not compute_kld_loss) or self.opt.use_vae, "You cannot compute KLD loss if opt.use_vae == False"return fake_image, KLD_loss
def discriminate(self, input_semantics, fake_image, real_image):if self.opt.no_parsing_map:fake_concat = fake_imagereal_concat = real_imageelse:fake_concat = torch.cat([input_semantics, fake_image], dim=1)real_concat = torch.cat([input_semantics, real_image], dim=1)fake_and_real = torch.cat([fake_concat, real_concat], dim=0)discriminator_out = self.netD(fake_and_real)pred_fake, pred_real = self.divide_pred(discriminator_out)return pred_fake, pred_real

源代码:https://pan.baidu.com/s/1lAzmWvAEyxi6RFsLpA5l_Q

提取码:osuh

推荐阅读
  • 后疫情时代,RTC期待新的场景大爆

  • 蓝色起源载人火箭7月首飞,贝索斯即将实现儿时愿望

  • 干货!机器学习中,如何优化数据性

  • 你的 AI 算法模型安全吗?来 AI 安全测试基准平台测试

点个“在看”,宠我一下

相关文章:

C#实现光盘做启动盘

一 :编程思想 1、创建启动盘 插入要创建的启动盘,程序自动检测光驱中光盘,利用WMI(Windows管理架构:Windows Management Instrumentation)读取该光盘的序列号(具有唯一性)&#xf…

为云服务立规矩——首批可信云服务认证名单公布

俗话说,没有规矩不成方圆。在云服务蓬勃发展的今天,无论从规范行业发展,还是为用户提供保障,推动政府云服务采购的角度来说,云服务市场都需要立规矩。7月15日至16日,以“可信中国云,未来新生态”…

Java:多个文档合并输出到一个文档

多个文档合并输出到一个文档 方法:Java NIO package First;import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.nio.channels.FileChannel; import java.nio.channels.WritableByteChannel;public class Test {pu…

线性表之顺序表(C语言实现)

线性表是从数据元素的逻辑结构上定义的. 这种数据元素的逻辑结构的特征如下: 1.除开第一个和最后一个元素之外.所有元素都有一个前驱元素和后继元素. 2.第一个元素无前驱元素,但有后继元素. 3.最后一个元素有前驱元素,单无后继元素. 可以抽象为如下表述: 元素1元素2元素3元素4元…

C# POP3编程

POP3的使用很简单,所以.net没有向SMTP那样给出相应的类来控制. 废话少说,程序员最需要的使代码,:)! 1.打开VS.NET 2003. 2.新建一个WinForm Application. 3.添加命名空间 using System; using System.Drawing; using System.Collections; using System.ComponentModel; usi…

终于有人把 Python 讲清楚了!

Python因为其优越的特性广泛应用于数据分析、人工智能、Web开发、后端开发、自动化测试/运维、爬虫等领域,也得到了很多企业的青睐。甚至连BATZJ的技术大牛,都无可否认Python现在对于一个程序员发展的重要性!最近一两年,我身边也有…

ASP.NET Core的配置(5):配置的同步[设计篇]

本节所谓的“配置同步”主要体现在两个方面:其一,如何监控配置源并在其变化的时候自动加载其数据,其目的是让应用中通过Configuration对象承载的配置与配置源的数据同步;其二、当Configuration对象承载的配置放生变换的时候如何向…

C#分析数据库结构,使用XSL模板自动生成代码

<html> <head> <TITLE>分析数据库结构,自动生成代码</TITLE> <meta http-equiv"Content-Type" content"text/html; charsetgb2312"> </head> <frameset cols"237,767" rows"*"> <…

超棒整理 | Python 关键字知识点大放送

作者 | 黄伟呢来源 | 数据分析与统计学之美其实前面我已经为大家总结了《Python系统关键字 “超全总结” 及其 “含义”》。今天呢&#xff0c;我将对每一个关键字列出一个例子&#xff0c;供大家参考学习和记忆。1、and、or、notand、or、not关键字都是逻辑运算符&#xff0c;…

linux下java进程占用高问题分析过程

2019独角兽企业重金招聘Python工程师标准>>> 1.用top命令找出占用cpu高的进程&#xff0c;记录下pid 2.用top -H -p pid(上面的pid)查看该进和下各线程占用cpu的情况&#xff0c;找出占用cpu高的线程pid 3.printf "%x\n" pid(上面线程的pid)打印出对应的十…

AWS - Couldformation 初探

AWS里面&#xff0c;所有的管理界面的功能都可以通过API或者JSON脚本实现&#xff0c;这样的好处是很容易的就和cloudwatch一起实现各种HA和autoscaling的应用。豆子初次使用cloudformation&#xff0c;写了一个简单JSON来创建一个EBS的Volume。我的模板定义的很简单&#xff0…

清华团队让 AI 写诗“更上一层楼”,诗歌图灵测试迷惑近半数玩家

作者 | 黄珊来源 | 数据实战派比特币外挖无穷洞&#xff0c;机神犹未休。卡中窥币影&#xff0c;池里验沙流。屡载吸金主&#xff0c;孤深渍盗求。方知区块链&#xff0c;本是古来游。这首诗歌来自一支清华团队开发的古诗 AI。它的创作才华可不仅限于此。再看下面这首诗&#x…

js中Dom元素及获取方法

DOM基础对象documentdocument.documentElement html部分document.head document.titledocument.body body部分获取元素对象方法document.getElementById(); 通过id找到对象document.getElementsByTagName(); 通过标签名找到对象并放到数组集合中document.getElementsByNam…

JavaBean简单及使用

一、JavaBean简介 JavaBean是使用Java语言开发的一个可重用的组件&#xff0c;在JSP的开发中可以使用JavaBean减少重复代码&#xff0c;使整个JSP代码的开发更简洁。JSP搭配JavaBean来使用&#xff0c;有以下的优点&#xff1a; 1.可将HTML和Java代码分离&#xff0c;这主要是为…

华为发布《AR洞察与应用实践白皮书》,提出用5G点燃AR,用AR照亮5G

[中国&#xff0c;深圳&#xff0c;2021年06月17日] 今日&#xff0c;在华为共赢未来5GAR全球峰会&#xff08;Better World Summit&#xff09;上&#xff0c;华为运营商BG首席营销官蔡孟波&#xff0c;发表了主题演讲《5GAR&#xff0c;让梦想照进现实》&#xff0c;提出用5G…

C#中虚函数,抽象,接口的简单说明

虚函数&#xff1a;由virtual声明&#xff0c;它允许在派生类中被重写&#xff0c;要重写方法&#xff0c;必须先声名为virtual public class myclass { public virtual int myint() { 函数体&#xff1b;} } class myclass1:myclass { public override int myint() { 函数体1&…

【开源】博客园文章编辑器4.0版发布

源起 最近个人时间多起来了&#xff1b; 于是打算持续写一点东西&#xff1b; 前面写了两篇关于riot.js的东西&#xff1b; 被博客园的领导移出首页了&#xff1b; 原因之一是排版不整齐&#xff1b; 确实是不整齐&#xff0c;这我认&#xff0c; 然而&#xff0c;我自己可是博…

C#中Timer组件用法

Timer组件是也是一个WinForm组件了&#xff0c;和其他的WinForm组件的最大区别是:Timer组件是不可见的&#xff0c;而其他大部分的组件都是都是可见的&#xff0c;可以设计的。Timer组件也被封装在名称空间System.Windows.Forms中&#xff0c;其主要作用是当Timer组件启动后&am…

微软全球副总裁洪小文:应对数字化转型挑战,跨界共创正当时

2021年6月16日&#xff0c;以“跨界共创”为主题的第四届微软亚洲研究院创新论坛在北京举办。今年&#xff0c;大会讨论的主题围绕“跨界创新”&#xff0c;数十家来自不同行业的企业代表&#xff0c;与微软亚洲研究院的计算机科学家就跨领域融合创新、共创精神推进数字化转型、…

Away3d 骨骼动画优化

很多朋友说Away3D 的骨骼数限制在32根&#xff0c;确切的说应该是Stage3D 的限制。在 AGAL2.0之前 VC寄存器是128个&#xff0c;每个vc常量寄存器最大只能容纳4位&#xff0c;transform占用一个4*4的矩阵&#xff0c;所以如果把一个transform存进vc里面&#xff0c;需要到4个寄…

postgresql中COPY的用法

一.测试创建表&#xff1a;[postgrescacti ~]$ cat test.sql CREATE TABLE weather ( city varchar(80), temp_lo int, temp_hi int, prcp real,date date);二.导入test.sql文件生成表&#xff1a;testdb01> \i test.sql***(Single step mode: verify command)*************…

C#中虚方法重载

在&#xff23;&#xff03;中&#xff0c;进行虚方法的重载有些体会&#xff0c;现与大家分享。 首先请大家看看下面的例子&#xff0c; using System; abstract public class contact { public virtual string prinf() { return ("这是虚方法"); } } publi…

Unity 4.x游戏开发技巧集锦(内部资料)

2019独角兽企业重金招聘Python工程师标准>>> Unity 4.x游戏开发技巧集锦&#xff08;内部资料&#xff09;淘宝书店地址&#xff1a;http://item.taobao.com/item.htm?spma1z10.3.w4002-6661947338.36.FdOZqM&id40302732808试读样章下载地址&#xff1a;http:/…

百度CTO王海峰阐释AI融合创新,降低门槛,按下产业智能化加速键

6月17-18日&#xff0c;第五届未来网络发展大会在南京隆重开幕。大会由中华人民共和国科学技术部、中国工程院、中国科学技术协会、江苏省人民政府指导&#xff0c;南京市人民政府主办&#xff0c;以“努力成为世界主要科学中心和创新高地的使命担当”为主线&#xff0c;邀请国…

[LeetCode系列]最大连续子列递归求解分析

本文部分参考Discuss: LeetCode. 步骤1. 选择数组的中间元素. 最大子序列有两种可能: 包含此元素/不包含. 步骤2. 步骤2.1 如果最大子序列不包含中间元素, 就对左右子序列进行步骤1. 步骤2.2 如果最大子序列包含, 则结果很简单, 就是左子列的最大后缀子列(即包含左子列最后一个…

C#中的多线程编程

C#是.Net平台的通用开发工具&#xff0c;它能够建造所有的.Net应用。在.Net中所有线程都运行在应用程序域(AppDomain)中&#xff0c;这也许让你想到Win32进程&#xff0c;实际上它们还是有很大的不同。应用程序域提供了一种安全而通用的处理单元&#xff0c;公共语言运行库可使…

关于机器学习,不可不知的15个概念

‍‍作者&#xff1a;布奇昆托&#xff08;Butch Quinto&#xff09;来源&#xff1a;大数据DT&#xff08;ID&#xff1a;hzdashuju&#xff09;有监督学习有监督学习是利用训练数据集进行预测的机器学习任务。有监督学习可以分为分类和回归。回归用于预测“价格”“温度”或“…

常用API(Object、String、StringBuffer、用户登陆注册)

常用API 今日内容介绍 u Object u String u StringBuilder 第1章 Java的API及Object类 在以前的学习过程中&#xff0c;我们都在学习对象基本特征、对象的使用以及对象的关系。接下来我们开始使用对象做事情&#xff0c;那么在使用对象做事情之前&#xff0c;我们要学习一些API…

WMI列出磁盘配额

using System; using System.Management; namespace DiskQuota { /// <summary> /// Class1 的摘要说明。 /// </summary> class Class1 { /// <summary> /// 应用程序的主入口点。 /// </summary> [STAThread] static void Main(string[] args) { try…

VS2013 编译使用 stlport

1. 下载stlport. 下载地址:http://sourceforge.net/projects/stlport/ 2. 解压到一个目录下面, 我的是解压到D:\project_kuku\program\library\STLport-5.2.1 3. 打开vs2013的命令行工具, 在目录:C:\Program Files\Microsoft Visual Studio 12.0\Common7\Tools\Shortcuts\ 下…