杨超越的声音+高晓松的脸~如此酸爽的技术,你值得拥有!
作者 | 香港中文大学 Multimedia Laboratory
译者 | linstancy
整理 | Jane
出品 | AI科技大本营
什么是 Talking Face Generation 任务?
简单来讲,给定音频或视频后,可以让任意一个人的面部特征与输入信息保持一致。比如在下面的 Demo 视频中,通过输入一段音频,让其他五位个人都能说出这段话。如何利用这个技术?以后大家恶搞,就不只是给奥巴马、特朗普嫁接一段声音了。你可以让高晓松“燃烧我的卡路里”,也可以让好运锦鲤杨超越每天为你讲“晓说”。要油要甜,全看你的选择~(我要吴彦祖,胡歌,新恒结衣,神仙姐姐每天给我讲段子~)
其实,当人们说话时,面部区域一些细微的运动是非常复杂的,通常由讲话者个人固有的面部特征和所传递的外部信息共同决定。现有的研究中,一部分专注于前者,即对一个主体构建特定的面部特征模型;另一部分专注于后者,即构建唇部运动和言语信息之间的 identity-agnostic 变换的模型。
在这项工作中,作者将两方面整合一起开展了一系列研究,并提出了一种 DAVS (Disentangled Audio-Visual System)结构。通过学习分解的视觉和听觉表征,实现对任意说话主体的脸部生成。我们假设说话人的脸部序列是主体相关信息和语音相关信息的组合,通过一种新颖的关联-对抗训练过程来明确地解开这两个空间。这种分解方法的另外一个优点就是能将分解得到的音频和视频信息都可以用于语音信息的生成。大量实验表明,作者所提出的方法可以对任意对象上生成逼真的人脸序列,并且唇部运动模式更加清晰。此外,作者还发现,学习到的视听表征在唇语自动解读和音频视频检索等应用中也非常有用。
传送门
项目主页:
https://liuziwei7.github.io/projects/TalkingFace
论文链接:
https://arxiv.org/pdf/1807.07860.pdf
Github 地址:
https://github.com/Hangz-nju-cuhk/Talking-Face-Generation-DAVS
目前,作者准备把这个项目开源,大家可以在源码公开后进行深入实践了!
▌首先,你需要先准备:
Python2.7
PyTorch (0.2.0)
Opencv2
▌测试结果如何生成?
1.下载预训练的模型的 checkpoint
2.测试数据在0572_0019_0003文件夹,这是从 Voxceleb 数据集中筛选,经预处理后的样本数据。
3.运行测试脚本,利用视频生成视频
4.运行测试脚本,从语音生成视频
▌数据样本的生成结果
1.对人脸面部特征的影响
2.对非真是人脸面部特征的影响(只用人脸数据作为训练样本)
▌创造更多的样本
Demo 视频中使用的面部检测工具可以在 rsa 中找到。每张图像的一行中,将返回一个带5个关键点的 Matfile 输出。这个工具在其他面部对齐方法中也同样适用,如 dlib。在这个项目中,作者使用的面部对齐关键点是眼睛的中心和嘴角的平均点。使用的每个图像的 PATH和 face POINTS,大家可以在 preprocess / face_align.py 文件中找到作者使用的方法。
此外,作者对音频文件的预处理方法是相同的,调用了SyncNet 的matlab 的代码,在将 mfcc 特征保存到 bin 文件中。
▌训练代码
训练代码正在整理中,后续会公布。此项目的代码结构参考了 pix2pix 的实现代码:
https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix
后处理细节
直接生成的结果可能会受到缩放条件 (放大和缩小) 的影响,假设这是由训练集对齐引起的。作者在 demo 中使用 subspace video stabilization 方式来解决这种不稳定问题。
参考阅读:
http://web.cecs.pdx.edu/~fliu/papers/tog2010.pdf
本文为 AI科技大本营翻译文章,转载请联系微信 1092722531。
菜单升级啦,一键直通CSDN会员服务。你关心的开发问题,这里都有答案!
搜索:开发疑难/资源一键查找,搜遍CSDN全站
会员购买:专属VIP购买,免积分下载/免广告/获免费课程
下载APP:安装CSDN APP,CSDN资源随身带
个人中心:掌上CSDN个人助手,专属您的个人空间
2018 中国大数据技术大会
◆
BDTC 2018
◆
BDTC 2018中国大数据技术大会携主题“大数据新应用”再度强势来袭。本次大会由华东师范大学副校长、教授周傲英,百度商业智能实验室主任熊辉,阿里巴巴副总裁李飞飞三位会议主席对大会内容把关,多位两院院士参与指导,由最了解行业痛点的一线从业者为同行打造。
扫描下方二维码或点击【阅读原文】快速购票。现在购票还有机会获得大数据图书一本(中国科学院院士梅宏主编的《大数据导论》或华中科技大学教授金海主编的《大数据处理》),数量有限!
推荐阅读
孟岩对话元道:通证经济将在两个方向上闯出新路
AWS Lambda重大更新,跨越编程语言差异之门?
程序员婚恋现状大调查:有人三十岁没谈过恋爱,有人丁克万岁
C++20 要来了!
太嚣张了,会Python的人!
相关文章:

遍历数据键和值 php,php数组实例之获取当前数组键和值 each()
each()函数返回input_array的当前键/值对,并将指针推进一个位置。其形式如下:array each(array array)返回的数组包含四个键,键0和key包含键名,而键1和value包含相应的数据。如果执行each()前指针位于数组末尾,则返回f…

震后首游都江堰感怀
震后首游都江堰感怀题记:在地震刚刚过去2个月之时,来到都江堰参观有感——代腾飞 2008年7月12日 于都江堰千年水利都江堰地动山摇面不改但使沧容神尤在笑迎宾客八面来

安装linux和windows双系统
很多人一提到安装linux和windows双系统就会想到单独将磁盘划一个分区给linux,如果一块磁盘上已经安装了windows,并且所有分区都有数据,那就麻烦了,即使有了单独的分区,还需要安装grub,然后在grub中选择启动…

Office 365 系列之一:初识Office 365
最近项目越来越多,压力也是越来越大,而且到了年底了还要进行Office 365的考试,最近小编是在闲暇之余各种查看Office 365的资料,今天跟大家分享自己对 Office 365 的学习和理解,如有写得不对的地方还希望大家多 多指点哦…

oracle导出客户机使用us7a,导入 Oracle WORLD SAMPLE
Import WORLD SAMPLE C:\oraclexe\app\oracle\product\11.2.0\server\bin>imp system/oracle Import: Release 11.2.0.2.0 - Production on 星期五 10月 10 22:02:19 2014 Copyright (c) 1982, 2009, Oracle and/or its affiliates. All rights reserved. 连接到: Oracle D…

AI做不了“真”3D图像?试试Google的新生成模型
编译 | 若名出品 | AI科技大本营用 AI 生成逼真三维物体模型并不像人们以为的那么困难。近日,在 NeurIPS 2018 会议上接收的论文“ 视觉对象网络:图像生成与分离式的3D表示”中,麻省理工学院计算机科学与人工智能实验室(MIT CSAIL…

linux内核异常分析ecp,内核基于嵌入式Linux的PocketIX系统
lgms2008 于 2006-10-20 10:38:55发表:应用领域与前景目前PocketIX只是一个预览版,其正式版本不仅可以广泛应用于移动计算平台(PPC)、 家庭信息环境(机顶盒、数字电视)、 工业、商业控制(智能工控设备、POS/ATM机)等信息家电上,还可应用于与Internet相联…

sharepoint性能优化
写几个配置,提高sharepoint性能的。主要思路是提高sql的查询能力,提高iis的硬件占用资源。 1、sql配置,管理器,点属性。配置最大工作线程数,勾选提升SQL server的优先级。配置后,重启sql服务,查…

倒计时1天,2018中国大数据技术大会报名通道即将关闭(附参会提醒)
2018 年12 月 6-8 日,由中国计算机学会主办,CCF大数据专家委员会承办,CSDN、中科天玑数据科技股份有限公司协办的 2018 中国大数据技术大会(BDTC),携主题“大数据新应用”再度强势来袭,直击大数…

DNN module.css文件不起作用的解决
DNN的模块会自动加载模块根目录下的module.css文件,但有时你加入了一个module.css文件,却发现加入的module.css文件没有被加载,这是为什么呢? 因为DNN的Cache机制和CSS加载机制,新加入的module.css没有立即被加载&…

搭建redis给mysql做缓存
安装redis的前提是lnmp或者lamp的环境已经搭建完成。 安装redis 1、安装redis(或可以选择yum安装) 123456789101112[rootredis ~]# wget -c -t 0 http://download.redis.io/releases/redis-2.8.19.tar.gz[rootredis ~]# mkdir /usr/local/redis[rootredi…

小米发力AI场景下的“快应用”,投百亿资源扶持开发者
近日,备受瞩目的2018 MIDC小米AIoT第二届开发者大会在京召开,雷军宣布AIloT是小米的核心战略,小米将和合作伙伴一起打造AIloT的美好明天。另外,大会还宣布了小米与宜家达成全球战略合作,宜家全系智能照明产品都将接入小…

arcgis 投影变换与坐标转换研究
arcgis 投影变换与坐标转换研究 1 ArcGIS中的投影方法 投影的方法可以使带某种坐标信息数据源进行向另一坐标系统做转换,并对源数据中的X和Y值进行修改。我们生产实践中一个典型的例子是利用该方法修正某些旧地图数据中X,Y值前加了带数和分带方法的数值。 字串9 操…

linux lvm 大小与硬盘大小关系,linux lvm扩容磁盘大小
关闭需要扩容的虚拟机,并通过管理虚拟机界面添加磁盘空间,本次调整50G注意,本次写入为增加容量的大小,并非增加完硬盘的大小硬盘添加后可以用fdisk -l 查看磁盘容量大小,可以看到硬盘增加了50G ,但是由于没…

无人驾驶汽车系统入门:基于VoxelNet的激光雷达点云车辆检测及ROS实现
作者 | 申泽邦(Adam Shan)兰州大学在读硕士研究生,主要研究方向无人驾驶,深度学习;兰大未来计算研究院无人车团队负责人,自动驾驶全栈工程师。之前我们提到使用SqueezeSeg进行了三维点云的分割,…

EX2010与EX2013共存迁移01-设计及说明
1.1共存条件说明 2013年之前发布的Exchange 2013版本是不支持共存的,只有在2013年4月2日发布的Exchange 2013 CU1版才支持共存,Exchange 2010必须为SP3版本才支持和2013共存及迁移,Exchange2003不支持和2013共存及迁移。下面是详细的共存说明…

linux ext4增加大小,如何修改 ext4 文件系统的大小
如何修改 ext4 文件系统的大小a. 扩大文件系统i启动到 Linux,umount 掉/dev/sdb1 和/dev/sdb2,若提示磁盘忙的话使用fuser 将正在使用磁盘的程序 kill 掉。(推荐使用另外的 Linux 启动盘来引导系统)ii使用 fdisk /dev/sdb 调整分区大小,进去之后,输入 p,记下要扩大分区起始位置…
Silverlight初级教程-开发工具
Silverlight初级教程 开发工具 在silverlight越来越流行的同时有很多的供应商开始筹划制作编辑和设计silverlight的工具。现在最常见的设计和开发工具是:Visual Studio 2008Visual Studio是微软整合的集成开发环境。截止此时Visual Studio 2008已经提供了编辑和预览…

201671010128 2017-11-12《Java程序设计》之图形程序设计
一、基本概念 Java的抽象窗口工具箱(Abstract Window Toolkit, AWT)包含在java.awt包中,它提供了许多用来设计GUI的组件类和容器类。AWT库处理用户界面元素的方法:把图形元素的创建和行为委托给本地GUI工具箱进行处理。应用AWT编写依赖于本地…

linux线程join的用法,join用法
Join用法- a 1显示第一个文件的不匹配行,- a 2为从第二个文件中显示不匹配行。n.m n为文件号,m为域号。1 . 3表示只显示文件1第三域,每个n,m必须用逗号分隔,如1 . 3,2 . 1。# cat name.txtM.Golls 12 Hi…

vss使用注意事项
连接方式 局域网方式连接 Internet 方式连接 在局域网方式连接时,需要输入自己的 vss 登陆帐号,账号可以通过管理器,自己在 vss 系统中注册; Internet 连接时默认使用的是 vss 中的 administrator 账号; 请大家都使用自…

沈向洋、黄学东等大咖助阵,IoT in Action微软深圳物联网大会即刻报名
每当海聊黑科技,总会有种恍然隔世的幻觉自动驾驶、无人配送、刷脸支付、智能翻译……物联网、人工智能、智能边缘等等新技术正在快速变得实用并普及怀疑论者还秉持观望,深怕技术布道之嫌而我们的现实中已经切实听见他们落地的声音因为“未来已经来临&…

centos6上以二进制方式安装mariadb5.5
准备mariadb-5.5.57-linux-x86_64.tar.gz二进制程序包 此包是经过编译的,也就是说我们要在特定的目录下安装; 步骤1、准备mysql用户 mkdir /app/data #此目录是存放mysql数据库、表的 useradd -r -m -d /app/data -s /sbin/nologin mysql #创建mysql用户…

“神人”or“闲人”?你的未来由AI与大数据决定
12 月 6 日,北京新云南皇冠假日酒店,由中国计算机学会主办,CCF 大数据专家委员会承办,CSDN、中科天玑数据科技股份有限公司协办的 2018 中国大数据技术大会(BDTC)首日议程圆满结束。本次大会为期三天&#…

linux 获取cpu id,linux获取cpu id和disk id
2013-04-19 15:17 57人阅读 评论(0)// 获得CPU IDpublic static final String CPU_ID_CMD "dmidecode -t 4 | grep ID |sort -u |awk -F: {print $2}";// 获得磁盘IDpublic static final String DISK_ID_CMD "fdisk -l |grep \"Disk identifier\" …

给gridview添加上下移动功能
给gridview添加上下移动功能存储过程代码:CREATE PROCEDURE [sp_trans_dept] now_id int,upside_id intASdeclare tmp_ordering int --临时变量declare sqlstr varchar(1000) --sql语句declare table_name varchar(500)declare column_name varchar(500)set t…

Lucene.Net 2.3.1开发介绍 —— 三、索引(六)
2.2 Field的Boost 如果说Document的Boost是一条线,那么Field的Boost则是一个点。怎么理解这个点呢?设置Document的Boost会影响所有字段。在搜索的过程中,一般至少会搜索两个Field,比如同时搜索标题和内容。而Document的Boost将同时…

linux nor flash 读写,9.2 NorFLASH读写实验——M25PExx
>[danger] 学习本节内容前,请先检查自己手上的开发板是否具备NorFlash存储器,如不具备则可跳过本章节。> ZigBee 标准板:具备> ZigBee MINI板:不具备> ZigBee 网关 & 嵌入式Linux 二合一开发板:具备我…

sql server分布式事务解决方案[新事务不能登记到指定的事务处理器中错误]
< DOCTYPE html PUBLIC -WCDTD XHTML StrictEN httpwwwworgTRxhtmlDTDxhtml-strictdtd> 适用环境 操作系统:windows 2003,xp 数据库:sql server 2000/sql server 2005 使用链接服务器进行远程数据库访问的情况 一、 问题现象 在执行分布…

微软“叛变”谷歌 Chromium!
去年,微软工程师在公开演示 Azure 服务时,微软 Edge 浏览器频频崩溃,逼得他只能在众目睽睽的尴尬局面下,使用 Edge 下载 Chrome 浏览器来继续他的演示。一年之后的今天,Edge 就抱上了 Chrome 的大腿。图片来源…