新进展!英伟达用 AI 给纪录片配音,情绪语调拿捏得稳稳地
编译 | 禾木木
出品 | AI科技大本营(ID:rgznai100)
AI 已经将合成语音从单调的机器人电话和传统 GPS 导航系统转变为智能手机和智能扬声器中动听的虚拟助手。
虽然日常和Siri、小爱或小度等对话时声音还是很机械,但最新的技术进展显示, AI 的语音合成能力已经可以说得上是以假乱真了,并且还常常自我创新,赶上八卦潮流。
比如说:
人工智能合成的语音与我们在日常对话和媒体中听到的人类语音之间仍然存在一些差距,这是因为人们说话的节奏、语调和音色都很复杂,这对 AI 来说是难以模仿的。
这一差距正在迅速缩小。
NVIDIA 研究人员正在创建高质量、可控制的语音合成模型和工具,这些模型和工具能够捕捉人类语音的丰富性,并且不会出现音频杂音。
这些模型可实现为银行和零售商的自动客户服务热线配音、使视频游戏和书籍中的人物变得栩栩如生,并为数字化身提供实时语音合成。
情感语音合成只是NVIDIA研究院在对话式AI领域的重点工作之一。该领域还包括自然语言处理、自动语音识别、关键词检测、音频增强等。
比如下面这段语音,你能听出,这是 AI 唱的吗?
这音调、音律和小撒有一拼啊~
I AM AI
NVIDIA 研究人员目前正在 INTERSPEECH 2021大会上展示他们的最新项目,本届大会将持续到9月3日。
语音合成模型已经被应用到 I AM AI 系列视频中,为这个介绍重塑各行业全球 AI 创新者的系列视频制作了生动的解说。
以前的语音合成模型对合成声音节奏和音调的控制十分有限,因此 AI 配音无法唤起观众的情感反应,只有富有感情的人类声音才能做到这一点。
过去一年,NVIDIA文本-语音研究团队开发出更强大、更可控的语音合成模型(如RAD-TTS),解决了上述难题。
NVIDIA 在 SIGGRAPH Real-Time Live 比赛中的获奖演示即采用这个模型。通过使用人类语音音频来训练文本-语音模型,RAD-TTS 可以将任何文本转换成说话人的声音。
该模型的另一项功能是语音转换,即使用一名说话人的声音讲述另一名说话人的话或歌唱。
RAD-TTS 界面的灵感来自于将人的声音作为一种乐器这一创意。用户可以使用它对合成声音的音调、持续时间和强度进行精细的帧级控制。
通过这个接口,视频制作者可以在录制中自行阅读视频文本,然后使用AI模型将他作为男叙述者的语音转换成女叙述者的声音。
制作者可使用这个基准叙述,像指导配音演员一样指示 AI ,比如通过调整合成语音来强调特定的词语、修改叙述节奏以更好地表达视频中的语气等。
该 AI 模型的能力已超出了配音工作的范围:文本-语音转换可以用于游戏、为有声音障碍的人提供帮助、或帮助用户用自己的声音进行不同语言的叙述。它甚至能重现标志性歌手的表演,不仅可以匹配歌曲的旋律,还能匹配人声背后的情感表达。
为AI开发者和研究者提供语音功能
为了方便企业及研究人员的应用,NVIDIA提供了GPU加速的语音SDK。
NVIDIA NeMo是一款用于GPU加速对话式AI的开源Python工具包。NeMo中易于使用的API和预训练模型能帮助研究人员开发和自定义用于文本-语音转换、自然语言处理和实时自动语音识别的模型。
其中几个模型是在NVIDIA DGX系统上使用数万小时的音频数据训练而成。开发者可根据自己的使用情况对任何模型进行微调,用NVIDIA Tensor Core GPU上的混合精度计算加快训练速度。
NVIDIA NeMo还通过NGC提供在Mozilla Common Voice上训练的模型,该数据集拥有76种语言、近14000小时的众包语音数据。其目标是在NVIDIA的支持下,通过全球最大的开源数据语音数据集实现语音技术的普及化。
结 语
其实,不只是英伟达,此前,小冰也发布过超级自然语音技术。
小冰公司 CEO 李笛此前曾表示,AI的声音太接近真人,就很有可能被滥用。因此小冰禁止为普通个人训练声音。
但这样的技术,也逐渐走进人们的日常生活中。
你平时会和手机助手怎么交流呢?可以在下方留言区评论呦~
参考链接:
https://blogs.nvidia.com/blog/2021/08/31/conversational-ai-research-speech-synthesis-interspeech/
本文由AI科技大本营翻译,转载请注明出处。
相关文章:

揭开Annotation的面纱
Annotation是Java5、6只后的新特征(中文称之为注解),并且越来越多的得到了应用,比如Spring、Hibernate3、Struts2、iBatis3、JPA、JUnit等等都得到了广泛应用,通过使用注解,代码的灵活性大大提高。这些都是…

使用Nginx的proxy_cache缓存功能取代Squid
[文章作者:张宴 本文版本:v1.2 最后修改:2009.01.12 转载请注明原文链接:http://blog.s135.com/nginx_cache/] Nginx从0.7.48版本开始,支持了类似Squid的缓存功能。这个缓存是把URL及相关组合当作Key,用…

oracle grant 权限
grant connect,resource,dba to user;CONNECT角色: --是授予最终用户的典型权利,最基本的 CREATE SESSION --建立会话 RESOURCE角色: --是授予开发人员的 CREATE CLUSTER --建立聚簇 CREATE …

技术沙龙 | TeaTalk 带你深度探索 SDN 网络技术再创新
越来越多的企业、行业和政府机关顺应企业数字化转型、云服务和国家政策等趋势将业务迁移上云。随着移动云的快速发展,对网络提供差异化的服务能力也提出了很多新的考验。大规模数据中心、虚拟化 SDN 网络技术及超融合软硬一体可编程设备在云网络的应用已成为行业发展…

利用windows 2003实现服务器群集的搭建与架设(一) NLB群集的创建与架设
实验场景:西安凌云系统高科技有限公司利用IIS搭建了一个WEB站点,域名为nlb.angeldevil.com。由于业务的逐渐增加,网站速度也越来越慢,而且经常出现故障,为公司的利益带来了很多的不便;公司决定使用两台WEB站…

nginx 反向代理,动静态请求分离,proxy_cache缓存及缓存清除
一,nginx反向代理配置 #tomcat 显然就是用户访问www.wolfdream.com(需要设置本地localhost,将www.wolfdream.com指向nginx所在IP)的时候(或将www.wolfdream.com直接写在nginx所在的IP地址),将请求转到到后台的tomcat服务器,即127.…

深度强化学习的前景:帮助机器掌控复杂性
作者:数据实战派 来源:数据实战派深度强化学习,即机器通过测试其行为后果来学习的方法,是人工智能最有前途和影响力的领域之一。它将深度神经网络与强化学习结合在一起,可以通过训练实现多个步骤的目标。它是自动驾驶汽…

成绩转换(15)
#include<stdio.h> int main() {int n;char ch;while(scanf("%d",&n)!EOF){if(n>100||n<0) continue;if(n>90) chA;else if(n>80) chB;else if(n>70) chC;else if(n>60) chD;else chE;printf("%c\n",ch);} }转载于:https://ww…

pangolin最新版 v2.5.2.975
Pangolin是一款帮助渗透测试人员进行Sql注入测试的安全工具。 所谓的SQL注入测试就是通过利用目标网站的某个页面缺少对用户传递参数控制或者控制的不够好的情况下出现的漏洞,从而达到获取、修改、删除数据,甚至控制数据库服务器、Web服务器的目的的测试…

nginx 的proxy_cache才是王道
nginx 的proxy_cache才是性价比最高的缓存,我目前的配置是LiteSpeednginx,可以参考apachenginx将动态内容交给LiteSpeed或apache来处理,然后利用proxy_cache反向代理全部缓存在硬盘,变成静态内容,大家都知道nginx跑静态内容是有多厉害了吧,所以这样就可以小内存跑大PV.但是这样…

Android 占位符 %1$s %1$d
1、整型,比如“我今年23岁了”,这个23是整型的。在string.xml中可以这样写,<string name"old">我今年%1$d岁了</string> 在程序中,使用 [java] view plaincopy String sAgeFormat getResources().getStrin…

谁说技术男不适合养猫!90后程序员2天做出猫咪情绪识别软件
整理 | 王晓曼出品 | CSDN(ID:CSDNnews)9月1日,一则关于#程序员2天做出猫咪情绪识别软件#的话题登上微博热搜,参与阅读的人数达到了8218.1万,讨论次数1.3万,引发网友们的热议。高手在民间&#…

符合RESTful的接口规范
把api放在专属域名下,要带版本号 api的url中应该只有名词,和数据库的表或文档资源相对应;对资源(collection)的具体操作类型则由http方法动词表示 (安全性:不改变资源状态,类似只读&…

Nginx proxy_cache 使用示例
原文出处:http://blog.chenlb.com/2010/04/nginx-proxy-cache.html 动态网站使用缓存是很有必要的。前段时间使用了 nginx proxy_stroe 来保存静态页面,以达到缓存的目的。当然 proxy stroe 用来做缓存是不够好的方案。 缓存这一块当然还有 squid 之类的…

Lync 小技巧-49-Lync 自动备份-批量管理-用户(免费视频)
自从2010年开始,自从Lync Server 2010开始,我都在研究Lync 自动备份和批量管理用户,当年都做成功,做标准过.不过都是图片,未写博客,为什么呢?有可能你有这样那样的假设,但是今天可以…

数学很差的人能当程序员吗?
【CSDN 编者按】作者在大学时代受《程序员》杂志的启发,从数学专业投身计算机编程,毕业后进入软件开发行业。过去9年,他去过大厂敲代码,也曾在创业公司带过团队,一直从事“下一代”软件技术的研发,对于网上…

Nginx 学习笔记(六)引入线程池 性能提升9倍
原文地址:https://www.cnblogs.com/shitoufengkuang/p/4910333.html 一、前言 1、Nignx版本:1.7.11 以上 2、NGINX采用了异步、事件驱动的方法来处理连接。这种处理方式无需(像使用传统架构的服务器一样)为每个请求创建额外的专用…

Nginx源代码分析 - 日志处理
我看Nginx源代码的时候,感觉整个系统都在传递log指针。log在nginx里是比较关键的。日志和内存分配是最基础的两个起点代码,最好是在自己写的程序框架中早点完善并实现。以免未来要用大量的精力调整。1. 日志的源代码位置日志的源代码在src/code/ngx_log.…

strom.yaml配置
2019独角兽企业重金招聘Python工程师标准>>> 配置storm.yaml storm发行版在conf/storm.yaml包含了一些配置信息。你可以在这里看到默认配置。storm.yaml里面的配置比default.xml的优先级要高, 下面是要运行storm集群所必须的配置: 1. storm.zookeeper.se…

用 Python 快速制作海报级地图
作者:费弗里 来源:Python大数据分析 1 简介 基于Python中诸如matplotlib等功能丰富、自由度极高的绘图库,我们可以完成各种极富艺术感的可视化作品,关于这一点我在系列文章在模仿中精进数据可视化中已经带大家学习过很多案例了。 …

关于VS2012如何安装Windows Phone Toolkit
最近也是碰到很多问题,在编程的时候。这个问题是我遇到的比较棘手的一个,问了一堆人都说得很是模糊,最后还是琢磨出来了,深感欣慰。写下来以防以后忘记了怎么操作的,也期望能帮助到遇到同样问题的你。 首先让我先说了几…

论Oracle 11g数据库备份与恢复策略
11G中有个新特性,当表无数据时,不分配segment,以节省空间解决方案:1、insert一行,再roolback就会产生segment了该方法是在空表中插入一行数据,再删除,就会产生segment。则在数据库导出时可以导出…

使Apache实现gzip压缩
众所周知,在HTTP1.1中支持gzip压缩,这样可以缩小页面的容量从而加快页面的显示速度。可以使用常用HTTP抓包工具来检测一下你的站点是否开始了gzip压缩。 Apache默认的http.conf配置文件中没有开启gzip压缩,apache1.3.x可以用mod_gzip进行优化…

脸书 AI 识别误将黑人标记为「灵长类动物」
整理 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 最近,Facebook用户在观看一段以黑人为主角的视频时,会看到一个自动生成的提示,询问他们是否愿意“继续观看灵长类动物的视频”。 视频的内容其实是几个黑人和警察发…

Forefront for OCS2007之部署
1. 前提准备①OCS服务器②创建一个域账户,用于Forefront IM通告。帐户还将用于运行 ForefrontRTCProxy 服务用来截取来自 Office Communications Server SIP 通信进行扫描。此帐户必须满足以下要求:该帐户必须被为ForefrontRTCProxy服务授予 “ 运行为服…

Memcached在大型网站中应用
memcached是一个高性能的分布式的内存对象缓存系统,通过在内存里维护一个统一的巨大的hash表,它能够用来存储各种格式的数据,包括图像、视频、文件以及数据库检索的结果等。最初为了加速 LiveJournal 访问速度而开发的,后来被很多大型的网站采…

iOS开发-照片选择
本来想做个注册登录的表单的,想想还是先做个简单的头像选择,一般情况下不管是内部管理系统还是面向公众的互联网公司,注册登录是免不了的,用户头像上传是免不了的,尤其是企业用户,上传了自己的图片才感觉自…

打造一流创新环境:协作、开放、可持续
作者 | 微软亚洲研究院院长 周礼栋 毋庸置疑,人类是群居物种。早在两千多年前,亚里士多德便在其著述《政治学》里揭示了人类群居共利协作的趋向:个体组成家庭,家庭组成村落,村落组成城池,城池组成国家和社会…

Ansible源码解析 Inventory组概念
group.py 作者 煮酒品茶 一个组的Class,包含对外方法以及属性如下。 组做为inventory的子节点,会有嵌套组,组变量,组内主机,子组,父组的一些概念 [ name, hosts, vars, child_groups, parent_groups, depth…

Hadoop简要介绍
本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的,同时又参考了网上的很多文章,对学习Hadoop中遇到的问题进行了归纳总结。 …