Azure Neural TTS能让AI语音自然逼真到什么程度?
摘要:微软Azure Neural TTS让AI语音像真人一样富有感情,自然逼真。
Neural TTS(神经网络文本转语音)是微软Azure认知服务的强大语音合成功能,自推出以来,已被广泛应用于从语音助手、新闻阅读到有声读物创作等多种场景。同时,越来越多的用户希望它也可以支持到更多日常的对话场景,拥有更加富有情感和自然逼真的拟人效果。如今,这一愿望已经得到实现——通过对Neural TTS多个方面的升级,它所合成的声音已经能够良好适应日常对话场景。
不同对话场景,用户期待不同语气的拟人AI语音
TTS语音已被越来越多地用于支持人机对话或机器辅助的日常交流——例如人与人之间对话的同声传译。在这些场景中,人们普遍期待能够实现更自然、更口语化的对话风格。我们不妨从以下三个典型场景中,来理解用户对于对话声音和风格的不同需求。
客服机器人:语气要自然、友好且专业
很多企业正在使用支持语音的聊天机器人或IVR(互动式语音应答)系统,为客户带来相比传统方式更为高效、体贴的客户服务。例如国际移动通讯网络公司沃达丰就成功地创建了一个拥有自然语音的客服机器人TOBi。Azure的人工智能和自然语言处理功能赋予了TOBi鲜明的个性,使客户与TOBi之间的人机对话变得轻松自然,让客户更乐于与之交流。
设想这样的情景:在客户对TOBi报出姓名后,当TOBi需要了解客户的地址以便提供进一步服务时,Tobi并不会生硬地接着发问:“请说出您的地址。”而是会这样表达:“嘿,好名字!接下来我还需要了解一下您住在哪里?”此时此刻,客户一定希望AI能够以听起来热情、友好、温暖,且又专业的声音来说出这句话。类似的需求不仅体现在AI解答客户疑问时,还适用于AI语音向客户打招呼,或表达共情态度时。
个人助理:表情符号、重点强调要读懂
随着虚拟助手和虚拟现实技术的兴起,使用Neural TTS来支持闲聊和日常对话功能的客户数量正在不断增加。想要让AI与人类的对话更加自然,最主要的挑战之一在于如何让AI理解包含特殊字符在内的聊天用语——比如“呵呵”、“哈哈”、“哎哟”这类词汇,这类表情符号,还有重复字母如“soooo good”——然后再以自然的语气提供即时响应。此外,让AI能使用不同的信息来表达相应情感,从而表现出对人类感受的共鸣感,也正在成为一种越来越普遍的用户需求。
同声传译:翻译前后说话风格、语气要一致
语音互译是又一个对话式AI语音可支持的典型场景。Azure Neural TTS已覆盖110多种不同语言,被应用于多种翻译场景中。不过,如何在翻译的同时保持讲话者的原始语气风格,一直都是个挑战。尤其是在较为随意的对话场景中,讲话者往往会使用语气上的细微差别来与听众建立情感联系。在这种情况下,如果AI语音可在提供同步翻译的同时,又能捕捉并理解讲话者的风格,就能使不同语言之间的对话依然生动且具有吸引力。
Azure Neural TTS进化:多国语言皆可栩栩如生、“以假乱真”
Sara(英语):更能表现自然情感的聊天机器人语音
Sara是一个新近推出的美式英语音色,尤其擅长轻松的对话。“她”有着轻松自然的年轻女性声线,能够胜任各种需要聊天机器人的场景。Sara拥有三种情绪:快乐、悲伤和气愤。她在阅读表情符号时,可以发出笑声、叹息或气愤语气,而且还能发出“太~(拉长语调)好了”这种人类特有的语调。
播放下面的语音,亲耳感受一下效果。
语音1:https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/SaraFSM_CPU24K0817_637655010744911720.wavhttps://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/SaraFSM_CPU24K0817_637655010744911720.wav
语音2:
https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/SaraFSM_CPU24K0817_637655014041446089.wavhttps://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/SaraFSM_CPU24K0817_637655014041446089.wav
下面这段录音,来自Sara作为聊天机器人与人类用户之间的自然对话。(此示例来自机器人和人类用户之间的闲聊,对话很随意,可能包含错误。)
https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara_Melinda.wavhttps://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara_Melinda.wav
除了预设的几种“情绪”,用户还可以通过SSML让Sara在常规交流、欢快、悲伤和愤怒等几种语气风格之间随意切换。
语音1:
https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara%20Cheerful.wav
语音2:
https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara%20Sad.wavhttps://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara%20Sad.wav
语音3:
https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara%20Angry.wavhttps://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara%20Angry.wav
语音4:https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara%20Chat.wavhttps://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara%20Chat.wav
晓辰和晓颜(中文普通话):专为日常对话及客服场景而优化的全新中文语音
晓辰和晓颜是专为中文用户提供的普通话语音。其中晓辰擅长逼真的自然语气,晓颜与客户服务场景更匹配。
晓辰和晓颜最显著的特征,在于能逼真模仿人类在日常场合下的交流。与朗诵、播音这类“严肃”场合不同,人们的日常对话中除了语气随意,韵律多变,而且常常出现词语发音不完整,句子语法不像课本那么严谨,且会出现重复、不完整、或者啰嗦等情况。
借助先进的建模技术,晓辰和晓颜的AI语音能够学习并活用这些人类表达的“缺陷”,并逼真地还原这些“不完美”,使合成语音听起来更加真实亲切。
在下面这段客服场景模拟对话中,晓颜是客服助理,晓辰是客户。您可以从中感受到他们如同真人一般轻松、自然的对话语气。
https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Conversation%20between%20Xiaochen%20and%20Xiaoyan.mp4https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Conversation%20between%20Xiaochen%20and%20Xiaoyan.mp4
Nanami(日语):元气满满的东瀛女声
Nanami是拥有动听女性声线的日语语音。“她”有着三种不同语音风格:聊天风格、客服风格和开朗风格,让合成语音在各种场景中都更具吸引力。
来听一听Nanami元气满满的声音:
语音1:https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Nanami_CustomerService.wavhttps://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Nanami_CustomerService.wav语音2:
https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Nanami_Chat.wavhttps://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Nanami_Chat.wav
语音3:
https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Nanami_Cheerful.wav
现在就来感受Azure Neural TTS拟人语音的动人表现力吧!
微软不断倾听全球用户对于Azure Neural TTS在不同情况下语音发音准确性的反馈,以负责任的AI及公平、可靠和安全、隐私和保障、包容、透明、负责的六项人工智能准则为前提,进行了这次更新,为用户带来表达更自然、语义更清晰的语音体验。
现在,微软的文本转语音可以支持超过110种语言的270多种AI语音。如果想亲身感受Azure Neural TTS的强大,就来Azure官网亲自体验吧!还有声音定制平台可以即刻为企业创建多种语言和风格的独特品牌语音。
相关文章:

ReentrantLock与synchronized
1、ReentrantLock 拥有Synchronized相同的并发性和内存语义,此外还多了 锁投票,定时锁等候和中断锁等候线程A和B都要获取对象O的锁定,假设A获取了对象O锁,B将等待A释放对O的锁定,如果使用 synchronized ,如…

EXT按钮事件
在EXT中,当我们要为按钮点击添加处理function的时候,可以看到一般人的实现分成2类:1.使用onClick: function xx()2.使用handler: function xx()完成后,我们会发现,无论用哪一种实现,再点击按钮时都能触发xx…

浅谈HTTP中Get与Post的区别
Http定义了与服务器交互的不同方法,最基本的方法有4种,分别是GET,POST,PUT,DELETE。URL全称是资源描述符,我们可以这样认为:一个URL地址,它用于描述一个网络上的资源,而H…

达摩院年终预测重磅出炉:AI for Science 高居榜首,2022 十大科技趋势!
整理 | 郑丽媛出品 | CSDN(ID:CSDNnews)作为“一所探索科技未知的研究院”,阿里巴巴达摩院成立至今已经四年了。这四年来,达摩院秉持着“探索科技位置,以人类愿景为驱动力,开展基础科学和颠覆式…
TensorFlow——入门基础
TensorFlow原理: TensorFlow使用Graph来描述计算任务,图中的节点被称之为op.一个op可以接受0或多个tensor作为输入,也可产生0或多个tensor作为输出.任何一个Graph要想运行,都必须借助上下文Session.通过Session启动Graph,并将Graph中的op分发到CPU或GPU上,借助Sessi…

EXT iconCls说明
今天学习ext 看examples中的事例,其中有一个地方是这样写的: new ButtonPanel( Icon Only, [{ iconCls: add16 },{ iconCls: add24, scale: medium },{ …

25个好用到爆的一行 Python 代码,建议收藏
作者 | 欣一来源 | Pyhton爱好集中营在学习Python的过程当中,有很多复杂的任务其实只需要一行代码就可以解决,那么今天小编我就来给大家介绍实用的一行Python代码,希望对大家能够有所帮助。1.两个字典的合并x {a: 1, b: 2} y {c: 3, d: 4}将…

【工业串口和网络软件通讯平台(SuperIO)教程】七.二次开发服务驱动
SuperIO相关资料下载:http://pan.baidu.com/s/1pJ7lZWf 1.1 服务接口的作用 围绕着设备驱动模块采集的数据,根据需求提供多种应用服务,例如:数据上传服务、数据请求服务、4-20mA服务、短信服务、LED服务以及OPC服务等。保障数…

usermod命令,用户密码管理和mkpasswd命令
2019独角兽企业重金招聘Python工程师标准>>> usermod 设置扩展组 概念:更改用户属性的一个命令。 用法:usermod [选项] 后面跟你需要操作的内容 [用户名] 选项:-c, --comment 注释 GECOS 字段的新值-d, --home HO…

extjs关于jsonreader
在JavaScript中,JSON是一种非常重要的数据格式,key:value的形式比XML那种复杂的标签结构更容易理解,代码量也更小,很多人倾向于使用它作为EXT的数据交换格式。JsonReader支持分页,与JSON数据对应格式如下:t…

求逆元 - HNU 13412 Cookie Counter
Cookie Counter Problems Link: http://acm.hnu.cn/online/?actionproblem&typeshow&id13412&courseid0 Mean: 将N分为D份,每份不超过X,有多少种分法? analyse: 首先我们想到的是迭代,但是数据太大,…

IEEE 发布年终总结,AI 奇迹不再是故事
编译 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 2021 年,人工智能奇迹不再只是故事! 人工智能正在迅速融入各行各业,IEEE Spectrum 总结了 2021 年 10 篇最受读者欢迎的 AI 文章,按时间排名,…

一则利用内核漏洞获取root权限的案例【转】
转自:https://blog.csdn.net/u014089131/article/details/73933649 目录(?)[-] 漏洞描述漏洞的影响范围漏洞曝光时间漏洞产生的原因漏洞的利用exploit代码分析kernel 最近出了一个新的本地提权安全漏洞CVE-2013-1763,影响范围比较广泛,ubunt…

Ext.data库
Ext.data 库主要包括以下几个类:Ext.data.Store >DataSetExt.data.Record >DataSet.RowExt.data.DataProxy >SqlConnectionExt.data.DataReader >SqlDataAdapter以下分别进行介绍:1.Ext.data.Record可以用来定义一行数据的格式,它有几个重要的属性和方法…

2021年最有用的数据清洗 Python 库
作者 | 周萝卜来源 | 萝卜大杂烩大多数调查表明,数据科学家和数据分析师需要花费 70-80% 的时间来清理和准备数据以进行分析。对于许多数据工作者来说,数据的清理和准备也往往是他们工作中最不喜欢的部分,因此他们将另外 20-30% 的时间花在抱…

组合与继承之重写方法和字段
为什么80%的码农都做不了架构师?>>> 接上篇blog,scala里的字段和方法属于相同的命名空间,这让字段可以重写无参数方法。例如,你可以通过改变ArrayElement类中contents的实现将其从一个方法变为一个字段,而…

20165334 四则运算阶段性总结(第二周)
四则运算阶段性总结(第二周) 结对对象 学号 :20165334 姓名 : 李天龙 担任角色 (驾驶员):李天龙 (副驾驶):陈国超 一、实验实现步骤 整数计算类分数计算类自动…

取消掉Transfer-Encoding:chunked
有时候,Web服务器生成HTTP Response是无法在Header就确定消息大小的,这时一般来说服务器将不会提供Content-Length的头信息,而采用Chunked编码动态的提供body内容的长度。进行Chunked编码传输的HTTP Response会在消息头部设置:Tra…

【LeetCode】142 - Linked List Cycle II
Given a linked list, return the node where the cycle begins. If there is no cycle, return null. Follow up:Can you solve it without using extra space? Solution: Discuss上的分析:Suppose the first meet at step k,the length of the Cycle …

3000 字详解 Pandas 数据查询,建议收藏
作者 | 俊欣来源 | 关于数据分析与可视化今天小编来和大家说一说怎么从DataFrame数据集中筛选符合指定条件的数据,希望会对读者朋友有所帮助。导入数据集和模块我们先导入pandas模块,并且读取数据,代码如下import pandas as pd df pd.read_c…

stylus使用文档总结:内置方法+参数+条件+迭代+导入+继承
一、内置方法 返回各种颜色的比重(如red(color)等) 颜色函数是CSS预处里器中内置的颜色函数功能,这些功能可以对颜色值进行处理,例如颜色的变亮、变暗、渐变颜色等处理十分的方便。 lighten(color, 10%); /* 返回的颜色在color基础…

用 Python 制作酷炫的可视化大屏,特简单!
作者 | 小F来源 | 法纳斯特在数据时代,我们每个人既是数据的生产者,也是数据的使用者,然而初次获取和存储的原始数据杂乱无章、信息冗余、价值较低。要想数据达到生动有趣、让人一目了然、豁然开朗的效果,就需要借助数据可视化。以…

HTTP协议中的Tranfer-Encoding:chunked编码解析
当不能预先确定报文体的长度时,不可能在头中包含Content-Length域来指明报文体长度,此时就需要通过Transfer-Encoding域来确定报文体长度。通常情况下,Transfer-Encoding域的值应当为chunked,表明采用chunked编码方式来进行报文体的传输。chu…

[转] splice系列系统调用
关注splice系列系统调用(包括splice,tee和vmsplice)已经有一段时间了,开始的时候并未能领会splice的意义所在,致使得出了“splice系列系统调用不怎么实用”的错误结论。随着内核研究的深入,才逐渐懂得&…

嵌入式s5vp210裸机 KXTF9-2050(G-sensor)
1.KXTF9-2050简介 KXTF9-205是G-sensor的一种,G-sensor(Gravity sensor),重力传感器,又名加速度传感器(accelerometer),是能感知加速度大小的MEMS(微机电系统)传感器。使用I2C协议和…

JavaScript面向对象编程
自从有了Ajax这个概念,JavaScript作为Ajax的利器,其作用一路飙升。JavaScript最基本的使用,以及语法、浏览器对象等等东东在这里就不累赘了。把主要篇幅放在如何实现JavaScript的面向对象编程方面。1. 用JavaScript实现类 JavaScritpt没…

sublime text3 前端插件介绍
Emmet插件 Emmet插件可以说是使用Sublime Text进行前端开发必不可少的插件 它让编写HTML代码变得极其简单高效 基本用法:输入标签简写形式,然后按Tab键 关于Emmet的更多介绍,请查看官方文档 这份速查表,可以帮你快速记忆简写形式 …

如何使用 OpenCV Python 检测颜色
作者 | 小白来源 | 小白学视觉在这篇文章中,我们将看到如何使用 Python 中的 OpenCV 模块检测颜色,进入这个领域的第一步就是安装下面提到的模块。pip install opencv-python pip install numpy然后,导入模块。读取图像并使用 OpenCV 模块中的…

使用树形结构保存实体
阅读原文请访问我的博客BrightLoongs Blog之前在项目需要实现一个功能——将xml文件映射成实体,然后对映射的实体进行逻辑处理,最后保存到数据库中;由于xml结构的数据是结构化的数据,所以需要保证保存的数据具有正确的主外键关联。…

在Javascript中使用面向对象的编程
by Mike Koss March 26th, 2003 这是一篇,我个人认为最好的,Javascript面向对象编程的文章。翻译不好的地方,还望大家指正,谢谢。 如果您需要,可以访问下面的地址取得原文: http://mckoss.com/jscript/obj…