当前位置: 首页 > 编程日记 > 正文

让语音助手听懂方言,这个数据集能搞定

来源 | HyperAI超神经

头图 | 来源于网络 侵删

方言是语音识别技术发展中必须要迈过去的坎儿,那么如何让模型能够听懂和理解方言呢?使用优质的数据集是一种的方法,本文将介绍一个经典的方言录音数据集 TIMIT。

随着科技的成熟,语音识别技术已经走进生活的方方方面,但在方言识别和处理上却还是略显吃力。就拿美式英语来说,虽然书面表达接近标准化,但不同的地区,由于方言,口音,俚语等存在,发音的方式方法、词汇的拼法千差万别。

这导致语音系统在识别方言时会出现差错,甚至会闹出笑话。

方言,让智能音箱不懂你


2018 年,华盛顿邮报,Globalme 和 Pulse Labs (语音研究公司)合作,对主流的智能音箱做了一份测试,探究方言、口音对语音识别系统的影响。

美国 20 多个城市、超 100 名参与者进行了测试,他们发出的数千条方言语音命令,被主流智能音响识别时,识别结果存在着显著的差异。

不同口音的识别准确率区别很大

其中,Google Home 识别西岸口音的准确率,比识别南方口音高 3%;而亚马逊的语音助手 Alexa,识别中西部口音的准确率,要比东岸口音低 2%。

也就是说,智能音箱并不能对各地方言进行通吃。而最严重的问题,发生在识别非本土口音时。

对于移民群体的发音,Google Home 或者 Amazon Echo 的英语识别,准确率都特别低。其中对于拉丁裔和华裔群体,用 Alexa 识别的内容,不准确率达到了 30%。

听不懂?可能是数据没到位

想要解决这个问题,就需要让 AI 听懂不同方言的语音,从而在交互中分辨出真要表达的语句。对于这个困境,谷歌和亚马逊都曾提到了基于数据的解决方案。

亚马逊在一份声明中称,随着使用不同方言的人和 Alexa 进行交流,它的理解能力会得到改善。」而谷歌表示,「在扩大多样化数据集的同时,将继续提高 Google Home 的识别能力。」

某种层面来将,语音识别中的方言、口音识别问题,可归咎于数据不足。语料库的质量越高,语言模型越多种多样,理论上来说语音识别系统的准确率越高。

美国英语口音分布地图

所以要解决方言识别的,有效的一种方式是拥有优质的数据集。

而 TIMIT 方言录音数据集,就是早期的数据科学家们,意识到此类问题后构建而来,它也很好地背负起了训练方言识别的使命。

问世 20 年,还被广泛使用

TIMIT 方言录音数据集,于1993 年推出,涵盖了 8 种主要美国英语方言共 6300 个录音片段,旨在帮助语音系统中方言识别的开发和评估。

TIMIT 方言录音数据集

包含数量:6300 个方言录音片段

数据格式:wav\txt\wrd\phn

采样方式:16 KHz  16 bit

数据大小:419.82 MB

发布时间:1993 年

包含内容:录音片段、句子、单词、因素内容

下载地址:https://hyper.ai/datasets/5684

该数据集由麻省理工学院、SRI 国际和德州仪器公司合作而得到,具有 630 位采集者,每人提供 10 个语音丰富的句子录音。

因为指定了测试和培训集,数据集很好地平衡了语音和方言的覆盖范围。

训练集和测试集的分配

其内容包括一些与话语句子相关的文件,除了语音波形文件(.wav)外,还包括对应的句子内容(.txt),经过时间对齐(time-aligned)的单词内容(.wrd),经过时间对齐(time-aligned)的音素内容(.phn)三种类型的文件。

数据集包含多种句子类型

作为语音识别领域的经典数据集,TIMIT 方言录音数据集被广泛使用,在谷歌学术列表中,有多篇高质量的论文引用,由此推动了语音识别实验的进展。

二十多年后,该数据集仍然被广泛使用在语音识别的研究之中。

由于数据集每个句子都在音素级别上进行了手动标记,同时提供了说话人的编号,性别,方言种类等多种信息,在今日仍然不显落后。

另外数据集很小,能在短时间内完成模型训练,同时又足以展示出系统的性能。

虽然数据并不能完全解决语音识别中的方言和口音问题,但拥有更好的方言数据集,将是破解这个问题的关键一步。

更多精彩推荐
无人机、IoT 设备都有漏洞?专访以色列老牌安全企业Check Point
听完姚期智的一句“嘟囔”,他开始第二次创业AI 3D 传感器市场竞争白热化,中国掌握自主可控核心技术时不我待!小心!你家的 IoT 设备可能已成为僵尸网络“肉鸡”点分享点收藏点点赞点在看

相关文章:

Django内置Admin

Django内置的Admin是对于model中对应的数据表进行增删改查提供的组件,使用方式有:依赖APP:django.contrib.authdjango.contrib.contenttypesdjango.contrib.messagesdjango.contrib.sessions模板的context_processors:django.cont…

Puppet扩展篇1-自定义fact结合ENC(hirea)的应用实践

零基础学习Puppet自动化配置管理系列文档在大量节点加入Puppet之后,你至少会面临两个比较大的问题:1、由于节点数的增多,site.pp文件必然会编写更多的节点条目,以及节点包含的类。假设你用Puppet管理500个节点,存在三种…

C#WinForm制作异形窗体/控件

制作异形窗体或控件的思路一般都是想办法生成一个region,然后设置给指定的窗口或控件。生成region的方法有很多,最常用的就是从一幅图片生成,把该图片中的透明色部分“抠”掉,剩下的部分作为一个region。设置窗口或控件的region可…

谷歌提出纯 MLP 构成的视觉架构,无需卷积、注意力 !

来源 | 迈微AI研习社责编 | 寇雪芹头图 | 下载于视觉中国当前,卷积神经网络(CNN)和基于自注意力的网络(如近来大火的 ViT)是计算机视觉领域的主流选择,但研究人员没有停止探索视觉网络架构的脚步。近日&…

HttpApplication事件ASP.NET页面周期

学习吧少年........................... 修改中........... 当一次请求到达IIS 1、http.sys将请求发送到指定的应用程序池。 2、应用程序池再将请求交给池中的工作进程(w3wp.exe), 3、w3wp.exe根据请求URL的后缀,决定加载那个ISAP…

C#实现对象的Xml格式序列化及反序列化

要序列化的对象的类: [Serializable]public class Person{private string name;public string Name{get{return name;}set{namevalue;}}public string Sex;public int Age31;public Course[] Courses;public Person(){}public Person(string Name){nameName;Sex&qu…

outlook2010 打开总是提示“正在加载配置文件”

公司员工的电脑一打开OUTLOOK2010的时候,总是提示“正在加载配置文件”,要重新启动,还是无法打开,尝试了卸载和重装的方法也没有用.其实,只需下载一个windows search 4.0即可解决.转载于:https://blog.51cto.com/shidilun/1400227

腾讯云存储产品矩阵全面升级,发布三维生态战略

5月10日,腾讯云在北京举行存储产品战略发布会,发布了业界首款十微秒级的极速型云硬盘、业界首款突破百GB 吞吐的文件存储、以及业界首创能够10倍提升数据湖存储分析性能的对象存储三级加速器等新一代云存储产品矩阵。 同时,腾讯云还宣布将围…

围绕云计算 虚拟化技术又呈现新面貌

本文讲的是围绕云计算 虚拟化技术又呈现新面貌,【IT168 资讯】虚拟化技术的三项基本使命-即作为客户端技术,作为服务器技术和作为网络技术,如今正在围绕云计算理念相结合在一起。 起源于X86服务器的虚拟化技术已经快速扩展到存储和网络领域。…

C#字符串处理类

首先介绍一下常用的几个功能: Compare(str1,str2)——比较两个字符串 str1,str2的大小,如果大于返回正数,等于返回0,小于返回负数! IndexOf——定位字符串中第一次出现某个给定字符串的位置PadLeft和PadRight——在字…

linux严谨的telnet搭建并用防火墙开通与禁行

今天本打算练练防火墙iptables的东西,本想拿telnet的23号端口练手,没想到在敲实验的时候遇到了些曲折,经过一番努力,把本次实验过程生成文档。实验环境:rhel5.6及系统盘实验目的:通过iptables对telnet服务2…

孩子、老人与海豚,如何用 AI 伴他们走出孤独

“万里归来颜愈少。微笑。笑时犹带岭梅香。试问岭南应不好。却道。此心安处是吾乡。”苏轼的一首《定风波》道出老人心愿,道出人生百态,也道尽世间炎凉。当你走出万里,无论天涯或是海角,每个人的身上都带着自己独有的印记。这份印…

Linux之 手动释放内存

我们在进程中要怎样去描述一个文件呢?我们用目录项(dentry)和索引节点(inode)。它们的定义如下: 所谓"文件", 就是按一定的形式存储在介质上的信息,所以一个文件其实包含了两方面的信息,一是存储的数据本身,二是有关该文…

C#操作Excel导入导出

前些日子&#xff0c;有很多朋友说需要C#导出到Excel的代码&#xff0c;现共享给大家 /// <summary> /// 读取Excel文档 /// </summary> /// <param name"Path">文件名称</param> /// <returns>返回一个数据集</returns> …

中国安全态势越来越好,专访山石网科CSO蒋东毅 | 拟合

从无序中寻找踪迹&#xff0c;从眼前事探索未来。2021 年正值黄金十年新开端&#xff0c;CSDN 以中立技术社区专业、客观的角度&#xff0c;深度探讨中国前沿 IT 技术演进&#xff0c;推出年度重磅企划栏目——「拟合」&#xff0c;通过对话企业技术高管大咖&#xff0c;跟踪报…

《大数据、小数据、无数据:网络世界的数据学术》一 导读

前  言‖ 在“大数据”风靡的当代&#xff0c;学术研究中的“小数据”依旧不容小觑。随着绝对数据量的增加&#xff0c;学者们进行个体研究的能力却不断退化。因为他们从未距离研究对象如此遥远。新工具和新视角成为学术研究的必需品。但相对于“小数据”而言&#xff0c;“大…

UIView旋转角度

2019独角兽企业重金招聘Python工程师标准>>> 最近做一个视图的旋转、放大、拖动、拉伸&#xff0c;其他的都慢慢解决了&#xff0c;就是旋转之后各种问题不好处理&#xff0c;最终归结到旋转角度的不能获取&#xff0c;纠结了好几天&#xff0c;终于找到了获取旋转角…

生成静态文件的新闻系统核心代码

在网上看了许多能生成静态页的新闻系统&#xff0c;但基于asp.net的系统极少&#xff0c;闲下时间来自己写了一个&#xff0c;发出来&#xff0c;大家一起研究&#xff0c;代码没做什么优化&#xff0c;只是实现了功能 using System;using System.Collections;using System.Com…

「软件」2.0时代已经到来,你需要这样的开发工具

互联网催生了软件的繁荣&#xff0c;而在AI浪潮的推动下&#xff0c;软件正在朝着更「智能」的方向发展&#xff0c;也就是「软件2.0」时代。「软件2.0」其实就是神经网络&#xff0c;也就是这一波AI浪潮的基石。 在「软件1.0」时代&#xff0c;程序员用Java、Python、C等语言…

WF4 Beta,RC版文章总结

Visual Studio 2010明天就要发布正式版了&#xff0c;伴随Visual Studio 2010的发布微软的新一代工作流框架Workflow Foundation 4也会正式发布。从Beta版开始就断断续续的开始关注了&#xff0c;并写了一些文章&#xff0c;今天总结下&#xff1a; WF4 Beta1的几篇文章&#x…

亚马逊云科技在中国区域上线机器学习新服务,打造广泛而深入的人工智能与机器学习工具集

2021年5月11日&#xff0c;在完全托管的机器学习服务Amazon SageMaker落地中国区域一周年之际&#xff0c;亚马逊云科技宣布通过与光环新网和西云数据的紧密合作在中国区域进一步落地多项人工智能与机器学习的新服务和功能&#xff0c;丰富了其针对不同企业需求而打造的人工智能…

mysql ERROR 1045

2019独角兽企业重金招聘Python工程师标准>>> C:\Program Files\MySQL\MySQL Server 5.0\bin> mysql -u root -p Enter password: ERROR 1045 (28000): Access denied for user rootlocalhost (using password: YES) 编辑mysql配置文件my.ini&#xff08;不知道在…

C#:将另一个应用程序的主窗口移至屏幕最前

2019独角兽企业重金招聘Python工程师标准>>> 使用WindowsAPI函数SwitchToThisWindow&#xff0c;可以将指定窗口移动到屏幕最前。 如果要将另一个应用程序的窗口移动到最前&#xff0c;只需要找到该窗口的句柄&#xff0c;再调用SwitchToThisWindow函数即可。可通过…

阿里技术文档:Redis+Nginx+Spring全家桶+Dubbo精选

最近花了很长的时间去搜罗整理Java核心技术好文&#xff0c;我把每个Java核心技术的优选文章都整理成了一个又一个的文档。今天就把这些东西分享给老铁们&#xff0c;也能为老铁们省去不少麻烦&#xff0c;想学什么技能了&#xff0c;遇到哪方面的问题了 直接打开文档学一学就好…

网页刷新方法集合

代码如下&#xff1a; <input typebutton value刷新 οnclick"history.go(0)"> 代码如下&#xff1a; <input typebutton value刷新 οnclick"location.reload()"> 代码如下&#xff1a; <input typebutton value刷新 οnclick"…

MOS管体二极管的作用

这里有两种解释&#xff1a; 1、mos管本身自带有寄生二极管&#xff0c;作用是防止VDD过压的情况下&#xff0c;烧坏mos管&#xff0c;因为在过压对MOS管造成破坏之前&#xff0c;二极管先反向击穿&#xff0c;将大电流直接到地&#xff0c;从而避免MOS管被烧坏。 2、防止管子的…

Complex Instance Placement

转自&#xff1a; https://specs.openstack.org/openstack/openstack-user-stories/user-stories/proposed/complex-instance-placement.html This work is licensed under a Creative Commons Attribution 3.0 Unported License.http://creativecommons.org/licenses/by/3.0/…

在SecureCRT下使用sz下载和rz上传文件

之前通过FTP来下载Linux机器上的文件&#xff0c;在Windows编辑完后再上传&#xff0c;如此比较麻烦&#xff0c;刚听同事说用sz和rz命令可以实现在SecureCRT中上传下载。 配置上传下载目录&#xff1a;选择某个session 标签&#xff0c;点鼠标右键&#xff0c;弹出菜单…

开源的 6 条社会契约

作者 | Brett Cannon 译者 | 弯月 责编 | 欧阳姝黎出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;以下为译文&#xff1a;本文探讨一下关于开源用户权利的问题。我想指出一点&#xff0c;开源维护者不欠用户什么&#xff0c;而粗鲁地对待他们是一种不道德的行为…

理解linux tr命令

2019独角兽企业重金招聘Python工程师标准>>> 1. tr 命令的功能 tr命名是简化了的sed命令。其主要的功能包括&#xff1a; a. 用一个字符来替换另外一个字符。 b. 删除字符串中的指定子串。 c. 合并字符串中重复串。 2. 常见的命令格式&#xff1a; tr -c -d -s [&qu…