当前位置: 首页 > 编程日记 > 正文

元宇宙中可跨语种交流!Meta 发布新语音模型,支持128种语言无障碍对话

7e3a601ed36f306118388f06df772d2b.gif

编译 | 禾木木

出品 | AI科技大本营(ID:rgznai100)

语言交流是人类互动一种自然的方式,随着语音技术的发展,我们可以与设备以及未来的虚拟世界进行互动,由此虚拟体验将于我们的现实世界融为一体。

然而,语音技术仅适用于全世界数千种语言中的一小部分。基于有限标记数据的少样本学习,甚至无人监督的语音识别是有帮助的,但这些方法的成功取决于自监督模型的质量。

近日,Meta 正式发布 XLS-R ——一套用于各类语音任务的新型自监督模型。XLS-R 由海量公共数据训练而成,能够将传统多语言模型的语言支持量增加两倍以上。

而 XLS-R 作为元宇宙社交中必不可少的一环,可以帮助母语不同的人在元宇宙中直接对话。

为了能够通过单一模型实现对多种语言的理解,Meta 对 XLS-R 进行了微调,使它能够执行语音识别、语音翻译和语言识别等功能。XLS-R 在 BABEL、CommonVoice 以及 VoxPopuli 语音识别基准测试,CoVoST-2 的外语到英文翻译基准测试,以及 VoxLingua107 语言识别基准测试中都有了先进的水平。

为了进一步使这些能够被广泛地访问,Meta 与 Hugging Face 联手发布了模型在 Github 上。

https://huggingface.co/spaces/facebook/XLS-R-2B-22-16

d0254db342d30c8f4af05fcc40d77120.png

XLS-R 工作原理

XLS-R 基于 wav2vec 2.0 训练集上接受了超过 436,000 小时的公开语音录音训练,这是对语音表示进行自监督学习的方法。这样的训练量已经达到去年发布的最好的模型 XLSR-53 的 10 倍。利用从会议记录到有声读物等不同来源的语音数据,XLS-R 的语言已扩展到 128 种,涵盖的语言数量是钱袋模型的近2.5倍。

Meta 在4种主要多语言语音识别测试中对 XLS-R 做出评估,发现在测试的 37 种语言中,它的表现超越先前的模型工作;具体来说,在 BABEL 的 5 种语言、CommonVoice 的 10 种语言、MLS 的 8 种语言和 VoxPopuli 的 14 种语言上进行了尝试。

56523b964ae70854c9b9f57b5fdff91b.png

BABEL 上的单词错误率基准测试结果。XLS-R 较前代模型实现了显著改进。

Meta 还评估了语音翻译模型,将录音直接翻译成另一种语言。为了打造一套能够执行多种任务的模型, Meta 同时在 CoVoST-2 基准测试的数个不同翻译方向上对 XLS-R 进行了微调。最后结果是能够在英语与多达 21 种语言之间实现内容互译。

在使用 XLS-R 对英语以外的其他语言进行编码时,获得了显著的改进,这也是多语言语音表达领域的一次突破。XLS-R 在低资源语言学习中实现了显著改进,例如印尼语到英语的翻译,其中 BLEU 准确率平均翻了一番。BLEU 指标的提升是指模型给出的自动翻译结果与处理同一内容的人工翻译结果间重合度更高,代表着模型在改进口语翻译能力方面迈出了一大步。

06b21748889adfa1be977e245290c004.png

以 BLEU 指标衡量的自动语音翻译准确率,其中较高值表示 XLS-R 从高资源语言(例如法语、德语)、中资源语言(例如俄语、葡萄牙语)或低资源语言(例如泰米尔语、土耳其语)语音记录翻译至英语时的准确率。

dd2ee323ce1d26861d64947cdef899a9.png

结语

XLS-R 表明,扩展跨语言预训练可以进一步提高低资源语言的性能。它不仅提高了语音识别的性能,还能将外语到英语的语音翻译的准确性提高了一倍以上。XLS-R 是朝着能够理解多种不同语言单一模型迈出的重要一步,它是所知道的利用公共数据进行多语言预训练的最大努力。

Meta 相信这个方向将使机器学习应用程序更好地理解所有人类语音并促进进一步研究,使语音技术在全球范围内更容易使用,尤其是在服务欠缺的人群中。Meta 将通过不断开发新方法来从较少的监督中学习,并将方法扩展到全球 7,000 多种语言,实现算法的持续更新。

参考链接:

https://ai.facebook.com/blog/xls-r-self-supervised-speech-processing-for-128-languages/

c345a89cc5c3c420ee8c7eb9a025737d.gif

810f3266761b76463e42472cd755c0e7.png

资讯

OpenAI真的open了,更加开放

资讯

人工智能监考VS传统方式监考

资讯

Meta研发触觉手套助力元宇宙

资讯

马斯克公开支持上班“摸鱼”

f575b323e54e94c82c74d8ab6bdf24f1.png

分享

3d08cf51a4c5630986d4de095d13726a.png

点收藏

371498d3b615021329eee16ac3d72046.png

点点赞

16a92752d68eeafcd106bdced3c26740.png

点在看

相关文章:

前端面试官,我为什么讨厌你。

近两年来,参加过的前端面试不下二十场了,吐槽一下。我所经历的,都是小公司,大公司的同学请无视。 招聘信息能否不要装逼?写一大堆你项目根本用不上的,来给谁看?我曾遇到上面写了一堆对js如何要求…

【ASP.NET Core】解决“The required antiforgery cookie xxx is not present”的错误

当你在页面上用 form post 内容时,可能会遇到以下异常: The required antiforgery cookie "????????" is not present. 咱们来重现一下错误。新建一个 ASP.NET Core 项目,模板选【空】就行了,这是老周最喜欢的项…

linux系统级别的能够打开的文件句柄的数file-max命令

简单的说, max-file表示系统级别的能够打开的文件句柄的数量, 而ulimit -n控制进程级别能够打开的文件句柄的数量.man 5 proc, 找到file-max的解释:file-max中指定了系统范围内所有进程可打开的文件句柄的数量限制(系统级别, kernel-level). (The value …

这封以数字构写的蓝图,正在实现笔尖所触即世界

作者 | 贾凯强出品 | AI科技大本营(ID:rgznai100)一撇一捺,一勾一抹,笔走龙蛇,可见真意。笔者小时候字迹潦草,便总是抱怨为什么一定要写字好看?而如今计算机统治了世界,键盘和鼠标早…

Svn 笔记—— Hooks

pre-commit 钩子功能:[rootDa hooks]# cat /application/svndata/sadoc/hooks/pre-commit#!/bin/bash#Check message lenth ---更新版本时强制输入信息小于5个字符会退出REPOS"$1"TXN"$2"logmsgsvnlook log -t $TXN $REPOS |grep &q…

22.CSS边框与背景【上】

第十七章 CSS边框与背景【上】 一、声明边框 属性 值 说明 CSS版本 1、border-width 长度值 设置边框的宽度(可选) 1 2、border-style 样式名称 设置边框的样式(必选&…

一致性 hash 算法( consistent hashing )

原文地址:http://blog.csdn.net/sparkliang/article/details/5279393consistent hashing 算法早在 1997 年就在论文 Consistent hashing and random trees 中被提出,目前在 cache 系统中应用越来越广泛; 1 基本场景 比如你有 N 个 cache 服务…

【json的使用】

1、json格式字符串:Java代码/** 操作成功 200 */ public static final String RESULT_SUCCESS "{\"code\":\"200\",\"message\":\"成功!\"}";复制代码2、解析json字符串:Java代码JSONObject object…

通过 for 循环,比较 Python 与 Ruby 编程思想的差别

作者 | Doug Turnbull译者 | 豌豆花下猫Python猫来源 | Python猫Ruby 与 Python 之间的差异在很大程度上可通过for循环看出本质。Python 拥有for语句。对象告诉for如何进行协作,而for的循环体会处理对象返回的内容。Ruby 则相反。在 Ruby 中,for本身&…

Blippar放大招,要开源其AR和计算机视觉技术

AR公司Blippar将向第三方开发者提供AR和计算机视觉技术API,来推动他们的AR商业应用解决方案的发展。 致力于用AR技术帮助一些大品牌进行品牌故事和消费者营销的AR公司Blippar,最近对外宣布,要将他们的AR和计算机视觉技术API,提供…

Linux CPU数量判断命令

其实只要 #include <unistd.h>long num sysconf(_SC_NPROCESSORS_ONLN); 便可以获得当前CPU的数量。。。 判断依据&#xff1a;1.具有相同core id的cpu是同一个core的超线程。2.具有相同physical id的cpu是同一颗cpu封装的线程或者cores。 英文版&#xff1a;1.Physical…

5月.CN域名注册量持续上涨至1199万个 净增14万

IDC评述网&#xff08;idcps.com&#xff09;06月11日报道&#xff1a;根据中国互联网络信息中心&#xff08;CNNIC&#xff09;最新公布的数据显示&#xff0c;在5月份&#xff0c;.CN域名总量持续增至11,990,264个&#xff0c;环比上月&#xff0c;净增143,346个&#xff0c;…

人工智能/云原生/数据科学/计算等方向内容整理志愿者招募了!

持续招募内容整理志愿者&#xff01;云原生、数据科学、AI、低代码、计算等方向&#xff0c;有意愿的小伙伴&#xff0c;欢迎识别二维码提前报名哦。我们将持续为爱学习、有时间的小伙伴&#xff0c;提供多重福利&#xff01;要求&#xff1a;1. 你需要具备一定学术背景&#x…

三个轻量级WebServer--lighttpd,thttpd,shttpd介绍

国内绝大部分的web server不是IIS就是Apache&#xff0c;而论市场占有率&#xff0c;我认为Apache是大赢家了&#xff0c;至少是占据了半壁江山。但除了IIS/Apache外&#xff0c;其实我们有很多选择&#xff0c;对于高负载/大并发的网站而言&#xff0c;高性能、轻量级的web se…

实验四 主存空间的分配和回收

实验四 主存空间的分配和回收 一、目的和要求 1.1. 实验目的 用高级语言完成一个主存空间的分配和回收程序&#xff0c;以加深对动态分区分配方式及其算法的理解。 1.2. 实验要求 采用连续分配方式之动态分区分配存储管理&#xff0c;使用首次适应算法、循环首次适应算法、最佳…

技术“摸鱼” 大神,国外小哥 5 年白拿 45 万工资!

整理 | 孙胜出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;自从2017年谷歌旗下的AlphaGo以3比0战胜柯洁后&#xff0c;“人工智能即将取代人类工作”一度成为人们热议的话题。然而最近一位国外小哥用他亲身经历告诉我们&#xff0c;虽然程序终将代替人类执行重复劳…

Python杂篇

一&#xff1a;文件保存 def save_to_file(file_name, contents):fh open(file_name, w)fh.write(contents)fh.close()save_to_file(mobiles.txt, your contents str)结果&#xff1a; 将字符串修改则覆盖原来的字符串 将字符串用变量替代 将 fh open(file_name, w)写的权限去…

整理了 70 个 Python 面向对象编程案例,怎能不收藏?

作者 | 周萝卜来源 | 萝卜大杂烩Python 作为一门面向对象编程语言&#xff0c;常用的面向对象知识怎么能不清楚呢&#xff0c;今天就来分享一波文章很长&#xff0c;高低要忍一下&#xff0c;如果忍不了&#xff0c;那就收藏吧&#xff0c;总会用到的在 Python 中创建一个类及其…

ionic中的ion-option-button

2019独角兽企业重金招聘Python工程师标准>>> 代码 <ion-option-button class"button-assertive" ng-click"df(itemData)">批准 </ion-option-button> 效果图 转载于:https://my.oschina.net/u/1416844/blog/465730

memset函数详细说明

1。void *memset(void *s,int c,size_t n)总的作用&#xff1a;将已开辟内存空间 s 的首 n 个字节的值设为值 c。2。例子#include <stdio.h>#include <string.h>void main(){char s[]"hello";memset(s,*,2);printf("%s",s);} 输出&#xff1a…

CES Asia专题|微鹅展示无线充电,智能手机的无线充电时代何时来临?

无线充电离商业化应用还有多远&#xff1f; 此前一直有传闻苹果在新一代iPhone上会推出无线充电&#xff0c;在CES Asia上&#xff0c;我们也看到了无线充电技术方案解决商微鹅带来的最新产品。 据了解&#xff0c;目前我们所说的无线充电其实是指近场无线充电&#xff0c;让充…

Linux下Socket编程

Linux下Socket编程 网络的Socket数据传输是一种特殊的I/O&#xff0c;Socket也是一种文件描述符。Socket也具有一个类似于打开文件的函数调用Socket()&#xff0c;该函数返回一个整型的Socket描述符&#xff0c;随后的连接建立、数据传输等操作都是通过该Socket实现的。 什么…

看大众点评如何通过实时监控系统CAT打造7*24服务

为什么80%的码农都做不了架构师&#xff1f;>>> 看大众点评如何通过实时监控系统CAT打造7*24服务 2015-06-08 尤勇 高可用架构 https://github.com/dianping/cat 本文根据尤勇在【QCon高可用架构群】中的分享内容整理而成。 尤勇是大众点评网资深工程师&#x…

Python 快速实现分列转到行!

作者 | 黄伟呢来源 | 数据分析与统计学之美之前看到一篇文章&#xff0c;用Excel快速实现分列转到行的操做。数据源大致是这样的&#xff1a;基于此&#xff0c;我动起了一个念头&#xff1a;看看如何用Python快速实现这个操作。数据源已经构造好&#xff0c;咱们开干&#xff…

javabean属性的类型选择包装类还是基本数据类型

学生 参加考试&#xff0c;需要在表中存放分数score字段 &#xff0c;score是采用double 还是Double &#xff1f; 假如有个同学张三 没有参加考试&#xff0c;double 默认值 0 &#xff0c; Double 默认值 null 使用原始类型&#xff0c;无法区分0值没有数据&#xff0c;还是值…

C语言实现的Web服务器

另一篇&#xff1a;标准C实现WEB服务器http://blog.sina.com.cn/s/blog_4b73e7600100b02c.html本文原文地址&#xff1a; http://blog.sina.com.cn/s/blog_4b73e760010007id.html自己研究了好几天终于写出来一个&#xff0c;哈哈&#xff0c;当然也从网上得到了很多的帮助拉。谢…

使用深度学习检测混凝土结构中的表面裂缝

作者 | 小白来源 | 小白学视觉混凝土建筑裂缝介绍表面裂缝检测是监测混凝土结构健康的一项重要任务。如果裂纹发展并继续扩展&#xff0c;它们会减少有效承载表面积&#xff0c;并且随着时间的推移会导致结构失效。裂纹检测的人工过程费时费力&#xff0c;且受检验人员主观判断…

Python学习笔记--序列

Sequence序列 1.序列操作 seq[ind1:ind2] seq[ind] seq1 seq2 seq1 * seq2 seq * n obj in seq obj not in seq 2.切片操作 #反转操作 seq[::-1] #隔一个取一个 seq[::2] #取全部 seq[:None] ##序列类型可用的内建函数 enumerate(seq) #接受一个迭代对象&#xff0c;返回由索引…

「深度」线下大数据正成为构建精准“用户画像”的最大助力

不管是针对消费者的宣传还是营销&#xff0c;或者是针对公司的管理运营&#xff0c;大数据在其中的作用从本质来讲就是在构造“用户画像”。 近年来&#xff0c;在智能化趋势的推动下&#xff0c;社会经济的众多领域都发生了翻天覆地的变化&#xff0c;其中尤其以金融、零售等…