当前位置: 首页 > 编程日记 > 正文

Meta 开发 AI 语音助手,用于创建虚拟世界和实时翻译

编译 | 禾木木

出品 | AI科技大本营(ID:rgznai100)

Meta 在近日的「用人工智能构建元宇宙」的讨论会上,展示了最新的 AI 黑科技 「Builder Bot」 ,并且在此次会议上 Meta 公布了关于构建元宇宙的人工智能计划,其中包括通用语言翻译系统、对话 AI 系统CAIRaoke,人工智能推荐系统 TorchRec 等。

Builder Bot

在此次讨论会上,扎克伯格分享了他们正在研究一类新的生成 AI 模型,该模型将允许人们描述一个世界,人工智能自动生成它的各个方面。首次展示了用人工智能系统 Builder Bot 创建虚拟空间的过程。

在元宇宙的岛屿上以 3D 化身的形式出现,并发出语音命令创建海滩等,该系统可以跟随命令更改气候,添加不同的场景。

a2215d77904e81ae7e4ea1961fc5b4b9.gif

在这个世界里,你想要什么、去到哪里,只需要语音命令,就可以秒出。更有热点的是,Builder Bot 还可以播放不同的音乐。

c42ffcdc8a5c8da3a2043cfad24e724e.gif

目前,Builder Bot 还在测试中,暂时还未开放,因为 Meta 也还不确定它的限制在哪。

在讨论会上的另一部分是语音识别技术,Meta 表示正在研究人工智能,让人们能够与语音助手进行更自然的对话。

对话 AI 系统CAIRaoke

在演示中,CAIRaoke 在一个家庭场景中起到了作用,人在煮菜时,语音助手会发出提示,警告说盐已经加到锅里了。AI 助理还注意到盐放少了,于是提示要加更多。

在 Meta 发布的博客中,研究者们对 CAIRaoke 背后的技术进行了解读。CAIRaoke 减少了添加新域所需的工作。在规范方法中,扩展到新领域需要顺序构建和更改每个模块,然后才能可靠地训练下一个模块。此项技术提高了开发和训练速度,使我们能够以更少的数据微调其他模型。

该公司还表示,它已在旗下的视频通话设备 Portal 中使用该模型,并期待将其集成到具有 AR 和 VR 的硬件设备中。

实时翻译器

Meta 正在开发一款通用语音翻译器,旨在创建适用于「世界上所有语言」的翻译软件。该公司此前已为其人工智能系统设定了翻译所有书面语言的目标。

扎克伯格表示:“能够用任何语言与任何人交流,这是人们梦寐以求的超能力,而人工智能将在我们有生之年实现这一目标。”

尽管当前的翻译工具可以很好地适用于英语、普通话、西班牙语等常用语言,但世界上大约 20% 的人口不会说这些系统所涵盖的语言。通常,这些服务不足的语言没有易于访问的书面文本语料库,这些语料库也是训练 AI 系统必需的,甚至一些语言根本没有标准化的书写系统。

42f66722bd5032c493fb8f0b122fa568.png

Meta 表示,它希望通过在两个特定领域部署新的机器学习技术来克服这些挑战。第一个称为 No Language Left Behind,将专注于构建可以使用更少的训练示例学习翻译语言的 AI 模型。第二个是通用语音翻译器,旨在构建直接将语音从一种语言实时翻译成另一种语言的系统,而无需书面组件作为中介(书面中介是许多翻译应用程序的常用技术)。

Meta 正在构建一个新的高级 AI 模型,可以从更少的示例中进行语言学习,Meta 将使用它来实现数百种语言的专家级翻译,从阿斯图里亚斯语、卢甘达语到乌尔都语。Meta 还在构建新型通用实时语音翻译器,以支持没有标准书写系统的语言及口头语。

为了支持低资源语言的翻译,并为未来更多语言的翻译创建构建块,Meta 正在扩展自身的自动数据集创建技术。一种是基于 LASER,一个是开源工具包,现在包含用 28 种不同脚本编写的超过125种语言。基于 LASER ,研究者构建了 ccMatrix 和 ccAligned 等系统,它们能够在互联网上查找不同语言的平行文本。由于低资源语言的可用数据很少,Meta 创建了一种新的训练方法,使 LASER 能够专注于特定的语言子组,例如班图语,并从更小的数据集中学习。

这使得 LASER 能够跨语言大规模有效地运行,最近还将 LASER 扩展到了语音处理领域。

为了提升机器翻译模型的性能,投入大量资源创建了大容量且可以高效训练的模型。通过增加模型体量和自动路径学习功能,不同的符号可以使用不同的专家能力。为了将基于文本的机器翻译模型扩展到上百种语言,Meta 提取了另一种语言为核心的多语言翻译系统,其效果甚至优于最好的双语翻译。

在宣布这一消息的博客文章中,Meta 研究人员还没有提供完成这些项目的时间表,也没有提供实现目标的主要路线图。相反,该公司只是强调了通用语言翻译的可能性。

Meta 还设想这种技术将极大造福于其遍布全球的产品,进一步扩大其影响范围并转变为数百万人必不可少的通信工具。正如博客文章写到的那样,通用翻译软件将成为未来可穿戴设备的杀手级应用,如 Meta 正在构建的 AR 眼镜,还将打破沉浸式VR 和 AR 现实空间(Meta 也在构建)的界限。

结语

确实,近年来机器学习的进步大幅度地提高了机器翻译的速度和准确性。从谷歌到苹果,许多大型科技公司现在都在为用户提供免费的人工智能翻译工具,用于工作和旅游,无疑在全球范围内都提供了不可估量的好处。

但也会存在一些技术上的问题,批评者指出机器翻译会忽略在人类说话时的一些至关重要的细微差别,在输出中会存在一些偏见,并且指出只有计算机才能出现的一些奇怪的、意向不到的语法错误。对于使用非通用语言的人表示,如果翻译完全由大型科技公司控制,他们担心失去对自己语言和文化的掌握。

尽管 Meta 长期以来一直渴望进入全球市场,但该公司自己的产品仍然偏向于为其提供大部分收入的国家/地区。

虽然通用翻译器是一个非常美好的愿望,但 Meta 不仅需要证明它的技术和能力,作为一家公司,还需要公平地研究其应用。

在此次讨论会上,收获的信息还是满满的,对此,你怎么看呢?

参考链接:

https://www.theverge.com/2022/2/23/22947368/meta-facebook-ai-universal-speech-translation-project

https://ai.facebook.com/blog/teaching-ai-to-translate-100s-of-spoken-and-written-languages-in-real-time

https://www.reuters.com/technology/metaverse-event-metas-zuckerberg-unveils-work-improve-how-humans-chat-ai-2022-02-23/

相关文章:

MySQL的基础

2019独角兽企业重金招聘Python工程师标准>>> 数据库和SQL 什么数据库 数据库是存储在一起的相关数据的集合,这些数据是结构化的,无有害的或不必要的冗余,并为多种应用服务。 什么是SQL 结构化查询语言(Structured Query Language)…

Python:Bug 官网不要了,全迁去 GitHub

近几年,GitHub 开发者数量逐年上升,仅过去一年 GitHub 的新增用户便有 1600 万人,总用户数更是达到了 7300 万——在开源浪潮席卷全球中,GitHub 无疑成为了许多开发者迈入开源的一个重要途径。 Python 开发团队或许正是看中了这一…

最新的全球编程语言,操作系统,web服务器等使用率分析报告

由www.w3techs.com 根据alexa排名前100万的网站数据给出的分析报告,并每天持续更新。1.服务器端编程语言排名 http://w3techs.com/technologies/overview/programming_language/all点评:PHP是最高的,说明目前php是主流,但是asp.ne…

javascript中有关this的使用

this在面向对象编程中非常重要,他的值取决于调用的模式。 在Javascript中有4种调用模式:方法调用模式、函数调用模式、构造器调用和apply调用。 1. 方法调用模式:当一个方法被调用时,this被绑定到该对象。方法可以使用this访问自己…

Vue中v-if和v-show的使用场景

1. 官方文档 https://cn.vuejs.org/v2/guide/conditional.html#v-if-vs-v-show 2. v-if 和 v-show 的区别 2.1 官方解释 v-if 是“真正”的条件渲染,因为它会确保在切换过程中条件块内的事件监听器和子组件适当地被销毁和重建。 v-if 也是惰性的:如果在初…

手机自带的显示基站命令

安卓手机自带快捷指令显示当前的网络信息,不过手机厂商不同,命令也不一样。每次要用时总想不起来命令,记下备用。(1) HTC 安卓手机在拨号键盘输入 *#*#4636#*#* , 选择 “手机信息” (2)三星安卓手机 *#*#4636#*#* , 选择 “手机信息” (3)摩…

LB负载均衡集群 - NAT

前提:客户机 : eth0 192.168.0.200 eth1 192.168.205.129dir主机: eth0 192.168.0.166 eth1 192.168.205.128rs1主机: eth0 192.168.0.207rs2主机: eth0 192.168.0.208rs1 和 rs2的网关是dir 192…

时序预测的三种方式:统计学模型、机器学习、循环神经网络

作者 | luanhz来源 | 小数志导读时序预测是一类经典的问题,在学术界和工业界都有着广泛的研究和应用。甚至说,世间万物加上时间维度后都可抽象为时间序列问题,例如股票价格、天气变化等等。关于时序预测问题的相关理论也极为广泛,…

Python 爬虫练手项目—酒店信息爬取

from bs4 import BeautifulSoup import requests import time import reurl http://search.qyer.com/hotel/89580_4.html urls [http://search.qyer.com/hotel/89580_{}.html.format(str(i)) for i in range(1,10)] # 最多157页 infos [] # print(urls)# 批量爬取数据 def g…

应用交换技术的负载均衡算法

原文出处是:http://hi.baidu.com/ruijievideo/blog/item/5959be1f3c1621ff1bd576d2.html 应用交换技术的负载均衡算法应用交换技术里主要包括四项关键的技术:◆截获和检查流量◆服务器监控健康检查◆负载均衡算法◆会话保持截获和检查流量保证只有合适的…

平民架构的春天——UCloud数据方舟实战记

LNMP是最亲民的网页服务架构,整合了优秀的开源软件,想必大家再熟悉不过了,随着云计算的落地;大众创业,万众创新的倡导,为了更好的服务和安全,LNMP也迁入了云平台,比如像UCloud这样优…

用 Python 制作可视化报表,这也太快了!

作者 | 小F来源 | 法纳斯特在数据展示中使用图表来分享自己的见解,是个非常常见的方法。这也是Tableau、Power BI这类商业智能仪表盘持续流行的原因之一,这些工具为数据提供了精美的图形解释。当然了,这些工具也有着不少缺点,比如…

Django 错误汇总

1、 解决:python manage.py migrate sessions 2、转载于:https://blog.51cto.com/jacksoner/2130665

几种负载均衡算法

几种负载均衡算法 本地流量管理技术主要有一下几种负载均衡算法: 静态负载均衡算法包括:轮询,比率,优先权 动态负载均衡算法包括: 最少连接数,最快响应速度,观察方法,预测法,动态性能分配&#…

cassandra命令

压力测试:cassandra-stress [command] -node [nodes] -mode thrift user[user] password[password] example: cassandra-stress write n10 -node 192.168.0.105 -mode thrift usercassandra passwordcassandra

《2022产业互联网安全十大趋势》发布,专家学者透析产业安全新变化

2月28日,在中国产业互联网发展联盟指导下,人民邮电报、中国信息安全、腾讯安全联合实验室、腾讯研究院联合推出《2022产业互联网安全十大趋势》。该报告由《中国信息安全》杂志出品人温哲、腾讯副总裁丁珂、腾讯研究院院长司晓等20余位行业顶级专家、学者…

slurm用户快速入门手册

1. 概述2. 架构3. 命令3.1 sacct3.2 sattach3.4 sbatch3.5 sbcast3.6 scancel3.7 scontrol3.8 sinfo3.9 smap3.10 squeue3.11 srun3.12 strigger3.13 sview1. 概述 Slurm 是一个开源、容错、高可伸缩的集群管理和大型小型 Linux 集群作业调度系统。slurm不需要对操作系统内核进…

什么是CGI、FastCGI、PHP-CGI、PHP-FPM、Spawn-FCGI?

原文地址:http://www.mike.org.cn/articles/what-is-cgi-fastcgi-php-fpm-spawn-fcgi/什么是CGICGI全称是“公共网关接口”(Common Gateway Interface),HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具,其程序须运行在网络服务器上…

5个短小精悍的 Python 趣味脚本,太赞了,非常适合小白上手!

作者 | 菜鸟哥来源 | 菜鸟学Python今天特地为大家准备了几个简单的“开胃小菜”。希望大家能够通过这几个简单而实用的小案例,活跃一下自己的思维,为接下来的工作和学习做好准备。话不多说,我们接下来就开始介绍。1、图片尺寸缩小所需库&…

AjaxFileUpload文件上传组件(php+jQuery+ajax)

jQuery插件AjaxFileUpload可以实现ajax文件上传,下载地址:http://www.phpletter.com/contents/ajaxfileupload/ajaxfileupload.js 主要参数说明:1,url表示处理文件上传操作的文件路径,可以测试URL是否能在浏览器中直接…

Hadoop生态圈-Flume的组件之自定义拦截器(interceptor)

Hadoop生态圈-Flume的组件之自定义拦截器(interceptor) 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 本篇博客只是举例了一个自定义拦截器的方法,测试字节传输速度。 1>.自…

Pandas 重复数据处理大全

作者 | 东哥起飞来源 | Python数据科学本次来介绍重复值处理的常用方法。重复值处理主要涉及两个部分,一个是找出重复值,第二个是删除重复值,也就是根据自己设定的条件进行删除操作。定位重复值对于重复值,我们首先需要查看这些重…

DEDECMS教程:上/下一篇文章标题长度的截取方法

对dedecms了解的朋友们,想必对如何获取上一篇、下一篇文章的标签也是非常熟悉。dedecms获取上一篇、下一篇文章的标签分别为:{dede:prenext getpre/}、{dede:prenext getnext}。 在这个标签里,并没有设置上一篇、下一篇文章标题字数的功能&am…

以太网帧最小字节数以及以太网碰撞

说明:本文源自多个网页,原文链接已经不可寻 以太网是无连接的,不可靠的服务,采用尽力传输的机制。以太网CSMA/CD我就不多讲了,我相信大家都了解这个原理。以太网是不可靠的,这意味着它并不知道对方有没有收…

lodash 提取前N个元素 take

_.take(array, [n1])从数组的起始元素开始提取 N 个元素。 <!DOCTYPE html> <html lang"zh"><head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, initial-scale1.0" /><…

JavaScript 中的有限状态机

http://www.ibm.com/developerworks/cn/web/wa-finitemach/JavaScript 中的有限状态机Page navigation系列文章有限状态机很早就已用作设计和实现事件驱动的程序&#xff08;比如网络适配器和编译器&#xff09;内复杂行为的组织原则。现在&#xff0c;可编程的 Web 浏览器为新…

健身也内卷?这届网友用 Python 掌握了做标准俯卧撑的秘诀

自己在家锻炼时&#xff0c;我们很难知道自己的动作是否标准。本文作者用Python写了一个可以检测俯卧撑动作是否标准的程序&#xff0c;一起来看看他是怎么做的。 译者 | 章雨铭 出品 | CSDN 在新加坡军队中&#xff0c;有一种测试叫做IPPT&#xff08;个人身体素质测试&#x…

Linux下配置SNMP

SNMP&#xff08;Simple NetworkManagement Protocol &#xff09;&#xff1a;简单网络管理协议本案列为Linux环境搭建&#xff08;CentOS-6&#xff09;使用yum进行安装&#xff1a;yum install -y net-snmp安装完成后先查看网络配置&#xff1a;netstat -anupl确认161端口被…

重磅!MaxCompute助力阿里开源自研语音识别模型DFSMN,准确率高达96.04%

阿里开源语音识别模型DFSMN 在近期举行的云栖大会武汉峰会上&#xff0c;装有DFSMN语音识别模型的“AI收银员”在与真人店员的PK中&#xff0c;在嘈杂环境下准确识别了用户的语音点单&#xff0c;在短短49秒内点了34杯咖啡。此外&#xff0c;装备这一语音识别技术的自动售票机也…

全球网络拓扑图

原文出自海外一个论坛&#xff1a;http://board.us.ikariam.com/board16-miscellaneous/board205-discussion-board/67724-internet/InternetSo, I always take a look at these maps and also information on the workings of the internetAnd I have questions:Are there map…