NLP被英语统治?打破成见,英语不应是「自然语言」同义词
(图片付费下载自视觉中国)
作者 | Emily M. Bender
译者 | 陆离
责编 | 夕颜
出品 | AI科技大本营(ID: rgznai100)
【导读】在NLP领域,多资源语言以英语、汉语(普通话)、阿拉伯语和法语为代表,拥有大量标记数据与训练集,但是世界上其余的大约7000种语言几乎就没什么资源了,它们被称为少资源语言。这导致了NLP领域中多资源语言和少资源语言之间的数字鸿沟,阻碍了NLP领域的进展。本文作者在2011年提出了Bender Rule,指出少资源语言研究的重要性。但直到2019年,这个概念才被人重视起来。Bender Rule是什么呢?它会为NLP领域研究带来哪些新方向?本文将为读者揭晓答案。
会议名称 | % 英语 | 位列第二位的语言 | %位列第二位的语言 | 资源 |
ACL 2004 | 87 | 汉语 | 9 | Mielke 2016 |
ACL 2008 | 63 | 德语, 汉语 | 4 | Bender 2009 |
ACL 2008 | 87 | 汉语 | 16 | Mielke 2016 |
EACL 2009 | 55 | 德语 | 7 | Bender 2011 |
ACL 2012 | 86 | 汉语 | 23 | Mielke 2016 |
ACL 2015 | 75 | 汉语 | 5 | Munro 2015 |
ACL 2016 | 90 | 汉语 | 13 | Mielke 2016 |
亲爱的计算机科学家们,“自然语言”不是“英语”的同义词。仅此而已-Emily— Emily M. Bender (@emilymbender)2018年11月26日
——"Always name the language(s) you're working on."这确实是最低的要求。我也真的很想鼓励人们做的更多、更深入:https://t.co/f4LHXI71Ba— Emily M. Bender (@emilymbender)2019年6月3日

英语是一种口语,而不是手语。如果我们只使用英语,那么就会把注意力只放在英语上;
英语有一个完善的、长期使用的、大致基于电话的正字法系统。“基于电话”的意思是字母对应于一个单个的声音。英语正字法仅仅近似于这一原则。其它语言,如西班牙语,有更透明的基于电话的正字法,还有一些语言只代表辅音(如传统的希伯来语和阿拉伯语),或者有代表音节而不是单个声音的符号(如马拉雅拉姆语、韩语或日语假名),或使用语标式系统(例如中文,或者借用到日语中的汉字;见Handel 2019).当然,世界上的许多语言不是书面的,或者是书面的,但并没有长期的书写传统或没有标准的正字法。我们经常低估了标准化在多大程度上简化英语的NLP任务。
英语的标准正字法提供了一个用空白表示的“word”的标准化概念。不是所有的语言都是这样的,即使是那些有标准正字法的语言。许多用于汉语、日语、泰语和其它语言的NLP系统必须从词语标记化问题开始;
英语书写(大多数)只使用计算机上的小写ascii字符。在大多数情况下,我们在使用英语时不用担心不常见的字符编码和不被支持的Unicode范围等;
英语的屈折词法相对较少,因此每个单词的屈折词法也较少。许多类型的NLP技术都存在数据不足的问题,只有当同一个单词以多种不同的形式出现在一种屈折度很高的语言中时,这种问题才会加剧。(基于字符n-gram的深度学习模型在一定程度上解决了这个问题,但它仍然是英语和世界上许多其它语言之间的一个重要区别);
英语有相对固定的词序。与世界上的许多其它的语言相比,英语在词序上是较严格的,在大多数情况下坚持主语、谓语和宾语,名词之前的是形容词,而后面还有关系从句,等等。没有更灵活的词序语言的测试,我们如何知道那些系统依赖于英语这些特点的程度呢?
英语的表单可能“意外”匹配数据库中的字段名和实体记录等。许多语言技术通过在输入语言中对字符串进行映射或将这些字符串转换为语法或语义表示到外部知识库的方式来实现特定于任务的目标。当输入字符串和知识库中的字段名或实体在使用同一种语言的时候,那么就可以处理快捷方式了。但这有多少种语言可以这样呢?
英语有大量可用的训练数据(如用于训练BERT的33亿的标记(Devlin等人,2019))。如果我们把所有的注意力都集中在依赖于大量训练数据的方法上,而这些数据对世界上大多数语言来说都是不可用的,那么我们将如何构建适用于其它语言的系统呢?同样的,如果我们只重视使用这些技术的工作(例如会议审查),我们怎么能期望在跨语言方面有很大帮助的NLP上取得进展呢?
◆
精彩推荐
◆

推荐阅读
深度学习面临天花板,亟需更可信、可靠、安全的第三代AI技术|AI ProCon 2019
学点基本功:机器学习常用损失函数小结
AI落地遭“卡脖子”困境:为什么说联邦学习是解决良方?
10分钟搭建你的第一个图像识别模型 | 附完整代码
阿里披露AI完整布局,飞天AI平台首次亮相
程序员因接外包坐牢 456 天!两万字揭露心酸经历
限时早鸟票 | 2019 中国大数据技术大会(BDTC)超豪华盛宴抢先看!
Pandas中第二好用的函数 | 优雅的Apply
阿里开源物联网操作系统 AliOS Things 3.0 发布,集成平头哥 AI 芯片架构
雷声大雨点小:Bakkt「见光死」了吗?

你点的每个“在看”,我都认真当成了喜欢
相关文章:

CUDA Samples: Dot Product
以下CUDA sample是分别用C和CUDA实现的两个非常大的向量实现点积操作,并对其中使用到的CUDA函数进行了解说,各个文件内容如下:common.hpp:#ifndef FBC_CUDA_TEST_COMMON_HPP_ #define FBC_CUDA_TEST_COMMON_HPP_#include<random>templa…

element ui只输入数字校验
注意:圈起来的两个地方,刚开始忘记写typenumber了,导致可以输入‘123abc’这样的,之后加上了就OK了 转载于:https://www.cnblogs.com/samsara-yx/p/10774270.html

对DeDecms之index.php页面的补充
2019独角兽企业重金招聘Python工程师标准>>> 1、301是什么? 其实就是HTTP状态表。就是当用户输入url请求时,服务器的一个反馈状态。 详细链接http://www.cnblogs.com/kunhony/archive/2006/06/16/427305.html 2、common.inc.php和arc.partvi…

OpenCV-Python:K值聚类
关于K聚类,我曾经在一篇博客中提到过,这里简单的做个回顾。 KMeans的步骤以及其他的聚类算法 K-均值是因为它可以发现k个不同的簇,且每个簇的中心采用簇中所含值的均值计算 其他聚类算法:二分K-均值 讲解一下步骤,其实…
CUDA Samples: Julia
以下CUDA sample是分别用C和CUDA实现的绘制Julia集曲线,并对其中使用到的CUDA函数进行了解说,code参考了《GPU高性能编程CUDA实战》一书的第四章,各个文件内容如下:funset.cpp:#include "funset.hpp" #include <rand…

给初学者的深度学习入门指南
从无人驾驶汽车到AlphaGo战胜人类,机器学习成为了当下最热门的技术。而机器学习中一种重要的方法就是深度学习。作为一个有理想的程序员,若是不懂人工智能(AI)领域中深度学习(DL)这个超热的技术,…

epoll/select
为什么80%的码农都做不了架构师?>>> epoll相对select优点主要有三: 1. select的句柄数目受限,在linux/posix_types.h头文件有这样的声明:#define __FD_SETSIZE 1024 表示select最多同时监听1024个fd。而epoll没…
CUDA Samples: ripple
以下CUDA sample是分别用C和CUDA实现的生成的波纹图像,并对其中使用到的CUDA函数进行了解说,code参考了《GPU高性能编程CUDA实战》一书的第五章,各个文件内容如下:funset.cpp:#include "funset.hpp" #includ…

Python告诉你这些旅游景点好玩、便宜、人又少!
(图片由CSDN付费下载自东方IC)作者 | 猪哥来源 | 裸睡的猪(ID:IT--Pig) 2019年国庆马上就要到来,今年来点新花样吧,玩肯定是要去玩的,不然怎么给祖国庆生?那去哪里玩&…

手机APP自动化之uiautomator2 +python3 UI自动化
题记: 之前一直用APPium直到用安卓9.0 发现uiautomatorviewer不支持安卓 9.0,点击截屏按钮 一直报错,百度很久解决方法都不可以,偶然间看见有人推荐:uiautomator2 就尝试使用 发现比appium要简单一些; 下面…

爱上MVC3系列~开发一个站点地图(俗称面包屑)
回到目录 原来早在webform控件时代就有了SiteMap这个东西,而进行MVC时代后,我们也希望有这样一个东西,它为我们提供了不少方便,如很方便的实现页面导航的内容修改,页面导航的样式换肤等. 我的MvcSiteMap主要由实体文件,XML配置文件,C#调用文件组成,当然为了前台使用方便,可以为…

Django web框架-----Django连接现有mysql数据库
第一步:win10下载mysql5.7压缩包配置安装mysql,创建数据库或导入数据库 第二步:win10搭建django2.1.7开发环境,创建项目为mytestsite,创建应用app为quicktool 第三步:编辑与项目同名的文件夹的配置文件&…
CUDA Samples: green ball
以下CUDA sample是分别用C和CUDA实现的生成的绿色的球图像,并对其中使用到的CUDA函数进行了解说,code参考了《GPU高性能编程CUDA实战》一书的第五章,各个文件内容如下:funset.cpp:#include "funset.hpp" #include <r…

ICLR 2020论文投稿2600篇,GNN、BERT、Transformer领跑热门研究方向
(图片由AI科技大本营付费下载自视觉中国)出品 | AI科技大本营(ID:rgznai100)2019 年 4,ICLR 2020 论文征集活动开始,截止 9 月 25 日,大会共收到近 2600 篇投稿,相比 ICL…

android环境安装之android4.2安装(转)
准备学习android,着手安装android时听说很麻烦,在网上看了很多android安装说明,都是android比较早的版本,我这里安装了android4.2,简单记录一下。 安装分为几步,首先申明,安装时最好保持网络畅通…

如何创建一个百分百懂你的产品推荐系统 | 深度教程(附代码详解)
(图片由AI科技大本营付费下载自视觉中国)来源 | 读芯术(ID:AI_Discovery)你也许每天都会逛一逛电子商务网站,或者从博客、新闻和媒体出版物上阅读大量文章。浏览这些东西的时候,最令读者或者用户…
CUDA Samples: Ray Tracking
以下CUDA sample是分别用C和CUDA实现的生成光线跟踪图像,并对其中使用到的CUDA函数进行了解说,code参考了《GPU高性能编程CUDA实战》一书的第六章,CUDA各实现包括了使用常量内存和不使用常量内存两种方法,各个文件内容如下&#x…

从产品的适用性以及费用方面考虑
物联宇手持终端在对比性价比高低应该从产品的适用性以及费用方面考虑。不过在选择时不一定要整机,可以按实际需求让厂商定做和行业需要功能的手持机,这样有针对性的定制更能体现整体的性价效率。转载于:https://blog.51cto.com/14222294/2386642

杨学海:跨境电商新通道-进口保税直邮模式解析
为什么80%的码农都做不了架构师?>>> 杨学海:跨境电商新通道-进口保税直邮模式解析 广州威云供应链管理公司总经理杨学海在第九届中国中小企业电子商务大会上表示,其品牌海外通要为跨境电子商务提供一个更加快速、便捷、低成本&am…
CUDA Samples: heat conduction(模拟热传导)
以下CUDA sample是分别用C和CUDA实现的模拟热传导生成的图像,并对其中使用到的CUDA函数进行了解说,code参考了《GPU高性能编程CUDA实战》一书的第七章,各个文件内容如下:funset.cpp:#include "funset.hpp" #include <…

2020应届生:今年秋招也太太太太太难了吧!
讲个简短的鬼故事:2020秋招已经过去一大半了!回顾9月,你可能以为秋招还有很多机会,还有大把时间准备。然而各大名企的实际进度却不等人。阿里巴巴9月12日网申截止;腾讯9月15日网申截止;宝洁9月20日关闭网申…

PDF文字怎么编辑,PDF文档编辑方法
有时候遇到PDF文件不是自己制作的或者是制作的有点匆忙,会有文字遗漏或者打错的时候,我们使用就会有点麻烦就需要把文件中的文字进行编辑修改,那么具体怎么做呢?小伙伴们都挺好奇吧,今天就来跟大家分享一下。操作软件&…

浏览器是怎样工作的:渲染引擎,HTML解析
2019独角兽企业重金招聘Python工程师标准>>> 渲染引擎 渲染引擎的职责是……渲染,也就是把请求的内容显示到浏览器屏幕上。 默认情况下渲染引擎可以显示HTML,XML文档以及图片。 通过插件(浏览器扩展)它可以显示其它类型…
CUDA Samples: Calculate Histogram(atomicAdd)
以下CUDA sample是分别用C和CUDA实现的计算一维直方图,并对其中使用到的CUDA函数进行了解说,code参考了《GPU高性能编程CUDA实战》一书的第九章,各个文件内容如下:funset.cpp:#include "funset.hpp" #include <rando…

glusterfs基本操作
基本操作 集群节点 扩展集群 1,必须做hosts域名解析其实通过IP地址也能做集群,但是不建议这种方式. 192.168.1.210 glusterfs04 2, 添加节点到集群中,在当前所有集群节点中都需要执行 gluster peer probe glusterfs04 3,查看对等状态 gluster peer status 查看集群节点信息 gl…

100多次竞赛后,他研发了一个几乎可以解决所有机器学习问题的框架
(图片由AI科技大本营付费下载自视觉中国)作者 | XI YANG来源 | 知乎(机器学习之路)一个叫 Abhishek Thakur 的数据科学家,在他的 Linkedin 发表了一篇文章 Approaching (Almost) Any Machine Learning Problem…

mysql中char与varchar的区别分析(补充一句,int和integer没区别)
转自:http://www.jb51.net/article/23575.htm 在mysql教程中char与varchar的区别呢,都是用来存储字符串的,只是他们的保存方式不一样罢了,char有固定的长度,而varchar属于可变长的字符类型。har与varchar的区别 &#…
CUDA Samples: Streams' usage
以下CUDA sample是分别用C和CUDA实现的流的使用code,并对其中使用到的CUDA函数进行了解说,code参考了《GPU高性能编程CUDA实战》一书的第十章,各个文件内容如下:funset.cpp:#include "funset.hpp" #include <random&…

你的神经网络不起作用的37个理由
(图片由AI科技大本营付费下载自视觉中国)作者 | Slav Ivanov译者 | 吴金笛校对 | 丁楠雅、林亦霖编辑 | 王菁来源 | 数据派THU(ID:DatapiTHU)【导语】本文列举了在搭建神经网络过程中的37个易错点,并给出了…

菜鸟Vue学习笔记(三)
菜鸟Vue学习笔记(三)本周使用了Vue来操作表单,接下来说下Vue中双向绑定表单元素的用法。Vue中双向绑定是使用的v-model,所谓的双向绑定即改变变量的值,表单元素的值也会改变,同样的,改变表单元素…