当前位置：首页 > 编程日记 > 正文

NLP被英语统治？打破成见，英语不应是「自然语言」同义词

编程日记 2024-12-21 22:30:00

640?wx_fmt=jpeg

（图片付费下载自视觉中国）

作者 | Emily M. Bender

译者 | 陆离

责编 | 夕颜

出品 | AI科技大本营（ID: rgznai100）

【导读】在NLP领域，多资源语言以英语、汉语（普通话）、阿拉伯语和法语为代表，拥有大量标记数据与训练集，但是世界上其余的大约7000种语言几乎就没什么资源了，它们被称为少资源语言。这导致了NLP领域中多资源语言和少资源语言之间的数字鸿沟，阻碍了NLP领域的进展。本文作者在2011年提出了Bender Rule，指出少资源语言研究的重要性。但直到2019年，这个概念才被人重视起来。Bender Rule是什么呢？它会为NLP领域研究带来哪些新方向？本文将为读者揭晓答案。

多资源语言与少资源语言

自然语言处理（Natural Language Processing，NLP）领域的发展取决于语言资源的存在：书面、口头或手语的数字化资源集合，通常会带有高级的标签或者注释，反映了NLP系统对当前任务的预期输出（例如，语音识别系统的高级文本或者对话系统中高标准用户的意向标签，如Siri、Alexa或Google Home等）。无监督、弱监督、半监督或远程监督的机器学习技术降低了对标记数据的总体依赖性，但即使使用了这些算法，也还需要有足够的标记数据来评估系统的性能，并且通常需要更多的未标记数据集来支持需要大量数据的机器学习技术。

这导致了NLP领域中多资源语言和少资源语言之间的数字鸿沟。多资源语言是一个以英语、汉语（普通话）、阿拉伯语和法语开头的列表，这个列表是在通过讨论了这几个语言的文献范围之后凭借主观判断罗列出来的。可能还包括德语、葡萄牙语、西班牙语和芬兰语。这些语言有大量可访问的（有些语言资源只能通过有很强限制性的许可或付出高昂的费用来获得的，从而严重地限制了我们的研究）数字化文本集、大量的录音资料集（这些都是关于说话，并不是手语），其中大部分已经被编辑，和资源标注了，如大量NLP任务的树库和评测集，还有NLP工具，如现有的解析器、形态分析器、命名实体识别器等。

截止到2019年8月，LRE地图（LRE地图是欧洲语言资源协会ELRA的一项倡议，它是由与会作者为其论文所使用或构建的语言资源进行登记而建的）列出了961种英语资源和121种美式英语资源、216种德语资源、180种法语资源、130种西班牙语资源、103种汉语资源和103种日语资源。只有50种以上资源的语言有葡萄牙语、意大利语、荷兰语、标准阿拉伯语和捷克语，世界上其余的大约7000种语言几乎就没什么资源了。

这并非没有缘由的，那些在世界各国工作的研究人员，他们在主要的NLP会议上发表的大部分研究都集中在多资源的语言上，而且不成比例的集中在英语上。Robert Munro、Sebastian Mielke和我都对在主要的NLP会议上所使用的语言进行了调查，我在下表中列出了相关的调查结果。每一项调查都使用了自己的方法，因此这些数字不能直接进行比较，但总体趋势是非常明显的。

会议名称	% 英语	位列第二位的语言	%位列第二位的语言	资源
ACL 2004	87	汉语	9	Mielke 2016
ACL 2008	63	德语, 汉语	4	Bender 2009
ACL 2008	87	汉语	16	Mielke 2016
EACL 2009	55	德语	7	Bender 2011
ACL 2012	86	汉语	23	Mielke 2016
ACL 2015	75	汉语	5	Munro 2015
ACL 2016	90	汉语	13	Mielke 2016

尽管英语和汉语作为第一大语言和第二大语言而被广泛的使用，但很显然，一个就只有这两种语言的高级语言世界是并不正常的。语言技术的前景包括面向社会的广泛应用，从生物医学应用（例如匹配患者到研究课题或根据医生说明自动标记患者来进行时效性测试），通过互联网上提供的机器翻译应用，到为语言学习和其它的学习提供互动式的辅导，这些应该让所有的人都能够使用。

同时，值得注意的是，并非所有的NLP应用在实际上都是有意义的，已经缩小化或边缘化的人群更有可能首当其冲地受到基于NLP的监测技术等的负面影响（请见Grissom II 2019）。此外，即使是最基本语言技术的存在（支持书写系统的键盘或输入系统，拼写检查，网络搜索）也创造了一种语言的价值，它可以成为那些讲少数民族语言的人的自尊和教育成果的一个重要因素，并有助于保护那些面临消失的地方语言（见Bamgbose 2011）。

然而，NLP领域陷入了一个恶性循环，阻碍了我们语言研究方面的发展，研究英语以外的语言通常被认为是“特定语言”，并因此被认为不如在同等条件下研究英语更为重要。NLP会议的评论者经常把某一个语言研究工作的最新进展错误地认为是在英语语言方面的进展，如果一篇论文不能与之相比，他们就无法判断它是否是“有价值”的。我认为，其中一个关键的潜在因素是，人们错误地认为英语是一种具有足够代表性的语言，因此仅仅研究英语并不是特定于语言的。这种误解是由于当所学的语言是英语时，不给它进行命名的习惯所导致的。

BenderRule的历史

在2009年，Tim Baldwin和ValiaKordoni在EACL组织了一个受邀演讲的研讨会，题为“语言学和计算语言学之间的互动：道德的、邪恶的还是空洞的？”当时，NLP的机器学习（预深度学习）非常的流行，由于围绕它的许多争论是关于如何让NLP的机器学习方法更加的有效，因为它们比以前基于规则的NLP主流模式需要来自语言专家的知识输入更少。这种特别激烈的争论形式（出现在了当时的一些NLP论文中，但不是所有的）声称，不进行编码任何特定语言知识的NLP系统的结果是“语言独立（语言无关）”的。

在我2009年EACL研讨会上的论文（题为“语言学上的天真不等于与语言独立：为什么NLP需要语言类型学”）中，我驳斥了以上的观点，如果我们只研究英语（或英语和少数的几个语言），那么就无法判断所构建的系统在实际上是否能够很好地适应大多数的语言，通过一个过度拟合的反馈循环，我们会寻找在英语测试中表现更好的系统。正因为关于英语的具体语言学知识是没有直接编码的，这并不意味着该模型会在所有的语言中推广，另外，如果目标是语言不相关的或是跨语言的适用系统，我们最好能够利用语言学的知识。尤其是我们应该利用语言类型学领域的成果，该领域研究世界上各种语言的变化范围和变化的程度。

在Bender 2011（《关于在NLP中实现和评估语言独立性》）中，也就是2009年研讨会上的论文延伸部分，我为语言独立的NLP提供了一份礼仪书式的“应做和不应做”的列表。它包括了这个早期的观点，后来被称为Bender Rule:

即使是英语，也要事先声明所研究语言的名称。明确了我们正在研究的一种语言，这就预示着这些技术实际上可能是特定于这种语言的。相反地，如果不声明特定的数据是用于英语的，那就给研究工作披上了语言独立的假象。(Bender 2011:18)

然而，直到2019年，这一观点才真正地流行起来。在2018年的11月，我正在写一个可用于计算语义学和语用学的语言资源的时候，感觉自己又一次受到了挫折，即使是为英语提供语言资源的论文也还是不能很清楚地说明英语就是所讨论和研究的语言。请见以下的内容：

亲爱的计算机科学家们，
“自然语言”不是“英语”的同义词。
仅此而已
-Emily
— Emily M. Bender (@emilymbender)
2018年11月26日

在2019年3月以及5月的下旬，Nathan Schneider、Yuval Pinter、Robert Munro和Andrew Caines都独立地写出了“Bender Rule”或“Bender Clauses”，在不同程度上，这是对所研究语言的命名实践，作为评论者，研究自己的语言，或者当只使用一种测试语言的时候，对语言独立性的主张持怀疑态度的做法。最终，Bender Rule合并为“要始终命名你正在研究的语言”。

——"Always name the language(s) you're working on."
这确实是最低的要求。我也真的很想鼓励人们做的更多、更深入：https://t.co/f4LHXI71Ba
— Emily M. Bender (@emilymbender)
2019年6月3日

在2019年的NAACL和ACL以及相关的研讨会上，有几个公告在命名它们的语言时直接提到了#BenderRule。我怀疑这至少在某种程度上是因为在违背当地社会常规的情况下，借助一些外部规则会起到一定作用，既然这样，将英语直接命名是多余的，因为英语是默认的，或者是因为很明显必须是英语，因为示例都是英语的，还或者是因为“每个人都知道”所使用的语言资源是英语的资源。

相似地，这一原则似乎是显而易见的，也是微不足道的，但我的确很高兴是用我的名字给它命名的，因为我强烈地感到，NLP领域的范围必须要扩大，并且超越英语和其它少数几门研究的不错的语言，我相信，除非不再把英语作为默认语言，不要再假装只致力于英语研究，英语不是“特定语言”。

英语既不是自然语言的同义词，也不是自然语言的代表

NLP是一个跨学科的领域，其建立在语言学、计算机科学、统计学和电子工程学的基础之上。语言学家们特别关注语言自身的现象，而不是特定语言行为所包含的或传达的信息或交流意图。我最近在“扩大NLP 2019”的演讲中，把这比作一个雨点飞溅的窗户。从事信息获取等工作的人们对通过数字化语言编码的信息会很感兴趣，类似于在窗外窥视室内一样。另一方面，从事语言学研究的人们对语言的结构和模式以及它们与交流意图的关系特别感兴趣，比如雨滴敲打窗户的模式，以及它们如何影响我们观看窗外的景色。

（图片付费下载自视觉中国）

把这个比喻再延伸一下，我们可以把包括英语在内的每一种语言看作是一个有着固定雨滴图案的窗户，也就是说，它有自己的特点。以下列出了英语不能代表所有语言的原因，也就是说，其它语言的特点与英语并不相同，即使是世界广泛使用的一些语言：

英语是一种口语，而不是手语。如果我们只使用英语，那么就会把注意力只放在英语上；
英语有一个完善的、长期使用的、大致基于电话的正字法系统。“基于电话”的意思是字母对应于一个单个的声音。英语正字法仅仅近似于这一原则。其它语言，如西班牙语，有更透明的基于电话的正字法，还有一些语言只代表辅音（如传统的希伯来语和阿拉伯语），或者有代表音节而不是单个声音的符号（如马拉雅拉姆语、韩语或日语假名），或使用语标式系统（例如中文，或者借用到日语中的汉字；见Handel 2019).当然，世界上的许多语言不是书面的，或者是书面的，但并没有长期的书写传统或没有标准的正字法。我们经常低估了标准化在多大程度上简化英语的NLP任务。
英语的标准正字法提供了一个用空白表示的“word”的标准化概念。不是所有的语言都是这样的，即使是那些有标准正字法的语言。许多用于汉语、日语、泰语和其它语言的NLP系统必须从词语标记化问题开始；
英语书写（大多数）只使用计算机上的小写ascii字符。在大多数情况下，我们在使用英语时不用担心不常见的字符编码和不被支持的Unicode范围等；
英语的屈折词法相对较少，因此每个单词的屈折词法也较少。许多类型的NLP技术都存在数据不足的问题，只有当同一个单词以多种不同的形式出现在一种屈折度很高的语言中时，这种问题才会加剧。（基于字符n-gram的深度学习模型在一定程度上解决了这个问题，但它仍然是英语和世界上许多其它语言之间的一个重要区别）；
英语有相对固定的词序。与世界上的许多其它的语言相比，英语在词序上是较严格的，在大多数情况下坚持主语、谓语和宾语，名词之前的是形容词，而后面还有关系从句，等等。没有更灵活的词序语言的测试，我们如何知道那些系统依赖于英语这些特点的程度呢？
英语的表单可能“意外”匹配数据库中的字段名和实体记录等。许多语言技术通过在输入语言中对字符串进行映射或将这些字符串转换为语法或语义表示到外部知识库的方式来实现特定于任务的目标。当输入字符串和知识库中的字段名或实体在使用同一种语言的时候，那么就可以处理快捷方式了。但这有多少种语言可以这样呢？
英语有大量可用的训练数据（如用于训练BERT的33亿的标记（Devlin等人，2019））。如果我们把所有的注意力都集中在依赖于大量训练数据的方法上，而这些数据对世界上大多数语言来说都是不可用的，那么我们将如何构建适用于其它语言的系统呢？同样的，如果我们只重视使用这些技术的工作（例如会议审查），我们怎么能期望在跨语言方面有很大帮助的NLP上取得进展呢？

命名语言只是第一步

我非常高兴在这个领域里已经开始讨论应该命名语言的问题，即使它很显然的是英语。然而，随着该领域开始努力解决我们在工作中的道德影响，以及语言技术对用户和旁观者产生负面影响的方式（请见Hovy&Spruit 2016、Speer 2017和Grissom II 2019）。很明显，关于用来训练和测试模型的数据，我们需要继续讨论的还有很多。

首先要考虑的是语言内部的变化：所有的语言都在不断地变化，除了说的范围非常小的语种，一种语言的多种变化之间总是会有很大的差异（例如Labov 1966、Eckert和Rickford 2001）。这包括了不同地域之间的差异，以及与不同社会群体和社会身份相关的差异。接受过特定人群的语音、文字以及符号训练的模型不一定适用于其他人，即使是使用同一种语言的人。

第二个涉及到的问题是，基于文字的作者如何看待和谈论这个世界（例如Bolukbasi等2016，Speer 2017），受过文字训练的模型会从文本中提取偏差。为了解决这两个案例可能造成的影响，Batya Friedman和我（Bender&Friedman 2018）提出了“数据声明”，这是一种清晰记录NLP系统中使用的数据集的做法。我们建议所有的NLP系统都应该附带着关于训练数据的详细信息，包括所涉及的具体语言种类、相关管理说明（数据是如何选择的，以及为什么等），说话者和注释者的统计信息，等等。当然，仅仅是这些信息本身并不能解决偏差的问题，但它为解决这些问题提供了可能性。

原文链接：

https://thegradient.pub/the-benderrule-on-naming-the-languages-we-study-and-why-it-matters/

（*本文为 AI科技大本营整理文章，转载请微信联系1092722531）

◆

精彩推荐

◆

2019 中国大数据技术大会（BDTC）历经十一载，再度火热来袭！豪华主席阵容及百位技术专家齐聚，15 场精选专题技术和行业论坛，超强干货+技术剖析+行业实践立体解读，深入解析热门技术在行业中的实践落地。【早鸟票】与【特惠学生票】限时抢购，扫码了解详情！

深度学习面临天花板，亟需更可信、可靠、安全的第三代AI技术|AI ProCon 2019

学点基本功：机器学习常用损失函数小结

AI落地遭“卡脖子”困境：为什么说联邦学习是解决良方？

10分钟搭建你的第一个图像识别模型 | 附完整代码

阿里披露AI完整布局，飞天AI平台首次亮相

程序员因接外包坐牢 456 天！两万字揭露心酸经历

限时早鸟票 | 2019 中国大数据技术大会（BDTC）超豪华盛宴抢先看！

Pandas中第二好用的函数 | 优雅的Apply

阿里开源物联网操作系统 AliOS Things 3.0 发布，集成平头哥 AI 芯片架构

雷声大雨点小：Bakkt「见光死」了吗？

你点的每个“在看”，我都认真当成了喜欢

https://www.dkcj.cn/info/32855.html

推荐阅读