当前位置: 首页 > 编程日记 > 正文

NLP被英语统治?打破成见,英语不应是「自然语言」同义词

640?wx_fmt=jpeg

(图片付费下载自视觉中国)

作者 | Emily M. Bender

译者 | 陆离

责编 | 夕颜

出品 | AI科技大本营(ID: rgznai100)


【导读】在NLP领域,多资源语言以英语、汉语(普通话)、阿拉伯语和法语为代表,拥有大量标记数据与训练集,但是世界上其余的大约7000种语言几乎就没什么资源了,它们被称为少资源语言。这导致了NLP领域中多资源语言和少资源语言之间的数字鸿沟,阻碍了NLP领域的进展。本文作者在2011年提出了Bender Rule,指出少资源语言研究的重要性。但直到2019年,这个概念才被人重视起来。Bender Rule是什么呢?它会为NLP领域研究带来哪些新方向?本文将为读者揭晓答案。


多资源语言与少资源语言

自然语言处理(Natural Language Processing,NLP)领域的发展取决于语言资源的存在:书面、口头或手语的数字化资源集合,通常会带有高级的标签或者注释,反映了NLP系统对当前任务的预期输出(例如,语音识别系统的高级文本或者对话系统中高标准用户的意向标签,如Siri、Alexa或Google Home等)。无监督、弱监督、半监督或远程监督的机器学习技术降低了对标记数据的总体依赖性,但即使使用了这些算法,也还需要有足够的标记数据来评估系统的性能,并且通常需要更多的未标记数据集来支持需要大量数据的机器学习技术。
这导致了NLP领域中多资源语言和少资源语言之间的数字鸿沟。多资源语言是一个以英语、汉语(普通话)、阿拉伯语和法语开头的列表,这个列表是在通过讨论了这几个语言的文献范围之后凭借主观判断罗列出来的。可能还包括德语、葡萄牙语、西班牙语和芬兰语。这些语言有大量可访问的(有些语言资源只能通过有很强限制性的许可或付出高昂的费用来获得的,从而严重地限制了我们的研究)数字化文本集、大量的录音资料集(这些都是关于说话,并不是手语),其中大部分已经被编辑,和资源标注了,如大量NLP任务的树库和评测集,还有NLP工具,如现有的解析器、形态分析器、命名实体识别器等。

截止到2019年8月,LRE地图(LRE地图是欧洲语言资源协会ELRA的一项倡议,它是由与会作者为其论文所使用或构建的语言资源进行登记而建的)列出了961种英语资源和121种美式英语资源、216种德语资源、180种法语资源、130种西班牙语资源、103种汉语资源和103种日语资源。只有50种以上资源的语言有葡萄牙语、意大利语、荷兰语、标准阿拉伯语和捷克语,世界上其余的大约7000种语言几乎就没什么资源了。
这并非没有缘由的,那些在世界各国工作的研究人员,他们在主要的NLP会议上发表的大部分研究都集中在多资源的语言上,而且不成比例的集中在英语上。Robert Munro、Sebastian Mielke和我都对在主要的NLP会议上所使用的语言进行了调查,我在下表中列出了相关的调查结果。每一项调查都使用了自己的方法,因此这些数字不能直接进行比较,但总体趋势是非常明显的。

会议名称
% 英语
位列第二位的语言
%位列第二位的语言
资源
ACL   2004
87
汉语
9
Mielke   2016
ACL   2008
63
德语, 汉语
4
Bender   2009
ACL   2008
87
汉语
16
Mielke   2016
EACL   2009
55
德语
7
Bender   2011
ACL   2012
86
汉语
23
Mielke   2016
ACL   2015
75
汉语
5
Munro   2015
ACL   2016
90
汉语
13
Mielke   2016
尽管英语和汉语作为第一大语言和第二大语言而被广泛的使用,但很显然,一个就只有这两种语言的高级语言世界是并不正常的。语言技术的前景包括面向社会的广泛应用,从生物医学应用(例如匹配患者到研究课题或根据医生说明自动标记患者来进行时效性测试),通过互联网上提供的机器翻译应用,到为语言学习和其它的学习提供互动式的辅导,这些应该让所有的人都能够使用。

同时,值得注意的是,并非所有的NLP应用在实际上都是有意义的,已经缩小化或边缘化的人群更有可能首当其冲地受到基于NLP的监测技术等的负面影响(请见Grissom II 2019)。此外,即使是最基本语言技术的存在(支持书写系统的键盘或输入系统,拼写检查,网络搜索)也创造了一种语言的价值,它可以成为那些讲少数民族语言的人的自尊和教育成果的一个重要因素,并有助于保护那些面临消失的地方语言(见Bamgbose 2011)。
然而,NLP领域陷入了一个恶性循环,阻碍了我们语言研究方面的发展,研究英语以外的语言通常被认为是“特定语言”,并因此被认为不如在同等条件下研究英语更为重要。NLP会议的评论者经常把某一个语言研究工作的最新进展错误地认为是在英语语言方面的进展,如果一篇论文不能与之相比,他们就无法判断它是否是“有价值”的。我认为,其中一个关键的潜在因素是,人们错误地认为英语是一种具有足够代表性的语言,因此仅仅研究英语并不是特定于语言的。这种误解是由于当所学的语言是英语时,不给它进行命名的习惯所导致的。


BenderRule的历史

在2009年,Tim Baldwin和ValiaKordoni在EACL组织了一个受邀演讲的研讨会,题为“语言学和计算语言学之间的互动:道德的、邪恶的还是空洞的?”当时,NLP的机器学习(预深度学习)非常的流行,由于围绕它的许多争论是关于如何让NLP的机器学习方法更加的有效,因为它们比以前基于规则的NLP主流模式需要来自语言专家的知识输入更少。这种特别激烈的争论形式(出现在了当时的一些NLP论文中,但不是所有的)声称,不进行编码任何特定语言知识的NLP系统的结果是“语言独立(语言无关)”的。

在我2009年EACL研讨会上的论文(题为“语言学上的天真不等于与语言独立:为什么NLP需要语言类型学”)中,我驳斥了以上的观点,如果我们只研究英语(或英语和少数的几个语言),那么就无法判断所构建的系统在实际上是否能够很好地适应大多数的语言,通过一个过度拟合的反馈循环,我们会寻找在英语测试中表现更好的系统。正因为关于英语的具体语言学知识是没有直接编码的,这并不意味着该模型会在所有的语言中推广,另外,如果目标是语言不相关的或是跨语言的适用系统,我们最好能够利用语言学的知识。尤其是我们应该利用语言类型学领域的成果,该领域研究世界上各种语言的变化范围和变化的程度。
在Bender 2011(《关于在NLP中实现和评估语言独立性》)中,也就是2009年研讨会上的论文延伸部分,我为语言独立的NLP提供了一份礼仪书式的“应做和不应做”的列表。它包括了这个早期的观点,后来被称为Bender Rule:
 
即使是英语,也要事先声明所研究语言的名称。明确了我们正在研究的一种语言,这就预示着这些技术实际上可能是特定于这种语言的。相反地,如果不声明特定的数据是用于英语的,那就给研究工作披上了语言独立的假象。(Bender 2011:18)
然而,直到2019年,这一观点才真正地流行起来。在2018年的11月,我正在写一个可用于计算语义学和语用学的语言资源的时候,感觉自己又一次受到了挫折,即使是为英语提供语言资源的论文也还是不能很清楚地说明英语就是所讨论和研究的语言。请见以下的内容:
亲爱的计算机科学家们,
“自然语言”不是“英语”的同义词。
仅此而已
-Emily
— Emily M. Bender (@emilymbender)
2018年11月26日

在2019年3月以及5月的下旬,Nathan Schneider、Yuval Pinter、Robert Munro和Andrew Caines都独立地写出了“Bender Rule”或“Bender Clauses”,在不同程度上,这是对所研究语言的命名实践,作为评论者,研究自己的语言,或者当只使用一种测试语言的时候,对语言独立性的主张持怀疑态度的做法。最终,Bender Rule合并为“要始终命名你正在研究的语言”。

——"Always name the language(s) you're working on."
这确实是最低的要求。我也真的很想鼓励人们做的更多、更深入:https://t.co/f4LHXI71Ba
— Emily M. Bender (@emilymbender)
2019年6月3日

在2019年的NAACL和ACL以及相关的研讨会上,有几个公告在命名它们的语言时直接提到了#BenderRule。我怀疑这至少在某种程度上是因为在违背当地社会常规的情况下,借助一些外部规则会起到一定作用,既然这样,将英语直接命名是多余的,因为英语是默认的,或者是因为很明显必须是英语,因为示例都是英语的,还或者是因为“每个人都知道”所使用的语言资源是英语的资源。
相似地,这一原则似乎是显而易见的,也是微不足道的,但我的确很高兴是用我的名字给它命名的,因为我强烈地感到,NLP领域的范围必须要扩大,并且超越英语和其它少数几门研究的不错的语言,我相信,除非不再把英语作为默认语言,不要再假装只致力于英语研究,英语不是“特定语言”。


英语既不是自然语言的同义词,也不是自然语言的代表

NLP是一个跨学科的领域,其建立在语言学、计算机科学、统计学和电子工程学的基础之上。语言学家们特别关注语言自身的现象,而不是特定语言行为所包含的或传达的信息或交流意图。我最近在“扩大NLP 2019”的演讲中,把这比作一个雨点飞溅的窗户。从事信息获取等工作的人们对通过数字化语言编码的信息会很感兴趣,类似于在窗外窥视室内一样。另一方面,从事语言学研究的人们对语言的结构和模式以及它们与交流意图的关系特别感兴趣,比如雨滴敲打窗户的模式,以及它们如何影响我们观看窗外的景色。

640?wx_fmt=jpeg

(图片付费下载自视觉中国)

把这个比喻再延伸一下,我们可以把包括英语在内的每一种语言看作是一个有着固定雨滴图案的窗户,也就是说,它有自己的特点。以下列出了英语不能代表所有语言的原因,也就是说,其它语言的特点与英语并不相同,即使是世界广泛使用的一些语言:
  1. 英语是一种口语,而不是手语。如果我们只使用英语,那么就会把注意力只放在英语上;

  2. 英语有一个完善的、长期使用的、大致基于电话的正字法系统。“基于电话”的意思是字母对应于一个单个的声音。英语正字法仅仅近似于这一原则。其它语言,如西班牙语,有更透明的基于电话的正字法,还有一些语言只代表辅音(如传统的希伯来语和阿拉伯语),或者有代表音节而不是单个声音的符号(如马拉雅拉姆语、韩语或日语假名),或使用语标式系统(例如中文,或者借用到日语中的汉字;见Handel 2019).当然,世界上的许多语言不是书面的,或者是书面的,但并没有长期的书写传统或没有标准的正字法。我们经常低估了标准化在多大程度上简化英语的NLP任务。

  3. 英语的标准正字法提供了一个用空白表示的“word”的标准化概念。不是所有的语言都是这样的,即使是那些有标准正字法的语言。许多用于汉语、日语、泰语和其它语言的NLP系统必须从词语标记化问题开始;

  4. 英语书写(大多数)只使用计算机上的小写ascii字符。在大多数情况下,我们在使用英语时不用担心不常见的字符编码和不被支持的Unicode范围等;

  5. 英语的屈折词法相对较少,因此每个单词的屈折词法也较少。许多类型的NLP技术都存在数据不足的问题,只有当同一个单词以多种不同的形式出现在一种屈折度很高的语言中时,这种问题才会加剧。(基于字符n-gram的深度学习模型在一定程度上解决了这个问题,但它仍然是英语和世界上许多其它语言之间的一个重要区别);

  6. 英语有相对固定的词序。与世界上的许多其它的语言相比,英语在词序上是较严格的,在大多数情况下坚持主语、谓语和宾语,名词之前的是形容词,而后面还有关系从句,等等。没有更灵活的词序语言的测试,我们如何知道那些系统依赖于英语这些特点的程度呢?

  7. 英语的表单可能“意外”匹配数据库中的字段名和实体记录等。许多语言技术通过在输入语言中对字符串进行映射或将这些字符串转换为语法或语义表示到外部知识库的方式来实现特定于任务的目标。当输入字符串和知识库中的字段名或实体在使用同一种语言的时候,那么就可以处理快捷方式了。但这有多少种语言可以这样呢?

  8. 英语有大量可用的训练数据(如用于训练BERT的33亿的标记(Devlin等人,2019))。如果我们把所有的注意力都集中在依赖于大量训练数据的方法上,而这些数据对世界上大多数语言来说都是不可用的,那么我们将如何构建适用于其它语言的系统呢?同样的,如果我们只重视使用这些技术的工作(例如会议审查),我们怎么能期望在跨语言方面有很大帮助的NLP上取得进展呢?


命名语言只是第一步

我非常高兴在这个领域里已经开始讨论应该命名语言的问题,即使它很显然的是英语。然而,随着该领域开始努力解决我们在工作中的道德影响,以及语言技术对用户和旁观者产生负面影响的方式(请见Hovy&Spruit 2016、Speer 2017和Grissom II 2019)。很明显,关于用来训练和测试模型的数据,我们需要继续讨论的还有很多。
首先要考虑的是语言内部的变化:所有的语言都在不断地变化,除了说的范围非常小的语种,一种语言的多种变化之间总是会有很大的差异(例如Labov 1966、Eckert和Rickford 2001)。这包括了不同地域之间的差异,以及与不同社会群体和社会身份相关的差异。接受过特定人群的语音、文字以及符号训练的模型不一定适用于其他人,即使是使用同一种语言的人。
第二个涉及到的问题是,基于文字的作者如何看待和谈论这个世界(例如Bolukbasi等2016,Speer 2017),受过文字训练的模型会从文本中提取偏差。为了解决这两个案例可能造成的影响,Batya Friedman和我(Bender&Friedman 2018)提出了“数据声明”,这是一种清晰记录NLP系统中使用的数据集的做法。我们建议所有的NLP系统都应该附带着关于训练数据的详细信息,包括所涉及的具体语言种类、相关管理说明(数据是如何选择的,以及为什么等),说话者和注释者的统计信息,等等。当然,仅仅是这些信息本身并不能解决偏差的问题,但它为解决这些问题提供了可能性。

原文链接:
https://thegradient.pub/the-benderrule-on-naming-the-languages-we-study-and-why-it-matters/
(*本文为 AI科技大本营整理文章,转载请微信联系1092722531)

精彩推荐


2019 中国大数据技术大会(BDTC)历经十一载,再度火热来袭!豪华主席阵容及百位技术专家齐聚,15 场精选专题技术和行业论坛,超强干货+技术剖析+行业实践立体解读,深入解析热门技术在行业中的实践落地。【早鸟票】【特惠学生票】限时抢购,扫码了解详情!

640?wx_fmt=png

推荐阅读

深度学习面临天花板,亟需更可信、可靠、安全的第三代AI技术|AI ProCon 2019

学点基本功:机器学习常用损失函数小结

AI落地遭“卡脖子”困境:为什么说联邦学习是解决良方?

10分钟搭建你的第一个图像识别模型 | 附完整代码

阿里披露AI完整布局,飞天AI平台首次亮相

程序员因接外包坐牢 456 天!两万字揭露心酸经历

限时早鸟票 | 2019 中国大数据技术大会(BDTC)超豪华盛宴抢先看!

Pandas中第二好用的函数 | 优雅的Apply

阿里开源物联网操作系统 AliOS Things 3.0 发布,集成平头哥 AI 芯片架构

雷声大雨点小:Bakkt「见光死」了吗?

640?wx_fmt=png

你点的每个“在看”,我都认真当成了喜欢

相关文章:

CUDA Samples: Dot Product

以下CUDA sample是分别用C和CUDA实现的两个非常大的向量实现点积操作&#xff0c;并对其中使用到的CUDA函数进行了解说&#xff0c;各个文件内容如下&#xff1a;common.hpp:#ifndef FBC_CUDA_TEST_COMMON_HPP_ #define FBC_CUDA_TEST_COMMON_HPP_#include<random>templa…

element ui只输入数字校验

注意&#xff1a;圈起来的两个地方&#xff0c;刚开始忘记写typenumber了&#xff0c;导致可以输入‘123abc’这样的&#xff0c;之后加上了就OK了 转载于:https://www.cnblogs.com/samsara-yx/p/10774270.html

对DeDecms之index.php页面的补充

2019独角兽企业重金招聘Python工程师标准>>> 1、301是什么&#xff1f; 其实就是HTTP状态表。就是当用户输入url请求时&#xff0c;服务器的一个反馈状态。 详细链接http://www.cnblogs.com/kunhony/archive/2006/06/16/427305.html 2、common.inc.php和arc.partvi…

OpenCV-Python:K值聚类

关于K聚类&#xff0c;我曾经在一篇博客中提到过&#xff0c;这里简单的做个回顾。 KMeans的步骤以及其他的聚类算法 K-均值是因为它可以发现k个不同的簇&#xff0c;且每个簇的中心采用簇中所含值的均值计算 其他聚类算法&#xff1a;二分K-均值 讲解一下步骤&#xff0c;其实…

CUDA Samples: Julia

以下CUDA sample是分别用C和CUDA实现的绘制Julia集曲线&#xff0c;并对其中使用到的CUDA函数进行了解说&#xff0c;code参考了《GPU高性能编程CUDA实战》一书的第四章&#xff0c;各个文件内容如下&#xff1a;funset.cpp:#include "funset.hpp" #include <rand…

给初学者的深度学习入门指南

从无人驾驶汽车到AlphaGo战胜人类&#xff0c;机器学习成为了当下最热门的技术。而机器学习中一种重要的方法就是深度学习。作为一个有理想的程序员&#xff0c;若是不懂人工智能&#xff08;AI&#xff09;领域中深度学习&#xff08;DL&#xff09;这个超热的技术&#xff0c…

epoll/select

为什么80%的码农都做不了架构师&#xff1f;>>> epoll相对select优点主要有三&#xff1a; 1. select的句柄数目受限&#xff0c;在linux/posix_types.h头文件有这样的声明&#xff1a;#define __FD_SETSIZE 1024 表示select最多同时监听1024个fd。而epoll没…

CUDA Samples: ripple

以下CUDA sample是分别用C和CUDA实现的生成的波纹图像&#xff0c;并对其中使用到的CUDA函数进行了解说&#xff0c;code参考了《GPU高性能编程CUDA实战》一书的第五章&#xff0c;各个文件内容如下&#xff1a;funset.cpp&#xff1a;#include "funset.hpp" #includ…

Python告诉你这些旅游景点好玩、便宜、人又少!

&#xff08;图片由CSDN付费下载自东方IC&#xff09;作者 | 猪哥来源 | 裸睡的猪&#xff08;ID&#xff1a;IT--Pig&#xff09; 2019年国庆马上就要到来&#xff0c;今年来点新花样吧&#xff0c;玩肯定是要去玩的&#xff0c;不然怎么给祖国庆生&#xff1f;那去哪里玩&…

手机APP自动化之uiautomator2 +python3 UI自动化

题记&#xff1a; 之前一直用APPium直到用安卓9.0 发现uiautomatorviewer不支持安卓 9.0&#xff0c;点击截屏按钮 一直报错&#xff0c;百度很久解决方法都不可以&#xff0c;偶然间看见有人推荐&#xff1a;uiautomator2 就尝试使用 发现比appium要简单一些&#xff1b; 下面…

爱上MVC3系列~开发一个站点地图(俗称面包屑)

回到目录 原来早在webform控件时代就有了SiteMap这个东西,而进行MVC时代后,我们也希望有这样一个东西,它为我们提供了不少方便,如很方便的实现页面导航的内容修改,页面导航的样式换肤等. 我的MvcSiteMap主要由实体文件,XML配置文件,C#调用文件组成,当然为了前台使用方便,可以为…

Django web框架-----Django连接现有mysql数据库

第一步&#xff1a;win10下载mysql5.7压缩包配置安装mysql&#xff0c;创建数据库或导入数据库 第二步&#xff1a;win10搭建django2.1.7开发环境&#xff0c;创建项目为mytestsite&#xff0c;创建应用app为quicktool 第三步&#xff1a;编辑与项目同名的文件夹的配置文件&…

CUDA Samples: green ball

以下CUDA sample是分别用C和CUDA实现的生成的绿色的球图像&#xff0c;并对其中使用到的CUDA函数进行了解说&#xff0c;code参考了《GPU高性能编程CUDA实战》一书的第五章&#xff0c;各个文件内容如下&#xff1a;funset.cpp:#include "funset.hpp" #include <r…

ICLR 2020论文投稿2600篇,GNN、BERT、Transformer领跑热门研究方向

&#xff08;图片由AI科技大本营付费下载自视觉中国&#xff09;出品 | AI科技大本营&#xff08;ID&#xff1a;rgznai100&#xff09;2019 年 4&#xff0c;ICLR 2020 论文征集活动开始&#xff0c;截止 9 月 25 日&#xff0c;大会共收到近 2600 篇投稿&#xff0c;相比 ICL…

android环境安装之android4.2安装(转)

准备学习android&#xff0c;着手安装android时听说很麻烦&#xff0c;在网上看了很多android安装说明&#xff0c;都是android比较早的版本&#xff0c;我这里安装了android4.2&#xff0c;简单记录一下。 安装分为几步&#xff0c;首先申明&#xff0c;安装时最好保持网络畅通…

如何创建一个百分百懂你的产品推荐系统 | 深度教程(附代码详解)

&#xff08;图片由AI科技大本营付费下载自视觉中国&#xff09;来源 | 读芯术&#xff08;ID&#xff1a;AI_Discovery&#xff09;你也许每天都会逛一逛电子商务网站&#xff0c;或者从博客、新闻和媒体出版物上阅读大量文章。浏览这些东西的时候&#xff0c;最令读者或者用户…

CUDA Samples: Ray Tracking

以下CUDA sample是分别用C和CUDA实现的生成光线跟踪图像&#xff0c;并对其中使用到的CUDA函数进行了解说&#xff0c;code参考了《GPU高性能编程CUDA实战》一书的第六章&#xff0c;CUDA各实现包括了使用常量内存和不使用常量内存两种方法&#xff0c;各个文件内容如下&#x…

从产品的适用性以及费用方面考虑

物联宇手持终端在对比性价比高低应该从产品的适用性以及费用方面考虑。不过在选择时不一定要整机&#xff0c;可以按实际需求让厂商定做和行业需要功能的手持机&#xff0c;这样有针对性的定制更能体现整体的性价效率。转载于:https://blog.51cto.com/14222294/2386642

杨学海:跨境电商新通道-进口保税直邮模式解析

为什么80%的码农都做不了架构师&#xff1f;>>> 杨学海&#xff1a;跨境电商新通道-进口保税直邮模式解析 广州威云供应链管理公司总经理杨学海在第九届中国中小企业电子商务大会上表示&#xff0c;其品牌海外通要为跨境电子商务提供一个更加快速、便捷、低成本&am…

CUDA Samples: heat conduction(模拟热传导)

以下CUDA sample是分别用C和CUDA实现的模拟热传导生成的图像&#xff0c;并对其中使用到的CUDA函数进行了解说&#xff0c;code参考了《GPU高性能编程CUDA实战》一书的第七章&#xff0c;各个文件内容如下&#xff1a;funset.cpp:#include "funset.hpp" #include <…

2020应届生:今年秋招也太太太太太难了吧!

讲个简短的鬼故事&#xff1a;2020秋招已经过去一大半了&#xff01;回顾9月&#xff0c;你可能以为秋招还有很多机会&#xff0c;还有大把时间准备。然而各大名企的实际进度却不等人。阿里巴巴9月12日网申截止&#xff1b;腾讯9月15日网申截止&#xff1b;宝洁9月20日关闭网申…

PDF文字怎么编辑,PDF文档编辑方法

有时候遇到PDF文件不是自己制作的或者是制作的有点匆忙&#xff0c;会有文字遗漏或者打错的时候&#xff0c;我们使用就会有点麻烦就需要把文件中的文字进行编辑修改&#xff0c;那么具体怎么做呢&#xff1f;小伙伴们都挺好奇吧&#xff0c;今天就来跟大家分享一下。操作软件&…

浏览器是怎样工作的:渲染引擎,HTML解析

2019独角兽企业重金招聘Python工程师标准>>> 渲染引擎 渲染引擎的职责是……渲染&#xff0c;也就是把请求的内容显示到浏览器屏幕上。 默认情况下渲染引擎可以显示HTML&#xff0c;XML文档以及图片。 通过插件&#xff08;浏览器扩展&#xff09;它可以显示其它类型…

CUDA Samples: Calculate Histogram(atomicAdd)

以下CUDA sample是分别用C和CUDA实现的计算一维直方图&#xff0c;并对其中使用到的CUDA函数进行了解说&#xff0c;code参考了《GPU高性能编程CUDA实战》一书的第九章&#xff0c;各个文件内容如下&#xff1a;funset.cpp:#include "funset.hpp" #include <rando…

glusterfs基本操作

基本操作 集群节点 扩展集群 1,必须做hosts域名解析其实通过IP地址也能做集群,但是不建议这种方式. 192.168.1.210 glusterfs04 2, 添加节点到集群中,在当前所有集群节点中都需要执行 gluster peer probe glusterfs04 3,查看对等状态 gluster peer status 查看集群节点信息 gl…

100多次竞赛后,他研发了一个几乎可以解决所有机器学习问题的框架

&#xff08;图片由AI科技大本营付费下载自视觉中国&#xff09;作者 | XI YANG来源 | 知乎&#xff08;机器学习之路&#xff09;一个叫 Abhishek Thakur 的数据科学家&#xff0c;在他的 Linkedin 发表了一篇文章 Approaching (Almost) Any Machine Learning Problem&#xf…

mysql中char与varchar的区别分析(补充一句,int和integer没区别)

转自&#xff1a;http://www.jb51.net/article/23575.htm 在mysql教程中char与varchar的区别呢&#xff0c;都是用来存储字符串的&#xff0c;只是他们的保存方式不一样罢了&#xff0c;char有固定的长度&#xff0c;而varchar属于可变长的字符类型。har与varchar的区别 &#…

CUDA Samples: Streams' usage

以下CUDA sample是分别用C和CUDA实现的流的使用code&#xff0c;并对其中使用到的CUDA函数进行了解说&#xff0c;code参考了《GPU高性能编程CUDA实战》一书的第十章&#xff0c;各个文件内容如下&#xff1a;funset.cpp:#include "funset.hpp" #include <random&…

你的神经网络不起作用的37个理由

&#xff08;图片由AI科技大本营付费下载自视觉中国&#xff09;作者 | Slav Ivanov译者 | 吴金笛校对 | 丁楠雅、林亦霖编辑 | 王菁来源 | 数据派THU&#xff08;ID&#xff1a;DatapiTHU&#xff09;【导语】本文列举了在搭建神经网络过程中的37个易错点&#xff0c;并给出了…

菜鸟Vue学习笔记(三)

菜鸟Vue学习笔记&#xff08;三&#xff09;本周使用了Vue来操作表单&#xff0c;接下来说下Vue中双向绑定表单元素的用法。Vue中双向绑定是使用的v-model&#xff0c;所谓的双向绑定即改变变量的值&#xff0c;表单元素的值也会改变&#xff0c;同样的&#xff0c;改变表单元素…