当前位置: 首页 > 编程日记 > 正文

ACL最佳论文提出最新NLP模型测试方法,最佳论文提名也不可小觑

译者 | 刘畅

出品 | AI科技大本营(ID:rgznai100)

导读:近日,ACL 2020公布了最佳论文奖,另有两篇最佳论文荣誉提名奖也各自提出了解决NLP领域问题的创新方法。

最佳论文:Beyond Accuracy: Behavioral Testing of NLP Models with CheckList

论文链接:https://arxiv.org/abs/2005.04118

作者:来自微软、华盛顿大学、加州大学尔湾分校

尽管测量模型的准确性一直是评估模型泛化能力的主要方法,但它通常会高估NLP模型的性能。而评估模型的替代方法则着重于关注单个任务或特定行为。本文受软件工程中行为测试原理的启发,作者引入了一种与任务无关的测试NLP模型的方法--CheckList。CheckList包含有助于全面测试的通用语言功能和测试类型矩阵,以及用于快速生成大量不同测试案例的软件工具。本文通过测试三个任务说明了CheckList的实用性,鉴别出了商业模型和SOTA模型中的关键问题。例如,在用户研究中,负责商业化情绪分析模型的团队经过广泛的测试,发现了模型中新的可操作的错误。在另一项用户研究中,使用CheckList的NLP从业人员创建了两倍的测试用例,发现的错误几乎是没有使用它的三倍。

最佳论文荣誉提名:Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics

论文链接:https://arxiv.org/abs/2006.06264

作者:墨尔本大学计算与信息系统学院

自动化指标是开发和评估机器翻译系统的基础。判断自动化度量标准是否与人类评估的黄金标准相一致不是一个简单的问题。本文表明,当前的指标评估方法对用于评估的翻译系统非常敏感,尤其是存在异常值时,这通常会导致对评价效果产生错误的自信判断。

最终,本文研究了成对系统排名方法,开发了一种在自动度量标准下以人为判断为阈值提高性能的方法,该方法可以量化所引起的I型错误与II型错误,即可以接受的人类评判质量差异,以及不能接受的人类评判差异。总之,这些发现对机器翻译中的度量评估和系统性能评估的协议进行了改进。

最佳论文荣誉提名:Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

论文链接:https://arxiv.org/abs/2004.10964

作者:西雅图Allen人工智能研究所、华盛顿大学Allen计算机科学与工程学院

对来源广泛的文本进行预训练的语言模型构建起了当今NLP的基础。由于这类模型的成功,本文研究了将预训练的模型定制为目标任务的领域是否仍然有帮助。本文提出了一项针对四个领域(生物医学和计算机科学出版物,新闻和评论)和八个分类任务的研究,结果表明在领域内进行预训练的第二阶段(域适应性预训练)可以在高和低两个计算资源条件下,提高模型的性能。此外,在进行域自适应的预训练之后,目标任务的未标记数据(任务自适应的预训练)也可以提高模型性能。


最后,本文表明,使用简单的数据选择策略是一种有效的用于扩充任务语料库的方法,尤其是在可能没有用于域自适应预训练时。总体而言,作者发现多阶段自适应预训练可大大提高任务性能。

推荐阅读
  • 干货!仅有 100k 参数的高效显著性检测方法

  • 阿里巴巴副总裁司罗:达摩院如何搭建NLP技术体系?

  • 重磅!CSDN 发布「AI开源贡献奖Top5」「AI新锐公司奖Top10」「AI优秀案例奖Top30」三大榜单

  • 马斯克、李彦宏、姚期智等云端纵论AI,他们都说了什么?

  • Python轻松搞定Excel中的20个常用操作

  • 厉害!国内大学生计算机编程第一人,一人挑战一个队,百度最年轻 T10,现创业自动驾驶

  • Balancer因通缩代币STA遭遇闪电贷攻击,价值50万美元资产被黑

你点的每个“在看”,我都认真当成了AI

相关文章:

LVM逻辑卷的缩减与删除,LVM逻辑卷快照,btrfs文件系统,网络管理

逻辑卷缩减缩减的时候要注意缩减的空间不要超过文件系统的空间,不然缩减的时候会损坏文件系统。第一步要先取消挂载(必须)第二部检查文件完整性(必须)e2fsck -f /dev/vg0/lv0第三部文件系统缩减,先缩减文件…

屏掉F5刷新的办法

<body οnkeydοwn"KeyDown()"> function KeyDown(){ //屏蔽退格删除键,屏蔽 F5 刷新键,Ctrl R if ((event.keyCode116)||(event.ctrlKey && event.keyCode82)) { event.keyCode0; event.returnValuefalse; } }

WAIC汇聚全球顶级科学家,畅谈人工智能的未来挑战与突破

7月9日&#xff0c;2020世界人工智能大会&#xff08;WAIC&#xff09;正式拉开帷幕。当天下午&#xff0c;2020世界人工智能大会科学前沿全体会议召开&#xff0c;作为今年WAIC唯一一场聚焦前沿科技的大会&#xff0c;邀请了世界范围内最顶级的AI专家探讨技术趋势。其中&#…

ant学习笔记之(ant执行命令的详细参数和Ant自带的系统属性)

2019独角兽企业重金招聘Python工程师标准>>> 一&#xff1a;ant执行命令的详细参数 -buildfile<file>,-file<file>,-f<file> :要指定执行构件的的位置和名称。 -find<file>,-s<file>: 查找构件文件&#xff0c;并执行找到的构件文件。…

mipi和dsi

转自&#xff1a; http://blog.csdn.net/longxiaowu/article/details/24410021 一、MIPI MIPI&#xff08;移动行业处理器接口&#xff09;是Mobile Industry Processor Interface的缩写。MIPI&#xff08;移动行业处理器接口&#xff09;是MIPI联盟发起的为移动应用处理器制定…

在asp.net中调用Office来制作各种(3D)统计图

作者&#xff1a;未知 由于本文网上多处见到 对于谁是作者 无法肯定1、下载owc11 COM组件 http://www.microsoft.com/downloads/details.aspx?FamilyID7287252c-402e-4f72-97a5-e0fd290d4b76&displaylangen 2、注册owc11 在工程中添加 C:/Program Files/Common File…

个人谈谈seo

为什么80%的码农都做不了架构师&#xff1f;>>> 我不知道大家有没有做过seo的工作。以前我是一各技术人员。纯技术开发或技术管理人员。基本上也没有接触过seo的相关工作&#xff0c;整天在写代码或看别人的代码 。干了六年只见他们都在谈友情链接。做推广&#xf…

“编程能力差的程序员,90%输在这事上!”谷歌AI专家:都是瞎努力!

Google 人工智能开发者专家彭靖田老师说——超90%的程序员在初学Python 人工智能时&#xff0c;都会遇到下面3个问题&#xff1a;1.想学人工智能&#xff0c;但不知从何学起&#xff0c;也不知道该选择什么方向...2.Python语法、机器学习/深度学习框架、算法都能看懂&#xff0…

[译]JavaScript中,{}+{}等于多少?

最近,Gary Bernhardt在一个简短的演讲视频“Wat”中指出了一个有趣的JavaScript怪癖:在把对象和数组混合相加时,会得到一些你意想不到的结果.本篇文章会依次讲解这些计算结果是如何得出的. 在JavaScript中,加法的规则其实很简单,只有两种情况:你只能把数字和数字相加,或者字符串…

大数量查询分页显示

微软的解决办法 using System; using System.Data; using System.Data.SqlClient; using System.Drawing; using System.Windows.Forms; public class PagingSample: Form { // Form controls. Button prevBtn new Button(); Button nextBtn new Button(); static DataGrid …

Sep 26 09:22:41 ck01 kernel: Buffer I/O error on device sda2, logical block 2

错误 kernel: sd 0:2:0:0: SCSI error: return code kernel: end_request: I/O error, dev sda, sector 2308509 kernel: Buffer I/O error on device sda2, logical block 2 kernel: Buffer I/O error on device sda2, logical block 2 硬盘扇区问题&#xff1f; 更换一块硬盘…

启信宝CEO陈青山:AI+大数据驱动下的金融新生态

人工智能怎样潜移默化影响金融业务&#xff1f;合合信息联合创始人、启信宝CEO陈青山在2020世界人工智能大会云端峰会.未来金融论坛上做了“AI大数据&#xff0c;共创金融新生态”的主题演讲&#xff0c;讲述了如何通过数字化构建一个虚拟世界&#xff0c;协助金融类企业建立新…

新手安装ruby on rails(ror)的成功必备手册

2019独角兽企业重金招聘Python工程师标准>>> 如何快速正确的安装 Ruby, Rails 运行环境 每一位使用windows系统来进行ROR开发项目的都是这个世界上折翼的天使。对于新入门的开发者&#xff0c;如何在windows系统上安装 Ruby, Ruby Gems 和 Rails 的运行环境可能会是…

Logback学习笔记1

Logback介绍 Logback 分为三个模块&#xff1a;Core、Classic 和 Access。Core模块是其他两个模块的基础。 Classic模块扩展了core模块。 Classic模块相当于log4j的显著改进版。Logback-classic 直接实现了 SLF4J API。 要引入logback&#xff0c;由于Logback-classic依赖slf4j…

微软亚洲研究院副院长刘铁岩:AI如何助力节能减排?

7月10日&#xff0c;在微软举办的WAIC●2020人工智能予力永续未来论坛&#xff0c;微软亚洲研究院副院长刘铁岩围绕 AI 在节能减排领域的应用&#xff0c;探讨了如何推进整个社会的可持续发展。 刘铁岩指出&#xff0c;人工智能在助力节能环保方面具有巨大潜力。例如&#xff…

如何在域控制器上安装asp.net?

作者&#xff1a;网际浪子专栏&#xff08;曾用名littlehb&#xff09; http://blog.csdn.net/littlehb/在域控制器或备份域控制器上安装 Microsoft Visual Studio .NET 或 Microsoft .NET 框架后&#xff0c;如果您尝试运行 ASP.NET 应用程序&#xff0c;则浏览器…

前端思想实现:面向UI编程_____前端框架设计开发

引子&#xff0c;我去小说看多了&#xff0c;写博客竟然写引子了&#xff01;&#xff01;&#xff01;不过&#xff0c;没引子不知道怎么写了。言归正传吧&#xff0c;前端这个职业&#xff0c;也就这几年刚刚火起来的职业&#xff0c;以前那个混乱的年代&#xff0c;前端要么…

如何检查当TextBox设置为多行时是不是超长了?

<asp:RegularExpressionValidator id"revTextBox1" runat"server" ForeColor"Red" Display"Dynamic" ControlToValidate"textBox1" ValidationExpression"(/w|/W){1,100}">格式错误-只能输入不超过100个字符…

仅用2年过渡到自研ARM芯片,苹果的底气从何而来?

作者 | Steven Sinofsky译者 | 弯月&#xff0c;责编 | 屠敏题图 | 东方 IC出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;今年 WWDC 2020 上&#xff0c;苹果宣布自研 ARM 芯片——Apple Silicon&#xff0c;对于苹果而言&#xff0c;Apple Silicon很重要&#…

从“创业输家”到“创智赢家”

年轻就是创业的资本&#xff0c;但同时还要不怕失败&#xff0c;经得起挫折&#xff01;”在上海财经大学的演讲厅内&#xff0c;彭震以自己亲身的经历&#xff0c;向在场的学生们介绍了自己创业背后的艰辛。彭震&#xff0c;现任项丰投资公司董事长&#xff0c;作为首届“ 创智…

2.正则表达式

在计算机科学中&#xff0c;正则表达式是这样解释的&#xff1a;它是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多文本编辑器或其他工具里&#xff0c;正则表达式通常被用来检索和/或替换那些符合某个模式的文本内容。许多程序设计语言都支持利用…

基于监督学习+自监督学习的智能抠图,精确到发丝 | CVPR 2020

来源 | AI算法与图像处理&#xff08;ID:AI_study&#xff09;华盛顿大学的研究者最近发表的论文在CVPR 2020提供了一个新的和简单的智能抠图方法。你可以在家里做这些日常设置&#xff0c;使用固定或手持相机。我们的方法也是最先进的&#xff0c;给出的输出可比专业的结果。在…

安装Jpype

1、下载JPype-0.5.4.2 2、 python setup.py install error: gcc -pthread -fno-strict-aliasing -DNDEBUG -O2 -g -pipe -Wall -Wp,-D_FORTIFY_SOURCE2 -fexceptions -fstack-protector --paramssp-buffer-size4 -m64 -mtunegeneric -D_GNU_SOURCE -fPIC -fPIC -I/usr/lib/jvm…

SQL SERVER中带参数的返回

作者&#xff1a;网际浪子专栏&#xff08;曾用名littlehb&#xff09; http://blog.csdn.net/littlehb/ CREATE PROCEDURE LoginUser loginUN char(50) OUTPUT, loginPW char(40)ASif loginPW (select [password] from users where usernameloginUN) return 0;else ret…

Android Studio 编译单个module

前期自己要把gradle环境变量配置好 在Terminal中gradle命令行编译apk 输入gradle assembleRelease 会编译全部module编译单个modulecd ./xiruan //xiruan是module的名字 //意思是进入module目录gradle assembleRelease //编译出自己签名的apk //签名环境也要配置好gradle ass…

linux下文件字符集转化实战篇

linux下文件字符集转化实战篇------------------------------------------为什么转换编码&#xff0c;起因&#xff1a;分析应用程序日志&#xff0c;文件编码格式gb2312&#xff08;含中文字符&#xff09;&#xff0c;通过linux shell脚本从日志中提取出需要的字段并生成有固…

如何得到数据库中所有表字段及字段中文描述

如何得到数据库中所有表字段及字段中文描述以下资料,通过csdn的一位师兄从SQL版主那得到:sql中SELECT (case when a.colorder1 then d.name else end) N表名, a.colorder N字段序号, a.name N字段名, (case when COLUMNPROPERTY( a.id,a.name,IsIdentity)1 then √else end)…

它估值25亿!被马云领投,是华为“老战友”,网友:也许股价能超茅台!

最近一条新闻被炒的沸沸扬扬&#xff1a;十年以来中国最大IPO&#xff0c;中芯国际将融资532亿元&#xff01;何为IPO&#xff1f;翻译即为一家公司第一次向全社会公开售出它的股份。买的人越多&#xff0c;代表着社会对其信心越大。为什么2020年&#xff0c;能爆发这样1场最大…

改變人生的21種好習慣

當一個人生活枯燥的時候&#xff0c; 他忘了用心體會是一種習慣。 當一個人覺得人生乏味的時候&#xff0c; 他忘了培養幽默是一種習慣。 當一個人體力日差的時候&#xff0c; 他忘了運動建身是一種習慣。 當一個人工作疲憊的時候&#xff0c; 他忘了認真休息是一種習慣。 當一…

Python 编程语言的核心是什么?

作者 | Brett Cannon译者 | 弯月&#xff0c;责编 | 王晓曼头图 | CSDN下载自视觉中国出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;为什么要问这个问题&#xff1f;我想要用Python实现WebAssembly&#xff0c;这并不是什么秘密。这不仅可以让Python进入浏览器&a…