当前位置: 首页 > 编程日记 > 正文

夺得WSDM Cup 2020大赛金牌的这份参赛方案,速来get!

近日,在美国休斯敦闭幕的第13届网络搜索与数据挖掘国际会议(WSDM 2020)上,华为云语音语义创新Lab带领的联合团队,摘得WSDM Cup 2020大赛“论文引用意图识别任务”金牌(Gold Medal)。

WSDM被誉为全球信息检索领域最有影响力也最权威的会议之一,会议关注社交网络上的搜索与数据挖掘,尤其关注搜索与数据挖掘模型、算法设计与分析、产业应用和提升准确性与效果的实验分析。今年已经是WSDM的第十三届会议。

本文将详细介绍本次获奖的解决方案。(文章转载自华为云社区https://bbs.huaweicloud.com/blogs/149716)

1、背景

几个世纪以来,社会技术进步的关键在于科学家之间坦诚的学术交流。新发现和新理论在已发表的文章中公开分发和讨论,有影响力的贡献则通常被研究界以引文的形式认可。然而,随着科研经费申请竞争日趋激烈,越来越多的人把学术研究当成一种资源争夺的手段,而不是单纯为了推动知识进步。部分期刊作者“被迫”在特定期刊中引用相关文章,以提高期刊的影响因子,而论文审稿人也只能增加期刊的引用次数或h指数。这些行为是对科学家和技术人员所要求的最高诚信的冒犯,如果放任这种情况发展,可能会破坏公众的信任并阻碍科学技术的未来发展。因此,本次WSDM Cup 2020赛题之一将重点放在识别作者的引文意图:要求参赛者开发一种系统,该系统可以识别学术文章中给定段落的引文意图并检索相关内容。

华为云语音语义创新Lab在自然语言处理领域有着全栈的技术积累,包括自然语言处理基础中的分词、句法解析,自然语言理解中的情感分析、文本分类、语义匹配,自然语言生成,对话机器人,知识图谱等领域。其中和本次比赛最相关的技术是语义匹配技术。Xiong团队通过对赛题任务进行分析,针对该问题制定了一种“整体召回+重排+集成”的方案,该方案以轻量化的文本相似度计算方法(如BM25等)对文章进行召回,然后基于深度学习的预训练语言模型BERT等进行重排,最后通过模型融合进行集成。

2、赛题介绍

本次比赛将提供一个论文库(约含80万篇论文),同时提供对论文的描述段落,来自论文中对同类研究的介绍。参赛选手需要为描述段落匹配三篇最相关的论文。

例子:

描述:

An efficient implementation based on BERT [1] and graph neural network (GNN) [2] is introduced.

相关论文:

[1] BERT: Pre-training of deep bidirectional transformers for language understanding.

[2] Relational inductive biases, deep learning, and graph networks.

评测方案:

3、数据分析

本次赛题共给出80多万条候选论文,6万多条训练样本和3万多条本测试样本,候选论文包含paper_id,title,abstract,journal,keyword,year这六个字段的信息,训练样本包含description_id,paper_id,description_text这三个字段的信息,而测试数据则给出description_id和description_text两个字段,需要匹配出相应的paper_id。

我们对数据中候选论文的title,abstract以及描述文本的长度做了一些统计分析,如图1所示,从图中我们可以看到文本长度都比较长,并且针对我们后续的单模型,我们将模型最大长度从300增加到512后,性能提升了大约1%。

图1 候选论文的Title(a),Abstract(b)以及描述文本(c)的长度分布

4、整体方案

我们方案的整体架构如图2所示,整体方案分为四个部分:数据处理,候选论文的召回,候选论文的重排以及模型融合。

图2 整体方案架构(部分图引自[5])

4.1 数据处理

通过观察数据我们发现,在标题给出的描述语句中,有许多相同的描述文本,但是参考标记的位置却不同。也就是说,在同一篇文章中,不同的句子引用了不同的论文。为此,我们抽取句子中引用标记位置处的语句作为新的描述语句生成候选集。

如表1所示,我们选取描述中[[**##**]]之前的句子作为描述关键句。

表1 描述关键句生成

4.2 候选论文召回

如图3所示,我们运用BM25和TF-IDF来进行论文的召回,选取BM25召回的前80篇论文和TF-IDF召回的前20篇论文构成并集组成最终的召回论文。

图3 召回示意图

4.3候选论文重排

在本方案中,我们用BERT模型作为基础模型,BERT是一种能在基于查询的文章重排任务中取得良好性能的语义表示模型。通过观察数据发现,论文主要数据生物医学领域,于是我们聚焦到采用生物医学领域数据训练预训练模型。然后将查询与描述字段以句子对的形式输入进BERT模型进行训练。我们的实验表明,在该任务上,单个的BioBERT的性能要比BERT性能高5个百分点。如图4为BioBERT的结构图。

图4 BioBERT结构图 (图引自[6])

4.4 模型融合

在模型融合的过程中,我们运用了6种共9个经过科学和生物医药语料库训练的预训练模型分别为:BioBERT_v1.1* 3, BioBERT_v1.0_PubMed_PMC * 2, BioBERT_v1.0_PubMed* 1,BioBERT_v1.0_PMC * 1, BioBERT_dish*1,SciBERT* 1。他们的单模型在该任务中的性能如表2所示。

表2 单模型性能

然后我们对单模型输出的概率结果进行blending操作如图5所示,得到最后的模型结果,其比最好的单模型结果提升了1个百分点左右。

图5 模型融合

5、总结与展望

本文主要对比赛中所使用的关键技术进行了介绍,如数据处理,候选论文的召回与重排,模型融合等。在比赛中使用专有领域训练后的预训练模型较通用领域预训练模型效果有较大的提升。由于比赛时间的限制,许多方法还没来得及试验,比如在比赛中由于正负样本不平衡,导致模型训练结果不理想,可以合理的使用上采样或下采样来使样本达到相对平衡,提升模型训练效果。

参考文献

[1] Yang W, Zhang H, Lin J. Simple applications of BERT for ad hoc document

retrieval[J]. arXiv preprint arXiv:1903.10972, 2019.

[2] Gupta V, Chinnakotla M, Shrivastava M. Retrieve and re-rank: A simple and

effective IR approach to simple question answering over knowledge

graphs[C]//Proceedings of the First Workshop on Fact Extraction and

VERification (FEVER). 2018: 22-27.

[3] Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word

representations[J]. arXiv preprint arXiv:1802.05365, 2018.

[4] Radford A, Wu J, Child R, et al. Language models are unsupervised multitask

learners[J]. OpenAI Blog, 2019, 1(8): 9.

[5] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. (2018)

BERT: Pre-training of Deep Bidirectional Transformers for Language

Understanding. arXiv preprint arXiv:1810.04805,.

[6] Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim,

Chan Ho So, Jaewoo Kang,(2019) BioBERT: a pre-trained biomedical language

representation model for biomedical text mining, Bioinformatics,

[7] Iz Beltagy, Kyle Lo, Arman Cohan. (2019) SciBERT: A Pretrained Language

Model for Scientific Text, arXiv preprint arXiv:1903.10676SciBERT: A

Pretrained Language Model for Scientific Text, arXiv preprint arXiv:1903.10676,

2019.

[8] Nogueira R, Cho K.(2019) Passage Re-ranking with BERT. arXiv preprint

arXiv:1901.04085.

[9] Alsentzer E, Murphy J R, Boag W, et al. Publicly available clinical BERT

embeddings[J]. arXiv preprint arXiv:1904.03323, 2019.

【end】

精彩推荐

华为开发者大会2020(Cloud)将于2020年3月27日-28日通过华为云以网上直播的方式呈现,这是华为面向ICT(信息与通信)领域全球开发者的年度顶级旗舰活动。大会旨在搭建一个全球性的交流和实践平台,开放华为30年积累的ICT技术和能力,以“鲲鹏+昇腾”硬核双引擎,为开发者提供澎湃动力,改变世界,变不可能为可能。我们期待与你在一起,梦飞扬!

在2月28日即将启动的华为开发者大会2020(Cloud)DevRun Live技术沙龙直播首秀中,将介绍如何基于华为云AI平台ModelArts+HiLens开发口罩智能识别方案,从数据准备、模型训练开发到应用部署等端到端的介绍整个方案的AI开发过程。

想了解更多,不妨点击下方“阅读原文”哦~

相关文章:

bug诞生记——信号(signal)处理导致死锁

这个bug源于项目中一个诡异的现象:代码层面没有明显的锁的问题,但是执行时发生了死锁一样的表现。我把业务逻辑简化为:父进程一直维持一个子进程。(转载请指明出于breaksoftware的csdn博客) 首先我们定义一个结构体Pro…

Linux下SVN服务器支持Apache的http和svnserve独立服务器

2019独角兽企业重金招聘Python工程师标准>>> 说明 服务器操作系统:CentOS 6.6 关闭防火墙,SElinux 实现 1、在服务器上安装配置SVN服务; 2、SVN服务支持svnserve独立服务模式访问; 3、SVN服务支持Apache的http模式访问…

AWS攻略——使用CodeCommit托管代码

除了我们熟悉的github,各大云厂商也有自己的代码托管服务。本文讲解如何在Amazon的CodeCommit中托管代码。(转载请指明出于breaksoftware的csdn博客) 根账户登录 AWS有两种账户登录界面。 IAM账户登录界面 根账户登录界面我们先使用根…

使用alterMIME实现添加message footer功能

1. 安装alterMIME tar zxvf altermime-0.3.8.tar.gz cd altermin3-0.3.8 make make install altermine将被编译安装到/usr/local/bin/2. 使用必备条件:一个运行且配置正常的邮件服务器3. 配置AlterMIME3.1 为altermine创建一个系统帐号,如下&#x…

Facebook最新研究:无需额外训练AI,即可加速NLP任务

作者 | KYLE WIGGERS译者 | Kolen出品 | AI科技大本营(ID:rgznai100)自然语言模型通常要解决两个难题:将句子前缀映射到固定大小的表示形式,并使用这些表示形式来预测文本中的下一个单词。在最近的一篇论文(https://ar…

PgSQL · 特性分析 · full page write 机制

PG默认每个page的大小为8K,PG数据页写入是以page为单位,但是在断电等情况下,操作系统往往不能保证单个page原子地写入磁盘,这样就极有可能导致部分数据块只写到4K(操作系统是一般以4K为单位),这些“部分写”的页面包含…

局域网DVD yum源的制作

今天在网上溜达,看到这篇文章不错,于是就转载过来,感谢原作者的辛苦劳动.源地址:http://blog.chinaunix.net/u3/94782/showart_1953260.html一&#xff1a;两台计算机做实验<?xml:namespace prefix o ns "urn:schemas-microsoft-com:office:office" />1&…

AWS攻略——使用S3托管静态网页

在AWS上有很多部署静态网页的方式&#xff0c;比如使用EC2或者Lightsail。但是不管使用上述哪种方案&#xff0c;都需要预先部署如Nignx或者Apache等Http服务。这对纯前端同学来说可能有点复杂&#xff0c;而AWS提供了更简单的部署方式——只需要提供静态网页文件的“S3网页托管…

2020年涨薪26-30%,能实现吗?18%数据科学家是这么期待的

作者丨Big Cloud编译 | 武明利&#xff0c;责编丨Carol出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;本报告将深入探讨亚太地区各个背景、不同年龄和不同地点的专业人员对2019/2020年的见解。今年贡献最大的地区来自新加坡和澳大利亚。因为这些是我们最大的数据点&…

AWS攻略——使用CodeBuild进行自动化构建和部署静态网页

首先声明下&#xff0c;使用“CodeBuild”部署并不是“正统”的方案&#xff0c;因为AWS提供了“CodeDeploy”。如果不希望引入太多基础设施&#xff0c;可以考虑直接使用CodeBuild进行部署。&#xff08;转载请指明出于breaksoftware的csdn博客&#xff09; 创建构建项目 kro…

我们需要什么样的数据架构?

作者 | Stephanie shen编译 | 火火酱&#xff0c;责编丨Carol出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;在大数据和数据科学的新时代&#xff0c;对企业而言&#xff0c;一定要有与业务流程保持一致的中心化数据架构&#xff0c;该架构能随业务增长而扩展&#…

Windows Server 2008 R2 之二十九故障转移群集(一)(

关于Windows Server 2008故障转移群集见http://technet.microsoft.com/zh-cn/library/cc732488(WS.10).aspx实验环境&#xff1a;两台已安装好Windows Server 2008 R2的计算机R2DC01、R2DC02,均为DC、DNS&#xff0c;域名为HBYCRSJ.COM,均有两块网卡。分别为心跳网络和本地连接…

基于多核DSP处理器DM8168的视频处理方法

摘要&#xff1a;随着1080P高清视频以及4K超高清晰视频的普及和应用&#xff0c;基于传统单核DSP处理器的视频信息处理已有些力不从心。为此TI公司推出了一款专门用于高清视频处理的多核DSP处理器&#xff0c;它拥有4个不同类型的处理器&#xff0c;使得视频处理达到了一个更高…

AWS攻略——使用CodeBuild进行自动化构建和部署Lambda(Python)

Aws Lambda是Amazon推出的“无服务架构”服务。我们只需要简单的上传代码&#xff0c;做些简单的配置&#xff0c;便可以使用。而且它是按运行时间收费&#xff0c;这对于低频访问的服务来说很划算。具体的介绍可以常见aws lambda的官网。&#xff08;转载请指明出于breaksoftw…

vmware 添加 磁盘 空间

VMware安装linux的时候默认分配的空间是4GB&#xff0c;可能会不够&#xff0c;这个时候可以通过增加一块虚拟硬盘&#xff0c;将/usr或其他内容拷贝过去解决这个问题&#xff1a;创建虚拟硬盘1、关闭VM中正在运行的虚拟系统&#xff1b;2、在虚拟系统名称上点右键&#xff0d;…

Python爬取考研数据:所有985高校、六成211高校均可调剂

又到了一年一度的考研出分时间啦&#xff0c;近期有不少朋友让笔者帮他们分析如何提前做好调剂。复试与调剂总是密不可分。今天&#xff0c;给大家分享一些调剂的重要知识点&#xff0c;希望你在调剂的时候&#xff0c;能明白调剂的趋势与规则。也许&#xff0c;大家对于调剂的…

iOS审核秘籍】提审资源检查大法

iOS审核秘籍】提审资源检查大法 2015/11/27阅读&#xff08;752&#xff09;评论&#xff08;1&#xff09;收藏&#xff08;6&#xff09;加入人人都是产品经理【起点学院】产品经理实战训练营&#xff0c;BAT产品总监手把手带你学产品点此查看详情&#xff01; 本篇主要是提审…

谈一次单元测试驱动代码重构

目前团队并没有QA岗&#xff0c;而且在很长一段时间内&#xff0c;可能也不会设立QA岗&#xff0c;所以我们需要RD保证代码的质量。而鉴于人类天生的“惰性”&#xff0c;很多时候质量完全依赖于作者的能力以及职业素质。于是我在团队内推动单元测试&#xff0c;并要求提升测试…

新机会在广州拓波

公司简介广州拓波软件科技有限公司的前身为 Turbomail工作室&#xff0c;由广州华工信息软件&#xff08;集团&#xff09;有限公司于2002 年成立&#xff0c;是一家专业研发电子邮件系统、企业即时通信和企业短信的开发组织&#xff0c;2005年TurboMail工作室正式发布1.0.2版本…

关于正则表达式,这篇都讲清楚了

作者 | 猪哥来源 | 裸睡的猪&#xff08;ID:rgznai100&#xff09;目前越来越多的网站、编辑器、编程语言都已支持一种叫“正则表达式”的字符串查找“公式”&#xff0c;有过编程经验的同学都应该了解正则表达式&#xff08;Regular Expression 简写regex&#xff09;是什么东…

MJExtension简介

MJExtension简介 前言&#xff1a;关于MJExtension更多的使用&#xff0c;可以到github网站上根据详述学习。 字典转模型比较流行的第三方框架 Mantle所有模型都必须继承自MTModel JSONModel所有模型都必须继承自JSONModel MJExtension不需要强制继承任何其他类 框架需要考虑的…

Discuz!常用函数解析(续)

/*** 产生随机码* param $length - 要多长* param $numberic - 数字还是字符串* return 返回字符串*/function random($length, $numeric 0) {PHP_VERSION < 4.2.0 && mt_srand((double)microtime() * 1000000);if($numeric) {$hash sprintf(%0.$length.d, mt_ran…

基于新型忆阻器的存内计算原理、研究和挑战

作者 | 林钰登、高滨、王小虎、钱鹤、吴华强来源 | 《微纳电子与智能制造》期刊引言过去半个世纪以来 &#xff0c;芯片计算性能的提高主要依赖于场效应晶体管尺寸的缩小。随着特征尺寸的减小 &#xff0c;器件的制备成本和制造工艺难度不断增加 &#xff0c;芯 片性能的提升愈…

3、JPA一些常用的注解

常用注解有下面这些&#xff1a; ①&#xff1a;Entity、Table、Id、GeneratedValue、Column、Basic ②&#xff1a;Transient 用于忽略某个属性&#xff0c;而不对该属性进行持久化操作 ③&#xff1a;Temporal 一、第①组注解 Entity 标注用于实体类声明语句之前&#xff0c…

实战域树部署,Active Directory系列之十九

实战子域部署<?xml:namespace prefix o ns "urn:schemas-microsoft-com:office:office" />域树是Active Directory针对NT4的传统域模型所进行的重要改进。在NT4时代的域模型中&#xff0c;每个域都要使用没有层次结构的NETBIOS名称&#xff0c;而且域和域之…

黑科技抗疫,Python开发者大集结!

2020年初&#xff0c;突如其来的新型冠状病毒肺炎打乱了所有人的节奏&#xff0c;但社会各界迅速团结起来&#xff0c;为抗击疫情贡献出自己的力量。除了捐款捐物外&#xff0c;很多科技公司运用5G、大数据、AI、云计算等新互联网技术&#xff0c;以科技的手段助力抗疫&#xf…

Inplayable技术分享

Inplayable技术分享运维设计模式Web安全工具语言python运维 《aws lambda 通过codebuild上线踩坑指南之 lambda 进程被占用 status error 255》《google pay 配置sub/pub回调》《AWS攻略——使用CodeCommit托管代码》《AWS攻略——使用S3托管静态网页》《AWS攻略——使用CodeB…

将数组A中的内容和数组B中的内容进行交换(数组一样大)

#include <stdio.h>int main() {int arr1[10]{1,2,3,4,5,11,14,16,17,12};int arr2[10]{0,6,7,8,9,15,21,18,19,13};int arr3[10];int i0;for(i0;i<sizeof(arr1)/sizeof(arr1[0]);i){arr3[i]arr1[i];arr1[i]arr2[i];arr2[i]arr3[i];//不定义第三个变量的两种种方法&am…

***必备工具

***必备工具一、扫描工具 X-scan 3.1 焦点出的扫描器&#xff0c;国内最优秀的安全扫描软件之一!非常专业的一个扫描器! X-way 2.5 这也上一个非常不错的扫描器哦!功能非常多!使用也不难,***必备工具! SuperScan 3.0 强大的TCP 端口扫描器、Ping 和域名解析器! Namp 3.5 这个就…

通过评估假设行为来学习人类目标

来源| deepmind编译| 武明利&#xff0c;责编| Carol出品 | AI科技大本营&#xff08;ID&#xff1a;rgznai100&#xff09;当我们在现实世界中训练强化学习&#xff08;RL&#xff09;代理时&#xff0c;我们不会希望它们探索不安全的状态&#xff0c;例如将一个移动机器人开进…