当前位置：首页 > 编程日记 > 正文

达摩院NLP团队斩获六项世界冠军背后，让AI没有难懂的语言

编程日记 2024-11-24 01:40:00

2018年末，BERT横空出世，它采用自编码对句子进行表示，通过预测掩盖词和上下句之间的关系作为语言模型学习任务，使用更多的数据，更大的模型，在多个自然语言处理（NLP）任务中显著超越之前的结果。这一年被视为预训练语言模型的元年。

2019至今，预训练语言模型呈现百花齐放、百家争鸣态势。其中，既有将自回归和自编码结合的生成式语言模型，也有将多种语言融合的预训练语言模型，更有将语言和图像等模态融合的多模态语言模型。

在阿里巴巴达摩院语言实验室负责人司罗看来，预训练语言模型技术最近的进展极大地推动了自然语言智能的发展，“越来越多的应用与深度语言模型能够结合起来，在业务实践中取得了比较大的实际落地效果。”

与此同时，带着各自的预训练语言模型在各大数据集上同台切磋，成为各大科技公司展现自身技术实力的一大舞台。

当然，阿里巴巴也不例外。近日，达摩院NLP团队自研的预训练模型框架ALICE (ALIbaba Collections of Encoder-decoders), 包括多语言模型VECO、多模态语言模型StructVBERT、生成式语言模型PALM等6大自研模型相继刷新了世界纪录，在预训练模型的竞技中处于领先地位。挑战榜单只是为了验证了技术的领先性，达摩院NLP团队更重要的任务是把模型整合到阿里的技术平台，并应用到阿里内部和外部客户的产品和业务中，验证技术为产品和业务带来的更大价值。

那么，阿里巴巴达摩院成立三年来究竟如何收获技术价值？CSDN与达摩院语言技术实验室三位技术专家司罗、黄非和黄松芳进行了交流，他们从预训练语言模型、阿里NLP技术平台以及行业应用实践三大层面出发，描绘了一幅阿里NLP的全景图。

全面布局预训练语言模型，推动NLP新范式落地

预训练语言模型是自然语言处理的新范式，它可以帮助机器像人类一样理解文本。在“预训练-精调”的框架下，模型可以通过“预训练”阶段从大规模文本中学习到词和词的搭配关系以及句子之间的上下文关系等语言通用知识，继而通过“精调”阶段学习到领域任务特定知识，从而在大量的下游任务中达到更好性能。

从在开源数据集上进行评测到业务实践中的价值体现，预训练语言模型都被证明能够显著提高模型性能和算法效果。同时，从预训练语言模型得到的文本向量表示可以与其他模态下的向量表示很好地结合，从而达到多模态建模，理解并在多个跨模态场景得以应用。

阿里巴巴作为国内最早投入预训练语言模型研究的科技公司之一，目前已经实现了技术的全面布局，达摩院已在通用语言模型StructBERT基础上，拓展到多语言、生成式、多模态、结构化、知识驱动等方面，并在最近全面登顶包括多语言XTREME、多模态VQA在内的多个国际赛事和榜单。

据介绍，参与竞赛的6项自研AI技术均采用了模仿人类的学习模式，并针对领域特性进行了技术革新，全方位提升了机器的语言理解能力，部分能力甚至已超越人类。目前，这些技术均已大规模应用于阅读理解、机器翻译、人机交互等场景。

其中，达摩院NLP团队在BERT的基础上提出优化模型StructBERT，能让机器更好地掌握人类语法，加深对自然语言的理解。StructBERT通过在句子级别和词级别引入两个新的目标函数，打乱句子／词的顺序并使模型对其进行还原的方式，使得模型学习到更强的语言结构信息，使用StructBERT模型好比给机器内置一个“语法识别器”。其相关成果论文已被ICLR-2020收录。

该模型以平均分90.6分曾在自然语言处理领域权威数据集GLUE Benchmark中夺冠。

在StructBERT基础上，达摩院NLP团队进一步提出融入图像模态知识的预训练语言模型StructVBERT，它能同时理解文本与图像模态的信息，并挖掘二者间的关联以进行有效推理。

该模型好比给机器内置了隐式的“图像翻译器”，使机器能以同样的方式理解文本和图像信息，并基于两种模态的信息进行有效地内容整合与理解，显著提高图文问答准确率。

在多模态视觉问答与推理VQA Challenge 2020 Test-Standard数据集上，达摩院NLP团队的多模态语言模型StructVBERT以76.36分排名第一。

同样基于StructBERT的模型还有结构化语言模型StructuralLM。它充分利用图片文档数据的二维位置信息，并引入文本框位置预测的预训练任务，帮助模型感知图片不同位置之间词语的关系，这对于理解真实场景中的图片文档十分重要。

StructuralLM模型目前在Document VQA榜单上排名第一，同时在表单理解FUNSD数据集和文档图片分类RVL-CDIP数据集上也超过现有的预训练模型。

VECO模型（Variable Encoder-decoder，可变的编码-解码器模型）则将单语言模型扩展到了100多种语言，并借鉴于“积木”搭建的可变化（Variable）思想，通过重新整合编码器（Encoder）和解码器（Decoder）的核心组件，这使得训练的模型最终在Fine-tune阶段可以选择需要的模块来组合，从而形成适用于针对NLU（自然语言理解）任务的Encoder架构和针对NLG（自然语言生成）任务的Encoder-Decoder架构。

其中的亮点在于，这种预训练进行“整合”并在Fine-tune阶段进行“拆分”的思想完全脱离了传统的Pretrain-Finetune的范式，不仅在业界首次提出这种新的模型训练范式，而且在多个评测和下游任务中验证了这种方法的有效性。比如该模型在多语言预训练模型的测评榜单XTREME上以平均分73.9排名第一，超过Google的mBERT和Facebook的XLM-R等主流多语言模型。

在生成式语言模型方面，达摩院NLP团队创新性提出了PALM (Pre-training an Autoencoding & autoregressive Language Model)，它将预测后续文本作为其预训练目标，而非重构输入文本。它在一个模型中使用自编码方式来编码输入文本，同时使用自回归方式来生成后续文本。这种预测后续文本的预训练促使该模型提高对输入文本的理解能力，从而在下游的各个语言生成任务上取得更好的效果。

目前，这个新生成模型PALM在MS MARCO自然语言生成NLG公开评测上取得了排行榜第一，同时在摘要生成标准数据集CNN/DailyMail和Gigaword上也超过了现有的各个预训练生成语言模型。该模型可被用于问答生成、文本复述、回复生成、文本摘要、Data-to-Text等生成应用上。

篇章排序作为检索式问答的重要一环，可以结合机器阅读理解能力，帮助构建集生成、检索与抽取一体的闭环搜索问答整体链路。

达摩院NLP团队提出的统一的编码器-解码器模型（UED, United Encoder-Decoder）通过预训练一套整体的编码器-解码器网络同时进行问题生成和段落排序，使模型具备更强的段落摘要与文本匹配能力，并利用二阶段Fine-tuning策略进一步提升粗排召回率。

在MS MARCO榜单上，达摩院NLP团队在继核心机器阅读理解任务多次夺冠后，进一步刷新篇章排序任务榜单结果，并于去年的国际标准信息检索评测TREC 2019 Deep Learning Track的段落检索和文档检索任务上均取得第一名。

随着数据量及模型的极速膨胀，大规模深度学习训练的收敛变得极具挑战性，阿里巴巴内部计算资源和训练平台提供了诸如高效混合精度计算、快速自适应收敛方法、优化通信时间等丰富的训练支持，为突破多项NLP技术指标打下基础。

为了更好地应用上述大部分模型，阿里内部还有一个语言模型平台。在这个平台上，不管是通用语言模型还是多语言、多模态模型，阿里的各个团队可以做领域模型或任务模型的训练，进行模型的蒸馏和测试，并直接部署上线调用。目前，阿里巴巴集团内超过100多个业务部门都在利用该平台来搭建业务应用，日均调用量超过9亿，已经有超过50个活跃场景。

阿里巴巴在这些预训练语言模型领域的突破，将进一步使AI像人一样学习新知识成为可能；更重要的是，在特定领域的应用场景落地上，将帮助AI技术变得更加智能。当然，为了让现有模型和技术产生更大的影响力，阿里技术专家透露，上述模型也会陆续对外开源。

预训练模型对大量计算资源的要求限制了诸多中小公司的应用落地，而如何把语言模型更好地应用在不同的行业和场景中，还需要更多的摸索和尝试，也还有很长一段路要走，阿里技术专家称，未来预训练语言模型会走向更大、更快、更强。阿里达摩院也将在预训练语言模型上持续发力，未来将会深入研究超大模型训练以及联合统一各类任务预训练模型。

打造世界顶级NLP技术体系，让AI没有难懂的语言

阿里在模型问题上做了很多突破，但创新的本质是驱动业务创新并带来业务价值。因此，针对真实场景的多种多样的需求，达摩院不仅建设了深度语言技术体系全面赋能业务，更通过平台化的方式输出NLP技术能力。

其中，NLP技术平台是技术体系化的重要一环。

首先是阿里自然语言技术平台。包括底层数据层，收集了大量的自然语言相关数据，包括分词词性数据，实体语料库、新闻语聊库、情感语聊库等；以及基础算法层，从词法分析到句法分析、语义分析、篇章分析等基础算法。通过上述基础技术，构建了内容搜索、内容推荐、问答、情感分析、意图识别等垂直技术。这些技术结合起来，支撑了很多跟NLP相关的应用，如搜索、推荐、广告、客服、物流等相关工作。

自然语言技术平台现在每天有超过1000个业务方使用，每天的调用量数万亿次。

其次是翻译技术平台。包括底层的语料平台，还有多语言分词、实体识别等多语言NLP相关技术，核心的机器翻译技术包括结合知识的翻译技术，多语言多领域统一框架的翻译技术以及语音，图片，视频等多模态翻译等技术，上述底层技术支撑着相关翻译场景的技术解决方案。

目前，该平台几十个业务方的日调用量约10亿次，帮助创造了数亿美元的国际跨境贸易和其他国际业务商业价值。

根据达摩院提供的数据，多语言NLP和翻译技术每年累计为集团30+国际化核心业务场景提供服务，AliNLP平台日均累计调用量超过数万亿次，特别在搜索query改写、相关性匹配、排序等场景，有效的降低了搜索零少结果，以及提升搜索广告的点击转化。

在几位专家看来，自然语言智能本身的研发，甚至是AI技术的整体研发，如果要让它产生更大的技术落地价值，就需要在场景、数据、知识和算法技术之间进行循环迭代。

阿里内部有着丰富的业务场景，同时通过阿里云还会接触到广阔的外部场景，会提供很多行业场景相关的数据和知识，从而建设更加完善、高效、准确的自然语言基础技术、翻译技术和应用技术。

典型的场景如文本内容审核。互联网上内容良莠不齐，需要对一些涉黄、涉暴等违规内容进行审核。其挑战在于，互联网文字内容涉及到大量的的音变和形变。而为了识别长文本，达摩院NLP团队也加入了语义理解和更深度的综合识别能力。

目前，阿里的NLP技术早已渗透至大众生活的方方面面，如电商、城市大脑，教育、医疗、能源，通信、司法、内容等，这些领域都在因为AI的力量变得更加智能。

总体而言，达摩院在预训练语言模型领域的突破，在一定程度上打破了NLP技术在业务场景落地的困境，同时，其丰富的业务场景转而为预训练语言模型及其NLP技术平台的搭建提供了绝佳的实践土壤。

再硬核的技术终要走向落地，达摩院NLP技术已逐步实现从单点技术到体系化能力的延伸，而现在，他们正在朝着更广阔的目标前行，让NLP技术普惠各行各业，让AI没有难懂的语言。

更多精彩推荐

GitHub多次霸榜，两个月拿下10000+Star，他说基础软件不开源必死无疑
达摩院NLP团队斩获六项世界冠军背后，让AI没有难懂的语言
万字长文总结机器学习的模型评估与调参 | 附代码下载
“Talk is cheap, show me the code”你一行代码有多少漏洞？
科普 | 定义 Eth2.0 中的验证者质量

https://www.dkcj.cn/info/28844.html

达摩院NLP团队斩获六项世界冠军背后，让AI没有难懂的语言

相关文章：

提权巧用RAR.EXE

OSGI企业应用开发（二）Eclipse中搭建Felix运行环境

马斯克脑机接口、BrainOS相继发布，不努力也能有出路了

C语言单向链表的实现

Java开发常用Linux命令

数据库开发基本操作-安装Sql Server 2005出现“性能监视器计数器要求”错误解决方法...

华为昇腾师资培训沙龙·南京场 |华为昇腾 ACL 语言开发实践全程干货来了！看完就实操系列...

设计模式之C#实现---Builder

微信小程序开发之不能使用eval函数的问题

设计模式之C#实现--FactoryMethod

美国AI博士指出，自学Python到底能做什么

关于微博溯源的后续问题

python3的数据类型以及模块的含义

设计模式之C#实现---- ProtoType

快速排序（二）最后修改

性能超越GPU、FPGA，华人学者提出软件算法架构加速AI实时化

PHP获取毫秒时间戳，利用microtime()函数

.NET中添加控件数组

如何在机器学习的框架里实现隐私保护？

函数图像轻松画：教你用永中图象

c语言语系的命名风格和java系命名风格

全国IP地址分配表

神同步！美国三地 Tesla 车主，自动驾驶都撞了警车

Q币才是腾讯真正的世界级产品

解决Office互操作错误检索COML类工厂中 CLSID为 {xxx}的组件时失败，原因是出现以下错误: 80070005...

再论制硬盘逻辑锁

我国科学家成功研制全球神经元规模最大的类脑计算机

批处理获取目录下所有文件名

1001: 整数求和

ASP.NET 2.0 中的新增安全功能