绝悟之后再超神,腾讯30篇论文入选AI顶会ACL
作者 | 马超
责编 | Carol
出品| AI科技大本营(ID:rgznai100)
封图 | CSDN 付费下载于东方 IC
近日,国际计算语言学协会年会ACL在官网(https://www.aclweb.org)公布了2020年度的论文收录名单,其中腾讯共有30篇论文入选,入选论文数刷新国内企业记录,领跑国内业界AI研究第一梯队。
国际计算语言学协会(The Association for Computational Linguistics),于1962年成立,在AI领域已经发展成为影响力最大、最具活力的国际学术组织之一,其会员遍布世界各地。而且尤其值得一提的是,随着国内企业在AI领域不断取得突破,百度基础技术首席科学家王海峰曾经担任在2013年-2018年担任ACL的主席,也成为该组织历史上第一位华人主席。
而且腾讯最近在AI领域突破不断,先是王者荣耀的“绝悟”吊打了一众玩家,而本次又在自然语言处理方面取得突破,充分展示了其全栈AI的实力。与“绝悟”的强化学习不同,自然语言处理方面主要的AI模型还是神经网络。从目前腾讯ACL入选论文清单来看,有20篇来自腾讯AI Lab团队,7篇来自微信AI团队,CSIG智能平台部和QQ研究团队也分别有论文入选,研究方向涵盖对话及文本生成、机器翻译及对话、多模信息抽取多个自然语言处理的重点领域。
如果将数据比作这个数字时代的石油,那么腾讯丰富的业务场景与庞大的用户基数,就为其AI团队提供了世界上最大的原油储存基地,这些都为前沿的AI研究成果提供了令整个业界都非常羡慕的绝佳“训练场”,而拥有了这样高的训练水平,腾讯在AI方面能够取得顶级成果也就不足为奇了。下面笔者就带大家来深度解读一下这30篇论文背后丰富的技术内涵。
多模与对话-腾讯的主战场
正如前文所述腾讯本次的论文主要集中文本生成、机器翻译及对话、多模信息等领域,先带大家来解读一下这个几领域的基本情况:
文本生成:这个领域之所以会抱得大名,主要还是因为《权力的游戏》第八季崩盘,在一片“烂尾结局”的评价声中落下帷幕。而随后,便有极客便用 OpenAI 提出的 GPT-2 文本生成模型进行了实践。模型学习的是《冰与火之歌》原著,最终输出了一个大结局,结果得到很多网友的好评,这也让人们不禁惊呼,原来AI还能写小说。
多模态特征提取与翻译:目前尤其是90后,在对话当中经常使用表情图、动态图等方式来表达情感,而将这些非语言信息的语义提取并翻译出来,就是多模态提取的任务了。
对话系统:其实笔者在经历异地恋的时候也曾经做过一款基于Windows Mobile MSN的对话机器人(https://blog.csdn.net/BEYONDMA/article/details/99690305),不过现在微信基于海量对话信息制作的聊天机器人,已经真假难辩了。而对话系统与文本生成最大的不同之处在于,对话系统一般只生成短句,语义群较少,而文本生成系统则恰恰相反。
腾讯在自然语言处理领域有天量数据的加持,比如微信智聆每天处理超过 4 亿条语音,识别准确率为 97%,服务于腾讯内外超过 100 项业务。而且微信AI团队,还提供语音输入转文字、扫一扫的扫码 / 封面和翻译、聊天机器人、摇一摇 - 音乐 / 电视、声纹锁等功能,每项业务的日均使用次数都近十亿的量级,这也造就了腾讯在多模态和对话系统等方面的领先地位。
自回归与自编码-自然语言处理的少林与武当
自然语言处理分为两大门派一个是以OpenAI的GPT为代表自回归(AR)另一个是以谷歌BERT为代表的自编码(AD),在我们正式解读代表论文之前,我们先对这两大流派进行一下介绍。
自回归模型:通俗的讲自回归就是使用自身做回归变量的过程,一般说来记为以下的形式。
也就是说自回归模型假定t时刻的序列(Xt)可以利用前期若干时刻的随机变量的线性组合来描述。
因式分解:我们来说一下什么是自然语言处理中的因式分解,先复习一下贝叶斯公式,它描述随机事件 A 和 B 的条件概率,其中P(A|B)是在 B 发生的情况下 A 发生的可能性。
假设我们I、love、you三个单词分别对应向量:X_1、X_2、X_3,那么如果我们要建模”I love you”这句话,其实就要通过贝叶斯公式解出,在自然数据这个序列出现的联合概率分布 P(X_1,X_2,X_3)。
根据词语之间的相互联系,我们除需要统计P(X_1)、P(X_2)、P(X_3)三个概率是不够的。因为X_1还依赖于其它变量存在条件分布 P(X_2|X_1) 和 P(X_3|X_1)。对于X_2和X_3也是一样,我们可以将这三个模型组合起来获得期望联合分布 P(X_1,X_2,X_3)=P(X_1)P(X_2|X_1)P(X_3|X_1,X_2)
一般来说,变量的每个可能的排序都存在自回归因式分解。在有N个变量的问题中,就存在 N! 个因式分解。在上面提到的三个变量的例子中,我们可以列举出六个自回归因式分解,当然在AR模型中都考虑了顺序信息,不会计算所有的因式分解,读到这里可能读者也就明白了,AR模型其实就是通过贝叶斯因式分解的方式来计算输入序列的概率密度。那么其劣势也就比较明显了,由于输入序列有方向性,所以AR模式只能拉收正向或者反向单向信息。而后面我们后面解读到的论文中也会提到,对这方面的改进,也是腾讯的一个创新点。
自编码模型:自编码思想是利用被人为损坏的输入序列重建原始数据。比如BERT,它利用一个特殊符号[MASK]替换特定部分,并训练模型从损坏的版本中恢复原始的信息,如果以图像处理类比,自编码就是先用计算机为图像打上马赛克,然后再通过训练使计算机掌握去掉马赛克的算法。那么自编码的优势就是他完全可以利用双向的信息,来建构模型,不过劣势也非常明显,就是在真实环境下是不存在MASK部分的,这让自编码模型的训练集与预测数据集存在差异,而且自编码模型也无法计算概率密度。
比如在腾讯微信AI团队的《Learning to Recover from Multi-Modality Errors for Non-Autoregressive Neural Machine Translation》论文中,就提出了非自回归神经机器翻译的模型,不但能预测目标句子中的所有词,还能够显著加速预测过程。
正如我们上文介绍的那样,非自回归神经机器翻译模型往往会忽略输出结果中词与词之间的依赖信息,以致存在多峰问题,经常表现出重复词和缺词的情况。
因此腾讯微信AI团队提出一种半自回归模型,该模型将目标句子分成多个段,在进行预测测时,同时生成这些段,而每个段则是逐词生成。通过动态控制每个段的长度和删除重复段,该模型能够从重复词和缺词错误中恢复。实验结果表明,这种方法在取得至少4倍加速效果,为进一步缩小非自回归/半自回归模型与自回归模型的效果差异提供了一种有益的解决方法。
到底是聊天机器人还是男友本尊
大概是今天这篇文章写作时间正值“521”期间,而且是有关聊天机器人的,因此我家领导强烈要求,我在文章结尾,加上如何分辨男友是否正在使用机器人的攻略。
这个问题无独有偶,其实随着多模态和对话系统的发展,互联网上由AI创造的虚拟人物越来越多,比如一位在顶级智库工作的女政治家Katie Jones,她拥有由一批专家和权威人士组成的关系网。她与一名助理国务卿、一名参议员的高级助理以及经济学家 Paul Winfree 都有联系,而且搜索引擎上也能查到相应的新闻报道,不过这位女士其实并不存在,对此美联社已经作出确认,其面部信息是合成的,其相关新闻都是AI捉刀写的,而令人恐怖的是,这样的人造人在脸书上还有几万个。
不过与上述静态的虚拟人物不同,聊天机器人是需要实时互动的,那么在互动中就必然会露出一定的破绽,而且聊天机器人学习了那么多的聊天套路,肯定会比绝大多数男性的嘴更甜,更会照顾他人的情绪,所以当妹子们感觉到程序员老公的话突然不那么直男,变得顺耳了,可能反而要提高警觉了,下面把一些原则分享给大家。
一、求生题:在求生题中比较经典的如“妈妈和女友都跳河里了,先救谁”等等类似的题目,可是根本就难不倒机器人的,或者说机器人长期接受这种求生题的训练,所以这种题就是机器人最擅长的,所以如果男友对于这种题都特别轻松的给出答案,那么其使用机器人的概率恐怕不低于80%。
二、话外音:一般男性的思维方式比较直接,而女性相对比较含蓄,所以绝大多数的男人都不太听得出女友的话外音,不过正如我们前文所述,聊天机器人对于多模信息的提取是吊打绝大多数男性的,可以轻松得从表情图、动态图中提取到说话者的意思,因此如果男友能接得住你的话外音,那么其使用机器人的概念就不低于90%了。
三、事实题:机器人毕竟是机器人,对于一些事实的问题,还是不在机器训练集中的,比如生日、纪念日、工作地点等信息问题,机器还是无法直接告诉你正确答案的,因此在谈到这些有准确答案的事实问题时,如果男友都是回避掉事实答案,转而维护你的情绪,那么基本上可以肯定他是使用了机器人了。
在AI领域,腾讯已开源Angel、NCNN等数十个优质项目。针对业界现有的中文词向量公开数据的稀缺和不足,腾讯也开源了大规模、高质量的中文词向量数据,也期待腾讯未来开源更多的AI项目,为整个行业的发展做出更大的贡献!
本文为作者原创投稿,转载请经授权!
推荐阅读
又一年5.20,用Python助力程序员脱单大攻略(视频版)
我佛了!用KNN实现验证码识别,又 Get 到一招!
潘石屹 Python 考试成绩 99 分,网友:还有一分怕你骄傲
平安科技王健宗:所有 AI 前沿技术,都可以在联邦学习中大展身手!
踢翻这碗狗粮:程序员花 7 个月敲出 eBay,只因女票喜欢糖果盒!
在 520 这天,竟然有人把 Docker讲清楚了? | 原力计划
斗地主吗?能学区块链那种! | 原力计划
你点的每个“在看”,我都认真当成了AI
相关文章:

mac中用命令行运行mysql
1,安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/,根据我的机器的配置情况选择了64bit版本。 2,命令行中启动mysql 安装的位置在/usr/local/mysql 于是做了一个别名: $alias mysql/usr/loc…

Hessian源码分析(java)
个人博客: 戳我,戳我 先扯一扯 前一篇博文Hessian通信案例(java)简单实现了Java版的Hessian客户端和服务端的通信,总体看来,实现起来比较简单,整个基于Hessian的远程调用过程也显得很方便。但是知其然还要知其所以然&…
必读!53个Python经典面试题详解
作者 | Chris翻译 | 苏本如,编辑 | 夕颜题图 | 视觉中国出品 | AI科技大本营(ID:rgznai100)本文列出53个Python面试问题,并且提供了答案,供数科学家和软件工程师们参考。不久前,我作为“数据科学家”开始担…

Microsoft Web 平台安装程序 (Web PI) Microsoft Web Platform Installer
Microsoft Web 平台安装程序 3.0 (Web PI) 是一款免费的工具,使用它可以获得 Microsoft Web 平台的最新组件(包括 Internet Information Services (IIS)、SQL Server Express、.NET Framework 和 Visual Web Developer)。Web PI 的内置Window…

Linux Shell 脚本限制ssh最大用户登录数
原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://dgd2010.blog.51cto.com/1539422/1670233 我撰写本文原来的意图是想把“复制SSH渠道”和"copy SSH Session"这样的功能从远程s…

hessiancpp编译和使用(C++版)
个人博客:戳我,戳我 许下的承诺 前两篇博客Hessian通信案例(java)和Hessian源码分析(java)介绍了Java版的hessian的使用以及源码分析。当时也说过打算写一下C版的hessian的使用和源码分析,现在就是兑现承诺的时候了。其实我项目中实际用到的…
美国AI博士一针见血:Python这样学最容易成为高手!
我见过市面上很多的 Python 讲解教程和书籍,他们大都这样讲 Python 的:先从 Python 的发展历史开始,介绍 Python 的基本语法规则,Python 的 list, dict, tuple 等数据结构,然后再介绍字符串处理和正则表达式࿰…

win7操作系统在哪显示隐藏文件夹
win7操作系统在哪显示隐藏文件夹 打开计算机--组织--文件夹和搜索选项--查看--把 “隐藏受保护的操作系统文件”前面的钩去掉,选中“显示隐藏的文件、文件夹和驱动器”--确定

ASP.NET MVC4中调用WEB API的四个方法
当今的软件开发中,设计软件的服务并将其通过网络对外发布,让各种客户端去使用服务已经是十分普遍的做法。就.NET而言,目前提供了Remoting,WebService和WCF服务,这都能开发出功能十分强大的服务。然而,越来越多的互联网…

使用docker制作hexo镜像
个人博客:戳我,戳我 背景 这段时间一直在折腾我的博客,由于之前出现过一次电脑硬盘完全挂掉的情况,为了避免重新搭建博客系统,一直打算搞一个方便点的环境,能进行多机迁移之类的。正好,Docker完…
3D目标检测深度学习方法数据预处理综述
作者 | 蒋天元来源 | 3D视觉工坊(ID: QYong_2014)这一篇的内容主要要讲一点在深度学习的3D目标检测网络中,我们都采用了哪些数据预处理的方法,主要讲两个方面的知识,第一个是representation,第二个数据预处…

NTLM协议认证
第一篇blog,发现这是个记录学习过程的好地方。从基础的开始吧。 NTLM: 基本知识telnet的一种验证身份方式,即Windows NT LAN Manager (NTLM); NTLM 是为没有加入到域中的计算机(如独立服务器和工作组)提供的…

新盒模型移动端的排版
这里采用的是新盒模型来进行排版: <div class"mytest"> <header></header> <section></section> <footer></footer> </div> 在CSS样式里添加如下样式 html,body{ height: 100%; } .mytest{ …

微信跳一跳高分辅助踩坑
旧博文,搬到 csdn 原文:http://rebootcat.com/2018/01/08/wechat_jump_hack/ 最近挺火的微信跳一跳 最近新版微信的『跳一跳』小程序着实火了一把,也把小程序这个概念再次推波助澜了一波,看来以后小程序这个入口会有大作为。 张小…
“编程能力差,90%的人会输在这点上!”谷歌开发:其实都是在瞎努力
这是一个很难让人心平气和的年代。疫情之下,很多人的都在面临着:失业、降薪、找不到工作、随时被裁等风险。但是:有心的人早已上路超车,做个人能力的升级——提高自己的不可替代性。李开复曾提出过“五秒钟准则”:一项…

64位win7安装IIS7时不能浏览asp的问题
64位win7高级家庭版安装IIS7,安装完成后只能浏览静态页,找了很多的教程都没有解决,最后在一个博客里看到说64位系统下ASP是不支持的ODB读取ACC的数据库的,因此需要开启32位应用程序的支持。 方法是: Internet 信息服务…

0525 项目回顾7.0
一、sprint总结 当谈到团队,我开始真的不知道团队是怎么样的,怎么样进行工作的,要该怎么出力团队的关系,有时候会涉及到个人问题,是不是该考虑进来,但是很多时候是不能的,每一个人作为团队的一份…

辩证看待 iostat
旧博文,搬到 csdn 原文:http://rebootcat.com/2018/01/16/using-iostat-dialectically/ 前言 经常做系统分析会接触到很多有用的工具,比如 iostat,它是用来分析磁盘性能、系统 I/O 的利器。 本文将重点介绍 iostat 命令的使用,并…
搞机器学习,Python和R哪个更合适?
【编者按】如果你正想构建一个机器学习项目,但却纠结于如何选择编程语言,这篇文章将是你所需要的。这篇文章不仅帮助你理解Python和R这两种语言的区别,还有助于你了解各个语言多方面的优势。作者 | Manav Jain译者 | Joe,编辑 | 夕…

Java安装方法
第1章 Java简介及开发环境搭建 实验1 JDK的下载、安装与配置 【实验目的】 (1)熟悉JDK工具包的下载及安装过程。 (2)掌握JAVA_HOME、CLASSPATH及Path的设置内容。 (3)掌握Java程序运行原理及Javac、Java命…

Hash函数的安全性
我们为了保证消息的完整性,引进了散列函数,那么散列函数会对安全正造成什么影响呢?这是需要好好研究一番的问题。 三个概念: 1.如果y<>x,且h(x)h(y),则…

一键安装python3环境
旧博文,搬到 csdn 原文:http://rebootcat.com/2018/04/15/python3_in_a_box/ 一键安装python3环境 由于现在逐步转移到 python3 进行开发,但是很多机器并没有预装 python3 环境,所以需要安装。 所以分享一个我常用的,…
认知智能再突破,阿里 18 篇论文入选 AI 顶会 KDD
作者 | 马超责编 | 屠敏头图 | CSDN 下载自东方 IC出品 | CSDN(ID:CSDNnews)近日,国际知识发现与数据挖掘协会KDD在官网(https://www.kdd.org/kdd2020)公布其2020年度的论文收录结果,笔者看到阿里共有18篇论文入选&…

python采集cpu信息
旧博文,搬到 csdn 原文:http://rebootcat.com/2018/05/20/analyze_cpu/ python脚本采集cpu 经常要做一些 linux 系统上的性能分析或者采集 cpu/mem/bandwidth 上报到监控系统。 分享一个我平常常用到的 cpu 采集脚本,原理是分析 /proc/stat…

Pretty Login便携版:Windows 7登录界面修改器
Pretty Login是由chnable开发的一个美化小工具,用来辅助修改Widnows 7登陆界面的背景图片,除此之外,它也能定制欢迎界面上的文本、按钮样式,如设置阴影、半透明效果。 由于Windows 7限制登录背景图片的大小不超过255KB,…
来了来了!趋势预测算法大PK!
作者 | 王哲责编 | Carol头图 | CSDN 付费下载自视觉中国趋势预测在很多应用场景中都会起到至关重要的作用,比如淘宝商家会考虑库存量应该保持在多少才能够满足客户需求,商场希望得知假期会迎来多大的客流量以安排系列活动,机场想要预测五一黄…

hdu 5713(状态压缩DP)
要进行两次dp, 第一个,dp[i],1<i<(1<<n) 其中用i的二进制形式表示已选择的点。 dp[i] 用来保存i中的点构成一个连通块,边集多少种可能。 转移方程: save[0] 1;//这里用save[i]表示dp[i]for(int i1;i<(1<<n)…

nginx特定的 404页面利于seo
要求:访问http://www.qq.com/123 url保持不变 显示的结果为指定的404页面curl -I http://www.qq.com/123 返回的状态码为404 准备一 404.php页面在最底部加上:<?phpheader(HTTP/1.1 404 Not Found);header(Status: 404 Not Found);?>然后ngin…

python采集bandwidth信息
旧博文,搬到 csdn 原文:http://rebootcat.com/2018/05/21/analyze_bandwidth/ python脚本采集bandwidth 经常要做一些 linux 系统上的性能分析或者采集 cpu/mem/bandwidth 上报到监控系统。 分享一个我平常常用到的 bandwidth 采集脚本,原理…
零基础搭建个性化精准营销 AI 应用,这次手把手教你!
百万学AI系列AI 应用开发大师课已经直播两期了,在前两期的内容中,大家在入门级任务《猫狗分类器》中上手 TensorFlow 开发,通过离线 SDK 在 Android 手机中完成人脸识别应用的部署。在这两个任务中,能成功安装开发环境,…