11项重大发布!百度大脑语言与知识技术峰会全程高能
AI正在向更深层次进化,语言与知识技术的重要性愈加凸显。
8月25日,以“掌握知识、理解语言、拥有智能”为主题的百度大脑语言与知识技术峰会重磅开启,百度CTO王海峰发表主旨演讲,解读百度语言与知识技术的发展历程与最新成果,与产学研各界分享技术及产业发展趋势和展望,百度集团副总裁吴甜和百度技术委员会主席吴华分别发布百度语言与知识技术系列产品和数据集共建计划,重磅推出5款产品的新发布,全面加速AI技术大规模应用。在演讲中,王海峰表示,“在百度语言与知识技术的布局和发展中,我们始终在注意把握两个趋势,即技术发展趋势和产业发展趋势,并力争引领趋势。”
自然语言理解(NLP)素有“人工智能皇冠上的明珠”盛誉,这也意味着语言与知识等认知层面的技术突破将进一步促进AI深入发展。
语言与知识技术是人工智能认知能力的核心,以语言和知识为研究对象,让机器像人一样掌握知识、理解语言的自然语言处理技术,对于人工智能发展至关重要。十年来,百度大脑语言与知识技术成果丰硕,获得包括国家科技进步奖在内的20多个奖项,30多项国际竞赛冠军,发表学术论文超过300篇,申请专利2000多项。技术不断突破创新的同时,也在产品上创新探索,同时将领先的技术输出给开发者与合作伙伴,提升各行业智能化水平。
(百度CTO王海峰)
十年:开拓者、深耕者、引领者
半个多世纪前,老一辈自然语言处理学者,在一本名为《机器翻译浅说》的书中,畅想了未来跨语言、跨文化的无障碍沟通场景。如今,机器同传、翻译机、跨模态翻译等工具,已融入人们的工作和生活,沟通无国界的梦想正逐步实现。这一切是人工智能技术,特别是语言与知识技术进步所带来的结果。
语言与知识技术是人工智能认知能力的核心。2010年,百度成立自然语言处理部,历经近十年发展,百度已经构建了完整的语言与知识技术布局,包括知识图谱、语言理解与生成技术,以及上述技术所支持的包含智能搜索、机器翻译、对话系统、智能写作、深度问答等在内的的应用系统。在前瞻技术与产业格局上不断引领、创新,十年间已成为中国NLP发展的一面旗帜。
峰会上,王海峰回顾,“在百度语言与知识技术的布局和发展中,我们始终在注意把握两个趋势,即技术发展趋势和产业发展趋势,并力争引领趋势。”
在知识的加持下,语言理解相关技术的能力不断增强,机器也可以逐渐像人一样不断学习、不断进步。百度提出知识增强的语义理解框架ERNIE,在深度学习的基础上融入知识,具备人类一样的持续学习能力,曾一举登顶全球权威数据集GLUE榜单,首次突破90分大关,并且超越人类得分。而通过融入知识、语义理解、以及增强小样本学习能力,机器的阅读理解和对话能力也在迅速增强。
纵览百度语言与知识技术发展历程,从研究方法、研究对象、研究方向、产业应用等各个层面,布局完整,不断打磨成熟,始终与应用的发展趋势、需求一脉相承,与产业接轨。
十年来,百度大脑语言与知识技术成果丰硕,获得包括国家科技进步奖在内的20多个奖项,30多项国际竞赛冠军,发表学术论文超过300篇,申请专利2000多项。技术不断突破创新的同时,也在产品上创新探索,同时将领先的技术输出给开发者与合作伙伴,提升各行业智能化水平。
全面分享语言与知识技术成果
王海峰全面分享了百度语言与知识技术完整布局和最新成果。
首先,知识图谱是机器认知世界的重要基础,百度打造了世界上最大规模知识图谱,拥有超过50亿实体和5500亿事实,并在不断演进和更新。百度知识图谱应用于各行各业,每天的调用次数超过400亿次。
其次,在融入知识的基础上,语言理解能力不断增强。2019年3月,百度提出知识增强的语义理解框架ERNIE,在深度学习的基础上融入知识,同时具备持续学习能力,曾一举登顶全球权威数据集GLUE榜单,首次突破90分大关,刷新榜单历史。基于知识图谱和语义表示,突破了阅读理解、对话理解以及跨模态深度语义理解等技术。
第三,语言生成是语言与知识技术中的重要组成部分。基于预训练技术的成功经验,百度提出基于多流机制的语言生成预训练技术,兼顾词、短语等不同粒度的语义信息,显著提升生成效果。百度也探索了多文档摘要生成,通过图结构语义表示引入篇章知识,在单文档和多文档摘要生成效果都有提升。
应用系统层面,对话系统和机器翻译等成绩卓著。百度提出了知识图谱驱动的对话控制技术,以及首个基于隐空间的大规模开放域对话模型PLATO等,并推出智能对话定制和服务平台UNIT,帮助开发者高效构建智能对话系统,实现规模化应用。百度翻译支持200多种语言,每天响应超过千亿字符的翻译请求,支持超过40多万家第三方应用,技术上,提出了多智能体联合学习、基于语义单元的同传模型、稀缺语种分组混合训练算法等。
百度大脑语言与知识技术的持续探索和创新取得了令业界瞩目的成绩,同时这些技术以平台化的方式输出,赋能千行万业,持续提升产业智能化水平。
重磅推出5款产品的新发布、2大计划
王海峰首次发布了百度大脑语言与知识产品全景图。百度集团副总裁吴甜接续发布语义理解技术与平台文心、智能文档分析平台TextMind和AI同传会议解决方案3大新产品,同时发布了6项升级,包括智能创作平台的3个场景方案、以及智能对话定制与服务平台UNIT的3项全新升级。
(百度集团副总裁吴甜)
吴甜表示,“我们一直致力于将语言与知识技术凝聚成一系列技术平台和产品,在应用中产生大量价值,为广大开发者和产业实践者提供以语言与知识技术为核心驱动的系列产品。”
百度推出的语义理解技术与平台文心,基于深度学习平台飞桨打造,依托领先的语义理解核心技术,集成优秀的预训练模型、全面的NLP算法集、端到端开发套件和平台,提供一站式NLP开发与服务,让开发者更简单、高效地定制企业级NLP模型。文心经过了大量真实应用场景的淬炼,具备优秀的工业级落地实力。
全新发布的智能文档分析平台TextMind,基于OCR、NLP技术,以文档解析为核心能力,支持文档对比与文档审核,具备“多快好省”的核心优势,促进企业办公智能升级。
百度大脑智能创作平台针对媒体应用场景再升级,全新推出智能策划、智能采编、智能审校三大媒体场景方案,进一步助力媒体人更快、更好地创作,可谓切中媒体人的“痛点”。
智能对话定制与服务平台UNIT升级3大特性:更智能的任务式对话理解、极致便捷的表格问答和融合通用的新对话引擎。此次UNIT全新升级的三大能力,将进一步降低任务式对话、智能问答的定制成本,并融合通用对话能力,提升交互体验。
全新发布的AI同传会议解决方案,覆盖会议全场景、全流程,旨在打造用户随身的“会议同传专家”。吴甜现场展示了如何只用一台电脑和一部手机快速搭建一套同传服务,只需点点鼠标、打几个字,就能快速获得专业的同传服务。
数据匮乏、算力不足历来是语言与知识技术研发中面临的瓶颈。为突破瓶颈,百度联合中国计算机学会、中国中文信息学会发起中文自然语言处理数据共建计划——千言,解决数据稀缺问题。千言一期由来自国内11家高校和企业的数据资源研发者共同建设,已涵盖开放域对话、阅读理解等7大任务,20余个中文开源数据集。
百度技术委员会主席吴华表示,“未来,我们希望有更多的数据集作者能够参与共建千言,共同推动中文信息处理技术的进步,建设世界范围的中文信息处理影响力。我们计划在未来3年,面向20多个任务,收集和建设不少于100个中文自然语言处理数据集,覆盖语言与知识技术全部领域。”
(百度技术委员会主席吴华(中)与中国中文信息学会副理事长兼秘书长孙乐(左)、中国计算机学会自然语言处理专委会主任周国栋(右)一起正式启动千言计划)
吴华还发布了百度语言与知识技术算力共享计划,通过百度AI STUDIO平台提供算力支持,让广大开发者破除算力桎梏,专注于技术创新。
十年征程,百度语言与知识技术发展历程中培养、吸引了大量全球顶尖人才。会上,百度推出以王海峰为代表的百度NLP“十年十人”,十年坚守,不忘初心,秉持“技术信仰”,勇攀技术高峰,矢志不渝致力于让机器更好地理解世界、更好地服务于人。
正如王海峰所言,“我们致力于更好地与学术界、产业界携手,推动语言与知识技术发展,进而推动人工智能技术持续进步,为产业智能升级、社会经济高质量发展贡献力量。我们对未来充满信心,坚持研究和发展让机器掌握知识、理解语言、拥有智能,继续突破和创新,为技术和社会进步做出更大贡献。”
更多精彩推荐
鸿蒙加海思,麒麟加龙芯,组合拳能否渡劫“生态”危机
用 Python 详解《英雄联盟》游戏取胜的重要因素!
万字长文总结机器学习的模型评估与调参 | 附代码下载
“Talk is cheap, show me the code”你一行代码有多少漏洞?
科普 | 定义 Eth2.0 中的验证者质量
相关文章:

MySQL 5.5.35 单机多实例配置详解
一、前言 二、概述 三、环境准备 四、安装MySQL 5.5.35 五、新建支持多实例的配置文件(我这里配置的是四个实例) 六、初始化多实例数据库 七、提供管理脚本 mysqld_multi.server 八、整体备份方便后续迁移 九、管理MySQL多实例 十、登录MySQL多实例 十一…

ASP.NET超凡的代码控制
crystal译yesky 适应性 肯定的是,通常任何一个全新的技术,在市场渗透都会花费一些时间。微软正在开始让ASP和IIS平台通过行业验证,以便让其作为其它网络服务器之外可以供选择的平台 对于在其基本构架上的如此巨大的改变,是很难说服…
老码农:这是我见过最操蛋的代码,切勿模仿!
作为一名老码农,我的心这次凉透了!事情起因很简单:我在全国最大ZZ的同性组织某Hub上浏览时候,发现这样的一条信息:Python 超过 C、JS 薪酬排行第一(最大招聘网站Indeed.com数据)噗,9…

QTP时间格式的转换(YYYYMMDDHHMMSS)
之前查了好多资料都是这样写的: sendTime year(sendTime) & right( "00 " & month(sendTime),2) & right( "00 " & day(sendTime),2) & right( "00 " & hour(sendTime),2) &…

Selenium2+python自动化25-js处理日历控件(修改readonly属性)
前言 日历控件是web网站上经常会遇到的一个场景,有些输入框是可以直接输入日期的,有些不能,以我们经常抢票的12306网站为例,详细讲解如何解决日历控件为readonly属性的问题。 基本思路:先用js去掉readonly属性…

ASP.NET强大的性能
crystal译 yesky 一个程序,速度是一件非常令人渴望的东西。一旦代码开始工作,接下来你就得尽可能的让它运作的快些,再快些, 在ASP中你只有尽可能拧干你的代码,以至于不得不将他们移植到一个仅有很少一点性能的部件中。…

POJ-1753 Flip Game 枚举 状态压缩
刚开始做这题时总是在想应该用何种的策略来进行翻装,最后还是没有想出来~~~ 这题过的代码的思路是用在考虑到每个点被翻装的次数只有0次或者是1次,所以对于16个点就只有2^16中请况了。再运用位运算将状态压缩到一个32位…
“半真半假”DeepFake换脸也能精准识别?阿里安全提出全新检测方法
一段包含多个人脸的视频中,攻击者只对一个或者几个人的人脸进行伪造,这种“半真半假”的伪造情况能否被检测识别?近日,阿里安全图灵实验室宣布,其已成功打造出针对这种换脸视频的DeepFake检测技术,阐述该技…

python 定时任务
Python 定时任务 最近学习到了 python 中两种开启定时任务的方法,和大家分享一下心得。 sched.scheduler()threading.Timer()sched 定时任务 使用sched的套路如下: s sched.scheduler(time.time, time.sleep) s.enter(delay, priority, func1, (arg1, a…

思科AP与交换机端口的配置
思科AP与交换机端口的配置。 思科AP可以分IOS AP 和LAP。 1、IOS AP 中如果AP上需要创建多个SSID,连接的交换机端口则需要: switch(config-interfa)# sw mod trunk switch(config-interfa)# sw trunk allow vlan 1,x,x,x (SSID对应的VLAN) 另外注意&…

Namespace(命名空间)的使用
作者:飞刀 关于Namespace(命名空间)的使用常用<% Import Namespace"System.Data" %>,这是在引用M$为我们提供的Namespace,这和ASP不同的,我们贏SP.net必须先引用与我们操作有关的Namespace后才能使用相应的功能。其实说白了ÿ…
“编程能力差!90%输在这点上”谷歌AI专家:其实都是瞎努力!
最近几年,我看过市面上很多 Python和人工智能的教程,基本都在这样讲:先介绍Python基本语法、dict、tuple 等基本库的使用,最后学习机器学习、深度学习的常用算法......但我与Google人工智能开发专家彭靖田老师沟通后发现ÿ…

NAS存储对称和非对称结构之前的区别概述
传统的系统利用紧耦合对称架构,这种架构的设计旨在解决HPC(高性能计算、超级运算)问题,现在其正在向外扩展成为云存储从而满足快速呈现的市场需求。下一代架构已经采用了松弛耦合非对称架构,集中元数据和控制操作&…

Lucene:基于Java的全文检索引擎简介(转载)
Lucene是一个基于Java的全文索引工具包。基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史全文检索的实现:Luene全文索引和数据库索引的比较中文切分词机制简介:基于词库和自动切分词算法的比较具体的安装和使用简介:系统…
昨天,我用 Python 写了一个婚介模型
作者 | 天元浪子来源 | CSDN(ID:CSDNnews)先声明一下:本文纯属七夕应景娱乐之作。如果有人因为遵循本模型提出的择偶理论而导致失恋或单身,除了同情,我不能补偿更多。在中国的传统节日里,七夕可…

WCF服务一:WCF服务简介
一、回顾开发历史: 软件架构的设计经历了:从面向对象程序,到面向组件程序设计,再到面向服务程序设计。这三种方式都致力于同一个目标:封装和重用。 面向对象程序设计:类封装功能并提供代码重用。 面向组件程…
MIT 更新最大自然灾害图像数据集,囊括 19 种灾害事件
作者 | 神经小兮来源 | HyperAI超神经(ID:HyperAI)内容提要:麻省理工学院在最近 ECCV 2020 上提交的一篇论文中,发布了一套自然灾害图像数据集。这是迄今为止规模最大、质量最高的自然灾害卫星图像数据集。2020 年&…

DataBind数据核心
作者:飞刀 这一节主要是要讲DataBind,这个在ASP.net中是很重要的东东,几乎所有的控件都需要它来控制数据的操作。也可以说是ASP.net的数据核心。 我们先来看一个简单的例子: <% Page Language"C#" %> <% …

convertViewsetTag方法的一点理解
转自:http://blog.163.com/freemanls126/blog/static/164585061201171210504864/ 前言 首先我们要知道setTag方法是干什么的,SDK解释为 Tags Unlike IDs, tags are not used to identify views. Tags are essentially an extra piece of information tha…

iOS使用Security.framework进行RSA 加密解密签名和验证签名
iOS 上 Security.framework为我们提供了安全方面相关的api; Security框架提供的RSA在iOS上使用的一些小结 支持的RSA keySize 大小有:512,768,1024,2048位支持的RSA 填充方式有三种:NOPadding,PKCS1,OAEP 三…

Android APK反编译详解(附图)
这段时间在学Android应用开发,在想既然是用Java开发的应该很好反编译从而得到源代码吧,google了一下,确实很简单,以下是我的实践过程。 在此郑重声明,贴出来的目的不是为了去破解人家的软件,完全是一种学习…
你不知道的18个Python高效编程技巧
来源 | Python编程时光初识Python语言,觉得python满足了我上学时候对编程语言的所有要求。python语言的高效编程技巧让我们这些大学曾经苦逼学了四年c或者c的人,兴奋的不行不行的,终于解脱了。高级语言,如果做不到这样,…

Alisql源码编译安装(详细篇)
前言 AliSQL 在 2016 云栖大会宣布开放源代码之后,迅速就获得了广泛的关注,目前(2016-10-27) star 数目已达 1187,欢迎访问 AliSQL GitHub 项目关注。社区反应也非常活跃,在 Issue 中提了不少反馈建议,其中有一部分是和…

如何给DataGrid添加自动增长列
作者: cuike519的专栏 http://blog.csdn.net/cuike519/我想我们都知道在数据库中如何添加自增长列,我们可以将这个自增长列绑定到DataGrid上使得用户方便的知道现在是第几行,今天我介绍一种不用数据库就可以简单显示出自增长列的方法&…
达摩院NLP团队斩获六项世界冠军背后,让AI没有难懂的语言
2018年末,BERT横空出世,它采用自编码对句子进行表示,通过预测掩盖词和上下句之间的关系作为语言模型学习任务,使用更多的数据,更大的模型,在多个自然语言处理(NLP)任务中显著超越之前…

提权巧用RAR.EXE
rar.exe是什么?它就是大名鼎鼎的winrar自带的命令行解压程序。在提权中我们经常要下载各种敏感文件,比如:SU目录。你想一下,如果su目录文件这么多,难道你要一个个的下载??这明显就很麻烦,有了ra…
OSGI企业应用开发(二)Eclipse中搭建Felix运行环境
上篇文章介绍了什么是OSGI以及使用OSGI构建应用的优点,接着介绍了两款常用的OSGI实现,分别为Apache Felix和Equinox,接下来开始介绍如何在Eclipse中使用Apache Felix和Equinox搭建OSGI运行环境。 一、搭建Apache Felix运行环境 上篇文章中介绍…
马斯克脑机接口、BrainOS相继发布,不努力也能有出路了
作者 | 马超责编 | Carol封图 | CSDN 下载自视觉中国在北京时间的8月29日凌晨,钢铁侠埃隆马斯克投资1亿多美元的脑机接口初创公司公司Neuralink(http://www.neurolink.company/)进行了一次现场发布会,展示新一代的脑机接口设备。这…

C语言单向链表的实现
一个简单结点的结构体表示为:struct note{int data; /*数据成员可以是多个不同类型的数据*/struct note *next; /*指针变量成员只能是-个*/}; 一个简单的单向链表的图示1.链表是结构、指针相结合…

Java开发常用Linux命令
1.查找文件 find / -name filename.txt根据名称查找/目录下的filename.txt文件。 find . -name "*.xml"递归查找所有的xml文件 find . -name "*.xml" |xargs grep "hello world"递归查找所有文件内容中包含hello world的xml文件 grep -H spring …