Cognitive Inference:认知推理下的常识知识库资源、常识推理测试评估与中文实践项目索引...
作者 | 刘焕勇
责编 | 李雪敬
出品 | CSDN博客
CognitiveInference
Cognitive Inference,认知推理、常识知识库、常识推理与常识推理评估的系统项目,以现有国内外已有的常识知识库为研究对象,从常识知识库资源建设和常识推理测试评估两个方面出发进行整理,并结合自己近几年来在逻辑性推理知识库的构建、应用以及理论思考进行介绍。具体包括已有常识知识库项目资源介绍、逻辑推理类知识库的项目实践集合、常识推理测试评估项目集合。
项目地址 :https://github.com/liuhuanyong/CognitiveInference/
项目介绍
常识推理是人工智能的高级阶段,基于已有知识,运用知识推理机技术,完成限定领域决策行为,能够在充分减少人为劳动的同时,产生经济效益。例如,基于已知知识进行知识推理,采用如事件驱动传导路径等进行知识发现,能够辅助于业务的推理和辅助决策,在智能投研进行未知风险预警、在舆情分析中对公司进行舆论控制和监控。
“逻辑知识库”+"逻辑推理机"的混合协作模式,是目前实现以上目的的重要方式。
"逻辑知识库"作为描述现实社会事件之间传导关联的库,需要在规模、质量,领域针对性三个方面入手进行解决。具体地,作者通过对自己所涉及的推理项目进行系统回顾,认为,推理类常识知识库,应该从纵向和横向两个维度出发进行构建。
一、纵向常识逻辑
纵项常识逻辑需要考虑的是类人的抽象和概括能力,这个需要抽象、概念性、上下位知识的构建,可以让机器模仿人类的举一反三和概括总结的技能。例如,作者对纵向常识逻辑,形成了以下工作:
1、上下位关系图谱项目:HyponymyExtraction.
上下位这种语义关系是整个词汇语义关系中的一个重要内容,通过上下位关系,可以将世间万物进行组织和练联系起来,对于增进人们对某一实体或概念的认知上具有重要帮助,自然语言文本中存储着大量的上下位关系知识,如经过语言专家编辑整理形成的概念语义词典,如同义词词林,中文主题概念词典,hownet等,也存在开放百科知识平台当中,有效地利用这些信息,能够支持多项应用基于知识概念体系,百科知识库,以及在线搜索结构化方式的词语上下位抽取。项目实现为用户输入一个需要了解的词语,后台通过查询既定知识库,从百科知识库,在线非结构化文本中进行抽取,形成关于该词语的上下位词语网络,并以图谱这一清晰明了的方式展示出来。
2、电商商品概念与销售知识图谱项目:GoodsKG.
项目以京东电商为实验数据来源,采集京东商品目录树,并获取其对应的底层商品概念信息,组织形成商品知识图谱。目前,该图谱包括有概念的上下位is a关系以及商品品牌与商品之间的销售sale关系共两类关系,涉及商品概念数目1300+,商品品牌数目约10万+,属性数目几千种,关系数目65万规模。该项目可以进一步增强商品领域概念体系的应用,对自然语言处理处理的几个下游应用带来帮助,如商品品牌识别,商品对象及属性级别情感分析,商品评价短语库构建,商品品牌竞争关系梳理等提供基础性的概念服务。
3、抽象知识图谱项目:AbstractKnowledgeGraph.
项目提出了一个抽象知识图谱的项目,目的是对知识抽象与泛化提供一个思路并初步实践,介绍了抽象知识图谱,对抽象图谱的现实需求进行论述。介绍了中文抽象图谱的相关工作。包括 CN-Probase,Hownet,大词林,百度百科Schema等,并给出了之前关联的项目地址。本项目提出了一个可用的抽象知识图谱构建路线,提出抽象知识图谱的实施路线并给出抽象接口实践。建成抽象知识图谱,目前规模50万,支持名词性实体、状态性描述、事件性动作进行抽象,可完成抽象知识,包括抽象实体,抽象动作,抽象事件。基于该知识图谱,可以进行不同层级的实体抽象和动作抽象,这与人类真实高度概括的认知是保持一致。
二、横向常识逻辑
横向上,需要挖掘顺承、因果、反转等多个方向的逻辑演化关系。例如,作者对横向常识逻辑,形成了以下工作:
4、顺承事件图谱项目:SequentialEventExtration.
以谓词性短语作为事件表示的方法方兴未艾,针对特定领域,构建起特定领域的顺承事件图谱,可以支持事件推理,基于事件的意图识别与推荐等多项运用。本项目基于50W文章领域语料,运用简单提取方式形成的顺承关系图谱demo,形成了事件节点为326781个, 顺承事件对为543580条,分别为30W和50W的图谱规模。
5、因果事件图谱项目:CausalityEventExtraction.
项目以构造和总结因果模板,结合中文语言特点,构建因果语言知识库的方式,对因果事件抽取以及因果知识图谱构建进行尝试。罗列出了9类显式因果逻辑抽取模式,通过使用因果连词库,结果词库、因果模式库等,完成因果抽取、对文本进行噪声移除,非关键信息去除等进行文本预处理;基于因果模式库,完成因果对抽取,选择短语、短句、句子主干等方式进行事件表示;使用知识图谱中的实体对齐技术进行事件融合,基于业务需求,可以用相应的数据库进行存储,比如图数据库等完成事件存储。
6、复合事件图谱项目:ComplexEventExtraction.
项目对中文复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件事件图谱的类型、表现形式进行了归纳,并结合复合事件模式与语料进行了实验。实验表明,反转事件,其实在某种程度上可以用来构造反义词词典,例如"不是A而是B"这种模式,可以得到很多反义的词或短语,可以用wordvector找相近词,可以靠这种方式收集反义词。汉语显示标记其实在中文文本当中还是用的很普遍,在1000W文本中,有超过半数的文本中包含以上模式。能够把显示事件图谱做好,感觉用处还是很多的。
三、常识逻辑推理
"逻辑推理机"是支配逻辑知识库的重要运算机器,通过对现有逻辑知识库,通过推理规则传导、知识关联路径匹配,完成对现有逻辑知识库的游走,最终实现单跳或多跳等后续事件的推理和预测,在这个方面,需要使用owl本体推理机、图数据库匹配、图数据库路径查找、推理规则配置、图结构预测等多种不同形式。与此同时,与逻辑推理关联的推理能力评估,也是检验常识推理智能的必要手段。例如,作者对常识逻辑推理,形成了一下工作:
7、基于问答社区的逻辑知识问答项目:ZhidaoChatbot.
本项目完成了一个基于线上问答社区的常识逻辑性问答机器人接口demo,本项目的问答机器人接口可以满足原因逻辑,结果逻辑,可以回答为什么,有了会怎么样等问题,也可以推荐相似性的问题,可以作为基于逻辑事理知识的一种补充,问答机器人接口可以作为开源实体性问答机器人的逻辑性问答补充,也可以为逻辑性知识库的构建提供帮助。
8、基于事理图谱的未来事件预测项目:EventPredictBasedOnEG.
基于海量数据进行因果挖掘,可以得到大量的因果知识,基于因果逻辑库,即历史因果,通过计算当前事件与历史事件的相似性,可以在定性的方式上做出一些方向性的预测,方向上包括两种,一种是积极信号,另一种是消极信号,项目介绍了一个基于因果图谱的既定事件未来预测的接口预测demo。
9、学迹事理实时知识库终身学习项目:EventKGNELL.
事理图谱版Magi,EventKGNELL, eventuality knowlege graph never end learning system,一个7*24小时不断学习的实时事理学习与搜索平台,力图紧跟实时网络信息,面向公众提供以“事件”为核心的实时结构化知识搜索服务的实时事理逻辑知识库终身学习和事件为核心的知识库搜索项目,项目实现了包括事件概念抽取、事件因果逻辑抽取、事件数据关联推荐与推理。
开放常识知识库与常识推理评测项目
本项目对现有国内外已有的常识知识库为研究对象,从常识知识库资源建设和常识推理测试评估两个方面出发进行整理,形成已有常识知识库资源集合、常识推理评测项目集合两个组成部分。
一、已有常识知识库资源集合
大类 | 小类 | 名称 |
语言学知识库 | 语言标注语料库 | Penn Treebank |
语言学知识库 | 语言标注语料库 | The Penn Discourse Tree- bank (PDTB) |
语言学知识库 | 语言标注语料库 | The Abstract Meaning Representation (AMR) corpus |
语言学知识库 | 词汇知识库 | WordNet |
语言学知识库 | 词汇知识库 | VerbNet |
语言学知识库 | 词汇知识库 | VerbOcean |
语言学知识库 | 词汇知识库 | VerbCorner |
语言学知识库 | 框架语义知识库 | FrameNet |
语言学知识库 | 框架语义知识库 | PropBank |
语言学知识库 | 预训练语义向量 | GloVe |
语言学知识库 | 预训练语义向量 | FastText |
语言学知识库 | 预训练语义向量 | wordpiece embeddings |
常识库 | 常识库 | YAGO |
常识库 | 常识库 | DBpedia |
常识库 | 常识库 | WikiTaxonomy |
常识库 | 常识库 | Freebase |
常识库 | 常识库 | NELL |
常识库 | 常识库 | Probase |
常识库 | 常识库 | Wikidata |
常识知识库 | 常识知识库 | Cyc |
常识知识库 | 常识知识库 | ConceptNet |
常识知识库 | 常识知识库 | SenticNet |
常识知识库 | 常识知识库 | Isanette and IsaCore |
常识知识库 | 常识知识库 | COGBASE |
常识知识库 | 常识知识库 | WebChild. |
常识知识库 | 常识知识库 | LocatedNear |
常识知识库 | 常识知识库 | ATOMIC |
常识知识库 | 常识知识库 | ASER |
常识知识库 | 常识知识库 | 学迹实时事理系统 |
如需查看对应地址,请在文末的原文链接进入
二、常识推理评测项目资源
大类 | 名称 | 作者 | 规模 |
Reference Resolution | Winograd Schema Challenge | Morgenstern et al., 2016 | 60 |
Reference Resolution | WinoGrande | Sakaguchi et al., 2019 | 44.0K |
Question Answering | MCTest. | Richardson et al., 2013 | 2.00K |
Question Answering | RACE. | Lai et al., 2017 | 97.7K |
Question Answering | NarrativeQA. | Kocˇiský et al., 2018 | 46.8K |
Question Answering | ARC | Clark et al., 2018 | 7.79K |
Question Answering | MCScript | Ostermann et al., 2018 | 13.9K |
Question Answering | ProPara | Mishra et al., 2018 | 488 |
Question Answering | MultiRC. | Khashabi et al., 2018 | 9.87K |
Question Answering | ARCT | Habernal et al., 2018 | 2.45K |
Question Answering | SQuAD. | Rajpurkar et al., 2018 | 151K |
Question Answering | CoQA. | Reddy et al., 2018 | 8.40K |
Question Answering | QuAC. | Choi et al., 2018 | 98.4K |
Question Answering | OpenBookQA. | Mihaylov et al., 2018 | 5.96K |
Question Answering | CommonsenseQA | Talmor et al., 2019 | 9.40K |
Question Answering | DREAM. | Sun et al., 2019 | 10.2K |
Question Answering | DROP. | Dua et al., 2019 | 96.6K |
Question Answering | Cosmos QA. | Huang et al., 2019 | 35.6K |
Question Answering | MC-TACO. | Zhou et al., 2019 | 1.89K |
Textual Enatailment | RTE Challenges. | Bentivogli et al., 2011 | 48.8K |
Textual Enatailment | Conversational Entailment. | Zhang & Chai, 2009 | 875 |
Textual Enatailment | SICK. | Marelli et al., 2014a | 9.84K |
Textual Enatailment | SNLI. | Bowman et al., 2015 | 570K |
Textual Enatailment | SciTail. | Khot et al., 2018 | 27.0K |
Textual Enatailment | SherLIiC. | Schmitt & Schütze, 2019 | 3.99K |
Plausible Inference | COPA. | Roemmele et al., 2011 | 1.00K |
Plausible Inference | CBT. | Hill et al., 2015 | 687K |
Plausible Inference | ROCStories. | Mostafazadeh et al., 2016 | 98.2K |
Plausible Inference | LAMBADA. | Paperno et al., 2016 | 10.0K |
Plausible Inference | JOCI. | hang et al., 2017 | 39.1K |
Plausible Inference | CLOTH. | Xie et al., 2017 | 99.4K |
Plausible Inference | SWAG. | Zellers et al., 2018 | 114K |
Plausible Inference | ReCoRD. | Zhang et al., 2018 | 121K |
Plausible Inference | HellaSWAG. | Zellers et al., 2019a | 70.0K |
Plausible Inference | AlphaNLI. | Bhagavatula et al., 2019 | 171K |
Intuitive Psychology | Triangle-COPA. | Gordon, 2016 | 100 |
Intuitive Psychology | Story Commonsense. | Rashkin et al., 2018a | 161k |
Intuitive Psychology | Event2Mind. | Rashkin et al., 2018b | 57.1K |
Intuitive Psychology | SocialIQA. | Sap et al., 2019b | 44.8K |
Multple Tasks | bAbI. | Weston et al., 2016 | 40.0K |
Multple Tasks | Inference is Everything. | - | - |
Multple Tasks | GLUE. | - | - |
Multple Tasks | DNC. | Poliak et al., 2018a | 570K |
Multple Tasks | SuperGLUE. | - | - |
如需查看对应地址,请在文末的原文链接进入
关于作者
刘焕勇, Liu Huanyong,2017年硕士毕业,目前就职于中国科学院软件研究所,兼任数据地平线科技算法总监。专注金融、情报两大领域,从事事件抽取、事件演化、情感分析、事理(知识)图谱、常识推理、语言资源构建与应用等研发工作。主持研发自然语言处理技术开放平台数地工场、大规模实时事理知识学习系统学迹、全行业因果链查询与溯源项目寻链系统,并在智能金融、智能情报落地中负责实施了多个项目。致力于面向中文处理的基础知识库建设与理论技术开源共享,目前累计对外开放自然语言处理实践项目六十余项,其中知识图谱和事理图谱项目十六项。在openkg开放知识图谱联盟中开放工业应用知识库七类,主笔数地工场技术类系列文章二十余篇。
原文链接:https://blog.csdn.net/lhy2014/article/details/108315274
本文来源于CSDN博客,如需转载请联系原作者。
更多精彩推荐
滴滴AI Labs负责人叶杰平离职!CTO 张博接任
5年5亿美金,华为昇腾如何构建全行业AI生态?
GitHub 标星 20000+,国产 AI 开源从算法开始突破 | 专访商汤联合创始人林达华
字节跳动斩获支付牌照欲建金融帝国,技术实力配得上野心吗?
腾讯微博即将关停,十年了,你用过吗?
相关文章:

敏捷开发实践总结(二):关于测试
用了两个冲刺周期,我们组算是把敏捷开发的测试流程给捋顺了。这里对我们的测试,以及敏捷开发中的测试做一个小结。一、开发组一定不能讳疾忌医。作为开发人员,一定要秉着这个出发点去看待测试。业务测试测试组测试,自测࿰…

手机网站的几点注意
http://www.haorooms.com/post/phone_web转载于:https://www.cnblogs.com/momox/p/6252679.html

HEAD元素使用集锦
作者:火焰鸟 文章来源:大众网络报 HTML文档由两部分组成:Head(主题部分,一般来说是不可见的)和Body(正文部分,在浏览器中是可见的)。随着FrontPage及Dreamweaver&…
10 个 Python 工程师,9 个不合格!
毋庸置疑,Python越来越被认可为程序员新时代的风口语言。无论是刚入门的程序员,还是年薪百万的 BATJ 的大牛都无可否认:Python的应用能力是成为一名码农大神的必要项。 所以,很多程序员把Python当做第一语言来学习。 但对于Python…

使用谷歌jquery库文件的理由
使用谷歌jquery库文件的理由 最近看到,那些引用jquery的文件那些网站,好多是使用谷歌的库;像这样的<script type”text/javascript”src”http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js“></script>(最近发展…

apache性能测试工具ab使用详解
网站性能压力测试是服务器网站性能调优过程中必不可缺少的一环。只有让服务器处在高压情况下,才能真正体现出软件、硬件等各种设置不当所暴露出的问题。性能测试工具目前最常见的有以下几种:ab、http_load、webbench、siege。今天我们专门来介绍ab。ab是…

HTML-加速、再加速
作者:听风 文章来源:eNet技术学院web开发人员是否必须掌握复杂的组件技术才能加快html页面的访问速度?答案是:不一定!实际上,有许多关于HTML与DHTML方面的技巧,它们原理简单而且上手容易。无…
ECCV 2020 | 对损失信息进行建模,实现信号处理高保真还原
编者按:信号在我们的日常生活中随处可见,例如:声音、图像、视频等。然而在信号的传输或存储过程中,往往会面临信号失真、质量变差等问题。今天这篇文章就来探讨一下信号处理中的信息丢失问题,其中包括微软亚洲研究院机…

斯坦佛编程教程-Unix编程工具(四)
emacs 下面将会简单的介绍一个叫做emacs的文本编辑器,它是由GNU组织提供的自由软件。它是一个非常优秀的编译器,并且,它能很好地和其他UNIX工具整合在一起。很多编辑器都有着非常多的理由来说明他们多优秀,但是这里我们就不讨论这…

addTwoNumbers
大神的代码好短,自己写的120多行_ 各种判断 ListNode *f(ListNode *l1, ListNode *l2) {ListNode *p1 l1;ListNode *p2 l2;ListNode *res new ListNode(0);ListNode *p3 res;int sum 0;while (p1 ! NULL || p2 ! NULL) { //这里用“或”sum / 10; //进位if (p1…

长江存储推消费级固态硬盘,Xtacking技术加持
9月10日,一直专注于to B的长江存储推出致钛系列两款消费级固态硬盘(SSD)新品,分别为PCIe接口PC005 Active和SATA接口SC001 Active,兼具强劲的性能和可靠的品质,并由Xtacking技术加持。目前两款产品现已登陆京东预售,两…

停电后,JavaScript定时器居然变慢了~
小停了会电。除了有点热,对于用笔记本的我们来说毫无损失。 不过,一件诡异的事却在这短短几分钟里遇到了:用 IE 测试 JavaScript 代码的时候,发现setInterval的频率变成了60帧/秒。 这在老版本的IE上面是再正常不过了。不过对于与…

HTML4.0标准语法--字体
◇ 标题字体(Header) <h#> ... </h#> #1, 2, 3, 4, 5, 6 <h1>今天天气真好!</h1> 今天天气真好! <h2>今天天气真好!</h2> 今天天气真好! <h3>今天天气真好!</h3>…

Tomcat 7.x热部署
由于在开发阶段,需要频繁的修改源代码,如果每次修改完代码都去重启服务器来检测效果,那简直麻烦到你想死,又耽误时间,所以,在网上找了许久,终于找到了解决办法, 特来分享 我也试了修…
机器学习中,梯度下降算法的问题引入
来源 | 动画讲编程今天讲解的内容是梯度下降算法。梯度下降算法在机器学习中的应用十分广泛,该算法的最主要目的是通过迭代的方法找到目标函数的最小值,经常用来解决线性回归和逻辑回归等相关问题。本节课主要讲解梯度下降算法解决一元线性回归问题&…

HTML4.0标准语法--文字布局
◇行的控制 段(Paragraph) (可以看作是空行) <p> 你好吗?<p>很好。 你好吗? 很好。 换行 <br> 你好吗?<br>很好。 你好吗?很好。 不换行<nobr> <nobr> 请改变您浏览器窗口的宽度&#x…

poj(2325)线段树
这里介绍另外一种解法,此题可以用线段树,可以用树状数组 其实这题求的都是下面的和左面的,线段树这种数组结构刚好可以满足,为什么呢?这里稍微解释下吧,也有助于以后的复习 看上面这个图,[1,1]&…

2017-1-7 html元素分类(1)
html元素分类结构性元素 section 在web页面应用中,该元素也可以用于区域的章节描述 header 页面主体的头部 footer 页面的底部 nav 专门用于菜单的导航、链接导航的元素 article 用于表示一篇文章的主体内用块级元素 aside 泳衣表达注记、贴士、侧栏、摘要的引用等作…

MyEclipse使用技巧小总结
1、 自动提示:窗口->首选项->Java->编辑器->内容辅助->自动激活,在下面的“Java的自动激活触发器里面填上“.abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789”。 2、 加快自动提示的时间:窗口->首选项…
开放源码,华为鸿蒙HarmonyOS 2.0来了
作者 | Just出品 | AI科技大本营(ID:rgznai100)去年8月,鸿蒙HarmonyOS一经发布,在开发者群体中引发强烈反响。有人赞赏华为的战略和技术,但也有不少人质疑那只是个PPT操作系统,凡此种种,热议不断…
纯CSS实现对白框
如果一个盒子的长宽都为零,那么它的四条border就会碰到一起,变成实心的,而且每一条border都是一个三角形;我们就可以利用三角形来实现对白框的尖下巴。 通过把border上左设置为有颜色,下右设置为透明,在#de…

HTML4.0标准语法--表格
表格的色彩 表元的背景色彩和背景图象<th bgcolor#> <th background"URL"> #rrggbb 16 进制 RGB 数码, 或者是下列预定义色彩名称:Black, Olive, Teal, Red, Blue, Maroon, Navy, Gray, Lime, Fuchsia, White, Green, Purple, Silver, Yello…
能力差的程序员90%输在这点上!CTO:其实都是瞎努力!
在大数据浪潮当中,数据分析是这个时代的不二“掘金技能”。我们每一个人,每天无时无刻都在生产数据,一分钟内,微博上新发的数据量超过10万,b站的视频播放量超过600万......这些庞大的数字,意味着什么&#…

zendframwork入口关键Zend_Application.php类
为什么80%的码农都做不了架构师?>>> 推荐阅读:http://www.cnblogs.com/rexy/archive/2010/05/13/1734406.html 里面有详细的类图关系,UML图。。。 转载于:https://my.oschina.net/wufa/blog/71634
2017伊始-随笔
微信小程序发布 今天,2017年1月9日,微信的小程序发布了。我打开了美团外卖小程序,然后把美团外卖app卸载了;我打开了摩拜单车小程序,然后把摩拜单车app卸载了。有人问,这种小程序与网页版的桌面图标有什么区…

广告条随滚动条的移动而移动
文章来源:蓝色理想<html><head><title>跟随滚动条的图片</title><meta http-equiv"Content-Type" content"text/html; charsetgb2312"><STYLE mediascreen typetext/css>#floater { POSITION: abs…

使用wget在linux服务器上下载oracle软件
今天需要在远程几台服务器上安装oracle软件,本地的网络不是很好,如果同本地下载,然后再上传到服务器上比较耗时。所以就想直接在服务器上直接下载软件,这样不光速度比较快,而且还节省了很多时间。 我是这样做的。 首先…
揭秘华为AI一站式开发平台,3步构建一个AI模型 | 华为昇腾师资培训沙龙西安场...
2018 年,在第三届 HUAWEI CONNECT(华为全联接大会)上,华为首次公布了 AI 战略与全栈全场景 AI 解决方案,其中包含全球首个覆盖全场景人工智能的华为昇腾(Ascend)系列处理器以及基于华为昇腾全栈…

PYTHON黑帽编程1.5 使用WIRESHARK练习网络协议分析
Python黑帽编程1.5 使用Wireshark练习网络协议分析 1.5.0.1 本系列教程说明 本系列教程,采用的大纲母本为《Understanding Network Hacks Attack and Defense with Python》一书,为了解决很多同学对英文书的恐惧,解决看书之后实战过程中遇…

20种看asp源码的方法及工具
作者:欧杨飘雪 http://blog.csdn.net/flyingsnowy/众所周知windows平台漏洞百出,补丁一个接一个,但总是补也补不净。我把我所知道的20种看asp源码的方法总结了一下,并且用c#写了个应用程序来扫描这些漏洞,发现虽然大…