当前位置: 首页 > 编程日记 > 正文

一站式了解多模态、金融、事理知识图谱构建指南 | AI ProCon 2020

整理 | 许爱艳

出品 | AI科技大本营(ID:rgznai100)

【导读】7 月 3-4 日,由 CSDN 主办的第三届 AI 开发者大会(AI ProCon 2020)在线上举行。本次大会有超万人报名参与,参与人群覆盖 60+ 领域、5000 家企业。其中有来自行业内 70+ 顶尖企业、开源社区与科研高校的近 100 位行业领袖、技术大咖与研究学者。

他们用更新鲜、更有趣、更年轻的方式,聚焦智能时代 AI 技术的发展曲线以及 AI 与社会各行业结合的最新应用进展,深入解析热门 AI 技术在行业中的实践与落地经验,揭示技术与行业发展面临的机遇与挑战。

在 7 月 4 日的知识图谱与认知智能论坛上来自高校和企业 4 位知识图谱大咖围绕知识图谱的技术进展与在场景中的应用案例为大家带来了 4 场干货满满的主题演讲。目前,论坛的直播回放已上传,大家可以收藏反复学习。

扫描下方二维码,直接观看【知识图谱与认知智能】论坛回放

以下内容根据「知识图谱与认知智能」论坛 4 位嘉宾的演讲内容,由 AI科技大本营(ID:rgznai100)整理:

嘉宾 1:漆桂林,东南大学教授,AI ProCon 2020 「知识图谱与认知智能」论坛出品人,议题为《多模态知识图谱技术进展与应用》

首先,漆教授先带领大家了解 从 2004 年至今,多模态技术及相关技术的发展历程。

直到 2013 年 NEIL:Image Knowledge Miner 出现前,无论是语义网还是 ImageNet,严格意义上来说都不算多媒体技术领域范畴,大多还处于图像与文本数据标注阶段。在 Image Knowledge Miner 项目中,研究者开始基于自动化抽取、半监督学习等技术抽取图像实体之间的关系;随后,语义网学者提出 IMGpedia 多模态知识图谱项目,不过 IMGpedia 没有对图像内可能存在的实体间关系进行深入挖掘;基于此,2019 年研究者们进一步提出 Richpedia 多媒体知识图谱。

虽然,知识图谱这类符号主义系统(System 2)与深度学习端到端的模型(System 1)两个系统都是从 Input(Question)到 Goal(Answer)的任务过程,但是两种系统的处理与推理逻辑却是完全不同的。如此,在常识性问题、知识性问答等任务中知识图谱可以弥补深度学习的不足。

那么,多模态知识图谱时又可以发挥哪些价值?

在现实场景中,多模态数据是普遍存在的,而多模态知识图谱可以帮助我们丰富信息,回答更多的问题。

多模态知识图谱的三大意义:

(1)多模态间是互补的关系

(2)通过跨模态可以获得更多的信息、细节与答案

(3)不同模态间可以进行消歧

那究竟什么是多模态知识图谱?如何定义?与传统知识图谱有哪些区别?以及更重要的课题——如何构建多模态知识图谱?可以怎么应用?在后半段的分享中,漆教授围绕三个研究工作中的问题及其解决方法都一一为大家进行了讲解。      

有了这些方法与解决问题的思路,目前多模态知识图谱技术的研究与应用还面临着哪些挑战?接下来,大家还可以投入到哪些研究问题中?大家可以观看漆教授完整的演讲分享深入了解这些内容,相信可以为你目前的学习与研究带来启发。

嘉宾 2:丁效,哈尔滨工业大学助理研究员/硕士生导师,议题为《基于事理图谱的文本推理技术》

演讲开始,丁老师便引导大家开始思考:目前大家对知识图谱都有一定的了解,那么我们为什么需要事理图谱呢?什么是事理图谱呢?与大家熟知事理图谱又可以如何应用?有哪些典型的应用场景呢?

对事理图谱有了初步了解后,我们就要跟着丁老师一起进到事理图谱工作中开始学习了。现在大家都知道了,在事理图谱中,事件是非常重要的一个概念,我们只有明确清晰了事件的定义,才能在认知层面掌握事件之间的关系(归纳、因果、上下位、条件关系等),进而组织成为知识,并通过形成的这些认知在现实场景下发挥推理与引导作用。关于刚刚提到的这四种事件之间的关系,大家可以在视频里具体学习。

有了事理图谱,我们可以做哪些文本推理任务?接下来,我们就一起来看丁效老师为大家分享的基于事理图谱的五大文本推理任务及其关键技术。

不同的任务中还存在着不同的问题,针对这些问题目前又有哪些解决方法,在后半段的分享中,大家可以详细掌握五大任务中的关键方法与技术,满满干货,不容错过!

2018--2019 年间,丁效老师所在的哈工大 HIT-SCIR 实验室连续发布了两版《金融事理图谱》,在数据规模、事件数、事件关系以及抽取结果上都在不断丰富与提升。

同时,这些事理图谱的演示系统大家还可以在线体验。

除了这些应用,事理图谱还有哪些潜在应用?大家可以扫码观看丁老师的完整演讲。

前两位老师针对多模态知识图谱和事理图谱为大家分享了当下知识图谱的热门研究问题与关键技术应用,接下来是两位业界的技术大咖为大家带来的分享,一览群智的刘老师与文因互联的鲍捷老师将通过实际业务中的需求和面临的诸多问题与挑战,为大家分享将知识图谱落地场景的实践之道。

嘉宾 3:一览群智技术副总裁 刘占亮,议题为《从AI到IA,知识图谱信息抽取在智能审单业务中的应用实践》

从大规模通用知识图谱到行业知识图谱,领域专业知识与逻辑变得更密集、更复杂深入,因而场景与需求也变得更复杂,知识图谱面临着诸多的新挑战。

以智能审单系统为例,在国际结算、跨境支付与保险理赔等场景中,知识图谱都是其背后强有力的技术支撑。

构建知识图谱的数据来源有结构化与非结构化的数据,而在知识图谱设计与构建的过程中,需要思考的一个重要问题是知识如何表示,在设计好图谱模式后,在进行知识抽取与映射转换。

在接下来的分享中,刘老师以智能审单系统包含的三个知识图谱——基础知识图谱、单据知识图谱与审核规则知识图谱为例,为大家介绍知识图谱构建的关键问题与实践经验。

  • 基础知识图谱构建流程

  • 单据知识图谱构建流程

单据知识图谱是智能审单系统中的核心技术,承担着对单据规范、单据条款、字段的理解能力,在实际业务场景的构建过程中会面临诸多挑战。

首先,面临着不同于其他 OCR 系统的技术挑战。单据图谱中的 OCR 技术不仅要识别文字,对识别后的票据还要进行要素抽取(业务分析模块);其次,单据要素抽取并不是一项简单的工作,尤其是对没有统一模板制式的票据,在信息抽取模型构建过程中需要结合多种方法来帮助开放式票据的信息抽取;最后,通过 Schema 对抽取后的信息进行归一化。

  • 审核逻辑知识图谱

下面展现了智能审单系统的完整业务流程,在构建知识图谱的过程中还有诸多技术问题,大家可以在刘老师的完整演讲中学习。

嘉宾 4:鲍捷,文因互联 CEO,议题为《深数据需要一把柳叶刀--知识图谱在金融领域实战》

如题,什么是深数据呢?这先要从一个大背景说起:感知智能时代与认知智能时代。

大家都知道,传统感知智能时代有三要素——算法、算力与数据,但它们在认知时代下却失去了原本的效果。

根本原因是认知时代是强依赖外源知识,有些问题不是有海量数据、算力资源和高精准的模型就可以解决的。所以,我们提出了新的要求——「深数据」这一概念由此而生,而传统方法在深数据上失去了原本的效能。

那究竟什么是深数据?其中最典型的案例就是在金融场景中。大部分的金融数据都是隐藏在 PDF 文件中的,目前,在信贷与债券领域中可以用到的数据不仅是结构化的数据,更多的数据是需要阅读 PDF 文件,理解其内容,进而辅助业务的实践,这就需要大量的行业或领域的专业知识。而我们需要做的就是通过机器训练进行部分的替代,识别并掌握各类文档中的语义信息,根据业务需求构建知识图谱。

大家不免提出质疑,这些通过大量数据标注进行训练,或者把 PDF 文件转换成 word,亦或者通过 ODR 识别不就可以解决了吗?直播中鲍捷老师告诉大家:并非如此简单。想象与现实间的差距是不容小觑的。对金融领域知识图谱的构建来说,其难不在于“大”、“多”,而在于“深”。

而深数据给我们带来的这些困难,我们可以怎么办呢?在接下来的分享中,鲍捷老师结合自己与团队在金融领域知识图谱构建与应用的多年经验,从深度文本分析、深度领域建模与深度场景约束三大解决方法给大家一些实践之道。

  • 深度文本分析:无论是篇章中包含的复杂语义关系,还是表格中变化多样的陈述方式,对 PDF、Word 这些文档中需要进行复杂、深度、细粒度的语义分析与理解时,都需要深度文本分析的处理。

  • 深度领域建模:想要做好金融文本分析,没有深度领域的建模也是不行。这一过程中也会有各种问题需要深入解决,如根据业务规则,如何选择正确的数值;如果只看表面数据没有业务逻辑也可能无法正确处理问题。

  • 深度场景约束:在深入场景中,我们还会面临稀疏标注、快速冷启动、定向优化、可解释性等问题。

    

在业务中,出现这些问题了,有哪些解决思路呢?如何能利用当下有限的资源解决尽可能多的问题呢?

问题已经发现了,我们可以有哪些解决方法呢?

首先,要先说明的一个观点是:我们今天讲的内容不是要反对深度学习,而是与之相反,我们要在实际中采取融合多种的方法,如 DeepQA 和 AlphaGo 的解决思路与架构,把一个问题仔细分解成几百个小问题,对每一个小问题选择合适的解决方法,再组合到一起。

这也就引出了我们今天分享的主题——深数据需要一把柳叶刀,这把柳叶刀的核心思想。这些要点在具体业务中如何实现,大家可以在鲍捷老师的分享中再深入学习。

鲍捷老师对篇章识别模型(SamartChapter技术)、表格分析(SmartTable技术)、基于 XBRL 规则进行财务数据自动化校验、稀疏标注(小样本学习)、快速冷启动、定向优化等问题的技术解决思路为大家做进一步的分析与讲解。

扫码直接观看【知识图谱与认知智能】论坛回放视频

论坛分享精彩不断,观看大会其他论坛回放,可点击「阅读原文


推荐阅读

  • 认知智能,AI的下一个十年 | AI Procon 202

  • 用 Python 可以实现侧脸转正脸?我也要试一下!

  • 周志华教授力作,豆瓣10分好评,集成学习如何破解AI实践难题 | 赠书

  • 业界首发|云原生领域首本架构白皮书重磅发布

  • 观点 | 以太坊客户端多样性问题从何而来?

相关文章:

CentOS7安装配置redis-3.0.0

一.安装必要包 yum install gcc 二.linux下安装 #下载 wget http://download.redis.io/releases/redis-3.0.0.tar.gz tar zxvf redis-3.0.0.tar.gz cd redis-3.0.0 #如果不加参数,linux下会报错 make MALLOClibc 安装好之后,启动文件 #启动redis src/redis-server &#关闭re…

ASP.NET重用代码技术 - 用户控件技术

作者: 苏红超 使用ASP.NET中的代码绑定技术来使得代码重用变得简单可行。我们发现,利用代码绑定技术我们可以容易的将我们的代码和内容分离开来,利用它可以建立可重用的代码,只是这种技术本身也存在着一些局限性。在本文中&…

liunx 下dhcp中继及服务器配置

dhcp:动态主机配置协议 使用udp协议 端口为67(服务),68(客户) 作用:动态分配地址等参数 工作模式 1. 手工 manual server—地址池 (ip—mac) 2222----1.1.1.1 dhcpclient ------地址…

PyCharm vs VSCode,是时候改变你的 IDE 了!

作者 | Sohaib Ahmad译者 | 鹿未来,责编 | 屠敏头图 | CSDN 下载自东方 IC出品 | CSDN(ID:CSDNnews)也许是我有些落伍,或者也是因为JetBrains在Python IDE的市场上占有很大的份额,以至于直到最近我才发现&a…

(转)Linux 下 查看以及修改文件权限

场景:Linux环境下远程部署项目,发现因为文件权限问题,不能执行远端的可执行文件。问题还没解决,待议。。。 1 查看权限 在终端输入: ls -l xxx.xxx (xxx.xxx是文件名) 那么就会出现相类似的信息&#…

软件文档知多少?

作者:由于本人在无数网站看到此文 无法确定第一作者 请作者与本人联系如今,软件开发越来越复杂,软件功能也越来越丰富。而几乎所有成熟的商业软件,都是靠一个开发团队齐心协力的血汗结晶。“罗马不是一天建成的!”&…

在 VMware ESXi 5.0 上安装万兆网卡驱动

2012年02月28日 | 标签: vmware esxi | 作者:vpsee 转载自:http://www.vpsee.com/2012/02/intall-network-card-driver-on-vmware-esxi-5-0/ 昨天刚发现新购的 Dell PowerEdge R710 服务器上配的 Intel Ethernet Server Adapter X520-T2 万兆网卡居然在…

漫谈 ClickHouse 在实时分析系统中的定位与作用

ClickHouse 是一款由俄罗斯Yandex公司开源的OLAP数据库,拥有着卓越的性能表现,在官方公布的基准测试中,ClickHouse的平均响应速度是Vertica的2.63倍、InfiniDB的17倍、MonetDB的27倍、Hive的126倍、MySQL的429倍以及Greenplum的10倍。自2016年…

Js+Dhtml:WEB程序员简易开发工具包(预先体验版)

作者&#xff1a;lshdic http://blog.csdn.net/lshdic/<HTML> <HEAD> <META http-equivContent-Type contenttext/html;charsetgb2312> <META nameGemeratpr content网络程序员伴侣(Lshdic)2005_开拓版> <TITLE>LD5工具</TITLE> <st…

残差网络的前世今生与原理 | 赠书

本文内容节选自《深度学习之模型设计&#xff1a;核心算法与案例实践》&#xff0c;作者言有三。本书详解了数十年来深层卷积神经网络模型的主流设计思想&#xff0c;理论讲解细致&#xff0c;实战案例丰富&#xff0c;是熟练掌握深度学习模型使用的必备参考资料。想要了解关于…

python---简单数据库

2019独角兽企业重金招聘Python工程师标准>>> #simple database#people people {Alice:{phone:2341,addr:Foo drive 23},Beth:{phone:9102,addr:Bar street 42},Ceil:{phone:3158,addr:Baz avenue 90} }#describe labels {phone:phone number,addr:address }name …

Linux系统之路——如何在CentOS7.2安装MySQL

一、Mysql 各个版本区别&#xff1a;1、MySQL Community Server 社区版本&#xff0c;开源免费&#xff0c;但不提供官方技术支持。2、MySQL Enterprise Edition 企业版本&#xff0c;需付费&#xff0c;可以试用30天。3、MySQL Cluster 集群版&#xff0c;开源免费。可将几个M…

Vml+Dhtml:制作一个应用渐变颜色效果不错的进度条

//原作:风云舞,载自: http://www.lshdic.com/bbs<HTML xmlns:v> <HEAD> <META http-equivContent-Type contenttext/html;charsetgb2312> <Meta nameGemeratpr content网络程序员伴侣(Lshdic)2004> <TITLE>效果不错的VML进度条</TITLE> &l…

使用inno setup打包程序完整脚本(.net框架检测,重复安装检测)

; 脚本由 Inno Setup 脚本向导 生成&#xff01;; 有关创建 Inno Setup 脚本文件的详细资料请查阅帮助文档&#xff01;#define MyAppName "小小鸟软件"#define MyAppVersion "2012.2.29"#define MyAppPublisher "小小鸟科技"#define MyAppURL &…

GPT-3到来,程序员会被AI取代吗?

作者 | Frederik Bussler译者 | 弯月&#xff0c;编辑 | 屠敏题图 | 自东方 IC出品 | AI科技大本营&#xff08;ID&#xff1a;rgznai100&#xff09;2017年的时候&#xff0c;曾有研究人员问&#xff1a;到2040年人工智能是否承担起大多数的编程工作&#xff1f;如今OpenAI的G…

iOS开发几年了,你清楚OC中的这些东西么!!!?

iOS开发几年了,你清楚OC中的这些东西么!!!? 前言几年前笔者是使用Objective-C进行iOS开发, 不过在两年前Apple发布swift的时候,就开始了swift的学习, 在swift1.2发布后就正式并且一直都使用了swift进行iOS的开发了, 之后就是对swift持续不断的学习, 近来swift3.0的发布, 更多的…

在做会员资料修改时,实现下拉菜单的默认项定位

作者&#xff1a;lshdic http://blog.csdn.net/lshdic/ <!--在写一个交友网站时碰到的问题,就是当会员修改资料时&#xff0c;如何定位SELECT的菜单列默认项&#xff0c;不过很容易就解决了--> <HTML> <HEAD> <META http-equivContent-Type contenttex…

NFS 文件共享的创建过程

nfs 文件共享的服务器 nfs服务需要两个软件包nfs-utils和portmap 启动nfs服务 # service portmap start # service nfs start # chkconfig nfs on 开机自动启动 配置文件&#xff1a; /etc/exports 想要共享某个文件则编辑配置文件 共享目录 共享IP&#xff08;共享属性&…

行业新风向!AI人才缺口30万,单个项目最高补贴1000万元!

最近&#xff0c;程序员届有一个重大好消息&#xff0c;可能很多人还不知道&#xff0c;那就是&#xff1a;国内某些城市已经开始程序员人才补贴了&#xff01;对于人工智能公司的项目开发、人才引进、科技研发&#xff0c;最高按照国拨经费的30%给予配套支持&#xff0c;单个项…

Robotium todolist.test.elements

2019独角兽企业重金招聘Python工程师标准>>> ElementsEditToDoItemActivity package com.example.todolist.test.elements;import android.widget.Button; import android.widget.EditText;import com.example.todolist.R; import com.robotium.solo.Solo;public cl…

经典的导航二级式导航菜单增强版

作者&#xff1a;lshdic http://blog.csdn.net/lshdic/<!--呵呵我发的上一版相信大家都看过了吧&#xff0c;想一想上一版的确是不怎么华丽&#xff0c;而且上一版是针对表格内的连接A而定位的而这一版的优点显然比上一版要华丽&#xff0c;速度一样快&#xff0c;而且是针…

【海洋女神原创】installshield 32位打包和64位打包的注意事项

32/64位问题要把握几点&#xff1a;1. 明确你的产品是否需要区分32/64位2. 明确你的产品中是否有32/64位的服务注册3. 了解InstallShield Build出来的安装包本身是32位应用程序4. 了解Windows 64位系统上的32位路径和64位路径差异以及如何在InstallShield的系统变量中找到对应的…

如何提高模型性能?这四大方法值得尝试 | CSDN 博文精选

作者 | BoCong-Deng编辑 | 屠敏封图 | 自东方 IC出品 | CSDN 博客写在前面在我们进行模型训练时&#xff0c;如果你只是想要让模型具有不错的性能&#xff0c;那么盲目地尝试网络架构足以达到目的。而在本文中&#xff0c; 我们将为你提供一套用于构建最先进深度学习模型的必备…

ORACLE11g 没有控制文件如何通过rman备份恢复数据的详细实战过程

1、副总裁需要裸恢复的严峻现实 集团总部的信息部负责人给我打电话说为了找一年前的记录&#xff0c;所以需要对一年前2015年5月1日的数据进行恢复。而2016年初因为进行迁移&#xff0c;所以有些文件可能丢失&#xff0c;手上只有rman全备文件&#xff0c;希望在一天之内找回&a…

C语言文件等题

1.#include <stdio.h>double fun(int n){ }main(){ int n; double s; printf("\nInput n: "); scanf("%d",&n); sfun(n); printf("\n\ns%f\n\n",s); NONO();}NONO(){/* 请在此函数内打开文件&#xff0c;输入测试数据&…

使用 Vml 制作立体柱状投票统计图的完整程序

作者&#xff1a;lshdic http://blog.csdn.net/lshdic/<!--以下便是完整的 JsVml 制作柱状投票统计图的完整程序,保存为HTM文件运行即可看到效果其中 array数组中的分组可以为6个也可以为2&#xff0c;3&#xff0c;4&#xff0c;5个等,运行以下程序需要您的浏览器支持VML…

Python, C++和Java代码互翻,Facebook开发首个自监督神经编译器

译者 | 刘畅出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;将早期的编程语言&#xff08;例如COBOL&#xff09;的代码库迁移到现在的编程语言&#xff08;例如Java或C&#xff09;是一项艰巨的任务&#xff0c;它需要源语言和目标语言方面的专业知识。COBOL如今仍在…

pinpoint的id的生成

traceId的生成 public String getTransactionId() {return TransactionIdUtils.formatString(agentId, agentStartTime, transactionSequence);}public static final String TRANSACTION_ID_DELIMITER "^";public static String formatString(String agentId, long …

X@X.X域名转向的实现

www.chinacs.net 中文C#技术站 当你看到csdncsdn.com时&#xff0c;你肯定把这当作电子邮件地址&#xff0c;其实这个不一定是邮件地址&#xff0c;有可能是域名。现在有越来越多的人开始使用这个形式的地址了。初看起来&#xff0c;你不要以为这个是一个什么非常了不起的技术&…

GPT-3 的到来,程序员会被 AI 取代吗?

无需任何训练&#xff0c;AI可用任何语言编程。作者 | Frederik Bussler译者 | 弯月&#xff0c;责编 | 晋兆雨头图 | CSDN 下载自东方 IC来源 | CSDN以下为译文&#xff1a;2017年的时候&#xff0c;曾有研究人员问&#xff1a;到2040年人工智能是否承担起大多数的编程工作&am…