当前位置: 首页 > 编程日记 > 正文

visual-reasoning 笔记

目录

整理最近学习 visual-reasoning的笔记

1. 关注 ACL、EMNLP、NAACLI等会议文章

未开始

2. Cyc项目

2.1 cyc知识库介绍:

​ 该知识库包含了320w条人类断言,30w概念,15000谓词。

​ Cyc知识库中表示的知识一般形如“每棵树都是植物”、“植物最终都会死亡”。当提出“树是否会死亡”的问题时,推理引擎可以得到正确的结论,并回答该问题。

​ cyc中的概念被称为常量,主要有以下几种常量。

  • 个体

  • 集合

  • 真值函数

  • 函数

  • 谓词

    • 最重要的谓词是#isa 以及 #genls。 #isa 表示某个对象是某个集合的个体,#genls表示某个集合是另一个集合的子集。

    句子中可以包含变量,变量字符串以 "?"开头,这些句子被称为“规则”。

2.2 对Cyc项目的批评:(我们可以借鉴吸收的经验)
  • 该系统具有创建百科全书式知识库的野心,但却手动添加所有的知识到系统中
    • 我们是否可以通过程序、脚本等辅助工具尽量自动化完成这一工作
  • 其他都是一些技术难点,比如对物质概念的解释难以令人满意,缺乏测试系统,该系统在广度和深度上都有待完善。

3. WordNet

3.1 介绍

​ 常规词典忽略了词典中同义信息的组织问题。WordNet将词汇分成五个大类:名词、动词、形容词、副词和虚词。 特色之处在于根据词义来组织词汇信息,按照词汇的矩阵模型组织的。

​ WordNet中单词关系包括如下几种:同义关系、反义关系、上下位关系、部分关系。

​ 词形之间的词汇关系:同义关系、反义关系

​ 词义之间的语义关系:上位关系(父集)、下位关系(子集)

WordNet 按照词汇的矩阵模型组织

Snipaste_2019-08-03_17-09-02.png

4. Conceptnet

ConceptNet 是一个大规模的多语言常识知识库,其本质为一个以自然语言的方式描述人类常识的大型语义网络。ConceptNet 起源于一个众包项目 Open Mind Common Sense,自 1999 年开始通过文本抽取、众包、融合现有知识库中的常识知识以及设计一些游戏从而不断获取常识知识。ConceptNet 中共拥有 36 种固定的关系,如 IsA、UsedFor、CapableOf 等,图 4 给出了一个具体的例子,从中可以更加清晰地了解 ConceptNet 的结构。ConceptNet 目前拥有 304 个语言的版本,共有超过 390 万个概念,2800 万个声明(statements,即语义网络中边的数量),正确率约为 81%。另外,ConceptNet 目前支持数据集的完全下载。

5. visual question answering as reading comprehension 李晖老师文章

main contribution

  • 将 vqa 转换为 tqa任务,可以tqa的技术解决问题
  • propose two type of vqa model
  • it is easy to extend to adress knowledge based vqa

nipaste_2019-08-04_16-24-3

nipaste_2019-08-04_16-25-4

6. From Recognition fo Cognition: Visual Commonsense Reasoning

R2C Model

nipaste_2019-08-03_21-31-2

task

  • 给定image, objects bbox ,query(question), four responses(answers), rationale,
  • task 1:(Q -> A)对于一个query, 从四个候选response 中选择一个
  • task 2: (QA -> R)如果选择出正确的response, 从四个候选 retionale中选择一个

可取之处:

  • 利用到object bbox
    • Grounding 中:把名词对应roi image 的feature 加入 LSTM中,如上图的【person 4】的 object feature
    • Contextualization: 让 response 跟所有 object bbox feature 进行attention

不理解的地方:

  • BERT 在网络中发挥什么作用?对输入的文本信息进行编码??
  • Contextualization输出的是什么信息???

7. FVQA

作者从 coco和imagenet 中挑选了 2190张图片,这些图片主要包含三类 visual concept :

  • Object: 图片中的真实实体(例如人、汽车、狗等)。它们是由两个分别在MS-COCO和ImageNet上训练的Fast-RCNN模型得到的。同时还利用了一个image attribute model在没有在图像中定位的情况下标注了92个objects。一共有326个不同的object class。
  • Image Scene: 关于图像中的场景信息(例如办公室、卧室、海滩、森林等)。这是通过VGG-16在MIT Place 205-class数据集上训练得到的,同时使用了包含25个scene class的attribute classifier。最终一共包含221个不同的scene class。
  • Action: Attribute model提供了24类不同的人或动物的动作,例如走路、跳跃、冲浪、游泳等。

而关于这些visual concept的knowledge则是从DBpedia、ConceptNet、WebChild等已有的外部KB中抽取的:

  • DBpedia: 在DBpedia中存储的数据是从Wikipedia中抽取的到的。在这个KB中,concepts根据SKOS Vocabulary被link到它们各自的categories或者super-categories。
  • ConceptNet: 这个KB是由几个commonsense关系组成的,例如UsedFor, CreatedBy和IsA。这篇文章中作者使用了11个common relationships来产生问题和答案。
  • WebChild: 这个数据库中包含了一些比较级关系,例如Faster、Bigger和Havier。

数据集构造

数据集组成:

  • knowledge base
    • 提供common sense
  • image-question-answer
    • multiple-choices or other???

knowledge base中信息 类别

  • CV 类
    • 获取方式
      • 从coco数据集中提取 cv common sense
      • 用image captioning 的model生成,输入大量图片, 获取cv commense sense
    • 类别:
      • 位置常识
      • action
      • image scene
  • 非 CV类
    • 获取方式
      • 各种常识性知识从 concept net等 knowledge base中抽取
    • 类别:
      • object
      • action
      • scene
      • 上述出现的名词从kb中抽取 相关信息

knowledge base 存储形式:

  • 初步想法:
    • 三元组形式存储
  • 进一步:
    • 以图的形式存储(如何存储,如何查询 需要考虑)

转载于:https://www.cnblogs.com/yeran/p/11318135.html

相关文章:

使用beanutil简化request值的接收

在刚开始学习java web的时候,我们想要接收从其他页面传过来的值常使用以下的语句 request.setCharacterEncoding("UTF-8");String Kind1 request.getParameter("foodKind");String Code1 request.getParameter("foodCode");String…

命令行编译运行CSharp文件

命令行编译运行CSharp文件 找到csc.exe所在的路径。如我本机上为“C:\WINDOWS\Microsoft.NET\Framework\v2.0.50727”在环境变量里增加变量CSC_HOME,值为以上路径。在PATH变量的值中加入%CSC_HOME%在cmd中进入要编译的cs文件所在的文件夹输入命令csc 文件名&#xf…

大话IT职场之工作和生活的平衡

每一个职场人都有自己的规划,特别是IT人员,基本都在想我要几个月掌握这门技术或语言,我要多久能带团队,我多长时间可以做到管理岗位,技术经理、技术总监等,每个人基本都充斥着这样的想法。但是否同时也在考…

安装和使用git遇到的问题总结

一,centos7下安装(因为centos7下用yum安装git的版本太低了,所以只能下载源代码,然后用源代码安装) 下载编译工具 yum -y groupinstall "Development Tools" 下载依赖包 yum -y install zlib-devel perl-ExtUtils-MakeM…

Linux系统文本命令快速登录与退出

Linux是一个多用户的操作系统,用户要使用该系统,首先必须登录系统,使用完系统后,必须退出系统。用户登录系统时,为了使系统能够识别自己,必须输入用户名和密码,经系统验证无误后方能进入系统。在…

调试 后台 ajax post 对应的php的方法

在对应的javascript中 $.post("<?php echo ROOTURL ?>/Service/SetPlayerStartCord.php", "IP192.168.0.32&startCord_X400&startCord_Y30", function(data){!!!alert("Data Loaded: " data); }转载于:https://www.cnblogs.com…

log4j在eclipse上使用简介

Log4j是Apache的一个开源项目&#xff0c;通过使用Log4j&#xff0c;我们可以控制日志信息输送的目的地是控制台、文件、GUI组件&#xff0c;甚至是套接口服务器、NT的事件记录器、UNIX Syslog守护进程等&#xff1b;我们也可以控制每一条日志的输出格式&#xff1b;通过定义每…

关于编程的浅学习与深学习

导读&#xff1a;Tanky Woo的程序人生在博客中发表了《关于编程的浅学习与深学习》&#xff0c;文章是关于编程学习的一个提议、归纳、总结。以下是文章全部内容&#xff1a;关于编程的学习&#xff0c;大家肯定都知道&#xff0c;也是大家都说来说去的&#xff0c;就几句话&am…

shiro实战系列(一)之入门实战

一、什么是shiro? Apache Shiro 是一个强大而灵活的开源安全框架&#xff0c;它干净利落地处理身份认证&#xff0c;授权&#xff0c;企业会话管理和加密。 Apache Shiro 的首要目标是易于使用和理解。安全有时候是很复杂的&#xff0c;甚至是痛苦的&#xff0c;但它没有必要…

数据源和连接池

JDBC数据源&#xff1a; Data Source JDBC中提供了javax.sql.DataSource接口&#xff0c;负责建立与数据库的连接 DataSource对象可以由Web服务器提供&#xff0c;前提是需要在服务器配置DataSource&#xff08;包括连接池&#xff09; 连接池&#xff1a;Connection Pool…

FastReport.net 使用 Winform WebForm打印

delphi用的fastreport比较多 所以。net中也研究一下用法,这个打印控件还是很简单的 只要手动设计一下写少许代码就可以打印了 甚至可以写成通用代码 以后就可以不用写代码 安装demo会同时安一个设计器 打开设计器 通过设计器设计模板 新建数据源 新建数据集 查询单表全部内容&…

Ubuntu 12.04安装Sun JDK 6

Ubuntu 12.04安装Sun JDK 6 下载 sun jdk 6 bin. 设置权限 chmod x jdk-6u25-linux-i586.bin 解压文件 ./jdk-6u25-linux-i586.bin 移动位置到 sudo mv jdk1.6.0_25 /usr/lib/jvm/ 设置系统环境 sudo update-alternatives --install /usr/bin/javac javac /usr/lib/jvm/jdk1.6.…

如果你的云服务商倒闭该怎么办?

如果你的云服务商倒闭或暂时中断服务&#xff0c;以下4个步骤能够帮助你的企业把损失减少到最低。 2009年2月&#xff0c;云服务商Coghead在一封写给客户的电子邮件中宣布该公司"由于受到经济挑战的影响"&#xff0c;将立即终止基于云的开发平台服务。随后&#xff0…

Ubuntu16.04桌面系统如何配置和启动wireshark

上一篇介绍了在Ubuntu系统中安装wireshark 本篇介绍在Ubuntu系统中配置和启动wireshark&#xff1b; 安装好后&#xff0c;直接在终端运行$ wireshark。出于安全方面的考虑&#xff0c;普通用户不能够打开网卡设备进行抓包&#xff0c;Wireshark不建议用户通过sudo在root权限下…

[导入]笔记本”终极“散热方案

笔记本老了&#xff0c;三年了&#xff0c;电池不太行了&#xff0c;散热量也大。解决电池问题首先是能耗的问题&#xff0c;我把能够卸下来的光驱和读卡器都拆了&#xff0c;这下留了一个大长孔&#xff0c;很好的是这样散热问题也得到了解决&#xff0c;光驱的大孔和读卡器那…

Android中Broadcast

前一段时间&#xff0c;听说过android的广播&#xff0c;这段时间经过研究终于可以写出一个Demo 首先新建一个android工程项目 在BroadCastActivity.java中 package com.mypack;import android.app.Activity; import android.content.Intent; import android.os.Bundle; import…

java web三大组件之filter过滤器

过滤器是java web中相当重要的组成成分&#xff0c;是JavaWeb三大组件之一&#xff0c;它与Servlet很相似。不过过滤器有以下三条特性&#xff1a; 过滤器是用来拦截请求的&#xff0c;而不是处理请求的。当用户请求某个Servlet时&#xff0c;会先执行部署在这个请求上的Filte…

Permission denied: make_sock: could not bind to address [::]:81 Apache 虚拟主机

想建立一个测试用的虚拟主机&#xff0c;遇到了这个问题&#xff1a; [rootlocalhost html]# service httpd start Starting httpd: httpd: Could not reliably determine the servers fully qualified domain name, using localhost.termwikidev for ServerName (13)Permissio…

E: GPG 错误:http://developer.download.nvidia.com Release: 下列签名无效: NODATA 1 NODATA 2...

参考链接&#xff1a;https://github.com/NVIDIA/nvidia-docker/issues/571 在安装CUDA的时候出现的问题&#xff0c;根本原因是各位都懂的地区局域网特色&#xff0c;我试了很多方法&#xff0c;结果还是Github上一个老铁提出的一个简单方法&#xff1a;修改/etc/apt/sources.…

spring 框架学习(一)

1、spring简介 Spring 是一个开源框架&#xff0c;是为了解决企业应用程序开发复杂性而创建的。框架的主要优势之一就是其分层架构&#xff0c;分层架构允许您选择使用哪一个组件&#xff0c;同时为 J2EE 应用程序开发提供集成的框架。Spring的一个最大的目的就是使JAVA EE开发…

Styling with the DataGridColumnStyle

详细讲解了如何自定义DataGrid控件&#xff0c;将多种控件&#xff08;如&#xff1a;进度条、按钮、下拉框&#xff09;绑定到数据列中 参考MSDNPart 1&#xff1a;http://msdn.microsoft.com/en-us/library/ms996449Part 2&#xff1a;http://msdn.microsoft.com/en-us/libra…

Excel常用公式记录

1.生成指定时间段内的日期&#xff1a; TEXT("2019/8/9 00:00"RAND()*54,"yyyy/mm/hh HH:MM") 注意&#xff1a;RAND()*54&#xff0c;54指从2019/8/9日起的54天&#xff0c;有时会有2019/8/00的错误格式 2.生成类似于“第一级”&#xff0c;“第二级”类似…

Delphi XE2 发布了,期待了很久的东西,开始学习中。

这个博客将记录我学习DELPHI XE2及开发相关应用程序的点点滴滴&#xff0c;因此该博客内容全部原创&#xff0c;我也不会转载和抄录别人的代码。为了让大家和我一同进步&#xff0c;所有示例都带源代码&#xff0c;你可以随时下载后进行调试运行。 Delphi--一个伴随我12年的开发…

基于libmad库的MP3解码简析

基于libmad库的MP3解码简析 MAD &#xff08;libmad&#xff09;是一个开源的高精度 MPEG 音频解码库&#xff0c;支持 MPEG-1&#xff08;Layer I, Layer II 和 LayerIII&#xff08;也就是 MP3&#xff09;。LIBMAD 提供 24-bit 的 PCM 输出&#xff0c;完全是定点计算&#…

oracle数据库增加新字段

--Add/modify columns alter table 表名 add 字段名 类型; --------------------------------------------------------------------- --Add comments to the columns comment on column CE00.eec000 is xxx;转载于:https://www.cnblogs.com/yby120/p/9138801.html

list @size 验证_第33期:上海自来水来自海上,回文字符串验证!

我准备了 1000 本电子书和计算机各领域高清思维导图 100 张&#xff0c;关注后回复【资源】&#xff0c;即可获取&#xff01;更可回复【内推】加入 BAT 内推群&#xff01;01、题目示例见微知著&#xff0c;发现一组数据很有趣&#xff0c;分享给大家。leetcode 第一题通过次数…

安装apache的时候80端口被PID为4的系统进程所占用

由于工作中需要直接从MySQL后台读取数据&#xff0c;所以安装了PHPnow&#xff0c;装的过程中提示Apache安装失败&#xff0c;80端口被占用。 在cmd中输入netstat –ano命令&#xff0c;发现80端口被一个PID为4的服务所占用&#xff0c;打开任务管理器&#xff0c;发现PID为4的…

PHP根据时间戳返回星期几

为什么80%的码农都做不了架构师&#xff1f;>>> <?php /*** 根据时间戳返回星期几* param string $time 时间戳* return 星期几*/ function weekday($time) {if(is_numeric($time)){$weekday array(星期日,星期一,星期二,星期三,星期四,星期五,星期六);return…

FastCGI与php-fpm

FastCGI&#xff1a;为了兼顾IIS下PHP的效率和安全&#xff0c;微软给出了FastCGI的解决方案。同ISAPI原理有些类似&#xff0c;就是减少CGI初始化等前置操作的消耗。FastCGI可以让PHP的进程重复利用而不是每一个新的请求就重开一个进程。同时FastCGI也可以允许几个进程同时执行…

postmaster.c 中的 ListenAddresses

在 postmaster.c 中看到这种代码&#xff0c;从Java程序员的角度&#xff0c;看起来是很不爽的: char *ListenAddresses; ...if (ListenAddresses){ char *rawstring; List *elemlist; ListCell *l; ... 到底何…