多模态商品推荐与认知智能背后的数学
在数据挖掘领域,KDD CUP是最有影响力、最高水平的国际顶级赛事,堪称大数据的“奥运会”。阿里巴巴作为KDD CUP 2020的主办方为参赛团队准备了两大赛题,第一道是关于“电商场景的多模态商品推荐”,下面就这一道题目从认知智能与数学角度谈谈我的理解和可能性的理论框架设计。
一、早期的单模态任务检索
作为数据挖掘师,我们最早的目标是处理单模态的检索任务,即用文本来检索文本,还停留于对自然语言的处理及理解问题上。这里面出了谷歌、百度等传统的搜索引擎,当时为了满足模态间的检索需求,这些搜索引擎也出现了类似的跨模态搜索,但其本质依然是文字搜索,不过是为图片打上了相应的文字标签,然后利用文本搜索得到对应图片。那如何为无标签图片自动打上相关的标签就成为了实现该类功能的核心问题。同时,管理海量图片是否也应该考虑到图片和文本间直接的内在联系。这一系列实际问题的提出也指明了数据挖掘的发展方向。
二、基于多模态的图像和视频召回
随着大数据和互联网的高速发展,我们平常接触的数据日趋复杂和多样,尤其随着内容化的发展,大量的多模态数据,如图像、视频、文本,在我们的生活中随处可见。因此在如今的搜索和推荐算法下,基于多模态的图像和视频召回具有着重要的现实意义。
在这里,我们先熟悉下在图像视频推荐上,传统的三种召回方式:行为召回、语义召回和视觉召回。
行为召回是指使用对用户历史行为建模的协同过滤方法进行召回。一方面对于新用户,我们不能确认其喜好,没有历史数据可以参考来推荐内容;另一方面对于用户分享的新视频、新图片等内容,同样因为缺少用户交互数据,我们不能确定可以将其推荐给哪些用户。因此,协同过滤方法依赖用户的历史数据,只有在交互数据足够多的时候,才能够取得非常好的效果。
语义召回是指利用视频相关的元数据作为视频特征,用于内容召回。元数据是指标题、副标题、分类等等,如果是影视类的,还可能有导演、演员等信息。元数据是高度语义相关的信息,能和用户的兴趣直接关联起来,用于推荐会有很好的效果。其问题在于元数据缺失或者不可信。
视觉召回是指对视频内容进行建模,计算视频之间的相似性,从而参照用户的历史观看数据,推荐相似的视频。其问题在于可能召回语义上不相关的内容,降低用户体验。三种经典召回方法各具有优缺点,能否将三种或其中两种方法进行结合创造出新方法也是数据科学家们的任务。
三、跨越不同模态之间的语义鸿沟
另外,尽管视频化已经形成潮流,直播、短视频等早已风靡全球,但是如何检索视频依然存在很多困难。视频作者往往不会为自己的视频起一个能充分涵盖其视频内容的标题或描述,视频检索也将成为一项重要的技术。因此基于多模态的召回作为多模态学习的子任务,是可以给业界各个领域带来帮助的。我们已经知道,爆炸式增长的多媒体信息来源于不同的渠道,但不同的模态依然可以被相同的语义类型所表示。注意,这里仍然是将多模态信息打上同一语义类型的标签。
一般来说,互联网中存在着大量的被文字进行描述的视频、图片及音频等多媒体数据,它们能够表达相同或者相近的语义信息。组织和管理大量的多媒体信息需要将不同模态的数据进行关联,挖掘不同模态间的关联信息成为了其核心的问题。挖掘不同模态间的关联实质上是搭建起不同模态间的语义间隙,使得不同模态数据能够表示同一种语义信息。随之而来的问题是如何表示多模态的数据及如何在模态间建立有效的关联来降低模态间的语义间隙。针对多模态数据特征表示,许多研究人员对其做出了深入研究与探索。如既有利用传统的人工特征来表示图像,又有利用前沿的深度学习技术来提取图像特征。而更为重要的是建立模态间关联的方法,如何能够提升模态间的关联程度并有效地组织多模态数据成为了核心研究内容。
为了能够有效地组织和管理多模态数据,研究人员提出了许多解决方式。最为直接的便是跨模态检索,其实现的目标是使用给定查询模态来检索另一种模态,研究人员通常关注于使用文本来检索图像和使用图像来检索文本两个方面,实现了两种模态间的交叉检索。另一种解决方式是图像的自动标注,通过标注无标签的图像,使得图像拥有更为直接的文本信息,便于图像数据的组织与管理。
四、多模态学习背后的认知智能机制和假想设计的数学框架
人工智能1.0已经逐步解决了“听、说、看、写、译”等基本问题,也就是利用自然语言处理、人工语音合成、计算机视觉和图像处理等各种单项弱人工智能攻克每个方向的学习任务。新一代的人工智能2.0将更多基于数据,自动将非结构化的数据转变为结构化的知识,做到真正意义上的认知智能。探索如何保持大数据智能优势的同时,赋予机器常识和因果逻辑推理能力,实现认知智能是当下人工智能研究的核心。
要深刻认识这个核心,我们需要充分了解人脑在处理信息时的底层逻辑。然后从认知心理学、脑科学以及人类社会的发展历史中汲取的灵感,来构建认知智能的底层架构。这里,笔者就自己的认识来谈谈如何设计机器处理信息的底层数学框架。
首先,人类的大脑是通过面部的五个感觉器官将我们的周身万物进行了“区分对待”,然后再通过意识进行了分类。进一步,相同的、相似的事物又会通过或直觉或逻辑推演等思维过程进行聚类。于是有了“名”,有了“概念”,有了“定义”。
归根结底,人的思维活动即概念的划分。人生出来,世界是混沌一团,叫零概念,内涵为空。随着知识的增加,概念越分越细。北师大的汪培庄教授认为:从上位概念到下位概念(例:水果到苹果),外延越来越小,内涵则是在继承上位概念的内涵之后又补充一些新的属性描述。从上位概念到下位概念的分解过程就是人类认知的一个认知单元。概念划分离不开因素。每个认知单元都对应着一组因素,叫做单元因素。这组单元因素构成一个因素空间。叫做认知单元空间。因素空间的认知单元空间直接而完整地用数学描述了人的认知单元。我们可以将因素空间看成以属性名为轴的坐标系,任何事物都可被抽象成因素空间的一个点。这样就建立了信息描述的普适性框架。建立因素空间的目的不仅仅是为了事物定位,在诸因素的属性组态中,是有逻辑关系的,它从全部的认知信息中决定了概念与推理的提取。从此,数据的角色就起到了变化,从分析的土壤变成培植的对象。
举一个实物为例,我们从最开始将其判定为水果,对于水果我们可以在因素空间里找到定位。但这个定位并不是一个点,我们还需要向下找下位概念。所以还要从形状颜色纹路、敲声、切开后清爽的气味、品尝时某类甘甜的滋味、触摸外皮时光滑的触感等等信息,融合这五大类信息,我们的大脑给此类物体下个称谓为西瓜。输入端是五个类型的信息,输出端是一个物品称谓,我们将类似的处理过程称之为“信息融合”。
实际上,我们学习新知识的过程,就是一个新信息和旧信息不断融合产生新概念、新结论的过程。输入端可能是各类历史、各类定义和特征,输出端往往是各种结论,各种定理和名称。人的大脑就是中间处理信息的黑盒子。从输入输出来看,如果输入端信息越多越详细越精确,那么输出端的信息会趋向越简洁越精准越有价值,这个价值是指利用输出端简洁明了的、赋予了规律的信息来指导未来。对于具体的事物,在因素空间里的定位会更精准。人类趋吉避凶的本能,决定了人类会无休止的搜集、汲取输入端的信息,厘清信息之间的关系,从而得到强规律性的结论。
在以深度学习为代表搅起AI风暴的今天,我们一般将这些海量的输入端信息叫做大数据。如果一类信息在数据库里,可以用二维表结构来逻辑表达实现,那么我们称之为结构化数据。如果一类信息不方便用数据库二维逻辑表来表现,即称为非结构化数据,包括图片、图像和音频、视频信息等等。介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等),我们称之为半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。这三种形式其实也可以说是多模态信息。
目前,不管是人类还是机器所需要处理的数据多属于非结构化数据,它们需要进一步加工,但有些我们可以用结构化数据表示,如体感里的温度,我们可以用数字来衡量。处理这些数据的过程,也就是黑箱子,就是我们的算法实现。如何将这么多不同种类的异构数据源进行信息融合,是大数据处理的一个难点。在尚未找到统一框架的情况下,因素空间可以成为异构数据处理的一个参考。它既是描述一切事物的框架,就可以同时接纳图片,音响,视频和文字等异构的数据。对它们的处理都集中在‘释义’二字上。根据任务的需求,从粗概念开始,先作大划分,逐步细化。事实上,在工程实践中,我们多多少少依循了这个处理思路,数学逻辑框架的搭建有助于对未来的前沿进展指出一条清晰的路。
相关文章:

Asp.net MVC2.0系列文章-运行Web MVC2.0 Demo
安装VS2010 首先安装VS2010,安装过程请参考文章:http://www.cnblogs.com/ywqu/archive/2010/01/27/1657450.html。创建第一个MVC2.0程序 新建一个asp.net MVC2.0网站程序,如下图:提示是否新建单元测试工程,选择创建Uni…

one pragmatical sqlhelper
namespace ConsoleApplication2 {using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Data;using System.Data.SqlClient;using System.Configuration;public class SqlHelper{/// <summary>/// 连接字符串/// </summa…

LINUX动态链接库高级应用
在《 LINUX下动态链接库的创建与应用》 一文中,我介绍了LINUX动态链接库的基本知识.其要点是:用户根据实际情况需要,利用dlopen,dlsym,dlclose等动态链接库操作函 数,装入指定的动态链接库中指定的函数,然后加以执行.程序中使用很少的动态函数时,这样的做法尚可.如果程序需要调…
林轩田机器学习基石课程学习笔记1 -- The Learning Problem
来源 | AI 算法与图像处理 主要内容What is Machine LearningApplications of Machine LearningComponents of Machine LearningMachine Learning and Other FieldsWhat is Machine Learning什么是“学习”?学习就是人类通过观察、积累经验,掌握某项技能…

裸创,你敢吗?
呵呵

ecshop修改注册、增加手机
1.去掉“用户名”注册 a.去掉提交 user_passport.dwt页面去掉 <input name"username" type"text" size"30" id"username" οnblur"is_registered(this.value);" class"input_login" />提交 b.去掉js表单验证…
使用NetBeans IDE开发C程序
使用NetBeans IDE开发C程序 在windows下开发调试linux环境的代码,同时还可以拷贝到Linux环境。 其实是NetBeans可以连接到远程Linux服务器,使用其中的GNU编译环境。 1.打开NetBeans,新建C/C项目: 下一步: 如果之前配置…

实验七 访问列表配置
实验七 访问列表配置 预备知识: ACL指令的放置顺序是很重要的。 当路由器在决定是否转发或者阻止数据报的时候,Cisco的IOS软件,按照ACL中指令的顺序依次检查数据报是否满足某一个指令条件。 当检测到某个指令条件满足的时候,就不会…
京东商城背后的AI技术能力揭秘 - 基于关键词自动生成摘要
来源 | 京东智联云开发者过去几十年间,人类的计算能力获得了巨大提升;随着数据不断积累,算法日益先进,我们已经步入了人工智能时代。确实,人工智能概念很难理解,技术更是了不起,背后的数据和算法…

CSS哲学伪命题
标题党。这篇文章断断续续的修改过好几次,也没有满意,本来是想总结一下我这些零散的 CSS 知识结构,可能由于知识体系不全面,总是没能把知识点串联成一个通顺的内容。贴出来权当大家一起讨论下“前世今生”。文章后续可能会不定时更…

Linux TCP/IP协议栈笔记
数据包的接收作者:kendoKernel:2.6.12一、从网卡说起这并非是一个网卡驱动分析的专门文档,只是对网卡处理数据包的流程进行一个重点的分析。这里以Intel的e100驱动为例进行分析。大多数网卡都是一个PCI设备,PCI设备都包含了一个标…
技术大佬的肺腑之言:“不要为了 AI 而 AI”! | 刷新 CTO
扫描上方二维码直达精彩回顾整理 | 伍杏玲出品 | CSDN(ID:CSDNnews)据 CSDN 最新数据统计显示,在 CSDN 3000万的注册开发者中,689 万开发者有阅读、撰写与研究 AI 技术的行为,聚焦 AI 学习及应用的开发者人…

Silverlight中使用CompositionInitializer宿主MEF
MEF可以在传统应用程序中使用(包括桌面的Winform、控制台程序和Web的ASP.NET),也可以在RIA的Silverlight中使用。在Silverlight中只是宿主的方式有所不同,实际上在Silverlight中也可以像传统应用程序中是方式去宿主,ME…
Verilog与SystemVerilog编程陷阱:怎样避免101个常犯的编码错误
这篇是计算机类的优质预售推荐>>>>《Verilog与SystemVerilog编程陷阱:怎样避免101个常犯的编码错误》 编辑推荐 纠错式学习,从“陷阱”中学习编程,加深对语言本身的理解。逆向式学习,从错误中学习避免错误的方法。让读…

Linux网卡驱动程序编写
Linux网卡驱动程序编写 [摘自 LinuxAID] 工作需要写了我们公司一块网卡的Linux驱动程序。经历一个从无到有的过程,深感技术交流的重要。Linux作为挑战微软垄断的强有力武器,日益受到大家的喜爱。真希望她能在中国迅速成长。把程序文档贴出来࿰…
旷视提双边分支网络BBN:攻坚长尾分布的现实世界任务 | CVPR 2020 Oral
作者 | 旷视研究院出品 | AI科技大本营(ID:rgznai100)导读:本文是旷视 CVPR 2020 论文系列解读文章,也是 CVPR 2020 Oral展示论文之一,它揭示了再平衡方法解决长尾问题的本质及不足:虽然增强了分类器性能&a…

kissy core
http://code.google.com/p/kissy/转载于:https://www.cnblogs.com/pinnasky/archive/2010/07/07/1772646.html
VIM多窗口编辑
vim提供多窗口编辑的功能,可以简化复合的编辑任务。vim的多窗口并不是说在终端上启动多个vim实例。启动多窗口编辑 vim的多窗口是动态的,可以开始编辑时就打开多窗口,也可以工作时随时增加新窗口,或者删除一个窗口。$ …
从Nginx绑定80端口学套接字编程
《UNIX网络编程(卷1):套接字联网API(第3版)》 ngx_connection.c ngx_int_t ngx_open_listening_sockets(ngx_cycle_t *cycle) {int reuseaddr;ngx_uint_t i, tries, failed;ngx_err_t err;ngx_log_t *log;ngx_socket_t …
中国无人机“老炮儿”回忆录
整理 | 夕颜采访嘉宾 | 刘宾,通飞航空总工程师、飞行教员来源 | CSDN(ID:CSDNnews)今天的采访嘉宾有些与众不同,在我的印象中,这是一位不原意用“中国式”讲话与人沟通的人,因为费劲,也只有在回…

一些常用DOS命令
1. gpedit.msc-----组策略2. sndrec32-------录音机3. Nslookup-------IP地址侦测器4. explorer-------打开资源管理器5. logoff---------注销命令6. tsshutdn-------60秒倒计时关机命令7. lusrmgr.msc----本机用户和组8. services.msc---本地服务设置9. oobe/msoobe /a----检查…

linux文本编辑nano
2019独角兽企业重金招聘Python工程师标准>>> Nano命令指南 今天在输命令时,无意中输入了nano,对这个命令不太熟悉,结果不知道如何才能退出,保存,赶快查了一下资料,原来是这样的啊。打开文件与新…

write的奥秘
在Linux下我们在使用设备的时候,都会用到write这个函数,通过这个函数我们可以象使 用文件那样向设备传送数据。可是为什么用户使用write函数就可以把数据写到设备里面 去,这个过程到底是怎么实现的呢? 这个奥秘就在于设备驱动…

常用的键盘命令
Alt空格C 关闭窗口 <?xml:namespace prefix o ns "urn:schemas-microsoft-com:office:office" />Alt空格N 最小化当前窗口 Alt空格R 恢复最小化窗口 Alt空格X 最大化当前窗口 Alt空格M 移动窗口 Alt空格S 改变窗口大小 AltTab 两个程序交换 Alt255 QQ号中输…
京东智能内容创作算法的演进与实践:基于关键词自动生成摘要
来源 | 京东智联云开发者导读:京东商城背后的 AI 技术能力揭秘: 基于关键词自动生成摘要过去几十年间,人类的计算能力获得了巨大提升;随着数据不断积累,算法日益先进,我们已经步入了人工智能时代。确实&…

【基础复习】二:预处理、const与sizeof
赋值语句 1.i的值为? #include <iostream> using namespace std; int i 1; int main() {int i i; } 解析: 此时main函数内的i是优先考虑局部变量,除非使用作用域符号,否则是和外面值为1的i是无关的。 其次,使用…

使用多线程还是用IO复用select/epoll? epoll 或者 kqueue 的原理是什么?
原作者:蓝形参 原文:http://www.zhihu.com/question/20114168/answer/14024115 使用多线程还是用IO复用select/epoll? 多线程模型适用于处理短连接,且连接的打开关闭非常频繁的情形,但不适合处理长连接。多线程模型默认情况下…
使用大batch优化深度学习:训练BERT仅需76分钟 | ICLR 2020
作者 | Yang You, Jing Li等译者 | 刘畅在海量数据集上训练大型深度神经网络,是非常具有挑战性的。最近,有许多研究均使用大batch随机优化方法来解决此问题。在该研究领域中,目前最杰出的算法是LARS,它通过采用分层自适应学习率&a…

华为AR28-11路由器配置
公司使用华为AR28-11路由器,宽带接入。现使用2M光纤接入,地址:124.117.254.* 255.255.255.252.公司电脑使用192.168.1.0 255.255.255.0 网段地址参考配置#version 5.20, Release 1205P02, Basic#sysname H3C#domain default enable system#vl…

PHPExcel使用-使用PHPExcel导出文件-导出MySQL数据
现在数据库里面有一组数据,我们将它按照不同的难度进行分sheet. 首先我们需要写一个mysql的配置文件- db.config.php(utf-8编码) : <?php $dbconfig array( host > 127.0.0.1, username > root, password > , database > xxx, charset &…