当前位置: 首页 > 编程日记 > 正文

深度CTR预估模型的演化之路2019最新进展

640?wx_fmt=png

作者 | 锅逗逗
来源 | 深度传送门(ID: deep_deliver)

导读:本文主要介绍深度CTR经典预估模型的演化之路以及在2019工业界的最新进展。

介绍

在计算广告和推荐系统中,点击率(Click Through Rate,以下简称CTR)预估是一个重要问题。在CTR预估任务中(以下简称CTR任务),我们通常利用user信息、item信息和context信息来预测user对item的CTR。

传统CTR预估任务采用的方法不外乎特征工程+LR/FM的组合,这种通过大量特征工程来提高预测效果的工作费时费力,且构造过程不具有通用性。此外,传统的人工特征工程处理开放式的特征(如用户ID)似乎难如登天,而这些特征往往能够为模型提供许多正向的收益。

随着深度学习的发展,近年来越来越多的深度学习模型被应用到CTR任务中来。Wide&Deep、DeepFM等模型相信大家都耳熟能详,DIN、DIEN等结合用户历史行为的模型最近更是被人津津乐道。

本文主要关注利用仅根据user信息、item信息、context信息,不考虑用户历史信息的“传统”深度CTR模型的演化过程,希望通过梳理,大家能够对近年来深度学习模型在CTR任务上的探索有一个大体的认知。

深度CTR模型的基本框架

典型的深度CTR模型可以分成以下四个部分:输入、特征嵌入(Embedding)、特征交互(有时候也称为特征提取)和输出。
640?wx_fmt=jpeg
输入:输入通常包含若干个<特征ID, 特征值>对,当然也可以One-Hot Encoding展开(如上图所示)。

特征嵌入(Embedding):在CTR任务中数据特征呈现高维、稀疏的特点,假设特征数为N,直接将这些特征进行One-Hot Encoding会产生巨大的参数数量。以FM的二阶项为例子,如一万个特征,两两构造二阶特征时将会产生一亿规模的特征权重参数。

Embedding可以减小模型复杂度,具体过程如下:

通过矩阵乘法将1*N的离散特征向量通过维度为N*k的参数矩阵W压缩成1*k的低维度稠密向量,通常k<<N,参数从N^2降到N*k。

此外,在CTR任务中特征常以分组(group, 有时也称领域field)的离散特征信息,如user gender、item category等,在从FM推演各深度学习CTR预估模型(附代码)[1]中提到“将特征具有领域关系的特点作为先验知识加入到神经网络的设计中去:同领域的特征嵌入后直接求和作为一个整体嵌入向量”。沿用这样的方法基于以下三个原因:
  1. 经分组特征嵌入后送入后续模块得到的是定长向量,且特征组个数<<特征数,减少后续模块的参数量。
  2. 不同组的嵌入维度(即上文中的k)可以不同,可以根据特征组内的特征个数合理设计嵌入维度。
  3. 如果特征组的嵌入维度相同,则不同特征组间的嵌入向量可以两两组合得到大有裨益的二阶特征信息。

特征交互:经过特征嵌入可以获得稠密向量,在特征交互模块中设计合理的模型结构将稠密向量变成标量,该模块直接决定模型的质量好坏。本文接下来的内容将重点介绍这个模块的设计过程。

输出:将特征交互模块输出的标量用sigmoid函数映射到[0, 1],即表示CTR。

万丈高楼平地起:LR、FM、Embedding+MLP

LR: Logistic Regression

不积跬步无以至千里,从最简单的LR模型说起。一言以蔽之,LR将特征加权求和并经sigmoid即得到CTR值,在深度CTR模型的基本框架下的LR表示如下图:
640?wx_fmt=jpeg
其中嵌入部分的维度大小均为1;特征交互中具体工作是将嵌入部分得到的值相加。模型的抽象化表示如下图:
640?wx_fmt=png
FM:Factorization Machines

与LR相比,FM增加了二阶项的信息,通过穷举所有的二阶特征(一阶特征两两组合)并结合特征的有效性(特征权重)来预测点击结果,FM的二阶特征组合过程可拆分成Embedding和内积两个步骤
640?wx_fmt=jpeg

Embedding+MLP

多层感知机MLP因具有学习高阶特征的能力常常被用在各种深度CTR模型中。MLP主要由若干个全连接层和激活层组成。
640?wx_fmt=jpeg

他山之石可以攻玉

基于FM中的Quadratic Layer的改进

  • AFM: Attentional FM 【IJCAI'17】

两个特征内积的过程如下:两个特征向量做Hadamard Product得到1*k的二阶组合特征向量,再将这个向量沿嵌入维度求和(sum by dimension)得到一个实数值。

AFM[2]通过注意力网络学习二阶组合特征的重要性,将所有的二阶组合特征向量进行加权求和作为Attention Net部分的输出。
640?wx_fmt=jpeg

  • IAFM【AAAI'19】

IAFM(Interaction-aware FM)[3]从特征层面和特征组层面共同影响二阶组合特征的重要性。其中在特征组层面,通过网络学习特征所在特征组之间的重要性向量。最后将二阶特征向量和特征组向量做Hadamard Product再求和得到Attention Net部分的输出。

640?wx_fmt=jpeg

基于Embedding+MLP的改进

  • Wide&Deep【DLRS'16】

将LR和MLP并联即可得到Wide&Deep模型[4],可同时学习一阶特征和高阶特征。
640?wx_fmt=jpeg

  • FNN【ECIR'16】

FNN[5]本质上还是Embedding+MLP模型,只是利用FM模型预训练Group Embedding。近年来一些研究表明通过预训练FM初始化Embedding值的深度学习模型在一些任务上能够达到快速收敛的效果。

640?wx_fmt=jpeg

  • NFM【SIGIR'17】

将LR、MLP和Quadratic Layer串连可得到NFM[6],注意这里的Quadratic Layer和原始FM模型里有些许不同。
640?wx_fmt=jpeg

  • DeepFM 【IJCAI'17】

将LR、MLP和Quadratic Layer并联可得到DeepFM[7],注意到MLP和Quadratic Layer共享Group Embedding。DeepFM是目前效率和效果上都表现不错的一个模型。

640?wx_fmt=jpeg

  • DCN: 【ADKDD'17】

将LR、MLP和Cross Net并联可得到DCN[8]。Cross Net是一个堆叠型网络,该部分的初始输入是将f个(1,k)的特征组向量concat成一个(1,f*k)的向量(不同特征组的嵌入维度可以不同,反正拼起来就对了)。

每层计算过程如下:输入向量和初始输入向量做Cartesian product得到(f*k,f*k)的矩阵,再重新投影成(1,k)向量,每一层输出都包含输入向量。
640?wx_fmt=jpeg

  • xDeepFM【KDD'18】

将LR、MLP和CIN并联可得到xDeepFM[9]。

640?wx_fmt=jpeg

为了统一符号解释一下,图中的D=嵌入维度k。CIN也是一个堆叠型网络,该部分的初始输入是一个(f,k)的矩阵。每层计算过程如下:输入矩阵(Hi, k)和初始输入矩阵沿嵌入维度方向做Cartesian product得到(Hi, f, k)的三维矩阵,再重新投影成(Hi+1,k)矩阵。

CIN的最后一层:将CIN中间层的输出矩阵沿嵌入维度方向做sum pooling得到(H1,1),(H2,1)...(Hl,1)的向量,再将这些向量concat起来作为CIN网络的输出。

在这里可以将CrossNet和CIN做一个小小的对比:
640?wx_fmt=jpeg

  • PNN【ICDM'16】

将Inner/Outer Product Layer和MLP串连可得到PNN模型[10]。其中Inner Product Layer和Quadratic Layer v2实际上是一个东西(权重在Product Layer层增加了可训练的权重参数)。

后面提到OENN、OANN、FGCNN都是基于IPNN(使用Inner Product Layer)进行改进。
640?wx_fmt=jpeg

  • OENN【SIGIR'19】

OENN(Order-aware Embedding Neural Network for CTR Prediction)[11]认为相同特征在不同阶交互时应当使用不同嵌入向量,对于大于3阶的交互过程则使用CIN替代。

640?wx_fmt=jpeg

  • OANN

OANN(Operation-aware Neural Networks for User Response Prediction)[12]认为相同特征在交互过程中执行不同的操作应当使用不同嵌入向量,例如一共有f个特征,每个特征与其他特征做Inner Product会执行(f-1)次操作,加上不交互的嵌入向量,即一个特征需要有f个对应的嵌入向量。

640?wx_fmt=jpeg

  • FGCNN【WWW'19】

FGCNN(Feature Generation by Convolutional Neural Network)[13]是在IPNN的基础上串连了一个Feature Generation Layer。Feature Generation由Convolutional Layer+MaxPooling Layer+FC(原文中的recombination layer)组成,CNN提取useful neighbor feature patterns,将MaxPooling得到的特征组信息拍平了通过一个FC可提取global feature interactions.
640?wx_fmt=jpeg

  • FiBiNET【RecSys'19】

FiBiNET[14]的创新点在于引入CV中的SENET和设计了Bilinear-Interaction。SENET是一个比较有效的特征提取方法,共分为三个部分:Squeeze,Excitation和Re-Weight。

Binear-Interaction则是在特征之间加入(k,k)的权重参数矩阵(文中的W)进行计算,论文中设置了三种模式:共享(Field-All)、特征组共享(Field-Each)、特征独享(Field-Interaction),分别要训练1个、f个、f*(f-1)/2个维度为(k,k)的权重参数矩阵。

640?wx_fmt=jpeg

  • AutoInt【CIKM'19】
AutoInt[15]可以看做将MLP的FC部分替换成Multi-head Self-Attention。
640?wx_fmt=jpeg

总结

1. 深度CTR模型说白了就是一个“搭积木”的过程,然而不是每块“积木”都是有效的,“积木”之间的拼接方式也会影响模型的好坏。

2. 甲之蜜糖乙之砒霜。不同模型适用的场景不同,这部分需要一定的实验和经验积累,我经验尚浅,就不在此班门弄斧了。

3. 推荐一个大佬的开源实现,向厉害的人学习:https://github.com/shenweichen/DeepCTR。

参考文献

1. https://blog.csdn.net/han_xiaoyang/article/details/81031961
2. Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks
3. Interaction-aware Factorization Machines for Recommender Systems
4. Wide & Deep Learning for Recommender Systems
5. Deep Learning over Multi-field Categorical Data – A Case Study on User Response Prediction
6. Neural Factorization Machines for Sparse Predictive Analytics
7. DeepFM: A Factorization-Machine based Neural Network for CTR Prediction
8. Deep & Cross Network for Ad Click Predictions
9. xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems
10. Product-based Neural Networks for User Response Prediction
11. Order-aware Embedding Neural Network for CTR Prediction
12. Operation-aware Neural Networks for User Response Prediction
13. Feature Generation by Convolutional Neural Network for Click-Through Rate Prediction
14. FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction
15. AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks

原文链接:
https://zhuanlan.zhihu.com/p/86181485

(*本文为AI科技大本营转载文章,转载联系原作者


精彩推荐



2019 中国大数据技术大会(BDTC)再度来袭!豪华主席阵容及百位技术专家齐聚,15 场精选专题技术和行业论坛,超强干货+技术剖析+行业实践立体解读,深入解析热门技术在行业中的实践落地。6.6 折票限时特惠(立减1400元),学生票仅 599 元!

640?wx_fmt=png

推荐阅读

相关文章:

2015大型互联网公司校招都开始了,薪资你准备好了嘛?

2015年的校招早就开始了&#xff0c;你还不知道吧&#xff1f;2015年最难就业季来了&#xff0c;你还没准备好嘛&#xff1f;现在就开始吧&#xff0c;已经很多大型互联网公司祭出毕业生底薪了看谷歌、看百度、看腾讯、看阿里巴巴再看传统软件公司&#xff1a;看微软、看联想、…

提高C++性能的编程技术笔记:多线程内存池+测试代码

为了使多个线程并发地分配和释放内存&#xff0c;必须在分配器方法中添加互斥锁。 全局内存管理器(通过new()和delete()实现)是通用的&#xff0c;因此它的开销也非常大。 因为单线程内存管理器要比多线程内存管理器快的多&#xff0c;所以如果要分配的大多数内存块限于单线程…

iOS中几种定时器

一、NSTimer 1. 创建方法 NSTimer *timer [NSTimer scheduledTimerWithTimeInterval:1.0 target:self selector:selector(action:) userInfo:nil repeats:NO];TimerInterval : 执行之前等待的时间。比如设置成1.0&#xff0c;就代表1秒后执行方法target : 需要执行方法的对象…

手把手教你使用Flask轻松部署机器学习模型(附代码链接) | CSDN博文精选

作者 | Abhinav Sagar翻译 | 申利彬校对 | 吴金笛来源 | 数据派THU&#xff08;ID&#xff1a;DatapiTHU&#xff09;本文旨在让您把训练好的机器学习模型通过Flask API 投入到生产环境 。当数据科学或者机器学习工程师使用Scikit-learn、Tensorflow、Keras 、PyTorch等框架部署…

JQuery遮罩层

2019独角兽企业重金招聘Python工程师标准>>> css样式&#xff1a;<style type"text/css"> .mask { position: absolute; top: 0px; filter: alpha(opacity60); background-color: #777; z-index: 1002; left: 0px; …

代码覆盖测试工具Kcov简介及使用

Kcov是一个代码覆盖测试工具&#xff0c;最初基于Bcov&#xff0c;它可在FreeBSD、Linux、OSX系统中使用&#xff0c;支持的语言包括编译语言(compiled languages)、Python和Bash。与Bcov一样&#xff0c;Kcov对编译的程序使用DWARF调试信息&#xff0c;以便无需特殊编译器开关…

Google148亿元收购Fitbit,抢占苹果、三星可穿戴设备市场地盘

编译 | 夕颜出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;11 月 1 日&#xff0c;Google 母公司 Alphabet 和 可穿戴设备公司 Fitbit 同时发布新闻&#xff0c;宣布已经达成了收购后者的最终协议。Google LLC 以每股 7.35 美元的价格收购 Fitbit&#xff0c;总价值…

ios关于用xib创建的cell 自动返回cell的高度问题!

1 设置tableView的属性 self.tableView.rowHeight UITableViewAutomaticDimension; self.tableView.estimatedRowHeight 44.0; // 设置为一个接近“平均”行高的值 2 cell要约束好&#xff0c;要能够让cell知道自己的高度根据哪个控件计算就可以&#xff08;不明白看下图&…

西门子PLC学习笔记二-(工作记录)

今天师傅给讲了讲做自己主动化控制的总体的思路&#xff0c;特进行一下记录&#xff0c;做个备忘。 1.需求分析 本次的项目是对楼宇循环供水的控制&#xff0c;整个项目须要完毕压力、压差、温度等的获取及显示、同一时候完毕电机的控制。 2.设计 使用西门子的Step7工具进行梯形…

Swift 3.0 预告:将 Objc 库转换成更符合 Swift 语法风格的形式

转自&#xff1a;swiftcafe Swift 3.0 更新越来越临近&#xff0c;这次更新会给我们带来很多实用的内容&#xff0c;比如对 Objc 库的迁移&#xff0c;会更符合 Swift 的语法风格。用过之前版本的 Swift&#xff0c;我们会发现很多 Objc 库的方法名称其实还是以 Objc 的风格来命…

非对称加密算法RSA公钥私钥的模数和指数提取方法

生成非对称加密算法RSA公钥、私钥的方法&#xff1a; 1. 通过OpenSSL库生成&#xff0c;可参考 https://github.com/fengbingchun/OpenSSL_Test/blob/master/demo/OpenSSL_Test/funset.cpp 中的Generate_RSA_Key函数&#xff1b; 2. 在Linux下通过命令生成&#xff0c;执行…

数据库“新解”,看这里,get!

自从第一台通用计算机诞生至今&#xff0c;围绕计算机系统硬件的创新迭代就一直“在路上”&#xff0c;伴随着硬件能力的不断提升&#xff0c;软件更新自然不可缺少。通常来说在传统的计算机软件工程领域&#xff0c;操作系统、编译器与数据库被并称为最具难度的“三剑客”系统…

win 64位系统安装带有c编写的python模块出现ValueError: [u'path']解决

2019独角兽企业重金招聘Python工程师标准>>> 关于win 64位机器安装Scrapy的问题&#xff1a;http://steamforge.net/wiki/index.php/How_to_Install_Scrapy_in_64-bit_Windows_7 在安装Scrapy是要安装一系列的依赖模块&#xff0c; 出现问题&#xff1a; 1、error: …

探索 Swift 中的 MVC-N 模式

作者&#xff1a;Marcus Zarra&#xff08;twitter&#xff1a;mzarra&#xff09; Marcus 将会为大家介绍一种设计模式&#xff0c;他曾经在那些需要从互联网进行大量频繁数据请求的 iOS 应用当中使用此设计模式。这个设计采用了著名的 MVC (Model View Controller) 模式&…

MXNet中依赖库介绍及简单使用

MXNet是一种开源的深度学习框架&#xff0c;核心代码是由C实现&#xff0c;在编译源码的过程中&#xff0c;它需要依赖其它几种开源库&#xff0c;这里对MXNet依赖的开源库进行简单的说明&#xff1a; 1. OpenBLAS&#xff1a;全称为Open Basic Linear Algebra Subprograms&am…

Python十大装腔语法

作者 | 许向武 责编 | 郭芮 来源 | CSDN 博客Python 是一种代表简单思想的语言&#xff0c;其语法相对简单&#xff0c;很容易上手。不过&#xff0c;如果就此小视 Python 语法的精妙和深邃&#xff0c;那就大错特错了。本文精心筛选了最能展现 Python 语法之精妙的十个知识点&…

MATLAB——scatter的简单应用

scatter可用于描绘散点图。 1.scatter(X,Y) X和Y是数据向量&#xff0c;以X中数据为横坐标&#xff0c;以Y中数据位纵坐标描绘散点图&#xff0c;点的形状默认使用圈。 样例&#xff1a; X [1:10]; Y X rand(size(X)); scatter(X, Y) 得到&#xff1a; 2.scatter(...,fill…

Windows10上使用VS2017编译MXNet源码操作步骤(C++)

MXNet是一种开源的深度学习框架&#xff0c;核心代码是由C实现。MXNet官网推荐使用VS2015或VS2017编译&#xff0c;因为源码中使用了一些C14的特性&#xff0c;VS2013是不支持的。这里通过VS2017编译&#xff0c;步骤如下&#xff1a; 1. 编译OpenCV&#xff0c;版本为3.4.2&a…

StoryBoard 视图切换和传值

一 于StoryBoard相关的类、方法和属性 1 UIStoryboard // 根据StoryBoard名字获取StoryBoard (UIStoryboard *)storyboardWithName:(NSString *)name bundle:(nullable NSBundle *)storyboardBundleOrNil;// 获取指定StoryBoard的第一个视图控制器- (nullable __kindof UIViewC…

率清华团队研发“天机芯”登《Nature》封面,他说类脑计算是发展人工通用智能的基石...

整理 | AI科技大本营&#xff08;ID:rgznai100&#xff09;8 月&#xff0c;清华大学教授、类脑计算研究中心主任施路平率队研发的关于“天机芯”的论文登上《Nature》封面&#xff0c;这实现了中国在芯片和人工智能两大领域登上该杂志论文零的突破&#xff0c;引发国内外业界一…

IntelliJ IDEA 12详细开发教程(四) 搭建Android应用开发环境与Android项目创建

今天我要给大家讲的是使用Intellij Idea开发Android应用开发。自我感觉使用Idea来进行Android开发要比在Eclipse下开发简单很多。&#xff08;一&#xff09;打开网站&#xff1a;http://developer.android.com/sdk/index.html。从网站上下载SDK下载需要的Android版本&#xff…

Git环境搭建及简单的本地、远程 两库关联

这里讲下我从拿到新的Mac后怎么一步一步搭建Git环境的。 首先让我们打开终端 在终端输入 git 如果说你卡到下面的结果说明你没有安装个git&#xff0c;去安装。 The program git is currently not installed. You can install it by typing: sudo apt-get install git 如果你…

提高C++性能的编程技术笔记:内联+测试代码

内联类似于宏&#xff0c;在调用方法内部展开被调用方法&#xff0c;以此来代替方法的调用。一般来说表达内联意图的方式有两种&#xff1a;一种是在定义方法时添加内联保留字的前缀&#xff1b;另一种是在类的头部声明中定义方法。 虽然内联方法的调用方式和普通方法相同&…

python学习——01循环控制

系统登录&#xff1a;要求输入用户名&#xff0c;判断用户是否存在&#xff0c;若存在&#xff0c;则输入密码&#xff0c;密码正确后登录系统&#xff1b;用户不存在则重新输入用户。密码输错三次后&#xff0c;用户被锁定。#!/usr/bin/env python #codingutf-8 user_dic {pe…

swift 中showAlertTitle的使用

不比比 直接上代码 import UIKit class InAndOutViewController: UIViewController,UITextFieldDelegate { let API_selectExitEntryInfo : String "/app/projectAndIdCardQuery_selectBanJianInfo" //输入框 IBOutlet weak var InputTextField: UITextField! //查…

从一张风景照中就学会的SinGAN模型,究竟是什么神操作?| ICCV 2019最佳论文

作者 | 王红成&#xff0c;中国海洋大学-信息科学与工程学院-计算机技术-计算机视觉方向研究生&#xff0c;研二在读&#xff0c;目前专注于生成对抗网络的研究编辑 | Jane出品 | AI科技大本营&#xff08;ID&#xff1a;rgznai100&#xff09;【导读】10 月 27 日-11 月 2 日&…

Windows10上编译MXNet源码操作步骤(Python)

1. 按照https://blog.csdn.net/fengbingchun/article/details/84997490 中操作步骤首先在Windows上通过VS2017编译MXNet源代码&#xff1b; 2. 从 https://mxnet.incubator.apache.org/install/windows_setup.html#install-the-mxnet-package-for-python 下载mingw64_dll.zi…

LeetCode:144_Binary Tree Preorder Traversal | 二叉树的前序遍历 | Medium

题目&#xff1a;Binary Tree Preorder Traversal 二叉树的前序遍历&#xff0c;同样使用栈来解&#xff0c;代码如下&#xff1a; 1 struct TreeNode {2 int val;3 TreeNode* left;4 TreeNode* right;5 TreeNode(int x): val(x), left(NULL)…

swift (Singleton)模式

一不安全的单例实现在上一篇文章我们给出了单例的设计模式&#xff0c;直接给出了线程安全的实现方法。单例的实现有多种方法&#xff0c;如下面&#xff1a;?123456789101112class SwiftSingleton { class var shared: SwiftSingleton { if !Inner.instance { Inner.insta…