从0到1,Airbnb的深度学习实践经验总结

作者 | Haldar
译者 | 陆离
出品 | AI科技大本营(ID: rgznai100)
此前,AI科技大本营发布了关于希望通过介绍的研究成果为读者提供一些有用的帮助和指引。
模型中的生态系统
本文要讨论的机器学习现实应用,是关于根据用户预约的可能性来预订客房的模型。当用户在Airbnb网站上搜索的时候,这样的模型有助于搜索排名。新模型是通过A/B测试框架来进行在线测试,并将其性能与前几个版本进行比较。
正确的时机
最开始,Airbnb搜索排名是通过人工手动操作来完成的。
用梯度增强决策树(Gradient Boosted Decision Tree ,GBDT)模型取代手动操作的评分功能,是Airbnb历史上最大的一次关于客房预订应用的改进。
这种方法还有许多成功的迭代要继续进行,但最终性能达到饱和了,而且很难再更进一步进行提升,这就到了尝试全面改造系统的时候了。
值得关注的是,Airbnb团队已经拥有了在机器学习、数据管道和在线控制实验平台等方面的丰富经验。在此基础上,他们向神经网络迈出了第一步。
值得这么做吗?
Airbnb已经从一个梯度增强决策树(GBDT)模型作为起点逐步地向深度神经网络发展。总的来说,这一转变是“Airbnb的最具影响力的机器学习应用之一”。下面的图表显示随着时间的推移,在主要的离线指标、标准化折扣累积收益(NDCG)以及使用已部署模型实现的在线预订收益等方面的改善。
当然,在实际过程中,也经历了许多的弯路和失败的尝试:“现实中充满的失败尝试数量超过了成功的次数……”
别当英雄
Andrej Karpathy对模型架构有一个建议:别当英雄。好吧,我们可不是这样开始的…...
但在经历了几次失败的尝试之后,第一个部署到实际应用中的神经网络模型是一个简单的模型,它只有一个隐藏层,并带有32个完全连接的ReUL激活函数。与之前的GBDT模型相比,它在预订功能方面的表现一般。不过,这并不是无谓的尝试:
实践的价值在于,对于实际应用,它验证了整个神经网络管道已经做好了准备,并且能够提供客户出行方面的服务。
一开始别当英雄
我们会采纳Kapathy的建议:不要在一开始就成为英雄。
预订收益的第一个重大突破是将神经网络与Lambdarank的思想相结合起来。然而最初的神经网络使用了与GDBT模型相同的一些特性,“lambdarank为我们提供了一种直接优化NDCG神经网络的方法。”
Lambdarank模型使用了成对的{booked, not-booked}实例作为训练的输入,并通过交换成对的分类而导致的NDCG差异来衡量每一对的损失。最终的结果是预定的列表趋向于向搜索结果的顶端移动。
利用所有能利用的
本文所述的成功经历是基于神经网络模型,但也有其它的模型正处于研究之中。在某些情况下,这些模型的最终表现是类似的,但排名靠前的却大不相同。因此,在下一次迭代中尝试了将神经网络方法的优点与GBDT模型和因子分解机模型的特征结合在一起来作为额外的输入。
。
摒弃复杂性
在我们最后一次的飞跃中,能够通过简单地将训练数据缩放10倍并移动到具有2个隐藏层的深度神经网络来降低所有的复杂性。
但与之前的版本相比,它的宽度相对较大:一个具有195个特征的输入层,为第一个隐藏层提供带有127个完全连接的ReLUs,而第二个隐藏层提供带有83个完全连接的ReLUs。
给模型“喂”数据
伴随着模型架构的快速发展,这些模型中的特性也相应地发生了变化。
第一次尝试训练神经网络时,我们简单地将用于训练GBDT模型的所有特性都输入到神经网络中,但结果很差。
第一个改进来自于对特征标准化的应用(GDBT对精确的数值不是特别敏感,但神经网络是比较敏感的)。这在很大程度上将特征映射到在{-1,1}里的中值为0的小范围取值中。
下一个比较大的改进来自于保证这些特性的分布是平滑的。争取平滑分布有助于发现错误、支持标准化、突出一些特征工程可能有用的领域,以及发现一个模型有可能缺失了一些其它的功能。
准确回答深度神经网络擅长标准化的原因是一个十分复杂的前沿研究课题。同时,我们的专业知识是基于这样的观察而得到的:在为我们的应用而构建的深度神经网络中,各层的输出在其分布的过程中变得越来越平滑……来自较低层的平滑分布确保了上层能够正确地“插入”不可见值的过程。将这种能力一直延伸到输入层,我们尽最大努力确保输入的特性具有一个平滑的分布。
调整模型
神经网络带来了巨大的超参数空间。而最后,simple在Airbnb的表现最好。
对于应用,我们发现很难通过Adam的默认设置来提高它的性能……在LazyAdamOptimizer之下,扫除了学习率的问题,我们只是选择了一个固定的大小为200的批量,这似乎适用于当前的模型。
理解模型
随着向深度神经网络的转移,其中一件事变得更加的困难,那就是了解模型实际在做什么以及为什么这么做的原因。在尝试使用各种策略后,最适合Airbnb的是一个名为TopBot的自研发工具,一款自上而下的分析器。TopBot将排名靠前的列表中的特征值分布图与排名靠后的进行对比,这个对比突出显示了模型如何在不同取值的范围内来使用这些特征。
。
心得和体会
转向深度学习不仅仅是改变模型的内部结构,也要改变它的规模。“因此,它需要重新考虑围绕这一模式的整个体系。”
那么我们还向其他人推荐深度学习吗?那将会是一个诚心诚意的“Yes”,而这不仅仅是因为这个模型的在线表现很强劲。其中一部分是与深度学习如何改变我们未来的研究路线有关。早期的重点主要放在了特征工程上,但是在转向深度学习后,尝试通过对特征执行更好的数学计算已经失去了意义。这让我们可以在更高的层次上研究问题,比如,我们如何改进优化目标,是否准确地表示了所有的用户?
两年过去了,Airbnb的团队才刚刚起步……
原文链接:
https://blog.acolyer.org/2019/10/09/applying-deep-learning-to-airbnb-search/
(*本文为 AI科技大本营编译文章,转载请微信联系 1092722531)
◆
精彩推荐
◆
即日起,限量 5 折票开售,数量有限,扫码购买,先到先得!
推荐阅读

你点的每个“在看”,我都认真当成了AI
相关文章:

高并发大流量专题---8、动态语言的并发处理
高并发大流量专题---8、动态语言的并发处理 一、总结 一句话总结: 和本科毕业论文连起来了:基于消息中间件Rocket MQ的研究;用于并发处理的消息队列 1、什么是进程、线程、协程? 进程(Process)是计算机中的…

1. 文件系统——磁盘分区、各目录功能、硬盘
一、磁盘分区及文件访问入口在前文中介绍过,Linux的整个文件系统像一棵倒置的数,最顶层的是根文件系统,其下有很多一级子目录,一级子目录下面是二级子目录,依此类推:/:根目录/bin,/s…
吴恩达老师深度学习视频课笔记:逻辑回归公式推导及C++实现
逻辑回归(Logistic Regression)是一个二分分类算法。逻辑回归的目标是最小化其预测与训练数据之间的误差。为了训练逻辑回归模型中的参数w和b,需要定义一个成本函数(cost function)。成本函数(cost function):它是针对整个训练集的。衡量参数w和b在整个训…

网络运行时间提高100倍,Google使用的AI视频理解架构有多强?
译者 | 刘畅出品 | AI科技大本营(ID:rgznai100)视频理解是一个很有挑战性的问题。由于视频包含时空数据,因此图像的特征表示需要同时提取图像和运动信息。这不仅对自动理解视频语义内容有重要性,还对机器人的感知和学习也至关重要…

iOS学习笔记(十三)——获取手机信息(UIDevice、NSBundle、NSLocale)
2019独角兽企业重金招聘Python工程师标准>>> iOS的APP的应用开发的过程中,有时为了bug跟踪或者获取用反馈的需要自动收集用户设备、系统信息、应用信息等等,这些信息方便开发者诊断问题,当然这些信息是用户的非隐私信息࿰…
吴恩达老师深度学习视频课笔记:单隐含层神经网络公式推导及C++实现(二分类)
关于逻辑回归的公式推导和实现可以参考: http://blog.csdn.net/fengbingchun/article/details/79346691 下面是在逻辑回归的基础上,对单隐含层的神经网络进行公式推导:选择激活函数时的一些经验:不同层的激活函数可以不一样。如果…

「2019中国大数据技术大会」超值学生票来啦!
大会官网:https://t.csdnimg.cn/U1wA经过11年的沉淀与发展,中国大数据技术大会见证了大数据技术生态在中国的建立、发展和成熟,已经成为国内大数据行业极具影响力的盛会,也是大数据人非常期待的年度深度分享盛会。在新的时代背景下…

校验正确获取对象或者数组的属性方法(babel-plugin-idx/_.get)
背景: 开发中经常遇到取值属性的时候,需要校验数值的有效性。 例如: 获取props对象里面的friends属性 props.user && props.user.friends && props.user.friends[0] && props.user.friends[0].friends 对于深层的对…

Ring Tone Manager on Windows Mobile
2019独角兽企业重金招聘Python工程师标准>>> 手机铃声经常能够体现一个人的个性,有些哥们儿在自习室不把手机设置成震动,一来电就#$^%^&^%#$&$*,声音还很大,唯恐别人听不到。 Windows Mobile设备上如何来设置手…
OpenCV3.3中K-Means聚类接口简介及使用
OpenCV3.3中给出了K-均值聚类(K-Means)的实现,即接口cv::kmeans,接口的声明在include/opencv2/core.hpp文件中,实现在modules/core/src/kmeans.cpp文件中,其中:下面对此接口中的参数作个简单说明:(1)、data:…

一文读懂对抗机器学习Universal adversarial perturbations | CSDN博文精选
作者 | Icoding_F2014来源 | CSDN博客本文提出一种 universal 对抗扰动,universal 是指同一个扰动加入到不同的图片中,能够使图片被分类模型误分类,而不管图片到底是什么。示意图:形式化的定义:对于d维数据分布 μ&…

Reactor模式与Proactor模式
博主一脚刚踏进分布式的大门(看《分布式Java应用》,如果大家有啥推荐的书欢迎留言~),发现书中对NIO采用的Reactor模式、AIO采用的Proactor模式一笔带过,好奇心趋势我找了一下文章,发现两篇挺不错的文章&…

linux下使profile和.bash_profile立即生效的方法
使profile生效的方法1.source /etc/profile使用.bash_profile生效的方法1 . .bash_profile2 source .bash_profile3 exec bash --login转载于:https://blog.51cto.com/shine20/1436473
吴恩达老师深度学习视频课笔记:多隐含层神经网络公式推导(二分类)
多隐含层神经网络的推导步骤非常类似于单隐含层神经网络的步骤,只不过是多重复几遍。关于单隐含层神经网络公式的推导可以参考: http://blog.csdn.net/fengbingchun/article/details/79370310 逻辑回归是一个浅层模型(shadow model),或称单层…

Python中的元编程:一个关于修饰器和元类的简单教程
作者 | Saurabh Kukade译者 | 刘畅出品 | AI科技大本营(ID:rgznai100)最近,作者遇到一个非常有趣的概念,它就是用 Python 进行元编程。我想在本文中分享我对该主题的见解。作者希望它可以帮助解决这个问题,因为很多人说…

获取用户电脑的上网IP地址
在项目中经常要获取用户的上网的IP地址,如何获取用户的IP地址,方法很多,现在介绍以下2种。 /// <summary> /// 获取本机在局域网的IP地址 /// </summary> /// <returns></returns> …

数学图形(1.40)T_parameter
不记得在哪搞了个数学公式生成的图形. vertices 1000t from 0 to (2*PI) r 2.0 x r*(5*cos(t) - cos(6*t)) y r*(3*sin(t) - sin(4*t)) 给线加上一维变量的变化,使之变成面: vertices D1:360 D2:21u from 0 to (2*PI) D1 v from 0 to 20 D2x (v2)*cos(u) - cos((v3)*u…
K-均值聚类(K-Means) C++代码实现
K-均值聚类(K-Means)简介可以参考: http://blog.csdn.net/fengbingchun/article/details/79276668 以下是K-Means的C实现,code参考OpenCV 3.3中的cv::kmeans函数,均值点初始化的方法仅支持KMEANS_RANDOM_CENTERS。以下是从数据集MNIST中提取…

让学生网络相互学习,为什么深度相互学习优于传统蒸馏模型?| 论文精读
作者 | Ying Zhang,Tao Xiang等译者 | 李杰出品 | AI科技大本营(ID:rgznai100)蒸馏模型是一种将知识从教师网络(teacher)传递到学生网络(student)的有效且广泛使用的技术。通常来说,…

mac apache 配置
mac系统自带apache这无疑给广大的开发朋友提供了便利,接下来是针对其中的一些说明 一、自带apache相关命令 1. sudo apachectl start 启动服务,需要权限,就是你计算机的password 2. sudo apachectl stop 终止服务 ####3. sudo apachectl rest…

jQuery学习---------认识事件处理
3种事件模型:原始事件模型DOM事件模型IE事件模型原始事件模型(0级事件模型)1、事件处理程序被定义为函数实例,然后绑定到DOM元素事件对象上,实现事件的注册。例子:var btn document.getElementsByTagName(…
C++中的虚函数表介绍
在C语言中,当我们使用基类的引用或指针调用一个虚成员函数时会执行动态绑定。因为我们直到运行时才能知道到底调用了哪个版本的虚函数,所以所有虚函数都必须有定义。通常情况下,如果我们不使用某个函数,则无须为该函数提供定义。但是我们必须…

AI如何赋能金融行业?百度、图灵深视等同台分享技术实践
近日,由BTCMEX举办的金融技术创新研讨会在北京举办。BTCMEX投资人李笑来,AI技术公司TuringPass、百度、美国Apache基金会项目Pulsar、区块链安全公司SlowMist等相关专家参加了此次会议,共同探讨了金融技术在创新方面的现状。 图灵深视副总裁许…

【Win32 API学习]打开可执行文件
在MFC中打开其他可执行文件常用到的方法有:WinExec、ShellExecute、CreatProcess。 1.WinExec WinExec 主要运行EXE文件,用法简单,只有两个参数,前一个指定命令路径,后一个指定窗口显示方式: UINT WinExec(…

支付宝接口使用文档说明 支付宝异步通知
支付宝接口使用文档说明 支付宝异步通知(notify_url)与return_url. 现支付宝的通知有两类。 A服务器通知,对应的参数为notify_url,支付宝通知使用POST方式 B页面跳转通知,对应的参数为return_url,支付宝通知使用GET方式 ÿ…

完全隐藏Master Page Site Actions菜单只有管理员才可以看见
1. 在Master Page Head 增加下面的Style <style type"text/css"> .ms-cui-tt{visibility:hidden;} </style> 2. 增加SPSecurityTrimmedControl <SharePoint:SPRibbonPeripheralContent runat"server" Location"TabRowLeft&qu…
深度学习中的随机梯度下降(SGD)简介
随机梯度下降(Stochastic Gradient Descent, SGD)是梯度下降算法的一个扩展。机器学习中反复出现的一个问题是好的泛化需要大的训练集,但大的训练集的计算代价也更大。机器学习算法中的代价函数通常可以分解成每个样本的代价函数的总和。随着训练集规模增长为数十亿…

推荐系统中的前沿技术研究与落地:深度学习、AutoML与强化学习 | AI ProCon 2019...
整理 | 夕颜出品 | AI科技大本营(ID:rgznai100)个性化推荐算法滥觞于互联网的急速发展,随着国内外互联网公司,如 Netflix 在电影领域,亚马逊、淘宝、京东等在电商领域,今日头条在内容领域的采用和推动&…

运维日志管理系统
因公司数据安全和分析的需要,故调研了一下 GlusterFS lagstash elasticsearch kibana 3 redis 整合在一起的日志管理应用:安装,配置过程,使用情况等续一,glusterfs分布式文件系统部署:说明…

NLP学习思维导图,非常的全面和清晰
作者 | Tae Hwan Jung & Kyung Hee编译 | ronghuaiyang【导读】Github上有人整理了NLP的学习路线图(思维导图),非常的全面和清晰,分享给大家。先奉上GitHub地址:https://github.com/graykode/nlp-roadmapnlp-roadm…