如何使用 Python 构建推荐引擎?
作者 | Craig Kerstiens
译者 | 弯月,编辑 | 王晓曼
头图 | CSDN 下载自东方IC
来源 | CSDN(ID:CSDNnews)
我非常喜欢数据。数据可以告诉你用户在干什么,还可以提供各种深刻的见解。数据应用的一个方面就是根据历史记录或用户做出的类似选择来提供建议。
其实,多年以前,我写了一个很小的应用程序,尝试根据葡萄酒的等级来推荐葡萄酒。这是一个小应用,我只分享给了几个好友,他们中有些人与我有相似的品味,而有些人则有不同的品味。
最初,我主要是为了研究如何编写推荐引擎,但如果能够顺便找到一些喜欢的新酒,那就是意外之喜了。事实证明,尽管只有少数几种葡萄酒的评分,但这款应用的推荐依然超出了我的预期。
另外,我也很喜欢 Postgres(不奇怪吧),最近我一直在想为什么我不能直接在 Postgres 中研究机器学习呢。没错,我们有 madlib,但是我想编写自己的推荐引擎。于是,我做了简单的尝试,结果发现我可以在 Postgres 中做很多事情。下面就让我来介绍一下如何在 Postgres 内快速构建一个推荐引擎。
从现有代码着手
首先,我快速浏览了 Python 推荐的一些示例引擎。为了简单起见,我想建立一款更小巧、更简洁的应用,我并不介意使用其它库。后来,我找到了一个简洁的rec-engine(https://github.com/scottfitzcodes/rec-engine-example)示例,该示例利用了 Pandas 和简单的数据模型大幅降低了构建推荐引擎的难度。
设置初始表结构
我抽取了该示例应用程序使用的数据集,并将其转换为 SQL 进行加载:
CREATE TABLE orders (id int, product_idint);
CREATE TABLE products(id serial, nametext);INSERT INTO orders
VALUES (1,1),(1,2),(2,3),(2,10),(2,13),(3,3),(4,8),(4,9),(4,12),(5,3),(5,5),(5,7),(5,12),(6,1),(7,5),(7,13),(8,4),(9,3),(10,3),(10,13),(11,1),(11,8),(11,4),(12,8),(12,12),(13,5),(13,2),(13,7),(14,3),(14,13),(14,5),(15,3),(15,13);INSERT into products ("name")
VALUes ('Baseball Bat'), ('BaseballGlove'), ('Football'), ('Basketball Hoop'), ('Football Helmet'), ('BattingGloves'), ('Baseball'), ('Hockey Stick'), ('Ice Skates'), ('Soccer Ball'),('Goalie Mask'), ('Hockey Puck'), ('Cleats');
加载DataFrame
该 Python 示例直接从 CSV 加载了 DataFrame。但我想在 Postgres 中构建应用。通过上面一步,我将所有数据都存储在了表中,但是如今将其放入DataFrame中……我不是很想再解析成CSV格式。
解决这个问题的方法有很多种(比如创建 JSONB 对象、创建自定义类型等),但我选择了一种非常简单而且很容易实现的方法:将两个数组按照相同的方式排序,然后利用这两个数组创建DataFrame。
为此,我定义了一个函数,并导入了pandas:
CREATE OR REPLACE FUNCTIONgetrecommendations (id integer, orderids int[], orderedproducts int[],productids int[], productnames text[])
RETURNS json
AS $$import pandas as pd
注意:首先你需要在 PostgreSQL 数据库安装 plpython3u。
你可能注意到,我并没有用一个数组或一个字典传递订单而是传递了两个数组,后面的产品也是两个数组。为了将数据传递到SQL函数中,我创建了如下查询:
(SELECT ARRAY(SELECT id from ordersorder by id))
接下来,我就可以将订单数据加载到 DataFrame 了:
o = {'order_id': orderids, 'product_id':orderedproducts}
orders = pd.DataFrame(data=o)
下一组数据与嵌入到PostgreSQL函数中的Python示例(
https://github.com/scottfitzcodes/rec-engine-example/blob/master/engine.py)相同:
orders_for_product =orders[orders.product_id == id].order_id.unique();relevant_orders =orders[orders.order_id.isin(orders_for_product)]accompanying_products_by_order =relevant_orders[relevant_orders.product_id != id]
num_instance_by_accompanying_product =accompanying_products_by_order.groupby("product_id")["product_id"].count().reset_index(name="instances")num_orders_for_product =orders_for_product.size
product_instances = pd.DataFrame(num_instance_by_accompanying_product)
product_instances["frequency"]= product_instances["instances"]/num_orders_for_productrecommended_products =pd.DataFrame(product_instances.sort_values("frequency",ascending=False).head(3))
产品部分的处理与订单相同:创建字典,然后加载 DataFrame。最后,将结果集作为 JSONB 对象返回。两部分结合到一起,完整的函数如下所示:
CREATE OR REPLACE FUNCTIONgetrecommendations (id integer, orderids int[], orderedproducts int[],productids int[], productnames text[])
RETURNS json
AS $$import pandas as pdo = {'order_id': orderids, 'product_id': orderedproducts}orders = pd.DataFrame(data=o) orders_for_product = orders[orders.product_id == id].order_id.unique();relevant_orders = orders[orders.order_id.isin(orders_for_product)]accompanying_products_by_order =relevant_orders[relevant_orders.product_id != id]num_instance_by_accompanying_product =accompanying_products_by_order.groupby("product_id")["product_id"].count().reset_index(name="instances")num_orders_for_product = orders_for_product.sizeproduct_instances = pd.DataFrame(num_instance_by_accompanying_product)product_instances["frequency"] =product_instances["instances"]/num_orders_for_productrecommended_products = pd.DataFrame(product_instances.sort_values("frequency",ascending=False).head(3))p = {'product_id': productids, 'name': productnames}products = pd.DataFrame(data=p)recommended_products = pd.merge(recommended_products, products,on="product_id")return recommended_products.to_json(orient="table")
$$ LANGUAGE 'plpython3u';
运行推荐引擎
直接在 SQL 中调用该函数,就可以获得推荐结果:
SELECT json_pretty(getrecommendations(3,(SELECT ARRAY(SELECT id from orders order by id)),(SELECT ARRAY(SELECT product_id from orders order by id)),(SELECT ARRAY(SELECT id from products order by id)),(SELECT ARRAY(SELECT name from products order by id))
));{"schema":{"fields":[{"name":"index","type":"integer"},{"name":"product_id","type":"integer"},{"name":"instances","type":"integer"},{"name":"frequency","type":"number"},{"name":"name","type":"string"}],"primaryKey":["index"],"pandas_version":"0.20.0"},"data":[{"index":0,"product_id":13,"instances":4,"frequency":0.5714285714,"name":"Cleats"},{"index":1,"product_id":5,"instances":2,"frequency":0.2857142857,"name":"FootballHelmet"},{"index":2,"product_id":7,"instances":1,"frequency":0.1428571429,"name":"Baseball"}]}
虽然这种做法可行,但我并不推荐。直接将所有应用程序逻辑嵌入数据库,会导致跟踪迁移和发布的难度加大。同时,它还需要一个复杂的流水线每晚提取数据并加载到 Spark 中,生成结果,然后将其反馈到数据库,这个工作量可不容小觑。对于 Plpython3u 和 Pandas 来说,每天使用 pg_cron 运行上述代码可能是一个更简单的解决方案。
原文链接:https://info.crunchydata.com/blog/recommendation_engine_in_postgres_with_pandas_and_python
本文为 CSDN 翻译,转载请注明来源出处。
更多精彩推荐
Get了!用Python制作数据预测集成工具 | 附代码
用 Python 详解《英雄联盟》游戏取胜的重要因素!
万字长文总结机器学习的模型评估与调参 | 附代码下载
“Talk is cheap, show me the code”你一行代码有多少漏洞?
科普 | 定义 Eth2.0 中的验证者质量
相关文章:

LVM 类型的 Storage Pool - 每天5分钟玩转 OpenStack(8)
http://www.cnblogs.com/CloudMan6/p/5277927.html LVM 类型的 Storage Pool - 每天5分钟玩转 OpenStack(8)LVM 类型的 Storage Pool不仅一个文件可以分配给客户机作为虚拟磁盘,宿主机上 VG 中的 LV 也可以作为虚拟磁盘分配给虚拟机使用。不过…

.NET中的密码学--对称加密
作者:未知 介绍 在.NET之前,使用非托管的Win32APIs加密解密数据是一件非常痛苦的事情。为了这个加密解密的目的,.NET配置了一组类(和命名空间)。现在你有很多类可以使用每种不同的算法保护你的数据。在.NET里面Crypt…
哪种编程语言最适合初学者?
经常听到有人在说:“现在技术迭代越来越快,程序员的压力更大了,30岁之后的程序员就不好找工作了......”,这不乏很多人在故意贩卖焦虑,但是也会引起我们对自己发展的思考。尤其刚入行的程序员会迷茫,会思考…

地址本在不同手机间的迁移
更换手机时最烦人的莫过于迁移地址本了,近来又迎来了换工作,换手机,先将地址本迁移的方法总结如下: 1)通用方法 功能手机上不能自己写程序的话,迁移起来没有什么好办法,只能先把地址本复制到SIM…

关于flume配置加载(二)
为什么翻flume的代码,一方面是确实遇到了问题,另一方面是想翻一下flume的源码,看看有什么收获,现在收获还谈不上,因为要继续总结。不够已经够解决问题了,而且确实有好的代码,后续会继续慢慢分享…
为什么深度神经网络这么难训练?| 赠书
导读:本文内容节选自《深入浅出神经网络与深度学习》一书,由Michael Nielsen所著,他是实验媒体研究工作室的联合创始人,曾是 YC Research 的 Research Fellow。。本书深入了讲解神经网络和深度学习技术,侧重于阐释深度…

dhcp 搭建
自带rpm包安装:# mount /dev/cdrom /media 挂载 # cd /media/Server/ 进入目录 # rpm -ivh dhcp-3.0.5-18.el5.i386.rpm 安装DHCP # cp /usr/share/doc/dhcp-3.0.5/dhcpd.conf.sample /etc/dhcpd.conf …

锦上添花DataGrid!
作者: cuike519的专栏 http://blog.csdn.net/cuike519/我们知道如果datagrid的宽度比较长那么使得我们很难分清楚行数据,也就是很容易 使我们看错行,我想如果当我们的鼠标移动到datagrid的行上,他可以清楚的显示给 我们就好了…

linux服务器优化1.0版
1.服务器修改IP vim /etc/sysconfig/network-scripts/ifcfg-eth12.修改dns服务器 vim /etc/resolv.conf 3.关闭selinux vim /etc/selinux/config 4.修改主机名iZ118z08 vim /etc/sysconfig/network5.禁用control-alt-delete vim /e…

给DataGrid添加确定删除的功能
给DataGrid添加确定删除的功能DataGrid的功能我想大家是知道的,我在实际的应用中遇到如下的问题,客户要求在删除之前做一次提示。类 似于windows。首先我们都知道DataGrid支持删除的功能,我们可以向DataGrid里面添加删除列就可以实现&#x…
操纵神经元构造后门,腾讯朱雀实验室披露AI模型新型攻击手法
近日,在第19届XCon安全焦点信息安全技术峰会上,腾讯朱雀实验室首度公开亮相。这个颇有神秘色彩的安全实验室专注于实战攻击技术研究和AI安全技术研究,以攻促防,守护腾讯业务及用户安全。会上,腾讯朱雀实验室高级安全研…

工程师进阶之路(四)
转载自 量子恒道官方博客 地址:http://blog.linezing.com 如何和“老板”沟通 我们是一线工程师的时候,和我们的直接技术管理者沟通是非常容易的。我们的技术架构、代码风格、系统扩展性、工程化全局考虑就是我们赢得信任和信赖的名片。但是随着我们的…

Hadoop API文档地址
经常需要查阅,做一下笔记 http://hadoop.apache.org/docs/ http://hadoop.apache.org/docs/current1/api/ http://hadoop.apache.org/docs/current2/api/

两个FTP对传文件
2019独角兽企业重金招聘Python工程师标准>>> #!/bin/bash ftp -n<<! open hostname user username password binary cd /FTP_A_Directory lcd /tmp/tmpSave prompt mget * close bye ! ftp -n<<! open hostname user username password binary cd /…
全国大学生数学建模竞赛中,哈工大被禁用MATLAB
整理 | 屠敏出品 | AI科技大本营(ID:rgznai100)AK47 VS “小米加步枪”同台竞技,最终会有什么样的结果?目前我们尚未可知,但是这样的“竞赛”却在真实上演中。近日,在全国大学生数学建模竞赛中&…

JDK NIO编程
我们首先需要澄清一个概念:NIO到底是什么的简称?有人称之为New I/O,因为它相对于之前的I/O类库是新增的,所以被称为New I/O,这是它的官方叫法。但是,由于之前老的I/O类库是阻塞I/O,New I/O类库的…

ASP.NET ViewState 初探
Susan Warren Microsoft Corporation 与刚接触 ASP.NET 页面的开发人员交谈时,他们通常向我提出的第一个问题就是:“那个 ViewState 到底是什么?”他们的语气中流露出的那种感觉,就象我来到一家异国情调的餐馆,侍者端…

[emuch.net]MatrixComputations(1-6)
matrixComputation转载于:https://www.cnblogs.com/stoneresearch/archive/2012/06/24/4336678.html
身为面向对象编程、移动计算机之父的他,为何说“计算机革命还没真正到来”?...
作者 | 年素清责编 | 李雪敬出品 | 程序人生(ID:coder_life) 艾伦凯(艾伦 Kay)是近代计算机革命先驱之一,他最早提出了“面向对象编程”的概念,也是“Dynabook”(笔记本电脑的雏形)的最早阐述者…

动态表单构建器——建造者模式
在编写一个弹出框时,它可以包含确定按钮,取消按钮,标题栏,关闭按钮,最小化按钮,内容,最大化按钮等内容,但这些内容在不同的需求下又不是必须存在的,不同的需求需要对这些组件自由组合…

网页素材大宝库:50套非常精美的图标素材
图标对网页设计师来说是宝贵的财富,高质量的图标素材既能为设计师节省时间,又能有很不错的效果。网上的免费图标素材非常多,可以说是琳琅满目,那些充满分享精神的设计师们把素材共享出来,让更多的人可以使用他们的优秀…
AI 面试“泛滥”的时代,HR该如何甄别真假“AI”?
作者 | 无缺编辑 | 王晓曼出品 | AI科技大本营(ID:rgznai100)在互联网、物联网蓬勃发展的中国,AI在商业化领域的运用,大家并不陌生。但AI在人力资源领域的发展前景如何?这是一个复杂且相对陌生的话题,也没有…

C语言里面%2d 意思
看看下面的说明就知道啦:修饰符 格式说明 意义 int a1;int b1234;double c1.2345678;printf("%2d\n",a);printf("%2d\n",a);printf("%4d\n",a);printf("%2d\n",b);printf("%2d\n",b);printf("%4d\n",b…

DatagridView自动充满屏幕,并能指定某列宽度
1、要使datagridview正好充满屏幕,设置其AutoSizeColumnsMode属性为fill 2、 同时,我们想要某列宽点,某列窄点,在AutoSizeColumnsMode属性为fill的前提下,设置FillWeight 属性 FillWeight :获取或设置一个值…

在网页中动态的生成一个gif图片
作者: love.net 大家知道股票网站的K线图是动态生成的定时刷新PHP 就有动态生成图片的功能 那么怎样用asp.net在网页中动态的生成一个图片呢? 下面我要举的例子是动态的生成一个图片显示当前时间 namespace Wmj { using System; using System.Drawing; u…
11项重大发布!百度大脑语言与知识技术峰会全程高能
AI正在向更深层次进化,语言与知识技术的重要性愈加凸显。8月25日,以“掌握知识、理解语言、拥有智能”为主题的百度大脑语言与知识技术峰会重磅开启,百度CTO王海峰发表主旨演讲,解读百度语言与知识技术的发展历程与最新成果&#…

MySQL 5.5.35 单机多实例配置详解
一、前言 二、概述 三、环境准备 四、安装MySQL 5.5.35 五、新建支持多实例的配置文件(我这里配置的是四个实例) 六、初始化多实例数据库 七、提供管理脚本 mysqld_multi.server 八、整体备份方便后续迁移 九、管理MySQL多实例 十、登录MySQL多实例 十一…

ASP.NET超凡的代码控制
crystal译yesky 适应性 肯定的是,通常任何一个全新的技术,在市场渗透都会花费一些时间。微软正在开始让ASP和IIS平台通过行业验证,以便让其作为其它网络服务器之外可以供选择的平台 对于在其基本构架上的如此巨大的改变,是很难说服…
老码农:这是我见过最操蛋的代码,切勿模仿!
作为一名老码农,我的心这次凉透了!事情起因很简单:我在全国最大ZZ的同性组织某Hub上浏览时候,发现这样的一条信息:Python 超过 C、JS 薪酬排行第一(最大招聘网站Indeed.com数据)噗,9…

QTP时间格式的转换(YYYYMMDDHHMMSS)
之前查了好多资料都是这样写的: sendTime year(sendTime) & right( "00 " & month(sendTime),2) & right( "00 " & day(sendTime),2) & right( "00 " & hour(sendTime),2) &…