Python | 一万多条拼车数据,看春运的迁徙图
作者 | 白苏,医疗健康领域产品经理一枚,Python&R爱好者
来源 | InThirty
编辑 | Jane
今天是腊月二十八,你们都到家了吗?这篇文章,作者对北京、上海、广州、深圳、杭州等地 1万多条出行数据进行分析,得出了一些有意思的结论,并且绘制了这几个城市春运的迁移图。虽然数据在取样公平性上不能完全符合标准,但是思路还是值得大家学习参考的~
目录
前言
统计结果
爬虫思路
统计思路
后记
前言
很早之前发过一篇关于某拼车平台爬虫的文章,因为工作比较忙,一直没有下文。最近年底稍微空了些,加上碰上春节返乡大潮,刚好再拿过来写一下数据分析的思路。
本次数据样本共13041条,本别采集了北京、上海、广州、深圳、杭州的某一天出行数据,由于手动操作难以保证取样的公平性,所以不能对全部数据结果的准确性做保证,本文以提供思路参考为主,先放一张路线图:
统计结果
好了知道大家比较关心结果,所以先把结果放一放,后面再接着讲分析过程。
乘客性别
先单独把性别拎出来看一下,后面再根据城市进行分析,结果显示,抛开未设置性别的乘客不论,总体来看顺风车的用户群中,男性(占比 49.39%)还是多于女性(占比 31.55%)的。毕竟跨城顺风车,大过年的,女性乘客对于安全性的忧虑还有要有的。
城市订单
真实数据的话订单数量应该是深圳 > 北京 > 广州 > 上海 > 杭州,但是同一个城市内的乘客性别比例应该还是具有一定的参考价值的,可以看到北京、上海、深圳的女性乘客数量占比都是高于男性的。
客单价
原本是想比较一下平均路程长度,但是想想这个事情太折腾了,由于平台主要还是依靠路程来计算拼车费用的,所以通过计算客单价的话大概也能反映一下平均形成长度(我猜的,然后结果是这样的,没想到广州是最高的,也可能是我统计错误
哪里乘客最壕
有时候有些偏远地区订单或者顺路司机少,乘客会加价希望司机接单,于是统计了一下各城市加价订单的占比和平均的加价额度,得出如下结果:
占比最高的城市是深圳,平均加价额度最高的城市也是深圳,看来深圳的小哥哥小姐姐们的确出手阔错,然而加价比例最低的是北京,不过这也不能说明帝都人民不壕气,可能就是人家繁华,司机多。
返乡路线图
最后放几张返乡的路线图
北京
上海
广州
深圳
杭州
杭州明显有别与其它几个城市,一个是杭州的数据样本多,另外一个平台上杭州黄牛多,那些最远的单子就是黄牛广告单
爬虫思路:注册成为司机,利用 mitm 抓包存储拼车单
统计思路:数据的话我是通过本地 Mongodb 存储,所以直接用 python 操作 Mongodb 数据
Pymongo:关于 Mongodb 数据库的连接,直接上代码:
client = MongoClient('mongodb://localhost:27017')
spring = client.spring
collection = spring['orders']
以上代码的意思就是连接本地 Mongodb-spring 数据库 -orders 文档集合
Pyecharts:是大名鼎鼎的 Echarts 的 Python 可视化图表库,用起来挺顺手的,而且文档规范,基本上可以零门槛入门,具体实现请移步文档。
Pyecharts(http://pyecharts.org)
这里介绍一下关于 Pyecharts 的图表样式配置,为了保持各图表的样式统一(偷懒),Pyecharts 提供了一个 Style 类,可用于在同一个图或者多个图内保持统一的风格
rom pyecharts import Style,Geo
style = Style(
title_color="#fff",
title_pos="center",
width=1100,
height=600,
background_color='#404a59'
)
# style.init_style 会返回类初始化的风格配置字典
geo = Geo("全国主要城市空气质量", "data from pm2.5", **style.init_style)
代码解读
因为全部代码有点长,所以抽了一段举个例子,主要思路就是从 Mongodb 取出指定数据,或者通过 $group 管道对数据进行处理,最后通过 pyecharts 生成相应的图表,呈现
from pymongo import MongoClient
from pyecharts import Style,GeoLines
def getLines(self):
# 连接数据库
client = MongoClient('mongodb://localhost:27017')
spring = self.client.spring
collection = self.spring['orders']
# Mongodb的操作,$match-筛选出'from_poi.city.city_name'为'杭州'的文档,
# 再通过$group管道,按照目标城市统计出汇总数量
line_hangzhou = collection.aggregate([
{'$match': {'from_poi.city.city_name': '杭州'}},
{'$group': {'_id': '$to_poi.city.city_name', 'count': {'$sum': 1}}}
])
# 按照Geolines图表的数据格式格式化数据
line_hangzhou_ = []
for line in line_hangzhou:
line_hangzhou_.append(["杭州", line['_id'], line['count']])
# 创建一个GeoLines图表
citylines = GeoLines("春节迁移路线图", **style.init_style)
# 添加数据以及样式
citylines.add("从杭州出发",
line_hangzhou_,
**geo_style)
# 生成html文件
citylines.render("results/citylines.html")
后记
这是一篇迟到很久的文章,本来没打算再写,但是总觉得下半部分没写完心里有个结,所以还是抽时间补上。另外作为一个非专业技术人员,多记多练免得过几天自己就忘了。源码的话抽空传 GitHub,有需要可以后台留言。
推荐阅读
为何Google将几十亿行源代码放在一个仓库?
熬夜写代码,不如换女装入GitHub获上千Star?
Python告诉你绝不知道的1983-2018春晚
一万多条拼车数据,看春运的迁徙图
4个最受欢迎的大数据可视化工具!
直击达沃斯:区块链是好技术,比特币一文不值,为什么?
年薪 10 万的程序员,如何积累人生的第一个 100 万?
苹果开撕 Facebook、Google!
嫁人当嫁程序员
点击“阅读原文”,打开CSDN APP 阅读更贴心!
相关文章:

[转载] sql server 2000系统表解释
sql server 2000系统表解释汇总了几个比较有用的系统表,内容摘自联机帮助sysobjects---------------在数据库内创建的每个对象(约束、默认值、日志、规则、存储过程等)在表中占一行。只有在 tempdb 内,每个临时对象才在该表中占一…

【驱动】uboot环境变量分析
0、bootcmd 0.1 飞凌原设置 bootcmdif mmc rescan; then if run loadbootscript; then run bootscript; else if test ${bootdev} sd1; then echo update firmware.........;run update_from_sd;else echo mmc boot..........;if run loadimage; then run mmcboot; else run n…

python--属性魔法方法
转载于:https://www.cnblogs.com/Purp1e/p/8149773.html

利用三层交换机实现VLAN的通信实验报告
利用三层交换机实现VLAN的通信实验报告<?xml:namespace prefix o ns "urn:schemas-microsoft-com:office:office" />背景:要想实现VLAN之间的通讯,我们可以采用通过路由器实现VLAN间的通信 使用路由器实现VLAN间通信时,路由器与交换机…

【Qt】Qt Creator中文输入设置
#【Qt】Qt Creator中文输入设置 一、ubuntu中文输入法的设置 1、在终端中输入: $ ibus-setup 弹出界面如图: 2、选择中文输入法 3、点击右上角设置–》选择系统设置–》选择语言支持 4、语言支持选择: 汉语(中国)…

为何Google将几十亿行源代码放在一个仓库?
作者 | Rachel Potvin,Josh Levenberg 译者 | 张建军 编辑 | apddd 【AI科技大本营导读】与大多数开发者的想象不同,Google只有一个代码仓库——全公司使用不同语言编写的超过10亿文件,近百TB源代码都存放在自行开发的版本管理系统Piper中&…

Java反射得到属性的值和设置属性的值
package com.whbs.bean; public class UserBean { private Integer id; private int age; private String name; private String address; public UserBean(){ System.out.println("实例化"); } public Integer getId() { return id; } public void setI…

ASP.NET 中的正则表达式
引言 Microsoft.NET Framework 对正则表达式的支持是一流的,甚至在 Microsoft ASP.NET 中也有依赖正则表达式语言的控件。本文介绍了深入学习正则表达式的基础知识和推荐内容。 本文主要面向对正则表达式知之甚少或没有使用经验,但却熟悉 ASP.NET、可借助…

如何用最强模型BERT做NLP迁移学习?
作者 | 台湾大学网红教授李宏毅的三名爱徒来源 | 井森堡,不定期更新机器学习技术文并附上质量佳且可读性高的代码。编辑 | Jane谷歌此前发布的NLP模型BERT,在知乎、Reddit上都引起了轰动。其模型效果极好,BERT论文的作者在论文里做的几个实验…

【驱动】GPIO寄存器配置总结
#【驱动】GPIO寄存器配置总结 0、设置复用功能为GPIO 1、设置引脚特性,与硬件匹配 2、配置寄存器举例 字段解释: 2.0、SRE 数据位:0 SRE(Slew Rate Field):转换速度字段???这是一个可以调…

android Tabhost部件
本文结合源代码和实例来说明TabHost的用法。 使用TabHost 可以在一个屏幕间进行不同版面的切换,例如android自带的拨号应用,截图: 查看tabhost的源代码,主要实例变量有: private TabWidget mTabWidget; private Fr…

网易开源支持图像识别的自动化UI测试工具,零基础亲测好评!
编辑 | Jane出品 | AI科技大本营AI科技大本营给大家推荐了很多有意思、适合开发者们的工具,比如代码修复神器、帮小白快速分析 Error、PDF 翻译工具、变量命名神器等等。今天,营长要专门给测试人员,或者想做测试的小伙伴们推荐一款工具&#…

【驱动】GPIO 作为按键时的 设备树 配置
#【驱动】GPIO作为按键时的 设备树 配置 0、设备树 0.0 别名 imx6ul.dtsi 什么作用??? /*************开始/ / { aliases {… gpio0 &gpio1; gpio1 &gpio2; gpio2 &gpio3; gpio3 &gpio4; gpio4 &gpio5; /**********…

最小树形图及其生产方法
诸位看官,这是我第一次在整篇文章的所有图片里面加水印。小弟写博客的时间不长,就有两篇博客被盗用并未注明原文网址。这一方面使我痛心不已,另一方面迫使我不得不重新考虑一下版权保护问题。小弟不是吝啬鬼,如果影响阅读或者是确…

【数据库】MySQL的C语言接口学习
0、【初始化】 MYSQL* mysql_init(MYSQL *mysql); 1、【设置连接选项】 int mysql_options(MYSQL *mysql,enum mysql_option option, const void *arg); 2、【连接】 MYSQL* mysql_real_connect(MYSQL *mysql, const char *host, const char *user, const char *passwd, cons…

程序员单身比例有多高?【2019开发者图鉴】告诉你
编辑 | Jane 出品 | AI科技大本营 本次调查共 8 个问题,根据这些数字我们整理了《2019开发者图鉴》,下面营长将发现的一些有意思的数字分享给大家: 性别与年龄 本次参与调查的男女比例约为 8:2(男8女2)。 …

26.2. Web UI
http://localhost:3000/ 原文出处:Netkiller 系列 手札 本文作者:陈景峯 转载请与作者联系,同时请务必标明文章原始出处和作者信息及本声明。

VC++ 6.0的小花招
Visual Studio系列中产品中,Visual Studio 6.0是最经典的一个版本,虽然后来有Visual Studio .NET 2003,以及2005,也确实添加了很多让我觉得激动的特性,但是从使用细节的细腻程度上来看,VS 6.0无疑是最棒的。…

【linux】嵌入式中 crontab的使用
0、编辑 执行:crontab -e 执行命令后,将出现一个编辑界面,内容格式如下 Minute Hour Day Month Dayofweek command 分钟 小时 天 月 天每星期 命令 每个字段代表的含义如下: Minute 每个小时的第几分钟执行该任务 Hour 每天的第几…

程序员该怎么做,才能成为coding王者?
每当做编程题目时,大多数人都会靠基本的直觉,遵循一些固定的步骤来有效地解题。不管是有意还是无意,在做编程题目的时你会下意识地遵循一些步骤,在阅读完这篇文章后你就可以将这些步骤和这篇文章联系起来,从而就可以更…

27.3. source code
tar zxvf bandwidthd-2.0.1.tgz cd bandwidthd-2.0.1 ./configure --prefix/srv/bandwidthd-2.0.1 make make install 原文出处:Netkiller 系列 手札 本文作者:陈景峯 转载请与作者联系,同时请务必标明文章原始出处和作者信息及本声明。

WF4.0实战(一):文件审批流程
http://www.cnblogs.com/zhuqil/archive/2010/04/13/DocumentApprovalProcess.html转载于:https://www.cnblogs.com/Little-Li/archive/2010/06/01/1749392.html

AI科技大本营在线公开课大放送(附演讲PPT)
新年新思!新一年,每个人的梦想都闪耀着多彩光芒,对于AI领域的每一位学习者和从业者,我们充满渴望,怀揣梦想,心系对技术的不懈追求。AI科技大本营同样也有自己的新年梦想和脚踏实地的规划,比如今…

《微信跳一跳》安卓手机刷分软件搭建及攻略
2019独角兽企业重金招聘Python工程师标准>>> 元旦期间被微信小程序的游戏刷屏幕了。手笨脚笨的我也尝试了下这新出的小玩意,实在话手脚不协调最高仅仅90分,处于做技术的角度,直觉上可以技术上模拟解决,凑好朋友在微信群…

【libevent】libevent库学习总结(一)——基础
libevent库学习总结(一)——基础 一、基础 1.1、 介绍 Libevent是一个用于开发可伸缩网络服务器的事件通知库。Libevent API提供了一种机制来执行回调函数,当某个特定事件发生在文件描述符上或超时到达之后。此外,Libevent还支…

AS1.0(2.0)中的XML示例
虽然Flash早就升级为AS3.0,但是FMS的服务端编程依然仅支持AS1.0(2.0),服务端与.net通讯的最简单方式莫过于请求一个RESTful的webService或wcf,通过它们返回的xml来获取数据。 var _xml:XML new XML("<ArrayOfstring xmlns\"htt…

【Qt】Qt发布可执行程序(打包依赖库)
Qt发布可执行程序(打包依赖库) 0、编译出可执行文件 如:xxx.exe 1、将xxx.exe拷贝到一个目录下面 2、启动Qt终端交互界面程序 如:Qt 5.6 for Desktop(MinGW) 3、进入xxx.exe所在的目录 4、执行命令…

小编说之“常见问题答疑”
2019独角兽企业重金招聘Python工程师标准>>> 关于前嗅Forespider爬虫的常见问题答疑 奋战在一线为客户答疑的狗蛋儿给小编提供了很多客户经常会问到的问题的素材,小编帮大家整理了一些,快来看看是不是都用的上吧! 一、采集预览没有…

给AI开发者的新年礼物,技术公开课大放送(附演讲PPT)
各位AI科技大本营的伙伴大家好,营长携编辑组的全体成员给大家拜年了! 新年新思!新一年,每个人的梦想都闪耀着多彩光芒,对于AI领域的每一位学习者和从业者,我们充满渴望,怀揣梦想,心系…

通用权限管理组件使用说明书V3.0 错误校正 感谢自由软件职业者Helper(767870484)...
有时候,真想做个像样的东西出来,但是往往各方面的能力都不够,这么多人,Helper(767870484)仔细认真的阅读了这个帮助手册、并给给于了指正,在这里非常感谢,你的劳动成果已经被通用权限…