当前位置: 首页 > 编程日记 > 正文

Python告诉你这些旅游景点好玩、便宜、人又少!

640?wx_fmt=jpeg
(图片由CSDN付费下载自东方IC)

作者 | 猪哥

来源 | 裸睡的猪(ID:IT--Pig)


2019年国庆马上就要到来,
今年来点新花样吧,
玩肯定是要去玩的,
不然怎么给祖国庆生?
那去哪里玩?人少档次还高呢?
咱不是程序员嘛,
那就用数据分析下,
看看哪些地方值得去!

目标

使用Python分析出国庆哪些旅游景点:好玩、便宜、人还少的地方,不然拍照都要抢着拍!

获取数据

既然做数据分析肯定要先搞到数据,最开始笔者在一些官方网站查找旅游信息,毕竟官方的数据可信度高点, 但我一无所获,有点失望!

然后寻找其他替代方案:爬取出行网站的旅游景点售票数据,这样也可以反映出旅游景点的热度!

笔者首先想到“去哪儿”,这里必须要安利一波去哪儿,同样的酒店同样的房间,去哪儿价格基本都是最低,所以笔者也用的最多!

选好学习对象,那我就开始吧!(注:本教程仅用作学习交流,请勿用作商用用途!)

1. 爬取单页数据

我们可以在哪去儿的门票页搜索:**国庆旅游景点**,就可以看到推荐的景点的一些信息,如:名称、地区、热度、销量、价格、等级、地理信息等等,信息应该说是比较全,良心!
http://piao.qunar.com/ticket/list.htm?keyword=

640?wx_fmt=png


然后按下F12打开浏览器调试窗口,查找加载数据的url(翻页就可以看到):

640?wx_fmt=png

竟然直接返回了json数据,真是太方便了:

640?wx_fmt=png

最后使用requests库写一个get请求就可以了

640?wx_fmt=png

这样一页数据就抓取下来了,是不是很简单?

这里说下去哪儿门票页抓取数据还是很简单,不需要登录、不需要代理 、甚至不需要header也可以成功,后面批量抓取页没出现限制,相对于淘宝来说简单了许多!

2. 提取有效信息

既然数据拿到了,那就看看数据结构,然后提取自己想要的属性吧:

640?wx_fmt=png

这里猪哥提取了:id、名称、星级、评分、门票价格、销量、地区、坐标、简介这些信息,基本有效信息都保存起来!

640?wx_fmt=png


3. 保存到excel

需要的数据提取出来之后,我们就可以将他们保存起来。这里我们使用pandas库保存excel文件。

没有安装pandas库的同学安装一下:
pip install xlrd	
pip install openpyxl	
pip install numpy	
pip install pandas

640?wx_fmt=png

这里单页数据的处理就完成了,爬取、解析、保存三步走~

4. 批量爬取

批量爬取也很简单,先找分页数据,多点几下页数比较不同参数就能看出来

640?wx_fmt=png

经过一会的分析,我们便可以看出参数 page 就是分页参数了,这样我们在外层写一个for循环,把页数传入就可以实现批量爬取

640?wx_fmt=png


那个36是我在网页上看到了,当然也可以实现自动判断是否爬取完成,只要判断每次返回的条数即可!

看看批量爬取的效果:

640?wx_fmt=png

分析数据

数据都下载完毕后,就要思考如何去利用分析这些数据了,猪哥简单做了几个分析:

  1. 景点门票销量排行分析
  2. 景点门票销售额排行分析
  3. 各省各等级景点数分析
  4. 景点销量热力图分析
  5. 推荐景点分析

我们使用的可视化库仍然是:pyecharts库 ,更多维度分析等待你去思考~

1.景点门票销量排行分析

我们先来分析下景点门票销量排行:

640?wx_fmt=png

我们创建了一个透视表,然后根据销量排序!最后生成柱状图,一起来看看效果:

640?wx_fmt=png

我们可以看到迪士尼门票销量排第一

2.景点销售额排行分析

销售额=单价*销量,我们可以将每行的price和sale相乘算出销售额:

640?wx_fmt=png

我们将得到的销售额数据放回df中,然后再排序:

640?wx_fmt=png

迪士尼真是吸金厉害!!!

3.各省各等级景点数分析

由于时间原因,该项分析暂未完成,本想分析下每个省每个等级的景点有多少个,但是由于时间原因暂未完成,感兴趣的同学可以下载源码自己试试 ,就当课后作业叭~

4.景点销量热力图分析

之前我们也做过很多热力图,都是用的pyecharts库,今天我们来点不一样 的,我们使用百度地图开放api(免费)做一个热力图,你首先要做的就是申请一个百度地图开放平台的应用,操作很简单,如何申请可以 直接百度或者看看下面链接的文章,需要注意的是:在申请应用的时候类型一定要选浏览器:
https://jingyan.baidu.com/article/363872eccda8286e4aa16f4e.html

640?wx_fmt=png

然后你就可以下载一个百度热力图的demo的html,在html中把ak码换成自己的。

640?wx_fmt=png

换完ak码就要换json数据了,我们先生成和默认数据一样格式的json数据,然后再替换掉

640?wx_fmt=png

最后来看看效果叭,动态地图支持放大缩小,可仔细查看各省、市、区景点热力图

640?wx_fmt=png

5.推荐景点分析

应该推荐怎样的景点呢?笔者认为是:高评分、销量少、价格便宜。

推荐系数和评分成正比,和销量、价格成反比,所以笔者设计了一个最简单的算法:

瞎推荐系数=评分/(销量价格) * 1000

640?wx_fmt=png

来看看这个简易的推荐算法得出的结果

640?wx_fmt=png

可以看到在这个瞎推荐TOP20中国外景点很多(尤其是日本),确实国内到国庆了哪里其实人都是挺多的!

如果你觉得我设计的推荐算法太low了,可以自己思考下如何设计更合理,然后自己动手调试,期待看到不一样的结果!

源码地址,欢迎 Star:
https://github.com/pig6/qunar_spider

(*本文为 AI科技大本营转载文章,转载请联系原作者)


精彩推荐


2019 中国大数据技术大会(BDTC)历经十一载,再度火热来袭!豪华主席阵容及百位技术专家齐聚,15 场精选专题技术和行业论坛,超强干货+技术剖析+行业实践立体解读,深入解析热门技术在行业中的实践落地。【早鸟票】【特惠学生票】限时抢购,扫码了解详情!

640?wx_fmt=png

推荐阅读

  • 王霸之路:从0.1到2.0,一文看尽TensorFlow“奋斗史”

  • 伯克利人工智能研究院开源深度学习数据压缩方法Bit-Swap,性能创新高

  • NLP被英语统治?打破成见,英语不应是「自然语言」同义词

  • TensorFlow2.0正式版发布,极简安装TF2.0(CPU&GPU)教程

  • 肖仰华:知识图谱构建的三要素、三原则和九大策略 | AI ProCon 2019

  • 微软语音AI技术与微软听听文档小程序实践 | AI ProCon 2019

  • AI落地遭“卡脖子”困境:为什么说联邦学习是解决良方?

  • 10分钟搭建你的第一个图像识别模型 | 附完整代码

  • 限时早鸟票 | 2019 中国大数据技术大会(BDTC)超豪华盛宴抢先看!

640?wx_fmt=png

你点的每个“在看”,我都认真当成了喜欢

相关文章:

手机APP自动化之uiautomator2 +python3 UI自动化

题记: 之前一直用APPium直到用安卓9.0 发现uiautomatorviewer不支持安卓 9.0,点击截屏按钮 一直报错,百度很久解决方法都不可以,偶然间看见有人推荐:uiautomator2 就尝试使用 发现比appium要简单一些; 下面…

爱上MVC3系列~开发一个站点地图(俗称面包屑)

回到目录 原来早在webform控件时代就有了SiteMap这个东西,而进行MVC时代后,我们也希望有这样一个东西,它为我们提供了不少方便,如很方便的实现页面导航的内容修改,页面导航的样式换肤等. 我的MvcSiteMap主要由实体文件,XML配置文件,C#调用文件组成,当然为了前台使用方便,可以为…

Django web框架-----Django连接现有mysql数据库

第一步:win10下载mysql5.7压缩包配置安装mysql,创建数据库或导入数据库 第二步:win10搭建django2.1.7开发环境,创建项目为mytestsite,创建应用app为quicktool 第三步:编辑与项目同名的文件夹的配置文件&…

CUDA Samples: green ball

以下CUDA sample是分别用C和CUDA实现的生成的绿色的球图像&#xff0c;并对其中使用到的CUDA函数进行了解说&#xff0c;code参考了《GPU高性能编程CUDA实战》一书的第五章&#xff0c;各个文件内容如下&#xff1a;funset.cpp:#include "funset.hpp" #include <r…

ICLR 2020论文投稿2600篇,GNN、BERT、Transformer领跑热门研究方向

&#xff08;图片由AI科技大本营付费下载自视觉中国&#xff09;出品 | AI科技大本营&#xff08;ID&#xff1a;rgznai100&#xff09;2019 年 4&#xff0c;ICLR 2020 论文征集活动开始&#xff0c;截止 9 月 25 日&#xff0c;大会共收到近 2600 篇投稿&#xff0c;相比 ICL…

android环境安装之android4.2安装(转)

准备学习android&#xff0c;着手安装android时听说很麻烦&#xff0c;在网上看了很多android安装说明&#xff0c;都是android比较早的版本&#xff0c;我这里安装了android4.2&#xff0c;简单记录一下。 安装分为几步&#xff0c;首先申明&#xff0c;安装时最好保持网络畅通…

如何创建一个百分百懂你的产品推荐系统 | 深度教程(附代码详解)

&#xff08;图片由AI科技大本营付费下载自视觉中国&#xff09;来源 | 读芯术&#xff08;ID&#xff1a;AI_Discovery&#xff09;你也许每天都会逛一逛电子商务网站&#xff0c;或者从博客、新闻和媒体出版物上阅读大量文章。浏览这些东西的时候&#xff0c;最令读者或者用户…

CUDA Samples: Ray Tracking

以下CUDA sample是分别用C和CUDA实现的生成光线跟踪图像&#xff0c;并对其中使用到的CUDA函数进行了解说&#xff0c;code参考了《GPU高性能编程CUDA实战》一书的第六章&#xff0c;CUDA各实现包括了使用常量内存和不使用常量内存两种方法&#xff0c;各个文件内容如下&#x…

从产品的适用性以及费用方面考虑

物联宇手持终端在对比性价比高低应该从产品的适用性以及费用方面考虑。不过在选择时不一定要整机&#xff0c;可以按实际需求让厂商定做和行业需要功能的手持机&#xff0c;这样有针对性的定制更能体现整体的性价效率。转载于:https://blog.51cto.com/14222294/2386642

杨学海:跨境电商新通道-进口保税直邮模式解析

为什么80%的码农都做不了架构师&#xff1f;>>> 杨学海&#xff1a;跨境电商新通道-进口保税直邮模式解析 广州威云供应链管理公司总经理杨学海在第九届中国中小企业电子商务大会上表示&#xff0c;其品牌海外通要为跨境电子商务提供一个更加快速、便捷、低成本&am…

CUDA Samples: heat conduction(模拟热传导)

以下CUDA sample是分别用C和CUDA实现的模拟热传导生成的图像&#xff0c;并对其中使用到的CUDA函数进行了解说&#xff0c;code参考了《GPU高性能编程CUDA实战》一书的第七章&#xff0c;各个文件内容如下&#xff1a;funset.cpp:#include "funset.hpp" #include <…

2020应届生:今年秋招也太太太太太难了吧!

讲个简短的鬼故事&#xff1a;2020秋招已经过去一大半了&#xff01;回顾9月&#xff0c;你可能以为秋招还有很多机会&#xff0c;还有大把时间准备。然而各大名企的实际进度却不等人。阿里巴巴9月12日网申截止&#xff1b;腾讯9月15日网申截止&#xff1b;宝洁9月20日关闭网申…

PDF文字怎么编辑,PDF文档编辑方法

有时候遇到PDF文件不是自己制作的或者是制作的有点匆忙&#xff0c;会有文字遗漏或者打错的时候&#xff0c;我们使用就会有点麻烦就需要把文件中的文字进行编辑修改&#xff0c;那么具体怎么做呢&#xff1f;小伙伴们都挺好奇吧&#xff0c;今天就来跟大家分享一下。操作软件&…

浏览器是怎样工作的:渲染引擎,HTML解析

2019独角兽企业重金招聘Python工程师标准>>> 渲染引擎 渲染引擎的职责是……渲染&#xff0c;也就是把请求的内容显示到浏览器屏幕上。 默认情况下渲染引擎可以显示HTML&#xff0c;XML文档以及图片。 通过插件&#xff08;浏览器扩展&#xff09;它可以显示其它类型…

CUDA Samples: Calculate Histogram(atomicAdd)

以下CUDA sample是分别用C和CUDA实现的计算一维直方图&#xff0c;并对其中使用到的CUDA函数进行了解说&#xff0c;code参考了《GPU高性能编程CUDA实战》一书的第九章&#xff0c;各个文件内容如下&#xff1a;funset.cpp:#include "funset.hpp" #include <rando…

glusterfs基本操作

基本操作 集群节点 扩展集群 1,必须做hosts域名解析其实通过IP地址也能做集群,但是不建议这种方式. 192.168.1.210 glusterfs04 2, 添加节点到集群中,在当前所有集群节点中都需要执行 gluster peer probe glusterfs04 3,查看对等状态 gluster peer status 查看集群节点信息 gl…

100多次竞赛后,他研发了一个几乎可以解决所有机器学习问题的框架

&#xff08;图片由AI科技大本营付费下载自视觉中国&#xff09;作者 | XI YANG来源 | 知乎&#xff08;机器学习之路&#xff09;一个叫 Abhishek Thakur 的数据科学家&#xff0c;在他的 Linkedin 发表了一篇文章 Approaching (Almost) Any Machine Learning Problem&#xf…

mysql中char与varchar的区别分析(补充一句,int和integer没区别)

转自&#xff1a;http://www.jb51.net/article/23575.htm 在mysql教程中char与varchar的区别呢&#xff0c;都是用来存储字符串的&#xff0c;只是他们的保存方式不一样罢了&#xff0c;char有固定的长度&#xff0c;而varchar属于可变长的字符类型。har与varchar的区别 &#…

CUDA Samples: Streams' usage

以下CUDA sample是分别用C和CUDA实现的流的使用code&#xff0c;并对其中使用到的CUDA函数进行了解说&#xff0c;code参考了《GPU高性能编程CUDA实战》一书的第十章&#xff0c;各个文件内容如下&#xff1a;funset.cpp:#include "funset.hpp" #include <random&…

你的神经网络不起作用的37个理由

&#xff08;图片由AI科技大本营付费下载自视觉中国&#xff09;作者 | Slav Ivanov译者 | 吴金笛校对 | 丁楠雅、林亦霖编辑 | 王菁来源 | 数据派THU&#xff08;ID&#xff1a;DatapiTHU&#xff09;【导语】本文列举了在搭建神经网络过程中的37个易错点&#xff0c;并给出了…

菜鸟Vue学习笔记(三)

菜鸟Vue学习笔记&#xff08;三&#xff09;本周使用了Vue来操作表单&#xff0c;接下来说下Vue中双向绑定表单元素的用法。Vue中双向绑定是使用的v-model&#xff0c;所谓的双向绑定即改变变量的值&#xff0c;表单元素的值也会改变&#xff0c;同样的&#xff0c;改变表单元素…

Python中的注释(转)

一、单行注释单行注释以#开头&#xff0c;例如&#xff1a;print 6 #输出6二、多行注释&#xff08;Python的注释只有针对于单行的注释&#xff08;用#&#xff09;&#xff0c;这是一种变通的方法&#xff09;多行注释用三引号将注释括起来&#xff0c;例如:多行注释多行注释三…

CUDA Samples: dot product(使用零拷贝内存)

以下CUDA sample是分别用C和CUDA实现的点积运算code&#xff0c;CUDA包括普通实现和采用零拷贝内存实现两种&#xff0c;并对其中使用到的CUDA函数进行了解说&#xff0c;code参考了《GPU高性能编程CUDA实战》一书的第十一章&#xff0c;各个文件内容如下&#xff1a;funset.cp…

一文读懂线性回归、岭回归和Lasso回归

&#xff08;图片由AI科技大本营付费下载自视觉中国&#xff09;作者 | 文杰编辑 | yuquanle本文介绍线性回归模型&#xff0c;从梯度下降和最小二乘的角度来求解线性回归问题&#xff0c;以概率的方式解释了线性回归为什么采用平方损失&#xff0c;然后介绍了线性回归中常用的…

tf.matmul / tf.multiply

import tensorflow as tfimport numpy as np 1.tf.placeholder placeholder()函数是在神经网络构建graph的时候在模型中的占位&#xff0c;此时并没有把要输入的数据传入模型&#xff0c;它只会分配必要的内存。 等建立session&#xff0c;在会话中&#xff0c;运行模型的时候通…

Java 匿名类也能使用构造函数

为什么80%的码农都做不了架构师&#xff1f;>>> 匿名类虽然没有名字&#xff0c;但可以有一个初始化块来充当构造函数。 public enum Ops {ADD, SUB} public class Calculator { private int i, j, result; public Calculator() {} public Calculator(int _i, …

CUDA Samples: matrix multiplication(C = A * B)

以下CUDA sample是分别用C和CUDA实现的两矩阵相乘运算code即C A*B&#xff0c;CUDA中包含了两种核函数的实现方法&#xff0c;第一种方法来自于CUDA Samples\v8.0\0_Simple\matrixMul&#xff0c;第二种采用普通的方法实现&#xff0c;第一种方法较快&#xff0c;但有些复杂&am…

业界首个实时多目标跟踪系统开源

&#xff08;图片由AI科技大本营付费下载自视觉中国&#xff09;作者 | CV君来源 | 我爱计算机视觉&#xff08;ID&#xff1a;aicvml&#xff09;相对业界研究比较多的单目标跟踪&#xff0c;多目标跟踪&#xff08;Multi-Object Tracking&#xff0c;MOT&#xff09;系统在实…

python基础 练习题

【练习题1】实现一个整数加法计算器如 content input(">>> ") # 59 , 64 count0 while 1:contentinput(>>>)s1 content.split()print(s1)count 0for i in s1:count int(i)print(count) 【练习题2】请编写1 - 100 所有数的和 sum0 for i in r…

[再寄小读者之数学篇](2014-04-18 from 352558840@qq.com [南开大学 2014 年高等代数考研试题]二次型的零点)...

(2014-04-18 from 352558840qq.com [南开大学 2014 年高等代数考研试题]) 设 ${\bf A}$ 为实对称矩阵, 存在线性无关的向量 ${\bf x}_1,{\bf x}_2$, 使得 ${\bf x}_1^T{\bf A}{\bf x}_1>0$, ${\bf x}_2^T{\bf A}{\bf x}_2<0$. 证明: 存在线性无关的向量 ${\bf x}_3,{\bf …