介绍一个效率爆表的数据采集框架
作者 | 俊欣
来源丨关于数据分析与可视化
今天我们来聊一下如何用协程来进行数据的抓取,协程又称为是微线程,也被称为是用户级线程,在单线程的情况下完成多任务,多个任务按照一定顺序交替执行。
那么aiohttp
模块在Python
中作为异步的HTTP
客户端/服务端框架,是基于asyncio
的异步模块,可以用于实现异步爬虫,更快于requests
的同步爬虫。下面我们就通过一个具体的案例来看一下该模块到底是如何实现异步爬虫的。
发起请求
我们先来看一下发起请求的部分,代码如下
async def fetch(url, session):try:async with session.get(url, headers=headers, verify_ssl=False) as resp:if resp.status in [200, 201]:logger.info("请求成功")data = await resp.text()return dataexcept Exception as e:print(e)logger.warning(e)
要是返回的状态码是200
或者是201
,则获取响应内容,下一步我们便是对响应内容的解析
响应内容解析
这里用到的是PyQuery
模块来对响应的内容进行解析,代码如下
def extract_elements(source):try:dom = etree.HTML(source)id = dom.xpath('......')[0]title = dom.xpath('......')[0]price = dom.xpath('.......')[0]information = dict(re.compile('.......').findall(source))information.update(title=title, price=price, url=id)print(information)asyncio.ensure_future(save_to_database(information, pool=pool))except Exception as e:print('解析详情页出错!')logger.warning('解析详情页出错!')pass
最后则是将解析出来的内容存入至数据库当中
数据存储
这里用到的是aiomysql
模块,使用异步IO的方式保存数据到Mysql
当中,要是不存在对应的数据表,我们则创建对应的表格,代码如下
async def save_to_database(information, pool):COLstr = '' # 列的字段ROWstr = '' # 行字段ColumnStyle = ' VARCHAR(255)'if len(information.keys()) == 14:for key in information.keys():COLstr = COLstr + ' ' + key + ColumnStyle + ','ROWstr = (ROWstr + '"%s"' + ',') % (information[key])async with pool.acquire() as conn:async with conn.cursor() as cur:try:await cur.execute("SELECT * FROM %s" % (TABLE_NAME))await cur.execute("INSERT INTO %s VALUES (%s)" % (TABLE_NAME, ROWstr[:-1]))except aiomysql.Error as e:await cur.execute("CREATE TABLE %s (%s)" % (TABLE_NAME, COLstr[:-1]))await cur.execute("INSERT INTO %s VALUES (%s)" % (TABLE_NAME, ROWstr[:-1]))except aiomysql.Error as e:pass
项目的启动
最后我们来看一下项目启动的代码,如下
async def consumer():async with aiohttp.ClientSession() as session:while not stop:if len(urls) != 0:_url = urls.pop()source = await fetch(_url, session)extract_links(source)if len(links_detail) == 0:print('目前没有待爬取的链接')await asyncio.sleep(np.random.randint(5, 10))continuelink = links_detail.pop()if link not in crawled_links_detail:asyncio.ensure_future(handle_elements(link, session))
我们通过调用ensure_future
方法来安排协程的进行
async def handle_elements(link, session):print('开始获取: {}'.format(link))source = await fetch(link, session)# 添加到已爬取的集合中crawled_links_detail.add(link)extract_elements(source)
数据分析与可视化
下面我们针对抓取到的数据进行进一步的分析与可视化,数据源是关于上海的二手房的相关信息,我们先来看一下房屋户型的分布,代码如下:
house_size_dict = {}
for house_size, num in zip(df["房屋户型"].value_counts().head(10).index, df["房屋户型"].value_counts().head(10).tolist()):house_size_dict[house_size] = numprint(house_size_dict)house_size_keys_list = [key for key, values in house_size_dict.items()]
house_size_values_list = [values for key, values in house_size_dict.items()]p = (Pie(init_opts=opts.InitOpts(theme=ThemeType.LIGHT)).add("", [list(z) for z in zip(house_size_keys_list, house_size_values_list)],radius=["35%", "58%"],center=["58%", "42%"]).set_global_opts(title_opts=opts.TitleOpts(title="房屋面积大小的区间", pos_left="40%"),legend_opts=opts.LegendOpts(orient="vertical",pos_top="15%",pos_left="10%")).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
)p.render("house_size.html")
output
我们可以看到占到大多数的都是“2室1厅1厨1卫”的户型,其次便是“1室1厅1厨1卫”的户型,可见上海二手房交易的市场卖的小户型为主。而他们的所在楼层,大多也是在高楼层(共6层)的为主,如下图所示:
我们再来看一下房屋的装修情况,市场上的二手房大多都是以“简装”或者是“精装”为主,很少会看到“毛坯”的存在,具体如下图所示:
至此,我们就暂时先说到这里,本篇文章主要是通过异步协程的方式来进行数据的抓取,相比较于常规的requests
数据抓取而言,速度会更快一些。
往
期
回
顾
技术
用Python写一个天天酷跑
资讯
Nginx宣布在俄罗斯禁止贡献
资讯
2022人工智能开启未来新密码
技术
一行Python代码能干嘛?来看!
分享
点收藏
点点赞
点在看
相关文章:

最多显示6行并且最多显示三条文本
为什么80%的码农都做不了架构师?>>> private void setCommentContent(ViewHolder vh, String feedId, int commentNum, ArrayList<CommentItem> comment_lists){if(commentNum < 0 || comment_lists null || comment_lists.isEmpty()){for(in…

【刷算法】LeetCode- 两数之和
题目描述 给定一个整数数组和一个目标值,找出数组中和为目标值的两个数。 你可以假设每个输入只对应一种答案,且同样的元素不能被重复利用。 示例: 给定 nums [2, 7, 11, 15], target 9因为 nums[0] nums[1] 2 7 9 所以返回 [0, 1] 复制代码分析 第…

栈区和堆区内存分配区别
一直以来总是对这个问题的认识比较朦胧,我相信很多朋友也是这样的,总是听到内存一会在栈上分配,一会又在堆上分配,那么它们之间到底是怎么的区别呢?为了说明这个问题,我们先来看一下内存内部的组织情况&…
高精度进制转换
高精度进制转换: 对于普通的不是非常大的数的相互转换,我们一般採用不断模取余的方法,比如:将10进制数m转换成n进制数,则对m模n取余就可以。可是,假设是一个有几百、几千或者很多其它位的大数呢?…

远程办公,你希望在家工作几天?
受疫情影响,员工的工作方式不得不发生改变。在过去短短的几个月内,远程办公从偶然一次变成了常态化。随着疫情的反复,远程办公再次成为了许多企业的选择。3月份携程正式启动了“32”混合办公模式,即每周有1-2天,员工可…

python爬虫日志(9)爬取代理
2019独角兽企业重金招聘Python工程师标准>>> 话不多说,直接上代码,很简单,很容易看懂 import requests from bs4 import BeautifulSoup import randomdef get_ip_list():print("正在获取代理列表...")ip_url http://ww…

使php支持mbstring库以及使用
1.执行yum install php-mbstring2. 修改php.ini (这一步非常重要, 部分lxadmin版本无法自动修改)echo ‘extensionmbstring.so’ >>/etc/php.ini #更具php安装目录而定3. 重启web service如果是apache: service httpd restart方法二:php 5.36安装目录…
仿余额宝数字跳动效果 TextCounter
1、TextCounter 效果 2、TextCounter 说明 每次打开余额宝第一件事情就去看看有多少钱,最炫的就是看着钱在跳动相当的舒服,今天放出这个效果。 温馨提示:支持的Android版本最低的是Android 4.0.0 IceCreamSandwich ( API等级14 &a…

年仅 16 岁的黑客少年,竟是搅乱 IT 巨头的幕后主使?
整理 | 郑丽媛出品 | CSDN近来,黑客组织 Lapsus$ 活跃在各大科技网站:窃取英伟达近 1TB 的数据、泄露三星近 190GB 的机密数据、公布微软 Bing 和 Cortana 源码…不同于大部分黑客组织,Lapsus$ 没有刻意隐藏自己,反而行事非常高调…

使用硬盘,安装双系统,Win7+CentOS
我用那个U盘装了很多次都不行,都是说找不到文件。最后就找了一篇博客看如何安装双系统,最后发现原来可以用硬盘安装的。经过5个多小时终于完成了。^-^。 1.首先是分区,可以使用Window7自带的磁盘管理程序进行分区。(PS 我是用Cent…

Linux 文件系统剖析
Linux 文件系统剖析 按照分层结构讨论 Linux 文件系统 M. Tim Jones, 顾问工程师, Emulex Corp. 简介: 在文件系统方面,Linux 可以算得上操作系统中的 “瑞士军刀”。Linux 支持许多种文件系统,从日志型 文件系统到集群文件系统和加密文件系统…

Docker构建Nginx+Tomcat动静分离架构
随着主流Nginx WEB服务器的发展,现在基于Nginx的WEB服务器已广泛应用于各大互联网企业。今天我们来使用docker构建我们的LinuxNginxTomcat动静分离服务器。1) 启动docker镜像查看当前系统存在的镜像,我这里为CentOS6.6,大家可以参考我第一…

硬核!Python 四种变量的代码对象和反汇编分析
作者 | 大奎整理 | 阳哥来源丨Python数据之道在Python基础的学习过程中,对变量和参数的理解有助于我们从更基础层面了解Python语言的运行。在这个过程中,还是有不少冷门和细节的地方需要进一步熟悉。今天我们来分享Python四种变量的代码对象和反汇编分析…

Python--数据存储:pickle模块的使用讲解
在机器学习中,我们常常需要把训练好的模型存储起来,这样在进行决策时直接将模型读出,而不需要重新训练模型,这样就大大节约了时间。Python提供的pickle模块就很好地解决了这个问题,它可以序列化对象并保存到磁盘中&…

Linux虚拟内存和物理内存精华【美】
原文地址: 《Playing with Virtual Memory》 http://www.snailinaturtleneck.com/blog/2011/08/30/playing-with-virtual-memory/ 扩展阅读: 《Understanding Memory》 http://www.ualberta.ca/CNS/RESEARCH/LinuxClusters/mem.html 《Understanding Vir…

留不住客户?该从你的系统上找找原因了
本篇文章暨 CSDN《中国 101 计划》系列数字化转型场景之一。 《中国 101 计划——探索企业数字化发展新生态》为 CSDN 联合《新程序员》、GitCode.net 开源代码仓共同策划推出的系列活动,寻访一百零一个数字化转型场景,聚合呈现并开通评选通道࿰…

系统配置文件备份比较
客户的系统出各种问题,这次出了问题整整一天都没找出原因,都红脸了,最后发现是系统配置文件被改掉了,简直不能忍,所以写了这个脚本,放到定时任务里面,每天备份比较配置文件import difflib impor…

RPC是什么?为什么要学习RPC?
随着近几年分布式、微服务架构的火热,RPC在开发工作中使用的越来越多,也变的越来越重要。 今天我们来看RPC是什么,为什么要了解RPC,通过学习RPC我们能掌握什么内容? 什么是「RPC」 RPC 全称 Remote Procedure Call, wikipedia的部…

Lua学习笔记6:C++和Lua的相互调用
曾经一直用C写代码。话说近期刚换工作。项目组中的是cocos2dx-lua,各种被虐的非常慘啊有木有。新建cocos2dx-lua项目。打开class能够发现,事实上就是C项目啦,只是为什么仅仅有一类Appdelegate类呢?哈哈,我相信聪明的你一定猜到了&…

Redis消息通知系统的实现
Redis消息通知系统的实现Posted on 2012-02-29by 老王 http://huoding.com/2012/02/29/146最近忙着用Redis实现一个消息通知系统,今天大概总结了一下技术细节,其中演示代码如果没有特殊说明,使用的都是PhpRedis扩展来实现的。内存比如要推送一…

用 Python 实现答题卡识别!
作者 | 棒子胡豆来源丨CSDN博客答题卡素材图片:思路读入图片,做一些预处理工作。进行轮廓检测,然后找到该图片最大的轮廓,就是答题卡部分。进行透视变换,以去除除答题卡外的多余部分,并且可以对答题卡进行校…
Confluence 6 计划任务
管理员控制台能够允许你对 Confluence 运行的计划任务进行计划的调整,这些计划任务将会按照你的调整按时执行。可以按照计划执行的任务如下: Confluence 站点备份存储优化任务,清理 Confluence 的临时目录中的文件和缓存索引优化任务…

PHP共享内存段
在asp.net和java中都有共享内存,php除了可以使用Memcached等方式变通以外其实php也是支持共享内存的!需要安装扩展shmop 找到php安装源文件目录# cd /usr/local/php-5.4.0/ext/shmop # /usr/local/php/bin/phpize # ./configure --with-php-config/usr/l…

马尔科夫随机场的基本概念
1、随机过程: 描写叙述某个空间上粒子的随机运动过程的一种方法。它是一连串随机事件动态关系的定量描写叙述。随机过程与其他数学分支,如微分方程、复变函数等有密切联系。是自然科学、project科学及社会科学等领域研究随机现象的重要工具。 2、马尔科夫…

从事了两年 AI 研究,我学到了什么?
作者 | Tom Silver译者 | 弯月出品 | CSDN我从事人工智能研究的工作已经有两年了,有朋友问我都学到了什么,所以我想借本文分享一些迄今为止积累的经验教训。我将在本文中分享一些常见的经历,还会讨论相对具体的人工智能行业技巧。希望对大家能…

Windows server 2008普通用户不能远程登录问题
1、查登录权限 如果文件服务器没有为用户授权,那么用户自然就不能远程登录服务器系统了,为此笔者决定先仔细检查一下文件服务器系统是否为自己使用的登录账号,授予了远程登录权限。在进行这种检查时,笔者先是在文件服务器本地以系…

面向小白的最全 Python 可视化教程,超全的!
作者 | 俊欣来源丨关于数据分析与可视化今天小编总结归纳了若干个常用的可视化图表,并且通过调用plotly、matplotlib、altair、bokeh和seaborn等模块来分别绘制这些常用的可视化图表,最后无论是绘制可视化的代码,还是会指出来的结果都会通过调…

Atitit.文件搜索工具 attilax 总结
Atitit.文件搜索工具 attilax 总结 1. 指定目录按照体积大小精确搜索1 1.1. File Seeker 4.5 版本的可以,3.5版本的不行。。1 2. 按照文件内容搜索1 2.1. File Seeker2 2.2. Notepad2 2.3. FileLocator Pro 是一款专业的文件搜索软件,2 2.4. 百度硬盘搜索…

ulimit -SHn 65535 含义
linux下用ulimit设置连接数最大值,默认是1024.在高负载下要设置为更高,但最高只能为65535. ulimit只能做临时修改,重启后失效。可以加入ulimit -SHn 65535到 /etc/rc.local 每次启动启用。终极解除 Linux 系统的最大进程数和最大文件打开数限…

5.7-基于Binlog+Position的复制搭建
基本环境 MasterSlaveMySQL版本MySQL-5.7.16-X86_64MySQL-5.7.16-X86_64IP192.168.56.156192.168.56.157Port33063306数据库环境的部署:两边安装好相同的数据库软件,初始化,可以启动起来。检查事项:两边防火墙是否开启,…