5行代码就能入门爬虫?
作者 | 苏克1900
来源 | 第2大脑(ID:Mocun6)
责编 | swallow
不少读者是刚刚入门Python或者想学习Python的,今天就来谈谈如何用快速入门爬虫。
先说结论:入门爬虫很容易,几行代码就可以,可以说是学习Python最简单的途径。
以我纯小白、零基础的背景来说,入门爬虫其实很容易,容易在代码编写很简单,简单的爬虫通常几行就能搞定,而不容易在确定爬虫的目标,也就是说为什么要去写爬虫,有没有必要用到爬虫,是不是手动操作几乎无法完成,互联网上有数以百万千万计的网站,到底以哪一个网站作为入门首选,这些问题才是难点。所以在动手写爬虫前,最好花一些时间想一想这清楚这些问题。
「Talk is cheap. Show me the code」,下面我就以曾写过的一个爬虫为例,说一说我是如何快速入门Python爬虫的。
▌确立目标
第一步,确立目标。
为什么想起写这个爬虫呢,是因为这是曾经在工作中想要解决的问题,当时不会爬虫,只能用Excel花了数个小时才勉强地把数据爬了下来, 所以在接触到爬虫后,第一个想法就是去实现曾未实现的目标。以这样的方式入门爬虫,好处显而易见,就是有了很明确的动力。
很多人学爬虫都是去爬网上教程中的那些网站,网站一样就算了,爬取的方法也一模一样,等于抄一遍,不是说这样无益,但是会容易导致动力不足,因为你没有带着目标去爬,只是为了学爬虫而爬,爬虫虽然是门技术活,但是如果能建立在兴趣爱好或者工作任务的前提下,学习的动力就会强很多。
在确定好爬虫目标后,接着我就在脑中预想了想要得到什么样的结果、如何展示出来、以什么形式展现这些问题。所以,我在爬取网站之前,就预先构想出了想要的一个结果,大致是下面这张图的样子。
目标是利用爬下来的数据,尝试从不同维度年份、省份、城市去分析全国的股市信息,然后通过可视化图表呈现出来。
抛开数据,可能你会觉得这张图在排版布局、色彩搭配、字体文字等方面还挺好看的。这些呢,就跟爬虫没什么关系了,而跟审美有关,提升审美的一种方式是可以通过做PPT来实现,所以你看,咱们说着说着就从爬虫跳到了 PPT,不得不说我此前发的文章铺垫地很好啊,哈哈。其实,在职场中,你拥有的技能越多越好。
▌直接开始
确定了目标后,第二步就可以开始写爬虫了,如果你像我一样,之前没有任何编程基础,那我下面说的思路,可能会有用。
刚开始动手写爬虫,我只关注最核心的部分,也就是先成功抓到数据,其他的诸如:下载速度、存储方式、代码条理性等先不管,这样的代码简短易懂、容易上手,能够增强信心。
所以,我在写第一遍的时候,只用了5行代码,就成功抓取了全部所需的信息,当时的感觉就是很爽,觉得爬虫不过如此啊,自信心爆棚。
1import pandas as pd
2import csv
3for i in range(1,178): # 爬取全部页
4 tb = pd.read_html('http://s.askci.com/stock/a/?reportTime=2017-12-31&pageNum=%s' % (str(i)))[3]
5 tb.to_csv(r'1.csv', mode='a', encoding='utf_8_sig', hea
3000+ 上市公司的信息,安安静静地躺在 Excel 中:
▌不断完善
有了上面的信心后,我开始继续完善代码,因为5行代码太单薄,功能也太简单,大致从以下几个方面进行了完善:
增加异常处理
由于爬取上百页的网页,中途很可能由于各种问题导致爬取失败,所以增加了 try except 、if 等语句,来处理可能出现的异常,让代码更健壮。
增加代码灵活性
初版代码由于固定了URL参数,所以只能爬取固定的内容,但是人的想法是多变的,一会儿想爬这个一会儿可能又需要那个,所以可以通过修改 URL 请求参数,来增加代码灵活性,从而爬取更灵活的数据。
修改存储方式
初版代码我选择了存储到Excel这种最为熟悉简单的方式,人是一种惰性动物,很难离开自己的舒适区。但是为了学习新知识,所以我选择将数据存储到 MySQL 中,以便练习 MySQL 的使用。
加快爬取速度
初版代码使用了最简单的单进程爬取方式,爬取速度比较慢,考虑到网页数量比较大,所以修改为了多进程的爬取方式。
经过以上这几点的完善,代码量从原先的5行增加到了下面的几十行:
1import requests
2import pandas as pd
3from bs4 import BeautifulSoup
4from lxml import etree
5import time
6import pymysql
7from sqlalchemy import create_engine
8from urllib.parse import urlencode # 编码 URL 字符串
9
10start_time = time.time() #计算程序运行时间
11def get_one_page(i):
12 try:
13 headers = {
14 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'
15 }
16 paras = {
17 'reportTime': '2017-12-31',
18 #可以改报告日期,比如2018-6-30获得的就是该季度的信息
19 'pageNum': i #页码
20 }
21 url = 'http://s.askci.com/stock/a/?' + urlencode(paras)
22 response = requests.get(url,headers = headers)
23 if response.status_code == 200:
24 return response.text
25 return None
26 except RequestException:
27 print('爬取失败')
28
29def parse_one_page(html):
30 soup = BeautifulSoup(html,'lxml')
31 content = soup.select('#myTable04')[0] #[0]将返回的list改为bs4类型
32 tbl = pd.read_html(content.prettify(),header = 0)[0]
33 # prettify()优化代码,[0]从pd.read_html返回的list中提取出DataFrame
34 tbl.rename(columns = {'序号':'serial_number', '股票代码':'stock_code', '股票简称':'stock_abbre', '公司名称':'company_name', '省份':'province', '城市':'city', '主营业务收入(201712)':'main_bussiness_income', '净利润(201712)':'net_profit', '员工人数':'employees', '上市日期':'listing_date', '招股书':'zhaogushu', '公司财报':'financial_report', '行业分类':'industry_classification', '产品类型':'industry_type', '主营业务':'main_business'},inplace = True)
35 return tbl
36
37def generate_mysql():
38 conn = pymysql.connect(
39 host='localhost',
40 user='root',
41 password='******',
42 port=3306,
43 charset = 'utf8',
44 db = 'wade')
45 cursor = conn.cursor()
46
47 sql = 'CREATE TABLE IF NOT EXISTS listed_company (serial_number INT(20) NOT NULL,stock_code INT(20) ,stock_abbre VARCHAR(20) ,company_name VARCHAR(20) ,province VARCHAR(20) ,city VARCHAR(20) ,main_bussiness_income VARCHAR(20) ,net_profit VARCHAR(20) ,employees INT(20) ,listing_date DATETIME(0) ,zhaogushu VARCHAR(20) ,financial_report VARCHAR(20) , industry_classification VARCHAR(20) ,industry_type VARCHAR(100) ,main_business VARCHAR(200) ,PRIMARY KEY (serial_number))'
48 cursor.execute(sql)
49 conn.close()
50
51def write_to_sql(tbl, db = 'wade'):
52 engine = create_engine('mysql+pymysql://root:******@localhost:3306/{0}?charset=utf8'.format(db))
53 try:
54 tbl.to_sql('listed_company2',con = engine,if_exists='append',index=False)
55 # append表示在原有表基础上增加,但该表要有表头
56 except Exception as e:
57 print(e)
58
59def main(page):
60 generate_mysql()
61 for i in range(1,page):
62 html = get_one_page(i)
63 tbl = parse_one_page(html)
64 write_to_sql(tbl)
65
66# # 单进程
67if __name__ == '__main__':
68 main(178)
69 endtime = time.time()-start_time
70 print('程序运行了%.2f秒' %endtime)
71
72# 多进程
73from multiprocessing import Pool
74if __name__ == '__main__':
75 pool = Pool(4)
76 pool.map(main, [i for i in range(1,178)]) #共有178页
77 endtime = time.time()-start_time
78 print('程序运行了%.2f秒' %(time.time()-start_time))
虽然代码行数增加了不少,但是这个过程却觉得很自然,因为每次修改都是针对一个小点,一点点去学,搞懂后添加进来,而如果让我上来就直接写出这几十行的代码,我很可能就放弃了。
所以,你可以看到,入门爬虫是有套路的,最重要的是给自己信心。
(本文仅代表作者观点,转载请联系原作者)
精彩推荐
推荐阅读:
对标Bert?刷屏的GPT 2.0意味着什么
一次性掌握机器学习基础知识脉络 | 公开课笔记
Python助你抢红包
3分钟实现9种经典排序算法的可视化|Python
骗局翻新, 暗网活跃度倍增, 2018加密货币犯罪报告敢看吗?
云漫圈 | 学Python还是Java, 8张漫画带你全面分析
35 岁程序员,年后第一天被辞退
手机辐射排行榜:小米、一加远超 iPhone;阿里开工彩票最高奖金 1000 万;苹果再遭集体诉讼
2月报告:Python逆袭成功?踢馆Java,碾压C++!
点击“阅读原文”,打开CSDN APP 阅读更贴心。
相关文章:

【云周刊】第146期:史上最大规模人机协同的双11,12位技术大V揭秘背后黑科技...
摘要:史上最大规模人机协同的双11,12位技术大V揭秘背后黑科技,INTERSPEECH 2017系列 | 语音识别之语言模型技术,机器学习初学者必须知道的十大算法,云数据库SQL Server 2016和新技术应用...更多精彩内容,尽…

【驱动】GNSS驱动基础
GNSS:Global Navigation Satellite System(全球卫星导航系统) GPS:Global Positioning System(全球定位系统) GPS是美国的卫星导航系统。 还有,俄罗斯的GLONASS;欧盟的Galileo;中国的北斗。 这几大导航系统统称为GNSS GLONASS、Galileo、…

ibaits插入即获取主键(mssql,mysql,oracle)
oracle主键需预先生成,通过sequence;mysql和mssql是插入后生成。 mysql: <insert id"insertStu_mysql" parameterClass"stu"> insert into stu(name) values (#name#) <selectKey resultClass"int" keyProper…

【驱动】GNSS驱动:gpsOneXTRA 援助技术
什么是 “gpsOneXTRA 援助技术”? 高通 gpsOneXTRA 的援助技术在公司的改进中扩展了 gps 芯片组, 允许通过互联网连接下载辅助 gps。芯片组为更精确的位置发现提供了更高的灵敏度, 尤其是在通常难以找到 GPS 信号的位置。 gpsOneXTRA:帮助提高了独立的性能&#x…

2017年书单整理
android书籍: Android进阶之光 刘望舒 点评一下,这本书呢,涉猎很广,涉及的技术,开源库挺多的,适合广度面上的知识增长,对于深度上的提高价值不大,我觉得对我没啥太大价值额 Android安全技术揭秘…

华南理工大学院长涉嫌篡改8名研究生成绩,4人已停职
整理 | 一一出品 | AI科技大本营(ID:rgznai100)2 月 11 日,网友平凡的世界overlooker 在新浪微博上报料,称华南理工大学计算机科学与工程学院的院领导于 2018 年研究生复试结束后,篡改 8 位考生的考试成绩,…

我心中的最佳阵容
世界杯的激情还在心中涤荡,但新赛季的各大联赛却已悄然开打,这里给出我心中的几项最佳,期待他们本赛季的完美表现。 最佳球队:切尔西(上赛季切尔西在安帅执掌球队的首个赛季便夺得英超冠军,欧冠虽惜败于曾经…

如何让AI教机器自己玩俄罗斯方块?
作者 | Ahab转载自公众号Ahab杂货铺(ID:PythonLearningCamp)人工智能大火的今天,如果还是自己玩俄罗斯方块未免显得太 LOW,为什么不对游戏升级,让机器自己去玩俄罗斯方块呢?有了这个想法之后,我…

【驱动】内核打印级别设置
在uboot中设置 setenv loglevel loglevel8 setenv loglevel debug setenv loglevel quiet setenv loglevel setenv mmcargs run set_disp; setenv bootargs console${console},${baudrate} ${loglevel} ${smp} root${mmcroot} ${disp_args}内核对应代码 main.c (init) 467 s…

vue基本标签
2019独角兽企业重金招聘Python工程师标准>>> vue基本是数据驱动,数据双向绑定,组件化,常用标签v-modal,v-html,v-if,v-else,v-show,v-for,v-on(简写),v-bind(简写 :) vue.js 兼具 angular.js 和 react.js 的优点&#…

C#操作域用户
using System;using System.DirectoryServices;namespace SystemFrameworks.Helper{ /// ///活动目录辅助类。封装一系列活动目录操作相关的方法。 /// public sealed class ADHelper { /// ///域名 /// private static s…

Redis进阶实践之三如何在Windows系统上安装安装Redis
一、Redis的简介 Redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。这些数据类型都支持push/po…

31页PPT概述:图神经网络表达能力有多强?
整理 | 一一出品 | AI科技大本营近年来,图神经网络的研究成为深度学习领域的热点。图是一种数据结构,它对一组对象(节点)及其关系(边)进行建模,由于图结构的强大表现力,用机器学习方…

【linux】Linux kernel uapi header file(用户态头文件)
uapi目录的创建原因 Linux在3.7以后把很多header file移到 include/uapi或是arch/xxxx/include/uapi下,为了解决include recursive(循环包含头文件)的问题。 英文参考文档:https://lwn.net/Articles/507794/ 解决include recur…

诊断IIS中的ASP0115错误
诊断IIS中的ASP0115错误 作者:未知 重要说明:本文包含有关修改注册表的信息。修改注册表之前,一定要备份注册表,并且一定要知道在发生问题时如何还原注册表。有关如何备份、还原和编辑注册表的信息,请单击下面的文章…

【imx6】libipu.so.0说明
###代码位置 在目录fsl-release-bsp/build-fb/tmp/work/imx6qsabresd-poky-linux-gnueabi/imx-lib/1_3.14.28-1.0.0-r0/imx-lib-3.14.28-1.0.0/ipu中 编译完成后有如下文件列表 ipu$ ls Android.mk libipu.so Makefile mxc_ipu_hl_lib_dummy.c mxc_ipu_hl_lib.…

“安利”一款debug神器:在AI面前,bug都不是事儿
作者 | 琥珀出品 | AI科技大本营(公众号ID:rgznai100)为了帮程序员解决 bug 问题,Facebook 可算是操碎了心!你可以这么想,如果在开发和测试阶段没有发现 bug 问题,那么 bug 将会随着产品发布&am…

Spring中@Value用法收集
一、配置方式 Value需要参数,这里参数可以是两种形式: Value("#{configProperties[t1.msgname]}") 或者 Value("${t1.msgname}"); 这两形式,在配置上有什么区别: 1、Value("#{configPropert…

vue从入门到进阶:指令与事件(二)
一.插值 v-once 通过使用 v-once 指令,你也能执行一次性地插值,当数据改变时,插值处的内容不会更新。但请留心这会影响到该节点上所有的数据绑定: span v-once>这个将不会改变: {{ msg }}</span> v-html 双大括号会将数据…

【ubuntu工具】bless:二进制查看工具,类似win下的UltraEdit
###安装 sudo apt-get install bless 使用 bless filename 或者执行bless,在图形界面中打开准备操作的文件 工具主界面

马斯克连发三推,发布退出OpenAI内情
整理 | 一一出品 | AI科技大本营(ID:rgznai100)美国时间 2 月 17 日,特斯拉 CEO 马斯克在 Twitter 连发三帖,道出自己退出人工智能研究组织 OpenAI的缘由。他在推文中表示,他已经有一年多时间没有深度参与 OpenAI 事务…

开发代码命名规范!
今天查看以前的资料看见代码命名规范。呵呵 就拿出来给大家分享以下,还是比较老的。估计现在也是这种开发的命名规范。仅供参考!谢谢。 1.用Pascal规则来命名方法和类型。 public class DataGrid { public void DataBind() {…

【linux命令】readelf工具中英文说明
简介 readelf命令用来显示一个或者多个elf格式的目标文件的信息,可以通过它的选项来控制显示哪些信息。 ELF文件由4部分组成,分别是ELF头(ELF header)、程序头表(Program header table)、节(Se…

再见Python!Yann LeCun警告:深度学习需要新编程语言
整理 | 一一出品 | AI科技大本营尽管工程师们普遍定位 Python 是简单、优雅的编程语言,但它并非毫无缺点,比如人们一直吐槽它的执行速度不够快,线程不能利用多 CPU 等缺点,如今 AI 界泰斗也放话说要用新编程语言替代 Python。Face…

Linux系统与我之间的故事
2019独角兽企业重金招聘Python工程师标准>>> 说起Linux想必大家都不是很陌生的,关注这方面的不是大神就是对Linux特别热爱的人,那么接下来我给大家介绍下我和Linux之间的一些事,还有如何去快速的学习Linux。 我接触Linux大概就是大…
Google Instant 瞬时搜索上手指南
Google Instant是Google刚刚发布的一种新的搜索方式,随着你在搜索框里输入文字,Google将同时给出搜索结果,同时在搜索框里还会根据你输入的关键字给出搜索建议,通过上下键即可切换。按TAB键可自动补全第一位的搜索建议。随着你不断…

【视频】显示器固定参数struct fb_fix_screeninfo中char id[16]说明
imx6q关于fb和video的设备信息 设备节点 root@myzr:/unit_tests# ls /dev/fb* -l lrwxrwxrwx 1 root root 3 Jan 1 1970 /dev/fb -> fb0 crw-rw---- 1 root video 29, 0 Jan 1 1970 /dev/fb0 crw-rw---- 1 root video 29, 1 Jan 1 1970 /dev/fb1 crw-rw---- 1 …

“编程不规范,同事两行泪!”
【编者按】编程江湖中一直盛传着一个段子,那就是要问程序员最讨厌哪 4 件事?那必须是:写注释、写文档、别人不写注释、别人不写文档。更甚者,在《流浪地球》形成刷屏之势之后,仿其而出的“代码千万行,注释第…

记一次 调节有音量界面 上移的bug
如图所示:音量调节的界面直接上移了本来是以为是因为edittext 的原因使得这个界面上移了(但其实我也不信,因为我应该影响不了系统的界面) 然后最后不断调整布局 不断调整代码 通过排查 发现是因为使用了DTMF的原因(用来…

这可能是史上最全的Python算法集!
来源 | CSDN(ID:CSDNnews )本文是一些机器人算法(特别是自动导航算法)的Python代码合集。其主要特点有以下三点:选择了在实践中广泛应用的算法;依赖最少;容易阅读,容易理…