当前位置：首页 > 编程日记 > 正文

对比四种爬虫定位元素方法，你更爱哪个？

编程日记 2024-11-15 04:20:00

作者 | 陈熹

来源 | 早起Python

头图 | 下载于视觉中国

在使用Python本爬虫采集数据时，一个很重要的操作就是如何从请求到的网页中提取数据，而正确定位想要的数据又是第一步操作。本文将对比几种 Python 爬虫中比较常用的定位网页元素的方式供大家学习：

1.传统 BeautifulSoup 操作
2.基于 BeautifulSoup 的 CSS 选择器（与 PyQuery 类似）
3.XPath
4.正则表达式

参考网页是当当网图书畅销总榜：

http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1

我们以获取第一页 20 本书的书名为例，先确定网站没有设置反爬措施，是否能直接返回待解析的内容：

import requestsurl = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1'
response = requests.get(url).text
print(response)

仔细检查后发现需要的数据都在返回内容中，说明不需要特别考虑反爬举措。

审查网页元素后可以发现，书目信息都包含在 li 中，从属于 class 为 bang_list clearfix bang_list_mode 的 ul 中。

进一步审查也可以发现书名在的相应位置，这是多种解析方法的重要基础

传统 BeautifulSoup 操作

经典的 BeautifulSoup 方法借助 from bs4 import BeautifulSoup，然后通过 soup = BeautifulSoup(html, "lxml") 将文本转换为特定规范的结构，利用 find系列方法进行解析，代码如下：

import requests
from bs4 import BeautifulSoupurl = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1'
response = requests.get(url).textdef bs_for_parse(response):soup = BeautifulSoup(response, "lxml")li_list = soup.find('ul', class_='bang_list clearfix bang_list_mode').find_all('li') # 锁定ul后获取20个lifor li in li_list:title = li.find('div', class_='name').find('a')['title'] # 逐个解析获取书名print(title)if __name__ == '__main__':bs_for_parse(response)

成功获取了 20 个书名，有些书面显得冗长可以通过正则或者其他字符串方法处理，本文不作详细介绍。

基于 BeautifulSoup 的 CSS 选择器

这种方法实际上就是 PyQuery 中 CSS 选择器在其他模块的迁移使用，用法是类似的。关于 CSS 选择器详细语法可以参考：http://www.w3school.com.cn/cssref/css_selectors.asp由于是基于 BeautifulSoup 所以导入的模块以及文本结构转换都是一致的：

import requests
from bs4 import BeautifulSoupurl = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1'
response = requests.get(url).textdef css_for_parse(response):soup = BeautifulSoup(response, "lxml") print(soup)if __name__ == '__main__':css_for_parse(response)

然后就是通过soup.select 辅以特定的 CSS 语法获取特定内容，基础依旧是对元素的认真审查分析：

import requests
from bs4 import BeautifulSoup
from lxml import htmlurl = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1'
response = requests.get(url).textdef css_for_parse(response):soup = BeautifulSoup(response, "lxml")li_list = soup.select('ul.bang_list.clearfix.bang_list_mode > li')for li in li_list:title = li.select('div.name > a')[0]['title']print(title)if __name__ == '__main__':css_for_parse(response)

XPath

XPath 即为 XML 路径语言，它是一种用来确定 XML 文档中某部分位置的计算机语言，如果使用 Chrome 浏览器建议安装 XPath Helper 插件，会大大提高写 XPath 的效率。

之前的爬虫文章基本都是基于 XPath，大家相对比较熟悉因此代码直接给出：

import requests
from lxml import htmlurl = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1'
response = requests.get(url).textdef xpath_for_parse(response):selector = html.fromstring(response)books = selector.xpath("//ul[@class='bang_list clearfix bang_list_mode']/li")for book in books:title = book.xpath('div[@class="name"]/a/@title')[0]print(title)if __name__ == '__main__':xpath_for_parse(response)

正则表达式

如果对 HTML 语言不熟悉，那么之前的几种解析方法都会比较吃力。这里也提供一种万能解析大法：正则表达式，只需要关注文本本身有什么特殊构造文法，即可用特定规则获取相应内容。依赖的模块是 re。

首先重新观察直接返回的内容中，需要的文字前后有什么特殊：

import requests
import reurl = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1'
response = requests.get(url).text
print(response)

观察几个数目相信就有答案了：<div class="name"><a href="http://product.dangdang.com/xxxxxxxx.html" target="_blank" title="xxxxxxx">书名就藏在上面的字符串中，蕴含的网址链接中末尾的数字会随着书名而改变。

分析到这里正则表达式就可以写出来了：

import requests
import reurl = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1'
response = requests.get(url).textdef re_for_parse(response):reg = '<div class="name"><a href="http://product.dangdang.com/\d+.html" target="_blank" title="(.*?)">'for title in re.findall(reg, response):print(title)if __name__ == '__main__':re_for_parse(response)

可以发现正则写法是最简单的，但是需要对于正则规则非常熟练。所谓正则大法好！

小结

当然，不论哪种方法都有它所适用的场景，在真实操作中我们也需要在分析网页结构来判断如何高效的定位元素，最后附上本文介绍的四种方法的完整代码，大家可以自行操作一下来加深体会。

import requests
from bs4 import BeautifulSoup
from lxml import html
import reurl = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1'
response = requests.get(url).textdef bs_for_parse(response):soup = BeautifulSoup(response, "lxml")li_list = soup.find('ul', class_='bang_list clearfix bang_list_mode').find_all('li')for li in li_list:title = li.find('div', class_='name').find('a')['title']print(title)def css_for_parse(response):soup = BeautifulSoup(response, "lxml")li_list = soup.select('ul.bang_list.clearfix.bang_list_mode > li')for li in li_list:title = li.select('div.name > a')[0]['title']print(title)def xpath_for_parse(response):selector = html.fromstring(response)books = selector.xpath("//ul[@class='bang_list clearfix bang_list_mode']/li")for book in books:title = book.xpath('div[@class="name"]/a/@title')[0]print(title)def re_for_parse(response):reg = '<div class="name"><a href="http://product.dangdang.com/\d+.html" target="_blank" title="(.*?)">'for title in re.findall(reg, response):print(title)if __name__ == '__main__':# bs_for_parse(response)# css_for_parse(response)# xpath_for_parse(response)re_for_parse(response)

更多精彩推荐

☞明年，我要用 AI 给全村写对联☞Ant Design 遭删库！☞每年节省170万美元的文档预览费用，借助机器学习的DropBox有多强？☞三年投 1000 亿，达摩院何以仗剑走天涯？

点分享点收藏点点赞点在看

https://www.dkcj.cn/info/27564.html

对比四种爬虫定位元素方法，你更爱哪个？

XPath

正则表达式

相关文章：

2017年安全漏洞审查报告：安全补丁在不断增加，用户却不安装

Visual SourceSafe简明培训教程

水母智能联合蚂蚁森林、犀牛智造等，用AI助力非遗出圈，39万人开工得“福”

绿色信托任重道远应建立补偿机制？

解读C#正则表达式

wpa_supplicant学习

一张图，看编程语言十年热度变化

小扎的野心不止做社交市政厅的上线说明了这一点

C#调用存储过程简单完整例子

高手的习惯：pythonic风格代码

计算机天才Aaron Swartz 名作《如何提高效率》——纪念真正的“hacker!

python的web压力测试工具-pylot安装使用

快过HugeCTR：用OneFlow轻松实现大型推荐系统引擎

路由的有类和无类

VS2005 常用快捷键

2016政策与市场协同发力大数据，小公司如何搏杀BAT？

机器学习的第一个难点，是数据探索性分析

Asp.net 1.0 升级至 ASP.NET 2.0十个问题总结

Robotium初探秘

初级Java程序员所面临的4大挑战

javascript页面跳转常用代码

frame,iframe,frameset之间的关系与区别

最低售价17999元，华为发布新一代折叠屏手机Mate X2，将首批升级HarmonyOS

「要拼就拼运维」5分钟一台？它让我爱上工作了！

JavaScript去除字符串首尾空格

server-send event object

拿来就能用！Dijkstra 算法实现快递路径优化

92号油的发动机能加97吗？标号越高不代表就越好

不要跳槽！！！

按下回车键指向下一个位置的一个函数