当前位置：首页 > 编程日记 > 正文

.net里鼠标选中的text数据怎么获取_Python数据科学实践 | 爬虫1

编程日记 2024-06-17 08:20:00

点击上方蓝色字体，关注我们

大家好，基于Python的数据科学实践课程又到来了，大家尽情学习吧。本期内容主要由智亿同学与政委联合推出。

前面几章大家学习了如何利用Python处理与清洗数据，如何探索性数据分析，以及如何利用统计与机器学习方法进行建模。但是，很明显我们忽视了一个最原始的问题：数据从何而来。没有数据，这就好比，你学了十八般武艺，可是没有让你施展的地方一样难受。大家不要忘记，提出问题，采集数据，然后才是你的十八般武艺的施展。本章将会讲解Python的爬虫模块，目的是让你学习的Python技术有用武之地。

爬虫，可能同学们都有所“耳闻”，但是对爬虫是什么还不甚了解。

爬虫，全称“网络蜘蛛”。爬虫能干什么呢？一言以蔽之，替代人工采集数据。比如，某吃货想挑选出西安全城的火锅店评分最高的前10家，怎么办呢？首先，得寻找一家在线点评网站，如百度糯米(网站截图如下所示)。

图7-1 百度糯米网站截图

每页25条数据，一共有8页，共计176条数据。

最原始的办法是，勤劳的鼠标左键 + ctrl+c 到excel中，再按评分排序。在数据量少、字段少的情况下，这么做的弊端可能并不明显。但是，现在如果需要店名、评分、人均、地址、优惠活动、营业时间、买家评论等等，恐怕再勤劳的同学也会勇敢的说“不”。

这时候爬虫就有了用武之地——自动化采集网页数据，存储成结构化的数据便于后续分析。数据采集，往往是数据科学实践的第一步——毕竟，巧妇难为无米之炊嘛！

从本章开始，让我们一起来揭开爬虫“神秘的面纱”。学习完本章后，希望同学们能在遇到这类机械性的体力劳动面前，勇敢的说“不”！

注意，本书定位是“入门+实战”，旨在让读者能够快速熟悉、快速上手。因此，只讲解最核心的知识点和函数使用，即使不了解背后原理，应对日常的数据采集也绰绰有余。对原理感兴趣的同学，请自行学习相关文档。

7.1 初级篇—单页面静态爬虫

本小节将学会：

● 了解网络请求的基本原理；

● 学习如何使用requests对网站发起请求；

● 了解网页的基本构成；

● 学习如何使用BeautifulSoup解析网页；

● 学习如何将解析结果存入文件；

学完以上，我们就能掌握最简单的爬虫。

在开始之前，请学习或下载：

● Chrome浏览器

● HTML的基础知识

http://www.w3school.com.cn/html/html_jianjie.asp

● HTTP的基础知识

https://www.w3cschool.cn/http/u9ktefmo.html

仅需明白：

1.网页的元素都是由DOM树进行定位的。

2.网页的元素标记是用<>尖括号表示的，不同的标签有不同的效果。

3.HTTP的基本方法GET的工作原理。

建议先掌握以上知识再继续学习后续教程会更加顺畅。

本章运行环境为：Python3.5.2，requests2.19.1，bs4 4.6.0

7.1.1 入门 —— 一级页面采集第一步寻找数据源

在现实情况下，只有充分了解数据分析的对象(如西安的火锅店为分析对象)才能开始寻找数据源。寻找数据源的过程不是一蹴而就的，不是仅从数据丰富度考虑数据源，往往需要对比分析，如爬取难度、爬取时间等，综合考虑后进行选取。

针对西安火锅团购数据，结合餐饮O2O平台的具体情况，有很多个备选平台：美团、大众点评、饿了么、口碑、百度糯米。

表7-1 各个平台的数据优劣势对比

从数据角度考虑，美团和大众点评的数据最为丰富，数据采集最有价值；然而，由于反爬虫机制严密，所需知识点已经超过本书作为“入门读物”的定位，所以并不适合初学者；口碑和饿了么由于没有网页端，爬取也较为困难；百度糯米的页面以静态为主，虽然数据丰富度不够，但比较适合初学者。

综合以上考虑，本书以百度糯米作为数据源进行爬取。

第二步分析网站请求流程

确定了数据源后，第二步是分析网站的请求流程。

所有的互联网应用，用户首先感知到或者能接触到的一定是URL，即网址。只有通过网址才能发起对资源的请求，即网址的作用是替用户定位资源。因此，请求流程的分析一定是围绕分析URL的构成而展开的。

首先，进入百度糯米的西安页面(URL1) https://xa.nuomi.com/

图7-2 百度糯米西安首页

点击“火锅”分类，进入火锅的列表页。可以看到，页面的URL (URL2) 变成了https://xa.nuomi.com/364。数字“364”，暂且称为火锅的分类ID号。

图7-3 百度糯米列表页

这时候，推荐使用Chrome浏览器(其他浏览器也可，但调试界面可能并没有Chrome清楚直观)，在页面空白处点击鼠标右键(或ctrl+shift+I)，点击Inpect，调起Chrome 开发者工具。

图7-4 审查网页元素

点击弹出面板左上角的“鼠标”按钮(选中后可定位HTML的元素位置)。选中商家信息的列表，我们也找到了每一个商家信息所对应的HTML代码。

图7-5 找到对应网页元素

接下来，我们通过编写第一个爬虫脚本采集这些数据。

第三步解析网站代码

通过第二步的分析，聪明的你就已经大致明白爬取思路是：1. 先爬取分类ID号(火锅分类是364)，用于构造列表页请求的URL；2.再解析每一个分类下的商家列表信息。

● 爬取分类ID号

表7-2 需要用到的API

例7-2

import requests

from bs4 import BeautifulSoup



url = 'https://xa.nuomi.com/364'

# 1. 向上述url发起HTTP请求

html = requests.get(url=url)

# 2. 转换解析网页的编码方式

html.encoding = html.apparent_encoding



# 3. 将请求的html解析成DOM树

soup = BeautifulSoup(html.text, 'lxml')



# 4. 寻找元素所在位置，并提取

shop_list = soup.select('#j-goods-area > div.shop-infoo-list > ul > li')

shop_dict = {}

for shop in shop_list:

    name = shop.select('a:nth-of-type(2) > h3')[0].get_text()

    score = shop.find('span', {"class": 'shop-infoo-list-color-gold'})

    if score is None:

       continue

    else:

       score = score.text

    shop_dict[name] = score



# 5. 打印结果

print(shop_dict)

运行结果如下图7-6。

图7-6 采集结果

注意：步骤2中，网页声明的编码方式可能与网页真实的编码不一致，需要进行显式转换。有时这么做仍然会失败，具体会在本章末尾介绍方法。

步骤2中，获取的html变量包含诸多属性，常见的有

表7-3 常见属性

步骤3中，'lxml'是常用的解析方式，足以满足常见的网站解析，这里不再赘述。

步骤4中，解析的css\xpath路径可通过Chrome开发者工具直接粘贴复制，如下图。

图7-7 网页开发工具使用

表7-4 BeautifulSoup的常用方法包括

解析元素位置后，得到的仍然是html代码，我们需要进一步将其转化成需要的数据。

表7-5

但是要注意：

1.如果标签是多个重复的格式(如、

)，需要将从Chrome浏览器中复制出来的值中，包含nth-child的部分改成nth-of-type(这是CSS的区别，只需记住就可以了)。

2.经常会出现解析的css\xpath路径解析结果为空的情况，这需要不断调整解析的路径。如果调整路径还不成功，当跳过这部分数据量不大的情况下，可考虑直接跳过为空的部分(我们并不应该企图把所有数据一条不落的爬下来，而应该对比调整爬虫的时间和损失的数据量对比，综合各种因素进行选择)。

第四步存储页面和数据

一般来说，要先爬取完页面，存成本地文件，再解析，这样防止出错又要重新爬。在上面代码中添加一段存储的代码，以及把解析结果存成pandas保存起来。

例7-3 存储页面和数据

import requests

from bs4 import BeautifulSoup



url = 'https://xa.nuomi.com/364'

# 1. 向上述url发起HTTP请求

html = requests.get(url=url)

# 2. 转换解析网页的编码方式

html.encoding = html.apparent_encoding



# 3. 存储静态页面

if html.status_code == 200:

    with open('364.html', 'w+', encoding='utf8') as f:

        f.write(html.text)

else:

    print('状态码非200，请求出错')



# 4. 读取静态页面

with open('364.html', 'r', encoding='utf8') as f: 

    content = f.read()



# 5. 将请求的html解析成DOM树

soup = BeautifulSoup(html.text, 'lxml')



# 6. 寻找元素所在位置，并提取

shop_list = soup.select('#j-goods-area > div.shop-infoo-list > ul > li')

shop_dict = {}

for shop in shop_list:

    name = shop.select('a:nth-of-type(2) > h3')[0].get_text()

    score = shop.find('span', {"class": 'shop-infoo-list-color-gold'})

    if score is None:

       continue

    else:

       score = score.text



    shop_dict[name] = score



# 5. 打印结果

print(shop_dict)



# 6. 转变成DataFrame并存储成excel

import pandas as pd 

results = pd.DataFrame([value for value in shop_dict.values()], index=shop_dict.keys(), columns=['评分'])

results.index.name = '店名'

print(results) 



results.to_excel('364.xlsx', encoding='utf8')

最终结果如下图7-8。

图7-8 pandas读取解析结果

注意，这个例子在解析之前，先将html存成本地文件，再读取，这样可以很大程度上避免在爬取时网络请求出错，而导致程序中断，此时所有数据都得重新爬取，得不偿失。

最后，将解析的结果转变成DataFrame结构存储成excel(后面章节还会讲述存储到数据库中的方法)。

7.1.2 进阶 —— 二级页面采集

然而，这只是一级界面，我们往往需要更加详细的信息，也就是列表页点进具体某个商家的详情页。这里，我们点击“一尊黄牛”，发现URL的变化成了https://www.nuomi.com/shop/10811751

图7-9 商家详情页

显然，这个URL后面这串数字代表商家的ID号，这个URL必然在列表页中可寻找。首先，回到列表页。然后，打开开发者工具查看元素。不难发现，a标签中的href属性就是需要得到的URL。那么如何提取出来呢？可使用上表提到的.get()方法。

图7-10 网页开发工具使用

例7-4

shop_dict = {}

for shop in shop_list:

    name = shop.select('a:nth-of-type(2) > h3')[0].get_text()

    href = 'http:' + shop.select('a:nth-of-type(2)')[0].get('href')

    score = shop.find('span', {"class": 'shop-infoo-list-color-gold'})

    if score is None:

        continue

    else:

        score = score.text 

    shop_dict[name] = [score, href]

最终结果展示如下图为：

图7-11 解析结果

可以看到，所有商家的URL都提取了出来。读者只需要再次构造HTTP请求，对这些URL返回的结果进行解析、存储即可，这里不再赘述。

好了今天就先讲到这里。

▼往期精彩回顾▼初步搭建数据科学工作环境

Conda的使用

Spyder入门

Jupyter入门

Markdown

简单读写数据

数据类型

数据结构

控制流

函数与模块

Numpy

pandas1

pandas2

pandas3

pandas4

绘图模块1

绘图模块2

绘图模块3

绘图模块4

统计建模1

统计建模2

统计建模3

统计建模4

机器学习模块1

机器学习模块2

文本分析1

文本分析2

下载本系列相关数据

https://www.dkcj.cn/info/11081.html

.net里鼠标选中的text数据怎么获取_Python数据科学实践 | 爬虫1

相关文章：

redis实现对账(集合比较)功能

Javascript刷题》查找数组元素位置

Go 语言函数

终端主题_再见 XShell 和 ITerm 2，是时候拥抱全平台高颜值终端工具 Hyper 了！

每天一个linux命令（8）：cp 命令

samba srver on centos-7

以太坊数据结构MPT

lambda在python中的用法_在python中对lambda使用.assign（）方法

react 开发过程中的总结/归纳

kvm虚拟机--存储池配置梳理(转)

区块链概况：什么是区块链

drx功能开启后_简单实用！小米手机中这些新功能真香

Ubuntu 8.04嵌入式交叉编译环境arm-linux-gcc搭建过程图解

Installshield 2015 实现检测某安装文件是否存在并运行安装

区块链概况:从数字货币说起

Android RecyclerView 基本使用

lisp语言cond和if套用_在'if'语句中设置多行条件的样式？

jvm七种垃圾收集器

新手怎么学以太坊区块链开发？

【题解】 bzoj1260: [CQOI2007]涂色paint （区间dp）

[deviceone开发]-组件功能演示示例

联想g510升级换什么cpu好_老兵不死，十年前的联想 Y450 笔记本复活记

区块链和数据库

普通粒子群算法和优化方法

古人怎么称呼年龄

vue变量传值_vue组件与组件之间传值

区块链技术背后的运行逻辑

scp遇到路径中有空格

bzoj 3262 陌上花开

jspstudy启动mysql失败_MySql启动数据库设置初始密码