当前位置: 首页 > 编程日记 > 正文

手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫

系列教程

手把手教你写电商爬虫-第一课 找个软柿子捏捏

如果没有看过第一课的朋友,请先移步第一课,第一课讲了一些基础性的东西,通过软柿子"切糕王子"这个电商网站好好的练了一次手,相信大家都应该对写爬虫的流程有了一个大概的了解,那么这课咱们就话不多说,正式上战场,对垒尚妆网。

首先,向我们被爬网站致敬,没有他们提供数据,我们更是无从爬起,所以先安利一下尚妆网:

经营化妆品时尚购物,大数据为驱动,并依托智能首饰为入口的新一代智慧美妆正品电子商务平台。其创始团队来自天猫、支付宝、欧莱雅、薇姿等互联网公司和化妆品集团。
好吧,我很懒,直接从百度知道里抄过来的,不过不代表我没有诚意。OK,言归正传,我们先把我们的工具包拿出来:

1、神箭手云爬虫,2、Chrome浏览器 3、Chrome的插件XpathHelper 不知道是干嘛的同学请移步第一课

古代战士上战场前,必须先好好的观察对手,所谓知己知彼,百战不殆。我们先来观察一下尚妆网

图片描述

从首页大家能看出什么?说美女很美的,还有说美女表情很到位的同学,你们可以先回家了。
图片描述

剩下的同学,我们继续了:

可以看出,作为一个完善的电商网站,尚妆网有着普通电商网站所拥有的主要的元素,包括分类,分页,主题等等。首先我们要确定我们希望要爬取哪一类数据,当然作为爬虫来说,全部爬下来不是不行,不过对于做实验来说,就没必要了。好,我们假设:我们要爬护肤里的面膜品类所有商品,价格和销量,至于为什么是面膜,你们猜呢?

废话太多了,我们开始爬虫三步走,跟着我再背诵一遍:1、选入口Url 2、限定内容页和中间页 3、写内容页抽取规则

1、选定入口url

这个简单,找到面膜页面的地址:

http://list.showjoy.com/search/?q=cateIds%3A1,cateName%3A%E9%9D%A2%E8%86%9C

好,就是它了。

2、区分内容页和中间页

好,重点来了,尚妆网的列表页面,是通过ajax动态加载了,这个怎么实现呢?我们先不着急,先看下内容页

http://item.showjoy.com/sku/26551.htmlhttp://item.showjoy.com/sku/100374.html

内容页很简单,我们直接提取成正则表达式

http://item\\.showjoy\\.com/sku/\\d+\\.html

那么列表页呢?首先,第一个当然是:

http://list.showjoy.com/search/?q=cateIds%3A1,cateName%3A%E9%9D%A2%E8%86%9C

下一页的链接是什么呢?这个时候就需要借助chrome浏览器的开发者工具,我们打开工具,切换到network选项卡,向下滑动加载下一页,可以看到展示出的连接地址:

图片描述

注意,可以忽略掉png这些图片的文件,直接看到下一页的连接,我们将链接复制出来:

http://list.showjoy.com/search/?q=cateIds%3A1,cateName%3A%E9%9D%A2%E8%86%9C&stock=1&page=4&_synToken=59a6c555b0947486769f35d010353cd5

看着好像很复杂,不过page我认识,其他的可以去掉吗?我们试一下访问

http://list.showjoy.com/search/?q=cateIds%3A1,cateName%3A%E9%9D%A2%E8%86%9C&page=4

貌似正常打开,而且也可以显示不同的商品,就此我们可以看出来,这个ajax加载下一页不过是一个纸老虎,根本没什么可怕的。我们将这个提取成正则表达式,另外 值得注意的是,由于我们第一页可能是没有page的,所以也需要考虑没有page参数的情况
6

http://list\\.showjoy\\.com/search/\\?q=cateIds%3A1,cateName%3A%E9%9D%A2%E8%86%9C(&page=\\d+)?

第三步:就是写内容页的抽取规则了,我们就抽取商品名称,评价数和成交数这三项数据吧,有人要问了,为啥不要价格呢。我只能说,too young too native,你打开商品页面的时候,有没有注意到价格的地方也一个快速的异步加载。考虑到咱们毕竟才第二课,而且刚刚还没那个ajax搞得虎躯一震,差一点把这节课改成第三课,所以咱们这里先降低点难度,下一课咱们用一节课的时间来探讨下这个价格该怎么提取。

图片描述

根据前面课程教的方案,我们同样的方法,写出xpath:

标题:  //h3[contains(@class,"choose-hd")]评价: //div[contains(@class,"dtabs-hd")]/ul/li[2]成交记录://div[contains(@class,"dtabs-hd")]/ul/li[3]

通过xpath helper进行验证之后没有问题,这样我们可以组合代码得到下面的结果

var configs = {  domains: ["www.showjoy.com","list.showjoy.com","item.showjoy.com"],  scanUrls: ["http://list.showjoy.com/search/?q=cateIds%3A1,cateName%3A%E9%9D%A2%E8%86%9C"],  contentUrlRegexes: ["http://item\\.showjoy\\.com/sku/\\d+\\.html"],  helperUrlRegexes: ["http://list\\.showjoy\\.com/search/\\?q=cateIds%3A1,cateName%3A%E9%9D%A2%E8%86%9C(\\&page=\\d+)?"],//可留空  fields: [  {  // 第一个抽取项  name: "title",  selector: "//h3[contains(@class,'choose-hd')]",//默认使用XPath  required: true //是否不能为空  },  {  // 第二个抽取项  name: "comment",  selector: "//div[contains(@class,'dtabs-hd')]/ul/li[2]",//使用正则的抽取规则  required: false //是否不能为空  },  {  // 第三个抽取项  name: "sales",  selector: "//div[contains(@class,'dtabs-hd')]/ul/li[3]",//使用正则的抽取规则  required: false //是否不能为空  }  ]  
};  start(configs);  

可以看到在domains里 我填入了三个域名,这里是一定要注意的,因为他的列表页和详情页的域名都不一致,因此需要把每一个域名都写进去。
好了,代码运行正常,但是启动任务之后发现,怎么第二页的内容没有采集到呢? 还有前面说的价格咱们也采集不到,到底还能不能愉快的玩耍了呢? 我们第三课就给大家讲讲如何解决ajax页面的url发现和ajax加载内容的提取。

对爬虫感兴趣的童鞋可以加qq群讨论:342953471。

相关文章:

Python程序设计 第六章 函数(续

复习 1. 10进制 ⇒\Rightarrow⇒ 2进制 除2取余,从低位到高位存储到字符串中,从高位到低位def d2b(n):if n>1:d2b(n//2)print(n%2,end)d2b(4)出口: 条件,值确定 (一)return (二)函数体执行结…

K8S的横向自动扩容的功能Horizontal Pod Autoscaling

K8S 作为一个集群式的管理软件,自动化、智能化是免不了的功能。Google 在 K8S v1.1 版本中就加入了这个 Pod 横向自动扩容的功能(Horizontal Pod Autoscaling,简称 HPA)。 HPA 与之前的 Deployment、Service 一样,也属…

第八周例行报告

此作业要求参见:https://edu.cnblogs.com/campus/nenu/2018fall/homework/2326 1、本周PSP 类型 任务 开始时间 结束时间 中断时间 Delta时间 会议 事后诸葛亮会议 11.3 14:12 11.3 15:08 0min 56min 博客 编写博客《事后诸葛…

HTTP头部信息解释分析(详细整理)

这篇文章为大家介绍了HTTP头部信息,中英文对比分析,还是比较全面的,若大家在使用过程中遇到不了解的,可以适当参考下 HTTP 头部解释 1. Accept:告诉WEB服务器自己接受什么介质类型,*/* 表示任何类型&#…

深圳杯---深圳市生活垃圾处理社会总成本分析

2017年3月18日,国务院向全国发布了《生活垃圾分类制度实施方案》,这标志着中国垃圾分类制度建设开始了一个全新阶段,垃圾分类已成为推进社会经济绿色发展、提升城市管理和服务水平、优化人居环境的重要举措。为了保证这一目标能够顺利实现&am…

你真的掌握了并发编程volatile synchronized么?

先看代码: import java.util.concurrent.atomic.AtomicInteger;/**** author xialuomantian*/ public class NewTest {static volatile int a 1;static volatile int b 1;//static int a 1;//static int b 1;public static AtomicInteger aa new AtomicInteg…

SQLSERVER存储过程基本语法使用

一、定义变量 --简单赋值 declare a int set a5 print a --使用select语句赋值 declare user1 nvarchar(50) select user1张三 print user1 declare user2 nvarchar(50) select user2 Name from ST_User where ID1 print user2 --使用update语句赋值 declare user3 nv…

线上java JVM问题排查

作者:霞落满天 第一部分 是我以前公司的一则正式案例: 第二部分 是我另一个博客上写的主要是最近发现大家问的比较多就写了此文 第一部分 线上真实故障案例 下面是一个老系统,代码写的有点问题导致出现这样一个JVM占比过高的问题&#xff…

走向云时代的大型机

大型机,又称大型主机,英文名mainframe,是指使用专用的处理器指令集、操作系统和应用软件的有机整体。大型机最早诞生于上个世纪六十年代,经过四十多年的不断发展,其在可靠性、安全性、可用性和灵活性方面首屈一指。近年…

区分 欧几里得距离 曼哈坦距离 明考斯基距离

欧几里德距离(Euclidean Distance),欧氏距离。一种通常采用的表示相似度的距离定义,是表示在m维空间中两个点之间的真实距离。 对于n维空间中的两个点之间的欧几里得距离d(i,j)表示为: d(i,j) (|xi1-xj1|2|xi2-xj2|2……|xip-xjp|2)1/2 当n2…

传统行业转型微服务的挖坑与填坑

原文:传统行业转型微服务的挖坑与填坑一、微服务落地是一个复杂问题,牵扯到IT架构,应用架构,组织架构多个方面 在多家传统行业的企业走访和落地了微服务之后,发现落地微服务是一个非常复杂的问题,甚至都不完全是技术问…

Windows下安装Mongodb SpringBoot集成MongoDB和Redis多数据源

全文内容: Mongodb安装 说明:Mongodb和redis是开发中常用的中间件,Redis的安装使用比较简单就不写了,只说本地也就是Windows安装Mongodb。 SpringBoot集成MongoDB和Redis 文中还有一个彩蛋Hutool 1.下载最新稳定版 https://w…

使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客 本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰…

HTTP缓存相关头

本文说的是HTTP中控制客户端缓存的头有哪些。网上这方面的文章很多了,这里就说下个人的理解。 在请求一个静态文件的时候(图片,css,js)等,这些文件的特点是文件不经常变化,将这些不经常变化的文…

Thrift RPC 系列教程(4)——源码目录结构组织

Thrift 代码就是编程代码。是代码,就应该有良好的工程组织,并且,单独git仓库、版本管理,都是必不可少的。 前面我们简单总结了一些 Thrift 的一些基础知识点,但无非是一些细节层面的东西,所谓『细枝末节』也…

Spring Bean四种注入方式(Springboot环境)

阅读此文建议参考本人写的Spring常用注解:https://blog.csdn.net/21aspnet/article/details/104042826 给容器中注册组件的四种方法: 1.ComponentScan包扫描组件标注注解Component(ControllerServiceRepository) 使用场景:自己写的代码&…

chrome dev debug network 的timeline说明

在使用chrome的时候F12的开发者工具中有个network,其中对每个请求有个timeline的说明,当鼠标放上去会有下面的显示: 这里面的几个指标在说明在chrome使用文档有说明: 下面我用人类的语言理解下: Proxy 与代理服务器的连…

【MATLAB】函数句柄

在MATLAB平台中,对函数的调用方法分为直接调用法和间接调用法。 1、直接调用函数,被调用的函数通常称为子函数。一个文件中只能有一个主函数。 2、函数句柄——提供一种间接调用函数的方法。创建函数句柄需要用到操作符。 创建函数句柄的一般句法格式…

为什么企业选择年底裁员?如何选择一个正确的公司!

为什么很多企业选择年底裁员?首先分析一下裁员的原因:1、你能力不行,在公司吃闲饭2、减少公司成本3、公司换血,需要新的人才注入普通情况下,这些因素裁员很正常,只能怪自己不争气,成为末尾被淘汰…

springboot集成logback日志 通用logback.xml模板详解

先看Spring Boot中依赖的logback,log4j,slf4j相关Jar包 1.最简单的默认打印控制台日志 import org.slf4j.Logger; import org.slf4j.LoggerFactory; import org.springframework.beans.factory.annotation.Autowired; import org.springframework.web.bind.annotation.Reques…

【MATLAB】单元数组类型

1、概述 单元(Cell)数组是一种无所不包的广义数组。 组成单元数组的每个元素成为一个单元。 每一个单元可以包括任意数组,如数值数组,字符串数组,结构体数组或另外一个单元数组。 单元数组用花括号来创建“{ }”。…

UNITY3D拓展编辑器 - 目录

前文:最近在自学UNITY3D拓展器,对以上功能点做一些认知范围内的总结.目录:1. 属性编辑器http://weizeteng.blog.51cto.com/5604545/17744312. 工具编辑器3. 场景编辑器转载于:https://blog.51cto.com/weizeteng/1774390

程序员的你还沉浸在大公司就是螺丝钉?小公司锻炼人?错了!看完即懂

刚毕业那会经历过很多所谓创业公司,和很多朋友经历过画大饼,洗脑以及公司上市原始股这样的承诺。当你正在趟过这些谎言你就会发现,在这个世界上能信这些鬼话的也只有涉世未深的毕业生了。小公司里真的就是十几二十几个精英带你一路向前&#…

深入Jetty源码之Servlet框架及实现(AsyncContext、RequestDispatcher、HttpSession)

概述 Servlet是Server Applet的缩写,即在服务器端运行的小程序,而Servlet框架则是对HTTP服务器(Servlet Container)和用户小程序中间层的标准化和抽象。这一层抽象隔离了HTTP服务器的实现细节,而Servlet规范定义了各个类的行为,从…

SpringBoot conditional注解和自定义conditional注解使用

conditional注解是Springboot starter的基石,自动装配的时候会根据条件确定是否需要注入这个类。 含义:基于条件的注解。 作用:根据是否满足某个特定条件来决定是否创建某个特定的Bean。 意义:Springboot实现自动配置的关键基础…

TOPSIS算法及代码

TOPSIS的全称是“逼近于理想值的排序方法” 根据多项指标、对多个方案进行比较选择的分析方法,这种方法的中心思想在于首先确定各项指标的正理想值和负理想值,所谓正理想值是一设想的最好值(方案),它的的各个属性值都…

django框架的基础知识点《贰》

状态保持-----session作用:状态保持与cookie区别: cookie保存在浏览器中 session:保存在服务器中,即python代码运行的那台电脑 支持配置,可以指定保存的位置在django中保存方案: 关系型数据库 内存 关系型数…

Springboot源码分析之内嵌tomcat源码分析

Springboot源码是内嵌tomcat的,这个和完整的tomcat还是不同。 内嵌tomcat的源码在tomcat-embed-core等3个jar包里 展开tomcat-embed-core的catalina目录 再对照下载的apache-tomcat-9.0.31源码 打开bin目录,看到很多库文件比如catalina.jar 再展开看看类…

spring amqp rabbitmq fanout配置

基于spring amqp rabbitmq fanout配置如下&#xff1a; 发布端 <rabbit:connection-factory id"rabbitConnectionFactory" username"guest" password"guest" host"localhost" port"5672"/> <rabbit:template id&qu…

【MATLAB】数组运算

&#xff08;这里这列举笔者不熟悉的&#xff0c;容易忘的数组运算&#xff09; 1、数组的转置 >> a[1 2 3 4 5 6 7]a 1 2 3 4 5 6 7>> bab 1234567 2、对数组的赋值 >> a([1 4])[0 0]a 0 2 3 0 5 6 73、注…