当前位置: 首页 > 编程日记 > 正文

python_2开发简单爬虫

2017年12月03日 16:43:01 独行侠的守望 阅读数:204 标签: python爬虫 更多
个人分类: Python
编辑
版权声明:本文为博主原创文章,转载请注明文章链接。 https://blog.csdn.net/xiaoanzi123/article/details/78700863
学习地址:http://www.imooc.com/learn/563 慕课网
课程须知
本课程是Python语言开发的高级课程1、Python编程语法;2、HTML语言基础知识;3、正则表达式基础知识;
老师告诉你能学到什么?
1、爬虫技术的含义和存在价值
2、爬虫技术架构
3、组成爬虫的关键模块:URL管理器、HTML下载器和HTML解析器
4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行
5、一套极简的可扩展爬虫代码,修改本代码,你就能抓取任何互联网网页!
★第一章
课程介绍:
课程进行简单的爬虫讲解----不需要登录的静态网页抓取
1、爬虫简介
2、简单爬虫架构
3、URL管理器
4、网页下载器urllib2
5、网页解析器beautifulsoup
6、完整实例 爬虫百度百科
★第二章,
爬虫是什么 : 从一个url出发,自动访问他所关联的所有url,提取数据。
爬虫价值 : 爬取互联网数据为我所用,开发新产品提供更好的服务

★第三章
3-1 python简单爬虫架构

3-2  python简单爬虫架构 动态运行流程 【时序图】

★第四章  url管理器和实现方法

4-1  url管理

管理待抓取url结合  和  已经抓取的url集合  ,防止重复抓取和循环抓取

url管理器支持的功能 至少5个

4-2 url管理器的实现方式

目前有三种。

★第五章 网页下载器和  urllib2  模块

5-1 网页下载器简介          将互联网上url对应的网页下载到本地的工具

python有哪些网页下载器?

5-2  urllib2  下载器网页的三种方法

①最简洁方法:把url传递给urllib2模块的urlopen方法   urllib2.urlopen(url)

三种方法功能依次更大更强

5.3 urllib2实例代码演示

ps:我安装的是Python3.5.2  ,使用第一种urllib2.urlopen()报错,搜索发现官方3.0版本已经把urllib2,urlparse等五个模块都并入了urllib中,也就是整合了,参考   http://blog.csdn.net/pythonniu/article/details/51855035  ,正确用法

  1. import urllib.request  
  2. url="http://www.baidu.com"  
  3. get=urllib.request.urlopen(url).read()  
  4. print(get)  

★第六章  网页解析器和  beautifulsoup  第三方模块

6.1网页解析器简介

①正则表达式

②Python自带 html.parser

③第三方插件  beautifulsoup  强大,能使用② 和 ④

④第三方插件   lxml

①是模糊匹配,②③④是结构化解析。DOM树 ,熟悉吧๑乛◡乛๑

6.2beautifulsoup模块简介和安装

该模块属于Python第三方模块,用于从HTML或xml提取数据。

官网 http://www.crummmy.com/software/BeautifulSoup

在线安装 beautifulsoup模块,截图如下【前提:已经有pip】

6.3beautifulsoup语法

流程:HTML网页   →创建beautifulsoup对象(生成dom树)  →搜索节点(find_all 方法 和 find方法,可以按照  名称、属性、文字  来搜索)   → 访问节点名称、属性、文字

例子

代码如下:

6.4beautifulsoup实例测试

总结:课程教程是Python 2 版本,自己是3.x版本,总体还是从小白到 对python爬虫整体概况有所了解一点吧。

转载于:https://www.cnblogs.com/dxxdsw/p/10644765.html

相关文章:

Mac下安装Node.js

1> brew install node 2> 查看版本: node --version 学习传送门: http://www.imooc.com/learn/637 菜鸟学习: http://www.runoob.com/nodejs/nodejs-http-server.html 官网:https://nodejs.org/zh-cn/ 转载于:https://www.…

window对象提供的功能之窗口最大化

实现窗口最大化的基本思路是&#xff1a;首先打开一个“中转”页面&#xff0c;在该页面中用window.open方法打开一个最大化的窗口&#xff0c;并且在该窗口中将父窗口关闭。实例如下&#xff1a;ex3.html: 代码 1 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Trans…

Framework 4.0 新关键字dynamic 之我见(二)

Hi&#xff0c;大家好&#xff0c;随着大家对VS2010的深入了解&#xff0c;对dynamic已经是越来越了解了&#xff0c;何时该用&#xff0c;何时不用已经非常熟悉了&#xff0c;原本不打算再写下去的&#xff0c;但感觉还有点东西需要说说&#xff0c;就简单再说一下吧。 原先以…

JavaScript 数组排序及查找数组中最大值最小值方法

JavaScript 数组排序方法及查找最大值最小值方法1. sort()方法排序1.1 方法介绍1.2 语法&#xff1a;arr.sort([compareFunction])1.3 参数说明1.4 返回值&#xff1a; 排序后的数组。1.5 方法描述2. 最大值/最小值方法2.1 查找数组中的最大值2.1.1 Math.max.apply()方法语法&a…

35个必备的wordpress插件

博客一开始是自己写的小程序&#xff0c;但自己写程序实在太麻烦了&#xff0c;不想写&#xff0c;于是转成了bo-blog&#xff0c;用了几周&#xff0c;感觉还是不太理想&#xff0c;就又转换成了wordpress&#xff0c;这个博客程序也不是什么省油的灯&#xff0c;用起来也不是…

1042. 托普利兹矩阵

描述 “托普利兹矩阵”是指如果从左上角到右下角的同一条主斜线上每个元素都相等的矩阵. 给定一个M x N矩阵&#xff0c;判断是否为“托普利兹矩阵”. matrix 是一个二维整数数组.matrix 的行列范围都为 [1, 20].matrix[i][j] 的整数取值范围为[0, 99].样例 样例 1: 输入: matr…

git控制台指令

git stash: 备份当前的工作区的内容&#xff0c;从最近的一次提交中读取相关内容&#xff0c;让工作区保证和上次提交的内容一致。同时&#xff0c;将当前的工作区内容保存到Git栈中。git stash pop: 从Git栈中读取最近一次保存的内容&#xff0c;恢复工作区的相关内容。由于可…

Web架构师必备能力

最近和几个朋友在谈到时下流行的Web 2.0&#xff0c;也提到了其中最重要的角色——架构师。多方各有争执&#xff0c;不外乎是因为背景和视角的缘故&#xff0c;包括架构一词&#xff0c;本身就从建筑学借鉴而来&#xff0c;至于架构师&#xff0c;则可以简单地从建筑学的设计师…

深入理解C语言-二级指针三种内存模型

二级指针相对于一级指针&#xff0c;显得更难&#xff0c;难在于指针和数组的混合&#xff0c;定义不同类型的二级指针&#xff0c;在使用的时候有着很大的区别 第一种内存模型char *arr[] 若有如下定义 char *arr[] {"abc", "def", "ghi"};这种…

如何获取URL中的参数

获取URL中的参数1. 使用JS函数获取URL参数使用示例2. Angular应用中&#xff0c;从URL中获取参数信息的方法使用示例ActivatedRoute属性1. 使用JS函数获取URL参数 function getQueryVariable(variable) {var query window.location.search.substring(1);var vars query.spli…

windows使用.NET CORE下创建MVC,发布到linux运行

1.在有dotnet core 的环境下&#xff0c;打开控制台。创建文件夹demo1 2.创建MVC程序 3.创建完成 4.使用记事本修改一下HomeController 修改端口 5.发布 6.压缩发布的文件publish&#xff0c;通过FTP上传到linux 7.解压 8.运行 9.浏览器浏览 转载于:https://www.cnblogs.com/qq…

Oracle正则表达式匹配中文的问题

查资料知道中文Unicode范围是\u4e00 - \u9fa5 可是自己用来正则表达式匹配中文总是用不了Unicode。最简单举例&#xff1a;select regexp_replace(abc秋歌def,[\u4e00-\u9fa5],-) from dual;结果是&#xff1a;-bc秋歌d-- 即将\u4e00-\u9fa5里面的a,b,e,f当成字符了。我用的是O…

Oracle HowTo:如何使用Oracle case函数

通过实例简要介绍case函数的用法。1.创建测试表:DROP SEQUENCE student_sequence; CREATE SEQUENCE student_sequence START WITH 10000 INCREMENT BY 1; DROP TABLE students; CREATE TABLE students (id NUMBER(5) PRIMARY KEY,first_name VARCHAR2(20…

Attribute 绑定、类绑定和样式绑定

Attribute 绑定、类绑定和样式绑定 1. 绑定到 Attribute 优先设置带有 Property 绑定的元素的 Property。如果没有可绑定的元素 Property&#xff0c;可以使用 Attribute 绑定。 例如&#xff0c;ARIA和SVG 只有 Attribute。 ARIA 和 SVG 都不对应于元素的 Property&#xf…

Mixing Milk(USACO)

/* ID:tianlin2 PROG:milk LANG:C */ #include <iostream> #include <cstdlib> #include <fstream> using namespace std; typedef struct milk milk; struct milk{ int mon; int wei; }; //最大农民数 milk m[5000]; int moncmp(const void *va,const void …

DVWA的安装与简单使用

参考资料: http://www.freebuf.com/articles/web/119150.html 尝试使用linux机器安装,但是因为下载php版本以及各种兼容性的问题耗时较长, 所以后来选择使用windows server 来进行安装: 1. 下载xampp 版本尽量使用低一些的 比如 php版本在5.4 以下 能够更简单的入门学习. 2. 下…

CentOS安装中文输入法

安装中文语言支持 yum install "chinese support" 然后启动中文你语言输入法 system -->Preferences-->Input Method Enable input method feature Input Method Preferences Inout Method 转载于:https://www.cnblogs.com/browselife/p/10646256.html

090613 今天做了一个软件没搞定的RAID5

今天做了一个RAID5 &#xff0c;之前一个人用《**恢复大师》、《r-studio》以及《RAID Reconstructor》反正能用的软件都用过了&#xff0c;最后的结果是恢复出来的&#xff0c;很多打不开&#xff0c;并且数据很少&#xff0c;最后找到了我&#xff0c;经过手工分析数据完美恢…

转:Flutter Decoration背景设定(边框、圆角、阴影、形状、渐变、背景图像等)...

1 继续关系&#xff1a; BoxDecoration:实现边框、圆角、阴影、形状、渐变、背景图像 ShapeDecoration:实现四个边分别指定颜色和宽度、底部线、矩形边色、圆形边色、体育场&#xff08;竖向椭圆&#xff09;、 角形&#xff08;八边角&#xff09;边色 FlutterLogoDecoration:…

Angular7中引用外部JS文件

Angular7中引用外部JS文件&#xff0c;步骤如下&#xff1a; 1. 将引入的js文件放到项目的src/assets下 2. 在angular.json文件中找到scripts项并配置js文件的相对路径 3. 在src/typings.d.ts文件中声明全局变量&#xff0c;如果不想声明全局变量&#xff0c;也可以在所需的组…

当前上下文中不存在viewbag

参考链接&#xff1a;http://www.cnblogs.com/chas/p/5076297.html view文件夹下的web.config中的appsetting节点中缺少了 <add key"webpages:version" value"3.0.0.0"/>&#xff0c;增加上去就行了&#xff0c;同时注意value要去系统中的版本保持一…

WPF:跨应用程序会话保持和还原应用程序范围的属性

所谓的wpf夸应用程序员会话保持和还原。其实就是将多个应用程序都用的资源保存到一个独立的文件存储系统中。这个应用程序退出的时候将数据写入文件中&#xff0c;其他应用程序使用的时候可以去读取这个文件这个地方用到了System.IO.IsolatedStorage。这个方法只是为了避免读写…

AD下批量导入域用户

如果您的域环境比较大,那么设置用户可能会不方便,就"新建用户"都可能重复做上几十遍....是不是很.....呵呵...下面介绍一个工具"csvde.exe",微软默认提供的.即默认随DC一起安装的,专门用来从"文本文件"批量导入"用户"的工具.几步就搞定…

测试 csdnmakerdown语法

TOC 欢迎使用Markdown编辑器 你好&#xff01; 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章&#xff0c;了解一下Markdown的基本语法知识。 新的改变 我们对Markdown编辑器进行了一些功能拓展与语法支持&#…

Android studio快捷键

查看类的继承关系&#xff1a; CtrlH 自动补全抽象类型&#xff1a;AltEnter JAVA中注释掉//&#xff1a; Ctrl/ XML中注释掉&#xff1a; Ctlr/ 显示注释文档&#xff1a; CtrlQ 修改文件名&#xff1a; 点到需要修改的文件然后shiftF6 转载于:https://www.cnbl…

异步方法顺序调用问题

前端应用中时常出现多个异步方法需要依次调用&#xff0c;且后一个异步方法的执行依赖于前一个异步方法的返回结果的情况&#xff0c;下面主要介绍一下这种情况的处理方法。 方法1&#xff1a;异步方法嵌套调用 此种方法逻辑简单&#xff0c;但代码较为繁琐。 方法2&#xff1…

(转载)从无知到有知

这篇文章的作者是徐宥&#xff0c;觉得很有共鸣&#xff0c;好东西大家分享一下 February 3, 2010 at 11:07 pm Filed under Article, Memo, Self-help [这篇文章是以前写的&#xff0c;主要是提醒自己的] 人的一生是要不断学习的。这里面的动力很简单&#xff1a;因为我们在…

Cisco *** 完全配置指南-连载-PIX和ASA连接的故障诊断与排除

Cisco *** 完全配置指南-连载-PIX和ASA连接的故障诊断与排除一、ISAKMP/IKE阶段1连接<?xml:namespace prefix o ns "urn:schemas-microsoft-com:office:office" />show isakmp sa [detail]显示任何管理连接的状态show [crypto] isakmp stats 显示管理连接的…

Angular应用开发中遇到的问题

记录在开发Angular应用时遇到的问题以及解决方案。 问题 3 前提&#xff1a;在Angular应用的组件中使用响应式表单进行数据校验&#xff0c;使用FormBuilder服务的 group()方法来构建一组FormControl实例。 需要监听其中控件的值的变化时&#xff0c;由于控件的类型为Abstrac…

小麦带你看postgres(代码模块结构)

初始化部分&#xff08;Initialization&#xff09; bootstrap&#xff1a;和系统表相关。 main&#xff1a;传递参数到后台的pg进程。 postmaster&#xff1a;控制pg服务开关&#xff0c;创建共享内存&#xff0c;循环等待连接并分配服务。 libpq&#xff1a;与子进程通讯相关…