当前位置：首页 > 编程日记 > 正文

Python爬虫案例-获取最新的中国行政区域划分

编程日记 2024-05-24 11:20:00

源网页：中国统计局标准 http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2016/

打开网页后可以分析出行政区域划分共分为5层

根据传入参数，生成网页地址时需要1-3层的只传本身以及 4层及以后的增加当前省份的前缀。

#生成实际需要解析的页面地址
def geturl(level,url,code):if level<4:url=urlelse:url=code[0:2]+'/'+urlurl='http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2016/'+urlreturn url

标签1-5分别不同

#获取需要解析的标签
def getlevelclass(level):LevelDict={1:"provincetr",2:"citytr",3:"countytr",4:"towntr",5:"villagetr"}return LevelDict[level]

根据网页上的标签以及实际地址去获取所需要的网页内容

#设置头信息
def getheaders():headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'}return headers
#获取网页内容
def Get_WebContent(url,level):headers=getheaders()res=urllib.request.Request(url,None, headers=headers)i=1while i<4:try:response=urllib.request.urlopen(res)i=100except error.URLError as e:  print('执行第'+str(i)+'次错误,'+e.reason)i=i+1time.sleep(10)html_content=response.read()#将html从gb2312编码转换到utf-8的编码html_content = html_content.decode('gb2312', 'ignore').encode('utf-8')soup = BeautifulSoup(html_content, 'html.parser', from_encoding='utf-8')#获得内容levelclass='.'+getlevelclass(level)souplist=soup.select(levelclass)return souplist

根据输出值需要创建解析第一层与其他层的两种函数。

#conding=utf-8
from bs4 import BeautifulSoup#用于解析第二层，内容(Code,Pronvince,urls)
def Get_Child(souplist,parentid,level):SQLLIST=[]for provincesoup in souplist:url_tds=provincesoup.find_all('a',href=True)a=1for td in url_tds:if a%2==1:code=td.get_text()urls=td['href']else:provience=td.get_text()row=(code,provience,parentid,level,urls)SQLLIST.append(row)          a=a+1 return SQLLIST#用于解析第一层，内容(Pronvince,urls),Code=urls中的数字部分
def Get_Main(souplist,parentid,level):SQLLIST=[]for provincesoup in souplist:url_tds=provincesoup.find_all('a',href=True)for td in url_tds:provience=td.get_text()urls=td['href']code=td['href'].replace('.html', '')row=(code,provience,parentid,level,urls)SQLLIST.append(row)return SQLLIST#实际调用的获取值函数函数
def GetDetail(souplist,level,parentid):if level==1:SQLLIST=Get_Main(souplist,parentid,level)else:SQLLIST=Get_Child(souplist,parentid,level)return SQLLIST

SQLSERVER表

CREATE TABLE [dbo].[China_Position]([ID] [int] IDENTITY(0,1) NOT NULL,[Code] [nvarchar](20) NULL,[Name] [nvarchar](40) NULL,[Name_Short] [nvarchar](20) NULL,[ParentID] [int] NULL,[Level] [int] NULL,[Urls] [nvarchar](200) NULL,[IsFinish] [smallint] NOT NULL
)

def DataInsert(ValueList):SQLStr="INSERT INTO [dbo].[China_Position]([Code] ,[Name] ,[ParentID],[Level] ,[Urls])  VALUES(%s ,%s ,%d,%d,%s) "SqlInsert(SQLStr,ValueList)#获取待运行的任务
def GetTaskList(level):SQLStr="""SELECT v1.[ID],v1.[Level]+1 as [Level],v1.[Urls],v1.CodeFROM [dbo].[China_Position] v1 with(nolock)where [IsFinish]=0 And Level=""" + str(level-1)cur=SqlSelect(SQLStr)TaskList=[]for row in cur:rows=(row[0],row[1],row[2],row[3])TaskList.append(rows)return TaskList

#记录执行成功日志
def RecordLog(ID):SQLStr="update [dbo].[China_Position] set IsFinish=1 where ID="+str(ID)SqlDelete(SQLStr)

执行最终的代码，获取level1-3层的数据。

for i in range(1,4):#获取第几层的待执行任务TaskList=GetTaskList(i)for CTask in TaskList:parentid=CTask[0]level=CTask[1]url=CTask[2]Code=CTask[3]#获取真实的网页url=geturl(level,url,Code)#获取网页内容souplist=Get_WebContent(url,level)#待插入数据路的列表ValueList=GetDetail(souplist,level,parentid)#插入数据库
        DataInsert(ValueList)#记录成功日志,下次执行时不执行已执行的任务RecordLog(parentid)

转载于:https://www.cnblogs.com/Evan-fanfan/p/8580539.html

https://www.dkcj.cn/info/7638.html

管理分布式session的四种方式。

应用服务器的高可用架构设计最为理想的是服务无状态，但实际上业务总会有状态的，以session记录用户信息的例子来讲，未登入时，服务器没有记入用户信息的session访问网站都是以游客方式访问的，账号密码登入网站后服务器必…

编程日记2024/05/24 11:10:00

【matlab】第三章数组和数组的运算

（一）操作练习 1、构建等差数列的方法代码实现 //方法1A 5:1:10//输出结果A 5 6 7 8 9 10//方法2 A linspace(1,10,3) //输出结果 A 1.0000 5.5000 10.0000 //注意最后的3指的是一共三个元素//等比数列A logspace(0,2,5)//输…

编程日记2024/05/24 11:00:00

用PHP生成等比图像的方法

PHP代码 <?php /************************************************************************ * 函数名称：createSmallImg() * 函数说明：创建等比例图片 * 输入参数：$dir 保存路径$source_img 原图片名称$small_ex 缩率图文件名后缀$maxw…

编程日记2024/05/24 10:50:00

ARM7启动代码

1:PRESERVE8: Reguire8和Preserve8 C和汇编有8位对齐的要求，这两个伪指令可以满足此要求，存在REQUIRE8<——> PRESERVE8的对应关系，但不是说有一个REQUIRE8就要有一个 PRESERVE8，如果是一个c文件和一个汇编文件的调用&#…

编程日记2024/05/24 10:40:00

一次完整请求的日志

一次完整请求的日志：各种配置文件：spring-mvc.xml<?xml version"1.0" encoding"UTF-8"?><beans xmlns"http://www.springframework.org/schema/beans" rel"nofollow"" target"_blank"…

编程日记2024/05/24 10:30:00

1# 引用 C:\AVEVA\Marine\OH12.1.SP4\Aveva.ApplicationFramework.dll C:\AVEVA\Marine\OH12.1.SP4\Aveva.ApplicationFramework.Presentation.dll 2# 引用命名空间， using Aveva.ApplicationFramework.Presentation;using Aveva.ApplicationFramework; 3# 继承接口…

编程日记2024/05/24 10:20:00

搜集《ASP.NET中常用的26个优化性能方法》

1. 数据库访问性能优化　　 a.数据库的连接和关闭　　访问数据库资源需要创建连接、打开连接和关闭连接几个操作。这些过程需要多次与数据库交换信息以通过身份验证，比较耗费服务器资源。ASP.NET中提供了连接池(Connection Pool)改善打开和关闭数据库对性能的影响…

编程日记2024/05/24 10:10:00

【matlab】我要自学网笔记总结 1.3

1.3 1、在matlab的命令行窗口可以直接进行数学运算 2、π 和平方的使用 S pi*r^2 3、如果输入一个多位小数，输出时只显示小数点后四位，但计算的时候使用的是真实值。如果要改变显示的位数 （1）可以在预设 - 命令行窗口 - 数值…

编程日记2024/05/24 10:00:00

IT规划的企业应用实践（6）研究背景之企业信息化建设的诉求

研究背景之企业信息化建设的诉求从实践角度看，企业信息化建设的诸多问题和诉求，可以归纳为以下几个方面： 1. IT系统本身： l 面对成本的压力和客户的要求，在流程方面、运作方面离不开IT支持，IT系统如何支…

编程日记2024/05/24 09:50:00

Codeforces Gym100812 L. Knights without Fear and Reproach-扩展欧几里得(exgcd)

补一篇以前的扩展欧几里得的题，发现以前写错了竟然也过了，可能数据水？？？ 这个题还是很有意思的，和队友吵了两天，一边吵一边发现问题？？？ L. Knights without F…

编程日记2024/05/24 09:40:00

Tarjan无向图连通性

割点：去掉某点x，该无向图分割成两部分（及以上） 割边：去掉某条边x，该无向图分割成两部分（及以上） 时间戳：在搜索树上的遍历序号dfn 追溯值：subtree子树和非搜索…

编程日记2024/05/24 09:30:00

php去除字符串首尾空格(包括全角）（转）

<? $str" dfdfdf曊壷顳道德观第三附属 "; $str mb_ereg_replace(^( | ), , $str); $str mb_ereg_replace(( | )$, , $str); echo mb_ereg_replace( , "\n ", $str); ?>转载于:ht…

编程日记2024/05/24 09:20:00

【单片机】写电子钟时遇到的问题

1、<> 与""的区别 1、<> 先去系统目录中找头文件，如果没找到再去当前目录下找。所以一般用于向标准的头文件如 studio.h 和 stdlib.h 等方法。 2、"" 首先在当前目录下寻找，如果找不到在去系统目录下寻找。这个用于自…

编程日记2024/05/24 09:10:00

什么是业务组件?

海浪给大家分享了一些关于业务组件的文章，但是什么是业务组件呢？海浪转载了yongtree写的这篇文章。业务组件是一系列不可分割的业务活动，是构建专业化企业的功能模块。业务组件的优势在很大程度上来源于其具备两个相关但截然不同的特性&#…

编程日记2024/05/24 09:00:00

3.3.2 函数参数不得不说的几件事

函数定义时圆括号内是使用逗号分隔开的形式参数列表（parameters），一个函数可以没有参数，但是定义和调用时一对圆括号必须要有，表示这是一个函数并且不接受参数。函数调用时向其传递实参（arguments&#xff…

编程日记2024/05/24 08:50:00

wpf 对控件进行截图，获取快照

有时候我们项目，在执行某个操作后，会生成一些数据结果，如报表一类的东西，我们需要对结果进行保存，甚至是生成word文档。那么首先获取到控件快照就最基本的条件。生成快照的静态方法类 using System; using System.Co…

编程日记2024/05/24 08:40:00

【java】兴唐第二十一节（LinkedList和泛型）

LinkedList知识点 1、实现了Iterable接口的类具有迭代功能。 2、List接口为Collection的子类，表示线形数据列表，其实现类有：ArrayList(数组线性表)与LinkedList(链表) 算了不多说了，上图吧 3、ArrayList是一个可变数组&#xff…

编程日记2024/05/24 08:30:00

Elgg网站迁移指南

转载地址： http://blog.sina.com.cn/s/blog_84068de60100vr21.html Elgg官方文档上的网站迁移部分是有问题的——缺少了一些重要步骤，而且过程更麻烦。正确的方法如下： 备份网站文件，包括uploads文件夹导出数据库在数据库文件中&a…

编程日记2024/05/24 08:20:00

INFO：在InstallShield中修改安装包压缩.cab包的大小

如果我们用InstallShield打包一个数据非常大的安装包（Basic MSI和InstallScript MSI工程类型），默认情况下安装包会产生多个.cab文件，这里简单说明我们如何修改安装包中.cab文件的大小。首先，有个信息大家需要知道&…

编程日记2024/05/24 08:10:00

MEF依赖注入实例

什么是MEF 先来看msdn上面的解释：MEF(Managed Extensibility Framework)是一个用于创建可扩展的轻型应用程序的库。应用程序开发人员可利用该库发现并使用扩展，而无需进行配置。扩展开发人员还可以利用该库轻松地封装代码，避免生成脆弱的硬…

编程日记2024/05/24 08:00:00

Data - 数据思维 - 上篇

1 - 概念与定义如果分析思维是一种结构化思考的体现，那么数据分析思维（简称数据思维）则是以数据为依托的结构化分析方式。不同于“我觉得”、“以前是怎样”、“其他人如何”这些直觉化、经验化、类比化的思考方式，数据思维是以…

编程日记2024/05/24 07:50:00

新生选课系统使用指南

建议选用IE6或者IE7浏览器。打开浏览器，地址栏输入202.200.112.200， 或者202.200.112.202， 或者202.200.112.210。按回车键。输入学号和身份证号（如果修改过密码，则输入新密码）。点“登录”。点 “学生…

编程日记2024/05/24 07:40:00

【java】兴唐第二十三节课（暑期第一节TreeSet）

预警：进入暑期培训的博主即将高产似母猪，敬请博友期待。 1、给类添加构造方法 alt shift s 选择Generate Construct using Fields 2、map两种遍历方法方法一： 获取所有的key值，根据key值获取value值代码实现： Se…

编程日记2024/05/24 07:30:00

程序设计分析（开篇）——混沌初开，顿悟设计

一直以来，不断的进行着项目的设计、开发，然而，差的设计，痛苦的维护、编码，让我不断的审视自己的设计是否有问题，在最近的一些思考、理解中，终于有了一些领悟，总结一下过去的设计&…

编程日记2024/05/24 07:20:00

源代码管理工具调查

任务说明： 一、找出并了解当前较为流行的几种源代码管理工具（至少三种）； 1、 Visual Source Safe( 简称 VSS )2、 SVN(Subversion) - CVS(Concurrent Version System)的替代和升级版本3、 ClearCase 二、建立表格对这些源代码管理…

编程日记2024/05/24 07:10:00

从零开始学Go之接口(一)：接口

接口是双方约定的一种合作协议。接口实现者不需要关心接口会被怎样使用，调用者也不需要关心接口的实现细节。接口是一种类型，也是一种抽象结构，不会暴露所含数据的格式、类型及结构。声明： 接口类型是由一组方法签名定义的集合 …

编程日记2024/05/24 07:00:00

【java】兴唐第二十四节课

HashMap中put函数的源码分析： （一）知识点： 1、方法resize（）的作用是扩容 2、 if ((p tab[i (n - 1) & hash]) null)其中n-1代表最后一个元素的下标，经过和hash的&后获取当前存储nod…

编程日记2024/05/24 06:50:00

找不到可安装的ISAM”的问题

问题描述： 在 Access 或Sql Server中收到“Could not find installable ISAM”（找不到可安装的 ISAM）错误信息或者丢失某些文件类解决方法： 1.注册表编辑器使用不当可能导致严重问题，可能需要重新安装操作系统。Micro…

编程日记2024/05/24 06:40:00

修改mysql的时间/时区

# 背景往db中insert数据发现时间不对，因为是新DB，所以猜测是mysql设置不对 # 解决方法方法一：通过mysql命令行模式下动态修改 show variables like "%time_zone%"; 查看时区 --------------------------| Variable_name | Value…

编程日记2024/05/24 06:30:00

【java】兴唐第二十五节课(异常和log4j的使用)

异常 1、try catch finally语法（附带多重catch） 代码实现： public static void main(String[] args) {try {int i 1/0;}catch(ArithmeticException e){System.out.println("出现数学运算异常：" e);}catch(ArrayIndex…

编程日记2024/05/24 06:20:00