当前位置: 首页 > 编程日记 > 正文

采集练习(一) php 获得全国的小学(数据来自腾讯朋友网)

    注:发现腾讯朋友网已经改版,部分参数需要自己获得修改 !!!

年前有个需求获得某省的小学数据,分析了下朋友网的小学学校发现可以获得相关数据。

如获得  湖南省郴州市宜章县的全部小学

发现网页请求的地址是

http://api.pengyou.com/json.php?cb=__i_3&mod=school&act=selector&schooltype=6&country=0&province=43&district=431022&g_tk=1964222334 

这里返回的是一个json  

document.domain = "pengyou.com"; __i_3({"code":0,"subcode":0,"......});

解析后发现里面是  宜章县的全部小学。。。

分析了下参数

schooltype=6  表示小学

country  = 0 表示 中国

province = 43 表示湖南省

district   = 431022 表示宜章县

g_tk      = 1964222334  不清楚 估计是随机数

有了这几个参数  就可以自己获得相应的 小学了。。

获得 湖南省郴州市 的所有县: http://api.pengyou.com/json.php?cb=__i_6&mod=getdistrict&cityid=4310&district_obj_name=_distinct&g_tk=271354436  

要获得  学校必须获得province 、district 的值  但我没发现相应的网络请求获得相应的 province 、district    于是到页面上查找 发现 province 的值来自 

http://cn.qzonestyle.gtimg.cn/campus/js/locations.js

需要解决的问题:

1、 获得locations.js 里的 省份 城市 id 值 时 需要 用到正则表达式

2、 根据  市 id 获得县 id

3、file_get_contents  获得 相关学校时 需要带上 相应的 user_agent  并配置 否则获不到数据。

以下是相应的代码

header("Content-type:text/html; charset=utf-8");
set_time_limit(0);
$js_data = @file_get_contents("locations.js");
preg_match_all("/;location_array\[([0-9]{2})?\]='([^']+)?'/",$js_data,$locations);
$datas = array();
if(array_filter($locations[1]) && array_filter($locations[2])){foreach($locations[1] as $key => $val){preg_match_all("/;sublocation_array\[".$val."\]\[([0-9]{4,})\]='([^']+)?'/", $js_data, $matches);$datas[$val]['name']= $locations[2][$key];foreach($matches[1] as $k =>$v){$datas[$val]['sub'][$v] = $matches[2][$k];}} 
}function getDatas($url)
{$getPageSetting = array('http' => array('timeout' => 5,'method' => 'GET','protocol_version'=>'1.1','header' =>"User-Agent: Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_0 like Mac OS X; en-us) AppleWebKit/532.9 (KHTML, like Gecko) Version/4.0.5 Mobile/8A293 Safari/6531.22.7\r\n" .//"Referer: http://......php\r\n".浏览器访问过的,上一个页面的整个url地址字符串,直接在地址栏输入url访问此页面则没有此项"Host: isdspeed.qq.com\r\n" .//这项可以省略,如果这里设置错误会报错:failed to open stream: HTTP request failed! "Accept-Language: zh-cn,zh;q=0.5\r\n" ."Accept-Encoding: gzip, deflate\r\n" ."Accept-Charset: GBK,utf-8;q=0.7,*;q=0.3\r\n" ."Content-Type:application/x-www-form-urlencoded"."Accept: text/javascript, application/javascript, */*\r\n" ."Connection: keep-alive\r\n\r\n"));//$getHtml= file_get_contents($url, FALSE, stream_context_create($getPageSetting));
   // 发现腾讯朋友网已经改版 所以直接用 file_get_contents 获得
$getHtml = file_get_contents($url);
return $getHtml; }/*** 创建文件夹* @param string $path 文件夹路径*/ function createFolder($path) {if (!file_exists($path)) {createFolder(dirname($path));mkdir($path, 0777);} }$areas = array();// 获得相关省市县的小学 foreach ($datas as $pid=>$rows){foreach($rows as $k=>$v){if($k =='sub'){foreach($v as $cid =>$city){$cityUrl = "http://api.pengyou.com/json.php?mod=getdistrict&cityid=".$cid."&district_obj_name=_distinct&g_tk=1523170442";$result = getDatas($cityUrl);$districtIds = json_decode($result,true);$areas[$pid][$cid] = $districtIds['result']['district_arr'];$district_arr= $districtIds['result']['district_arr'];foreach($district_arr as $did =>$district){$url = "http://api.pengyou.com/json.php?&mod=school&act=selector&schooltype=6&country=0&province=".$pid."&district=".$did."&g_tk=1523170442";$schools = getDatas($url);$schools = json_decode($schools,true);$school_data = str_replace("&middot;","\r\n",strip_tags($schools['result']));$dirs = "school/".iconv('utf-8', 'gbk', $rows['name'])."/".iconv('utf-8', 'gbk', $city);createFolder($dirs);@file_put_contents($dirs.'/'.iconv('utf-8', 'gbk', $district).'.txt', $school_data);}}}} }echo '<pre>'; print_r($areas);

转载于:https://www.cnblogs.com/keygle/archive/2013/03/06/2946528.html

相关文章:

android 模板方法模式,安卓设计模式(七)模板方法模式

模板方法模式用于固定相关操作的执行流程,将具体实现延迟到子类中该系列其他文章:定义: 定义一个操作中算法的框架,而降一些步骤延迟到子类中,使得子类可以不改变一个算法的结构即可重定义该算法的某些特定步骤.使用场景:代码重构时,模板方法是经常被用到的,将固定部分提取到父…

solr单机版的搭建

一、solr单机版的搭建 1.运行环境 solr 需要运行在一个Servlet容器中&#xff0c;Solr4.10.3要求jdk使用1.7以上&#xff0c;Solr默认提供Jetty&#xff08;ja&#xff09;&#xff0c;本教va写的Servlet容器程使用Tocmat作为Servlet容器&#xff0c;环境如下&#xff1a; Solr…

android5.0后新特性修改标题头,Android5.0中Material Design的新特性

Material Design简介Material Design是谷歌新的设计语言&#xff0c;谷歌希望寄由此来统一各种平台上的用户体验&#xff0c;Material Design的特点是干净的排版和简单的布局&#xff0c;以此来突出内容。Material Design对排版、材质、配色、光效、间距、文字大小、交互方式、…

MFCard:易用的信用卡支付集成类库

原文链接&#xff1a;https://github.com/MobileFirstInc/MFCardMFCard&#xff1a;易用的信用卡支付集成类库。# 为开源点赞# —— 由 SwiftLanguage 分享MFCard is an awesome looking Credit Card input & validation control. Written in Swift 3. Demo Usage First St…

Castle ActiveRecord学习(四)延迟加载、分页查询、where条件

一、延迟加载 //用户发布的主题&#xff0c;一对多&#xff1b;Table&#xff1a;外键表&#xff1b;ColumnKey&#xff1a;外键&#xff1b;Lazy&#xff1a;延迟加载&#xff1b;Cascade&#xff1a;级联操作&#xff08;级联删除&#xff09;[HasMany(typeof(ThemeInfo), Ta…

系统吞吐量(TPS)、用户并发量、性能测试概念和公式(转载)

原文地址&#xff1a;http://www.ha97.com/5095.html PS&#xff1a;下面是性能测试的主要概念和计算公式&#xff0c;记录下&#xff1a; 一&#xff0e;系统吞度量要素&#xff1a; 一个系统的吞度量&#xff08;承压能力&#xff09;与request对CPU的消耗、外部接口、IO等等…

android layout后还原位置,Android图片框架photoview如何记住所有状态并还原,包括缩放度,缩放后的移动的距离等等...

Android图片框架photoview如何记住状态并还原&#xff0c;包括缩放度&#xff0c;缩放后的移动的距离等等,尝试了好多方法都没有作用。private void generateImages() {for (int i 0; i < imagesEntities.size(); i) {// PhotoViewAttacher attacher;final ImagesEntity en…

Shiro安全登录框架

环境准备 本文使用Maven构建&#xff0c;因此需要一点Maven知识。首先准备环境依赖&#xff1a; Java代码 <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <…

iOS自动签名打包(xcodebuild)----常用

iOS自动打包主要用xcodebuild命令, 在终端输入xcodebuild --help可以查看xcodebuild的参数。 xcodebuild具体语法&#xff1a; 无workspace的工程 xcodebuild [-project name.xcodeproj] [[-target targetname] … | -alltargets] [-configuration configurationname] [-sdk [s…

设计模式解析(五)——几种设计模式之Facade和Adapter

由于个人时间原因&#xff0c;无法详细描述这些模式&#xff0c;暂且记录下来以后慢慢补充详细。 Facade模式 Facade模式&#xff1a;关键特征 意图希望简化原有系统的使用方式。需要定义自己的接口。问题只需使用某个复杂系统的子集&#xff0c;或者&#xff0c;需要以一种特殊…

android level list,Android Drawable (levle List selector layer List)

8种机械键盘轴体对比本人程序员&#xff0c;要买一个写代码的键盘&#xff0c;请问红轴和茶轴怎么选&#xff1f;管理大量备选可绘制对象的可绘制对象&#xff0c;每个可绘制对象都分配有最大的备选数量。使用 setLevel() 设置可绘制对象的级别值会加载级别列表中 android:maxL…

人脸检测流程及正负样本下载

源地址&#xff1a;http://www.thinkface.cn/thread-146-1-4.html 人脸检测做训练当然可以用OpenCV训练好的xml&#xff0c;但是岂止于此。我们也要动手做&#xff01;~首先是样本的选取。样本的选取很重要&#xff0c;找了很久才发现几个靠谱的。人脸样本&#xff1a;http://w…

源码推荐:仿写映客直播 ,快速切换主题 ,星星评分控件,表格样式,可以横向移动的表格, 仿微信键盘-

仿写映客直播&#xff08;上传者&#xff1a;五仁月饼&#xff09; 工作之余写的,基于IJKPlayer播放&#xff0c;对内存做了处理。目前已完成直播列表和直播间的搭建&#xff0c;后续还会慢慢完善。 项目地址 publishImageAndVideoAnsRecord&#xff08;上传者&#xff1a;zlj5…

希尔排序——算法系列

希尔排序&#xff1a; 插入排序的升级版&#xff0c;主要采用了分组的策略&#xff0c;采用逐渐减小步长来控制分组的大小&#xff0c;各组内采用插入排序&#xff0c;当步长减小为1的时候&#xff0c;大部分数据都已经有序&#xff0c;所以较插入排序优化了许多。 代码&#x…

android 请求方式有哪些,Android中的几种网络请求方式详解

Android应用经常会和服务器端交互&#xff0c;这就需要手机客户端发送网络请求&#xff0c;下面整理四种常用网络请求方式。java.net包中的HttpURLConnection类Get方式&#xff1a;// Get方式请求public static void requestByGet() throws Exception {String path "http…

Sqlserver的触发器的简单使用

1&#xff0c;触发器有两种 &#xff08;1&#xff09;After触发器&#xff08;之后触发&#xff09; 触发器有个好处&#xff1a;就是你之前有过什么操作他会将你的操作的数据信息完整的保存下来&#xff0c;比如你删过什么信息&#xff0c;如果用触发器&#xff0c;那么删除后…

网络协议OSI、TCP/IP协议、Socket套接字和第三方AsyncSock的使用等解析

一、网络协议定义 1.OSI参考模型:全称(Open System Interconnection), 开放式系统互联参考模型。是一个逻辑上的定义&#xff0c;一个规范&#xff0c;它把网络协议从逻辑上分为七层&#xff0c;只要目的是为解决异种网络互连时所遇到的兼容性问题&#xff0c;其最主要的功能是…

Win8之快速关机

还在纠结如何关机吗&#xff1f;现在教你几招 1、 AltF4快捷键&#xff0c;Windows桌面下按AltF4即可弹出关机菜单&#xff08;保证无任何程序处于被选中状态&#xff0c;可以点击任务栏最右侧 来回到桌面&#xff0c;这时就没问题了&#xff09; 现在怎么关机就不用教了吧。 2…

多键开关 android8.0,手机桌面多键开关(SwitchPro Widget )

7键开关SwitchPro Widget 是款主屏幕窗口小部件工具&#xff0c;可用于开启/关闭多种系统功能&#xff0c;支持多种自定义设置&#xff0c;比原生的电量控制开关好用很多。7键开关SwitchPro Widget并非只有7个按键开关&#xff0c;而是有很多的意思&#xff0c;最多可以设置十几…

程序员取悦女票的正确姿势---Tip1(iOS美容篇)

前言 女孩子都喜欢用美图工具进行图片美容&#xff0c;近来无事时&#xff0c;特意为某人写了个自定义图片滤镜生成器&#xff0c;安装到手机即可完成自定义滤镜渲染照片。app独一无二&#xff0c;虽简亦繁。 JH定律&#xff1a; 魔镜&#xff1a;最漂亮的女人是你老婆 魔镜&am…

MySQL的安装配置(win7 64-bit)

MySQL的安装配置(win7 64-bit) 转&#xff0c;整理。 MySQL 版本是 mysql-noinstall-5.1.66-winx64.zip&#xff08;免安装版&#xff09; mysql-workbench-gpl-5.2.44-win32.msi mysql-connector-java-5.1.22 mysql 配置数据库编码为utf-8&#xff08;my.ini中指定&#xff09…

Sourse Insight使用教程及常见的问题解决办法

1、下载安装 2、创建项目new project(注意不是file-->new ),而是project-->new project,输入项目名称和密码. 3、添加文件&#xff0c;其实就是将你的整个项目文件添加到project中。 4、close就可以打开了。 具体参考道客巴巴一篇文章&#xff1a;Source_Insight教程及技…

android surface 平板,Surface平板能升级安卓4.0吗

Surface平板电脑暂时不能升级安卓4.0。Surface平板电脑x86架构的版本搭载了英特尔Core i5 Ivy Bridge双核处理器&#xff0c;而ARM架构的版本搭载了Nvidia代工的ARM单核处理器。Surface平板电脑采用镁合金机身&#xff0c;具有x86和ARM架构两个版本&#xff0c;x86架构的版本屏…

iOS - 实现映客首页 TabBar 和滑动隐藏 NavBar 和 TabBar

原文链接&#xff1a;http://www.jianshu.com/p/72228667cd7a之前在做直播的时候&#xff0c;参照了映客 App&#xff0c;发现其首页的效果还挺不错&#xff0c;在网上找了一下相关仿映客 App 代码和博客&#xff0c;大部分都是说如何播放直播流和推流&#xff0c;对于 UI 这块…

WinCE项目应用之车载导航

WinCE车载导航系统是我过去几年投入精力比较多的一个项目。我的主要工作内容是BSP的移植、硬件模块的调试和WinCE系统的深度定制。如TDA7415驱动、TDA7415均衡器、慧翰车载蓝牙模块、华为EM730的3G通信模块、四线电阻式触摸屏驱动的优化、3G拨号助手、LCD调试助手、WIFI模块AR6…

记录下,我们平时开发当中不得不知道的HTTP状态码

上面是我对博客园页面加载的时候&#xff0c;获取的AJAX读取资源的截图。 上述列表告诉我们了&#xff0c;返回的HTTP状态码&#xff0c;分为200&#xff08;正常&#xff09;&#xff0c;304&#xff08;不修改&#xff09;和同时返回的资源大小和完成时间等。 这个工具可以很…

rmd文件怎么转换html文件,提取.Rmd文件的html依赖项(包含htmlwidgets)

题我怎样才能创建一个将.Rmd文件(包含htmlwidgets代码)作为输入的函数,并输出一个包含其JavaScript / CSS依赖项的html文件&#xff1f;具体来说,当渲染为html时,临时文件rmarkdown为pandoc的–include-in-header参数生成.细节示例 – myfile.Rmd&#xff1a;This is some text…

教你实现GPUImage【OpenGL渲染原理】

原文出处&#xff1a; 袁峥Seemygo&#xff08;袁峥Seemygo&#xff09; 一、前言 本篇主要讲解GPUImage底层是如何渲染的,GPUImage底层使用的是OPENGL,操控GPU来实现屏幕展示 由于网上OpenGL实战资料特别少&#xff0c;官方文档对一些方法也是解释不清楚&#xff0c;避免广大…

构建之法阅读笔记02

在这次的阅读过程中我了解到了如何给别人提意见&#xff0c;给我最大的启发是乔布斯对其下属提意见的小故事&#xff0c;当其下属把iphone的图标都设计成了矩形的时候&#xff0c;乔布斯建议他把图标设计成带圆角的正方形&#xff0c;而其下属一开始却并没有接受乔的意见&#…

Windows Server 2008 R2 配置笔记,密码设置为任意长度,远程桌面终端连接数的设置...

图片显示不完全时&#xff0c;可在新标签页打开。 Windows Server 2008 R2 配置{ 安装企业版(Enterprise Editon)&#xff0c;因为企业版功能全面&#xff0c;并且比数据中心版更容易配置{ 各版本功能概述在版本概览页面。详细参数对比在版本概览页面右边有链接&…