当前位置: 首页 > 编程日记 > 正文

基于Python, Selenium, Phantomjs无头浏览器访问页面

引言: 在自动化测试以及爬虫领域,无头浏览器的应用场景非常广泛,本文将梳理其中的若干概念和思路,并基于代码示例其中的若干使用技巧。

1. 无头浏览器

通常大家在在打开网页的工具就是浏览器,通过界面上输入网址就可以访问相应的站点内容,这个就是通常所说的基于界面的浏览器。除了这种浏览器之外,还有一种叫做无头浏览器的东西,主要是用作爬虫,用以捕捉Web上的各类数据;这里的无头主要是指没有界面,完全是后台操作,对于网站来说,它以为访问它的就是一个真实的浏览器。

此类的框架包括: Phantomjs为代表,其它还有非常繁多的无头浏览器,大家可以自行了解一下。

2. Phantomjs

以javascript实现的一个无头浏览器,兼容大多数的浏览器标准,本质上是一个javascript的执行引擎和解析器。通过都是以它为底层服务,然后开发第三方其它语言的适配模块,从而打通访问phantomjs的通道, 比如Selenium, ghostdriver.

其官方站点为: http://phantomjs.org,其支持多个平台的使用和部署。

3.  Selenium

其为Web的自动化测试框架,实现了WebDriver的接口,提供了不同平台操作各类浏览器的接口,比如目前主流的: IE, Firefox, Chrome, Opera, Android等各个平台的访问。

其起步阶段目标是满足自动化的需求,但其由于起特性,也可以用于页面的浏览访问,比如基于无头浏览器的数据抓取和捕获。

Selenium提供了多种语言的接口和多个平台/浏览器的支持,常见的有Java, Python, Javascript, Ruby等。

官方站点为:https://github.com/SeleniumHQ/selenium

4.  ghostdriver

根据其官方的描述:Ghost Driver is a pure JavaScript implementation of the WebDriver Wire Protocol for PhantomJS. It's a Remote WebDriver that uses PhantomJS as back-end.

其就是一个简要的WebDriver的实现,基于Javascript语言来实现,方便基于PhantomJS作为后端来通信。

官方地址: https://github.com/detro/ghostdriver

5.  WebDriver

WebDriver是由W3C协会制定的用以描述浏览器行为的一组标准接口,Selenium实现其中部分的接口,大部分的浏览器都是以该标准来作为衡量优劣和完善与否的标准。

W3C的web driver定义: https://www.w3.org/TR/webdriver/

6.  代码示例

让我们通过一段代码来看看如何基于Selenium和PhantomJS来实现自动化访问页面吧:

#from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.support.ui import WebDriverWait # available since 2.4.0
from selenium.webdriver.support import expected_conditions as EC # available since 2.26.0
from selenium.webdriver.phantomjs.webdriver import WebDriver

# Create a new instance of the Firefox driver
driver = WebDriver(executable_path='/opt/phantomjs-2.1.1-linux-x86_64/bin/phantomjs', port=5001)

# go to the google home page
driver.get("http://www.baidu.com")

# the page is ajaxy so the title is originally this:
print(driver.title)

# find the element that's name attribute is q (the google search box)
inputElement = driver.find_element_by_id("kw")

# type in the search
inputElement.send_keys("cheese!")

# submit the form (although google automatically searches now without submitting)
inputElement.submit()

try:
# we have to wait for the page to refresh, the last thing that seems to be updated is the title
WebDriverWait(driver, 10).until(EC.title_contains("cheese!"))

# You should see "cheese! - Google Search"
print(driver.title)
print(driver.get_cookies())

finally:
driver.quit()
  这里基于PhantomJS作为无头浏览器的实现,WebDriver中的executable_path是放置PhantomJS的路径。这里在页面打开之后,输出了title,动态输入了cheese关键词,然后点击回车,最后打出了cookies信息。
7.   API相关信息

Selenium Doc: https://seleniumhq.github.io/selenium/docs/api/py/index.html

Selenium API: https://seleniumhq.github.io/selenium/docs/api/py/api.html

Web Driver API: http://selenium-python.readthedocs.io/api.html

8. 总结

这里有一个概念需要澄清一下, Selenium原始的初衷是做基于浏览器的自动化测试,所以其大部分的功能都是在基于浏览器的访问和接口操作,操作的都是有界面的浏览器;PhantomJS只是其中无界面的浏览器的一个实现而已了。对于不同的WebDriver接口的使用遵循上述的原则。

转载于:https://www.cnblogs.com/zknublx/p/9837796.html

相关文章:

groovy–流程控制

在本篇文章中,我们将介绍逻辑分支,循环,以及如何从if-else以及try-catch代码块中返回值。 if – elseGroovy 支持Java传统的if-else语法: def x false def y falseif ( !x ) {x true }assert x trueif ( x ) {x false } else…

c语言中二进制用什么字母表示方法,看C语言编码转换--------负数的二进制表示方法...

今天在看C语言编码转换时,既然对负数的二进制表示有些遗忘,查了下网上的资料,他们说的是个P!误人子弟!和大家讨论了下,贴出来已备在此遗忘:假设有一个 int类型的数,值为5&#xff0c…

du和df的区别

du,disk usage 是通过搜索文件来计算每个文件的大小然后累加,du能看到的文件只是一些当前存在 的,没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和df,disk free,通过文件系统来快速获取空间大小的信息,当我们删除一个文…

solaris11学习必用工具及ISO

一、软件准备、配置及相关说明1)Oracle VM VirtualBox & Oracle VM VirtualBox Extension Pack  http://www.oracle.com/technetwork/server-storage/virtualbox/downloads/index.html#vbox说明:VirtualBox是Oracle自己的东西,很多考试…

谜题59:什么是差?

下面的程序在计算一个int数组中的元素两两之间的差,将这些差置于一个集合中,然后打印该集合的尺寸大小。那么,这个程序将打印出什么呢? import java.util.*;public class Differences {public static void main(String[ ] args) {…

ceph-osd无法获取osd map导致osd down掉的解决办法

环境:ceph-12.2.1 3节点测试性能集群 60块osd 最近ceph集群中有两个osd在重启之后遇到如下问题,osd获取不到集群osdmap产生coredump: ceph version 12.2.1.06 (3e7492b9ada8bdc9a5cd0feafd42fbca27f9c38e) luminous (stable)1: (()0xa2bf21) [0x7fcd9162…

读书笔记2013第13本:《怎样解题》

《怎样解题》这本书是在看《编程大师访谈录》(中文版第12页)这本书时无意发现的,一个编程大师推荐这本书来指导编程设计,google到这本书后粗略地翻看了一遍,发现是一本教学生如何解数学题的非常有年头的书。随着仔细品…

suse linux登录黑屏,SUSE Linux登录时黑屏解决办法

我采用的virtual pc虚拟机,安装redhat enterprise 4 linux,安装后出现花屏,通过GRUB的单用户模式下修改/etc/X11/xorg.con我采用的virtual pc虚拟机,安装RedHat enterprise 4 linux,安装后出现花屏,通过GRU…

应用构建工具包 Ecere SDK

Ecere SDK是一个跨平台的工具包构建软件应用程序。目前运行在Windows、Linux和Mac OS X(通过X11)。通过 Ecere SDK,可以开发一次应用程序,并将其部署在所有支持的平台上与一个轻量级运行时环境。它引入了eC这个面向对象语言来源于和完全兼容C,性能好也易于使用。一个内置的3d引…

第39-43课 thinkphp5完成商品会员价格功能(后置勾子afterInsert)

目录 功能一:利用后置勾子,处理好商品主键id,会员的价格,再插入member_price表里.要实现的功能:思路:html里控制器里模型里的后置勾子afterInsert()功能二:利用后置勾子,上传图片,批量生成缩略图,再插入goods_photo表里.要实现的功能:控制器里的用调用模型用save()方法保存模型…

codeforces A. Jeff and Digits 解题报告

题目链接:http://codeforces.com/problemset/problem/352/A 题目意思:给定一个只有0或5组成的序列,你要重新编排这个序列(当然你可以不取尽这些数字),使得这个序列尽可能地大,并且能被90除尽。 …

内核方式挂载cephfs

我们内核挂载的前提是:看到centos7.5 中默认内核3.10.0-862.11.6.el7.x86_64的挂载fs执行文件读写性能更优良,所以尝试将3.10.0-862.11.6.el7.x86_64模块中与ceph fs挂载相关的ceph.ko,libceph.ko,dns_resolver.ko,libcrc32c.ko拷贝到自己的设备。 同样要…

汉诺塔怎么加计数次数c语言,C语言计算汉诺塔最小移动步数 (二)

前几天写的:C语言计算汉诺塔最小移动步数(一)当时还不知道用2^n-1这个公式来求解汉诺塔移动步骤。_偶然间在网上发现了这个公式,发现当时写的算法还是比较繁琐的。所以又根据这个公式又写了一个。那篇的实现是两个数组来回赋值,这个是用一个数…

Myeclipse 8.0 +Flash builder 4 plugin 的实现

其实过程非常,简单,但是我之前在网上找了很多资料都说,需要先装 Eclipse 3.5 ,然后安装MyEclipse 8.0的插件到Eclipse,最后再安装Flash builder 的插件,期间还要进行一些文件的复制和转移等,弄得…

DHCP服务搭建

DHCP服务 一、DHCP概述 DHCP(Dynamic Host Configuration Protocol,动态主机配置协议)通常被应用在大型的局域网络环境中,主要作用是集中的管理、分配IP地址,使网络环境中的主机动态的获得IP地址、Gateway地址、DNS服务…

根据c语言数组定义填写下表,C语言程序设计 自测题(三)

{ n;if(n%3!0) continue;k--; }printf("%d,%d/n",k,n);}程序运行后的输出结果是______。A、1,1B、2,2C、3,3D、4,435、以下不能正确定义二维数组的选项是______。A、int a[2][2]{{1},{2}};B、int a[][2]{1,2,3,4};C、int a[2][2]{{1},2,3}D、int a[2][]{{1,2},{3,4}…

linux if 命令判断条件总结

linux if命令 关于文件属性的判断式 -a 如果文件存在 -b 如果文件存在,且该文件是区域设备文件 -c 当file存在并且是字符设备文件时返回真 -d 当pathname存在并且是一个目录时返回真 -e 当pathname指定的文件或目录存在时返回真 -f 当file存在并且是普通文件时返回真…

ppt文本框显示缺字,信息显示不全

1.在文字后面加个空格。2.重新调整文本框大小3.不需要打开ppt,而是在图标上右键属性-摘要,把标题、主题、作者等描述全部清空或改成与本机用户一至即可。因为文本框少子是信息不匹配,就像歌曲在mp3里播放出现的乱码一样。具体能否解决问题&am…

property装饰器

# 需要了解的property的用法 class People:def __init__(self,name):self.__namenamepropertydef name(self):return <name:%s> %self.__namename.setterdef name(self,new_name):if type(new_name) is not str:print(名字必须是str类型)returnself.__namenew_namename.d…

f-fdisk做磁盘分区,起始扇区从2048块开始

文章目录First Sector 起始扇区fdisk工具加分区fdisk删除分区First Sector 起始扇区 默认从第2048块扇区开始是因为,由于EFI的兴起&#xff0c;要给EFI 代码留磁盘最开始的1M空间&#xff0c;即2048*521/(1024*1024)1M With the death of the legacy BIOS (ok, its not quite …

c语言 静态链表插入排序,数据结构C语言版 表插入排序

西门豹治邺奇计数据结构C语言版 表插入排序.txt两个人吵架&#xff0c;先说对不起的人&#xff0c;并不是认输了&#xff0c;并不是原谅了。他只是比对方更珍惜这份感情。/*数据结构C语言版 表插入排序算法10.3 P267-P270编译环境&#xff1a;Dev-C 4.9.9.2日期&#xff1a;201…

C/C++流程图生成器 C转流程图【worldsing笔记】

此版本仅供学习&#xff0c;请大家支持正版软件&#xff01;&#xff01; AutoFlowChart v3.1软件下载&#xff1a; http://url.cn/OUK17C 支持导出&#xff1a;word、visio、图片格式。 例如&#xff1a;main.c #include "stdio.h" void main () {int s ; void f(in…

iOS编码:如何创建gbk编码

原文摘自&#xff1a;http://www.cnblogs.com/kiao295338444/articles/2590031.html 我们知道&#xff0c;使用NSURLConnection的代理方法下载网页&#xff0c;存到一个NSData中&#xff0c; NSMutableData *pageData; [pageData appendData:data]; 如果网页编码是UTF-8的&…

docker获取镜像很慢解决办法

docker pull selenium/hub获取非常慢 可以使用docker中国的官方镜像加速 docker pull registry.docker-cn.com/selenium/hub 官方加速&#xff1a;https://www.docker-cn.com/registry-mirror 转载于:https://www.cnblogs.com/gcgc/p/9845050.html

C语言生成一个随机的九行九列数独,一个随机生成数独的C++程序

下面是编程之家 jb51.cc 通过网络收集整理的代码片段。编程之家小编现在分享给大家&#xff0c;也给大家做个参考。//mySIZE是数独棋盘的边长&#xff0c;棋盘是mySIZE*mySIZE的大小int mySIZE 9;void print(const vector> &num){for (int i 0; i < mySIZE; i){for…

ceph中使用ceph-objectstore-tool将pg从incomplete标记为complete

起始原因是集群中部分osd元数据丢失&#xff0c;导致集群部分pg状态一直为incomplete&#xff0c;从而无法恢复为activateclean 所以同事介绍之前调研得ceph-objectstore-tool工具来做这样一个pg incomplete状态的恢复 普及一下incomplete状态表示&#xff1a;Peering过程中由…

Notification和KVO有什么不同

Notification是推送通知&#xff0c;我们可以建立一个通知中心&#xff0c;存放创建多个通知&#xff0c;在不同的地方在需要的时候push调用和KVO不同的是&#xff0c;KVO是键值观察&#xff0c;只能观察一个值&#xff0c;这就是区别转载于:https://www.cnblogs.com/ccguo/p/3…

Mysql修改设置root密码的命令及方法

2019独角兽企业重金招聘Python工程师标准>>> 方法一&#xff1a;使用SQL语句命令UPDATE 需用到Mysql自带的加密函数PASSWORD(string)&#xff0c;该函数对一个明文密码进行加密&#xff0c;但不能解密。专门用于mysql.user(用户权限表)中设置密码&#xff0c;命令如…

Android开发笔记1.2

1.2.1环境配置 配置Java环境&#xff0c; 在网上搜索一下&#xff0c;这样的教程有很多&#xff0c;我在这里就不做赘述了。 1.2.2开发第一个程序 我个人学习的是用Android Studio开发的&#xff0c;所以需要下载编辑器AndroidStudio。当然在安装过程中&#xff0c;下载的版本…

ceph osd混合部署和普通部署

文章目录混合osd的部署先部署所有的ssd部署hdd普通OSD的部署当OSD被踢出集群但是挂载点还在&#xff0c;为osd添加id验证测试OSD压力Mark osd 为down混合osd的部署 混合osd指的是将osd的db,wal分区放在ssd上同时该ssd剩下的容量也会做osd 先部署所有的ssd 在/etc/ceph.conf中…