当前位置: 首页 > 编程日记 > 正文

芝麻HTTP:Scrapy-Splash的安装

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

Scrapy-Splash是一个Scrapy中支持JavaScript渲染的工具,本节来介绍它的安装方式。

Scrapy-Splash的安装分为两部分。一个是Splash服务的安装,具体是通过Docker,安装之后,会启动一个Splash服务,我们可以通过它的接口来实现JavaScript页面的加载。另外一个是Scrapy-Splash的Python库的安装,安装之后即可在Scrapy中使用Splash服务。

1. 相关链接

  • GitHub:https://github.com/scrapy-plugins/scrapy-splash
  • PyPI:https://pypi.python.org/pypi/scrapy-splash
  • 使用说明:https://github.com/scrapy-plugins/scrapy-splash#configuration
  • Splash官方文档:http://splash.readthedocs.io

2. 安装Splash

Scrapy-Splash会使用Splash的HTTP API进行页面渲染,所以我们需要安装Splash来提供渲染服务。这里通过Docker安装,在这之前请确保已经正确安装好了Docker。

安装命令如下:

docker run -p 8050:8050 scrapinghub/splash

安装完成之后,会有类似的输出结果:

2017-07-03 08:53:28+0000 [-] Log opened.
2017-07-03 08:53:28.447291 [-] Splash version: 3.0
2017-07-03 08:53:28.452698 [-] Qt 5.9.1, PyQt 5.9, WebKit 602.1, sip 4.19.3, Twisted 16.1.1, Lua 5.2
2017-07-03 08:53:28.453120 [-] Python 3.5.2 (default, Nov 17 2016, 17:05:23) [GCC 5.4.0 20160609]
2017-07-03 08:53:28.453676 [-] Open files limit: 1048576
2017-07-03 08:53:28.454258 [-] Can't bump open files limit
2017-07-03 08:53:28.571306 [-] Xvfb is started: ['Xvfb', ':1599197258', '-screen', '0', '1024x768x24', '-nolisten', 'tcp']
QStandardPaths: XDG_RUNTIME_DIR not set, defaulting to '/tmp/runtime-root'
2017-07-03 08:53:29.041973 [-] proxy profiles support is enabled, proxy profiles path: /etc/splash/proxy-profiles
2017-07-03 08:53:29.315445 [-] verbosity=1
2017-07-03 08:53:29.315629 [-] slots=50
2017-07-03 08:53:29.315712 [-] argument_cache_max_entries=500
2017-07-03 08:53:29.316564 [-] Web UI: enabled, Lua: enabled (sandbox: enabled)
2017-07-03 08:53:29.317614 [-] Site starting on 8050
2017-07-03 08:53:29.317801 [-] Starting factory <twisted.web.server.Site object at 0x7ffaa4a98cf8>

这样就证明Splash已经在8050端口上运行了。这时我们打开http://localhost:8050,即可看到Splash的主页,如图1所示。

图1 运行页面

当然,Splash也可以直接安装在远程服务器上。我们在服务器上以守护态运行Splash即可,命令如下:

docker run -d -p 8050:8050 scrapinghub/splash

这里多了-d参数,它代表将Docker容器以守护态运行,这样在中断远程服务器连接后,不会终止Splash服务的运行。

3. Scrapy-Splash的安装

成功安装Splash之后,接下来再来安装其Python库,命令如下:

pip3 install scrapy-splash

命令运行完毕后,就会成功安装好此库,后面会详细介绍它的用法。

转载于:https://my.oschina.net/u/3720876/blog/1620922

相关文章:

用bind架设自己的智能DNS

中国的南北网络问题&#xff0c;是许多做网站的人的心病除了使用双通或者多通机房以外&#xff0c;还可以通过多台镜像服务器的方法来提高用户的访问速度 但是&#xff0c;如果使用的双通机房并不是单IP的&#xff0c;或者使用多台镜像的做法&#xff0c;就会面临多个不同的服务…

漫漫运维路——集群基础知识

集群的基本概念随着计算机科学的发展&#xff0c;对计算机的性能要求越来越高&#xff0c;比如在很多流量比较大的门户网站以及科学实验环境中需要海量计算的环境&#xff0c;这时候就迫切需要后端的服务器性能有提升。而对于提升后端服务器性能所采用的方式有两种&#xff0c;…

数据爆发时代,英特尔携手腾讯构筑全面的数据长城

作者 | 贾凯强 出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09; 5G到来&#xff0c;边缘需求不断&#xff0c;IoT持续爆棚&#xff0c;数据在爆炸式增长。 在数据增长的过程中&#xff0c; 相应的其处理能力也需要增长&#xff0c;CPU等算力核心也在提升&#xff0c;…

python3 _笨方法学Python_日记_DAY3

Day3 习题 13: 参数、解包、变量from sys import argvscript, first, second, third argvprint("The script is called:",script) print("Your first variable is:",first) print("Your second variable is:",second) print("Your third…

动漫风格迁移 AnimeGANv2 ,发布线上运行 Demo

作者 | 神经星星出品 | HyperAI超神经By 超神经内容一览&#xff1a;最强二次元风格迁移模型 AnimeGAN 更新啦&#xff0c;现在可以在线上轻松运行模型&#xff0c;还可以调整风格参数&#xff0c;输出你想要的照片效果。关键词&#xff1a;风格迁移 机器视觉 二次元AnimeGANv2…

linux学习笔记一

常用命令 文件操作命令 cat命令 显示文件内容 复制代码 -b 从1开始对所有非空输出行进行编号 -n 从1开始对所有输出行进行编号 ctrls停止滚屏 ctrlq恢复滚屏 ctrlc终止命令的执行 cat file1 file2同时显示文件file1和file2的内容cat file1 file2 > file3将文件file1和f…

解决SecureCRT中文乱码

由于工作和学习需要在Windows7上使用Securecrt操作Linux&#xff08;Red Hat Enterprise Linux 5&#xff09;。一看汉字是乱码。Google一下。基本上是两个方面考虑解决问题&#xff1a;1、首先是Linux要支持汉字字符集&#xff1a;一般UTF-8。在etc/sysconfig/i18n中把LANG改成…

7000 字精华总结,Pandas/Sklearn 进行机器学习之特征筛选,有效提升模型性能

作者 | 俊欣来源 | 关于数据分析与可视化今天小编来说说如何通过pandas以及sklearn这两个模块来对数据集进行特征筛选&#xff0c;毕竟有时候我们拿到手的数据集是非常庞大的&#xff0c;有着非常多的特征&#xff0c;减少这些特征的数量会带来许多的好处&#xff0c;例如提高预…

徒手撸出一个类Flask微框架(三)根据业务进行路由分组

所谓分组就是按照前缀分布映射如&#xff1a;/product/(\w)/(?P<id>\d # 匹配/product/123123 的前缀比如什么类别&#xff0c;类别下的什么产品 等&#xff0c;用request path进行正则匹配&#xff0c;所以需要用到正则分组分析我们当前代码&#xff0c;只有__…

TCP编程函数和步骤

TCP编程的服务器端一般步骤是1、 创建一个socket&#xff0c;用函数socket()&#xff1b;2、 设置socket属性&#xff0c;用函数setsockopt(); * 可选3、 绑定IP地址、端口等信息到socket上&#xff0c;用函数bind();4、 开启监听&#xff0c;用函数listen()&#xff1b;5、 接…

OSD的主要实现方法和类型(转)

源&#xff1a;OSD的主要实现方法和类型 目前有两种主要的OSD实现方法&#xff1a;外部OSD发生器与视频处理器间的叠加合成;视频处理器内部 支持OSD&#xff0c;直接在视频缓存内部叠加OSD信息。 外部OSD发生器与视频处理器间的叠加合成的实现原理是&#xff1a;由一个MCU内建的…

为什么要研究游戏 AI 呢?

作者 | 叶鑫来源 | DatawhaleAI作为时下计算机算法的超级巨星&#xff0c;在例如CV、NLP、语音、机器人等诸多领域都有广泛的应用。而在游戏领域&#xff0c;AI的应用往往被认为只是把游戏角色拟人化&#xff0c;算法的第一印象也通常是强化学习。但实际当中&#xff0c;AI在游…

oracle 工具:tkprof

https://docs.oracle.com/cd/B10501_01/server.920/a96533/ex_plan.htm http://blog.csdn.net/dba_waterbin/article/details/8010629 oracle sql执行计划怎么看 https://zhidao.baidu.com/question/1178766860347033659.html

Linux环境编程--文件基本操作

Linux 下目录是/这样的 而windows是\怎么记呢&#xff1f;\和w是不是一样的反向&#xff1f;所以Linux的目录就是反的反向&#xff0c;好记了。 一&#xff1a;open函数名称&#xff1a;open目标&#xff1a;打开一个文件。头文件&#xff1a;#include <sys/types.h>#in…

Firefox插件

为什么80%的码农都做不了架构师&#xff1f;>>> 网站优化必备的9个Firefox插件 在网页设计制作中经常使用到的火狐浏览器插件工具&#xff1a; 1. Firebug Firebug是开发人员们钟爱火狐浏览器的一个重要原因&#xff0c;Firebug是火狐浏览器上一个集成式的强大调试…

马斯克公开支持“上班摸鱼”:让工作更愉快!

整理 | 王晓曼出品 | 程序人生 &#xff08;ID&#xff1a;coder _life&#xff09;11月16日&#xff0c;在国美集团批评员工上班摸鱼的通报中&#xff0c;一名员工在网易云音乐上使用了22.5G的流量格外显眼。11月18日&#xff0c;网易云音乐也紧跟热点上线了摸鱼计算器活动&am…

瀚思首发三款产品 推动大数据安全战略布局

安全已成为了当下社会最为关注的几个问题之一&#xff0c;随着大数据时代的来临&#xff0c;如今的安全问题也变得严峻和复杂。近日&#xff0c;HanSight瀚思在北京召开了产品战略暨融资发布会&#xff0c;推出了瀚思用户行为分析系统&#xff08;HanSight UBA&#xff09;、瀚…

Linux环境编程--编辑器基本操作

vim使用 新建文件 #vim hello.c 插入模式 按下I键&#xff0c;底下出现- - 插入- - 换行&#xff1a;按下Enter 删除字符&#xff1a;普通模式下按x 删除整行&#xff1a;按dd 恢复删除&#xff1a;按u 取消命令&#xff1a; CtrlR 对U后果弥补 复制&#xff1a;y y2w复制2个…

2021 IDEA大会开启AI思想盛宴,用“创业精神”做科研

11月22日上午10时许&#xff0c;由深圳市福田区人民政府、深圳市福田区科技创新局和粤港澳大湾区数字经济研究院&#xff08;International Digital Economy Academy, 简称“IDEA”&#xff09;联合举办的2021 IDEA大会在深圳福田开幕。大会以“The World Needs a Few Good IDE…

Android不同分辨率和不同密度适配

官方原文地址&#xff1a;http://developer.android.com/training/multiscreen/screendensities.html 本文主要介绍&#xff1a; 1.dip dp sp 简单用法 2.适配不同分辨率屏幕图片的处理方法 支持不同的密度或分辨率 本课介绍如何通过提供不同的资源和使用的测量分辨率独立单元支…

网络工程师成长日记333-某城市政府项目

网络工程师成长日记333-某城市政府项目 这是我的第333篇原创文章&#xff0c;记录网络工程师行业的点点滴滴&#xff0c;结交IT行业有缘之人 直接上干货&#xff0c;拓扑图&#xff1a; 工程目的&#xff1a;排除故障配置如下&#xff1a;LinWei#show running-configBuilding c…

linux环境编程-- ftok()函数

系统建立IPC通讯&#xff08;如消息队列、共享内存时&#xff09;必须指定一个ID值。通常情况下&#xff0c;该id值通过ftok函数得到。 ftok原型如下&#xff1a; key_t ftok( char * fname, int id )fname就时你指定的文件名(该文件必须是存在而且可以访问的)&#xff0c;id是…

使用 ChatterBot 库制作一个聊天机器人

作者 | 周萝卜来源 | 萝卜大杂烩我们学习一些如何使用 ChatterBot 库在 Python 中创建聊天机器人&#xff0c;该库实现了各种机器学习算法来生成响应对话&#xff0c;还是挺不错的1什么是聊天机器人聊天机器人也称为聊天机器人、机器人、人工代理等&#xff0c;基本上是由人工智…

powerDesign设计随笔

PowerDesigner的Table视图同时显示Code和Name的方法 实现方法&#xff1a;Tools-Display Preference powerDesigner设置 name不自动等于code 从数据库里抽取了数据模型&#xff0c;为了理清思路&#xff0c;需要将name改为中文名称&#xff0c;但是pd自动将name填充为code&…

Apache Kylin在绿城客户画像系统中的实践

前言\\作为国内知名的房地产开发商&#xff0c;绿城经过24年的发展&#xff0c;已为全国25万户、80万人营造了美丽家园&#xff0c;并将以“理想生活综合服务提供商”为目标&#xff0c;持续为客户营造高品质的房产品和生活服务。\\2017年&#xff0c;绿城理想生活集团成立&…

linux环境编程--IPC 之 msg queue

消息队列在UNIX的SystemV版本&#xff0c;AT&T引进了三种新形式的IPC功能&#xff08;消息队列、信号量、以及共享内存&#xff09;。但BSD版本的UNIX使用套接口作为主要的IPC形式。Linux系统同时支持这两个版本。系统调用msgget() 如果希望创建一个新的消息队列&#xff0…

2021 IDEA大会圆满落幕,一文回顾大会精彩看点

11月23日&#xff0c;为期两天的2021 IDEA大会在深圳福田圆满落幕。2021 IDEA大会由深圳市福田区人民政府、深圳市福田区科技创新局和粤港澳大湾区数字经济研究院&#xff08;International Digital Economy Academy&#xff0c;简称“IDEA”&#xff09;联合举办。深圳市科创委…

【转】Android下编译jni库的二种方法(含示例) -- 不错

原文网址&#xff1a;http://blog.sina.com.cn/s/blog_3e3fcadd01011384.html 总结如下&#xff1a;两种方法是&#xff1a;1&#xff09;使用Android源码中的Make系统2&#xff09;使用NDK&#xff08;从NDK r5开始&#xff09;---------------------------------源码要求&…

linux下如何修改系统时间

我们一般使用“date -s”命令来修改系统时间。比如将系统时间设定成2018年2月23日的命令如下。 #date -s 02/23/2018    将系统时间设定成下午11点12分0秒的命令如下。    #date -s 11:12:00    注意&#xff0c;这里说的是系统时间&#xff0c;是linux由操作系统维…

thttpd服务器

1 引言随着微处理器技术、计算机网络技术的进步&#xff0c;基于嵌入式WEB的网络数字视频监控系统逐渐得到了人们的广泛关注。把图像采集、视频压缩和WEB功能集中到一个体积很小的设备内&#xff0c;可以直接连入局域网和Internet&#xff0c;达到即插即用&#xff0c;省掉多种…