当前位置: 首页 > 编程日记 > 正文

Python爬虫入门教程 54-100 博客园等博客网站自动评论器

爬虫背景

爬虫最核心的问题就是解决重复操作,当一件事情可以重复的进行的时候,就可以用爬虫来解决这个问题,今天要实现的一个基本需求是完成“博客园“ 博客的自动评论,其实原理是非常简单的,提炼一下需求

基本需求

  1. 登录博客园<不实现,登录单独编写博客>
  2. 调用评论接口
  3. 返回请求结果

确定流程之后,基本就是找突破口的环节了

实际的去评论一下,然后不管你用什么抓包工具都可以,只要抓取到你想要的数据,即可

评论API如下

Request URL: https://www.cnblogs.com/mvc/PostComment/Add.aspx
Request Method: POST

POST URL 有了,下面就是参数的问题

我随便找了一个请求的参数

{"blogApp":"wuxiaobin","postId":10510784,"body":"继续研究","parentCommentId":0}

分析参数

blogApp 是博主的用户昵称
postid 是博文的ID
body 评论主体
parentCommentid 看参数命名知道应该是指的回复的那条ID

分析到这里,你就可以开始模拟请求了,一般情况下是不成功的,因为我们没有登录,不过,代码先写起来

观察请求头参数

请求头基本包含一些用户信息,必备部分如下,剩下的就是cookies部分了

origin: https://www.cnblogs.com
referer: https://www.cnblogs.com/
user-agent: Mozilla/5.0 (Windows NT 10.0; WOW64) 
x-requested-with: XMLHttpRequest

编写代码

import requests
import jsonclass CnBlogs(object):def __init__(self):self._url = "https://www.cnblogs.com/mvc/PostComment/Add.aspx"def run(self):params = {"blogApp":"wuxiaobin",  # 博主ID"postId":10510784, # 评论博文的ID"body":"继续研究b",  # 评论内容"parentCommentId":0}headers = {"origin": "https://www.cnblogs.com","referer": "https://www.cnblogs.com/","user-agent": "浏览器UA","x-requested-with": "XMLHttpRequest","cookie":".CNBlogsCookie=重要参数;"}res = requests.post("https://www.cnblogs.com/mvc/PostComment/Add.aspx",data=params,headers=headers)print(json.loads(res.text))if __name__ == '__main__':cnblogs = CnBlogs()cnblogs.run()

重要提示

经过我的测试,发现判断博客园用户是否登录,关键的是cookie 这个在我之前的博客有涉及,2种写法,重点是你如何去获取,一般情况下,手动获取即可

登录采用的是人机识别验证,这个我单独写一篇博文去研究,目前阶段,你手动获取即可

博客园验证码
其他的参数,在加载博客的时候,就可以用网页解析相关的知识解析出来,没有难度

如何你想要做成全自动化的,也可以,只需要控制发帖时间随机,发帖内容随机即可,加上一个时间戳也是一个非常不错的解决方案

发帖成功

测试中一定要解析返回的JSON字符串,确定里面的成功和异常信息

{'IsSuccess': True,'Message': '<div class="comment_my_posted">... ...</div>','Duration': '171'
}

博客园自动评价Over

所有网站的评论原理是相通的,你可以自行研究掘金,CSDN,简书等各种文章类平台,自动评论需要的是大量的用户,动态的IP,其余都不是问题~ 本文章仅供学习,切勿用于恶意用途。

转载于:https://www.cnblogs.com/happymeng/p/10612596.html

相关文章:

T-SQL Convert转换时间类型

关键字: sql 时间 转化 SQL中CONVERT转化函数的用法 格式: CONVERT(data_type,expression[,style]) 说明: 此样式一般在时间类型(datetime,smalldatetime)与字符串类型(nchar,nvarchar,char,varchar) 相互转换的时候才用到. 例子: SELECT CONVERT(varchar(30),getdate(),101) n…

解决Lodop 8443端口找不到CLodopfuncs.js文件问题

问题描述&#xff1a; GET https://localhost:8443/CLodopfuncs.js?nameCLODOP net::ERR_CERT_COMMON_NAME_INVALID 可能原因&#xff1a; https证书问题&#xff0c;通用名称不合法&#xff0c;地址栏访问https://localhost:8443&#xff0c;如下图所示 解决方法&#…

CString工作原理和常见问题分析

关于Cstring 类 版权所有©Stevencaobenq.com2003-11-6转自&#xff1a;http://blog.csdn.net/laiyiling/archive/2004/10/05/125216.aspx 看了很多人写的程序,包括我自己写的一些代码&#xff0c;发现很大的一部分bug是关于MFC类中的CString的错误用法的.出现这种错误的原…

javascript 学习三 语句

1、if 语句 if (condition){ do something else } condition 是条件语句&#xff0c;在这里&#xff0c;condition 可以是任意表达式&#xff0c;但结果不一定就是布尔值&#xff0c;但javascript 会调用 boolean&#xff08;&#xff09; 来把结果转换成布尔值。 2、do-while …

新建本地仓库,同步远程仓场景,出现git branch --set-upstream-to=origin/master master 解决方法...

1.本地创建一个本地仓库 2.关联远程端:git remote add origin gitgithub.com:用户名/远程库名.git3.同步远程仓库到本地git pull这个时候会报错If you wish to set tracking information for this branch you can do so with:git branch --set-upstream-toorigin/<branch>…

Git npm相关命令

Git 相关命令查看用户名和密码配置用户名和密码查看git项目远程地址添加git远程仓库查看提交记录查看已有tag打标签在某次提交记录上打标签推送标签到远程推送单个指定tag到远程推送多个tag到远程2. npm相关命令2.1 设置npm源2.2 查看npm源2.3 npm清缓存查看用户名和密码 $ gi…

2009年上半年网络工程师考试下午试卷参考答案(一)

试题一&#xff08;15分&#xff09;  阅读以下说明&#xff0c;回答问题1至问题4&#xff0c;将解答填入答题纸对应的解答栏内。【说明】某公司有1个总部和2个分部&#xff0c;各个部门都有自己的局域网。该公司申请了4个C类IP地址块202.114.10.0/24~202.114.13.0/24。公司各…

创建Silverlight自定义启动画面

每一款商业的Silverlight项目&#xff0c;为了体现项目个性化&#xff0c;都会有不同的界面设计&#xff0c;项目UI设计的第一步就是创建个性的自定义启动画面&#xff0c;本文将介绍如何创建Silverlight自定义启动画面&#xff0c;也就是经常说的Splash Screen. Silverlight初…

params.success params.success(res.data)

params.success && params.success(res.data)只有success 为真&#xff0c;才执行后边的代码转载于:https://www.cnblogs.com/qq254980080/p/10619413.html

有关 drop delete truncate 问题

drop 可以删除数据库 数据表 数据表中字段 delete 删除数据表中的行 而不删除数据表 可以删除一行&#xff1a; Delete from 表 where 列名称值 或是多行&#xff1a; Delete from 表 truncate 删除数据表中数据 而不删除数据表&#xff1a; truncate table 表 三者的删除速度 …

IDEAWebstorm使用

IDEA&Webstorm使用小记录 插件 1. CodeGlance 在编辑器窗格中嵌入一个类似于Sublime中的代码小地图。使用自定义的颜色进行语法高亮&#xff0c;可以同时处理浅色和深色主题。 2. Free Mybatis plugin 3. MyBatis Log Plugin

如何用JNI技术提高Java的性能详解

阻碍Java获得广泛应用的一个主要因素是Java程序的运行效率。Java是介于解释型和编译型之间的一种语言&#xff0c;同样的程序&#xff0c;如果用编译型语言C来实现&#xff0c;其运行速度一般要比Java快一倍以上。Java具有平台无关性&#xff0c;这使人们在开发企业级应用的时候…

Jquery实战_读书笔记1—选择jQuery

近期公司积极组织我们这些开发人员学习进步&#xff0c;督促我们学习更多的技术来提高自己。为此我选择了jQuery作为我学习的方向&#xff0c;同时我也是想将我的学习心得分享给大家&#xff0c;以后我会不断的更新一系列jQuery方面的学习纪要&#xff0c;帮助大家学习。 对比了…

Python入门(一)数据类型、循环语句

脚本语言类型&#xff1a; 1.编译型语言&#xff1a;写完代码不能执行&#xff0c;需要先编译 eg&#xff1a;c、c、c# 2.解释性语言&#xff1a;不需要编译 直接执行 eg&#xff1a;python、java、php、js、go、ruby 编程工具 pycharm 1.破解方法&a…

ionic项目创建打包签名

1. 环境搭建 1.1 安装Node.js 使用node -v查看Node.js版本 1.2 安装npm 使用npm -v查看npm版本 1.3 安装ionic 使用npm install -g ionic命令&#xff0c;全局安装最新版本的ionic 使用ionic -v查看当前安装的ionic版本 1.4 安装cordova 使用npm install -g cordova命令…

Java 常用对象-Date类和Calender类

2017-11-02 22:29:34 Date类&#xff1a;类 Date 表示特定的瞬间&#xff0c;精确到毫秒。 在 JDK 1.1 之前&#xff0c;类 Date 有两个其他的函数。它允许把日期解释为年、月、日、小时、分钟和秒值。它也允许格式化和解析日期字符串。不过&#xff0c;这些函数的 API 不易于实…

为你的水晶报表装载本地图片

本文为解答该贴所做&#xff1a;http://topic.csdn.net/u/20090524/15/911fd15a-32c6-4be9-9aa1-3ee95365e7e3.html 并没有什么新内容&#xff0c;主要是如何读取本地图片显示在报表中。 如果是CR XI及以上版本&#xff0c;可以用更简便的方法&#xff0c;参考&#xff1a;水晶…

asp.net断点续传技术

断点续传的原理 在了解HTTP断点续传的原理之前&#xff0c;先来说说HTTP协议&#xff0c;HTTP协议是一种基于tcp的简单协议&#xff0c;分为请求和回复两种。请求协议是由客户机(浏览器)向服务器(WEB SERVER)提交请求时发送报文的协议。回复协议是由服务器(web server)&#xf…

Linux安装Nodejs

Linux安装Nodejs 阿里云镜像&#xff1a; https://npm.taobao.org/mirrors/node/ 选择所需版本&#xff0c;进行下载。 我这边下载的是&#xff1a;https://npm.taobao.org/mirrors/node/v8.2.1/node-v8.2.1-linux-x64.tar.gz 环境&#xff1a; linux 7.x 目录结构&#xff08…

jQuery-1.样式篇---选择器

jQuery选择器之id选择器 页面的任何操作都需要节点的支撑&#xff0c;开发者如何快速高效的找到指定的节点也是前端开发中的一个重点。jQuery提供了一系列的选择器帮助开发者达到这一目的&#xff0c;让开发者可以更少的处理复杂选择过程与性能优化&#xff0c;更多专注业务逻辑…

CentOS 7 相关命令

Centos 7 相关命令 查看Linux内核/操作系统/CPU # uname -a查看系统位数是64位还是32位 # getconf LONG_BIT检验java是否安装成功 # java -version查询java的执行路径 # which java打开java环境变量的配置文件 # vi /etc/profile配置java环境变量后重新加载配置文件 …

51cto的初体验

注册该网站也有一段时间了&#xff0c;第一次来到这个网站是在一次无意间搜索某个问题的时候进来的&#xff0c;我有一个习惯&#xff0c;就是每次一遇到不懂的问题就会上网搜&#xff0c;看看大家都是怎么解决的&#xff0c;至少到现在用这种方法&#xff0c;我已经解决了不少…

Codeforces Round #550 (Div. 3)E. Median String

把字符串看作是26进制的数&#xff0c;从后往前翻译&#xff0c;那么就可以把两个串变成对应的26进制的数字&#xff0c;那么只要把两个数加起来除以二就得到中间的串对应的数了&#xff0c;同理再转化回来就行了。但是这样会有一个问题就是串的长度有2e5&#xff0c;26的2e5次…

window.print()前端实现打印功能

方法介绍 window.print()方法用于打印当前窗口的内容。 默认打印页面中body里的所有内容。 调用 print() 方法会产生一个打印预览弹框&#xff0c;让用户可以设置打印配置。 1. 打印方法 1.1 打印当前窗口内容 示例demo如下&#xff1a; <!DOCTYPE html> <html la…

.NET 4.0 Interop新特性ICustomQueryInterface (转载)

.NET 4.0 Interop新特性ICustomQueryInterface 在.NET Framework v4.0发布的新功能中&#xff0c;在名字空间System.Runtime.InteropServices新增加了一个叫做ICustomQueryInterface的Interface, 顾名思义&#xff0c;这个Interface的功能就是使得用户可以自己控制QueryInterf…

HTML5 3D旋转图片相册

H5旋转3D相册&#xff0c;鼠标放置暂停&#xff0c;图片灰度级为0&#xff0c;有放大效果。 该实例运用H5和CSS3动画效果&#xff0c;未用javascript。提高了本人对CSS3 新属性的了解及掌握。 完整代码如下&#xff1a; <!DOCTYPE html> <html lang"en">…

DHTML中style的display和visibility属性

DHTML中style的display和visibility属性 display是隐藏该对象&#xff0c;使该对象不占用页面排版空间。document.all("tr1").style.display"block"document.all("tr1").style.display"none" visibility只是在页面上看不见&#xff0c…

多线程共享全局变量以及锁机制

多线程都是在同一个进程中运行的。因此在进程中的全局变量所有线程都是共享的&#xff0c;这就造成一个问题&#xff0c;因为线程执行的顺序是无序的&#xff0c;有可能会造成数据错误&#xff0c;为了解决这个问题&#xff0c; threading提供了一个lock类&#xff0c;这个类可…

HTML DOM Console对象

在开发过程中对程序进行测试&#xff0c;经常使用浏览器控制台输出相关信息&#xff0c;下面详细介绍console对象的相关方法。 Console 对象 提供了访问浏览器调试模式的信息到控制台 1. console.assert()方法 用法&#xff1a;该方法在第一个参数为 false 的情况下会在控制台…

禁止拖放对象文本被选择

禁止拖放对象文本被选择的方法&#xff1a; 1.ie中设置拖放对象的onselectstart返回false&#xff0c;在ff中设置样式MozUserSelect(css:-moz-user-select)为none。 这种方法只能禁止拖放对象本身被选择。 2. ie:document.selection.empty() ff:window.getSelection().removeAl…