当前位置: 首页 > 编程日记 > 正文

HttpClient4.4 登录知乎(详细过程)

引言

HttpClient是java语言下一个支持http协议的客户端编程工具包,它实现了HTTP协议的所有方法,但是不支持JS渲染。我们在做一些小玩意时,有可能需要登录某些网站获取信息,那么HttpClient就是你的好帮手,废话不多说,进入实战。

一 登录的实际意义

在HTTP横行的今天,我们每天都要登录一些网站,那么登录的意义是什么呢?首先要对cookie要有一定了解。cookie是存放在本地的一些小文件,它由服务器发送命令,浏览器在本地读写。当访问某些网站的时候,浏览器会检查是否有所浏览网站的cookie信息,如果有则在发送访问请求的时候携带上这些内容,服务器可以读取到浏览器发送请求中的cookie信息,在回应请求时可以再写cookie信息。cookie信息包括键值,内容,过期时间,所属网站。

说到这里cookie差不多讲完了,那么登录到底是怎么回事?登录就是服务器向你的浏览器写cookie,如果仅仅是在你的计算机上写cookie,那么别有用心的人伪造一个cookie也有机会登录网站,所以服务器会在内存中保留一份相同的信息,这个过程叫做session会话。如果你在网站点击退出按钮,服务器会把内存中的cookie清除掉,同时清除浏览器中有关登录的cookie。知道了这些,我们就可以上手了。

二 找到登录关键cookie

这里我们可以用wireshark来抓包分析一下。打开知乎首页,打开wireshark,开始监听端口,输入用户名和密码,点击登录,查看wireshark抓到的包。截图如下:

201957_832G_1983603.png

202007_dTC6_1983603.png

202024_SEE9_1983603.png

202036_F8AS_1983603.png

第一张图是浏览器post提交数据。

第二张图是提交的信息,包括_xsrf,password,remember_me,email,注意,提交的信息中包括cookie,_xsrf可以从知乎首页中获取

第三张图是服务器返回的信息,注意它的状态是200,说明是成功的

第四章图是服务器返回的数据,注意它有三条cookie设置,以及带有一个登录成功与否的信息

通过上边的步骤我们能知道什么呢?首先,发送登录请求的时候带有的cookie,以及post数据的格式,其次我们能拿到登录用cookie信息(第四张图)。

三 使用HttpClient构造登录信息

HttpClient是怎样模拟浏览器的呢?首先需要建立一个HttpClient,这个HttpClient是用来模拟一个浏览器。其次构造一个post请求,添加post数据信息以及cookie。详细代码如下:

import org.apache.http.*;
import org.apache.http.client.CookieStore;
import org.apache.http.client.config.CookieSpecs;
import org.apache.http.client.config.RequestConfig;
import org.apache.http.client.entity.UrlEncodedFormEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.client.methods.HttpPost;
import org.apache.http.client.protocol.HttpClientContext;
import org.apache.http.config.Lookup;
import org.apache.http.config.RegistryBuilder;
import org.apache.http.cookie.CookieSpecProvider;
import org.apache.http.impl.client.BasicCookieStore;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.impl.cookie.BasicClientCookie;
import org.apache.http.impl.cookie.DefaultCookieSpecProvider;
import org.apache.http.message.BasicNameValuePair;
import org.apache.http.util.EntityUtils;
import java.io.IOException;
import java.util.HashMap;
import java.util.LinkedList;
import java.util.List;
import java.util.Map;/*** Created by gavin on 15-7-23.*/
public class HttpClientTest {public static void main(String[] args){//创建一个HttpClientRequestConfig requestConfig = RequestConfig.custom().setCookieSpec(CookieSpecs.STANDARD_STRICT).build();CloseableHttpClient httpClient = HttpClients.custom().setDefaultRequestConfig(requestConfig).build();try {//创建一个get请求用来接收_xsrf信息HttpGet get = new HttpGet("http://www.zhihu.com/");//获取_xsrfCloseableHttpResponse response = httpClient.execute(get,context);setCookie(response);String responseHtml = EntityUtils.toString(response.getEntity());String xsrfValue = responseHtml.split("<input type=\"hidden\" name=\"_xsrf\" value=\"")[1].split("\"/>")[0];System.out.println("xsrfValue:" + xsrfValue);response.close();//构造post数据List<NameValuePair> valuePairs = new LinkedList<NameValuePair>();valuePairs.add(new BasicNameValuePair("_xsrf", xsrfValue));valuePairs.add(new BasicNameValuePair("email", "xxxx@xxx.com"));valuePairs.add(new BasicNameValuePair("password", "xxxxx"));valuePairs.add(new BasicNameValuePair("remember_me", "true"));UrlEncodedFormEntity entity = new UrlEncodedFormEntity(valuePairs, Consts.UTF_8);//创建一个post请求HttpPost post = new HttpPost("http://www.zhihu.com/login/email");post.setHeader("Cookie", " cap_id=\"YjA5MjE0YzYyNGQ2NDY5NWJhMmFhN2YyY2EwODIwZjQ=|1437610072|e7cc307c0d2fe2ee84fd3ceb7f83d298156e37e0\"; ");//注入post数据post.setEntity(entity);HttpResponse httpResponse = httpClient.execute(post);//打印登录是否成功信息printResponse(httpResponse);//构造一个get请求,用来测试登录cookie是否拿到HttpGet g = new HttpGet("http://www.zhihu.com/question/following");//得到post请求返回的cookie信息String c = setCookie(httpResponse);//将cookie注入到get请求头当中g.setHeader("Cookie",c);CloseableHttpResponse r = httpClient.execute(g);String content = EntityUtils.toString(r.getEntity());System.out.println(content);r.close();} catch (IOException e) {e.printStackTrace();} finally {try {httpClient.close();} catch (IOException e) {e.printStackTrace();}}}public static void printResponse(HttpResponse httpResponse)throws ParseException, IOException {// 获取响应消息实体HttpEntity entity = httpResponse.getEntity();// 响应状态System.out.println("status:" + httpResponse.getStatusLine());System.out.println("headers:");HeaderIterator iterator = httpResponse.headerIterator();while (iterator.hasNext()) {System.out.println("\t" + iterator.next());}// 判断响应实体是否为空if (entity != null) {String responseString = EntityUtils.toString(entity);System.out.println("response length:" + responseString.length());System.out.println("response content:"+ responseString.replace("\r\n", ""));}}public static Map<String,String> cookieMap = new HashMap<String, String>(64);//从响应信息中获取cookiepublic static String setCookie(HttpResponse httpResponse){System.out.println("----setCookieStore");Header headers[] = httpResponse.getHeaders("Set-Cookie");if (headers == null || headers.length==0){System.out.println("----there are no cookies");return null;}String cookie = "";for (int i = 0; i < headers.length; i++) {cookie += headers[i].getValue();if(i != headers.length-1){cookie += ";";}}String cookies[] = cookie.split(";");for (String c : cookies){c = c.trim();if(cookieMap.containsKey(c.split("=")[0])){cookieMap.remove(c.split("=")[0]);}cookieMap.put(c.split("=")[0], c.split("=").length == 1 ? "":(c.split("=").length ==2?c.split("=")[1]:c.split("=",2)[1]));}System.out.println("----setCookieStore success");String cookiesTmp = "";for (String key :cookieMap.keySet()){cookiesTmp +=key+"="+cookieMap.get(key)+";";}return cookiesTmp.substring(0,cookiesTmp.length()-2);}
}

代码的流程是:

  1. 从知乎首页获取xsrf信息。

  1. post请求当中需要cookie信息,但是我们第一步中没有得到cookie,请在浏览器中自行找到cookie添加进去,上边的cookie是我找到的。

  2. 提交post请求,得到登录用cookie

  3. 随便找一个需要登录的子页面,将得到的cookie写入到请求头中,提交请求,查看是否已经登录成功

四 结果验证

204817_CjD5_1983603.png

204817_ziPZ_1983603.png

第一张图显示得到cookie并登录成功

第二张图显示已经进入需要登录的界面

总结

  1. 当我们需要登录一个界面获取信息的时候,我们要知道登录实际上做了什么,那就是读写cookie,post数据。

  2. 获取cookie时,需要从响应头中获取,当服务器发来新的cookie信息时需要及时写入。

  3. 当我们能登录一个网站的时候,如何对其内容进行操作,这里推荐jsoup,良心库,仿jquery操作模式。

更多文章:http://blog.gavinzh.com

相关文章:

vim学习笔记(一)

&#xff1a;vertical sfind 垂直分隔窗口(vsf)&#xff0c;但是两个窗口的内容完全相同。在编辑的时候&#xff0c;内容也完全相同&#xff0c;如果要关闭一个窗口&#xff0c;输入&#xff1a;exit即可&#xff1a;buffers 显示整个缓冲区列表ndG 删除从当前行到指定n行中的…

Retrofit源码研究

2016-05-06 15:35:27 最近抽空研究了一下Retrofit源码&#xff0c;包括API使用、源码结构、使用到的设计模式、SDK的架构设计、作者设计/实现思路等&#xff0c;会形成一系列文章。 以前Retrofit还是1.9的时候&#xff0c;简单的写过一篇文章&#xff0c;简单研究下Retrofit&am…

wpf窗口向左向上_PaperWM:GNOME 下的平铺窗口管理

我使用 Gnome 已有很长时间了&#xff0c;但是我仍然有点想念平铺窗口管理器。六个月前&#xff0c;一个朋友告诉我有关 PaperWM 的消息&#xff0c;它使你可以在 Gnome 中平铺窗口&#xff01;我立即安装了它&#xff0c;并从那时起我一直在使用它。-- Julia Evans(作者)当我开…

Docker的安装、镜像源更换与简单应用

Docker的安装、镜像源更换与简单应用【阅读时间&#xff1a;约20分钟】一、概述二、系统环境&项目介绍1.系统环境2.项目的任务要求三、Docker的安装四、Docker的简单应用1. 运行第一个容器2. Docker基本操作3. MySQL与容器化3.1 拉取MySQL镜像3.2 构建docker镜像3.3 MySQL容…

vim学习笔记(三)

1.vim的配置文件在哪里&#xff1f;在normal模式下输入:echo $VIMVim的主配置文件为vimrc文件&#xff0c;它分为两个版本&#xff1a;global和personal&#xff0c;其中前者一般在/usr/share/vim/vimrc&#xff0c;后者一般在~/.vimrc,它是一个隐藏文件找到home目录的方法:ech…

python 学术_Python

前几天实验室一个师兄给我一个质谱结果&#xff0c;让帮忙做下go的功能富集&#xff0c;数据格式大概是这样的&#xff1a;由于之前做go和kegg时都是跑流程&#xff0c;像这种针对性的go富集还没做过&#xff0c;说到底&#xff0c;还是由于自己手上缺少数据&#xff0c;没有属…

Hive的Security配置

为了更好地使用好Hive&#xff0c;我将《Programming Hive》的Security章节取出来&#xff0c;翻译了一下。 Hive还是支持相当多的权限管理功能&#xff0c;满足一般数据仓库的使用。 Hive由一个默认的设置来配置新建文件的默认权限。 Xml代码 <property> <name>…

Docker安装Apache与运行简单的web服务——httpd helloworld

Docker运行简单的web服务——httpd helloworld目录【阅读时间&#xff1a;约5分钟】一、Docker简介二、Docker的安装与配置【CentOS环境】三、Docker运行简单的web服务——httpd helloworld四、References一、Docker简介 Docker 是一个开源的应用容器引擎&#xff0c;让开发者…

在CentOS 6.2上搭建vim开发环境

在CentOS 6.2上搭建vim开发环境最后更新日期&#xff1a;2013-07-051.首先使用Ubuntu&#xff08;所在ip为192.168.16.230&#xff09;翻墙登陆http://www.vim.org/&#xff0c;下载其上面的vim相关插件到Ubuntu的下载目录下&#xff1a;cd ~/下载/http://ctags.sourceforge.ne…

python基础(三元运算+深浅拷贝+函数参数)

三元运算 三元运算&#xff0c;又称三目运算&#xff0c;主要作用是减少代码量&#xff0c;是对简单的条件语句的缩写。 1 书写格式&#xff1a; 2 result 值1 if 条件 else 值2 3 即如果条件成立&#xff0c;则将值1赋给result变量&#xff0c;如果不成立&#xff0c;将值2赋…

pythonapi是什么_python接口自动化(一)--什么是接口、接口优势、类型(详解)...

简介经常听别人说接口测试&#xff0c;接口测试自动化&#xff0c;但是你对接口&#xff0c;有多少了解和认识&#xff0c;知道什么是接口吗&#xff1f;它是用来做什么的&#xff0c;测试时候要注意什么&#xff1f;坦白的说&#xff0c;笔者之前也不是很清楚。接下来先看一下…

【阶段小结】协同开发——这学期的Git使用小结

【阶段小结】协同开发——这学期的Git使用小结一、Git简介1. Git简单介绍2. Git工作流程以及各个区域3. Git文件状态变化二、Git安装&Git基本配置三、个人踩坑1. xcode project“抽风式”问题2. 如何拯救git仓库一、Git简介 1. Git简单介绍 Git是一个分布式版本控制软件&…

PHP函数printf()、sprintf()的用法

printf()函数优点在于可以格式化输出 格式: %[padding_character][-][width][.precision]type 所有的转换说明都是以%开始,如果想打印一个%符号,必须用%% &#xff1b; 参数“padding_character”是可选&#xff0c;它将被用来填充变量直至所指定的宽度&#xff0c;该参数的作用…

20150411--Dede二次开发-01

20150411--Dede二次开发-01 目录 一、目前市场流行的电子商城系统 1 二、ecshop的介绍 1 三、安装 2 四、echsop 的目录结构 5 五、分析ecshop里面程序的架构 5 六、小试牛刀把面包屑导航改成两个大于号 6 1、根据php页面找出该页面对应的模板。 6 2、找到category.dwt模板文件…

修改cpu型号重启不变_猫头鹰展示D系列新款140毫米CPU散热器:更大散热片,能压400瓦...

猫头鹰一直以超强的CPU风冷散热器在电脑配件市场闻名遐迩&#xff0c;在台北电脑展期间&#xff0c;除了展出了概念性的无风扇CPU散热器&#xff0c;还宣布了发布D系列新款CPU散热器的计划。新的未命名的散热器相比与目前的NH-D15和NH-D15S型号要多一根热管&#xff0c;性能进一…

管理虚拟机的艺术——有备无患

随心前言&#xff1a;求求你们多多给虚拟机做一下备份~~ 超前预告&#xff1a;下一次分享一下linux/window to go的小玩意&#xff08;把系统安装到U盘&#xff0c;即插即用&#xff09; 接下来的博客尝试一下用随笔的形式&#xff0c;来写写自己感兴趣的一些玩意&#xff0c;比…

coreseek最大检索数只有1000的问题!

在 测试中发现&#xff0c;综艺视频只能看33页&#xff0c;每页10条&#xff0c;始终不得其解。经仔细分析&#xff0c;是csft.conf中的配置&#xff0c;下面修改说明如下&#xff1a;先将csft.conf中的searchd部分&#xff0c;将1000默认值改为10000max_matches 10000然后在调…

iframe怎么用_怎么样减少无效URL的爬行和索引

少年老成的云晨守望同学(题外话&#xff1a;少年老成是好事哈。我20多岁时人家说我像40岁&#xff0c;我40多岁时好多人说我像30多&#xff0c;男人20到50岁可以做到基本一个样子)在网络营销实战密码网站贴了个帖子&#xff1a;《透过京东商城看国内一线B2C网站SEO通病》。建议…

502 Server dropped connection

在本地电脑上开启了&#xff0c;全局VPN代理后&#xff0c;出现 502 报错。 502 Server dropped connection The following error occurred while trying to access http://localhost/invo/:502 Server dropped connection. 出现这种情况的原因是&#xff0c;vpn 链接挂了&…

【OpenCV】在Linux上使用OpenCvSharp

OpenCvSharp是一个OpenCV的 .Net wrapper,应用最新的OpenCV库开发,使用习惯比EmguCV更接近原始的OpenCV,该库采用LGPL发行,对商业应用友好。

DNS轮询解析是什么?

在其最简单的实现中,轮回DNS的工作方式是,不仅用一个潜在的IP地址来响应DNS请求,而且用一个潜在的IP地址列表来响应承载相同服务的几个服务器。传统的负载均衡技术通常需要专门的硬件或软件,但DNS轮询解析是一种负载分配、负载平衡或容错技术,通过管理域名系统(DNS)对来自客户计算机的地址请求的响应,按照适当的统计模型,提供多个冗余的互联网协议服务主机,将流量分散到多个服务器上。因此,虽然轮询DNS是一种简单有效的负载平衡方法,但它也存在一些限制和潜在的问题,需要根据实际情况进行选择和使用。

自建WIN10 FTP无法访问的解决方法

由于博主使用的是校园网&#xff0c;具体NAS方案比较复杂&#xff0c;主体上是用KodCloudWin10自带FTP&#xff0c;最近发现好像自带的FTP搭建不了。 废话不多说&#xff0c;说说解决方案&#xff1a; ①首先看看防火墙设置&#xff0c;用同一局域网下的主机ping一下测试是否能…

weiss数据结构和算法书的使用说明

《数据结构与算法分析 C语言描述》Mark Allen Weiss著&#xff0c;冯舜玺译&#xff0c;机械工业出版社。Weiss教授的经典教材三部曲之一&#xff0c;其中的C语言描述版本&#xff0c;也就是本书&#xff0c;被称为20世纪最重要的30本计算机教材之一。Mark Allen Weiss&#xf…

Bootstrap 栅格系统 理解与总结

Bootstrap 栅格系统 学习总结 Bootstrap框架是如今最流行的前端框架之一&#xff0c;Bootstrap功能强大&#xff0c;简单易学&#xff0c;很符合实际应用场景。 只是Bootstrap的内容较多&#xff0c;新手往往不能很快的熟练运用Bootstrap。 这里&#xff0c;我就对Bootstrap中非…

java抛出自定义异常_10 个深恶痛绝的 Java 异常。。

异常是 Java 程序中经常遇到的问题&#xff0c;我想每一个 Java 程序员都讨厌异常&#xff0c;一 个异常就是一个 BUG&#xff0c;就要花很多时间来定位异常问题。什么是异常及异常的分类请看这篇文章&#xff1a;一张图搞清楚 Java 异常机制。今天&#xff0c;栈长来列一下 Ja…

mac删除键很慢

关闭辅助功能-慢速键 重复延迟、等待调到最低

不相交集类以及应用迷宫生成

简单介绍&#xff1a; 考虑一个迷宫的生成&#xff0c;一个简单算法就是从各处的墙壁开始&#xff08;除入口和出口之外&#xff09;。此时&#xff0c;不断地随机选择一面墙&#xff0c;如果被该墙分割的单元彼此不联通&#xff0c;那么就把这面墙拆掉。重复这个过程直到开始单…

Ajax 完整教程

转载&#xff1a;http://www.cnblogs.com/Garden-blog/archive/2011/03/11/1981778.html Ajax 完整教程第 1 页 Ajax 简介Ajax 由 HTML、JavaScript™ 技术、DHTML 和 DOM 组成&#xff0c;这一杰出的方法可以将笨拙的 Web 界面转化成交互性的 Ajax 应用程序。本文的作者是一位…

python嵩天课后思考题_Python语言程序设计基础(第二版)嵩天等课后习题答案

第一次博文 Time&#xff1a;2018年04月28日 星期六 11:37二次补充 2018年05月02日第一章 程序设计基本方法 P29# 1.1字符串的拼接str1 input("请输入一个人的名字&#xff1a;")str2 input("请输入一个地点&#xff1a;")print("世界这么大&#x…

mac OneNote恢复历史记录

由于mac OneNote是个废物&#xff0c;因此还是得通过网页版OneNote或者win版OneNote来操作 网页端OneNote-对应笔记本页面 然后复制过去就可以恢复了