当前位置: 首页 > 编程日记 > 正文

如何利用 C# 爬取带 Token 验证的网站数据?

在对文本数据的情感分析中,基于情感词典的方法是最简单也是最常用的一种了。

它的大体思路如下:

对文档分词,找出文档中的情感词、否定词以及程度副词,然后判断每个情感词之前是否有否定词及程度副词,将它之前的否定词和程度副词划分为一个组,如果有否定词将情感词的情感权值乘以-1,如果有程度副词就乘以程度副词的程度值,最后所有组的得分加起来,大于 0 的归于正向,小于 0 的归于负向。

这两天,学校的一个团队让我帮忙爬取某网站的两份带有权值的情感词典。

第一份是“台湾大学情感词汇库”,有 11086 个带有权值的情感词。

台湾大学情感词汇库

第二份是“萌泰情感词汇库”,有 27466 个带有权值的情感词。

萌泰情感词汇库

分析这个网站,我们发现每一个网络请求都需要携带 Token,即身份认证。

所以,我们需要先通过登陆请求,获取到该用户的 Token,之后的每次请求带上该 Token 才能爬取到该网站的数据。


为了快速完成爬取这两份情感词典的任务,我使用了两套开源代码,RestSharpNewtonsoft.Json

RestSharp

利用该开源代码可以得到网络请求之后的 Json 数据,其下载地址如下:

https://github.com/restsharp/RestSharp

RestSharp

Newtonsoft.Json

利用该开源代码可以对得到的 Json 数据进行反序列化,得到 C# 对应的类,其下载地址如下:

https://github.com/JamesNK/Newtonsoft.Json

Newtonsoft.Json


Newtonsoft.Json 这套开源代码,我在 如何利用 C# 爬取「猫眼电影专业版:票房」数据! 以及 如何做一款「桌面版百度翻译」软件? 中使用过,以前网络请求部分都是通过 HttpWebRequest直接写的,这次偷懒使用了 RestSharp 这套来源代码。

如果大家对这两套开源代码感兴趣,给我留言,我再来写几篇图文介绍它们,下面来看看爬取情感词典的代码。

1. 构造接收 Token 的类 UserInfor

public class Token
{public string token;
}public class UserInfor
{public Token rt_info;
}

2. 得到登陆用户的Token数据。

public string GetToken(string baseUrl,string username,string password)
{string value = "{\"username\":\"" + username + "\",\"password\":\"" + password + "\"}";RestClient client = new RestClient(baseUrl);RestRequest request = new RestRequest(Method.POST);request.AddHeader("cache-control", "no-cache");request.AddHeader("Content-Type", "application/json;charset=UTF-8");request.AddParameter("application/json", value, ParameterType.RequestBody);IRestResponse response = client.Execute(request);StringReader sr = new StringReader(response.Content);JsonTextReader jsonReader = new JsonTextReader(sr);JsonSerializer serializer = new JsonSerializer();UserInfor user = serializer.Deserialize<UserInfor>(jsonReader);return user.rt_info.token;
}

3. 构造接收“情感词典”的类 JsonWord

public class Word
{public string word;public string score;public override string ToString(){return word + "," + score;}
}public class MapInfo
{public List<Word> words;
}public class JsonWord
{public MapInfo rt_mapinfo;
}

4. 得到所需要的情感词典。

public List<Word> GetDictionary(string baseUrl,string token,int dictionaryId)
{string value = "{\"dictionaryId\":" + dictionaryId + ",\"name\":\"\",\"pageNow\":1,\"pageSize\":200000}";RestClient client = new RestClient(baseUrl);RestRequest request = new RestRequest(Method.POST);request.AddHeader("cache-control", "no-cache");request.AddHeader("Content-Type", "application/json");request.AddHeader("Authorization", token);request.AddParameter("application/json",value, ParameterType.RequestBody);IRestResponse response = client.Execute(request);StringReader sr = new StringReader(response.Content);JsonTextReader jsonReader = new JsonTextReader(sr);JsonSerializer serializer = new JsonSerializer();JsonWord r = serializer.Deserialize<JsonWord>(jsonReader);return r.rt_mapinfo.words;
}

5. 输出感情词典。

static void SaveToFile(List<Word> lst)
{string str = string.Empty;for (int i = 0; i < lst.Count; i++){str += lst[i] + "\r\n";}string temp = Environment.GetEnvironmentVariable("TEMP");temp += "\\words.txt";StreamWriter sw = File.CreateText(temp);sw.Write(str);Process.Start(temp);sw.Close();
}

包含 11086 个词汇以及评分的“台湾大学情感词汇”爬取结果如下:

台湾大学情感词汇

包含 27466 个词汇以及评分的“蒙泰感情词汇”爬取结果如下:

蒙泰感情词汇


通过以上的介绍,如何利用 C# 爬取带 Token 验证的网站数据?就介绍完了,如果大家发现所要爬取的网站不能直接得到HTML DOM TREE,这个网站或许就是利用前后端分离技术完成的,如果这样的网站每一次请求都需要带Token,可以尝试使用我今天介绍的方法。好了,今天就到这里吧!See You!

相关文章:

多线程显示运行状态

最近碰见一个例子&#xff0c;Copy大文件或者网络访问的时候处理假死。 那就用多线程加个进度条(只显示运行&#xff0c;没有进度)来表示状态运行吧。好了&#xff0c;废话少说&#xff0c;上个例子。先看结果图&#xff1a; 程序说明&#xff1a; 点击Button&#xff0c;运行…

【Python培训基础知识】单例模式

单例模式是保证一个类仅有一个实例的设计模式。Windows中的任务管理器就是一个典型的单例模式软件。Windows任务管理器如图所示。 Windows任务管理器只能打开一个&#xff0c;即使用户重复打开&#xff0c;也只能获得一个实例&#xff0c;这不同于Word等软件可以打开多个实例。…

Android读写XML(上)

XML 经常用作 Internet 上的一种数据格式&#xff0c;其文件格式想必大家都比较清楚&#xff0c;在这里我结合Android平台&#xff0c;来说明Android SDK提供的读写XML的package。 首先介绍下Android SDK与Java SDK在读写XML文件方面&#xff0c;数据包之间的关系。Android 平台…

Lighttpd1.4.20源代码分析 笔记 状态机之错误处理和连接关闭

这里所说的错误有两种&#xff1a; 1.http协议规定的错误&#xff0c;如404错误。 2.server执行过程中的错误。如write错误。 对于http协议规定的错误&#xff0c;这里的“错误”是针对client的。lighttpd返回相应的错误提示文件之后&#xff0c;相当于顺利的完毕了一次请求&…

资料分享:送你一本《数据结构(C语言版)》电子书!

要想写出可复用、可扩展、易维护、灵活性好的代码&#xff0c;「数据结构」这一关必须要过啊&#xff01; 在数据结构与算法的众多教材中&#xff0c;奉为经典的当属清华大学严蔚敏老师的著作。很多学校也选择这本书作为考研指定教材。 正在学习数据结构与算法这门课程的同学…

零基础学python培训需要学习多久?

Python是一种入门比较简单的编程语言&#xff0c;但是如果是零基础学员&#xff0c;学习起来还是需要时间的&#xff0c;那么零基础学python培训需要学习多久呢?我们来看看小编的详细介绍吧。 零基础学python培训需要学习多久? 现在的培训机构&#xff0c;一般Python的培训时…

拖动无标题窗体

方法一&#xff1a; 当用户点击窗体的时候欺骗系统&#xff0c;用户是点在标题栏上&#xff0c;这样就完成了无标题栏窗体的拖动&#xff0c;实现如下&#xff1a; 在 MESSAGE_HANDLER(WM_NCHITTEST, OnNcHitTest) 这个函数的方法里 &#xff1a; LRESULT CNyWnd::OnNcHitTest(…

如何利用 C# 爬取Gate.io交易所的公告!

对于大部分程序员来说&#xff0c;都希望自己或多或少拥有一些比特币&#xff08;BTC&#xff09;。获取 BTC 的途径除了挖矿计算 Hash 值之外&#xff0c;就是去交易所购买了。 由于 BTC 的价格波动非常剧烈&#xff0c;入手 BTC 的时机就显得尤为关键。在交易所搞活动时入手…

人的原罪、本我和超我

摘自&#xff1a;https://www.zhihu.com/question/31362451/answer/51606300人的原罪的存在&#xff0c;因为人人皆有&#xff0c;所以在潜意识中&#xff0c;形成了对本我的接纳&#xff0c;而神爱世人与宽恕的存在&#xff0c;形成了本我与超我的良性互动。 在这样的关系中&a…

软件测试的准入准出是什么?标准是什么?

测试的准入准出是指什么情况下可以开始当前版本的测试工作&#xff0c;什么情况下可以结束当前版本的测试工作。不同项目、不同公司的测试准入准出标准都会有所不同。下面介绍一些通用的测试准入准出标准。 测试准入标准如下&#xff1a; (1)开发编码结束&#xff0c;开发人员在…

如何利用 C# 爬取 One 持有者返利数据!

去年&#xff0c;10月份写过一篇图文 「One」的投资价值分析&#xff0c;多半年过去了&#xff0c;回头看看当时的判断还是合理的。 投资这种事情需要有自己的策略&#xff0c;更需要理性。任何决策都需要以数据作为判断的基础&#xff0c;哪么是否还继续持有 ONE呢&#xff1f…

04.微博消息的语言检测

04.微博消息的语言检测 郑昀 201010 隶属于《02.数据解析》小节 大意是&#xff0c;封装Google语言检测ajax web service的接口&#xff0c;输入一段话&#xff0c;输出语言种类。这个方法是从RssMeme.com看来的&#xff0c;经测试效果还不错&#xff0c;可用于检测微博客消息的…

CIO时代学院院长姚乐:传统行业遇上大数据 拥抱智能化未来

近几年&#xff0c;互联网行业发展突飞猛进&#xff0c;“大数据”技术瞬间变得炙手可热&#xff0c;当然&#xff0c;对于发展中的大数据技术而言&#xff0c;很多行业都不会错失良机。近日&#xff0c;CIO时代学院院长、中国新一代IT产业推进联盟秘书长姚乐在“2016CIO时代中…

自动化测试的优势和局限性有哪些

自动化测试只是众多测试中的一种&#xff0c;并不比人工测试更高级更先进。和人工测试相比自动化测试有一定的优势和劣势&#xff0c;具体如下。 1.优势 (1)自动化测试具有一致性和重复性的特点&#xff0c;而且测试更客观&#xff0c;提高了软件测试的准确度、精确度和可信任度…

也分享一个存储过程代码生成器 开源

可以通过 FILE>OPTION 修改前缀&#xff0c;作者等信息。。。。。 完全傻瓜式应用&#xff0c;开源&#xff0c;方便进行个性化开发。。。 工具地址&#xff1a;http://spgen.codeplex.com/ Stored Procedure Generator (for SQL Server 2000/2005) 虽然这样写&#xff0c;但…

如何利用 C# 爬取BigOne交易所的公告!

在当今这个时代&#xff0c;投资可以说是每个人都应该学会的一项技能。拥有一些数字货币是程序员的信仰&#xff01;交易所是进入数字货币世界最方便的一扇门&#xff0c;今天我就带着大家爬取 Bigone 交易所的公告数据。 首先&#xff0c;我们来看一下要爬取的页面以及对应的…

如何提升自己的Web前端技术

如何提升自己的Web前端技术?问这个问题的一般都是有一些web基础的同学&#xff0c;还有一部分是自学的web前端技术&#xff0c;对自己目前的能力还比较模糊&#xff0c;下面小编就这个问题为大家做下详细的介绍。 如何提升自己的Web前端技术?在IT行业&#xff0c;任何一种专业…

tomcat 性能设置

Tomcat性能调优&#xff1a; 找到Tomcat根目录下的conf目录&#xff0c;修改server.xml文件的内容。对于这部分的调优&#xff0c;我所了解到的就是无非设置一下Tomcat服务器的最大并发数和Tomcat初始化时创建的线程数的设置&#xff0c;当然还有其他一些性能调优的设置&#x…

SAP的安装后基本设定

SAPLogon登录时候是乱码,设定登陆配置的代码页属性&#xff0c;勾选Unicode off SAP英文系统下中文显示乱码 设定字符集为GB2312 RZ10常用的配置参数rz10 编辑系统参数文件 rdisp/gui_auto_logout & rdisp/keepalive 用于控制闲置时间(秒) login/system_client 用于控制默认…

如何通过 Scratch 教小朋友编程思维?

寒假的时候&#xff0c;我带着自己的小孩学 Scratch&#xff0c;希望通过这种图形化的语言来训练他的编程思维。开学之后&#xff0c;很多事情需要处理&#xff0c;所以拖到现在才写总结。希望对大家有所启发。 在介绍如何做这件事情之前&#xff0c;先介绍一个学习方面的基本…

零基础怎么学习UI设计?有哪些简单的学习方法?

UI设计近几年的就业前景是非常好的&#xff0c;所以很多人都想要学习UI设计&#xff0c;那么零基础怎么学习UI设计?有哪些简单的学习方法?下面小编就给大家做下详细的介绍。 零基础怎么学习UI设计?有哪些简单的学习方法? UI设计行业是很注重技术的&#xff0c;零基础如果直…

让资源管理器不显示最近常用文件夹

右键点任务栏&#xff0c;点“属性”->Startmenu->在Privacy框中&#xff0c;把第二个√ 去掉&#xff0c;如下图所示&#xff1a;

C# 写Windows服务

服务是一个运行在后台的程序&#xff0c;他没有界面&#xff0c;不能交互&#xff0c;只能孤独的独自运行。 在开始->运行->输入services.msc可以打开服务管理器&#xff0c;这里可以查看和管理服务   很多时候都会用到服务&#xff0c;因为服务简化了我们的操作&#…

技术图文:如何利用 C# 爬取 ONE 的交易数据?

投资一个金融产品&#xff0c;最基本的就是拿到这个金融产品的交易数据&#xff0c;对这些数据进行可视化来判断趋势。去年&#xff0c;我在听 李笑来 讲区块链的课程上知道了 BigOne 这个由 INB 投资的交易所&#xff0c;而 ONE 是 BigOne 的平台币&#xff0c;持有 ONE 可享受…

java程序猿必读的学习书籍,良心推荐!

每年都有很多人想要学习java技术&#xff0c;有的是自学&#xff0c;有的是报班学习&#xff0c;但是都免不了要看书籍学习&#xff0c;书籍学习带来的知识更加牢记&#xff0c;也可以随时做笔记&#xff0c;下面小编就为大家推荐java程序猿必读的学习书籍&#xff0c;希望能帮…

Autools学习总结(一)

一、Makefile 简介 在编写C/C程序的时候&#xff0c;我们经常需要编译并运行代码。在程序规模较小的情况下&#xff0c;可以简单地直接调用编译器来完成这项工作。然而&#xff0c;在很多情况下程序往往包括大量的代码文件&#xff0c;手动调用编译器变得麻烦无比。尤其要命的是…

简单的实现IOCP服务器模型

其实已经有很多大佬将原理讲的十分详细了&#xff0c;所以就不花费时间将原理再一次重复讲一遍&#xff0c;有需要的可以自行去查看。 http://blog.csdn.net/beyond_cn/article/details/9336043 这篇文章是我看的&#xff0c;原理介绍十分详细。不过有一些操作感觉比较复杂因此…

资料分享:送你一本《数据结构与算法JavaScript描述》电子书!

数据结构 是掌握计算机编程必须具备的技能。通常情况下&#xff0c;我想掌握一门编程语言所用的方法就是利用这门语言把数据结构中线性表、栈、队列、字符串、动态数字、整数集合、树、图、搜索、排序等涉及的算法全部写一遍。写完之后&#xff0c;基本上就把这门语言搞定了。 …

Python中爬虫框架或模块的区别

Python中爬虫框架或模块的区别&#xff0c;我们在Python的学习过程中&#xff0c;需要不断的总结知识点&#xff0c;这样我们才能进步的更快一些。 (1)爬虫框架或模块 Python自带爬虫模块&#xff1a;urllib、urllib2; 第三方爬虫模块&#xff1a;requests&#xff0c;aiohttp;…

SQL SERVER 2000写存储过程出现列名无效的解决方法

举一个Northwind的例子。DECLARE m_LastName nvarchar(20) DECLARE Sql varchar(256)SET m_LastName Fuller SET Sql SELECT * FROM Employees WHERE LastName char(39) m_LastName char(39) EXEC(Sql) 注意&#xff0c;要加上char(39)就可以了。转载于:https://www.cnblo…