当前位置: 首页 > 编程日记 > 正文

如何做中文文本的情感分析?

如何做中文文本的情感分析?

这是本学期在大数据哲学与社会科学实验室做的第三次分享了。

第一次分享的是:如何利用“wordcloud+jieba”制作中文词云?

第二次分享的是:如何爬取知乎中问题的回答以及评论的数据?

本次给大家分享两种实现中文文本情感分析的方式,第一种是借助百度AI平台的文本情感分析,第二种是使用snownlp的文本情感分析。

1. 百度AI平台的文本情感分析

使用百度AI平台的文本情感分析主要分为两个步骤,第一步是创建一个账号,第二步是根据SDK调用平台提供的API函数进行情感分析。

第一步:创建账号

首先,我们打开百度AI网站,然后点击控制台。

http://ai.baidu.com/

跳转到登陆界面,输入账号密码后,跳转到管理界面,此时我们点击自然语言处理。进入到自然语言处理应用界面。

然后创建一个应用(如已创建好,就点击管理应用)。

创建好后,进入到应用列表中,记下来AppIDAPI KeySecret Key这三个参数的值。在后面对API进行调用的时候需要用到这三个参数。

第二步:进行文本情感分析

有关百度AI平台的自然语言处理的SDK(Software Development Kit)文档见如下网址:

http://ai.baidu.com/ai-doc/NLP/tk6z52b9z

这份SDK文档,包括了词法分析、词向量表示、词义相似度、短文本相似度、评论观点抽取、情感倾向分析、文章标签、文章分类、文本纠错、中文分词、词性标注、新闻摘要、地址识别等常用NLP功能。有关这些功能的使用,我们后面再来写图文进行详细介绍,下面只介绍情感分析功能。

首先,我们先安装要使用到的库。

pip install baidu-aip

安装好后,我们就可以调用API函数来对包含主观观点信息的文本进行情感极性类别(积极、消极、中性)的判断了,代码如下:

from aip import AipNlp""" 你的 APPID AK SK """
APP_ID = '你的APP_ID'
API_KEY = '你的API_KEY'
SECRET_KEY = '你的SECRET_KEY'client = AipNlp(APP_ID, API_KEY, SECRET_KEY)
text = "王建红真帅"""" 调用情感倾向分析 """
dict = client.sentimentClassify(text)
print(dict)

sentimentClassify(text)函数:用于对文本的情感分析,参数text是进行分析的文本内容(GBK编码),最大2048字节。

它的返回示例:

{'log_id': 5284845474026755873,'text': '王建红真帅','items': [{'positive_prob': 0.999855,   #表示属于积极类别的概率'negative_prob': 0.000144523,  #表示属于消极类别的概率'confidence': 0.999679,   #表示分类的置信度'sentiment': 2     #表示情感极性分类结果}]
}

返回数据参数详情如下:

参数类型说明
textstring输入的文本内容
itemsarray输入的词列表
+sentimentnumber表示情感极性分类结果, 0:负向,1:中性,2:正向
+confidencenumber表示分类的置信度
+positive_probnumber表示属于积极类别的概率
+negative_probnumber表示属于消极类别的概率

【例子】测试一个有关中医的文本

text = u"因为中医自己都不认可自己,你就别为难外人了。中医们嘴上吹嘘自己有多厉害," \u"实际上,他们能当上中医,还得西医给他们体检合格了才能入职。中医理论不能指导中医入职体检," \u"中医术语不能用于中医入职体检报告,甚至中医死了,他的死亡证明也和中医理论与术语没什么关系。" \u"你看中医自己都不用,只能说明中医药是专供中医粉的。"dict = client.sentimentClassify(text)
print(dict['items'])
# [{'positive_prob': 1.76205e-05, 'confidence': 0.999961, 'negative_prob': 0.999982, 'sentiment': 0}]

我们可以发现这段关于中医的描述偏消极('sentiment': 0)。

2. 使用snownlp的文本情感分析

Python有一个第三方库snownlp,它是专门用来处理中文文本内容的库,有中文分词(s.words)、词性标注(s.tags)、情感分析(s.sentiments)、提取关键词(s.keywords())等功能。

首先,我们先安装要使用到的库(安装后可以直接用)。

pip install snownlp

安装好后,我们就可以调用函数来对包含主观观点信息的文本进行情感分析了,它会计算出文本语义接近积极的概率,越接近0情感表现越消极,越接近1情感表现越积极。代码如下:

from snownlp import SnowNLPtext = "王建红真帅"
s = SnowNLP(text)
print(text, s.sentiments)# 王建红真帅 0.868676346818001

【例子】测试一个有关中医的文本

from snownlp import SnowNLPtext = u"因为中医自己都不认可自己,你就别为难外人了。中医们嘴上吹嘘自己有多厉害," \u"实际上,他们能当上中医,还得西医给他们体检合格了才能入职。中医理论不能指导中医入职体检," \u"中医术语不能用于中医入职体检报告,甚至中医死了,他的死亡证明也和中医理论与术语没什么关系。" \u"你看中医自己都不用,只能说明中医药是专供中医粉的。"s = SnowNLP(text)for sentence in s.sentences:print(sentence, SnowNLP(sentence).sentiments)# 因为中医自己都不认可自己 0.816024132542549
# 你就别为难外人了 0.6792294609027675
# 中医们嘴上吹嘘自己有多厉害 0.32479885192764957
# 实际上 0.478723404255319
# 他们能当上中医 0.7191238537063072
# 还得西医给他们体检合格了才能入职 0.2899327459226514
# 中医理论不能指导中医入职体检 0.9719464371262481
# 中医术语不能用于中医入职体检报告 0.9964791023333988
# 甚至中医死了 0.5308849018309401
# 他的死亡证明也和中医理论与术语没什么关系 0.994350435104035
# 你看中医自己都不用 0.6714833680109371
# 只能说明中医药是专供中医粉的 0.9076878772503925print(s.sentiments)
# 0.9999999813523964from snownlp import sentimentsen = sentiment.classify(text)
print(sen)
# 0.9999999813523964

我们看到snownlp的情感分析结果与百度AI的情感分析结果相反。所以,在实际的项目中,需要根据实际的数据重新训练情感分析的模型。

首先,我们看一下snownlp的语料库:

C:\ProgramData\Anaconda3\Lib\site-packages\snownlp

sentiments目录下有5个文件,其中__init__.py是程序,neg.txtpos.txt分别是消极和积极语料库(也就是用来训练的数据集)sentiment.marshal.3sentiment.marshal是训练保存的模型。(python2保存的是sentiment.marshal;python3保存的是sentiment.marshal.3)。

其次,我们看一下__init__.py文件中的代码。

data_path = os.path.join(os.path.dirname(os.path.abspath(__file__)),'sentiment.marshal')class Sentiment(object):def __init__(self):self.classifier = Bayes()  # 使用的是Bayes的模型def save(self, fname, iszip=True):self.classifier.save(fname, iszip)  # 保存最终的模型def load(self, fname=data_path, iszip=True):self.classifier.load(fname, iszip)  # 加载贝叶斯模型# 分词以及去停用词的操作    def handle(self, doc):words = seg.seg(doc)  # 分词words = normal.filter_stop(words)  # 去停用词return words  # 返回分词后的结果def train(self, neg_docs, pos_docs):data = []# 读入负样本for sent in neg_docs:data.append([self.handle(sent), 'neg'])# 读入正样本for sent in pos_docs:data.append([self.handle(sent), 'pos'])# 调用的是Bayes模型的训练方法self.classifier.train(data)def classify(self, sent):# 1、调用sentiment类中的handle方法# 2、调用Bayes类中的classify方法ret, prob = self.classifier.classify(self.handle(sent))  # 调用贝叶斯中的classify方法if ret == 'pos':return probreturn 1 - probclassSentiment(object):classifier = Sentiment()
classifier.load()def train(neg_file, pos_file):neg_docs = codecs.open(neg_file, 'r', 'utf-8').readlines()pos_docs = codecs.open(pos_file, 'r', 'utf-8').readlines()global classifierclassifier = Sentiment()classifier.train(neg_docs, pos_docs)def save(fname, iszip=True):classifier.save(fname, iszip)def load(fname, iszip=True):classifier.load(fname, iszip)def classify(sent):return classifier.classify(sent)

从上述的代码中,classify函数和train函数是两个核心的函数,其中,train函数用于训练一个情感分类器,classify函数用于预测。在这两个函数中,都同时使用到的handle函数,handle函数的主要工作为:对输入文本分词和去停用词。

了解snownlp的语料库以及训练的代码之后,就可以用自己的语料库进行训练了。训练的过程大致分为如下的几个步骤:

  • 准备正负样本,并分别保存,如正样本保存到pos.txt,负样本保存到neg.txt;
  • 利用snownlp训练新的模型;
  • 保存好新的模型;

重新训练情感分析的代码如下:

from snownlp import sentiment# 重新训练模型
sentiment.train('./neg.txt', './pos.txt')
# 保存好新训练的模型
sentiment.save('sentiment.marshal')

训练完成后,可以把sentiment.marshal复制到sentiments目录下替换原来的或者改变读取模型的路径。

# data_path = os.path.join(os.path.dirname(os.path.abspath(__file__)),
#                         'sentiment.marshal')data_path = '这里填入新模型的路径'

经过以上操作,就可以利用新的模型来做情感分析了。

3. 总结

本文介绍了两种对文本进行情感分析的方式,大家可以根据自身喜好来进行选择。百度AI的自然语言处理和snownlp库,不止这一种功能,后面我会写一系列图文来介绍它们的使用方法。

相关文章:

java游戏开发--连连看-让程序运行更稳定、更高效

之六)优化:让程序运行更稳定、更高效 改善游戏的合理性 到目前为止,我们的游戏基本上算是完成了,为了使程序更合理,我们还需要将整个程序从头再理一遍,看看有没有改进的地方。 首先,在变量的…

学java是不是必须要参加java培训班?

学java是不是必须要参加java培训班?java技术对于零基础的同学来说学习起来是比较困难的,所以对于这个问题,小编的回答是当然要参加java培训班进行系统学习,下面来看看到底有没有必要报班学习? 学java是不是必须要参加java培训班?学习Java无…

【青少年编程】黄羽恒:我要背单词

「青少年编程竞赛交流群」已成立(适合6至18周岁的青少年),公众号后台回复【Scratch】或【Python】,即可进入。如果加入了之前的社群不需要重复加入。 微信后台回复“资料下载”可获取以往学习的材料(视频、代码、文档&…

【转载】:最佳注释

原文地址:http://blog.xiqiao.info/2012/08/29/1240 转载于:https://www.cnblogs.com/TianFang/archive/2012/09/05/2672558.html

从 C++ 到 Objective-C

开始一个新的系列《从 C 到 Objective-C》。欢迎感兴趣的童鞋看看。在做完《让你的 Qt 桌面程序看上去更加 native》之后,也会把这个系列搬到这里来吧。不过这是后话了…;-P 地址:http://www.devbean.info PS:话说 wordpress 还是更好用一些……

参加UI设计培训如何高效学习

想要成为一名合格的UI设计师,扎实的基础知识是要到位的,那么如何在短时间内学会UI设计技术呢?那么就要了解高效的学习方法了,下面就为大家详细的介绍一下参加UI设计培训如何高效学习? 参加UI设计培训如何高效学习? 一、1%原则 让自己变得更…

访问级别约束0906

1 访问级别约束子类访问级别不能比父类高 儿子能去的地方老子一定能去方法、属性等暴露的返回值、参数的数据类型不能比方法、属性或者所在类的可访问级别低,因为这些方法、属性要能在高级场合出现,如果用到的类型却不能在这个场合出现就明显不合理了&am…

VSCode环境下配置ESLint 对Vue单文件的检测

本文介绍了在VSCode环境下如何配置eslint进行代码检查,并介绍了如何对.vue单文件进行支持。 ESLint 安装1.在工程根目录下,安装eslint及初始化 $ npm install eslint --save-dev $ ./node_modules/.bin/eslint -- --init //会输出几个问题,指…

【青少年编程】黄羽恒:加减乘除法小测试

「青少年编程竞赛交流群」已成立(适合6至18周岁的青少年),公众号后台回复【Scratch】或【Python】,即可进入。如果加入了之前的社群不需要重复加入。 微信后台回复“资料下载”可获取以往学习的材料(视频、代码、文档&…

Python Cookie HTTP获取cookie并处理

本期Python培训教程是教大家如何进行HTTP获取cookie并处理的方法,希望本期教程能够给大家带来帮助,请看以下详细内容介绍。 Cookie模块同样是Python标准库中的一员,它定义了一些类来解析和创建HTTP 的 cookie头部信息。 一、创建和设置Cookie…

利益驱动 需求驱动 技术驱动 谁才是真正的驱动力?

作java码工也有上段日子了,没有调查,就没有发方权。更何况自已是亲身试了一把,有人说程序员就是二代农民工,我还是比较赞同的,对于刚入道的同仁们来说确实就是个体力活。真就迁扯不到什么高深的算法,虽然在…

【青少年编程】黄羽恒:翻译小工具 -- 利用有道翻译

「青少年编程竞赛交流群」已成立(适合6至18周岁的青少年),公众号后台回复【Scratch】或【Python】,即可进入。如果加入了之前的社群不需要重复加入。 微信后台回复“资料下载”可获取以往学习的材料(视频、代码、文档&…

iframe 自动适应高和宽问题 和 其他Frame操作技巧

< DOCTYPE html PUBLIC -WCDTD XHTML TransitionalEN httpwwwworgTRxhtmlDTDxhtml-transitionaldtd> iframe 自动适应高和宽问题iframe的滚动条很难看&#xff0c;很多时候需要自动调整高和宽 扩展到使页面显示正常。搜索了一下&#xff0c;以下是解决办法&#xff1a;fu…

Python代码编写过程中有哪些重要技巧?

近几年&#xff0c;转行做Python技术岗的人越来越多&#xff0c;大家对于Python的关注越来越高&#xff0c;尤其是工作后&#xff0c;很多人都想知道Python代码编写过程中有哪些重要技巧?小编告诉大家&#xff0c;在编写Python代码过程中&#xff0c;除了在意代码的功能性&…

SpringMVC启动分析

以下分析基于JDK1.8 启动的第一步是执行监听器&#xff0c;这里web.xml中配置了一个监听器org.springframework.web.context.ContextLoaderListener 接下来&#xff0c;看ContextLoaderLisener 在Web应用启动的时候&#xff0c;所有的ServletContextListener会在filter和servle…

Edit Distance

题意是求俩字符串的编辑距离&#xff0c;编辑定义有三种1、插入字符 2、删除字符 3、替换字符。 int minDistance(string word1, string word2) { if (word1.size() 0) return (int)word2.size(); if (word2.size() 0) return (int)word1.size(); int result 0; int *dist …

【青少年编程】黄羽恒:翻译小工具 -- 利用百度翻译

「青少年编程竞赛交流群」已成立&#xff08;适合6至18周岁的青少年&#xff09;&#xff0c;公众号后台回复【Scratch】或【Python】&#xff0c;即可进入。如果加入了之前的社群不需要重复加入。 微信后台回复“资料下载”可获取以往学习的材料&#xff08;视频、代码、文档&…

UI设计师面试时如何介绍自己?

很多人在学会UI设计技术之后&#xff0c;那么接下来就是要进行面试找工作了&#xff0c;那么UI设计师面试时如何介绍自己?有哪些需要注意的呢?来看看下面的详细介绍。 UI设计培训分享&#xff1a;UI设计师面试时如何介绍自己? 一、投其所好 清楚自己的强项后&#xff0c;便可…

Silverlight:SSL教程

在Silverlight与WCF进行通信的过程中,数据安全就成为了一个非常关键的因素,如果不作任何限制,那么数据被抓包篡改等情况都是对系统的潜在威胁.本文主要介绍通过SSL配置WCF进行通信. 对于WCF的安全,主要分为传输/消息安全,在阅读本文时,你需要了解相关的知识,本文不做此部分介绍…

SANBoot安装系统

环境&#xff1a; 硬件&#xff1a;3台DELL R910无盘带2G SD卡 1台DELL MD3820F存储双控 2台光纤交换机 软件&#xff1a;windows server 2012 r2 with cu1 目标&#xff1a;R910服务器的系统从存储划分的lun中sanboot引导启动&#xff0c;并实现光纤双链路高可用&#xff0c;搭…

Datawhale组队学习周报(第012周)

本周&#xff08;05月03日~05月09日&#xff09;&#xff0c;第 24 期组队学习已经全部结营。另外&#xff0c;第 25 期组队学习也与大家见面了。我在这里要感谢所有的航路开辟者&#xff08;课程设计者&#xff09;&#xff0c;以及我们的航海士&#xff08;专业助教&#xff…

适合初学者的java书籍

学习java技术除了报Java培训班还有自学&#xff0c;书本知识一定不能忘了&#xff0c;书本知识带来的价值更直观&#xff0c;也方便记录&#xff0c;下面小编就为大家详细的介绍一下适合初学者的java书籍。 java培训分享适合初学者的java书籍&#xff1a; 1.Head First Java 首…

asp.net中web.config配置节点大全详解

web.config 文件查找规则&#xff1a; (1)如果在当前页面所在目录下存在web.config文件&#xff0c;查看是否存在所要查找的结点名称&#xff0c;如果存在返回结果并停止查找。 (2)如果当前页面所在目录下不存在web.config文件或者web.config文件中不存在该结点名&…

如何使用Python的进度条?

在使用Python处理比较耗时操作的时候&#xff0c;为了便于观察处理进度&#xff0c;就需要通过进度条将处理情况进行可视化展示&#xff0c;以便我们能够及时了解情况。这对于第三方库非常丰富的Python来说&#xff0c;并不是什么难事。 tqdm就能非常完美的支持和解决这个问题…

Python各种包下载地址

地址&#xff1a;https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml转载于:https://www.cnblogs.com/data-magnifier/p/7887072.html

Python中的标识符有哪些基础原则?

很多同学学习Python技术的过程中&#xff0c;会接触一些标识符的知识&#xff0c;这部分也是Python的基础知识&#xff0c;那么Python中的标识符有哪些基础原则?接下来我们一起来看看详细的内容介绍吧&#xff0c;希望对你们有Python培训所帮助&#xff0c;请看下文&#xff1…

[原]three.js 地形纹理混合

地形生成通常使用高度图&#xff0c; 而高度图的生成可以使用绘图工具&#xff0c;或者通过分形算法生成&#xff0c;例如square-diamond, fbm方法。这里采用简单求平均值随机波动的方法。对于一个2^n1 * 2^n1 的网格&#xff0c; 中心点的高度是四角点的平均值加随机偏移&a…

入职五年回顾(八) 2013年3月

今天是正月二十&#xff0c;香港高层们会过来派利是。人人能拿到的是一封二十元的利是&#xff0c;而高达三百元的利是则只有十二封&#xff0c;所以要抽奖。我们在新闻上看到腾讯逗利是的场景&#xff0c;但这也是发生在别人的公司。入职第一年逗利是&#xff0c;我脸皮不够厚…

UI设计的发展前景怎么样?

越来越多的人开始关注UI设计这个行业&#xff0c;有的人认为UI设计在业内发展很好&#xff0c;有的人却觉得工作比较难找&#xff0c;那么到底UI设计的发展前景怎么样呢?来看看下面的详细介绍就知道了。 UI设计的发展前景怎么样?可以从以下几个点出发&#xff1a; 一、偏运营…