当前位置: 首页 > 编程日记 > 正文

2018-3-5(论文——网络中非结构信息的表示与应用)笔记二 (歧义词,未登录词,禁用词)

1.文本的词性标注

词性作为一种语义特征通常:名词  n         动词  v       副词 d    连词  c    形容词 a

通过使用自动标注器,完成文本的标注。

2.歧义词    -----汉字处理


按照偏正结构,汉字通常是形容词在前名词(中心词)在后,所以我们使用的方法通常是使文字和右边的结合看是否是中心词,然后再把左边 的看成修饰词

3.未登录词     

在适用基于字典的算法中,未登录词就是没有被字典收录的词汇

通常的解决方法:

统计各个词汇的频率,并且 设置一个阈值e当超过阈值e的时候就将未登录词,则将其作一个字段切分的依据。


4.禁用此处理:

依据:   分词完成后,会发现文本中有狠多没有用的词汇,这个时候对其进行过滤,从而提高特征词获取的精度以及准确度


5.特征选取:

通过以上的那些步骤我们获得了特征集,而在特征集中的特征并不是每一个都用用,需要进行进一步的筛选,这个过程就就是特征提取

特征提取应当遵循的几个规则:



相关文章:

PBR游戏3D模型合集包 PBR Game 3D-Models Bundle February 2022

PBR游戏3D模型捆绑包2022年2月 大小解压后:6.99G MAX| OBJ | FBX |TEX 模型获取:PBR游戏3D模型合集包 PBR Game 3D-Models Bundle February 2022-云桥网 包括: 500马格南定制左轮手枪 ACV-15 加法机 模拟无线电A16-PRC316 陆军奔驰 巴雷特PRC-2080战术…

python编写用户输入的是q么代码_Python课 #01号作业

为了记录我的Python课,将我的作业发上来,欢迎各位大佬评鉴。如果你有什么更好的想法,请在下方评论或联系我。谢谢! 作业一:向某人打招呼 描述 程序接收用户输入的姓名,然后输出向该姓名问好的文字。 代码&a…

CPU(处理器)、内存、硬盘之间的关系

前面提到了,电脑之父——提出了计算机的五大部件:输入设备、输出设备、存储器、运算器和控制器。我们看一下现在我们电脑的: 键盘鼠标、显示器、机箱、音响等等。这里显示器为比较老的CRT显示器,现在一般都成功了液晶显示器。我们想一下,我们在玩电脑的时候,我们使用键盘鼠标来操作电脑,我们在和其他人QQ聊天的时候,鼠标可以帮我们选中聊天的人,打开聊天窗口,键盘则是负责打字,帮我们输入聊天的内容。我们在操作键盘鼠标的时候,其实都是在告诉电脑来做什么的。我们管键盘和鼠标叫输入设备。向电脑输入数据和信息的设备。

复习笔记之母函数

HDU 1398 Square Coins 题意&#xff1a;给 17 种面值的钱币&#xff0c;分别为&#xff1a;1-4-9-。。。-17^2.问 x&#xff08;x < 300) 能有多少种不同的兑换方式。 思考&#xff1a;略~母函数简单模板题目。事实上还可以用完全背包来做。 1 #include <iostream>2 …

k8s搭建部署(超详细)

Kubernetes是Google 2014年创建管理的,是Google 10多年大规模容器管理技术Borg的开源版本。它是容器集群管理系统,是一个开源的平台,可以实现容器集群的自动化部署、自动扩缩容、维护等功能。快速部署应用快速扩展应用无缝对接新的应用功能节省资源,优化硬件资源的使用可移植: 支持公有云,私有云,混合云,多重云(multi-cloud)可扩展: 模块化, 插件化, 可挂载, 可组合自动化: 自动部署,自动重启,自动复制,自动伸缩/扩展。

通过anaconda2安装python2.7和安装pytorch

①由于官网下载anaconda2太慢&#xff0c;最好去byrbt下载&#xff0c;然后安装就行 ②安装完anaconda2会自动安装了python2.7&#xff08;如终端输入python即进入python模式&#xff09; 但是可能没有设置环境变量&#xff0c;导致conda命令找不到 解决方案&#xff1a;http…

JavaScript服务器端开发基础之Math对象小结

JavaScript提供基础的算术运算符来实现对算术运算的支持&#xff0c;例如加法运算符&#xff0c;减法运算符-&#xff0c;乘法运算符*&#xff0c;除法运算符/和求余运算符%。此外&#xff0c;还支持复杂的算术运算&#xff0c;这是通过作为Math对象的属性定义的函数和常量来实…

2018-3-5 (论文—网络评论中结构化信息处理的应用于研究)笔记三(互信息,信息增益,期望交叉熵,基于词频的方法,CHI统计)

传统的特征提取的方法&#xff1a; 1.互信息量&#xff08;Mutual Information MI&#xff09;&#xff1a;评估零个随机变量相关程度&#xff08;数组额上离散使用了累加&#xff0c;而连续是积分&#xff09; 百度&#xff1a;互信息_百度百科https://baike.baidu.com/item/%…

艺术站-卡通和风格化的HDRI天空

卡通和风格化游戏的新HDRI天空纹理。大小解压后&#xff1a;576M 目前&#xff0c;pack拥有28个独特的HDRI天空变体。每个天空的分辨率为40962048像素。 格式纹理:png&#xff0c;HDR 素材获取&#xff1a;艺术站-卡通和风格化的HDRI天空-云桥网 skybox的各种变体:夜晚、白天、…

Code Forces Bear and Forgotten Tree 3 639B

B. Bear and Forgotten Tree 3 time limit per test2 seconds memory limit per test256 megabytes inputstandard input outputstandard output A tree is a connected undirected graph consisting of n vertices and n - 1 edges. Vertices are numbered 1 throu…

opencv处理dicom图像_图像处理|opencv| 利用opencv把照片变换成素描风格

大家好我是阿猩学长&#xff0c;今天给大家利用图像处理库opencv来把图片转换为素描的风格。其中利用的编程语言为C。话不多说先给大家看看实际的效果图。原图处理后的图片原图效果图下面先给大家介绍一下大概的编程思路&#xff0c;再结合代码给大家分析首先将彩色图转换成灰度…

【实验楼】python简明教程

①终端输入python进入 欣赏完自己的杰作后&#xff0c;按 Ctrl D 输入一个 EOF 字符来退出解释器&#xff0c;你也可以键入 exit() 来退出解释器。 ②vim键盘快捷功能分布 ③这里需要注意如果程序中没有 #!/usr/bin/env python3 的话&#xff0c;应该使用 python3 hellowor…

Class101–如何高效地构建强大的数字绘画

你有没有对一幅画有过很好的想法&#xff0c;但不知道如何开始或努力完成这个过程&#xff1f;这门课的目的是给你工具和理解&#xff0c;帮助你把想法变成现实。 所有你需要知道的基本知识。 本课程将涵盖颜色和光线的基本原理、透视构图以及使你的过程高效可靠的高级技巧。 …

java nextline_Java编程语言基础的9根支柱

Java编程的基础概念包括&#xff1a;数据类型&#xff0c;分支与循环等。1.HelloWorld先从最简单的Java程序开始&#xff1a;public class HelloWorld{ public static void main(String[] args) { System.out.println("HelloWorld")&#xff1b; }}最显眼…

js 验证码 倒计时60秒

<input type"button" id"btn" value"免费获取验证码" /> <script type"text/javascript"> var wait60; function time(o) { if (wait 0) { o.removeAttribute("disabled"); …

JAVA安装全过程

安装JDK 设置环境变量 安装eclipse &#xff08;安装前面需要上VPN 后面再退VPN&#xff09; 一般流程&#xff1a;https://blog.csdn.net/weixin_40922936/article/details/80647371

前端(移动端)开发利器Chrome Developer Tools秘籍(下)

之前有分享到我们可以通过 Command Line API 来提高我们的开发效率。除此之外&#xff0c;还有一些比较有趣的快捷键和调试方法&#xff0c;也能帮助提高大家的生产效率。 几个小事项&#xff1a; 1.文中提到的快捷键 command 在WIN下都是对应Ctrl&#xff1b; 2.当焦点在dev t…

李宏毅机器学习笔记六——Gradient Descent

视频来源&#xff1a; 李宏毅机器学习(2017)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili https://www.bilibili.com/video/av10590361/?p6使用GD的注意事项&#xff1a; &#xff08;1&#xff09;小心的调节Learning rate在因材设计不同的learning rate的时候采用的主要方法&…

UE5废墟破坏游戏场景创建学习教程

为游戏创建毁坏的资产–深入教程课程 了解一个专业的环境艺术家在为游戏创建毁坏的资产时是如何工作的。您将学习正确的资产规划、创建模块化资产、创建损坏的混凝土和柱子、创建损坏的木材/地板、创建碎石堆、模拟碎片等技术&#xff01; 大小解压后&#xff1a;26G 包含项目…

傻瓜式动画制作软件_一个傻瓜版的动画制作软件——万彩动画大师

之前介绍了文字视频的制作软件&#xff0c;但后来发现太单一了&#xff0c;后面又找到了这款动画视频制作软件——万彩动画大师首先来看看软件的首页有很多的模板&#xff0c;还有企业版、教育版、个人版&#xff0c;有很多的选择&#xff0c;有横版的、有竖版的&#xff0c;来…

每个程序员都需要学习 JavaScript 的7个理由

最近在和招聘经理交流现在找一个好的程序员有多难的时候&#xff0c;我渐渐意识到了现在编程语言越来越倾重于JavaScript。Web开发人员尤其如此。所以&#xff0c;如果你是一个程序员&#xff0c;那么你应该去学习JavaScript。 需求 我之所以这样说的主要原因是&#xff0c;随着…

【解决方法】你已从聊天服务器断开,正在尝试重新连接

打开360软件管家搜索断网急救箱修复然后上游戏就好了 360邪恶力量 还真就这么神奇0.0 目测是host文件设置问题

linux 修改home 目录

第一种方法&#xff1a;vi /etc/passwd  找到要修改的用户那几行&#xff0c;修改掉即可。此法很暴力&#xff0c;建议慎用。  /etc/passwd文件格式  登录名&#xff1a;加密口令&#xff1a;数字用户ID:数字组ID:注释字段&#xff1a;起始目录&#xff1a;shell程序  …

2018-3-6论文-网络评论中非结构化信息的应用于研究------(语义矩离)

语义矩离 用来描述特征词之间的语义相似度。 常用的计算方法主要有&#xff1a; 根据同义词词典求2个词语编码的矩离 在文章中使用了哈工大的《同义词词林》扩展版 &#xff08;1&#xff09;每个词有若干个编码&#xff0c;每个编码有5层代码和1位标志位描述…

Blender 3.0基础入门学习教程 Introduction to Blender 3.0

成为Blender通才&#xff0c;通过这个基于项目的循序渐进课程学习所有主题的基础知识。 你会学到什么 教程获取&#xff1a;Blender 3.0基础入门学习教程 Introduction to Blender 3.0-云桥网 模拟一架基本喷气式飞机 雕刻高细节 重组学 展开UV 绘画和阴影 使喷射动画化 制造天…

python开源商城_Leaf - 一个开发友好、功能完备的开源微信商城框架

Leaf - 开源微信商城系统框架Leaf 旨在实现一个对普通用户易用、对开发者友好的 轻型 开源 CMS 框架&#xff1b;Leaf 基于 Python3.5 构建&#xff0c;后端使用 Flask 作为基础框架、mongoengine 进行数据库建模。 我们希望能减少普通用户搭建微信商城的成本&#xff0c;同时为…

Github配置(git+vscode+python+jupyter)

①下载git 打开 git bash 工具的用户名和密码存储 $ git config --global user.name “Your Name” $ git config --global user.email "emailexample.com" $ git config --global credential.helper store 注意&#xff1a;邮箱必须与 GitHub 注册邮箱一致 以后&a…

1.2 - C#语言习惯 - 用运行时常量readonly而不是编译期常量const

C#中有两种类型的常量&#xff1a;编译期常量和运行时常量。二者有着截然不同的行为&#xff0c;使用不当将会带来性能上或正确性上的问题。 这两个问题最好都不要发生&#xff0c;不过若难以同时避免的话&#xff0c;那么一个略微慢一些但能保证正确的程序则要好过一个快速但不…

2018-3-6 (论文—网络评论中非结构信息应用于研究)笔记-----论文中的特征抽取的模型算法

整体的流程 网络评论预处理------------------->>>>>>利用相关性特征得到网络评论特征抽取的模型算法 特征提取算法模型&#xff1a; 论文46 马尔科夫链&#xff08;Markov blanket&#xff09; 具体的意义不懂 特征冗余&#xff…