当前位置: 首页 > 编程日记 > 正文

基于MMSeg算法的中文分词类库

最近在实现基于lucene.net的搜索方案,涉及中文分词,找了很多,最终选择了MMSeg4j,但MMSeg4j只有Java版,在博客园上找到了*王员外*(http://www.cnblogs.com/land/archive/2011/07/19/mmseg4j.html )基于Java版的翻译代码,但它不支持最新的Lucene.Net 3.0.3,于是基于它的代码升级升级到了最新版Lucene.Net (≥ 3.0.3),同时将其中大部分Java风格代码修改为.Net风格,并修正了其中几个小错误。

为了方便大家使用,我把修改后代码放到Github上了,并包含简单示例代码。另外,为了方便使用,制作了NuGet安装包,上传到了NuGet上,使用时,直接NuGet搜索Lucene.Net.Analysis.MMSeg即可。

Git地址

https://github.com/JimLiu/Lucene.Net.Analysis.MMSeg

NuGet地址

https://nuget.org/packages/Lucene.Net.Analysis.MMSeg/

PM> Install-Package Lucene.Net.Analysis.MMSeg

使用

一共三种搜索模式供选择:

SimpleAnalyzer

Analyzer analyzer = new SimpleAnalyzer();

MaxWordAnalyzer

Analyzer analyzer = new MaxWordAnalyzer();

ComplexAnalyzer

Analyzer analyzer = new ComplexAnalyzer();

具体使用方法,请参考代码中的示例和lucene.net的文档

相关文章:

关于git bush 中不能复制黏贴的问题

如果你是一个新手的话,在你使用个git的过程中,你会发现git 竟然不能复制黏贴,这简直是完全不能忍受的事,复制黏贴可以大大的节省了我们敲代码的时间,特别是在github中clone别人的仓库到本地,url地址需要一个…

linux系统proc目录进程信息详解

Proc 文件系统是一个实时的,常驻内存的文件系统,它跟踪进程在你机器上的运行情况和你系统的状态。/proc文件系统是常驻虚拟内存并且维持着操作系统的动态数据。大部分的 /proc文件系统信息被实时更新来与当前操作系统的状态一致。/proc文件系统的内容能被…

AI开源评测基准AI-Rank,为开源建立标准

当前,数字经济已经成为经济发展的活力引擎和促进经济结构转型升级的重要动能,深刻改变着人类的生产生活方式。12月11日,2020中关村大数据日暨数字经济融合创新发展论坛在北京举行。本届中关村大数据日以“开源共享 生态赋能”为主题&#xff…

Linux 汇编语言开发指南

Linux 汇编语言开发指南肖文鹏 (xiaowp263.net), 北京理工大学计算机系硕士研究生本文作者 肖文鹏是北京理工大学计算机系的一名硕士研究生,主要从事操作系统和分布式计算环境的研究,喜爱Linux和Python。你可以通过 xiaowp263.net与他取得联系。 简介&am…

拦截器与filter的区别

在接触拦截器和filter以来,觉得这两者有太多相似之处,都是运用aop的思想处理事情,但是这两者到底有什么区别倒一直很模糊,今天看书的时候,终于看到自己满意的解答了,赶紧记录下来:1.使用范围不同…

湘苗培优 | 从入门到精通

缘起2020年长沙发出软件再出发号召,同时发布了《长沙市软件和信息技术服务业发展三年(2020-2022 年)行动计划》。当软件产业的生态逐渐建立,企业孵化培育的土壤逐渐肥沃,长沙软件产业焕发出前所未有的活力和生机,一大批软件产业项…

HBase scan setBatch和setCaching的区别

2019独角兽企业重金招聘Python工程师标准>>> HBase的查询实现只提供两种方式: 1、按指定RowKey获取唯一一条记录,get方法(org.apache.hadoop.hbase.client.Get) 2、按指定的条件获取一批记录,scan方法&…

3行Python代码就能获取海量数据?

一谈起数据分析,首先想到的就是数据,没有数据,谈何分析。毕竟好的菜肴,没有好的原材料,是很难做的~所以本期小F就给大家分享一个获取数据的方法,只需三行代码就能搞定。「GoPUP」,大…

c语言中int和指针和字符所占字节

Linux下 sizeof(int);int 4字节 sizeof(char);字符1字节 char * p"12345"; sizeof(p);指针占4字节

SCCM 2012 SP1系列(七)分发部署exe软件

2、exe软件分发以skydrive为例,打开SCCM控制台,展开应用程序管理,右键“包”选择“创建包”打开创建包和应用程序向导,填写部署包的相关信息,勾选“此包包含源文件”,然后点击“浏览”选择sykdrive文件位置…

关于勒索病毒的防御

关于勒索病毒的防御Windows的445漏洞与139漏洞由来已久,大面积暴发只是迟早的事情。关于防御方法其实也有很多,早就满地都是了。但是快速、大量、不断网的部署防御却不容易。比如使用端口排除、删除文件与打印共享服务、修改注册表、使用防火墙、以及组策…

linux的根文件系统中的proc文件夹详解

什么是proc文件系统 |linux /proc目录介绍|proc中文手册proc文件系统是一个伪文件系统,它只存在内存当中,而不占用外存空间。它以文件系统的方式为访问系统内核数据的操作提供接口。用户和应用程序可以通过proc得到系统的信息,…

学习C语言必须知道的理论知识(第一章)

计算机语言:人和计算机都能识别的语言。 程序:就是一组计算机能识别和执行的指令叫做程序。 程序设计:从确定任务到得到结果,写出文档的全过程。 机器指令:计算机能直接识别和接受的二进制代码称为机器指令(machine instruction) …

赠书 | 实现病人数据自动分析建模,Python能做的比你想象得更多

者 | 李秋键责编 | 晋兆雨头图 | CSDN下载自视觉中国*文末有赠书福利数据表格整理等作为我们工作学习生活中最为繁琐和无趣的任务之一,消耗掉了我们的大多数时间。而今天我们就将利用Python对病人数据进行建模,并自动生成表单,从而节省了我们…

Java中元组的使用

元组在计算机领域有着特殊的意义,这个名字听起来似乎有些陌生, 平时在写代码也基本没什么应用场景, 然而, 出人意料的是, 元组跟程序设计密切相关, 可能有的同学不知道, 关系数据库中的「纪录」…

「修炼开始」一文带你入门深度学习

来源 | Jack Cui责编 | Carol封图 | CSDN下载自视觉中国前言图解 AI 算法系列教程,不仅仅是涉及深度学习基础知识,还会有强化学习、迁移学习等,再往小了讲就比如拆解目标检测算法,对抗神经网络(GAN)等等。难…

Lucene.net中文分词探究

一、中文分词方式: 中文分词几种常用的方式: A. 单字分词 单字分词,顾名思义,就是按照中文一个字一个字地进行分词。如:我们是中国人,效果:我/们/是/中/国/人。 B. …

httpd服务相关实验

实验环境: CentOS6.8 1、连接测试: 在/etc/httpd/conf/httpd.conf telnet 172.16.252.242 80 GET /index.html HTTP/1.1 Host: 172.16.252.242 # KeepAlive: Whether or not to allow persistent connections (more than # one request per connection).…

WMI使用集锦

1.WMI简介WMI是英文Windows Management Instrumentation的简写,它的功能主要是:访问本地主机的一些信息和服务,可以管理远程计算机(当然你必须要拥有足够的权限),比如:重启,关机&…

基于Ubuntu交叉编译FFmpeg Windows SDK

写在前面 FFmpeg是一个开源且跨平台的音视频解决方案,集采集、转码、流式化为一身,项目的libavcodec编解码模块和libavformat媒体格式模块,支持非常非常丰富的编解码格式和容器封装格式,是做媒体相关开发工作必须要掌握和借鉴的一…

未来2年,程序员如何吊打高学历工程师?服气!

人工智能已成为新时代的风向标,如果你是对人工智能感兴趣的互联网工作者、大学生、研究生并期望在 AI 方向发展,建议你一定要深入学习一下人工智能。因为,未来将是人工智能的时代!为什么会有这个判断呢?第一&#xff0…

元素宽高的获取

elem.clientWidth/Height 获取某个元素可视区的宽高(不包括边框); elem.offsetWidth/Height 获取某个元素的宽高(计算边框); 当元素有padding值时,上面两个方法获取的值都包括padding。 doc…

VC++技术内幕(三)

C*View <- Cview <- CWnd <- Cobject C*View 两个最重要的基类&#xff1a;CView和CWnd,CWnd提供了C*View的”窗口属性”&#xff0c;CView则提供了它和应用程序框架其他部分间的联系。 在视窗内绘图&#xff1a; OnDraw成员函数&#xff1a; 是CView类中的虚成员函数…

用ASP.NET如何读取NT用户名

公司有个最近要开发一个小系统,是采用ASP.NET开发,现在被一难题卡住了. 需实现功能: 用户登录进来后系统自动取得用户名&#xff0c;这样就不用用户再登录了&#xff0c; 方便用户使用&#xff0c;并根据用户名取他的权限. 难点: 现在读NT用户名读不倒. 折腾了大半…

《赛博朋克2077》是捏脸游戏?上科大学生社团开发了一款赛博“滤镜”

作者 | eEhyQx出品 | AI科技大本营现象级大作《赛博朋克2077》终于没有跳票顺利发布了&#xff01;你通关了吗&#xff1f;来自上海科技大学的学生社团GeekPie打造了一款全新的“滤镜”&#xff0c;CyberMe。只需上传一张照片&#xff0c;一秒将你带入夜之城&#xff01;上传一…

vue父组件调用子组件的方法

vue组件与组件通信有如下几种情况&#xff1a; 平行组件父组件与子组件子组件与父组件它们之间通信有几种方法有&#xff1a; props自定义事件vuex今天我们聊一下父组件调用子组件的一种方法 parent.vue <template><div><h1>我是父组件</h1><child …

Ajax无刷新实现图片切换特效

1.页面cs代码usingSystem;usingSystem.Data;usingSystem.Configuration;usingSystem.Web;usingSystem.Web.Security;usingSystem.Web.UI;usingSystem.Web.UI.WebControls;usingSystem.Web.UI.WebControls.WebParts;usingSystem.Web.UI.HtmlControls;usingAjaxPro;publicpartial…

授权管理【学习笔记】《卓有成效的管理者》 第二章 掌握自己的时间

每日一贴,今天的内容关键字为授权管理 比拟《领导力》那本书&#xff0c;德鲁克这本书可操作性更强一些。 管理别人之前&#xff0c;先管理好自己&#xff1b;管理好自己&#xff0c;首先是管理好自己的时光。其实个人时光管理&#xff0c;有专门的书籍&#xff0c;在公司里&am…

再不参与就晚了!!2020年结束前最后一波内测福利!人人有份!

各位程序猿们都下载CSDN官方出品的插件了吧&#xff1f;什么&#xff1f;还有不知道插件是什么的同学&#xff1f;&#xff1f;你错过了太多&#xff01;更酷更高效的浏览器插件&#xff0c;一键万能操作&#xff0c;新标签页极简个性&#xff0c;让你的工作效率UP UP UP&#…

Node.js Express 框架 Express

Express 简介 Express 是一个简洁而灵活的 node.js Web应用框架, 提供了一系列强大特性帮助你创建各种 Web 应用&#xff0c;和丰富的 HTTP 工具。 使用 Express 可以快速地搭建一个完整功能的网站。 Express 框架核心特性&#xff1a; 可以设置中间件来响应 HTTP 请求。 定义…