spark集群使用hanlp进行分布式分词操作说明
本篇分享一个使用hanlp分词的操作小案例,即在spark集群中使用hanlp完成分布式分词的操作,文章整理自【qq_33872191】的博客,感谢分享!以下为全文:
分两步:
第一步:实现hankcs.hanlp/corpus.io.IIOAdapter
1. public class HadoopFileIoAdapter implements IIOAdapter {
2.
3. @Override
4. public InputStream open(String path) throws IOException {
5. Configuration conf = new Configuration();
6. FileSystem fs = FileSystem.get(URI.create(path), conf);
7. return fs.open(new Path(path));
8. }
9.
10. @Override
11. public OutputStream create(String path) throws IOException {
12. Configuration conf = new Configuration();
13. FileSystem fs = FileSystem.get(URI.create(path), conf);
14. OutputStream out = fs.create(new Path(path));
15. return out;
16. }
17. }
第二步:修改配置文件。root为hdfs上的数据包,把IOAdapter改为咱们上面实现的类
ok,这样你就能在分布式集群上使用hanlp进行分词了。
整个步骤比较简单,欢迎各位大神交流探讨!
转载于:https://blog.51cto.com/13636660/2344881
相关文章:

让VirtualBox的虚拟机器在电脑开机时自动启动
当你安装很多套Virtualbox的虚拟机器系统后,希望能在开机后自动启动虚拟机器的系统。 Linux (Host OS):在你的/etc/rc.local中加入下列几行VBoxVRDP -startvm WinXP & VBoxVRDP -startvm Win2003 & VBoxVRDP -startvm LinuxFC6 & Windows (Host OS): 开…

L1-025 正整数A+B
不确定的点: 1.数据用什么类型输入,如果用字符串类型输入,怎么判断它是不是正整数 2.怎么判断哪部分是A,哪部分是B 解析 c语言’\0’ 意思: 字符常量占一个字节的内存空间。字符串常量占的内存字节数等于字符串中字节…

制作显示欢迎信息的脚本程序
终端程序恐怕是Linux用户使用最为频繁的了。我的Debian系统启动后便是直接进入的终端界面。为了在每次登录时或者是在X视窗环境下打开终端程序时显示一些欢迎信息,比如当前的日期、名人警句等,从而可以增加一些生活情趣,就可以创建一个脚本程…

文章分页浏览(二)
分页的方法: View Code publicstringOutputBySize(stringp_strContent, stringbType) { stringm_strRet ""; intm_intPageSize 500;//文章每页大小 intm_intCurrentPage 1;//设置第一页为初始页 intm_intTotalPage 0; intm_intArticlelengt…
云计算时代,如何选择适合自己的云服务器厂商?
据百科定义,云服务器是一种处理能力可弹性伸缩的计算服务,帮助您快速构建更稳定、安全的应用,降低开发运维的难度和整体IT成本,使您能够更专注于核心业务的创新。云服务器相对传统服务器有些优势:按国内市场上云服务器…
解决mysql建立的数据库名字不能带大写字母
1、在安装目录下,找到 my.ini文件 2、找到 [mysqId]节点 3、在它下面添加 lower_case_table_names2如果设置为0的话,我的Mysql服务不能重启 4、重启Mysql 直接手动重启即可,在服务中,找到Mysql服务,先停止,…

CSS position财产
CSS在position位置信息要素用于表示属性。 有三个起飞值:static, absolute, relative。假设元件不显式配置position财产,该元素默认position 值至static。 1、static:这是表示该元素依照排列和嵌套的顺序和规则应该在的位置,此时设…

通过产品ID得到collection!!!
You can do as following for filtering products id 10 and 12$products->addAttributeToFilter(entity_id, array(in>array(10,12)));当然这种方式的上面,必须用 ->addAttributeToSelect();下面这种方式比较实用的,如果想按照名字排序&#…

jupyter notebook出现cannot import name 'create_prompt_application'问题(Died Kernel)
应该是在安装其它python第三方库时更新了prompt-toolkit版本,降级到下面的版本即可: sudo pip install prompt-toolkit1.0.15 转载于:https://www.cnblogs.com/darklights/p/10302706.html
导入sql时出现Invalid default value for ‘create_time‘报错处理方法
(上图是初始的sql文件的内容) 在开发微信小程序时,需要导入.sql文件,但是最一开始导入的时候没有任何改动进行了导入,报错如下 PS E:\weichatApp\my-project\server> node tools/initdb.js 开始初始化数据库... 准…

Python相关机器学习
Python机器学习库 Python的机器学习库汇总与梳理 机器学习之开源库大总结 转载于:https://www.cnblogs.com/SFMing/p/4590261.html

Django 图片上传upload_to路径指定失效的问题记录
为什么80%的码农都做不了架构师?>>> 初始方法一: 疑虑:model使用upload_to自定义路径方法失效,指定路径也失效。最后以Views中指定MEDIA_URL和MEDIA_ROOT做拼接,并且自行判断并建立文件夹,手动…

javascript tab切换类LixTabs最新版
javascript Tab切换类LixTabs,更新至0.5版: 受snandy的“读jquery”系列的启发,改进了代码,现在调用LixTabs时不用加new了。即可以这样写:var tab Tabs();把原来的参数evt,改成了易理解的event(我的疏忽)总代码量&…
linux虚拟机文件挂载
把U盘中的文件上传到linux虚拟机中,可以采用挂载的方式。 (1)启动虚拟机 (2)把U盘插入电脑中 (3)输入命令 fdisk -l可以查看新的分区 (4) cd /mnt mkdir usb mount /d…

HDU 1757 A Simple Math Problem
Problem Description Lele now is thinking about a simple function f(x).If x < 10 f(x) x.If x > 10 f(x) a0 * f(x-1) a1 * f(x-2) a2 * f(x-3) …… a9 * f(x-10);And ai(0<i<9) can only be 0 or 1 .Now, I will give a0 ~ a9 and two positive intege…

mariadb 内存占用优化
本文由云社区发表 作者:工程师小熊 摘要:我们在使用mariadb的时候发现有时候不能启动起来,在使用过程中mariadb占用的内存很大,在这里学习下mariadb与内存相关的配置项,对mariadb进行调优。 查询最高内存占用 使用以下…

windows程序设计之对话框简介1
这里先介绍下wParam和lParam,对于鼠标而言,LOWORD(wParam)和HIWORD(wParam)代表鼠标位置x,y坐标,对于菜单和控件而言,两者wParam的低字节都是各自的ID,即LOWORD(wParam)都是ID。两者的高字节对菜单而言是0,…

linux虚拟机下安装Tomcat
(1)首先通过挂载的方式把 tomcat的安装包从U盘上传到虚拟机中 我上传的路径是 :usr/tomcat (2) cd /usr/tomcat tar xzvf 压缩包的名字 ##进行解压(3)进到tomcat安装目录下的bin文件夹 ./…

unity中使用自定义shader进行光照贴图烘培无法出现透明度的坑爹问题
最近开发中在对场景进行光照贴图烘焙时发现一个坑爹问题,在使用自定义shader的时候,shader命名中必须包含Transparent路径,否则烘焙的时候不对alpha通道进行计算,烘焙出来都是狗皮膏药 比如一个shader叫 Shader "xx/UnlitAlp…

动软代码生成器教程——懒人有福了
很多时候项目必须是三层架构模式,但是很多繁琐的代码让多数程序员闹心……那有没有一个省时省力的工具快速的帮我们搞定三层架构呢?回答是肯定的,很早之前技术牛人李天平就开发出了这么一款工具,目前该工具还在不断的更新…

unity3d做简单小游戏可以吗?
可以吗?当然。如果是独立开发,主要在美工,这类的游戏程序简单,有些基础就行,美工要做得好可不容易,要是效果要求不高,随便在max拉几个模型吧。unity方面,熟悉一下,如果有…

逻辑覆盖测试(一)语句覆盖
语句覆盖: 设计测试用例时保证程序的每条语句至少执行一次。 简单来说,就是每个语句都覆盖一遍。 例子: 流程图如下: 测试用例如下: x4,z9,第一个if语句执行到了; x4,y7,第二个if语句为true…

「小程序JAVA实战」小程序的视频展示页面初始化(63)
转自:https://idig8.com/2018/09/24/xiaochengxujavashizhanxiaochengxudeshipinzhanshiyemianchushihua62/ 进入列表详情,展示点赞状态用户的名称,头像名称。源码:https://github.com/limingios/wxProgram.git 中No.15和springbo…

.NET判断字符串是否是数值型或xxx型
using System.Text.RegularExpressions; Regex digitregex new Regex("^[0-9]\d*[.]?\d*$"); if (!digitregex.IsMatch(TextBox1.Text)) { TextBox1.Text""; MessageBox.Show("只能输入数字!","提示…

Spring.net使用说明
使用方法:1.在配置文件设置Spring.net 节点在配置节中,声明Spring.net,配置 context,objects 标签,来源(type)<!--配置节:主要用来 配置 asp.net框架之外的 标签,告诉…

逻辑覆盖测试(三)条件覆盖
条件覆盖:设计测试用例时应保证程序中每个复合判定表达式中,每个简单判定条件的取真和取假情况至少执行一次。 例子: 流程图: 测试用例: 程序中一共两个if语句,都是复合判定条件,其中的简单…

Linux UserSpace Back-Door、Rootkit SSH/PAM Backdoor Attack And Defensive Tchnology
catalog 0. 引言 1. Pam后门 2. SSH后门 3. Hijacking SSH 4. Hijacking SSH By Setup A Tunnel Which Allows Multiple Sessions Over The Same SSH Connection Without Re-Authentication 5. Hijacking Active SSH Screen Sessions 0. 引言 0x1: 安全攻防观点 1. Know Your …
澳大利亚多地热浪来袭 最高温度超40摄氏度
中新网1月24日电 据澳洲网报道,近日,澳大利亚多地热浪来袭,其中,南澳和维州的部分地区气温将飙升至40摄氏度以上。维州政府发布声明,提醒民众做好应对高温天气的准备。资料图:当地时间1月21日,澳…

Multithread 之 introduction
Why multithreading?(摘自《win32 多线程程序设计》)单线程程序就像超级市场中唯一的一位出纳,这个出纳对于小量采购可以快速结账。但如果有人采购了一大车货品,结账就需要点时间了,其他每个人都必须等待。多线程程序…

逻辑覆盖测试(四)判定/条件覆盖
判定/条件覆盖:测试用例的设计应满足判定节点的取真和取假分支至少执行一次,且每个简单判定条件的取真和取假情况也至少执行一次。 简单来说,就是判定覆盖和条件覆盖取交集。 例子: 流程图: 当判定覆盖和条件覆盖…