2019独角兽企业重金招聘Python工程师标准>>>
一,插件开发流程:
1,Nutch开发客户端环境搭建
2,plugin的源代码则保存在/src/java/org/apache/nutch/parse/self/
类实现实例:
public class CustomizedIndexingFilter implements IndexingFilter {
3,在nutch/plugin下创建index-self目录
4,在index-self根目录下创建build.xml和plugin.xml
5,nutch/plugin根目录下变更build.xml
6,nutch工程根目录下变更build.xml
7,修改nutch-default.xml
<name>plugin.includes</name>
<value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor|self)|urlnormalizer-(pass|regex|basic)|scoring-opic</value>
二,插件发布流程:
一, 用连接客户端工具Xshell4连接到nutch的linux服务器上
命令:ssh 172.37.0.202 输入用户名,密码建立连接
二,上传新开发的插件到nutch的home目录下的{nutchhome}/src/plugin/下
用rz命令或者直接拖拽进去,注意变更各种配置文件(插件开发流程)
三,配置索引项目到{nutchhome}/conf/schema.xml和solr的发布环境目录的{tomcathome}/webapps/solr/collection1/conf/schema.xml
例:
<!-- fields for self plugin -->
<field name="outlinkkey" type="string" stored="true" indexed="true" required="true"/>
<field name="outlinkvalue" type="string" stored="true" indexed="true" required="true"/>
四,重起tomcat服务
命令:service tomcat6 restart
五,到nutchhome根目录下,重新编译nutch。
>cd /home/apache-nutch-2.2.1/
>ant runtime
六,删除hbase里的webpage及solr服务的data数据源
删除webpage:
>hbase shell
>disable ‘table’
>drop ‘table’
删除data数据源:
>rm -rf /var/lib/tomcat6/webapps/solr/collection1/data
七,nutch重新抓取数据
命令:
crawl /home/apache-nutch-2.2.1/runtime/local/bin/urls 111 http://172.37.0.202:8080/solr/ 1
八,启动solr服务器端察看
http://172.37.0.202:8080/solr/#/collection1/query