当前位置: 首页 > 编程日记 > 正文

solrj操作单机solr

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

在目前的生产过程中全文检索技术应用越来越广,其中涌现了一批非常好得开源搜索引擎框架,如solr,elasticsearch等等。其中我工作使用最多的是solr,并在此对之前工作做一个总结。

solr的索引添加:这里我是直接使用solrj对solr进行操作的,基本流程如下:

  一、简单描述

1、对需要建索引的数据库表给一个索引建立与否的标记字段

2、数据库方面使用mybatis + spring 对表进行查询操作,通过分页查询和标记字段判断,查询出数据

3、将查询的数据用solrj 添加到 solr服务之中

4、判断生成索引成功之后将数据库标记更改

二、详细流程

数据库标记字段

185238_8sZt_2851203.png

查询数据库sql:(很简单)

<select id="selectByHaveIndex" resultMap="opinionNewsMapper">
        select * from   where iHaveIndexedOneWord= 0 
        <if test="rows>0">
            limit #{beginIndex},#{rows}
        </if>
    </select>

查询后的数据处理后向solr建立索引

@Overridepublic boolean createIndexList(List<WebChatNews> list, String  tablename) {List<SolrInputDocument> docs = new ArrayList<SolrInputDocument>();for (WebChatNews webChatNews : list) {webChatNews.setTablename(tablename);SolrInputDocument doc = parseWebChatNews(webChatNews);docs.add(doc);}try {solrTermClient.add(docs);UpdateRequest req = new UpdateRequest();req.add(docs);req.setCommitWithin(10000); //这里是设置的批量提交量req.process(solrTermClient);} catch (Exception e) {Logginfo.saveLog(Logginfo.createFile(), "solr.SolrIndexExstablishImpl","createIndexList", "创建索引异常", 1, true); e.printStackTrace();}return true;}@Overridepublic SolrInputDocument parseWebChatNews(WebChatNews webChatNews) {SolrInputDocument doc =  new SolrInputDocument();SpiderBizTable spiderBizTable = webChatNews.getSpiderBizTable();doc.addField("id", webChatNews.getsId());return doc;}

然后成功之后修改数据库标记即可

在创建索引的时候我们需要把数据库的需要建立索引的字段添加solr的SolrInputDocument 的filed字段里面如:

	  SolrInputDocument doc =  new SolrInputDocument();//把新闻中的sId放到id里面doc.addField("id", webChatNews.getsId());
。。。

当然这远远还不够,光这样我们的solr服务器怎么知道去对应这些字段呢,因此我们要去solr的solr_home的conf目录下去配置managed-schema :

<field name="id" type="string" indexed="true" stored="true" required="true" multiValued="false" /> 
。。。以此类推每增加一个索引就要在这里去配置一个field name就是 doc.addField的里面的key<uniqueKey>id</uniqueKey> 这个配置意思把id设置为唯一的主键

sql如下:

<update id="creatIndexBatch" parameterType="QueryList" >
        update tablename set
            iHaveIndex = 1
            where sId in
          <foreach item="item" index="index" collection="array"   
                        open="(" separator="," close=")">  
                       #{item}  
               </foreach>  
    </update>

这样批量修改效率会高很多;以上任务用定时任务去调用即可,定时任务用spring自带的定时任务,然后项目就跑起来了,再通过一些配置和数据库可以对solr的索引进行管理即可。

以上是对solr的增量索引的操作,当然也可以用solr自带的jar包实现增量索引也可以。

solr的更新其实就是添加索引操作,主要是保证索引的主键不变,插入一条索引会自动去更新已有主键的索引。

索引删除:

@Overridepublic boolean deleteAll() {try {solrClient.deleteByQuery("*:*");solrClient.commit();} catch (Exception e) {Logginfo.saveLog(Logginfo.createFile(), "solr.SolrIndexExstablishImpl","deleteAll", "删除索引失败", 1, true); e.printStackTrace();}return true;}@Overridepublic boolean deleteIndexList(List<OpinionNews> list,String tablename) {String keyWords = null;List<String> ids = new ArrayList<>();for (OpinionNews opinionNews : list) {String sId = opinionNews.getsId();ids.add(sId);}keyWords = "tablename:"+tablename ;try {solrClient.deleteById(ids);solrClient.commit();} catch (Exception e) {Logginfo.saveLog(Logginfo.createFile(), "solr.SolrIndexExstablishImpl","deleteIndexList", "批量删除索引失败", 1, true); e.printStackTrace();}return true;}@Overridepublic boolean deleIndexByIds(List<String> ids){try {solrClient.deleteById(ids);solrClient.commit();} catch (Exception e) {e.printStackTrace();}return true;}

每次对数据库的数据操作一次就要对索引进行一次操作,如果要重建索引只需要把索引创建标记改为初始值即可,这要一套自动建立索引的系统就建立好了,查询的操作,solrj也提供了非常全面的api,当然你也可以用http请求去调用solr页面上的接口,方法很多,当然如果要考虑调用的效率,如果是用java去调用最好还是用solrj,效率更高也更好操作。

转载于:https://my.oschina.net/moonroot/blog/1555640

相关文章:

基于微软开源深度学习算法,用 Python 实现图像和视频修复

‍‍作者 | 李秋键编辑 | 夕颜出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;图像修复是计算机视觉领域的一个重要任务&#xff0c;在数字艺术品修复、公安刑侦面部修复等种种实际场景中被广泛应用。图像修复的核心挑战在于为缺失区域合成视觉逼真和语义合理的像素&…

C#实现光盘做启动盘

一 &#xff1a;编程思想 1、创建启动盘 插入要创建的启动盘&#xff0c;程序自动检测光驱中光盘&#xff0c;利用WMI&#xff08;Windows管理架构&#xff1a;Windows Management Instrumentation&#xff09;读取该光盘的序列号&#xff08;具有唯一性&#xff09;&#xf…

为云服务立规矩——首批可信云服务认证名单公布

俗话说&#xff0c;没有规矩不成方圆。在云服务蓬勃发展的今天&#xff0c;无论从规范行业发展&#xff0c;还是为用户提供保障&#xff0c;推动政府云服务采购的角度来说&#xff0c;云服务市场都需要立规矩。7月15日至16日&#xff0c;以“可信中国云&#xff0c;未来新生态”…

Java:多个文档合并输出到一个文档

多个文档合并输出到一个文档 方法&#xff1a;Java NIO package First;import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.nio.channels.FileChannel; import java.nio.channels.WritableByteChannel;public class Test {pu…

线性表之顺序表(C语言实现)

线性表是从数据元素的逻辑结构上定义的. 这种数据元素的逻辑结构的特征如下: 1.除开第一个和最后一个元素之外.所有元素都有一个前驱元素和后继元素. 2.第一个元素无前驱元素,但有后继元素. 3.最后一个元素有前驱元素,单无后继元素. 可以抽象为如下表述: 元素1元素2元素3元素4元…

C# POP3编程

POP3的使用很简单,所以.net没有向SMTP那样给出相应的类来控制. 废话少说,程序员最需要的使代码,:)! 1.打开VS.NET 2003. 2.新建一个WinForm Application. 3.添加命名空间 using System; using System.Drawing; using System.Collections; using System.ComponentModel; usi…

终于有人把 Python 讲清楚了!

Python因为其优越的特性广泛应用于数据分析、人工智能、Web开发、后端开发、自动化测试/运维、爬虫等领域&#xff0c;也得到了很多企业的青睐。甚至连BATZJ的技术大牛&#xff0c;都无可否认Python现在对于一个程序员发展的重要性&#xff01;最近一两年&#xff0c;我身边也有…

ASP.NET Core的配置(5):配置的同步[设计篇]

本节所谓的“配置同步”主要体现在两个方面&#xff1a;其一&#xff0c;如何监控配置源并在其变化的时候自动加载其数据&#xff0c;其目的是让应用中通过Configuration对象承载的配置与配置源的数据同步&#xff1b;其二、当Configuration对象承载的配置放生变换的时候如何向…

C#分析数据库结构,使用XSL模板自动生成代码

<html> <head> <TITLE>分析数据库结构,自动生成代码</TITLE> <meta http-equiv"Content-Type" content"text/html; charsetgb2312"> </head> <frameset cols"237,767" rows"*"> <…

超棒整理 | Python 关键字知识点大放送

作者 | 黄伟呢来源 | 数据分析与统计学之美其实前面我已经为大家总结了《Python系统关键字 “超全总结” 及其 “含义”》。今天呢&#xff0c;我将对每一个关键字列出一个例子&#xff0c;供大家参考学习和记忆。1、and、or、notand、or、not关键字都是逻辑运算符&#xff0c;…

linux下java进程占用高问题分析过程

2019独角兽企业重金招聘Python工程师标准>>> 1.用top命令找出占用cpu高的进程&#xff0c;记录下pid 2.用top -H -p pid(上面的pid)查看该进和下各线程占用cpu的情况&#xff0c;找出占用cpu高的线程pid 3.printf "%x\n" pid(上面线程的pid)打印出对应的十…

AWS - Couldformation 初探

AWS里面&#xff0c;所有的管理界面的功能都可以通过API或者JSON脚本实现&#xff0c;这样的好处是很容易的就和cloudwatch一起实现各种HA和autoscaling的应用。豆子初次使用cloudformation&#xff0c;写了一个简单JSON来创建一个EBS的Volume。我的模板定义的很简单&#xff0…

清华团队让 AI 写诗“更上一层楼”,诗歌图灵测试迷惑近半数玩家

作者 | 黄珊来源 | 数据实战派比特币外挖无穷洞&#xff0c;机神犹未休。卡中窥币影&#xff0c;池里验沙流。屡载吸金主&#xff0c;孤深渍盗求。方知区块链&#xff0c;本是古来游。这首诗歌来自一支清华团队开发的古诗 AI。它的创作才华可不仅限于此。再看下面这首诗&#x…

js中Dom元素及获取方法

DOM基础对象documentdocument.documentElement html部分document.head document.titledocument.body body部分获取元素对象方法document.getElementById(); 通过id找到对象document.getElementsByTagName(); 通过标签名找到对象并放到数组集合中document.getElementsByNam…

JavaBean简单及使用

一、JavaBean简介 JavaBean是使用Java语言开发的一个可重用的组件&#xff0c;在JSP的开发中可以使用JavaBean减少重复代码&#xff0c;使整个JSP代码的开发更简洁。JSP搭配JavaBean来使用&#xff0c;有以下的优点&#xff1a; 1.可将HTML和Java代码分离&#xff0c;这主要是为…

华为发布《AR洞察与应用实践白皮书》,提出用5G点燃AR,用AR照亮5G

[中国&#xff0c;深圳&#xff0c;2021年06月17日] 今日&#xff0c;在华为共赢未来5GAR全球峰会&#xff08;Better World Summit&#xff09;上&#xff0c;华为运营商BG首席营销官蔡孟波&#xff0c;发表了主题演讲《5GAR&#xff0c;让梦想照进现实》&#xff0c;提出用5G…

C#中虚函数,抽象,接口的简单说明

虚函数&#xff1a;由virtual声明&#xff0c;它允许在派生类中被重写&#xff0c;要重写方法&#xff0c;必须先声名为virtual public class myclass { public virtual int myint() { 函数体&#xff1b;} } class myclass1:myclass { public override int myint() { 函数体1&…

【开源】博客园文章编辑器4.0版发布

源起 最近个人时间多起来了&#xff1b; 于是打算持续写一点东西&#xff1b; 前面写了两篇关于riot.js的东西&#xff1b; 被博客园的领导移出首页了&#xff1b; 原因之一是排版不整齐&#xff1b; 确实是不整齐&#xff0c;这我认&#xff0c; 然而&#xff0c;我自己可是博…

C#中Timer组件用法

Timer组件是也是一个WinForm组件了&#xff0c;和其他的WinForm组件的最大区别是:Timer组件是不可见的&#xff0c;而其他大部分的组件都是都是可见的&#xff0c;可以设计的。Timer组件也被封装在名称空间System.Windows.Forms中&#xff0c;其主要作用是当Timer组件启动后&am…

微软全球副总裁洪小文:应对数字化转型挑战,跨界共创正当时

2021年6月16日&#xff0c;以“跨界共创”为主题的第四届微软亚洲研究院创新论坛在北京举办。今年&#xff0c;大会讨论的主题围绕“跨界创新”&#xff0c;数十家来自不同行业的企业代表&#xff0c;与微软亚洲研究院的计算机科学家就跨领域融合创新、共创精神推进数字化转型、…

Away3d 骨骼动画优化

很多朋友说Away3D 的骨骼数限制在32根&#xff0c;确切的说应该是Stage3D 的限制。在 AGAL2.0之前 VC寄存器是128个&#xff0c;每个vc常量寄存器最大只能容纳4位&#xff0c;transform占用一个4*4的矩阵&#xff0c;所以如果把一个transform存进vc里面&#xff0c;需要到4个寄…

postgresql中COPY的用法

一.测试创建表&#xff1a;[postgrescacti ~]$ cat test.sql CREATE TABLE weather ( city varchar(80), temp_lo int, temp_hi int, prcp real,date date);二.导入test.sql文件生成表&#xff1a;testdb01> \i test.sql***(Single step mode: verify command)*************…

C#中虚方法重载

在&#xff23;&#xff03;中&#xff0c;进行虚方法的重载有些体会&#xff0c;现与大家分享。 首先请大家看看下面的例子&#xff0c; using System; abstract public class contact { public virtual string prinf() { return ("这是虚方法"); } } publi…

Unity 4.x游戏开发技巧集锦(内部资料)

2019独角兽企业重金招聘Python工程师标准>>> Unity 4.x游戏开发技巧集锦&#xff08;内部资料&#xff09;淘宝书店地址&#xff1a;http://item.taobao.com/item.htm?spma1z10.3.w4002-6661947338.36.FdOZqM&id40302732808试读样章下载地址&#xff1a;http:/…

百度CTO王海峰阐释AI融合创新,降低门槛,按下产业智能化加速键

6月17-18日&#xff0c;第五届未来网络发展大会在南京隆重开幕。大会由中华人民共和国科学技术部、中国工程院、中国科学技术协会、江苏省人民政府指导&#xff0c;南京市人民政府主办&#xff0c;以“努力成为世界主要科学中心和创新高地的使命担当”为主线&#xff0c;邀请国…

[LeetCode系列]最大连续子列递归求解分析

本文部分参考Discuss: LeetCode. 步骤1. 选择数组的中间元素. 最大子序列有两种可能: 包含此元素/不包含. 步骤2. 步骤2.1 如果最大子序列不包含中间元素, 就对左右子序列进行步骤1. 步骤2.2 如果最大子序列包含, 则结果很简单, 就是左子列的最大后缀子列(即包含左子列最后一个…

C#中的多线程编程

C#是.Net平台的通用开发工具&#xff0c;它能够建造所有的.Net应用。在.Net中所有线程都运行在应用程序域(AppDomain)中&#xff0c;这也许让你想到Win32进程&#xff0c;实际上它们还是有很大的不同。应用程序域提供了一种安全而通用的处理单元&#xff0c;公共语言运行库可使…

关于机器学习,不可不知的15个概念

‍‍作者&#xff1a;布奇昆托&#xff08;Butch Quinto&#xff09;来源&#xff1a;大数据DT&#xff08;ID&#xff1a;hzdashuju&#xff09;有监督学习有监督学习是利用训练数据集进行预测的机器学习任务。有监督学习可以分为分类和回归。回归用于预测“价格”“温度”或“…

常用API(Object、String、StringBuffer、用户登陆注册)

常用API 今日内容介绍 u Object u String u StringBuilder 第1章 Java的API及Object类 在以前的学习过程中&#xff0c;我们都在学习对象基本特征、对象的使用以及对象的关系。接下来我们开始使用对象做事情&#xff0c;那么在使用对象做事情之前&#xff0c;我们要学习一些API…

WMI列出磁盘配额

using System; using System.Management; namespace DiskQuota { /// <summary> /// Class1 的摘要说明。 /// </summary> class Class1 { /// <summary> /// 应用程序的主入口点。 /// </summary> [STAThread] static void Main(string[] args) { try…