Solr全文检索学习笔记·记录
作者:互联网
1. Solr的安装
略。(注意安装jdk)
2. Solr客户端界面介绍
solr-7.7.3目录结构介绍
- bin:该目录下存放了Solr的工具命令。
- contrib:该目录下存放了Solr所依赖的第三方JAR包。
- dist:该目录下存放了Solr本身的JAR包。
- docs:该目录下存放了Solr的文档。
- example:该目录下存放了Solr的各种实例。
- server:该目录下的solr目录存放了一系列的索引库。
启动Solr
[root@hadoop1 solr-7.7.3]# cd bin
[root@hadoop1 bin]# ./solr start -force
打开Solr客户端
- Dashboard:显示了该Solr实例开始启动运行的时间,版本,系统资源,jvm等信息。
- Logging: 日志,显示Solr运行出现的异常或错误。
- Core Admin: 在这里可以添加Solr Core的实例,也就是创建一个索引库,类似数据库,用来存放数据。所以如果要使用Solr必须创建一个索引库才能使用。主要有Add Core(添加核心),Unload(卸载核心),Rename(重命名核心),Reload(重新加载核心),Optimize(优化索引库)。
- Java Properties: 可查看到Java相关的一些属性信息。
- Thread Dump:显示Solr Server中当前活跃线程信息,同时也可以跟踪线程运行栈信息。
创建索引库
一般来说,在真实项目环境下,数据库是要跟Solr中的索引库结合在一起的,数据库负责增删改,而索引库负责查询,所以,我们要利用Solr客户端来创建我们的索引库,那怎么创建呢?如下:
Add Core,创建核心,可以理解为创建表,点击,如下:
- name为自定义名字,也就是到时候如果添加成功,Solr客户端左下角的Core Selector下拉框就会出现name指定的名字,到时可以选择。建议和下面的instanceDir保持一致。
- instanceDir为磁盘上文件夹的名称。
- dataDir为默认的数据存储目录。
- config为配置文件,里面的solrconfig.xml的位置在db_cht/conf/solrconfig.xml。
- schema为db_cht下的conf下的schema文件(schema.xml)。
不过以上这样直接点击Add Core会报错的,但是,虽然报错,在/usr/local/solr-7.7.3/server/solr目录下就会生成一个叫db_cht的空文件夹(为什么文件夹叫db_cht,因为instanceDir已经指定了),进去里面啥也没有,在这里需要复制一点东西来,执行下面命令,如下:
cp -r ../configsets/sample_techproducts_configs/* ./
这样就能创建成功了,那么在db_cht目录下除了我们刚刚复制过来的conf文件夹,还有core.properties文件和data文件夹。我们可以打开core.properties看看,如下:
name=db_cht
config=solrconfig.xml
schema=schema.xml
dataDir=data
或者我们采用命令来创建,首先,进入solr-7.7.3的bin目录,如下:
[root@hadoop1 bin]# pwd
/usr/local/solr-7.7.3/bin
[root@hadoop1 bin]# ./solr create_core -c db1_core -force
WARNING: Using _default configset with data driven schema functionality. NOT RECOMMENDED for production use.
To turn off: bin/solr config -c db1_core -p 8983 -action set-user-property -property update.autoCreateFields -value false
Created new core 'db1_core'
这次再打开管理界面,就会出现下面的两个索引库,如下:
Core选择器
- Overview:主要显示当前库的一个状况。
- Analysis:查询分析器。如下:
如果左边高亮,意味着用户输入的虽然是my number这个英文单词,但是是会把phone number这条记录搜索出来的,即使用户没有搜索phone这个英文单词。
再说下分词器,分词器很好懂吧,它默认是英文分词器,但也有中文分词器,中文的后面再说,所谓的分词器就是对一句话分成各个词语,比如苹果手机会被分成三个词语,分别是苹果,手机,苹果手机。当用户在搜索框里输入苹果手机的时候,搜索结果可不单单只出现苹果手机哦,可能水果类的苹果也出来了,这就是分词的作用。在如上图,也就是那个下拉框是选择分词策略的,如果是中文的,那就选中文分词器,只不过默认是英文的,暂时没有中文分词器,没关系,后面再配,反正下拉框里列出来的内容就是各个分词器策略,而这些分词器策略都在一个文件里可以看出来,该文件就在/usr/local/solr-7.7.3/server/solr/索引库名称/conf/managed-schema文件里,里面的fieldType标签就是了。
- Schema: 既然索引库都创建出来了,或者你也可以理解就是创建了一张表,那么表是不是得有字段呀,字段英文名是不是就叫Field呀,所以,如下:
以商品信息为例,是不是有这几种字段,商品标题,商品描述,商品价格等,分别对应commodityTitle,message,price。话不多说,我们创建一下吧,如下:
添加完之后,在下面的下拉框是可以看到我们刚刚添加的字段的,那我要说下,下拉框里的所有数据来源是哪里?没错,就来自managed-schema文件里,打开该文件,就有如下标签,如下:
<field name="commodityTitle" type="text_general" uninvertible="true" docValues="false" indexed="true" stored="true"/>
剩下的字段一样的操作,不过像id,price这两字段,Solr已经默认帮我们提供了(说白了就是managed-chema文件里已经存在了name等于id和name等于price的field标签),那我们就关注剩下的message咯,如下:
那Add Dynamic Field,添加动态字段,就是managed-schema文件里的dynamicField标签,看它的name就知道了。
下一个是Add Copy Field,添加复制字段(或叫合成字段),也就是说,我们可以把商品标题和商品描述这两个字段合成一个新的字段,叫xxxKeyWorld,随便。那为什么要合成一个新的字段?就是说,如果我们在查询某件商品信息的时候,肯定是根据某一个字段来查询的,而这字段不单单是commodityTitle字段,或者是message字段,应该是两字段合成,说白了,就是我们查询商品信息,是根据commodityTitle字段+message字段查出来的。换句话说,我们在做匹配的时候,不单单可以根据commodityTitle匹配,也可以根据message做匹配。而这合成后的字段xxxKeyWorld是一个数组。
- Documents: 添加数据,更新数据,删除数据的。如下:
向索引库添加数据(Json版):
向索引库添加数据(xml版):
删除id为1的记录:
删除所有记录,就是*:*。下一个是更新,那么就像添加一样,只不过重点在id上,如果你要添加的这条记录,id在索引库刚好存在,那么就会把原有记录覆盖掉,这就是更新。
- Query: 模拟查询条件。
说明一点,如上commodityTitle字段只所以可以根据它作为查询条件,那是因为commodityTitle的index为true,如果为false,那是不能作为查询条件的。
如果是多条件,那么可以这样写,字段1:值1 AND/OR 字段2:值2。
如上fq代表过滤查询。看,一共有两个条件,代表我要查询commodityTitle有华为的以及message带有色彩字眼的记录。
fq是在q查询符合结果中同时是fq查询符合的,例如,请求fq是一个数组:
如果fq里写的是字段:[1 TO 10],代表过滤查询1到10的记录,该字段可以是价格之类的,反正就是数字型的。当然,如果要表示10以上的就是[10 TO *]。
fq的另一个语法,表示并且的关系,比如commodityTitle:华为,苹果,表示要把commodityTitle中有华为的和有苹果的都查出来。同样也支持字段1:值1 AND/OR 字段2:值2。
sort为排序。
下面的start,rows为分页。
fl为指定返回哪些字段内容,比如你写的是commodityTitle,price。那么就意味着你在查询的时候只会把commodityTitle和price查询出来,其它的如message不会查询出来。
df表示默认字段,譬如你写的是commodityTitle,那么我们在q那里就不用写的那么完整了,比如commodityTitle:华为,就可以直接写华为这两个字了,因为你如果不写以哪个字段作为条件,默认就是以你df指定的那个。
如上图是做高亮设置的,hl.fl那里表示你要对谁做高亮,下面就是高亮后是什么颜色的。
IK分词器的使用
接下来是配置中文分词器。往下看吧!!!
下载地址:http://files.cnblogs.com/files/zhangweizhong/ikanalyzer-solr5.zip
解压文件及说明:
-
ext.dic:自定义词语,如沙雕,沙雕在汉语里面不是一个词,它只是一个网络用语,我们可以配置到这里面,让它成为一个词。
-
stopword.dic:停止分词,或者说对哪些不做分词处理。
-
IKAnalyzer.cfg.xml:配置IK的配置文件,不用改。
1. 修改managed-sahma,加上如下配置:
<!-- China -->
<fieldType name="text_cn" class="solr.TextField" positionIncrementGap="10">
<analyzer type="index">
<tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory" useSmart="true"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory" useSmart="false"/>
</analyzer>
</fieldType>
说明一下,看analyzer标签,其中的type等于index或者query是什么意思?其实是对应如下图:
然后再看,useSmart又是什么意思,如下:
跟分词的粒度相关:
- False:分词的粒度大,一句话里面分的词语少。
- True:分词的粒度细,一句话里面分的词语多。
2. 把IK的配置放到Solr:
放入jar包:准备好ik-analyzer-solr5-5.x.jar,这个我们已经下载下来了,但还要下载一个jar包,可以去maven仓库下,该jar包就是solr-analyzer-ik-5.1.0.jar,也就是总共有两个jar,有了这两个jar,就可以把这两个jar放到/usr/local/solr-7.7.3/server/solr-webapp/webapp/WEB-INF/lib目录下。
3. 放配置:
退回到上一级,也就是/usr/local/solr-7.7.3/server/solr-webapp/webapp/WEB-INF,在该目录下新建文件夹,名字叫classes,然后再把ext.dic,IKAnalyzer.cfg.xml,stopword.dic这三个文件放进去。
4. 重启Solr
[root@hadoop1 solr-7.7.3]# cd bin
[root@hadoop1 bin]# ps -ef|grep solr
root 3632 1 0 06:24 pts/0 ......
[root@hadoop1 bin]# kill -9 3632
[root@hadoop1 bin]# ./solr start -force
重新进入solr的管理界面,进入如下页面:
补充:ext.dic的说明
打开ext.dic文件,直接写上沙雕这两个字即可,只有这样,在做分词的时候,遇到沙雕才不会把沙和雕分开来,因为如果这样的话,网友在搜索沙雕时,不就搜索不到有关沙雕的视频吗?那么为了能够搜索到,我们就得把沙雕写到ext.dic文件上,毕竟它是一种网络用语,要把它当成一个词语来用。那么以后,我们再搜索沙雕的时候,就会搜索到有关沙雕的视频了。如下:
以第一个视频为例,如下:
我要说明的是,如果你不在ext.dic写上沙雕这两个字,那不好意思,ik分词器不认为沙雕是一个词语,只会把沙和雕两个字分开。
数据库导入数据到Solr
我们打开数据库Navicat,然后新建个数据库,数据库名随便你叫什么,都行,右键数据库,选择运行sql文件,因为此处,我为方便,准备导入sql文件,就不自己新建表了。我呢这有两个sql文件,也就意味着有两张表,这两张表的名字叫bless和products,该两张表数据很多,我就只说它有哪些字段好了:
bless | id,bless_content,bless_time |
products | pid,pname,catalog,catalog_name,price,number,description,picture,release_time |
DataImport导入数据:
该功能是将数据库中的数据通过sql语句方式导入到Solr索引库中。
第一步:添加jar包:
进入/usr/local/solr-7.7.3/dist下,复制solr-dataimporthandler-7.7.3.jar和solr-dataimporthandler-extras-7.7.3.jar。同时还要复制mysql的驱动包mysql-connector-java-5.1.42.jar,复制到哪?复制到/usr/local/solr-7.7.3/server/solr-webapp/webapp/WEB-INF/lib下即可。
第二步:修改solrconfig.xml
进入/usr/local/solr-7.7.3/server/solr/索引库名/conf目录下,我这里的索引库名是db1_core,也就是配置了中文分词器的那个。
进入conf下,打开solrconfig.xml,首先查询是否存在dataimport的requestHandler,如果不存在,因此需要手动添加,为了以后便于维护此文件,我们就在requestHandler起始位置,约在720行处,添加如下内容:
<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
<lst name="defaults">
<str name="config">data-config.xml</str>
</lst>
</requestHandler>
第三步:创建data-config.xml配置文件
注意,在当前目录下创建,也就是跟solrconfig.xml同级。
data-config.xml的作用:数据库连接相关信息,SQL以及查询结果映射对应域(字段)中。
<?xml version="1.0" encoding="UTF-8"?>
<dataConfig>
<dataSource type="JdbcDataSource"
driver="com.mysql.jdbc.Driver"
url="jdbc:mysql://192.168.1.101:3306/db1"
user="root"
password="root"/>
<document>
<entity name="products" query="select pid,pname,catalog_name,price,description,picture from products">
<field column="pid" name="id"/>
<field column="pname" name="prod_pname"/>
<field column="catalog_name" name="prod_catalog_name"/>
<field column="price" name="prod_price"/>
<field column="description" name="prod_description"/>
<field column="picture" name="prod_picture"/>
</entity>
</document>
</dataConfig>
如上field标签里,column为数据库里的字段名称,name为solr索引库里的字段名称,或者叫域名称。
第四步:分析定义域
修改同目录下的managed-schema文件,增加下面内容:
<!--prod_pname:支持分词技术查询-->
<field name="prod_pname" type="text_cn" indexed="true" stored="true" required="true"/>
<!--catalog_name: 直接相等的方式查询,不要做分词,直接精确查询-->
<field name="prod_catalog_name" type="string" indexed="true" stored="true" required="true"/>
<field name="prod_price" type="pdouble" indexed="true" stored="true" required="true"/>
<field name="prod_description" type="text_cn" indexed="true" stored="true" required="true"/>
<!--prod_picture: 不分词,也不做搜索条件-->
<field name="prod_picture" type="string" indexed="false" stored="true" required="true"/>
第五步,重启solr。
第六步,查看solr管理界面,进入核心选择器,选中DataImport选项,也就是我们在界面上添加数据(Documents)的上方。如下:
只是我这出现了问题,导入失败,因为我的solr是在linux安装的,而mysql在windows中,可能就是该原因,造成导入失败。为了不浪费时间,我这也就暂时先放着,大不了我直接向索引库添加数据也是可以的嘛,虽然麻烦点。大家可以看这个视频,我就是参考该视频的,包括我说的那两张表:<https://www.bilibili.com/video/BV1ob411T7NQ?p=7>。
这里我就自行的往索引库添加了5条数据,意思意思一下,最重要的还是后面进行增删改查的部分。如下:
3. Solrj的操作
Solrj添加数据/更新数据
到这,就要真正的用java代码来操作索引库了,而以上用solr管理控制台操作的索引库我们当做了解学习即可,下面才是王道。
solrj是操作Solr的JAVA客户端,它提供了增加,修改,删除,查询Solr索引的JAVA接口。Solrj针对Solr提供了Rest的HTTP接口进行了封装,SolrJ底层是通过使用HttpClient中的方法来完成Solr的操作的。
1. 创建项目普通的maven项目。
2. 引入maven坐标:
<properties>
<solrj.version>7.7.2</solrj.version>
</properties>
<dependencies>
<dependency>
<groupId>org.apache.solr</groupId>
<artifactId>solr-solrj</artifactId>
<version>${solrj.version}</version>
</dependency>
<dependency>
<groupId>org.projectlombok</groupId>
<artifactId>lombok</artifactId>
<version>1.18.12</version>
</dependency>
</dependencies>
3. 创建测试类来测试连接,如下:
package com.cht.test;
import org.apache.solr.client.solrj.impl.HttpSolrClient;
public class Test01Connection {
//声明一个连接solr的地址
public static final String SOLR_URL = "http://192.168.6.133:8983/solr/db1_core";
//声明一个连接solr的对象
private static HttpSolrClient httpSolrClient;
static {
httpSolrClient = new HttpSolrClient.Builder(SOLR_URL).build();
}
public static void main(String[] args) {
System.out.println(httpSolrClient);
}
}
如果连接成功,没报错,就说明可以来操作solr了。
4. 使用solrj向索引库添加数据:
public static void main(String[] args) throws IOException, SolrServerException {
//一个一个添加
SolrInputDocument doc = new SolrInputDocument();
doc.addField("id",6); //不指定id值,默认是UUID
doc.addField("prod_pname","zakka杂货 情侣小鹿树脂摆件家居装饰品一对");
doc.addField("prod_catalog_name","幽默杂货");
doc.addField("prod_price",15);
doc.addField("prod_description","<TABLE id=table2 cellSpacing=5 .........");
doc.addField("prod_picture","2014031517190225.jpg");
httpSolrClient.add(doc);//或者这样,指定某个库,如果这样那么上面的地址SOLR_URL就不用具体指定是哪个索引库了。httpSolrClient.add("db1_core",doc);
httpSolrClient.commit();
httpSolrClient.close();
}
测试一下是否添加成功,如果成功,打开solr管理后台,看看添加进去没有。
下面是添加多条数据,如下:
public static void main(String[] args) throws IOException, SolrServerException {
List<SolrInputDocument> docs = new ArrayList<>();
for (int i=0;i<=5;i++){
SolrInputDocument doc = new SolrInputDocument();
doc.addField("id",i);
doc.addField("prod_pname","魔幻星座音乐水晶球内雕音乐盒七彩渐变音乐球");
doc.addField("prod_catalog_name","幽默杂货:"+i);
doc.addField("prod_price",70);
doc.addField("prod_description","description:"+i);
doc.addField("prod_picture","2014030610151185.jpg");
docs.add(doc);
}
httpSolrClient.add(docs);
httpSolrClient.commit();
httpSolrClient.close();
}
我们还可以添加一个对象,那么我们就要创建一个实体类,如下:
package com.cht.domain;
import lombok.Data;
import org.apache.solr.client.solrj.beans.Field;
@Data
public class Products {
@Field("id")
private String pid;
@Field("prod_pname")
private String pname;
private String catalog;
@Field("prod_catalog_name")
private String catalogName;
@Field("prod_price")
private double price;
private Integer number;
@Field("prod_description")
private String description;
@Field("prod_picture")
private String picture;
}
那么添加如下:
Products products = new Products();
products.setPid("8");
products.setPname("家天下嘻哈动物魔术贴挂钩绕带无痕挂钩2个装RB205");
products.setCatalogName("幽默杂货");
products.setPrice(5.5);
products.setDescription("<TABLE id=table2 cellSpacing=5 cellPadding=5 width=700 border=0>\n...");
products.setPicture("2013112909444459_S.jpg");
UpdateResponse response = httpSolrClient.addBean(products);
httpSolrClient.commit();
httpSolrClient.close();
注意,以上添加的时候是不是设置了id,那么如果你设置的id在索引库已存在,那就是更新,所以这点要注意!!!因为你一不小心就会把原有记录覆盖掉。
Solrj删除数据
根据id删除:
httpSolrClient.deleteById("1");
httpSolrClient.commit();
httpSolrClient.close();
根据ids删除:
httpSolrClient.deleteById(Arrays.asList("1","2","3"));
httpSolrClient.commit();
httpSolrClient.close();
全部删除:
httpSolrClient.deleteByQuery("*:*");//全部删除。表示以查询作为删除条件。
httpSolrClient.commit();
httpSolrClient.close();
solrj查询数据
简单查询:
String q = "*:*";
//SolrParams是抽象类
SolrParams solrQuery = new SolrQuery(q);
QueryResponse query = httpSolrClient.query(solrQuery);
List<Products> product = query.getBeans(Products.class);
System.out.println(product.size()); //默认只查询10条记录,这点要注意
for (Products p:product){
System.out.println(p);
}
httpSolrClient.commit();
httpSolrClient.close();
SolrQuery solrQuery = new SolrQuery();
String keyWorld = "情侣"; //模拟用户在搜索框输入情侣
//判断当前用户是否对keyWorld进行赋值,如果为空,查询所有,不为空,就专门查询用户输入的值
if(StringUtils.isEmpty(keyWorld)){
solrQuery.set("q","*:*");
}else {
solrQuery.set("q","prod_pname:"+keyWorld);
}
QueryResponse query = httpSolrClient.query(solrQuery);
List<Products> product = query.getBeans(Products.class);
System.out.println(product.size());
for (Products p:product){
System.out.println(p.getPname());
}
httpSolrClient.commit();
httpSolrClient.close();
复杂查询:
public static void main(String[] args) throws IOException, SolrServerException {
SolrQuery solrQuery = new SolrQuery();
String keyWorld = "情侣"; //模拟用户在搜索框输入情侣
//判断当前用户是否对keyWorld进行赋值,如果为空,查询所有,不为空,就专门查询用户输入的值
if(StringUtils.isEmpty(keyWorld)){
solrQuery.set("q","*:*");
}else {
solrQuery.set("q","prod_pname:"+keyWorld);
}
//设置fq
String catalogName = "";
if(!StringUtils.isEmpty(catalogName)){
solrQuery.addFilterQuery("prod_catalog_name:"+catalogName);
}
//prod_price:[1 TO 5]
String price_str="1-5";//如果是1- 那么对应的就是prod_price:[1 TO *]
if(!StringUtils.isEmpty(price_str)){
String[] arrs = price_str.split("-");
if(arrs.length == 1){ //针对price_str是这种情况: 数字-
solrQuery.addFilterQuery("prod_price:["+arrs[0]+" TO *]");
}else{
String perfix = arrs[0];
if(StringUtils.isEmpty(arrs[0])){//针对price_str是这种情况: -数字
perfix = "*";
}
solrQuery.addFilterQuery("prod_price:["+perfix+" TO "+arrs[1]+"]");
}
}
//设置价格排序
/*psort=1为升序,psort=2为降序*/
int psort=2;
if(psort==1){
solrQuery.addSort("prod_price", SolrQuery.ORDER.asc);
}else if(psort==2){
solrQuery.addSort("prod_price", SolrQuery.ORDER.desc);
}
//设置分页
//start=0,rows=10 公式:start=rows*(page-1)
solrQuery.setStart(0);
solrQuery.setRows(6);
//设置回显(可以保护隐私数据)
solrQuery.setFields("id","prod_pname","prod_catalog_name");//注意这里没对prod_price做回显,所以查询结果是0.0
//设置默认域(df)
//solrQuery.set("df","prod_pname");
//hi 设置高亮
solrQuery.setHighlight(true);
solrQuery.addHighlightField("prod_pname");
solrQuery.setHighlightSimplePre("<font color='red'>");
solrQuery.setHighlightSimplePost("</font>");
QueryResponse query = httpSolrClient.query(solrQuery);
//得到高亮数据
Map<String, Map<String, List<String>>> map = query.getHighlighting();
List<Products> product = query.getBeans(Products.class);
System.out.println(product.size());
//下面的numFound表示查询出来的个数,跟上面的product.size()是一样的
long numFound = query.getResults().getNumFound();
System.out.println(numFound);
for (Products p:product){
//获取id号
String pid = p.getPid();//注意要把索引库的id回显,否则获取不到,为null
Map<String, List<String>> map1 = map.get(pid);
List<String> map2 = map1.get("prod_pname");
if(map2!=null){
// System.out.println(p.getPrice()+":::"+p.getPname());
System.out.println(map2.get(0)+":::"+p.getPname());
}else {
System.out.println(p.getPrice()+":::"+p.getPname());
}
}
httpSolrClient.commit();
httpSolrClient.close();
}
SpringBoot整合solr
maven坐标
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-data-solr</artifactId>
</dependency>
编写配置文件(application.yml):
spring:
data:
solr:
host: http://192.168.6.133:8983/solr/db1_core
测试是否可以获取到solrClient,如下:
@SpringBootTest
class SolrSpringbootApplicationTests {
@Autowired
SolrClient solrClient;
@Test
void contextLoads() {
System.out.println(solrClient);
}
}
标签:Solr,price,笔记,全文检索,httpSolrClient,prod,solr,solrQuery 来源: https://blog.csdn.net/weixin_45729764/article/details/118820990