域名

Elasticsearch 默认配置 IK 及 Java AnalyzeRequestBuilder 使用

时间:2010-12-5 17:23:32  作者:IT科技   来源:系统运维  查看:  评论:0
内容摘要:本文提纲一、什么是 Elasticsearch-analysis-ik二、默认配置 IK三、使用 AnalyzeRequestBuilder 获取分词结果四、小结前言在 《Elasticsearch

本文提纲

一、认配什么是认配 Elasticsearch-analysis-ik

二、默认配置 IK

三、认配使用 AnalyzeRequestBuilder 获取分词结果

四、认配小结

前言

在 《Elasticsearch 和插件 elasticsearch-head 安装详解》 文章中,认配我使用的认配是 Elasticsearch 5.3.x。这里我改成了 ElasticSearch 2.3.2。认配是认配因为版本对应关系 https://github.com/spring-projects/spring-data-elasticsearch/wiki/Spring-Data-Elasticsearch---Spring-Boot---version-matrix:

Spring Boot Version (x) Spring Data Elasticsearch Version (y) Elasticsearch Version (z)  x <= 1.3.5 y <= 1.3.4 z <= 1.7.2*  x >= 1.4.x 2.0.0 <=y < 5.0.0** 2.0.0 <= z < 5.0.0** 

* - 只需要你修改下对应的 pom 文件版本号

** - 下一个 ES 的版本会有重大的更新

这里可以看出,5.3.x 不在第二行范围内。认配因此这里我讲下,认配如何在 ElasticSearch 2.3.2 中默认配置 IK。认配

一、认配什么是认配 Elasticsearch-analysis-ik

了解什么是 Elasticsearch-analysis-ik,首先了解什么是认配 IK Analyzer。 IK Analyzer 是认配基于 lucene 实现的分词开源框架。官方地址:https://code.google.com/p/ik-analyzer/ 。

Elasticsearch-analysis-ik 则是源码库将 IK Analyzer 集成 Elasticsearch 的插件,并支持自定义词典。GitHub 地址:https://github.com/medcl/elasticsearch-analysis-ik。特性支持:

分析器 Analyzer: ik_smart 或 ik_max_word

分词器 Tokenizer: ik_smart 或 ik_max_word

二、默认配置 IK

在 Elasticsearch-analysis-ik 官网中可以看到,其中版本需要对应:

IK版    ES版本 主 5.x -> master 5.3.2    5.3.2 5.2.2    5.2.2 5.1.2    5.1.2 1.10.1    2.4.1 1.9.5    2.3.5 1.8.1    2.2.1 1.7.0    2.1.1 1.5.0    2.0.0 1.2.6    1.0.0 1.2.5    0.90.x 1.1.3    0.20.x 1.0.0    0.16.2 -> 0.19.0 

这里使用的是 Elasticsearch-analysis-ik 1.9.2,支持 ElasticSearch 2.3.2。下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v1.9.2/elasticsearch-analysis-ik-1.9.2.zip,下载成功后进行安装。

解压 zip 文件,复制里面的内容到 elasticsearch-2.3.2/plugins/ik。

cd  elasticsearch-2.3.2/plugins mkdir ik cp ... 

在 elasticsearch-2.3.2/config/elasticsearch.yml 增加配置:

index.analysis.analyzer.default.tokenizer : "ik_max_word"  index.analysis.analyzer.default.type: "ik" 

配置默认分词器为 ik,并指定分词器为 ik_max_word。

然后重启 ES 即可。验证 IK 是否成功安装,访问下

localhost:9200/_analyze?analyzer=ik&pretty=true&text=泥瓦匠的博客是bysocket.com

可以得到下面的结果集:

{      "tokens": [         {              "token": "泥瓦匠",             "start_offset": 0,             "end_offset": 3,             "type": "CN_WORD",             "position": 0         },         {              "token": "泥",             "start_offset": 0,             "end_offset": 1,             "type": "CN_WORD",             "position": 1         },         {              "token": "瓦匠",             "start_offset": 1,             "end_offset": 3,             "type": "CN_WORD",             "position": 2         },         {              "token": "匠",             "start_offset": 2,             "end_offset": 3,             "type": "CN_WORD",             "position": 3         },         {              "token": "博客",             "start_offset": 4,             "end_offset": 6,             "type": "CN_WORD",             "position": 4         },         {              "token": "bysocket.com",             "start_offset": 8,             "end_offset": 20,             "type": "LETTER",             "position": 5         },         {              "token": "bysocket",             "start_offset": 8,             "end_offset": 16,             "type": "ENGLISH",             "position": 6         },         {              "token": "com",             "start_offset": 17,             "end_offset": 20,             "type": "ENGLISH",             "position": 7         }     ] } 

记得在Docker 容器安装时,需要对应的端口开发。

三、使用 AnalyzeRequestBuilder 获取分词结果

ES 中默认配置 IK 后,服务器托管通过 Rest HTTP 的方式我们可以进行得到分词结果。那么在 Spring Boot 和提供的客户端依赖 spring-data-elasticsearch 中如何获取到分词结果。

加入依赖 pom.xml

<!-- Spring Boot Elasticsearch 依赖 -->         <dependency>             <groupId>org.springframework.boot</groupId>             <artifactId>spring-boot-starter-data-elasticsearch</artifactId>         </dependency> 

在 application.properties 配置 ES 的地址:

# ES spring.data.elasticsearch.repositories.enabled = true spring.data.elasticsearch.cluster-nodes = 127.0.0.1:9300 

然后创建一个方法,入参是搜索词,返回的是分词结果列表。

@Autowired    private ElasticsearchTemplate elasticsearchTemplate;    /**     * 调用 ES 获取 IK 分词后结果     *     * @param searchContent     * @return     */    private List<String> getIkAnalyzeSearchTerms(String searchContent) {         // 调用 IK 分词分词        AnalyzeRequestBuilder ikRequest = new AnalyzeRequestBuilder(elasticsearchTemplate.getClient(),                AnalyzeAction.INSTANCE,"indexName",searchContent);        ikRequest.setTokenizer("ik");        List<AnalyzeResponse.AnalyzeToken> ikTokenList = ikRequest.execute().actionGet().getTokens();        // 循环赋值        List<String> searchTermList = new ArrayList<>();        ikTokenList.forEach(ikToken -> {  searchTermList.add(ikToken.getTerm()); });        return searchTermList;    } 

indexName 这里是指在 ES 设置的索引名称。

从容器注入的 ElasticsearchTemplate Bean 中获取 Client ,再通过 AnalyzeRequestBuilder 分析请求类型中进行分词并获取分词结果 AnalyzeResponse.AnalyzeToken 列表。

四、小结

默认配置了 IK 分词器,则 DSL 去 ES 查询时会自动调用 IK 分词。

如果想要自定义词库,比如比较偏的领域性。

【本文为专栏作者“李强强”的原创稿件,转载请通过联系作者获取授权】

戳这里,看该作者更多好文

copyright © 2025 powered by 益强资讯全景  滇ICP备2023006006号-31sitemap