您的当前位置:首页正文

ElasticSearch学习笔记——ik分词添加词库

2024-10-18 来源:威能网
ElasticSearch学习笔记——ik分词添加词库

前置条件是安装ik分词,请参考1.在ik分词的config下添加词库⽂件

~/software/apache/elasticsearch-6.2.4/config/analysis-ik$ ls | grep mydic.dicmydic.dic

内容为

我给祖国献⽯油

2.配置词库路径,编辑IKAnalyzer.cfg.xml配置⽂件,添加新增的词库3.重启es4.测试data.json

{

\"analyzer\":\"ik_max_word\ \"text\": \"我给祖国献⽯油\"}

添加之后的ik分词结果

curl -H 'Content-Type: application/json' http://localhost:9200/_analyze?pretty=true -d@data.json{

\"tokens\" : [ {

\"token\" : \"我\ \"start_offset\" : 0, \"end_offset\" : 1,

\"type\" : \"CN_CHAR\ \"position\" : 0 }, {

\"token\" : \"给\ \"start_offset\" : 1, \"end_offset\" : 2,

\"type\" : \"CN_CHAR\ \"position\" : 1 }, {

\"token\" : \"祖国\ \"start_offset\" : 2, \"end_offset\" : 4,

\"type\" : \"CN_WORD\ \"position\" : 2 }, {

\"token\" : \"献\ \"start_offset\" : 4, \"end_offset\" : 5,

\"type\" : \"CN_CHAR\ \"position\" : 3 }, {

\"token\" : \"⽯油\ \"start_offset\" : 5, \"end_offset\" : 7,

\"type\" : \"CN_WORD\ \"position\" : 4 } ]}

添加之后的ik分词结果,分词结果的tokens中增加了 \"我给祖国献⽯油\"

curl -H 'Content-Type: application/json' http://localhost:9200/_analyze?pretty=true -d@data.json{

\"tokens\" : [ {

\"token\" : \"我给祖国献⽯油\ \"start_offset\" : 0, \"end_offset\" : 7,

\"type\" : \"CN_WORD\ \"position\" : 0

}, {

\"token\" : \"祖国\ \"start_offset\" : 2, \"end_offset\" : 4,

\"type\" : \"CN_WORD\ \"position\" : 1 }, {

\"token\" : \"献\ \"start_offset\" : 4, \"end_offset\" : 5,

\"type\" : \"CN_CHAR\ \"position\" : 2 }, {

\"token\" : \"⽯油\ \"start_offset\" : 5, \"end_offset\" : 7,

\"type\" : \"CN_WORD\ \"position\" : 3 } ]}

  

因篇幅问题不能全部显示,请点此查看更多更全内容