前置条件是安装ik分词,请参考1.在ik分词的config下添加词库⽂件
~/software/apache/elasticsearch-6.2.4/config/analysis-ik$ ls | grep mydic.dicmydic.dic
内容为
我给祖国献⽯油
2.配置词库路径,编辑IKAnalyzer.cfg.xml配置⽂件,添加新增的词库3.重启es4.测试data.json
{
\"analyzer\":\"ik_max_word\ \"text\": \"我给祖国献⽯油\"}
添加之后的ik分词结果
curl -H 'Content-Type: application/json' http://localhost:9200/_analyze?pretty=true -d@data.json{
\"tokens\" : [ {
\"token\" : \"我\ \"start_offset\" : 0, \"end_offset\" : 1,
\"type\" : \"CN_CHAR\ \"position\" : 0 }, {
\"token\" : \"给\ \"start_offset\" : 1, \"end_offset\" : 2,
\"type\" : \"CN_CHAR\ \"position\" : 1 }, {
\"token\" : \"祖国\ \"start_offset\" : 2, \"end_offset\" : 4,
\"type\" : \"CN_WORD\ \"position\" : 2 }, {
\"token\" : \"献\ \"start_offset\" : 4, \"end_offset\" : 5,
\"type\" : \"CN_CHAR\ \"position\" : 3 }, {
\"token\" : \"⽯油\ \"start_offset\" : 5, \"end_offset\" : 7,
\"type\" : \"CN_WORD\ \"position\" : 4 } ]}
添加之后的ik分词结果,分词结果的tokens中增加了 \"我给祖国献⽯油\"
curl -H 'Content-Type: application/json' http://localhost:9200/_analyze?pretty=true -d@data.json{
\"tokens\" : [ {
\"token\" : \"我给祖国献⽯油\ \"start_offset\" : 0, \"end_offset\" : 7,
\"type\" : \"CN_WORD\ \"position\" : 0
}, {
\"token\" : \"祖国\ \"start_offset\" : 2, \"end_offset\" : 4,
\"type\" : \"CN_WORD\ \"position\" : 1 }, {
\"token\" : \"献\ \"start_offset\" : 4, \"end_offset\" : 5,
\"type\" : \"CN_CHAR\ \"position\" : 2 }, {
\"token\" : \"⽯油\ \"start_offset\" : 5, \"end_offset\" : 7,
\"type\" : \"CN_WORD\ \"position\" : 3 } ]}
因篇幅问题不能全部显示,请点此查看更多更全内容