微信搜索bigdata029 | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 订阅本站 | 赞助作者:赞助作者

中文分词工具-IKAnalyzer下载及使用

编程语言 lxw1234@qq.com 27945℃ 1评论

关键字:中文分词、IKAnalyzer

最近有个需求,需要对爬到的网页内容进行分词,以前没做过这个,随便找了找中文分词工具,貌似IKAnalyzer评价不错,因此就下来试试,在这里记录一下使用方法,备查。

关于IKAnalyzer的介绍,网上很多,搜一下就知道了。下载地址见文章最后面

 

下载解压之后主要使用和依赖以下文件:

IKAnalyzer2012_u6.jar   — IKAnalyzer核心jar包

IKAnalyzer.cfg.xml    — 配置文件,可以在这里配置停词表和扩展词库

stopword.dic    — 停词表

lucene-core-3.6.0.jar  — lucene jar包,注意:只能使用这个3.6版本,高版本有问题

IKAnalyzer中文分词器V2012_U5使用手册.pdf  — 使用手册

 

新建Java项目,将IKAnalyzer2012_u6.jar和lucene-core-3.6.0.jar添加到Build Path,将stopword.dic和IKAnalyzer.cfg.xml添加到项目根目录。

看一下IKAnalyzer.cfg.xml的内容:

<?xml version=”1.0″ encoding=”UTF-8″?>
<!DOCTYPE properties SYSTEM “http://java.sun.com/dtd/properties.dtd”>
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!–用户可以在这里配置自己的扩展字典 –>
<entry key=”ext_dict”></entry>

<!–用户可以在这里配置自己的扩展停止词字典–>
<entry key=”ext_stopwords”>stopword.dic;</entry>
</properties>

 

使用示例代码:

package com.lxw1234.wordsplit;

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;

/**
 * 
 * @author lxw的大数据田地 -- lxw1234.com
 *
 */
public class Test {

	public static void main(String[] args) throws Exception {
		String text = "lxw的大数据田地 -- lxw1234.com 专注Hadoop、Spark、Hive等大数据技术博客。 北京优衣库";
		Analyzer analyzer = new IKAnalyzer(false);
		StringReader reader = new StringReader(text);
		TokenStream ts = analyzer.tokenStream("", reader);  
        CharTermAttribute term=ts.getAttribute(CharTermAttribute.class); 
        while(ts.incrementToken()){  
            System.out.print(term.toString()+"|");  
        }
        analyzer.close();
        reader.close();  
	}

}

执行结果为:

lxw|的|大数|数据|田地|lxw1234.com|lxw|1234|com|专注|hadoop|spark|hive|等|大数|数据|技术|博客|北京|优|衣|库|

分词分的很细。

看这个构造函数:Analyzer analyzer = new IKAnalyzer(false);

IKAnalyzer支持两种分词模式:最细粒度和智能分词模式,如果构造函数参数为false,那么使用最细粒度分词。

 

改成智能分词模式之后的结果:

Analyzer analyzer = new IKAnalyzer(true);

lxw|的|大|数据|田地|lxw1234.com|专注|hadoop|spark|hive|等|大|数据|技术|博客|北京|优|衣|库|

 

结果还是不太理想,“大数据”和“优衣库”都被分开了,原因是IKAnalyzer自带的词库里面没有这两个词。

需要配置扩展词库。

在项目根目录新建文件MyDic.dic,里面内容为:

大数据

优衣库

每行一个词,特别注意:MyDic.dic的文件编码必须为UTF-8

 

编辑IKAnalyzer.cfg.xml配置文件,添加扩展词库:

<!–用户可以在这里配置自己的扩展字典 –>
<entry key=”ext_dict”>MyDic.dic;</entry>

 

再运行:

lxw|的|大数据|田地|lxw1234.com|专注|hadoop|spark|hive|等|大数据|技术|博客|北京|优衣库|

这下基本是我们想要的结果了。

 

下载地址:https://code.google.com/p/ik-analyzer/downloads/list

这个地址估计大家不方便,上传了一份到网盘:

http://pan.baidu.com/s/1i3eXhAH

密:34w6

 

更多关于大数据Hadoop、Spark、Hive、HBase等技术,请支持我的博客  lxw的大数据田地

 

 

如果觉得本博客对您有帮助,请 赞助作者

转载请注明:lxw的大数据田地 » 中文分词工具-IKAnalyzer下载及使用

喜欢 (29)
分享 (0)
发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
(1)个小伙伴在吐槽
  1. 你好,请教一个问题: Spark-on-yarn模式,在Spark的一个转换中调用Ik分词,IK.xml和停止词、扩展词也都打到Jar中,分发到集群中的各个节点了,分词器没生效,这是什么个情况?
    烦不烦2017-03-22 10:52 回复