关键字:输入法细胞词库、深蓝词库转换、分类词库
在做中文文本处理的相关工作(比如中文分词、中文分类等)过程中,通常需要扩展词库,分类词库尤佳,而各个输入法的细胞词库中,都提供了已经分类的细胞词库,但这些文件格式通常都是专用的非文本文件,之前找到了一个将各种输入法细胞词库文件转换成文本的工具–深蓝词库转换,可以完成这件事情。
搜狗输入法细胞词库下载地址:http://pinyin.sogou.com/dict/
百度输入法细胞词库下载地址:http://shurufa.baidu.com/dict.html
QQ拼音输入法细胞词库下载地址:http://dict.qq.pinyin.cn/
下载好输入法的分类细胞词库文件之后,打开深蓝词库转换工具,直接将细胞词库文件拖拽到文件选择框的路径上,该工具可以自动识别是哪种细胞词库文件,
比如,搜狗输入法的细胞词库文件后缀为.scel:
QQ拼音输入法的细胞词库文件后缀为.qpyd:
百度拼音输入法的细胞词库文件后缀为.bdict:
需要注意的是:有的分类词库是用户上传的,而非官方,因此会有很多分类不正确的词汇,请慎用。
深蓝词库转换工具 下载地址为: http://pan.baidu.com/s/1pKqsdVP 密码: i5tc
您可以关注 lxw的大数据田地 ,或者 加入邮件列表 ,随时接收博客更新的通知邮件。
如果觉得本博客对您有帮助,请 赞助作者 。
转载请注明:lxw的大数据田地 » 一个用于将各种输入法细胞分类词库转换成文本的工具