微信搜索lxw1234bigdata | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 赞助作者:赞助作者

一个用于将各种输入法细胞分类词库转换成文本的工具

其他 lxw1234@qq.com 10157℃ 0评论

关键字:输入法细胞词库、深蓝词库转换、分类词库

在做中文文本处理的相关工作(比如中文分词、中文分类等)过程中,通常需要扩展词库,分类词库尤佳,而各个输入法的细胞词库中,都提供了已经分类的细胞词库,但这些文件格式通常都是专用的非文本文件,之前找到了一个将各种输入法细胞词库文件转换成文本的工具–深蓝词库转换,可以完成这件事情。

搜狗输入法细胞词库下载地址:http://pinyin.sogou.com/dict/

lxw1234

百度输入法细胞词库下载地址:http://shurufa.baidu.com/dict.html

lxw1234

QQ拼音输入法细胞词库下载地址:http://dict.qq.pinyin.cn/

lxw1234

下载好输入法的分类细胞词库文件之后,打开深蓝词库转换工具,直接将细胞词库文件拖拽到文件选择框的路径上,该工具可以自动识别是哪种细胞词库文件,

比如,搜狗输入法的细胞词库文件后缀为.scel:

lxw1234

 

QQ拼音输入法的细胞词库文件后缀为.qpyd:

lxw1234

百度拼音输入法的细胞词库文件后缀为.bdict:

lxw1234

需要注意的是:有的分类词库是用户上传的,而非官方,因此会有很多分类不正确的词汇,请慎用。

深蓝词库转换工具 下载地址为: http://pan.baidu.com/s/1pKqsdVP 密码: i5tc


您可以关注 lxw的大数据田地 ,或者 加入邮件列表 ,随时接收博客更新的通知邮件。

 

如果觉得本博客对您有帮助,请 赞助作者

转载请注明:lxw的大数据田地 » 一个用于将各种输入法细胞分类词库转换成文本的工具

喜欢 (5)
分享 (0)
发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址