标点符(钱魏 Way)

拼音输入法词库解析

目前类似搜狗输入法、百度输入法等最大的亮点是有较好的词库,而这些词库除了用在搜索上还可以用在及其场景,比如说分词。目前每种输入法的词库都有自己的格式,今天我们就来研究下,如何反编译这些词库,将这些词库使用到其他的场景。

搜狗输入法词库解析

搜狗输入法提供的词库下载下来是scel格式的,在使用前把他转成txt,以下为转换方法:

其他参考资料:

百度输入法词库解析

其他参考资料:

QQ拼音输入法

JAVA版本:https://github.com/xuantuan58/dict4cn/blob/cc9baa288cfb2ad3ce16ae104656b4c8ff2f371d/importer/src/QQPinyinQpydReader.java

C# 版本:https://github.com/studyzy/imewlconverter/blob/master/IME%20WL%20Converter/IME%20WL%20Converter/IME/QQPinyin.cs

其他参考资料:

常见输入法词库下载地址

批量下载:https://github.com/ltf/lab/tree/208dc4a9df6f8a8c8af7791f83a5bfcbda1f38ea/plab/thesaurus/spider

码字很辛苦,转载请注明来自标点符《拼音输入法词库解析》

评论

  1. 朱林 #1

    你好,最后批量下载的链接好像失效了呢

    回复
    23天前