拼音输入法词库解析

目前类似搜狗输入法、百度输入法等最大的亮点是有较好的词库,而这些词库除了用在搜索上还可以用在及其场景,比如说分词。目前每种输入法的词库都有自己的格式,今天我们就来研究下,如何反编译这些词库,将这些词库使用到其他的场景。

搜狗输入法词库解析

搜狗输入法提供的词库下载下来是scel格式的,在使用前把他转成txt,以下为转换方法:

其他参考资料:

百度输入法词库解析

其他参考资料:

QQ拼音输入法

JAVA版本:https://github.com/xuantuan58/dict4cn/blob/cc9baa288cfb2ad3ce16ae104656b4c8ff2f371d/importer/src/QQPinyinQpydReader.java

C# 版本:https://github.com/studyzy/imewlconverter/blob/master/IME%20WL%20Converter/IME%20WL%20Converter/IME/QQPinyin.cs

其他参考资料:

常见输入法词库下载地址

微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

使用Python检测符号及乱码字符

最近在进行关键词的分析,中间涉及到对一些特殊的字符进行过滤的需求。包括带符号的(有部分还是SQL注入),并且存

PHP版本升级记录(7.0到7.4)

服务器上原先安装的版本为PHP 7.0.33, WordPress后台建议安装的最小版本为7.3,所以打算直接

WordPress LaTeX插件更换记录

由于自己的博客要插入很多的公式,所以需要依赖LaTeX插件来帮忙实现。先前一直使用的是WP QuickLaTe

2 Replies to “拼音输入法词库解析”

发表评论

电子邮件地址不会被公开。 必填项已用*标注