自然语言处理之小明NLP

最近在盘点Python下的自然语言处理包,今天发现的这个小明NLP,本身这个工具算是一个比较普通的工具,但中间的一个小点吸引到了我,所以这里记录下。

小明NLP的主要功能:

  • 中文分词 & 词性标注
  • 支持繁體
  • 支持自定义词典
  • 中文拼写检查
  • 文本摘要 & 关键词提取
  • 情感分析
  • 文本转拼音
  • 获取汉字偏旁部首

其中最特别的是获取汉字的偏旁部首,类似英文的词干提取?由于汉字的特殊构造,导致具有相同部首的汉字可能存在某些关联,所以在机器学习中可能会有一定的价值。

直接上代码:

输出内容为:

从结果可以看到,其默认将繁体中文转化为简体中文后进行的偏旁部首提取。更好的方案可能是将简体中文转化为繁体后再进行提取(原因是汉字的简化导致一部分包含语义的偏旁被简化掉了)

看了下他的代码,其主要实现方式是通过字典来实现,来看一下其字典的数据:

输出数据示例:

另外也找到了两个中文偏旁部首的项目:

看了下字典基本上都一致(来自精简版的新华字典),其中一个针对本地没有的汉字额外请求了百度汉语,进行了抓取。

参考链接:https://github.com/SeanLee97/xmnlp

微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

使用Python绘制柱形竞赛图

我们经常看到的Bar Chart Race(柱形竞赛图),可以看到数据的呈现非常的直观。今天就一起来学习下如何

时间序列趋势判断

判断时间序列数据是上升还是下降是我们常见的问题。比如某个股票在过去一年整体趋势是上升还是下降。我们可以通过画图

聚类算法之Affinity Propagation(AP)

Affinity Propagation算法简介 AP(Affinity Propagation)通常被翻译为

发表评论

电子邮件地址不会被公开。 必填项已用*标注