中文分词工具盘点之SnowNLP

7 sec read

SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。

主要特性:

  • 中文分词(Character-Based Generative Model
  • 词性标注(TnT3-gram 隐马)
  • 情感分析(现在训练数据主要是买卖东西时的评价,所以对其他的一些可能效果不是很好,待解决)
  • 文本分类(Naive Bayes)
  • 转换成拼音(Trie树实现的最大匹配)
  • 繁体转简体(Trie树实现的最大匹配)
  • 提取文本关键词(TextRank算法)
  • 提取文本摘要(TextRank算法)
  • tf,idf
  • Tokenization(分割成句子)
  • 文本相似(BM25

安装: pip install snownlp

示例代码:

输出内容:

参考链接:https://github.com/isnowfy/snownlp

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

如何选择scikit-learn中的算法

scikit-learn中自带了很多机器学习的算法,在日常使用过程中可能产生疑问,以下2张图获取可以帮助你解决
标点符
0 sec read

斯坦福大学的词向量工具:GloVe

GloVe简介 GloVe的全称叫Global Vectors for Word Representation
标点符
2 min read

深入理解fbprophet

Prophet简介 在先前的文章中简单介绍了Facebook的prophet,最近在使用prophet的时候遇
标点符
5 min read

发表评论

电子邮件地址不会被公开。 必填项已用*标注