All Stories

scikit-learn中的文本特征提取

文本分析是机器学习算法的主要应用领域。由于大部分机器学习算法只能接收固定长度的数值型矩阵特征,导致文本字符串等

斯坦福大学自然语言处理包StanfordNLP

最近在推荐点评的影响抽取,中间涉及到分词后的词性识别,看了各种开源分词工具,主要是词性标注集存在差异,最终选定

中文分词工具盘点:FoolNLTK

FoolNLTK简介 FoolNLTK是一个使用双向 LSTM (BiLSTM 模型)构建的便捷的中文处理工具

中文分词工具之哈工大LTP

LTP是哈工大出品的自然语言处理工具箱, LTP提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文

清华大学的分词工具THULAC

THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人

WordPress又被黑了,解决方案记录

过了一个周末,今天整个网站打开无样式,后台无法打开,直接跳转到其他网站,才意识到网站可能被黑了。查看源代码:

Facebook词向量工具FastText

FastText简介 fastText是Facebook于2016年开源的一个词向量计算和文本分类工具,在文本

机器学习算法之Softmax Regression

由于Logistic Regression算法复杂度低、容易实现等特点,在工业界中得到广泛使用,如计算广告中的

Google词向量该工具Word2Vec

word2vec是Google在2013年推出的一个NLP工具,它的特点是将所有的词向量化,这样词与词之间就可

情感分析的现代方法(修复代码问题)

最近在研究情感分析的内容,翻到了《Modern Methods for Sentiment Analysis》

深入理解NLP中的文本情感分析(华为)

基本概念 为什么:随着移动互联网的普及,网民已经习惯于在网络上表达意见和建议,比如电商网站上对商品的评价、社交

高维数据降维及可视化工具t-SNE

t-SNE(t-distributed stochastic neighbor embedding)是用于降维