黑客马拉松 (Hackathon):POI去重记录

10月24日参加了公司举办的黑客马拉松,我们选的题目是POI的去重。给到的数据格式如下: 目标是去重重复数据。
标点符
4 sec read

scikit-learn中的文本特征提取

文本分析是机器学习算法的主要应用领域。由于大部分机器学习算法只能接收固定长度的数值型矩阵特征,导致文本字符串等
标点符
1 min read

斯坦福大学自然语言处理包StanfordNLP

最近在推荐点评的影响抽取,中间涉及到分词后的词性识别,看了各种开源分词工具,主要是词性标注集存在差异,最终选定
标点符
1 min read

中文分词工具盘点:FoolNLTK

FoolNLTK简介 FoolNLTK是一个使用双向 LSTM (BiLSTM 模型)构建的便捷的中文处理工具
标点符
27 sec read

中文分词工具之哈工大LTP

LTP是哈工大出品的自然语言处理工具箱, LTP提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文
标点符
9 sec read

清华大学的分词工具THULAC

THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人
标点符
24 sec read

WordPress又被黑了,解决方案记录

过了一个周末,今天整个网站打开无样式,后台无法打开,直接跳转到其他网站,才意识到网站可能被黑了。查看源代码:
标点符
7 sec read

Facebook词向量工具FastText

FastText简介 fastText是Facebook于2016年开源的一个词向量计算和文本分类工具,在文本
标点符
2 min read

机器学习算法之Softmax Regression

由于Logistic Regression算法复杂度低、容易实现等特点,在工业界中得到广泛使用,如计算广告中的
标点符
1 min read

Google词向量该工具Word2Vec

word2vec是Google在2013年推出的一个NLP工具,它的特点是将所有的词向量化,这样词与词之间就可
标点符
4 min read

情感分析的现代方法(修复代码问题)

最近在研究情感分析的内容,翻到了《Modern Methods for Sentiment Analysis》
标点符
19 sec read

深入理解NLP中的文本情感分析(华为)

基本概念 为什么:随着移动互联网的普及,网民已经习惯于在网络上表达意见和建议,比如电商网站上对商品的评价、社交
标点符
15 sec read