使用余弦定理计算文本相似度

什么是余弦定理 学过向量代数的人都知道,向量实际上是多维空间中有方向的线段。如果两个向量的方向一致,即夹角接近
13 sec read

使用Python对全角字符半角字符互转

在文本处理的时候,经常会遇到全角半角不一致的问题。于是需要程序能够快速的在两者之间互转。由于全角半角本身存在着
9 sec read

推荐系统、搜索引擎、自然语言处理常用指标

机器学习(ML)、自然语言处理(NLP)、信息检索(IR)等领域评估是一个必要的工作。 精确率(Precisi
12 sec read

细说中文分词

完整的中文自然语言处理过程一般包括以下五种中文处理核心技术:分词、词性标注、命名实体识别、依存句法分析、语义分
3 min read

SegmentFault问答排序算法

SegmentFault 参考了Stack Overflow的热门算法设置了自己的排序算法,具体排序算法如下:
6 sec read

Elasticsearch在Centos 7上的安装与配置

安装JDK 8 Elasticsearch官方建议使用 Oracle的JDK8,在安装之前首先要确定下机器有没
2 min read

Elasticsearch学习笔记:简介

Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域,
23 sec read

使用Python自动提取内容摘要

利用计算机将大量的文本进行处理,产生简洁、精炼内容的过程就是文本摘要,人们可通过阅读摘要来把握文本主要内容,这
1 min read

使用Python计算文本相似性之编辑距离

在做爬虫的时候,很容易保持一些相似的数据,这些相似的数据由于不完全一致,如果要通过人工一一的审核,将耗费大量的
30 sec read

使用 ChatterBot构建聊天机器人

ChatterBot是一个基于机器学习的聊天机器人引擎,构建在python上,主要特点是可以自可以从已有的对话
36 sec read

网页正文提取工具:Readability

从网页中提取出主要内容,一直是一个比较有挑战的算法。Readability是其中一个很不错的实现。Readab
18 sec read

漂亮的网页大纲视图显示工具:jQuery.fracs

jQuery.fracs是一个jquery插件,可用于网站大纲视图的显示,用来替代滚动条。 如何使用: 1、加
5 sec read