使用余弦定理计算文本相似度

什么是余弦定理 学过向量代数的人都知道,向量实际上是多维空间中有方向的线段。如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角了。 余弦定理对我们每个人都不陌生, ...
13 sec read

使用Python对全角字符半角字符互转

在文本处理的时候,经常会遇到全角半角不一致的问题。于是需要程序能够快速的在两者之间互转。由于全角半角本身存在着映射关系,所以处理起来并不复杂。具体规则为:
9 sec read

推荐系统、搜索引擎、自然语言处理常用指标

机器学习(ML)、自然语言处理(NLP)、信息检索(IR)等领域评估是一个必要的工作。 精确率(Precision)与召回率(Recall) 准确率 = 检索出的相关文档数/检索出的文档总数 = 查准率 召回率 = 检索出的相关文档数/文档库中所有相关文档数 = 查全率 假 ...
12 sec read

细说中文分词

完整的中文自然语言处理过程一般包括以下五种中文处理核心技术:分词、词性标注、命名实体识别、依存句法分析、语义分析。其中,分词是中文自然语言处理的基础,搜素引擎、文本挖掘、机器翻译、关键词提取、自动摘要生成等等技术都会用到中文分词,包括最 ...
3 min read

SegmentFault问答排序算法

SegmentFault 参考了Stack Overflow的热门算法设置了自己的排序算法,具体排序算法如下:
6 sec read

Elasticsearch在Centos 7上的安装与配置

安装JDK 8 Elasticsearch官方建议使用 Oracle的JDK8,在安装之前首先要确定下机器有没有安装JDK. 如果有,有可能是系统自带的openjdk,而非oracle的jdk。可以使用 批量卸载所有带 ...
2 min read

Elasticsearch学习笔记:简介

Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。但是,Lucene只是一个库。想要使用它,你必须使用Java来作为开发语言并将其直接集成到你的应用 ...
23 sec read

使用Python自动提取内容摘要

利用计算机将大量的文本进行处理,产生简洁、精炼内容的过程就是文本摘要,人们可通过阅读摘要来把握文本主要内容,这不仅大大节省时间,更提高阅读效率。但人工摘要耗时又耗力,已不能满足日益增长的信息需求,因此借助计算机进行文本处理的自动文摘应运 ...
1 min read

使用Python计算文本相似性之编辑距离

在做爬虫的时候,很容易保持一些相似的数据,这些相似的数据由于不完全一致,如果要通过人工一一的审核,将耗费大量的时间,在上一篇介绍simhash的文章中,提到了编辑距离,我们先来了解下什么是编辑距离。
30 sec read

使用 ChatterBot构建聊天机器人

ChatterBot是一个基于机器学习的聊天机器人引擎,构建在python上,主要特点是可以自可以从已有的对话中进行学习。
37 sec read

网页正文提取工具:Readability

从网页中提取出主要内容,一直是一个比较有挑战的算法。Readability是其中一个很不错的实现。Readability之前是开源的,后来不再公开了,这里还有当初的开源版本可以参考:arc90labs-readability - Readability cleans up hard-to-read articles on the Web。
17 sec read

漂亮的网页大纲视图显示工具:jQuery.fracs

jQuery.fracs是一个jquery插件,可用于网站大纲视图的显示,用来替代滚动条。 如何使用: 1、加载js 2、添加节点 注意需要将元素固定下来不随滚动条滚动 3、添加样式 [ ...
4 sec read