标点符(钱魏 Way)

细说中文分词

完整的中文自然语言处理过程一般包括以下五种中文处理核心技术:分词、词性标注、命名实体识别、依存句法分析、语义分析。其中,分词是中文自然语言处理的基础,搜素引擎、文本挖掘、机器翻译、关键词提取、自动摘要生成等等技术都会用到中文分词,包括最近在学习的聊天机器人、文本相似性等。可以说分词是自然语言大厦的地基,下面就让我们从它开始谈起。 什么是中文分词 中文分词就是将中文语句中的词汇按照使用时的含义切分出 […]

SegmentFault问答排序算法

SegmentFault 参考了Stack Overflow的热门算法设置了自己的排序算法,具体排序算法如下: 热门文章 对于热门文章,使用了如下公式: 其中 views:浏览量,对浏览量做了一次去对数处理,主要是为了防止某些浏览量较大的文章异军突起,待在榜单迟迟不动。 recommendScore/collectScore:文章的推荐数和收藏数,直接加和到分子中,作为文章热门程度的考虑因素。 a […]

Elasticsearch在Centos 7上的安装与配置

安装JDK Elasticsearch官方建议使用 Oracle的JDK8,在暗转跟之前首先要确定下机器有没有安装JDK.

如果有,有可能是系统自带的openjdk,而非oracle的jdk。可以使用 rpm -qa | grep Java | xargs rpm -e --nodeps 批量卸载所有带有Java的文件,然后进行重新安装。 命令行下载 […]

Elasticsearch学习笔记:简介

Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。但是,Lucene只是一个库。想要使用它,你必须使用Java来作为开发语言并将其直接集成到你的应用中,更糟糕的是,Lucene非常复杂,你需要深入了解检索的相关知识来理解它是如何工作的。Elasticsearch也使 […]

使用Python自动提取内容摘要

利用计算机将大量的文本进行处理,产生简洁、精炼内容的过程就是文本摘要,人们可通过阅读摘要来把握文本主要内容,这不仅大大节省时间,更提高阅读效率。但人工摘要耗时又耗力,已不能满足日益增长的信息需求,因此借助计算机进行文本处理的自动文摘应运而生。近年来,自动摘要、信息检索、信息过滤、机器识别、等研究已成为了人们关注的热点。 自动摘要(Automatic Summarization)的方法主要有两种:E […]

使用Python计算文本相似性之编辑距离

在做爬虫的时候,很容易保持一些相似的数据,这些相似的数据由于不完全一致,如果要通过人工一一的审核,将耗费大量的时间,在上一篇介绍simhash的文章中,提到了编辑距离,我们先来了解下什么是编辑距离。 编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一 […]

使用 ChatterBot构建聊天机器人

ChatterBot是一个基于机器学习的聊天机器人引擎,构建在python上,主要特点是可以自可以从已有的对话中进行学习。 安装调试最简单的聊天机器人 安装

基本使用

默认情况下, ChatterBot 使用JsonDatabaseAdapter作为storage a […]

网页正文提取工具:Readability

从网页中提取出主要内容,一直是一个比较有挑战的算法。Readability是其中一个很不错的实现。Readability之前是开源的,后来不再公开了,这里还有当初的开源版本可以参考:arc90labs-readability – Readability cleans up hard-to-read articles on the Web。 Readability通过遍历Dom对象,通过 […]

漂亮的网页大纲视图显示工具:jQuery.fracs

jQuery.fracs是一个jquery插件,可用于网站大纲视图的显示,用来替代滚动条。 如何使用: 1、加载js

2、添加节点 注意需要将元素固定下来不随滚动条滚动

3、添加样式

项目地址:http […]

深入理解Lucene默认打分算法

当谈论到查询的相关性,很重要的一件事就是对于给定的查询语句,如何计算文档得分。文档得分是一个用来描述查询语句和文档之间匹配程度的变量。如果你希望通过干预Lucene查询来改变查询结果的排序,你就需要对Lucene的得分计算有所理解。 匹配文档的打分因子 当一个文档出现在了搜索结果中,这就意味着该文档与用户给定的查询语句是相匹配的。Lucene会对匹配成功的文档给定一个分数。至少从Lucene这个层 […]