所有文章

使用 ChatterBot构建聊天机器人

ChatterBot是一个基于机器学习的聊天机器人引擎,构建在 python 上,主要特点是可以自可以从已有的对话中进行学习。 安装调试最简单的聊天机器人 安装pip install chatterbot 基本使用# -*- coding: utf-8 -*- fr…

器→工具, 开源项目 ·

自然语言处理之自动摘要

利用计算机将大量的文本进行处理,产生简洁、精炼内容的过程就是文本摘要,人们可通过阅读摘要来把握文本主要内容,这不仅大大节省时间,更提高阅读效率。但人工摘要耗时又耗力,已不能满足日益增长的信息需求,因…

Elasticsearch学习笔记:简介

Elasticsearch 是一个基于Apache Lucene (TM) 的开源搜索引擎。无论在开源还是专有领域,Lucene 可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。但是,Lucene 只是一个库。想要使用它,你必须使用…

器→工具, 工具软件 ·

MySQL分支的选择:Percona还是MariaDB

在MySQL被Oracle收购以后,越来越多的人对于MySQL的前景表示了担忧,对于开源的MySQL,或多或少对于Oracle自家的数据库产品产生冲击,这个开源免费的MySQL对于Oracle更多的是包袱而不是资产。比如淘宝就从Oracle转…

器→工具, 工具软件 ·

MySQL与PostgreSQL哪个更好?

网上已经有很多拿PostgreSQL与MySQL比较的文章了,这篇文章只是对一些重要的信息进行下梳理。在开始分析前,先来看下这两张图: MySQL MySQL声称自己是最流行的开源数据库。LAMP中的M指的就是MySQL。构建在LAMP…

器→工具, 工具软件 ·

文本内容相似度计算方法:simhash

如何比较两篇文章的相似度在互联网搜索引擎层面使用的非常广泛,试想,如果不进行类似的比较,在当前互联网信息抄来抄去的情况下,搜索引擎结果页排在前面的结果可能都是相似的内容。Google为了避免出现上述的问题…

自然语言处理之中文分词

完整的中文自然语言处理过程一般包括以下五种中文处理核心技术:分词、词性标注、命名实体识别、依存句法分析、语义分析。其中,分词是中文自然语言处理的基础,搜素引擎、文本挖掘、机器翻译、关键词提取、自动摘…

机器学习算法之树回归

在前面的文章中介绍了基本的线性回归模型 属于全局的模型(除局部加权线性回归外),在线性回归模型中,其前提是假设全局的数据之间是线性的,通过拟合所有的样本点,训练得到最终的模型。然而现实中的很多问题是非…

机器学习, 法→原理 ·

相关性分析之Predictive Power Score(PPS)

常用相关性分析存在的问题 1、有许多非线性的关系是分数根本无法检测到的,比如下图:   2、计算出来的矩阵是对称的,即a与b的相关性同b与a的相同。更多的时候,关系是不对称的。一个有3个唯一值的…

相关性分析:Pearson、Kendall、Spearman

在分析特征间相关性时,常使用的方法是pandas.DataFrame.corr: DataFrame.corr(self, method=’pearson’, min_periods=1) 其中包含的方法主要为: pearson:Pearson相关系数 kendall:Kendall秩相关系数 Spea…