在学习聚类算法得时候并没有涉及到评估指标,主要原因是聚类算法属于非监督学习,并不像分类算法那样可以使用训练集或测试集中得数据计算准确率、召回率等。那么如何评估聚类算法得好坏呢?好的聚类算法,一般要求类…
异常监控系统 Skyline的文章中,详细介绍了 Skyline 的架构,今天主要分享的是自己在部署 Skyline 中的一些记录。 项目地址:https://github.com/earthgecko/skyline 参考文档:https://earthgecko-skyline.read…
Kale系统是Etsy公司开源的一个监控分析系统。Kale分为两个部分:skyline和oculus。skyline负责对时序数据进行概率分布校验,对校验失败率超过阈值的时序数据发报警,oculus负责给被报警的时序,找出趋势相似的其他…
Graphite 是处理可视化和指标数据的优秀开源工具。它有强大的查询 API 和相当丰富的插件功能设置。事实上,Graphite 指标协议(metrics protocol)是许多指标收集工具的事实标准格式。然而,Graphite 并不总是一个…
在Apriori算法的学习中,我们了解到Apriori算法需要不断生成候选项目队列和不断得扫描整个数据库进行比对,I/O是很大的瓶颈。为了解决这个问题,FP-Growth利用了巧妙的数据结构,无论多少数据,只需要扫描两次数据…
ChatterBot是一个基于机器学习的聊天机器人引擎,构建在 python 上,主要特点是可以自可以从已有的对话中进行学习。 安装调试最简单的聊天机器人 安装pip install chatterbot 基本使用# -*- coding: utf-8 -*- fr…
利用计算机将大量的文本进行处理,产生简洁、精炼内容的过程就是文本摘要,人们可通过阅读摘要来把握文本主要内容,这不仅大大节省时间,更提高阅读效率。但人工摘要耗时又耗力,已不能满足日益增长的信息需求,因…
Elasticsearch 是一个基于Apache Lucene (TM) 的开源搜索引擎。无论在开源还是专有领域,Lucene 可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。但是,Lucene 只是一个库。想要使用它,你必须使用…
在MySQL被Oracle收购以后,越来越多的人对于MySQL的前景表示了担忧,对于开源的MySQL,或多或少对于Oracle自家的数据库产品产生冲击,这个开源免费的MySQL对于Oracle更多的是包袱而不是资产。比如淘宝就从Oracle转…
网上已经有很多拿PostgreSQL与MySQL比较的文章了,这篇文章只是对一些重要的信息进行下梳理。在开始分析前,先来看下这两张图: MySQL MySQL声称自己是最流行的开源数据库。LAMP中的M指的就是MySQL。构建在LAMP…