标点符(钱魏 Way)

使用Python自动提取内容摘要

利用计算机将大量的文本进行处理,产生简洁、精炼内容的过程就是文本摘要,人们可通过阅读摘要来把握文本主要内容,这不仅大大节省时间,更提高阅读效率。但人工摘要耗时又耗力,已不能满足日益增长的信息需求,因此借助计算机进行文本处理的自动文摘应运而生。近年来,自动摘要、信息检索、信息过滤、机器识别、等研究已成为了人们关注的热点。 自动摘要(Automatic Summarization)的方法主要有两种:E […]

基于AARRR模型进行App体系化的数据分析

从流量经济到粉丝经济 迄今为止,大多数公司只关注三件事:流量、用户、收入。他们关注的是通过大批流量的入口,招来大批用户,然后再带来大量收入,或者换言之,这是一种“流量经济”。但现在,如上面所述人群差异化越来越明显,导致以前的这种方式,会越来越低效,出现了越来越多的无用投放,以致于最后出现这样一种现象:通过流量交换,或者一些渠道与CP其实已经影响了很多用户,但最终留存下来的用户却很少。之前36kr有 […]

基于PostgreSQL的开源分布式数据库:Greenplum

Pivotal宣布开源大规模并行处理(MPP)数据库Greenplum,其架构是针对大型分析型数据仓库和商业智能工作负载专门设计的。借助MPP这种高性能的系统架构,Greenplum可以将TB级的数据仓库负载分解,并使用所有的系统资源并行处理单个查询。 Greenplum数据库基于PostgreSQL开源技术。本质上讲,它是多个PostgreSQL实例一起充当一个数据库管理系统。Greenplum […]

Postgres-XL:基于PostgreSQL的开源分布式实现

Postgres-XL 全称为 Postgres eXtensible Lattice,是TransLattice公司及其收购数据库技术公司–StormDB的产品。Postgres-XL是一个横向扩展的开源数据库集群,具有足够的灵活性来处理不同的数据库任务。 Postgres-XL功能特性 开放源代码:(源协议使用宽松的“Mozilla Public License”许可,允许将开源代码与闭源代码 […]

大数据分析查询引擎Impala

Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。在介绍Impala之前需要先介绍Google的Dremel系统 […]

淘宝SPM流量跟踪体系的研究

一、什么是SPM SPM是淘宝社区电商业务(xTao)为外部合作伙伴(外站)提供的一套跟踪引导成交效果数据的解决方案。下面是一个跟踪点击到宝贝详情页的引导成交效果数据的SPM示例:http://detail.tmall.com/item.htm?id=3716461318&&spm=2014.123456789.1.2  其中spm=2014.123456789.1.2 便是下文所 […]

开源的列存储数据库:MonetDB

MonetDB是一个开源的面向列的数据库管理系统。MonetDB被设计用来为较大规模数据(如几百万行和数百列的数据库表)提供高性能查询的支持。MonetDB最初由荷兰阿姆斯特丹大学的Peter Boncz和Martin Kersten等人创建,并于2004年9月30日有了第一个开源的发行版。 MonetDB的创新 列存储:在传统中,关系数据库系统以行存储数据,方便整条记录的查询,而MonetDB使 […]

OLAP引擎Mondrian的学习

Mondrian是一个基于Java语言的开源OLAP引擎,它通过MDX语句执行查询,从关系型数据库RDBMS中读取数据,然后经过Java API以多维度的形式展示查询结果。Mondrian是一个OpenSource的基于关系数据库的分析服务器,遵循MDX、XML/A和JOLAP标准。 Mondrian的架构 Mondrian从架构上可以分为四个层次:表现层、计算层、聚合层、存储层。 表现层:指最终 […]

OLAP基础知识学习

一、OLTP与OLAP的区别 联机事务处理OLTP(On-Line Transaction Processing)主要是执行基本的、日常的事务处理,比如数据库记录的增、删、改、查。比如在银行存取一笔款,就是一个事务交易。 OLTP的特点一般有: 实时性要求高; 数据量不是很大; 交易一般是确定的,是对确定性的数据进行存取; 并发性要求高并且严格的要求事务的完整,安全性。 联机分析处理OLAP(On […]

CentOS 6.6 安装 Hadoop 集群记录(准备阶段)

本次安装选用的是Cloudera Hadoop CDH 5.2.3版本,Cent OS 6.6 的系统,安装流程为非常的不专业。仅供记录,勿参考。 一、安装前准备 1、更新系统

2、安装JDK A、下载并安装RPM包

注意事项,由于Oracle有Cookie验证,所以 […]