数据

大规模Hadoop集群在腾讯数据仓库TDW的实践

随着业务的快速增长,TDW的节点数也在增加,对单个大规模Hadoop集群的需求也越来越强烈。TDW需要做单个大

HLLC基数估算算法在腾讯数据仓库TDW中应用

分布式数据仓库(TDW)是一个以hive + hadoop为基础的大规模分布式系统,它提供了一种类SQL语言(

Hive在腾讯数据仓库TDW中的应用

Hive是Apache基金会下的一个在Hadoop上构建数据仓库的开源软件,它支持通过类SQL的HQL语言操作

PostgreSQL在腾讯数据仓库TDW的使用

TDW作为一个离线数据分析系统,在处理海量数据方面,通过并行计算,有很好的性能优势。但是腾讯知道,想用一个大而

Kylin:基于Hadoop的开源数据仓库OLAP分析引擎

Kylin是一个开源、分布式的OLAP分析引擎,它由eBay公司开发,并且基于Hadoop提供了SQL接口和O

来自17MON的IP归属地数据库

IP数据是互联网上一个非常基础的数据,无论是数据统计、广告投放还是CDN解析等,效果都与IP数据库有非常直接的

Spark:比Hadoop更强大的分布式数据计算项目

Spark是一个由加州大学伯克利分校(UC Berkeley AMP)开发的一个分布式数据快速分析项目。它的核

DataX:实现不同数据库数据同步

目前成熟的数据导入导出工具比较多,但是一般都只能用于数据导入或者导出,并且只能支持一个或者几个特定类型的数据库

Chukwa:开源分布式数据收集系统

Chukwa 是一个开源的用于监控大型分布式系统的数据收集系统。它构建在 hadoop 的 hdfs 和 ma

Azkaban:来自Linkedin的批量工作流任务调度器

Azkaban是由Linkedin开源的一个批量工作流任务调度器。Azkaban来自LinkedIn公司,用于

Avro:大数据的二进制传输中间件

Avro(读音类似于)是Hadoop的一个子项目,由Hadoop的创始人Doug Cutting(

SQL Server新特性:列存储

列存储索引是SQL Server 2012中为提高数据查询的性能而引入的一个新特性,顾名思义,数据以列的方式存