Hadoop

HadoopDoctor:来自腾讯数据仓库TDW的MR诊断系…

TDW是基于Hadoop生态圈研发的大数据处理平台,MapReduce计算引擎在TDW平台中承担了所有的离线数
27 sec read

Hadoop在腾讯数据仓库TDW的实践

多数据存储格式 1、结构化存储+列存储+压缩 结构化存储 更高的存储和解析效率 提供了一些DB特性(获得表的行
15 sec read

大规模Hadoop集群在腾讯数据仓库TDW的实践

随着业务的快速增长,TDW的节点数也在增加,对单个大规模Hadoop集群的需求也越来越强烈。TDW需要做单个大
1 min read

Oozie:Hadoop工作调度工具

在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。在Hadoo
33 sec read

Hive:基于hadoop的数据仓库工具

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询
1 min read

Hadoop:分布式计算平台初探

Hadoop是一个开发和运行处理大规模数据的软件平台,是Apache的一个用java语言实现开源软件框架,实现
2 min read

Hadoop数据传输工具:Sqoop

Apache Sqoop(SQL-to-Hadoop) 项目旨在协助 RDBMS 与 Hadoop 之间进行高
44 sec read