标点符(钱魏 Way)

腾讯数据仓库TDW元数据重构方案

TDW HIVE使用现状 大规模应用场景下HIVE暴露出的问题 HIVE进程内存占用高,GC频繁 元数据接口性能下降(秒级->分钟级) 元数据库压力大,不堪重负 HIVE进程间各个session容易相互影响 HIVE出现session卡死现象 其他 原因分析: 元数据库单点问题 性能瓶颈 无法扩展 ORM层带来的各种问题 算法复杂度较高 数据结构占用内存大 高并发下容易发生死锁和死循环 映射 […]

TDW:来自腾讯的开源数据仓库

腾讯分布式数据仓库 ( Tencent distributed Data Warehouse,以下简称TDW) 是腾讯工程技术事业群数据平台部基于开源软件研发的大数据处理平台,它基于Hadoop、Hive、PostgreSQL之上进行研发,并在开源软件的基础上做了大量的定制和优化。目前TDW是腾讯内部规模最大的分布式系统,集中了腾讯内部各个产品的数据,为腾讯的各个产品提供海量数据存储和分析服务,包 […]

HadoopDoctor:来自腾讯数据仓库TDW的MR诊断系统

TDW是基于Hadoop生态圈研发的大数据处理平台,MapReduce计算引擎在TDW平台中承担了所有的离线数据计算,是TDW最重要的底层支撑平台之一。在TDW 平台中,除了MR程序会生成MapReduce作业外,被广泛应用的Hive、tPig等计算框架最终也会把查询语言翻译成MapReduce作业来进行计算,因此对MapReduce作业运行信息进行收集并提供给开发人员查询分析,是他们定位业务问题 […]

Hadoop在腾讯数据仓库TDW的实践

多数据存储格式 1、结构化存储+列存储+压缩 结构化存储 更高的存储和解析效率 提供了一些DB特性(获得表的行数,支持修改表结构) 为随机访问提供基础设施 列存储 支持列簇存储 大规模减小磁盘 集群平均处理能力可得到10~20倍的提升(与hadoop本身的文本存储相比) 压缩 采用lzo压缩,兼顾IO和CPU 行存储压缩比1:2,列存储1:4 平均节省集群60%的存储空间 2、ProtocalBu […]

Spark在腾讯数据仓库TDW的应用

为了满足挖掘分析与交互式实时查询的计算需求,腾讯大数据使用了Spark平台来支持挖掘分析类计算、交互式实时查询计算以及允许误差范围的快速查询计算,目前腾讯大数据拥有超过200台的Spark集群,并独立维护Spark和Shark分支。Spark集群已稳定运行2年,积累了大量的案例和运营经验能力,另外多个业务的大数据查询与分析应用,已在陆续上线并稳定运行。在SQL查询性能方面普遍比MapReduce高 […]

Protobuf在腾讯数据仓库TDW的使用

protobuf是google提供的一个开源序列化框架,类似于XML、JSON这样的数据表示语言,其最大的特点是基于二进制,因此比传统的XML表示高效短小得多。虽然是二进制数据格式,但并没有因此变得复杂,开发人员通过按照一定的语法定义结构化的消息格式,然后送给命令行工具,工具将自动生成相关的类,可以支持java、c++、python等语言环境。通过将这些类包含在项目中,可以很轻松的调用相关方法来完 […]

大规模Hadoop集群在腾讯数据仓库TDW的实践

随着业务的快速增长,TDW的节点数也在增加,对单个大规模Hadoop集群的需求也越来越强烈。TDW需要做单个大规模集群,主要是从数据共享、计算资源共享、减轻运营负担和成本等三个方面考虑。 数据共享。TDW之前在多个IDC部署数十个集群,主要是根据业务分别部署,这样当一个业务需要其他业务的数据,或者需要公共数据时,就需要跨集群或者跨IDC访问数据,这样会占用IDC之间的网络带宽。为了减少跨IDC的数 […]

HLLC基数估算算法在腾讯数据仓库TDW中应用

分布式数据仓库(TDW)是一个以hive + hadoop为基础的大规模分布式系统,它提供了一种类SQL语言(称为HQL)让用户可以方便在其上进行编程开发。在数据分析领域,经常需要计算数据集不同元素的唯一值(Distinct值),也称为基数计算。 精确的基数计算需要消耗过多的计算资源,当数据量非常大时,这种资源的消耗就更加严重。因此在大数据领域,采用估值算法降低基数计算的成本成为一种新的选择。目前 […]

Hive在腾讯数据仓库TDW中的应用

Hive是Apache基金会下的一个在Hadoop上构建数据仓库的开源软件,它支持通过类SQL的HQL语言操作结构化数据。Hive的主要功能是将类SQL的HQL语言翻译成MapReduce代码并在Hadoop上运行。Hive的出现使使用Hadoop做大数据分析变得更简单,节省了数据分析人员编译和调试MapReduce代码的繁琐工作。目前,Hive在国内互联网公司应用很多。TDW作为一个数据仓库产品 […]

PostgreSQL在腾讯数据仓库TDW的使用

TDW作为一个离线数据分析系统,在处理海量数据方面,通过并行计算,有很好的性能优势。但是腾讯知道,想用一个大而全的系统解决所有问题一般也是不现实的,同样,TDW也有它的劣势,比如对小数据处理性能低,update/delete性能差、接口不丰富等。因此腾讯引入一个强大的开源数据库PostgreSQL,并对其做一些功能扩展,使之有访问TDW数据的能力;同时腾讯在TDW中开发了一种新的存储引擎,腾讯称之 […]