标点符(钱魏 Way)

TDW:来自腾讯的开源数据仓库

腾讯分布式数据仓库 ( Tencent distributed Data Warehouse,以下简称TDW) 是腾讯工程技术事业群数据平台部基于开源软件研发的大数据处理平台,它基于Hadoop、Hive、PostgreSQL之上进行研发,并在开源软件的基础上做了大量的定制和优化。目前TDW是腾讯内部规模最大的分布式系统,集中了腾讯内部各个产品的数据,为腾讯的各个产品提供海量数据存储和分析服务,包括数据挖掘、产品报表、经营分析等服务。

tdw

历时四年多的研发和运营,目前,TDW平台已经成熟,进入稳定运营阶段,机器总量达到8,000台以上,最大集群超过5,600个节点,覆盖公司90%以上的业务产品;TDW集成开发环境在腾讯内的总用户数约1500人,活跃用户数达到700以上,每日运行的分析SQL数达到100,000以上,每日SQL翻译成MR job数达到1000,000以上。可以说,TDW是名副其实的“海量”系统。

TDW是腾讯海量数据处理平台中最核心的模块,它有以下几个作用:

  • 提供海量的离线计算和存储服务。TDW是腾讯内部规模最大的离线数据处理平台,公司内大多数业务的产品报表、运营分析、数据挖掘等的存储和计算都是在TDW中进行。这是TDW提供的最基础的服务。
  • 数据集中于共享功能。腾讯产品线较长,数据丰富,为了挖掘数据价值,经常需要访问多个产品的数据。TDW是腾讯公司级的数据仓库,这里集中了大多数业务的数据,业务在这里可以方便的进行数据共享和管理。
  • TDW为其他大数据服提供基础和平台。这有两个含义,首先是TDW对腾讯内部开放各种API接口,很多业务的数应用、数据处理平台可以基于TDW之上,由TDW提供最基础的存储于计算,业务在TDW之上定制个性化的数据产品。其次,TDW内存放了腾讯大量有价值的数据,对于这些数据,各个业务有可能有一些不同的需求,这些需求可以抽象出一些固定的数据服务,如海量数据点查询、快速多维分析、流式计算等,这些服务是TDW衍生出来的精细化的服务。

TDW的功能模块主要包括:Hive、MapReduce、HDFS、TDBank、Lhotse等,如图1所示。TDW Core主要包括存储引擎HDFS、计算引擎MapReduce、查询引擎Hive,分别提供底层的存储、计算、查询服务,并且根据公司业务产品的应用情况进行了很多深度订制。TDBank负责数据采集,旨在统一数据接入入口,提供多样的数据接入方式。Lhotse任务调度系统是整个数据仓库的总管,提供一站式任务调度与管理。

tdw-core

 

tdw-ide

TDW的特性

tdw-speciality

TDW今后的目标和开发计划一个是使TDW运行效率更高,用户体验更好,包括将一些新的存储计算引擎引入到TDW中,提供更快速的查询分析响应;另外一个是更节省成本,腾讯将持续优化腾讯的存储策略和计算机模型,使TDW的运营成本计量下降。接下来一段时间的开发计划大致有:

  • TDW对外部开源
  • TDW支持yarn
  • TDW支持shark、hbase等快速查询引擎
  • TDW SQL优化器优化

相关资源:

码字很辛苦,转载请注明来自标点符《TDW:来自腾讯的开源数据仓库》

评论