标点符(钱魏 Way)

Spark在腾讯数据仓库TDW的应用

为了满足挖掘分析与交互式实时查询的计算需求,腾讯大数据使用了Spark平台来支持挖掘分析类计算、交互式实时查询计算以及允许误差范围的快速查询计算,目前腾讯大数据拥有超过200台的Spark集群,并独立维护Spark和Shark分支。Spark集群已稳定运行2年,积累了大量的案例和运营经验能力,另外多个业务的大数据查询与分析应用,已在陆续上线并稳定运行。在SQL查询性能方面普遍比MapReduce高 […]

Spark:比Hadoop更强大的分布式数据计算项目

Spark是一个由加州大学伯克利分校(UC Berkeley AMP)开发的一个分布式数据快速分析项目。它的核心技术是弹性分布式数据集(Resilient distributed datasets),提供了比Hadoop更加丰富的MapReduce模型,可以快速在内存中对数据集进行多次迭代,来支持复杂的数据挖掘算法和图计算算法。 Spark使用Scala开发,使用Mesos作为底层的调度框架,可以 […]

来自阿里的流处理框架:JStorm

关于流处理框架,在先前的文章汇总已经介绍过Strom,今天学习的是来自阿里的的流处理框架JStorm。简单的概述Storm就是:JStorm 比Storm更稳定,更强大,更快,Storm上跑的程序,一行代码不变可以运行在JStorm上。直白的将JStorm是阿里巴巴的团队基于Storm的二次开发产物,相当于他们的Tengine是基于Ngix开发的一样。以下为阿里巴巴团队放弃直接使用Storm选择自 […]

分布式流式处理框架:Storm

Storm是一个免费开源、分布式、高容错的实时计算系统。它与其他大数据解决方案的不同之处在于它的处理方式。Hadoop 在本质上是一个批处理系统,数据被引入 Hadoop 文件系统 (HDFS) 并分发到各个节点进行处理。当处理完成时,结果数据返回到 HDFS 供始发者使用。Hadoop的高吞吐,海量数据处理的能力使得人们可以方便地处理海量数据。但是,Hadoop的缺点也和它的优点同样鲜明——延迟 […]

实时统计到底有多重要?

最近的一个项目把先前数据清洗工作从原先的1小时清洗一次,处理成每10分钟处理一次。汇报的时候被问到实时数据到底带来了哪些价值?这。只能说是个值得思考的问题。 对于任何一个关注数据的人来说,总是期望越实时越好,更有甚者,期望可以预知未来(IBM就在通过数据研究未来20分钟内将会发生什么)。每个人或多或少存在一定的控制欲,他们期望能够对网站的当前状况了如指掌,知道每个小时甚至每十分钟的变化情况,这样的 […]