标签: 大数据

大数据基础:HIVE

Hive简介 Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具。可以将结构化的数据映射为一张数据库表并提供 HQL(Hive SQL)查询功能。底层数据是存储在 HDFS 上,Hive的本质是将 SQL 语句转换为 MapR…

大数据基础:Hadoop

这篇一开始文章整理于2014年,在此的7~8年时间里,Hadoop已经发生了很多变化,但最为核心的内容并没有变化那么多,当时的文章还是有一定的参考意义。再次重新做下整理。 Hadoop的概要介绍 Hadoop,是一个分布式系…

数据, 术→技巧 ·

大数据基础:Google MapReduce

Google,作为全球最大的搜索引擎公司,其伟大之处不仅在于建立了一个强大的搜索引擎,还在于它创造了3项革命性的技术,即:GFS、MapReduce 和 BigTable。作为 Google 早期三驾马车,这三项革命性的技术不仅在大数据…

大数据基础:Google BigTable

Bigtable是2005年谷歌的论文:《Bigtable: A Distributed Storage System for Structured Data》中介绍的一种分布式存储系统,后来被Hadoop社区实现为HBase。读懂这篇论文,那么理解HBase也就非常容易了。 摘…

大数据基础:Google GFS

GFS系统简介 Google 文件系统(Google File System,缩写为 GFS 或 GoogleFS),一种由 Google 公司开发专有分布式文件系统。 它与传统文件系统的的区别在于: 分布式 - 提供很高的横向扩展性 使用…

如何正确的看待“大数据”

大数据印象 当别人谈论“大数据”时,你的感觉是? 状态1:不明觉厉 突如其来起来的一些名词可能把你搞蒙,如分布式、云存储、云计算、数据仓库、数据挖掘你能说清楚到底是什么吗?这时候的认知可能是高端、大…

观点, 道→理念 ·

数据分析查询引擎Impala初探

Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理…

器→工具, 开源项目 ·