列式储存数据库:ClickHouse

28 sec read

ClickHouse是俄罗斯第一大搜索引擎Yandex开发的列式储存数据库。据说,这个列式储存数据库的性能大幅超越了很多商业MPP数据库软件,比如Vertica(HP Vertica成为MPP列式存储商业数据库的高性能代表,Facebook就购买了Vertica数据用于用户行为分析。)、InfiniDB。

  • 100Million 数据集:ClickHouse比Vertica约快5倍,比Hive快279倍,比My SQL快801倍
  • 1Billion 数据集:ClickHouse比Vertica约快5倍,MySQL和Hive已经无法完成任务了

ClickHouse的主要特性:

  • 深度列存储 True column-oriented
  • 向量化查询执行 Vectorized query execution
  • 数据压缩 Data compression
  • 并行和分布式查询 Parallel and distributed query execution
  • 实时数据注入 Real-time data ingestion
  • 磁盘局部引用 On-disk locality of reference
  • 实时查询处理 Real-time query processing
  • 跨数据中心备份 Cross-datacenter replication
  • 高可用性 High availability
  • 类SQL支持 SQL support
  • 本地及分布式的join Local and distributed joins
  • 可插入式纬度表 Pluggable external dimension tables
  • 支持数组及嵌套数据结构Arrays and nested data types
  • 预估查询处理 Approximate query processing
  • 概率数据结构 Probabilistic data structures
  • 支持IPv6 Full support of IPv6
  • 网站分析功能 Features for web analytics
  • 先进的算法 State-of-the-art algorithms
  • 详细的文档 Detailed documentation
  • 注释的代码 Clean documented code

支持的场景:

  • 网站或者APP分析系统 Web and App analytics
  • 广告系统或RTB系统 Advertising networks and RTB
  • 商业智能系统 Business intelligence
  • 监控或遥感系统 Monitoring and telemetry

ClickHouse的缺点:

  • 支持有限的操作系统(目前只支持Ubuntu)
  • 不支持Transaction
  • 缺少完整的Update/Delete操作
  • 存储和计算没有做分离
  • 与大数据生态有较大的隔阂

其他的一些代替方案:

  • HP Vertica:商业OLAP
  • RedShift:亚马逊的云存储服务
  • BigQuery:谷歌的云存储服务
  • Cloudera Impala + Parquet
  • Spark SQL + Parquet
  • Facebook Presto
  • Apache Drill
  • Apache Kylin
  • InfiniDB
  • MonetDB
  • LucidDB

参考资料:

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

PageRank算法学习与研究

什么是PageRank PageRank,简称PR,是Google排名运算法则(排名公式)的一部分,是Goog
2 min read

多经纬度坐标的中心点计算方法

在实际的应用场景,通常会遇到计算多个经纬度中心的需求。而在计算经纬度中心点通常有三种方式,每种方式对应不同的需
1 min read

XGBoost之类别特征的处理

无论是XGBoost还是其他的Boosting Tree,使用的Tree都是cart回归树,这也就意味着该类提
5 min read

发表评论

电子邮件地址不会被公开。 必填项已用*标注