列式储存数据库:ClickHouse

28 sec read

ClickHouse是俄罗斯第一大搜索引擎Yandex开发的列式储存数据库。据说,这个列式储存数据库的性能大幅超越了很多商业MPP数据库软件,比如Vertica(HP Vertica成为MPP列式存储商业数据库的高性能代表,Facebook就购买了Vertica数据用于用户行为分析。)、InfiniDB。

  • 100Million 数据集:ClickHouse比Vertica约快5倍,比Hive快279倍,比My SQL快801倍
  • 1Billion 数据集:ClickHouse比Vertica约快5倍,MySQL和Hive已经无法完成任务了

ClickHouse的主要特性:

  • 深度列存储 True column-oriented
  • 向量化查询执行 Vectorized query execution
  • 数据压缩 Data compression
  • 并行和分布式查询 Parallel and distributed query execution
  • 实时数据注入 Real-time data ingestion
  • 磁盘局部引用 On-disk locality of reference
  • 实时查询处理 Real-time query processing
  • 跨数据中心备份 Cross-datacenter replication
  • 高可用性 High availability
  • 类SQL支持 SQL support
  • 本地及分布式的join Local and distributed joins
  • 可插入式纬度表 Pluggable external dimension tables
  • 支持数组及嵌套数据结构Arrays and nested data types
  • 预估查询处理 Approximate query processing
  • 概率数据结构 Probabilistic data structures
  • 支持IPv6 Full support of IPv6
  • 网站分析功能 Features for web analytics
  • 先进的算法 State-of-the-art algorithms
  • 详细的文档 Detailed documentation
  • 注释的代码 Clean documented code

支持的场景:

  • 网站或者APP分析系统 Web and App analytics
  • 广告系统或RTB系统 Advertising networks and RTB
  • 商业智能系统 Business intelligence
  • 监控或遥感系统 Monitoring and telemetry

ClickHouse的缺点:

  • 支持有限的操作系统(目前只支持Ubuntu)
  • 不支持Transaction
  • 缺少完整的Update/Delete操作
  • 存储和计算没有做分离
  • 与大数据生态有较大的隔阂

其他的一些代替方案:

  • HP Vertica:商业OLAP
  • RedShift:亚马逊的云存储服务
  • BigQuery:谷歌的云存储服务
  • Cloudera Impala + Parquet
  • Spark SQL + Parquet
  • Facebook Presto
  • Apache Drill
  • Apache Kylin
  • InfiniDB
  • MonetDB
  • LucidDB

参考资料:

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

K-近邻算法KNN学习笔记

什么是K-近邻算法? K近邻法(k-nearest neighbor, k-NN)是1967年由Cover T
2 min read

使用Prophet进行时间序列预测

Prophet是Facebook开源的预测工具,相比ARIMA模型,Prophet真的是非常的简单。只要读入两
1 min read

采用时间序列预测股价变化

时间序列简介 在数学上,随机过程被定义为一族时间随机变量,即{x(t),t∈T},其中T表示时间t的变动范围。
5 min read

发表评论

电子邮件地址不会被公开。 必填项已用*标注