列式储存数据库:ClickHouse

28 sec read

ClickHouse是俄罗斯第一大搜索引擎Yandex开发的列式储存数据库。据说,这个列式储存数据库的性能大幅超越了很多商业MPP数据库软件,比如Vertica(HP Vertica成为MPP列式存储商业数据库的高性能代表,Facebook就购买了Vertica数据用于用户行为分析。)、InfiniDB。

  • 100Million 数据集:ClickHouse比Vertica约快5倍,比Hive快279倍,比My SQL快801倍
  • 1Billion 数据集:ClickHouse比Vertica约快5倍,MySQL和Hive已经无法完成任务了

ClickHouse的主要特性:

  • 深度列存储 True column-oriented
  • 向量化查询执行 Vectorized query execution
  • 数据压缩 Data compression
  • 并行和分布式查询 Parallel and distributed query execution
  • 实时数据注入 Real-time data ingestion
  • 磁盘局部引用 On-disk locality of reference
  • 实时查询处理 Real-time query processing
  • 跨数据中心备份 Cross-datacenter replication
  • 高可用性 High availability
  • 类SQL支持 SQL support
  • 本地及分布式的join Local and distributed joins
  • 可插入式纬度表 Pluggable external dimension tables
  • 支持数组及嵌套数据结构Arrays and nested data types
  • 预估查询处理 Approximate query processing
  • 概率数据结构 Probabilistic data structures
  • 支持IPv6 Full support of IPv6
  • 网站分析功能 Features for web analytics
  • 先进的算法 State-of-the-art algorithms
  • 详细的文档 Detailed documentation
  • 注释的代码 Clean documented code

支持的场景:

  • 网站或者APP分析系统 Web and App analytics
  • 广告系统或RTB系统 Advertising networks and RTB
  • 商业智能系统 Business intelligence
  • 监控或遥感系统 Monitoring and telemetry

ClickHouse的缺点:

  • 支持有限的操作系统(目前只支持Ubuntu)
  • 不支持Transaction
  • 缺少完整的Update/Delete操作
  • 存储和计算没有做分离
  • 与大数据生态有较大的隔阂

其他的一些代替方案:

  • HP Vertica:商业OLAP
  • RedShift:亚马逊的云存储服务
  • BigQuery:谷歌的云存储服务
  • Cloudera Impala + Parquet
  • Spark SQL + Parquet
  • Facebook Presto
  • Apache Drill
  • Apache Kylin
  • InfiniDB
  • MonetDB
  • LucidDB

参考资料:

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

贝塞尔曲线学习笔记

什么是贝塞尔曲线 贝塞尔曲线的数学基础是早在 1912 年就广为人知的伯恩斯坦多项式。但直到 1959 年,当
46 sec read

KNN算法实战:验证码的识别

识别验证码的方式很多,如tesseract、SVM等。前面的几篇文章介绍了KNN算法,今天主要学习的是如何使用
3 min read

阿里实时计算Blink核心技术

实时计算in阿里巴巴 实时计算在阿里巴巴内部应用广泛。随着新经济体的出现与发展,技术的革新和用户需求的提升,人
1 min read

发表评论

电子邮件地址不会被公开。 必填项已用*标注