列式储存数据库:ClickHouse

28 sec read

ClickHouse是俄罗斯第一大搜索引擎Yandex开发的列式储存数据库。据说,这个列式储存数据库的性能大幅超越了很多商业MPP数据库软件,比如Vertica(HP Vertica成为MPP列式存储商业数据库的高性能代表,Facebook就购买了Vertica数据用于用户行为分析。)、InfiniDB。

  • 100Million 数据集:ClickHouse比Vertica约快5倍,比Hive快279倍,比My SQL快801倍
  • 1Billion 数据集:ClickHouse比Vertica约快5倍,MySQL和Hive已经无法完成任务了

ClickHouse的主要特性:

  • 深度列存储 True column-oriented
  • 向量化查询执行 Vectorized query execution
  • 数据压缩 Data compression
  • 并行和分布式查询 Parallel and distributed query execution
  • 实时数据注入 Real-time data ingestion
  • 磁盘局部引用 On-disk locality of reference
  • 实时查询处理 Real-time query processing
  • 跨数据中心备份 Cross-datacenter replication
  • 高可用性 High availability
  • 类SQL支持 SQL support
  • 本地及分布式的join Local and distributed joins
  • 可插入式纬度表 Pluggable external dimension tables
  • 支持数组及嵌套数据结构Arrays and nested data types
  • 预估查询处理 Approximate query processing
  • 概率数据结构 Probabilistic data structures
  • 支持IPv6 Full support of IPv6
  • 网站分析功能 Features for web analytics
  • 先进的算法 State-of-the-art algorithms
  • 详细的文档 Detailed documentation
  • 注释的代码 Clean documented code

支持的场景:

  • 网站或者APP分析系统 Web and App analytics
  • 广告系统或RTB系统 Advertising networks and RTB
  • 商业智能系统 Business intelligence
  • 监控或遥感系统 Monitoring and telemetry

ClickHouse的缺点:

  • 支持有限的操作系统(目前只支持Ubuntu)
  • 不支持Transaction
  • 缺少完整的Update/Delete操作
  • 存储和计算没有做分离
  • 与大数据生态有较大的隔阂

其他的一些代替方案:

  • HP Vertica:商业OLAP
  • RedShift:亚马逊的云存储服务
  • BigQuery:谷歌的云存储服务
  • Cloudera Impala + Parquet
  • Spark SQL + Parquet
  • Facebook Presto
  • Apache Drill
  • Apache Kylin
  • InfiniDB
  • MonetDB
  • LucidDB

参考资料:

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

TensorFlow学习笔记:特征工程

特征工程是机器学习流程中重要的一个环节,即使是通常用来做端到端学习的深度学习模型在训练之前也免不了要做一些特征
5 min read

CTR预估模型FM、FFM、DeepFM

点击率(click-through rate, CTR) 是点击特定链接的用户与查看页面,电子邮件或广告的总用
6 min read

腾讯实时视频推荐系统学习笔记

前面学习了TencentRec: Real-time Stream Recommendation in Pra
1 min read

发表评论

电子邮件地址不会被公开。 必填项已用*标注