什么是In-DBMS Analytics?

0 sec read

多年来,数据分析在某种意义上一直是一种”移动”的体验。企业将他们想要分析的数据从数据库转移到分析服务器上,以便将分析工作分解成更小的部分。事实上,许多企业今天仍然这样做。这种方法的问题有几个方面。 随着数据变得越来越大(这是今天的必然结果),可能需要数小时(甚至更长时间)才能将数据传输到多个服务器上,然后返回到数据库并重新组装。对于时间敏感的分析,这会产生巨大的破坏。作为一种变通方法,企业通常选择只分析他们数据的一个子集,但是这种类型的数据抽样会导致不理想的分析模型,并且最终会产生同一信息的多个版本,从而造成更多的数据混淆。

为了解决当前的大数据挑战,企业正转向一种新的策略: 数据库内分析(In-DBMS Analytics 或in-database analytics)。 这种方法背后的思想可以总结为一个简单的概念: 移动“分析”,而不是移动“数据”。 通过将分析引擎引入数据库,并利用大规模并行处理机制,企业可以直接在数据库环境中执行高度复杂的分析。

数据库内分析比传统分析有许多优点,包括:

  • 更快: 消除了移动大型数据集所需的时间,分析总是执行最新的数据,避免不一致,接近实时的洞察力。
  • 更准:不会产生多余的数据副本或中间数据,减少中间出错的几率,防止出现多个指标的不一致
  • 更具成本效益:不需要新的硬件或开发新的应用,节省开发人力同事也节省业务人员的等待时间。
  • 更有弹性:以执行以前不可能或不切实际的关键钻取和深入分析。对数据具有更多操作的可能。分析可以是连续的或按需进行的。
  • 更透明:让使用者更加理解业务逻辑,更能发现问题,为高级分析提供了机会。
  • 更灵活:可以使用完整的数据集也可以抽样分析
打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

机器学习算法之Catboost

CatBoost是俄罗斯的搜索巨头Yandex在2017年开源的机器学习库,是Gradient Boostin
2 min read

机器学习算法之LightGBM

上一篇文章介绍了一个梯度提升决策树模型XGBoost,这篇文章我们继续学习一下GBDT模型的另一个进化版本:L
7 min read

机器学习算法之XGBoost

在上一篇Boosting方法的介绍中,对XGBoost有过简单的介绍。为了更还的掌握XGBoost这个工具。我
14 min read

发表评论

电子邮件地址不会被公开。 必填项已用*标注