Apache Oozie简介 Apache Oozie是一个用于管理和协调Hadoop作业的工作流调度系统。它是专为处理复杂的数据处理任务而设计的,允许用户定义和执行由多个Hadoop作业组成的工作流。 核心功能 工作流调度: Oozie…
Apache Giraph简介 Apache Giraph是一个用于大规模图处理的开源分布式计算框架。它最初是由雅虎开发,并在2011年成为Apache基金会的孵化项目。Giraph的设计灵感来自Google的Pregel,它提供了一种以图为中心的计算模…
Apache Calcite 是一个动态数据管理框架,主要用于处理查询优化和查询规划。它是一个开源项目,隶属于 Apache 软件基金会。Calcite 并不是一个完整的数据库系统,而是一个用于构建数据库系统的工具箱。 主要特性…
Ambari简介 Apache Ambari是一个开源的管理平台,旨在帮助系统管理员简化大规模Hadoop集群的安装、配置和管理。它提供了一个直观的用户界面和一组RESTful API,可以轻松地操作集群中的各种服务。 产生背景 Apache…
DTW简介 DTW(Dynamic Time Warping)是一种用于比较时间序列之间相似性的算法。它可以有效地处理在时间轴上存在偏移、缩放和扭曲等变形的时间序列数据。DTW算法通过对两个时间序列进行动态规整,将它们按最优路径…
Fuzzy C-Means简介 模糊理论 模糊控制是自动化控制领域的一项经典方法。其原理则是模糊数学、模糊逻辑。1965,L.A. Zadeh发表模糊集合“Fuzzy Sets”的论文,首次引入隶属度函数的概念,打破了经典数学“非0即1”的局限…
什么是PageRank PageRank,简称PR,是Google排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的重要标准之一。PageRank计算页面的重要性,对…
算法复杂度是算法性能最基本的评价标准。算法复杂度由时间复杂度和空间复杂度组成,属于计算复杂性理论中的内容。 时间复杂度 时间复杂度描述了算法的运行时间,算法的时间复杂度是一个函数,它定量描述了该算法的…
分治法概念 分治法(divide-and-conquer)字面上的解释是“分而治之”,就是把一个复杂的问题分成两个或更多的相同或相似的子问题,直到最后子问题可以简单的直接求解,原问题的解即子问题的解的合并。分治有两个特点…
动态规划是一种将原问题拆解为若干子问题的求解方法,常常用于重叠子问题的和最有结构性能的问题。通过动态规划的方法,计算量则远远小于一般的解法。原因在于,对于重叠子问题,一般情况下会被重复计算,而动态规…