分类: 数据

Presto SQL体系化学习

在日常的工作中,使用较多的是Presto,原因是它比Spark快非常多。当然,使用过程中也会遇到一些问题,其中主要的是一些内置函数与Spark SQL存在较大的差异。这里对Presto SQL一个简单的整理。关于Presto的相关内容…

Hive SQL系统化学习

Apache Hive是一个开源的数据仓库框架,用于查询和分析大数据集存储在Hadoop文件系统中。 Hive 提供了一种类 SQL 的查询语言,叫做 HiveQL,它使得熟悉 SQL 的用户可以在 Hive 上查询、汇总和分析数据。同时,还…

数据, 术→技巧 ·

Spark SQL 系统化学习

日常工作很多自动化的任务使用的是Spark运行,这里抽时间地Spark SQL进行系统的学习。 Spark SQL 与Hive SQL的区别 Hive和Spark都是Apache的开源框架,而Hive SQL和Spark SQL是这两种框架上运行的SQL引擎。它…

数据, 术→技巧 ·

统计学基础之推断统计

什么是推断统计? 推断统计是一种通过样本数据推断总体参数的统计方法。它不仅能够根据样本数据对总体参数进行点估计和区间估计,还能够进行假设检验,通过建立统计模型对数据进行解释和预测。 推断统计主要包…

数据, 术→技巧 ·

统计学基础之参数估计

参数估计的基本概念 参数估计是指用样本统计量去估计总体的参数。总体参数通常是未知的,我们通过对一部分样本的观察来对这些未知参数进行估计。 在统计学中,参数和估计量是两个核心概念,它们在进行统计…

数据, 术→技巧 ·

统计学基础之假设检验

假设检验的基本概念 假设检验(Hypothesis Testing)是一种统计决策理论的方法,它利用观察得到的数据,对某个统计假设进行检验,以判断该假设是否合理。 在假设检验中,首先会提出两个对立的假设:原假设(Nul…

数据, 术→技巧 ·

统计学基础之摘要统计

什么是摘要统计? 摘要统计是一种用来描述、概括和呈现数据集特征的统计学工具。它们通常用于数据分析的初步阶段,可以帮助研究者理解数据的基本趋势和模式,但不用于从样本推断总体的结论。摘要统计主要包括两类…

数据, 术→技巧 ·

时序分析中的差分变换

差分变换(Difference Transformation)是一种数学工具,用于处理时间序列数据,尤其是在时间序列分析和信号处理中。差分变换的核心目的在于去除数据中的趋势和季节性成分,使得一个非平稳时间序列变得平稳。平稳性…

数据, 术→技巧 ·

图形检验工具如Q-Q图

图形检验是统计分析中使用图形表示来评估数据的性质或模型拟合优度的一种方法。其中,Q-Q图(Quantile-Quantile Plot)是一种特别常见的图形检验工具,用于比较两个概率分布的形状,尤其是用于检验数据集是否服从某…

数据, 术→技巧 ·

统计学基础之概率分布

什么是概率分布? 概率分布是数学统计中的一个概念,它描述了一个或多个随机变量在各个可能取值上的概率。这些取值可能是离散的,也可能是连续的。 如果是离散的随机变量,我们通常会使用概率质量函数(proba…

数据, 术→技巧 ·