标签: hive

JupyterLab HIVE数据同步流程

公司的数据存放在HDFS上,但是模型的训练时需要用到这部分数据,于是就有了数据同步的需求。以下是个人整理的数据同步流程,仅适用于公司内部,其他地方由于环境不同可能不可用。 数据从Hive同步到JupyterLab …

数据, 术→技巧 ·

SQL 日期/时间处理函数

在数据统计分析中,经常会遇到需要对时间进行格式转化或其他层面的内容。由于每种数据库自带的相关函数存在一定的差异,所以经常会记不得如何使用。今天做下简单的梳理。 在开始学习日期/时间函数先,先来了…

Hive SQL CURRENT_DATE导致的datediff错误

Hive SQL中的datediff函数返回的是2个日期的间隔天数。在使用过程中发现了一个比较有趣的坑: SELECT customer_id, COUNT(DISTINCT date(createdate)) - 1 AS frequency , datediff(MAX(createdate), MIN(cre…

器→工具, 编程语言 ·

数据分析查询引擎Impala初探

Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理…

器→工具, 开源项目 ·