标签: hive

Hive UDF的开发简介

Hive 内置了很多函数,可以参考Hive Built-In Functions。但是有些情况下,这些内置函数还是不能满足我们的需求,这时候就需要UDF出场了。 UDF全称:User-Defined Functions,即用户自定义函数,在Hive SQL编译…

产品&运营分析技能培训:Hive SQL

以下内容是自己近期咋在公司内进行的培训PPT的内容,由于示例SQL脚本涉及到公司的一些库表,所以已经去除。 Hive SQL概述 为什么要学SQL? 性价比高:学习一周,受用终生。(有小学英语能力即可,相当简单,…

器→工具, 工具软件 ·

大数据通识:HIVE

Hive简介 Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具。可以将结构化的数据映射为一张数据库表并提供 HQL(Hive SQL)查询功能。底层数据是存储在 HDFS 上,Hive的本质是将 SQL 语句转换为 MapR…

JupyterLab HIVE数据同步流程

公司的数据存放在HDFS上,但是模型的训练时需要用到这部分数据,于是就有了数据同步的需求。以下是个人整理的数据同步流程,仅适用于公司内部,其他地方由于环境不同可能不可用。 数据从Hive同步到JupyterLab …

数据, 术→技巧 ·

SQL 日期/时间处理函数

在数据统计分析中,经常会遇到需要对时间进行格式转化或其他层面的内容。由于每种数据库自带的相关函数存在一定的差异,所以经常会记不得如何使用。今天做下简单的梳理。 在开始学习日期/时间函数先,先来了…

Hive SQL CURRENT_DATE导致的datediff错误

Hive SQL中的datediff函数返回的是2个日期的间隔天数。在使用过程中发现了一个比较有趣的坑: SELECT customer_id, COUNT(DISTINCT date(createdate)) - 1 AS frequency , datediff(MAX(createdate), MIN(cre…

器→工具, 编程语言 ·

数据分析查询引擎Impala初探

Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理…

器→工具, 开源项目 ·