在日常的工作中,使用较多的是Presto,原因是它比Spark快非常多。当然,使用过程中也会遇到一些问题,其中主要的是一些内置函数与Spark SQL存在较大的差异。这里对Presto SQL一个简单的整理。关于Presto的相关内容…
Apache Hive是一个开源的数据仓库框架,用于查询和分析大数据集存储在Hadoop文件系统中。 Hive 提供了一种类 SQL 的查询语言,叫做 HiveQL,它使得熟悉 SQL 的用户可以在 Hive 上查询、汇总和分析数据。同时,还…
日常工作很多自动化的任务使用的是Spark运行,这里抽时间地Spark SQL进行系统的学习。 Spark SQL 与Hive SQL的区别 Hive和Spark都是Apache的开源框架,而Hive SQL和Spark SQL是这两种框架上运行的SQL引擎。它…
公司记录日志的时候,将请求数据和返回数据以JSON格式存储到了数据库中,为了更高的处理这部分JSON数据,就用到了Spark SQL自带的一些JSON函数。这里做这些函数的方法做了一些整理。 get_json_object(json_txt…
在开源可视化报表工具Superset、metabase、Redash时,已经涉及到一部分在线SQL工具的内容,但是其整个整个可视化工具的一部分。今天要介绍的是另外独立的开源在线SQL工具。 在线SQL查询SQL SQLPad SQLPad 是一个…
对于很多数据分析的同学来说,最熟悉的莫过于SQL(相关SQL教程见产品&运营分析技能培训:Hive SQL),针对数据处理问题,脑海里的第一反应也往往都是SQL,而在日常的工作中往往也需要在Pandas的DataFrame数据上…
Presto是什么? Presto是Facebook开源的MPP(Massive Parallel Processing)SQL引擎,其理念来源于一个叫Volcano的并行数据库,该数据库提出了一个并行执行SQL的模型,它被设计为用来专门进行高速、实时的数据分析…
以下内容是自己近期咋在公司内进行的培训PPT的内容,由于示例SQL脚本涉及到公司的一些库表,所以已经去除。 Hive SQL概述 为什么要学SQL? 性价比高:学习一周,受用终生。(有小学英语能力即可,相当简单,…
Hive简介 Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具。可以将结构化的数据映射为一张数据库表并提供 HQL(Hive SQL)查询功能。底层数据是存储在 HDFS 上,Hive的本质是将 SQL 语句转换为 MapR…
箱形图常用于数据的可视化,先前的文章中介绍过使用Python生成箱形图。箱形图中通常包含的数据有: 最小值(不包含异常值)Lower Whisker = Q1-1.5(Q3-Q1) 最大值(不包含异常值)Upper Whisker = Q3+1.5(Q…