标签: SQL

Spark SQL 系统化学习

日常工作很多自动化的任务使用的是 Spark 运行,这里抽时间地 SparkSQL 进行系统的学习。 SparkSQL 与 HiveSQL 的区别 Hive 和 Spark 都是 Apache 的开源框架,而HiveSQL 和 SparkSQL 是这两种框架上运行的 SQL …

数据, 术→技巧 ·

Spark SQL JSON数据的解析

公司记录日志的时候,将请求数据和返回数据以JSON格式存储到了数据库中,为了更高的处理这部分JSON数据,就用到了SparkSQL自带的一些JSON函数。这里做这些函数的方法做了一些整理。 get_json_object(json_txt, pa…

术→技巧, 研发 ·

开源在线SQL工具盘点

在开源可视化报表工具Superset、metabase、Redash时,已经涉及到一部分在线SQL工具的内容,但是其整个整个可视化工具的一部分。今天要介绍的是另外独立的开源在线SQL工具。 在线SQL查询SQL SQLPad SQLPad是一个开源…

器→工具, 开源项目 ·

Pandas基础教程之替换SQL

对于很多数据分析的同学来说,最熟悉的莫过于SQL(相关SQL教程见产品&运营分析技能培训:HiveSQL),针对数据处理问题,脑海里的第一反应也往往都是SQL,而在日常的工作中往往也需要在Pandas的DataFrame数据上…

数据, 术→技巧 ·

开源分布式查询引擎Presto

Presto是什么? Presto是Facebook开源的MPP(Massive Parallel Processing)SQL引擎,其理念来源于一个叫Volcano的并行数据库,该数据库提出了一个并行执行SQL的模型,它被设计为用来专门进行高速、实时的数据分析…

产品&运营分析技能培训:Hive SQL

HiveSQL概述 为什么要学SQL? 性价比高:学习一周,受用终生。(有小学英语能力即可,相当简单,不用害怕学不会) 高效便捷:免去数据需求的排期与沟通,可根据自己需要及时调整取数逻辑 思维拓展:了解业务存…

器→工具, 工具软件 ·

大数据通识:HIVE

Hive简介 Hive由Facebook实现并开源,是基于Hadoop的一个数据仓库工具。可以将结构化的数据映射为一张数据库表并提供HQL(Hive SQL)查询功能。底层数据是存储在HDFS上,Hive的本质是将SQL语句转换为MapReduce任务运…

使用SQL统计箱形图数据

箱形图常用于数据的可视化,先前的文章中介绍过使用Python生成箱形图。箱形图中通常包含的数据有: 最小值(不包含异常值)Lower Whisker = Q1 - 1.5(Q3 - Q1) 最大值(不包含异常值)Upper Whisker = Q3 + 1.5(…

数据, 术→技巧 ·

通过SQL定义用户浏览Session

PC时代,用户问页面时,我们会先检查用户的Cookie中是否存在SessionId,如果不存在,则会通过随机数的方式生成一个SessionId存入Cookie中。如果存在,我们会更新这个Cookie的失效时间(30分钟后)。即只要用户访问…

数据, 术→技巧 ·

SQL 日期/时间处理函数

在数据统计分析中,经常会遇到需要对时间进行格式转化或其他层面的内容。由于每种数据库自带的相关函数存在一定的差异,所以经常会记不得如何使用。今天做下简单的梳理。 在开始学习日期/时间函数先,先来了解下…