标签: SQL

开源在线SQL工具盘点

在开源可视化报表工具Superset、metabase、Redash时,已经涉及到一部分在线SQL工具的内容,但是其整个整个可视化工具的一部分。今天要介绍的是另外独立的开源在线SQL工具。 在线SQL查询SQL SQLPad SQLPad 是一个…

器→工具, 开源项目 ·

Pandas基础教程之替换SQL

对于很多数据分析的同学来说,最熟悉的莫过于SQL(相关SQL教程见产品&运营分析技能培训:Hive SQL),针对数据处理问题,脑海里的第一反应也往往都是SQL,而在日常的工作中往往也需要在Pandas的DataFrame数据上…

数据, 术→技巧 ·

开源分布式查询引擎Presto

Presto是什么? Presto是Facebook开源的MPP(Massive Parallel Processing)SQL引擎,其理念来源于一个叫Volcano的并行数据库,该数据库提出了一个并行执行SQL的模型,它被设计为用来专门进行高速、实时的数据分析…

产品&运营分析技能培训:Hive SQL

以下内容是自己近期咋在公司内进行的培训PPT的内容,由于示例SQL脚本涉及到公司的一些库表,所以已经去除。 Hive SQL概述 为什么要学SQL? 性价比高:学习一周,受用终生。(有小学英语能力即可,相当简单,…

器→工具, 工具软件 ·

大数据通识:HIVE

Hive简介 Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具。可以将结构化的数据映射为一张数据库表并提供 HQL(Hive SQL)查询功能。底层数据是存储在 HDFS 上,Hive的本质是将 SQL 语句转换为 MapR…

使用SQL统计箱形图数据

箱形图常用于数据的可视化,先前的文章中介绍过使用Python生成箱形图。箱形图中通常包含的数据有: 最小值(不包含异常值)Lower Whisker = Q1-1.5(Q3-Q1) 最大值(不包含异常值)Upper Whisker = Q3+1.5(Q…

数据, 术→技巧 ·

通过SQL定义用户浏览Session

PC时代,用户问页面时,我们会先检查用户的Cookie中是否存在SessionId,如果不存在,则会通过随机数的方式生成一个SessionId存入Cookie中。如果存在,我们会更新这个Cookie的失效时间(30分钟后)。即只要用户访问…

数据, 术→技巧 ·

SQL 日期/时间处理函数

在数据统计分析中,经常会遇到需要对时间进行格式转化或其他层面的内容。由于每种数据库自带的相关函数存在一定的差异,所以经常会记不得如何使用。今天做下简单的梳理。 在开始学习日期/时间函数先,先来了…

Hive SQL CURRENT_DATE导致的datediff错误

Hive SQL中的datediff函数返回的是2个日期的间隔天数。在使用过程中发现了一个比较有趣的坑: SELECT customer_id, COUNT(DISTINCT date(createdate)) - 1 AS frequency , datediff(MAX(createdate), MIN(cre…

器→工具, 编程语言 ·

MySQL命名、设计及使用规范

最近在看MySQL相关的内容,整理如下规范,作为一名刚刚学习MySQL的菜鸟,整理的内容非常的基础,中间可能涉及到有错误的地方,欢迎批评指正,看到有错误的地方期望看官留言。 数据库环境 dev:开发环境,开发…

数据, 术→技巧, 研发 ·