分类: 术→技巧

Presto SQL体系化学习

在日常的工作中,使用较多的是Presto,原因是它比Spark快非常多。当然,使用过程中也会遇到一些问题,其中主要的是一些内置函数与Spark SQL存在较大的差异。这里对Presto SQL一个简单的整理。关于Presto的相关内容…

Hive SQL系统化学习

Apache Hive是一个开源的数据仓库框架,用于查询和分析大数据集存储在Hadoop文件系统中。 Hive 提供了一种类 SQL 的查询语言,叫做 HiveQL,它使得熟悉 SQL 的用户可以在 Hive 上查询、汇总和分析数据。同时,还…

数据, 术→技巧 ·

Spark SQL 系统化学习

日常工作很多自动化的任务使用的是Spark运行,这里抽时间地Spark SQL进行系统的学习。 Spark SQL 与Hive SQL的区别 Hive和Spark都是Apache的开源框架,而Hive SQL和Spark SQL是这两种框架上运行的SQL引擎。它…

数据, 术→技巧 ·

机票搜索中的OD信息

在机票搜索中,最关键的三要素通常包括: 出发地和目的地:这是任何机票搜索的基本核心。你需要知道从哪里出发,以及你想要去哪里。 日期:你需要知道出发和返回的日期。这一信息将直接影响航班的可用性和…

产品, 术→技巧 ·

Spark SQL JSON数据的解析

公司记录日志的时候,将请求数据和返回数据以JSON格式存储到了数据库中,为了更高的处理这部分JSON数据,就用到了Spark SQL自带的一些JSON函数。这里做这些函数的方法做了一些整理。 get_json_object(json_txt…

术→技巧, 研发 ·

数据结构之链表

链表简介 链表(Linked List)是一种基础的数据结构,是由一系列节点(Node)组成的集合。每个节点包括两部分:一部分是数据,另一部分是指向下一个节点的引用(在双向链表中,还有指向前一个节点的引用)。 这…

术→技巧, 研发 ·

GCC简明教程

GCC简介 GCC(GNU Compiler Collection)是由GNU项目开发的程序语言编译器。原名为GNU C Compiler(GNU C编译器),因为最初只能处理C语言。GCC现在已经能支持多种编程语言,包括C、C++、Objective-C、Fortran、Ad…

图片格式AVIF简介

在介绍 WebP 的时候,我们已经知道了相比 JPG 和 PNG 来说,WebP 已经兼顾了高呈现质量以及更小的文件体积,可以说已经非常优秀了,然后还是有一群人不满足于此,他们开发出了 AVIF 这种号称下一代图像压缩格式的玩…

术→技巧, 研发 ·

数据库事务与ACID

事务简介 事务的定义 事务(Transaction)在计算和数据库处理中是一个非常重要的概念。事务是一个被数据库管理系统(DBMS)视为一次性、逻辑上的操作单元的操作序列。这个操作序列中包含了对数据库的读、写操作。…

术→技巧, 研发 ·

分布式理论CAP与BASE

CAP理论 CAP简介 CAP理论是计算机分布式系统设计中的一个重要理论,由Eric Brewer教授在2000年的ACM会议上首次提出。CAP是Consistency(一致性)、Availability(可用性)、Partition tolerance(分区容忍性)的…

术→技巧, 研发 ·