所有文章

自带版本控制的数据库Dolt

Dolt简介 Dolt 是一个创新的开源数据库,它结合了关系型数据库的功能和Git的版本控制特性。这种独特的结合使得 Dolt 成为一个适合数据管理和协作的工具,特别是在需要频繁更新和版本控制的数据项目中。 核心…

器→工具, 工具软件 ·

Git大文件扩展 LFS

Git Large File Storage (Git LFS) 是一个开源扩展,用于管理和存储Git仓库中的大文件。Git本身并不擅长处理大文件,因为它会将文件的每个版本都完整地存储在.git目录中,这会导致仓库膨胀并影响性能。Git LFS通过…

器→工具, 工具软件 ·

异常根因分析方法Adtributor

Adtributor 算法简介 Adtributor 算法是由微软研究院在 2014 年提出的一种用于多维时间序列异常根因分析的方法。它主要用于解决以下问题:当某个关键性能指标 (KPI) 发生异常波动时,如何快速准确地找出导致该异常…

数据, 术→技巧 ·

指标波动归因贡献率计算

指标波动贡献率 指标波动贡献率是一种用于分析和衡量不同因素对某一指标变动影响的统计方法。它在经济学、金融学、市场分析以及其他领域中被广泛应用。通过分析指标波动贡献率,可以更好地理解各个因素在指标变动…

数据, 术→技巧 ·

前端技术WebAssembly的初探

什么是WebAssembly ? WebAssembly(简称 Wasm)是一种用于在 Web 浏览器中运行二进制代码的技术。它是由 W3C WebAssembly 工作组开发的开放标准,旨在提供一种高效、安全的方式来在浏览器中执行代码。WebAssembly…

术→技巧, 研发 ·

分布式数据集成平台SeaTunnel

SeaTunnel简介 SeaTunnel(原名 Waterdrop)是一个分布式的高性能数据集成平台,专为处理海量数据的实时流和批处理而设计。它最初由中国的开源社区开发,并逐渐被广泛应用于各种大数据场景中。SeaTunnel 的设计目…

器→工具, 工具软件 ·

分布式计算框架Ray

Ray简介 Ray 是一个开源的分布式计算框架,专为机器学习和人工智能应用设计。它提供了一种灵活、高效的方式来构建和运行分布式应用程序,特别是在需要大规模并行计算的场景中。Ray 的核心是一个通用的分布式执行引…

器→工具, 工具软件 ·

开源的元数据管理工具OpenMetadata

OpenMetadata简介 OpenMetadata 是一个开源的元数据管理和数据治理平台,旨在帮助企业更好地管理、发现和治理其数据资产。它提供了一个统一的框架,用于收集、存储和查询各种数据源的元数据,支持数据的发现、血缘…

器→工具, 工具软件 ·

开源元数据服务平台Marquez

Marquez简介 Marquez 是一个开源的元数据服务平台,专注于数据管道的可观察性和数据治理。它旨在帮助企业跟踪和管理数据流动,提供关于数据集和数据处理作业的详细元数据。通过提供数据血缘、数据质量和数据依赖关…

器→工具, 工具软件 ·

数据版本管理工具LakeFS

LakeFS简介 LakeFS 是一个开源的数据湖管理平台,旨在为数据湖提供类似于 Git 的版本控制和管理功能。它允许用户对数据湖中的数据进行版本化、分支和合并操作,从而提升数据管理的灵活性和可控性。LakeFS 支持在大…

器→工具, 工具软件 ·