Project Nessie简介 Project Nessie 是一个开源的数据湖元数据管理服务,旨在为数据湖提供类似于 Git 的分布式版本控制功能。它允许用户对数据湖中的表和视图进行版本化管理,从而支持数据的分支、合并和回滚操作…
OpenLineage简介 OpenLineage 是一个开源的标准化框架,旨在为数据生态系统提供统一的数据血缘追踪和可观察性。它定义了一套开放的 API 和模型,用于捕获和传递数据血缘信息,帮助企业更好地理解和管理数据管道的…
OpenMetadata简介 OpenMetadata 是一个开源的元数据管理和数据治理平台,旨在帮助企业更好地管理、发现和治理其数据资产。它提供了一个统一的框架,用于收集、存储和查询各种数据源的元数据,支持数据的发现、血缘…
Marquez简介 Marquez 是一个开源的元数据服务平台,专注于数据管道的可观察性和数据治理。它旨在帮助企业跟踪和管理数据流动,提供关于数据集和数据处理作业的详细元数据。通过提供数据血缘、数据质量和数据依赖关…
DataHub简介 DataHub 是一个开源的元数据平台,最初由 LinkedIn 开发,旨在帮助企业实现数据的发现、管理和治理。DataHub 提供了一套工具和服务,用于收集、存储和查询数据资产的元数据,帮助用户理解和利用企业的…
CKAN简介 CKAN(Comprehensive Knowledge Archive Network)是一个开源的数据管理系统,专门用于发布、共享和发现数据集。它被广泛用于政府、组织和公司,帮助他们将数据发布到数据门户网站,以便公众或内部用户可…
Apache Atlas简介 Apache Atlas 是一个开源的元数据管理和数据治理框架,旨在帮助组织对其数据资产进行分类、管理和治理。作为 Hadoop 生态系统的一部分,Atlas 提供了一种集中化的方式来捕获、管理和访问数据元数…
Amundsen简介 Amundsen 是一个开源的数据发现和数据目录工具,最初由 Lyft 开发。它旨在帮助企业用户更好地理解、发现和利用组织内的数据资源。通过提供一个直观的界面和强大的搜索功能,Amundsen 使数据科学家、…