分类: 法→原理

大语言模型的Temperature、Top-p、top_k

在使用开源的大语言模型或者调用大语言模型API的时候会遇到temperature、top_p、top_k等参数,对于不了解的LLM的原理的人,可能一头雾水,不知道如何设置。 LLM的原理 LLM看似很神奇,但本质还是一个概率问题…

LightGBM的模型保存

平时在使用LightGMB,需要保存训练好的模型。以下是梳理的几种方式: 使用 LightGBM 自带的 save_model 方法 import lightgbm as lgb # 假设已经训练好的模型是 model model = lgb.LGBMClassifier() mod…

大数据统一编程模型Apache Beam

Apache Beam简介 Apache Beam 是一个统一的编程模型,用于定义和执行大规模的数据处理任务,支持批处理和流处理。它提供了一种抽象层,使开发者可以编写一次数据处理逻辑,然后在不同的分布式处理引擎(如 Apache …

机器学习工作流平台Kubeflow

Kubeflow简介 Kubeflow 是一个开源的机器学习平台,旨在简化在 Kubernetes 上部署、管理和扩展机器学习工作流的过程。它提供了一整套工具和组件,帮助数据科学家和工程师从数据准备、模型训练到部署和监控,构建完…

数据科学工作流框架Metaflow

Metaflow简介 Metaflow 是由 Netflix 开发并开源的一个数据科学框架,旨在帮助数据科学家和工程师更容易地构建和管理可扩展的数据科学工作流。Metaflow 提供了一个用户友好的 API,支持在本地和云端(如 AWS)执行…

开源批处理工作流调度系统Azkaban

Azkaban简介 Azkaban 是一个开源的批处理工作流调度系统,由 LinkedIn 开发,用于管理和调度大规模数据处理任务。它主要用于数据工程和数据分析领域,帮助用户定义和执行复杂的工作流。 产生背景 Azkaban 的…

Kubernetes工作流引擎Argo Workflows

Argo Workflows简介 Argo Workflows 是一个 Kubernetes 原生的工作流引擎,专为运行在 Kubernetes 集群上的容器化任务设计。它允许用户定义、调度和管理复杂的工作流,广泛应用于机器学习、数据处理、CI/CD 和其他…

Hadoop 生态安全框架Apache Ranger

Apache Ranger简介 Apache Ranger 是一个强大的开源安全框架,专为 Hadoop 生态系统中的数据治理和安全控制而设计。Ranger 提供了一个集中化的安全策略管理平台,可以帮助企业管理和实施细粒度的访问控制,确保数…

开源容器编排平台Kubernetes

Kubernetes简介 Kubernetes(简称 K8s)是一个开源的容器编排平台,旨在自动化应用程序的部署、扩展和管理。它最初由 Google 开发,现在由云原生计算基金会(CNCF)维护。Kubernetes 提供了一种灵活的架构来管理容…

集群资源管理和作业调度工具Yarn

YARN简介 Apache Hadoop YARN(Yet Another Resource Negotiator)是 Hadoop 生态系统中的一个关键组件,负责集群资源管理和作业调度。YARN 的引入大大提升了 Hadoop 的可扩展性和灵活性,使得不同类型的计算框架…