随着机器学习等技术的发展,智能化营销已经渗透到各行各业。商家可以通过多种渠道触达消费者,比如淘宝上商家可以圈定他想要的目标人群,进行广告推送,为店铺拉新,也可以通过短信或旺旺这些渠道定向发放优惠券。…
什么是正则化? 正则化(Regularization)是机器学习中一种防止模型过拟合的核心技术。它的核心思想是:在模型训练过程中,对模型的复杂度施加惩罚,让模型在“拟合数据”和“保持简单”之间找到平衡。简单来说,正则…
三角函数回顾 六大三角函数 直角三角形定义 在一个直角三角形中,假设有一个锐角$\theta$,定义: 邻边(Adjacent):与角$\theta$相邻的边。 对边(Opposite):与角$\theta$相对的边。 斜边(Hypotenuse):…
在线性代数中,向量和矩阵是重要的概念。向量是一种特殊的矩阵,矩阵也是一种特殊的向量。一个n维向量,可以写成nx1的矩阵,或者1xn的矩阵,分别叫做列向量与行向量。单个向量可以视为一阶矩阵,多个向量组合在一起…
在使用开源的大语言模型或者调用大语言模型API的时候会遇到temperature、top_p、top_k等参数,对于不了解的LLM的原理的人,可能一头雾水,不知道如何设置。 LLM的原理 LLM看似很神奇,但本质还是一个概率问题…
平时在使用LightGMB,需要保存训练好的模型。以下是梳理的几种方式: 使用LightGBM 自带的save_model 方法 import lightgbm as lgb # 假设已经训练好的模型是 model model = lgb.LGBMClassifier() model.fit(X_t…
Apache Beam 简介 Apache Beam 是一个统一的编程模型,用于定义和执行大规模的数据处理任务,支持批处理和流处理。它提供了一种抽象层,使开发者可以编写一次数据处理逻辑,然后在不同的分布式处理引擎(如 Apache…
Kubeflow简介 Kubeflow是一个开源的机器学习平台,旨在简化在Kubernetes上部署、管理和扩展机器学习工作流的过程。它提供了一整套工具和组件,帮助数据科学家和工程师从数据准备、模型训练到部署和监控,构建完整的…
Metaflow简介 Metaflow是由Netflix开发并开源的一个数据科学框架,旨在帮助数据科学家和工程师更容易地构建和管理可扩展的数据科学工作流。Metaflow提供了一个用户友好的API,支持在本地和云端(如AWS)执行工作流…
Azkaban简介 Azkaban 是一个开源的批处理工作流调度系统,由 LinkedIn 开发,用于管理和调度大规模数据处理任务。它主要用于数据工程和数据分析领域,帮助用户定义和执行复杂的工作流。 产生背景 Azkaban 的产生…