分类: 法→原理

开源因果推断库CausalML

因果推断核心概念 我们将通过一个贯穿始终的简单例子来讲解:评估一个广告(比如一封营销邮件)对用户购买行为的影响。 干预(Treatment): 发送营销邮件。 W = 1:用户被分配到处理组(计划发送邮件)…

为什么聚类常让人失望

引言:聚类的美好承诺与普遍困境 当我们谈论聚类分析时,脑海中往往会浮现这样一个理想场景:将相似的数据对象自动分组,为业务决策提供清晰指导。这种无监督学习方法的吸引力在于其能够探索数据内在结构,而无需…

机器学习, 法→原理 ·

字符压缩编码之香农-范诺编码(Shannon-Fano Coding)

香农-范诺编码简介 香农-范诺编码(Shannon-Fano Coding)是一种经典的无损数据压缩算法,由克劳德·香农(Claude Shannon)和罗伯特·范诺(Robert Fano)于1948年左右独立提出。这是第一种基于信息熵理论的压缩算…

法→原理, 算法实现 ·

字符压缩之哈夫曼编码(Huffman Coding)

哈夫曼编码简介 哈夫曼编码(Huffman Coding)是一种基于字符出现频率进行编码的无损数据压缩算法,由大卫·哈夫曼于1952年提出。它的核心思想是:赋予高频字符较短的编码,赋予低频字符较长的编码,从而使整个数据…

法→原理, 算法实现 ·

NLP技术分析之均值池化

均值池化简介 均值池化(Mean Pooling) 是自然语言处理(NLP)中常用的一种技术,用于将一组词向量(如一个句子中所有词的向量)压缩成一个固定长度的句子向量。它的核心思想是通过简单的数学平均操作,将分散的…

营销增益模型(Uplift Model)

随着机器学习等技术的发展,智能化营销已经渗透到各行各业。商家可以通过多种渠道触达消费者,比如淘宝上商家可以圈定他想要的目标人群,进行广告推送,为店铺拉新,也可以通过短信或旺旺这些渠道定向发放优惠券。…

机器学习, 法→原理 ·

机器学习中的正则化

什么是正则化? 正则化(Regularization)是机器学习中一种防止模型过拟合的核心技术。它的核心思想是:在模型训练过程中,对模型的复杂度施加惩罚,让模型在“拟合数据”和“保持简单”之间找到平衡。简单来说,正则…

机器学习, 法→原理 ·

三角函数在机器学习中的应用

三角函数回顾 六大三角函数 直角三角形定义 在一个直角三角形中,假设有一个锐角$\theta$,定义: 邻边(Adjacent):与角$\theta$相邻的边。 对边(Opposite):与角$\theta$相对的边。 斜边(Hypotenuse):…

机器学习, 法→原理 ·

线性代数学习之向量

在线性代数中,向量和矩阵是重要的概念。向量是一种特殊的矩阵,矩阵也是一种特殊的向量。一个n维向量,可以写成nx1的矩阵,或者1xn的矩阵,分别叫做列向量与行向量。单个向量可以视为一阶矩阵,多个向量组合在一起…

机器学习, 法→原理 ·

大语言模型的Temperature、Top-p、top_k

在使用开源的大语言模型或者调用大语言模型API的时候会遇到temperature、top_p、top_k等参数,对于不了解的LLM的原理的人,可能一头雾水,不知道如何设置。 LLM的原理 LLM看似很神奇,但本质还是一个概率问题…