分类: 数据

正例-无标记学习PU Learning

什么是 PU Learning? PU Learning 的全称是 Positive-Unlabeled Learning,即正例-无标记学习。它是一种在半监督学习范畴内的特殊机器学习设定。 与传统的监督学习(数据有明确的“正例”和“负例”标签)不同…

相似人群扩展Lookalike技术

Lookalike简介 Lookalike(相似人群扩展)是一项用于在庞大用户群中寻找与特定“种子用户”相似的新用户的技术。它广泛应用于广告、推荐系统等领域,其核心逻辑可以概括为以下几个步骤: 核心方法解析 Lookali…

数据, 术→技巧 ·

出行/旅游场景下的用户细分

在当今竞争激烈的旅游市场中,将您的客户简单地归类为“商务旅客”或“休闲游客”已经远远不够了。这就像试图用一把钥匙打开所有的门——效果甚微。每一位旅行者都是独特的,他们的决策背后交织着复杂的需求、动机和行为…

数据, 术→技巧 ·

开源因果推断库CausalML

因果推断核心概念 我们将通过一个贯穿始终的简单例子来讲解:评估一个广告(比如一封营销邮件)对用户购买行为的影响。 干预(Treatment): 发送营销邮件。 W = 1:用户被分配到处理组(计划发送邮件)…

机器学习在酒店聚合中的应用与实践

在线旅游平台通过整合多个供应商的酒店资源,为用户提供一站式比价服务。酒店聚合能力直接影响用户体验:一方面需要确保信息准确,避免"到店无单"的风险;另一方面要保证信息的实时性,帮助用户快速决策。 业务挑…

数据, 术→技巧 ·

国际移动设备识别码IMEI

IMEI简介 IMEI(国际移动设备识别码)就像是手机的身份证号码,它是一个全球唯一的编码,用于在移动网络中识别每一部独立的手机设备 。 为了让您更清晰地了解IMEI的构成,下表详细解析了其15位数字的组合方…

数据, 术→技巧 ·

运营权重合理性评估与检测方法

引言:为什么需要关注权重合理性? 在企业运营、平台管理或评价体系设计中,指标权重的分配如同指挥棒,决定了整个体系的公正性和有效性。一个合理的权重体系,不仅要能准确区分对象差异,还要保证整体稳定性和公…

数据, 术→技巧, 运营 ·

文本易读性指标

文本易读性指标是一系列用于量化评估一段文本阅读和理解难易程度的数学公式或算法。它们通过分析文本中的特定语言特征(如词长、句长等),并输出一个分数或等级,这个分数/等级通常对应于一个教育年级水平或“容易/…

数据, 术→技巧 ·

项目实践:正负样本文本的关键词提取

项目简介:针对一标识的文本信息,抽取文本中的关键词,最后以词云的方式暂时关键词。数据集更有2列:text、flag。其中text是文本内容, flag样本标识(0或1)。 步骤一:对文本内容进行分词处理 这里采用的是结…

数据, 术→技巧 ·

谈谈数据会说谎

“Lies, damned lies, and statistics” 是一句广为人知的谚语,常被用来批判对统计数据的滥用或误导性使用。 出处与背景 起源争议:这句话的确切出处尚无定论,但普遍认为它源于19世纪的英国政坛。常被…

数据, 术→技巧 ·