Lookalike简介
Lookalike(相似人群扩展)是一项用于在庞大用户群中寻找与特定“种子用户”相似的新用户的技术。它广泛应用于广告、推荐系统等领域,其核心逻辑可以概括为以下几个步骤:

核心方法解析
Lookalike的实现方式多样,主要可分为三类,它们各有侧重,适用于不同的场景和数据类型。
- 基于用户画像的显式拓展。这是最直观的方法。它依赖于完善的用户标签体系(如人口属性、兴趣、行为等)。系统会分析种子用户群体的共同高价值标签,然后直接用这些标签去全量用户中筛选匹配的用户。这种方法简单高效,适合作为初步召回,但比较粗糙,可能无法捕捉复杂的隐性关联。
- 基于算法模型的隐式拓展。这是目前主流且更智能的方法。它将种子用户作为正样本,并从大盘用户中选取一部分作为负样本,从而构建一个分类问题(如使用逻辑回归、梯度提升树等模型)。模型学习后,能预测一个用户与种子用户相似的“概率”。这种方法能综合学习深层的、非显性的特征组合,精准度更高。腾讯等公司还提出了结合注意力机制(Attention)的深度学习模型(如RALM),能更好地表达用户兴趣和群体相似性。
- 基于社交网络的拓展。这种方法基于“具有相似社交关系的人也可能有相似兴趣”的假设。它利用用户的好友、关注等关系数据构建网络图,通过图算法(如标签传播、Node2Vec等)将种子用户的特征扩散到其关联节点上。这种方法在社交平台(如微信、微博)上效果显著。
主要优势与应用场景
Lookalike技术的核心优势在于它能有效解决营销中的核心矛盾:在保持目标用户精准度的同时,显著扩大覆盖人群的规模,从而打破仅靠规则圈选人群的数量瓶颈。其主要应用场景包括:
- 精准广告投放:这是Lookalike最经典的应用。广告主提供一批高价值客户(种子用户),平台利用Lookalike技术找到海量潜在新客户进行投放,显著提升广告转化率。
- 营销活动触达:当运营人员通过条件筛选出核心目标用户(种子用户)但数量不足时,可用Lookalike进行扩量,以便向更大量的潜在用户推送活动信息。
- 商品与内容推荐:在推荐系统中,可用于发现与“喜欢某商品”或“关注某内容”的用户群体相似的人,帮助他们发现新内容。
实践中的关键考量
在实际应用中,成功实施Lookalike需要注意以下几个关键点:
- 种子用户的质量:种子用户必须能精准代表你希望寻找的目标群体。低质量的种子用户会导致扩展方向错误,所谓“垃圾进,垃圾出”。
- 负样本的构造:这是一个典型的PU Learning(正例与未标注样本学习) 问题。因为从大盘随机选取的用户并不一定是真正的“负样本”(即绝对不感兴趣的用户),如何构造高质量的负样本是模型效果的关键。
- 特征工程的重要性:无论是使用用户画像还是模型,特征的全面性和质量至关重要。这包括基础属性、行为数据、兴趣偏好等多维度的特征。
- 模型的可解释性:业务方通常不仅需要结果,还希望了解“为什么这些用户被扩展出来”。因此,能够解释扩展人群与种子用户在哪些特征上相似,对于赢得信任和优化策略非常重要。
业界应用实例
许多大型科技公司都将Lookalike作为其核心营销技术:
- Facebook的“Lookalike Audiences”:允许广告主基于自定义受众(如网站访客)来创建相似受众。
- 谷歌的“Similar Audiences”:在谷歌广告网络中,基于用户的搜索和浏览行为为广告主寻找相似人群。
- 阿里达摩盘(DMP):帮助电商商家基于种子用户(如品牌忠诚客户)扩展潜在新客。
- 腾讯社交广告:利用其丰富的社交关系链数据,为广告主进行相似人群扩展。
基于用户画像的显式拓展
基于用户画像的显式拓展是Lookalike技术中一种非常直接和经典的方法。
核心思路与操作流程
这种方法的核心逻辑非常直观:分析种子用户的显式特征,然后用这些特征作为“筛子”,从大规模用户库中筛选出具有相同或相似特征的用户。
定义种子用户 (Seed Users)
种子用户是扩展的基石,他们通常是广告主或业务方明确认定的高价值群体,例如:
- 已有付费用户
- 高活跃度用户
- 完成特定关键行为的用户(如将商品加入购物车、多次浏览特定页面等)
种子用户的质量至关重要,直接决定了扩展方向的准确性。
构建用户画像 (User Profiling)
系统会从数据库中提取种子用户的各类显式标签。这些标签通常包括:
- 人口统计学特征:年龄、性别、地域、职业、收入水平、教育程度等。
- 消费属性:品牌偏好、消费能力、购买频次、热衷的品类等。
- 行为特征:近期的浏览、搜索、点击、加购、收藏等行为。
- 社交属性(如果可用):家庭状况、所属社群等。
分析与选择匹配特征
不是所有标签都同等重要。这一步需要分析种子用户群体在这些特征上的分布和共性。例如,可能发现种子用户中“女性占比80%”、“年龄集中在25-35岁”、“对高端护肤品关注度极高”。这些共性的高权重特征将被选为核心匹配条件。
执行标签匹配与筛选
将上一步确定的核心特征组合成筛选条件,在海量用户库(通常称为“候选集”或“大盘用户”)中进行匹配和筛选。例如,规则可能是:“女性,年龄在25-35岁,常住一线城市,近一个月内搜索过‘抗衰老精华’的用户”。
优势与局限性
这种方法在业界广泛应用,主要源于其显著优势,但也存在固有的局限。
主要优势
- 简单直观,易于实现:技术门槛相对较低,业务人员也容易理解,可以快速上线验证效果。
- 可解释性强:扩展出的每一个用户为什么被选中,都有明确的标签依据,便于向广告主或业务方解释和沟通。
- 计算效率高:对于标签体系完善的数据平台,大规模的标签匹配和查询可以高效完成,适合需要快速响应的场景。
固有局限性
- 依赖高质量的画像体系:如果标签体系不完善、数据不准或更新不及时,扩展效果会大打折扣。
- 难以发现潜在关联:方法过于依赖表面特征。例如,规则可能筛掉那些不直接匹配标签(如“男性”),但实际上有潜在需求(如为伴侣购买化妆品)的优质潜在用户。
- 可能遗漏复杂特征组合:用户兴趣往往是多个隐性特征交织的结果,简单的标签规则难以捕捉这种复杂性。
典型应用场景
尽管有一定局限性,基于用户画像的显式拓展示范场景非常明确:
- 冷启动或快速测试:在新业务启动或对新客群缺乏先验知识时,利用基础人口属性进行快速圈定和测试。
- 目标人群非常明确:当目标群体的特征极其鲜明且稳定时(例如,向备孕家庭推广母婴产品),这种方法非常有效。
- 作为复杂模型的初步筛选:在更先进的Lookalike方法(如模型法)中,也常先用显式规则进行粗筛,缩小候选集,提升整体流程效率。
实施要点与建议
为了让这种方法发挥最大效用,有几个关键点需要注意:
- 确保种子用户纯度:再次强调,种子用户必须能精准代表你的目标。
- 精选核心特征:避免陷入“标签陷阱”,不是标签越多越好。应通过数据分析(如计算特征重要性)筛选出最具区分度的核心特征。
- 持续评估与迭代:对扩展出的人群进行投放后,要紧密追踪其转化效果等核心指标,根据反馈不断调整和优化特征选择与匹配规则。
基于算法模型的隐式拓展
基于算法模型的隐式拓展是目前Lookalike技术中主流、最智能且效果最好的方法。与“基于用户画像的显式拓展”不同,隐式拓展不再依赖于人工制定规则和挑选标签。它的核心思想是:让机器学习模型自动从数据中学习和发现“种子用户”群体最本质的、深层的共同特征模式,然后根据这个模式去全量用户中寻找相似者。
核心流程与技术细节
定义种子用户与准备样本
- 种子用户作为正样本:与显式拓展一样,首先需要定义一批高质量的核心用户,他们将被模型视为“正样本”,即我们希望寻找的同类人。
- 负样本的构造——最大的挑战与关键:这是隐式拓展中最关键也最复杂的一步。我们需要为模型提供“负样本”,即我们不希望寻找的用户。
- 简单做法:从非种子用户中随机采样一部分用户作为负样本。但这种方法有巨大风险,因为随机采样的用户中可能包含大量“潜在的正样本”(即未来的高价值用户,只是尚未被我们发现或转化)。
- 高级做法(PU Learning):由于很难获得纯净的负样本,这本质上是一个 PU Learning 问题。常用策略包括:
- 选择明确的负样本:例如,将明确表示不感兴趣或有过负面行为的用户作为负样本。
- 非负样本采样:将“未标注样本”(即除正样本外的所有用户)视为一个正负样本的混合体,使用一些专门的PU Learning算法来处理。
特征工程:构建用户特征向量
这是模型的“食物”。我们需要将每个用户(包括正、负样本和待预测的大盘用户)转化为一串机器能理解的数字,即特征向量。这些特征通常比显式拓展所用的标签更细粒度、更丰富,包括:
- 静态特征:人口属性(年龄、性别等)。
- 动态行为特征:点击、浏览、搜索、购买、时长等行为的次数、频率、最近发生时间等。这些行为可以按商品类别、时间窗口等进行聚合。
- 兴趣偏好特征:通过模型(如Embedding)将用户的行为序列转化为兴趣向量,更能体现用户的深层偏好。
- 上下文特征:设备、网络、地理位置等。
模型训练:学习区分“种子”与“非种子”
我们将准备好的正负样本及其特征向量输入到一个二分类模型中。模型的目标是学习一个函数,能够准确区分一个用户是更接近“种子用户”(正样本)还是“非种子用户”(负样本)。常用模型包括:
- 逻辑回归(LR):简单、可解释性强,常作为基线模型。
- 梯度提升决策树(如XGBoost, LightGBM):效果强大,能自动处理特征交互,是目前业界的常用选择。
- 深度学习模型(如深度神经网络DNN):对于超大规模数据和特征,能学习更复杂的非线性关系。
模型训练完成后,输出的不是一个简单的“是”或“否”,而是一个概率值(例如0.8),代表该用户属于“种子用户同类”的可能性。
预测与人群扩展
用训练好的模型为全量大盘用户进行预测,得到每个用户的“相似度概率分”。然后,将所有用户按分数从高到低排序:
- Top-N 选择:直接选择分数最高的前N个用户作为扩展人群。
- 阈值选择:设定一个概率阈值(如7),选择所有分数高于该阈值的用户。
核心优势
与显式拓展相比,隐式拓展的优势是颠覆性的:
- 自动化发现深层关联:模型能自动学习到人脑难以设计的复杂特征组合。例如,它可能发现“经常在晚上9点后浏览汽车论坛且关注数码产品的男性用户”与种子用户高度相似,这种模式很难通过人工规则定义。
- 更精准,覆盖面更优:通过概率排序,能精准定位最像种子用户的群体,同时在保持相似度的前提下,突破规则限制,覆盖到更大量级的潜在用户。
- 动态演化:随着用户行为数据的积累,模型可以定期重新训练,从而适应种子用户特征的变化,保持扩展效果的时效性。
进阶技术:Embedding与Attention机制
为了进一步提升效果,业界广泛采用更先进的技术:
- 用户兴趣Embedding:将用户的历史行为序列(如浏览的商品ID序列)通过Word2Vec或Graph Embedding等技术,映射为一个低维稠密向量。这个向量能更好地表达用户的长期兴趣,作为模型的核心特征。
- 引入Attention(注意力)机制:模型借鉴了NLP中的Attention机制,例如腾讯公布的RALM模型。它可以评估用户不同历史行为的重要性(例如,最近的行为、与种子用户共同的行为权重更高),从而实现更精细化的相似度计算,显著提升扩展人群的精准度。
挑战与注意事项
- 冷启动问题:对于新业务或新广告主,种子用户数量少或行为数据稀疏,模型难以有效训练。
- 数据依赖性强:效果高度依赖于特征工程的质量和数据量。数据不准、特征不全,效果会大打折扣。
- 模型可解释性相对较弱:虽然可以通过模型特征重要性(如LightGBM的feature_importances_)来理解,但不如“25-35岁女性”这样的规则直观,向业务方解释有一定门槛。
- 计算成本较高:相比标签筛选,模型训练和预测需要更多的计算资源。
基于算法模型的隐式拓展是Lookalike技术进化的高级形态。它通过将问题转化为机器学习任务,实现了从“人工定义相似”到“机器发现相似”的飞跃,极大地提升了人群扩展的准确性、规模化和智能化水平。尽管实施复杂度更高,但它已成为大数据时代精准营销不可或缺的核心技术。
基于社交网络的拓展
核心理念:同质性与影响力
基于社交网络的拓展方法,其理论基础源于社会学和信息传播学中的两个经典概念:
- 同质性:物以类聚,人以群分。具有相似社会特征、兴趣、行为的人更有可能彼此建立连接。因此,你朋友喜欢的东西,你也可能喜欢。
- 影响力:个体的态度和行为会受到其社交网络中的连接点影响。朋友之间的推荐和分享是强大的信任背书。
因此,这种方法的逻辑是:一个用户很可能与他的朋友、以及朋友的朋友具有相似的兴趣和需求。 我们可以利用这种社交关系链,将种子用户的特征“扩散”出去。
核心流程与技术方法
定义种子用户与构建社交图
- 种子用户:与之前一样,是需要扩展的核心高价值用户群体。
- 构建社交关系图:这是该方法的基础。将用户视为节点,用户之间的社交关系(如好友、关注、被关注、互动)视为边,构建一个庞大的图网络。边的权重可以表示关系的亲密度(如互动频率)。
应用图算法进行相似人群扩散
这是技术的核心。主要有以下几类方法:
- a) 基于关系亲密度的直接扩散
这类方法非常直观,直接利用直接的社交连接关系。
- 一度好友扩展:最简单的方式。直接获取所有种子用户的一度好友(直接好友),排除种子用户自身后,作为扩展人群。这种方法简单粗暴,但范围有限,且噪音较大。
- 标签传播算法:更智能的扩散方式。
- 原理:将种子用户标记为“目标人群”标签,将这种标签信息沿着图的边进行迭代传播。在每一轮迭代中,每个节点都会根据其邻居节点的标签来更新自己的标签。最终,与种子用户关系越近、连接路径越短的节点,获得“目标人群”标签的概率就越高。
- 结果:我们得到每个用户属于目标人群的“概率”或“得分”,从而可以进行排序和筛选。
- b) 基于网络结构的嵌入表示
这类方法更为先进,它试图将网络的拓扑结构信息转化为数值向量。
- 图嵌入:目标是将图中的每个节点(用户)映射到一个低维、稠密的向量空间中,使得图中在拓扑结构上相似的节点,其在向量空间中的距离也很近。
- 常用算法:Node2Vec/LINE:通过模拟随机游走的方式生成节点的序列,然后借鉴Word2Vec的思想,将节点序列视为“句子”,节点视为“单词”,从而学习出节点的向量表示。学习到的向量能够捕捉节点的社群关系、结构性角色等信息。
- 如何用于Lookalike:
- 使用所有用户(包括种子用户)的社交图,通过Node2Vec等算法为每个用户生成一个向量(称为“嵌入”)。
- 计算种子用户向量集的平均向量或质心,作为种子群体的代表向量。
- 计算大盘用户中每个用户的向量与这个种子代表向量的余弦相似度或欧氏距离。
- 根据相似度得分进行排序,选取最相似的用户作为扩展人群。
独特优势
与基于画像和模型的方法相比,社交网络拓展具有不可替代的优势:
- 发现隐性兴趣:用户可能不会在资料中填写自己的真实兴趣,但其社交圈子会无情地“出卖”他。这种方法能发现用户未明确表达的深层兴趣和偏好。
- 强大的信任背书:基于好友关系的扩展,其营销信息更容易被接受,转化率可能更高,因为这相当于一种“隐形推荐”。
- 突破数据孤岛:对于某些平台(如社交App),用户画像和行为数据可能有限,但社交关系数据是其核心优势,此法能最大化利用这一优势。
挑战与局限性
这种方法也面临一些特定的挑战:
- 数据壁垒:高质量的全局社交关系图是核心资产,通常只有大型社交平台(如微信、微博、Facebook)才完整拥有。许多企业无法获取这类数据。
- 回声室/信息茧房效应:方法倾向于推荐与用户现有圈子高度相似的人群,可能导致扩展范围局限在已有的社群内部,难以突破圈层发现全新客群。
- 关系亲密度衡量:简单的“好友”关系不足以衡量亲密度。需要结合互动频率、互动深度等来精确加权,增加了复杂性。
- 用户隐私问题:使用社交网络数据需要极其谨慎地处理用户隐私和合规问题。
典型应用场景
- 社交平台内的广告投放:这是最经典的应用。例如,Facebook/LinkedIn的“影响你的好友”这类广告选项。
- 邀请有奖/裂变营销:识别出种子用户(核心粉丝)的好友网络,针对其好友进行精准的活动推送,鼓励他们邀请好友加入,实现病毒式传播。
- 新品冷启动:当推出一个面向特定社群的新产品时,可以首先定位该社群中的核心意见领袖(种子用户),然后通过他们的网络将产品信息扩散给整个社群。
总结与融合趋势
基于社交网络的拓展,通过利用人与人之间的连接关系,为寻找相似人群提供了一个全新的、基于“关系”的维度。
在实际的工业级Lookalike系统中,鲜有只使用单一方法的情况。最先进的方案是融合方案:将社交网络关系(图嵌入得到的用户向量)、用户画像特征、历史行为特征等共同作为输入特征,喂给一个高级的机器学习模型(如梯度提升树或深度学习模型)。这样,模型可以同时考虑用户的个人属性、行为偏好和社交圈子,做出最综合、最精准的相似度判断,从而实现效果最大化的目标。



