相似度计算之Dice系数

18 sec read

Dice距离用于度量两个集合的相似性,因为可以把字符串理解为一种集合,因此Dice距离也会用于度量字符串的相似性。此外,Dice系数的一个非常著名的使用即实验性能评测的F1值。Dice系数定义如下:

    \[s = \frac{2|A\cap B|}{|A|+|B|}\]

其中分子是A与B的交集数量的两倍,分母为X和Y的长度之和,所以他的范围也在0到1之间。从公式看,Dice系数和Jaccard非常的类似。Jaccard是在分子和分母上都减去了|A∩B|。

    \[J(A,B)=\frac{|A\cap B|}{|A\cup B|}=\frac{|A\cap B|}{|A|+|B|-|A\cap B|}\]

与Jaccard不同的是,相应的差异函数

d=1-{\frac {2|X\cap Y|}{|X|+|Y|}}

不是一个合适的距离度量措施,因为它没有三角形不等性的性质。例如给定 {a}, {b}, 和 {a,b}, 前两个集合的距离为1, 而第三个集合和其他任意两个集合的距离为三分之一。

与Jaccard类似, 集合操作可以用两个向量A和B的操作来表示:

    \[s_{v}={\frac {2|A\cdot B|}{|A|^{2}+|B|^{2}}}\]

Python实现:

其他参考:

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

情感分析之卷积神经网络(TextCNN)

在“卷积神经网络”中我们探究了如何使用二维卷积神经网络来处理二维图像数据。在之前的语言模型和文本分类任务中,我
标点符
1 min read

深入理解卷积神经网络(CNN)

卷积神经网络简介 传统的BP神经网络与DNN(深度神经网络)不同层神经元的连接方式是“全连接”,也就是这一次层
标点符
1 min read

情感分析之多层全连接神经网络

全连接神经网络 全连接神经网络是一种最基本的神经网络结构,英文为Full Connection,所以一般简称F
标点符
3 min read

One Reply to “相似度计算之Dice系数”

  1. 你的代码有错误,怕是你对这个公式不理解

发表评论

电子邮件地址不会被公开。 必填项已用*标注