申请书范文网,分享全网优秀范文,学习好帮手!
申请书范文网 > 调整兰德系数(Adjusted Rand index ARI)的计算

调整兰德系数(Adjusted Rand index ARI)的计算

时间:2020-01-04 00:40:51

相关推荐

调整兰德系数(Adjusted Rand index ARI)的计算

兰德指数(Rand index, RI)

RI取值范围为[0,1],值越大意味着聚类结果与真实情况越吻合:

如果有了类别标签,那么聚类结果也可以像分类那样计算准确率和召回率。

假设U是外部评价标准,即true_label, 而V是聚类结果,设定4个统计量

RI则是计算“正确决策”的比率,故RI=TP+TNTP+FP+TN+FN=TP+TNCN2=a+dC2nsamplesRI=\frac{TP+TN}{TP+FP+TN+FN}=\frac{TP+TN}{C_N^2}=\frac{a+d}{C_2^{n_{samples}}}RI=TP+FP+TN+FNTP+TN​=CN2​TP+TN​=C2nsamples​​a+d​

分母 CN2C_N^2CN2​ 和C2nsamplesC_2^{n_{samples}}C2nsamples​​ 皆表示任意两个样本为一类有多少种组合,是数据集中可以组成的总元素对数

调整兰德指数(Adjusted Rand index, ARI)

调整兰德系数(Adjusted Rand index, ARI), 为什么要引进 ARI呢,因为 RI 的问题在于对两个随机的划分, 其 RI 值不是一个接近于 0 的常数。Hubert和Arabie在1985年提出了调整兰德系数,调整兰德系数假设模型的超分布为随机模型,即 X 和 Y 的划分为随机的,那么各类别和各簇的数据点数目是固定的。

要计算该值, 先计算出列联表(contingency table ), 表中每个值nijn_{ij}nij​表示某个 document 同时位于 cluster ( YYY) 和 class (XXX) 的个数, 在通过该表可以计算 ARI 值即可。

ARI=RI−E(RI)max(RI)−E(RI)ARI=\frac{RI-E(RI)}{max(RI)-E(RI)}ARI=max(RI)−E(RI)RI−E(RI)​

ARI∈[−1,1]ARI∈[-1,1]ARI∈[−1,1] 。值越大意味着聚类结果与真实情况越吻合。从广义的角度来将,ARI是衡量两个数据分布的吻合程度的。

优缺点 优点:

1.)对任意数量的聚类中心和样本数,随机聚类的ARI都非常接近于0;

2.)取值在[-1,1]之间,负数代表结果不好,越接近于1越好;

3.) 可用于聚类算法之间的比较缺点:

1.)ARI需要真实标签

python代码:

需要sklearn库中的adjusted_rand_score的方法

from sklearn import metricslabels_true = [0, 0, 0, 1, 1, 1]labels_pred = [0, 0, 1, 1, 2, 2]# 基本用法score = metrics.adjusted_rand_score(labels_true, labels_pred)print(score) # 0.24242424242424246# 与标签名无关labels_pred = [1, 1, 0, 0, 3, 3]score = metrics.adjusted_rand_score(labels_true, labels_pred)print(score) # 0.24242424242424246# 具有对称性score = metrics.adjusted_rand_score(labels_pred, labels_true)print(score) # 0.24242424242424246# 接近 1 最好labels_pred = labels_true[:]score = metrics.adjusted_rand_score(labels_true, labels_pred)print(score) # 1.0# 独立标签结果为负或者接近 0labels_true = [0, 1, 2, 0, 3, 4, 5, 1]labels_pred = [1, 1, 0, 0, 2, 2, 2, 2]score = metrics.adjusted_rand_score(labels_true, labels_pred)print(score) # -0.12903225806451613

参考博客:

/p/53840697/TimVerion/p/11323033.html聚类算法的评价指标【Python-ML】聚类的性能评价指标

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。