关于高频阈值的只言片语

2012/12/13   点击数:2682

[作者] 崔雷的博客

[单位] 崔雷的博客

[摘要] 每到截取高频被引论文或者高频主题词或者高被引作者或者核心期刊的时候,总是想起上面的对话。 阈值问题一直困扰着共现分析,甚至比样本问题更为严重。因为没有金标准,涉及到后续聚类等因素较多,没有办法评价。

[关键词]  高频 阈值 被引文献 来源文献



高秀敏:到底多少是多啊?

赵本山:自行车?要啥自行车?!

每到截取高频被引论文或者高频主题词或者高被引作者或者核心期刊的时候,总是想起上面的对话。

阈值问题一直困扰着共现分析,甚至比样本问题更为严重。因为没有金标准,涉及到后续聚类等因素较多,没有办法评价。

今日看到一篇古文,其中的片段翻译过来,供参考。

这是一个选择高被引论文阈值的探索,根据我的理解,绘制了一张表格。

序号(R)

论文

被引频次

来源文献S

累计S

S1

S2

……

Sm

1

P1

100

1

0

1

2

P2

99

0

0

0

……

r

Pr

T

St

……

N

Pn

1

r:被引文献数;T:阈值;St:高于t阈值所涉及到的来源文献数(矩阵中为1的S总数)

最开始时候,阈值为1时,参考文献总数大于来源文献总数。以后二者变化幅度不同。

引文阈值的选择

图中,横轴是按整数选取的被引文献阈值,纵轴为相应的被引论文数和来源文献数目。

从图中可以看到,从被引次数的阈值为40到阈值为4的在一个很大的引文阈值的区域里,相关的来源文献增长很慢,仅仅从650(22%)增长到了1378(46%)。在这个区域里,被引文献的数目从5到306,也是整个数据库中总共54,638条参考文献中的很少一部分。

在更低的阈值上,被引文献数和来源文献数则增长迅速,百分比计算也是同样的结果。这也不足为奇,因为在我们数据库所收集的文献中,被引文献列表长度上没有太大的变化(mean=22,std=14,skewness=2.2)。对于同被引分析来说,重要的是尽可能多地选择相关的被引论文和来源文献,但是又要不能增加噪音。

在图中,我们看到来源文献数目一直比较稳定,如果从高到低选择阈值,参考文献的数目会增加得比来源文献数目要快。换言之,大多数对这些文献的引用来自于已经在更高阈值上被选中过的来源文献,这还说明增加的信息要多于噪音。但是,如果阈值低于4次,增加的噪音要多于信息了,因为增加的引用大多数来自于高阈值中没有引用过这些参考文献的来源文献。这样,我们就有了依据来选择尽可能低的引用阈值,在我们的例子里,4或者5最为合适。

原文连接:http://blog.sciencenet.cn/home.php?mod=space&uid=82196&do=blog&id=642135