共现分析乱弹(3)

2012/8/17   点击数:2545

[作者] 崔雷的博客

[单位] 崔雷的博客

[摘要] 一般来说,如果要分析一个学科或者专业的发展状况,我们通常选择该专业的核心期刊,如用JCR选择该领域的综合性核心刊物;如果要分析某一较小的主题,如糖尿病,一般用主题词或者关键词来检索。这样做,目的就是让样本尽可能地代表这个学科研究活动,用期刊可以涵盖较大范围的主题,这是用主题词分类号等手段难以达到的;用主题词检索,则可以把分散在各个期刊的相同主题的论文汇总起来。但是,这里肯定有弊端,比如用高IF值的核心刊,违背了随机的原则?忽略了在同专业非核心刊上的文献?

[关键词]  共现分析 样本抽取 期刊 主题词 数量



3.样本的搜集

一般来说,如果要分析一个学科或者专业的发展状况,我们通常选择该专业的核心期刊,如用JCR选择该领域的综合性核心刊物;如果要分析某一较小的主题,如糖尿病,一般用主题词或者关键词来检索。这样做,目的就是让样本尽可能地代表这个学科研究活动,用期刊可以涵盖较大范围的主题,这是用主题词分类号等手段难以达到的;用主题词检索,则可以把分散在各个期刊的相同主题的论文汇总起来。但是,这里肯定有弊端,比如用高IF值的核心刊,违背了随机的原则?忽略了在同专业非核心刊上的文献?

至于样本的数量,一般我认为3000-5000篇就够了,无论是主题词共现分析或者是同被引分析,经验上这些就够了。如果是主题词分析,下载3000-5000篇文献分析其主题词,在PubMed中主题词总数也达到3万以上了;如果是同被引分析,3000-5000篇来源文献也会带来30000以上的引文。

有的同事愿意搜集全面,甚至考虑将诸多数据库中同主题文献记录汇总去重后进行分析。对此我颇不以为然,我们不是检索服务,是通过统计分析显现一个学科主题的研究状况,只要样本数量足够就可以了。希望能有有心人研究一下,样本数量添加到多少之后,主题词/引文频次排序不再有变化,或者共现次数及聚类结果不再有本质的区别,让大家能省很多力气,也解决一直困然我们的阈值问题。

原文连接:http://blog.sciencenet.cn/home.php?mod=space&uid=82196&do=blog&id=603055