博客聚合

共现分析乱弹（3）

2012/8/17 点击数：2545

[作者] 崔雷的博客

[单位] 崔雷的博客

[摘要] 一般来说，如果要分析一个学科或者专业的发展状况，我们通常选择该专业的核心期刊，如用JCR选择该领域的综合性核心刊物；如果要分析某一较小的主题，如糖尿病，一般用主题词或者关键词来检索。这样做，目的就是让样本尽可能地代表这个学科研究活动，用期刊可以涵盖较大范围的主题，这是用主题词分类号等手段难以达到的；用主题词检索，则可以把分散在各个期刊的相同主题的论文汇总起来。但是，这里肯定有弊端，比如用高IF值的核心刊，违背了随机的原则？忽略了在同专业非核心刊上的文献？

[关键词] 共现分析样本抽取期刊主题词数量

3.样本的搜集

一般来说，如果要分析一个学科或者专业的发展状况，我们通常选择该专业的核心期刊，如用JCR选择该领域的综合性核心刊物；如果要分析某一较小的主题，如糖尿病，一般用主题词或者关键词来检索。这样做，目的就是让样本尽可能地代表这个学科研究活动，用期刊可以涵盖较大范围的主题，这是用主题词分类号等手段难以达到的；用主题词检索，则可以把分散在各个期刊的相同主题的论文汇总起来。但是，这里肯定有弊端，比如用高IF值的核心刊，违背了随机的原则？忽略了在同专业非核心刊上的文献？

至于样本的数量，一般我认为3000-5000篇就够了，无论是主题词共现分析或者是同被引分析，经验上这些就够了。如果是主题词分析，下载3000-5000篇文献分析其主题词，在PubMed中主题词总数也达到3万以上了；如果是同被引分析，3000-5000篇来源文献也会带来30000以上的引文。

有的同事愿意搜集全面，甚至考虑将诸多数据库中同主题文献记录汇总去重后进行分析。对此我颇不以为然，我们不是检索服务，是通过统计分析显现一个学科主题的研究状况，只要样本数量足够就可以了。希望能有有心人研究一下，样本数量添加到多少之后，主题词/引文频次排序不再有变化，或者共现次数及聚类结果不再有本质的区别，让大家能省很多力气，也解决一直困然我们的阈值问题。

原文连接：http://blog.sciencenet.cn/home.php?mod=space&uid=82196&do=blog&id=603055