论文部分内容阅读
随着引文分析应用范围的拓宽,新的分析方法和指标体系层出不穷,引文统计的数量越来越大,数据的时间跨度也越来越长,传统的手工方式已经不能满足高层次分析的需求。随着计算机技术的不断进步,利用计算机进行自动的引文分析不但成为一种需要,也成为一种可能,计算机引文分析已成为引文分析新的发展方向。同时,计算机引文分析为解决引文分析中所需要的数据和分析统计等提供了强有力的技术支持,为引文分析的正确性和可靠性提供了保障,为文献检索提供了另一种有效的途径,有助于提高查全率和查准率。随着引文分析研究的不断深入,计算机引文分析研究将会变得更加重要。
本文分析了经典关联规则挖掘算法应用于中文引文分析的可行性,研究了关联规则挖掘算法在科技论文引文数据分析中的应用,提出了适用于中文引文分析的改进的混合加权关联规则挖掘算法。一方面,通过用户行为分析确定了相关文献集及加权关联规则挖掘算法中的垂直权重;另一方面,利用Google搜索引擎的PageRank算法确定了加权关联规则挖掘算法中的水平权重。最后,以维普全文数据库为数据源演示了引文的关联规则挖掘在相关文献推荐中的应用,获得了一些有意义的引文分析结果;并且,利用专家评分的方式进行了对比实验,实验结果初步证明了本文所提概念系统计算结果的正确性,体现了本文所提方法的可用性。