基于数据挖掘的引文分析——利用模拟日志分析进行相关文献推荐

来源 :西南大学 | 被引量 : 0次 | 上传用户:wenxiuyang521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着引文分析应用范围的拓宽,新的分析方法和指标体系层出不穷,引文统计的数量越来越大,数据的时间跨度也越来越长,传统的手工方式已经不能满足高层次分析的需求。随着计算机技术的不断进步,利用计算机进行自动的引文分析不但成为一种需要,也成为一种可能,计算机引文分析已成为引文分析新的发展方向。同时,计算机引文分析为解决引文分析中所需要的数据和分析统计等提供了强有力的技术支持,为引文分析的正确性和可靠性提供了保障,为文献检索提供了另一种有效的途径,有助于提高查全率和查准率。随着引文分析研究的不断深入,计算机引文分析研究将会变得更加重要。 本文分析了经典关联规则挖掘算法应用于中文引文分析的可行性,研究了关联规则挖掘算法在科技论文引文数据分析中的应用,提出了适用于中文引文分析的改进的混合加权关联规则挖掘算法。一方面,通过用户行为分析确定了相关文献集及加权关联规则挖掘算法中的垂直权重;另一方面,利用Google搜索引擎的PageRank算法确定了加权关联规则挖掘算法中的水平权重。最后,以维普全文数据库为数据源演示了引文的关联规则挖掘在相关文献推荐中的应用,获得了一些有意义的引文分析结果;并且,利用专家评分的方式进行了对比实验,实验结果初步证明了本文所提概念系统计算结果的正确性,体现了本文所提方法的可用性。
其他文献
探讨重瓣黄刺玫组培快繁的实用技术,筛选出重瓣黄刺玫的休眠芽培养的最佳培养基配方及激素水平(2/3MS-MAA1.3mg/L+BA3mg/L),阐明了重瓣黄刺玫的休眠芽培养、继代培养及生根培
随着信息技术的迅速发展和普及,基于Internet/Intranet信息环境的各种专业文献信息资源日益增多,并逐渐形成了分布式、结构松散的网络信息环境。传统的专业文献信息检索系统,其
目的:调查研究我省目前生物经济发展的总体现状、整体布局、重点领域,查找发展过程中的问题和不足;分析我省生物经济占据的优势、存在的劣势、外部的机会和威胁,并提出发展对策与
我国网络文学长期处于“低版权”社会语境中,“低版权”促成了网络文学今日的形态,本文绝非要为盗版、抄袭辩护,而是较为客观地指出“低版权”状态培养了网络文学读者和作者
在不确定性大且竞争日益激烈的当今,知识已经成为一个组织具有可持久性竞争优势的重要源泉。面对挑战,企业相继寻求外部合作来应对不断创新的格局,在广泛的合作过程中,获取自身能
20世纪90年代初,档案业务外包在我国兴起,近年来,或因档案人员不足、或因提高核心竞争力需要、或因档案行政机构的推动等等,企业档案外包现象日益增多,其间也出现了诸多问题,
在当今超强竞争时代的动态环境中,竞争呈现出动态性、复杂性、互动性的特点。科技革命、经济全球化和市场国际化不仅使竞争从封闭走向开放,成为了社会中心,而且改变了高校的竞争
在如今经济全球化的背景下,企业对内外部信息的获取产生更多的依赖性,如何及时、准确地取得有效的数据信息是企业制定决策成败的关键。人力资源管理已逐渐受到企业管理者的重视,对企业人力资源数据的分析和挖掘是企业管理者管理人才、利用人才、充分发挥人才积极性的重要环节。在知识经济条件下的“知本”时代,企业导向已经转变为人力资源导向,人力资源成为企业的第一资源,是企业价值创造的最重要驱动者。 对企业人力资
Background:A number of hypotheses and theories, such as the Janzen-Connell hypothesis, have been proposed to explain the natural maintenance of biodiversity in
Background:Mod remote sensing methods enable the prediction of tree-level forest resource data. However, the benefits of using tree-level data in forest or harv