论文部分内容阅读
随着互联网技术的迅猛发展,文献这一信息资源总量正呈指数级不断增长,其更新速度也在不断加快,如何有效地获取并利用这些资源便显得更为重要,于是各种各样的文献检索平台也不断地涌现出来。当前国内外的文献检索系统普遍基于关键词匹配的原则,仅仅简单地采取逻辑“与、或、非”的方式对检索词孤立地进行匹配,不能有效地反映出用户真正的检索期望,从而导致检索结果精度不高。因为在目前的文献检索系统中检索结果常以随机形式显示,这进一步加大了用户获取期望文献的难度。另外,在索引建立过程中,单一地采用分词索引技术或单汉字索引技术,造成检索引擎的查全率较低或索引文档过大(影响检索引擎的检索效率)。因此,本文针对以上问题进行了相关研究。研究内容和取得的成果主要体现在以下两个方面:·提出一种新的混合索引方法,该方法充分利用了基于单汉字索引技术的优点,保证了检索引擎的高查全率,同时根据单汉字在文献中出现的逻辑位置,利用分词索引提供的含有该字的词对其进行替换,以减小索引文档的大小,保证检索引擎较高的检索效率。·提出一种基于文献检索期望值的检索结果排序算法,该算法充分考虑了用户的检索习惯、汉语的特点、文献中各部分对内容的反映程度等因素,采用文献检索期望值作为衡量文献内容与用户检索期望之间相关度的指标,并对其建立数学向量模型,对检索结果文献的检索期望值进行定量计算,最后对该值进行降序排列,将相关度最大的文献结果显示在前面,以更好地满足用户的检索需求。本文所提出的混合索引方法和基于文献检索期望值的检索结果排序算法已经应用到科技文献异构数据库共享检索平台中。在模拟真实的环境下,通过实验和对文献检索结果的分析,表明本文研究的内容是正确的、有效的。在不影响检索系统响应时间的前提下,能够有效地提高文献检索引擎的查全率和查准率,具有较好的应用价值和广阔的应用前景。