基于标签筛选的文档排序方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:yj700702
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息技术日新月异的今天,网络信息量也在快速增长,每天通过互联网产生的信息量是难以估计的,要想从这样繁多的信息中找出满意的结果,就必须要借助于搜索引擎,搜索技术的提高是优化搜索引擎性能的关键。那么如何提升搜索技术,使搜索引擎能够快速而准确地找到人们想要的知识,是信息检索领域面临的挑战。本文首先介绍了信息检索领域的研究现状和相关知识,然后进一步引出本文研究重点。本文从标签筛选和查询扩展两方面入手,来提升检索效果。一方面,对文档语义信息的挖掘是文本检索中一个很重要的方法,充分地挖掘文本语义信息对检索效果的提升有很大的帮助。Tag-LDA模型是在LDA模型的基础上改进的一种主题模型,它在LDA模型的“文档-主题”层之间加了一个标签层,通过标签层,能较好地发掘文档的语义信息。然而Tag-LDA的标签层在筛选标签的过程中更多考虑的是词语的词频信息,根据词频来选择文本特征,抽取标签,没有考虑标签对文档的类别区分能力,进而导致筛选的标签不能很好地代表文档;另一方面,现有的查询扩展方法大都是基于人工构建的知识库,但是人工构建的知识库忽略了词语语义信息的动态变化情况,使得这种变化不能在扩展检索中体现。基于以上提出的两个缺点,本文在第三章和第四章分别提出了两个解决的方法。本文第三章提出了一种基于标签筛选的文档排序方法。该方法首先在互信息的基础上引入特征项在文档类别间的分布信息,通过特征项分布的方差来描述特征项的分布均匀程度,然后将特征项的位置信息也考虑进来,最后用引入了特征项分布和位置信息的互信息改进方法对文档集中的文档进行标签选择,筛选出更能代表文档的标签。通过基于互信息改进的Tag-LDA来获得词对文档的语义信息表达,用于文档排序,从而提升检索效果。本文第四章还提出了一种基于动态词语贡献度的文档排序方法。该方法针对现有的查询扩展方法的不足之处,提出了几点改进。首先提出了动态地计算和更新语义知识库中词语语义信息的方法,然后将这种语义信息融入到查询词扩展和词义消歧的过程中,将扩展检索提升到支持动态语义分析的检索上,从而提高检索结果的准确率和查全率。
其他文献
活动设想:朝阳区人民检察院机关党委在落实全国高检加强检察文化建设要求中,注意到一些党员因日常工作忙造成读书时间少的现象。如何引导党员多读书读好书,党委提议在全院范
随着计算机技术和网络技术的迅猛发展,Internet成为全球信息传递和共享的最重要资源,如何利用Internet上的大量信息成为亟待解决的问题。当前,企业和个人通过网络进行数据交
在国家大力发展职业教育的今天,中等职业学校也担负起了为社会培养高素质劳动者和高技能专门人才的重任。中职学生在学校接受了两年的理论和实践学习之后,将在第三学年参加见
无等待流水调度(NWFS)是一类重要的约束流水调度问题,它要求任务的加工从开始到结束必须连续进行,不能出现等待,即任务在给定机器上的开始时间必须延迟以满足该工序的完成时间与
信任是人际交互的基本问题之一,它反映社会个体间的基本信念,在现实社会生活中信任关系是不可缺少的。随着互联网技术的飞速发展,在线社交平台不断涌现,虚拟世界成为了现实世界的
汉语文语转换(Chinese Text to Speech)技术是将计算机中存储的汉语文本转换成对应的语音,是计算机和人类交互的一种手段。本文以汉语文语转换技术为中心,在VCNET环境下设计
期刊
电视新闻类节目是媒体领域的主要节目类型之一.通过新闻媒体的报道,社会民众能够更加全面地了解到国内甚至是国际上的事件要闻.随着信息技术的普及,电视新闻节目必须要与时俱
沈阳市有线电视数字化整体转换工作小组负责人表示,沈阳在全国率先采取有线电视数字化惠民举措——老红军及其遗孀、农村五保人员、城市“三无”人员、享受重点优抚人员和享
随着多媒体社交网络的兴起,多媒体图像的数量爆炸式地增长。对于一些资源受限的图像拥有者而言,会倾向于将繁重的图像处理过程外包给云端。由于图像中可能会包含有关图像拥有者