面向主题的信息检索相关技术研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sandy323199000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速增加,查找信息成为问题。搜索引擎的出现在一定程度上解决了找信息难的问题。但由于网络信息增长太快,检索返回的结果太多,查询的歧义性问题,使得用户在返回的大量信息中找到有用信息成了问题。本文提出的面向主题的信息检索系统能在一定程度上解决这种问题。  面向主题的信息检索系统,主要由爬行器,前向索引器,倒排索引器,检索器,主题分类器,相似文章聚类器组成。与通用搜索引擎最大的区别在于检索结果中有层次主题类信息,相似文章推荐,以及更加友好的人机交互方式等。正是这些功能使得用户在检索时更加主动,获得的信息更加丰富,并且能更加快速地找到有用信息。  正是如此,本文研究设计了面向主题的信息检索系统。并在索引建立,带有主题信息的检索方法,系统结构和信息可视化上有所改进和创新。  为了主题分类和相似文章聚类的需要,设计了自动获取TermID来建立前向索引的方法和对前向索引的管理。为了高效建立索引,通过前向索引词典信息来划分存放倒排索引的文件,实现Term和文件的映射。以后处理Term的信息就只需要在划分的对应文件中处理即可。同时,本文提出了通过两遍文件迭代建立海量倒排索引的方法,并且在建立过程中没有使用归并算法,而只进行顺序链接即可。因而速度很快。  在检索中,为了提高检索的TopN精确率和检索效率,本文提出了对文档抽取摘要信息来建立小索引用于检索。同时设计了文档和主题类的映射关系以及父、子主题类的继承关系,使得检索时获取文档的主题类信息以及判断主题类间的继承关系都是常数时间复杂度。进而带主题信息的检索和通用检索在检索时间上相差不大。  由于用户输入的查询通常比较短,使得查询有歧义,因而返回的所有结果文档属于多个类别。主题检索系统返回了文档的类别信息,使得用户可根据自己所找信息对应的类别来选择类别,让系统只返回该类别的文档,进而快速找到有用信息。使得用户在检索过程中更加主动。同时,当用户看到一篇相关文档后想看更多与当前文档相似的文档时,系统的相似文章推荐就能满足用户的需求。提供给了用户更丰富的信息。
其他文献
伴随分子生物学的兴起而出现的DNA计算机以其海量存储、高度并行运算能力等优点,在解决传统计算机难以胜任的NP完全问题甚至数学的难解问题上显示出巨大的潜力,成为解决这些
随着芯片技术、通信技术和传感技术的飞速发展,目前传感技术正迈入无线传感器网络新时代。这种网络由大量集成有传感器、数据处理单元和无线通信模块的微小节点组成,通过自组织
虹膜诊断是一种新兴的诊断方法,它能根据虹膜特定区域的纹理变化对身体健康状况进行诊断,对疾病的早期发现和跟踪治疗都具有很大的指导意义,具有重要的理论研究价值和广泛的应用
通信技术和计算机技术的迅猛发展使网络中的故障呈现复杂化、多样化,而传统的诊断方法和现有的智能诊断技术通常只能诊断出单一的故障类型和设备,已不能满足目前网络的需求。
移动学习是近年来随着网络技术、无线通信技术、移动计算技术和多媒体技术等的迅速发展及融合而悄然兴起的一种新型的学习技术与方式。结合移动学习技术,构建移动英语学习平
SEU是由带电粒子投射到集成电路器件的敏感区域引起的,通常会导致器件内部寄存器内容的改变,或内存位翻转。为了抵抗太空中的SEU,使基于FPGA的多光谱图像压缩系统在深空环境
网络教学正在以前所未有的速度和深度在教育领域全面推开,网络教学的推行需要大量的教学资源,教学资源中最重要的组成部分就是教学课件,各种格式的教学课件都需要各种相关软件的
无线传感器网络是一种新型的信息采集网络,通常由分布在一个探测区域内的大量传感器节点组成,这些节点自组织形成网络,获取该区域中的有用信息并将这些信息传输给网络的基站
随着信息呈爆炸式增长,人们对信息精确定位的需求促进了自然语言处理技术的研究。指代消解是自然语言理解中的重点和难点之一。它一方面综合了多种自然语言处理技术,如词性标注
惰性学习不同于传统的急性学习,它具有训练代价少、假说空间丰富、渐进学习能力强、能进行增量学习等优点,因而被广泛应用于数据挖掘和网络信息处理等领域。然而由于惰性学习