【摘 要】
:
随着Web信息多元化趋势的增强,给所有用户提供同一个通用搜索引擎入口已经不能满足特定用户更加深入的查询需求。在这一情况下,面向特定主题领域的定题搜索引擎应运而生。定
论文部分内容阅读
随着Web信息多元化趋势的增强,给所有用户提供同一个通用搜索引擎入口已经不能满足特定用户更加深入的查询需求。在这一情况下,面向特定主题领域的定题搜索引擎应运而生。定题信息检索为定题搜索引擎提供了有力的技术支撑。本文将对确定主题领域信息的获取、过滤以及检索三个重要内容加以分析和相应的方法改进,为定题信息检索构建一个通用的有效的开发框架。在主题信息的获取方面,定题搜索引擎通常采用定题爬虫抓取网页信息,而基于元搜索引擎采集主题相关信息在检索的召回率和时效性上都具有明显的优势,但由于元搜索引擎的各个成员引擎通常都是通用搜索引擎,因此难以反馈与目标主题相关的页面文档。为此,本文设计了一个基于统计翻译模型的查询扩展方法,通过为用户的初始查询增加目标主题信息的手段,提高定题信息Web检索的准确率。主题信息过滤在很大程度上以文本分类技术为基础,本文提出了一个改进的文本特征提取方法,并将其应用于贝叶斯分类中,实验获得了更好的文本分类效果。基于语言模型的定题信息检索是本文的重点,本文将一系列既有的改进方向融合到两个检索扩展框架中,并针对两个扩展框架分别提出了改进措施:首先提出将HMM检索过程与贝叶斯平滑相结合的手段,进而设计了一个基于贝叶斯推理网络的词关联度计算方法,并将其用于引入词关联信息的检索扩展框架中。实验证明了两个改进的扩展框架均使文档集评测结果在原有方法的基础上获得了进一步的提升。而基于贝叶斯推理网络的词关联度计算方法比已有的基于翻译模型的词关联度计算方法更加适用于定题信息检索。
其他文献
工作流管理系统是近年来随着Internet和Intranet的急剧推广而快速发展的软件系统之一。该系统的主要目标是通过调用有关信息资源与人力资源来协调业务流程中的各个环节,使之按照一定的顺序依次进行,从而实现业务流程的自动化。虽然国内外已经有了很多工作流管理系统的产品,但是它们大部分不能有效的处理工作流中的异常情况,极大的降低了工作流管理系统的工作效率。然而,随着企业规模的扩大、业务过程的复杂化、
随着通信技术和计算机技术的发展,每天在气象通信网上传输越来越庞大的气象数据资料,各种的数值预报产品为我们提供了多层次、多要素、多时效、多种物理量的丰富资料,为数据挖掘
主动网络的安全问题是主动网技术得以推广实用的前提保障。目前提出的安全策略和安全机制,其实现多以静态为主,无法满足主动网的动态安全需求。本文在分析主动网的安全威胁和
道路交通行业的蓬勃发展促进了智能交通技术的不断研究,而目标轨迹提取技术研究是智能交通技术中的重要组成部分之一。车辆目标的运动轨迹是目标宏观的运动特征,包含了丰富的车
本课题的任务就是,为动态地形仿真联邦提供三维场景显示功能,重点是对动态地形的三维显示。 首先,介绍了现有的地形可视化算法及其思想,包括几种主流的多分辨率实时地形可视化
随着全球网络化、信息化的迅速发展,网络入侵及安全事件的发生越来越频繁。攻击手段的复杂化、自动化程度不断提高,对入侵响应系统的响应功能的要求也在不断提高。传统的静态
在计算机和网络使用越来越广泛的今天,工作流管理系统也越来越多地受到研究机构以及产业界的关注。本文在基于任务的访问控制和基于角色的访问控制模型的基础上提出了基于多维
随着Internet,VOD,IPTV等媒体传播方式的不断发展普及,数字媒体的获取和传播越来越容易,相应地其版权保护问题也日益突出。数字水印技术是对数字媒体提供版权保护的有效手段,人们
嵌入式系统以其精炼、专用、易扩充和可靠性高等特点,其应用领域可谓无处不在,而且有不断增长,扩展的前景。为适应嵌入式系统应用需求而产生、发展的嵌入式处理器ARM以其处理