档案领域垂直搜索技术的研究与实现

来源 :东华大学 | 被引量 : 0次 | 上传用户:zhengzhidelang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
档案是一种十分重要的文件,任何国家、任何公民都跟它密切相关。时至今日,我国档案的信息化建设已经初步取得了一定成果,然而依然远落后于发达国家水平。如何促进档案的信息化建设,提高档案的利用率是国家研究的一个紧要课题。如今,搜索引擎因为具备实时高效的为用户提供精确信息的优势得到了人们的青睐,日渐成为人们获取自己所需信息的重要途径。然而通用搜索引擎往往覆盖面广,信息不够准确,不能满足特定用户的需求。近年来,面向特定领域的垂直搜索引擎迅速发展起来。与通用搜索引擎不同,它是面向特定领域的搜索,它可以做的更加专注,更加领域化,可以搜索更加深层的信息,提供更加准确的资料。尽管如此,垂直搜索引擎还是有很多不尽人意的地方。对垂直搜索引擎的研究和改进是当前国际研究的一个热点。研究档案领域特点并针对这些特点对垂直搜索技术提出改进,将其应用于档案领域。研究专门针对该领域的垂直搜索引擎是本文研究的主要内容。首先,订制针对档案的主题爬虫获取有关档案的信息及档案文件是构建档案领域垂直搜索引擎的起始。档案是一种特殊的文件,具有原始性、存储格式规范、历史再现性、管理规范、编号统一等特点。档案的存储一般是在专门的存储机构的网站,由这些机构向社会或者特定人群开放。该领域的主题爬虫可以限定搜索范围,搜集档案相关的文档及档案文件并分析。为此,本文提出了面向该领域的链接分析算法,并引入使用无关文档来发现相关文档的策略构建主题爬虫。主题爬虫爬取的文档需进行内容分析、关键词提取并计算权值、抽取摘要等处理。计算关键字的权值时鉴于许多档案存在档案信息说明文档,其中包含主题词、责任者等重要信息,本文在TF-IDF(Term Frequency-Inverse Document Frequency)算法基础上做出改进。当一份档案存在这种信息时,其中的关键词权值为1;不存在这种信息或不在此处出现的关键词,根据关键词出现在标题、正文、摘要或其它位置分别赋予不同的权值。此外,利用文本处理技术对档案及相关的文档进行结构化处理,把文档转化为格式化的XML文件形式,来提供更加准确的搜索服务。用户查询过程中,使用静态摘要与动态摘要相结合的方式为用户提供更合理的文档简述。当档案文件中存在摘要时,取这些已经存在的摘要作为查询结果的摘要(静态摘要);否则,根据用户的输入,从索引中找出关键词所在位置,并抽取关键词所在的句子组成摘要返回用户(动态摘要)。在搜索时,通过用户投票的形式优化查询排序的结果。最后,本文设计了档案领域垂直搜索引擎的系统框架和流程,实现了本文提出的爬虫算法及爬取策略,实现了改进后的TF-IDF算法。作为对比,本文实现了一个最佳优先算法爬虫和TF-IDF算法。经研究和实验,使用本文提出的改进和应用方案,能够获得更好的结果。主题爬虫能够获得更多的档案和档案相关文件。使用改进后的方法,能够获得更准确的文档关键词权值。
其他文献
Web服务由于具有良好的封装性、松耦合性和高度的跨平台集成能力等优势,在网络上的应用越来越广泛。但是基于UDDI的服务发布与发现机制,仅提供语法层次的查找和匹配,很难满足
近年来,无线传感器网络(WSN)被认为是本世纪最具有发展前景的信息互联网络,不仅实现了物—物互相连接的信息通信,而且带动了网络智能化发展趋向。因此,研究无线传感器网络的
随着Web的发展,可供用户选择的Web服务越来越多。传统Web服务的组织和管理方法对服务质量缺乏有效支持,用户难以从众多候选服务中按质量选取最佳服务。现有的Web服务QoS (Qua
十九世纪九十年代初,人们开始对多媒体信息检索领域进行探索。其中,基于内容的多媒体信息检索成为了当时该领域上一个新兴的热点课题。同时也成为了计算机视觉领域中一个备受
作为一种重要的且具有代表性的数据结构,图通常可以用来描述不同领域的事物之间的繁杂关系。在信息化时代,快速增长的数据中的不确定性越来越普遍。如何对具有不确定性的图数
无线传感器网络是一种新形式的信息获得与处理的方式,在无线传感器网络中,由于无线传感器网络的分布性、资源有限性等方面的特性,众多的路由协议栈存在安全隐患,所以在无线传
随着传感器节点各方面能力的增强,WSNs(无线传感器网络)各项支撑技术的逐渐成熟,以及WSNs应用背景的迅速拓展,对WSNs的安全性与可靠性需求越来越强。在WSNs中,由于基于密码体
随着Web2.0应用的快速发展,标签在描述和搜索网络资源方面发挥着越来越大的作用。用户在发布或收藏网络资源时可以添加标签作为分类信息,形成了社会化标记和大众分类法。由于
Mashup是一种面向最终用户的web应用模式,它通过聚合已有的web内容或服务来创建新的web应用,为用户个性化需求提供聚合服务从而满足多样化需求。然而随着应用数据源的快速增
随着计算机技术和网络技术的快速发展,Internet上的用户数量急剧增加,传统的C/S网络模式面临着诸多的问题和挑战,因此,促进了对等网络(Peer-to-Peer network,简称P2P网络)模