面向主题的Web信息服务系统研究与实现

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:jmzhao8888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展与普及,Web资源成为人们获取信息的重要来源,而且相当多的资源只有通过互联网才能获得(例如未发表的论文、研究报告等)。但是随着web资源的急剧增加,如何充分利用web资源成为一件极具挑战的事情。设计合适的工具,能够根据用户的需求把web中的相关资源返回给用户,就成为一个很重要的研究课题。本文的工作是在本地资源个性化推荐服务系统的基础上,设计一个面向web资源的按主题向用户提供服务的系统。  本文研究的目的和意义主要有三个方面:1)满足图书馆定题服务的应用需求,用户可以根据自己研究的需要,请求图书馆提供某个主题相关的资源,在传统的主题服务中,管理员通过手工收集整理用户所需资源,但相对于Web海量数据,手工完成主题服务显然是低效甚至是不可能的,因此迫切需要自动的手段实现主题服务;2)从数量巨大Web中获取与主题相关的内容仍然没有很好地解决,目前的web搜索引擎:一方面,通常使用少量的关键字来表达查询,其次,查询结果数量成千上万,而质量往往不令人满意,因此帮助用户按照主题获得高质量的页面是很有意义的工作;3)从我们的数字图书馆个性化信息服务平台的层面讲,经过三年多的努力,我们在资源建设、个性化信息服务方面已经取得一定的成绩。在资源建设方面,我们以数据仓库为中心,开发各种集成工具,把来自网络数据库、Marc文本、XML等异构资源集成到数据仓库中。Web资源作为一个重要的信息资源来源,目前在我们的平台中并没有有效得手段来获取和提供服务,我选择这个题目同时也是基于为平台提供一个新功能的目的。  本文主要采用主题爬虫技术实现自动的主题服务,本文研究的主要内容如下:  1)主题描述:研究主题描述的方式,选择一种适合的方式描述主题,使之既可以与原有系统相融合,便于用户使用,不增加用户的负担,又可以对不同主题有较好的区分度并便于扩展,同时又便于主题爬虫工作。  2)主题爬虫:研究主题爬虫的实现方式,主题爬虫目标是希望在尽量小的搜索空间中找到尽量多的与主题相关的资源,既需要有较高的查准率,又要有较高的查全率,并保证主题不发生偏移。  3)信息抽取:研究文本信息抽取技术,特别针对数字图书馆主题服务系统,提出一种针对中文论文资源的有效信息抽取算法。  在主题描述中,本文基于概念层次方法的《中图法》表示主题,用《中国分类主题词表》描述主题,并利用搜索引擎搜索相关文档扩展主题词。  在主题爬虫中,本文提出了基于链接文本分析的主题爬虫算法,该算法采用最佳优先搜索策略,对网页中的链接分析主题相关度时,除了考虑网页与主题的相关度外,还考虑了链接文本与主题的语义相关度Sim(A,T),这样可以过滤无关链接,缩小检索空间;同时我们还考虑了主题相关链接在布局上临近的特点,对网页按布局进行分块,对同一块中的链接进行上下文分析,用Sim(A,T)高于给定阈值的链接相关度调整与之临近的Sim(A,T)较低的链接相关度,这样可以发现潜在相关链接,在缩小空间的时候不遗漏相关链接。  在信息抽取中,本文主要研究了PDF文档的元数据抽取,我们关心的元数据包括文档标题、作者、关键词和摘要。抽取之前,我们先将PDF文档转换为带有字号标记的文本。对于标题,我们考虑了位置和字号等信息;对于作者抽取,包括两步:中文人名识别和从候选人名中识别作者,第一步采用了基于统计的方法,计算人名概率,第二步考虑了位置信息和字号信息;对于关键词和摘要,我们利用了正则表达式进行抽取。  对主题爬虫和信息抽取,我们通过实验验证了算法的有效性。但是主题爬虫中计算语义相似度还是有不足之处,这主要是因为我们是基于《知网》计算语义相似度,而《知网》是基于语言学的,对于针对图书分类的中图法主题词而言并不非常适用,下一步工作中我们想利用本实验室另一小组的本体研究成果,利用本体计算语义相似度。信息抽取方面,由于我们的方法是针对带有字号标记的文本,所以具有一定的通用性,下一步的工作主要是将该方法应用于其他类型的文本并进行有效性验证。
其他文献
网络协议实验作为原理验证性实验,在网络与互联网实验内容体系中占有非常重要的地位,应该使网络协议的基础知识和各种协议都能在实验内容体系中得到充分的体现。但是目前各高校
Internet的迅速发展,给人们带来丰富信息和极大便利的同时,也随之产生了一些亟待解决的问题,构建智能化的Web站点便是其中之一。直接或间接的解决这个问题的途径之一就是将数据
随着社会经济的发展,企业之间的竞争日益激烈,竞争情报系统纷纷涌现。其中基于知识管理的竞争情报系统,结合知识处理的相关技术,如数据挖掘、人工智能、自然语言理解等等,为竞争情
随着移动终端(手机)、PDA等掌上型产品的快速发展,高性能、低成本、低功耗的嵌入式设备在军事上的应用越来越广泛,且嵌入式操作系统作为嵌入式设备的核心也已从单一功能向高
在该论文中我们提出了三种基于数据挖掘中孤立点分析方法的入侵检测算法.其基本思想是将输入空间里的数据点映射到一个特征空间中,然后根据数据点在特征空间中的位置来判断那
许多应用中都要识别用户的合法身份,传统的的方法采用密码或者IC卡等来达到这个目的。但密码和卡片容易被遗忘或者丢失,而且容易被非法用户伪造,所以传统方法已不能满足在信息化
随着校园网的逐步建设完善,各种基于网络的应用广泛的应用于校园的教学管理中.各种应用系统独立认证的弊端使校园网络使用的集中管理难以实现,因此,建立一个统一认证系统,对网络用
C4ISR系统在现代国防中具有重要的地位和作用,研究C4ISR系统的设计与开发具有重要的意义。仿真是研究C4ISR系统的一种重要手段,通过对C4ISR系统进行体系结构的分析和仿真,有助于
语义Web是当今最热门的话题之一,实现语义WEB的知识推理则是人们关注的重点。Prolog语言以其在逻辑推理和证明方面独特的功能和作用,以其基于面向对象的技术和一阶谓词的逻辑型
学位
近年来,由于经济的全球化、竞争的动态化和技术的快速更新,高度动荡环境下的项目决策具有较高的不确定性和复杂性。在这种情况下的项目投资的风险分析与决策,包括项目投资前