论文部分内容阅读
随着互联网的发展与普及,Web资源成为人们获取信息的重要来源,而且相当多的资源只有通过互联网才能获得(例如未发表的论文、研究报告等)。但是随着web资源的急剧增加,如何充分利用web资源成为一件极具挑战的事情。设计合适的工具,能够根据用户的需求把web中的相关资源返回给用户,就成为一个很重要的研究课题。本文的工作是在本地资源个性化推荐服务系统的基础上,设计一个面向web资源的按主题向用户提供服务的系统。 本文研究的目的和意义主要有三个方面:1)满足图书馆定题服务的应用需求,用户可以根据自己研究的需要,请求图书馆提供某个主题相关的资源,在传统的主题服务中,管理员通过手工收集整理用户所需资源,但相对于Web海量数据,手工完成主题服务显然是低效甚至是不可能的,因此迫切需要自动的手段实现主题服务;2)从数量巨大Web中获取与主题相关的内容仍然没有很好地解决,目前的web搜索引擎:一方面,通常使用少量的关键字来表达查询,其次,查询结果数量成千上万,而质量往往不令人满意,因此帮助用户按照主题获得高质量的页面是很有意义的工作;3)从我们的数字图书馆个性化信息服务平台的层面讲,经过三年多的努力,我们在资源建设、个性化信息服务方面已经取得一定的成绩。在资源建设方面,我们以数据仓库为中心,开发各种集成工具,把来自网络数据库、Marc文本、XML等异构资源集成到数据仓库中。Web资源作为一个重要的信息资源来源,目前在我们的平台中并没有有效得手段来获取和提供服务,我选择这个题目同时也是基于为平台提供一个新功能的目的。 本文主要采用主题爬虫技术实现自动的主题服务,本文研究的主要内容如下: 1)主题描述:研究主题描述的方式,选择一种适合的方式描述主题,使之既可以与原有系统相融合,便于用户使用,不增加用户的负担,又可以对不同主题有较好的区分度并便于扩展,同时又便于主题爬虫工作。 2)主题爬虫:研究主题爬虫的实现方式,主题爬虫目标是希望在尽量小的搜索空间中找到尽量多的与主题相关的资源,既需要有较高的查准率,又要有较高的查全率,并保证主题不发生偏移。 3)信息抽取:研究文本信息抽取技术,特别针对数字图书馆主题服务系统,提出一种针对中文论文资源的有效信息抽取算法。 在主题描述中,本文基于概念层次方法的《中图法》表示主题,用《中国分类主题词表》描述主题,并利用搜索引擎搜索相关文档扩展主题词。 在主题爬虫中,本文提出了基于链接文本分析的主题爬虫算法,该算法采用最佳优先搜索策略,对网页中的链接分析主题相关度时,除了考虑网页与主题的相关度外,还考虑了链接文本与主题的语义相关度Sim(A,T),这样可以过滤无关链接,缩小检索空间;同时我们还考虑了主题相关链接在布局上临近的特点,对网页按布局进行分块,对同一块中的链接进行上下文分析,用Sim(A,T)高于给定阈值的链接相关度调整与之临近的Sim(A,T)较低的链接相关度,这样可以发现潜在相关链接,在缩小空间的时候不遗漏相关链接。 在信息抽取中,本文主要研究了PDF文档的元数据抽取,我们关心的元数据包括文档标题、作者、关键词和摘要。抽取之前,我们先将PDF文档转换为带有字号标记的文本。对于标题,我们考虑了位置和字号等信息;对于作者抽取,包括两步:中文人名识别和从候选人名中识别作者,第一步采用了基于统计的方法,计算人名概率,第二步考虑了位置信息和字号信息;对于关键词和摘要,我们利用了正则表达式进行抽取。 对主题爬虫和信息抽取,我们通过实验验证了算法的有效性。但是主题爬虫中计算语义相似度还是有不足之处,这主要是因为我们是基于《知网》计算语义相似度,而《知网》是基于语言学的,对于针对图书分类的中图法主题词而言并不非常适用,下一步工作中我们想利用本实验室另一小组的本体研究成果,利用本体计算语义相似度。信息抽取方面,由于我们的方法是针对带有字号标记的文本,所以具有一定的通用性,下一步的工作主要是将该方法应用于其他类型的文本并进行有效性验证。