论文部分内容阅读
本文针对互联网环境下文献资源数据量巨大、更新变化迅速,完全依靠传统的文献加工、处理方式无法满足新环境需求的问题,提出了面向图书情报机构专题情报服务的领域知识库构建平台研究课题。围绕该平台的服务模式、逻辑架构、技术体系及应用问题等进行了深入的探讨和研究,从系统开发与应用的角度详细分析并探讨了系统平台中涉及的关键技术,在此基础上设计并开发了面向专题情报服务的领域知识库构建平台。该平台能够辅助图书情报工作者构建领域知识库,从而进一步提高科技文献资源加工、处理和知识组织与利用的工作效率和服务能力。本文的主要工作和研究成果主要体现在以下四个方面:(1)针对专题情报服务工作中面临的多种异构文献资源采集、组织、加工处理问题,结合文献资源的特点和专题情报服务的需求,实现了网页文献资源的自动采集。在此基础上,参考都柏林核心元数据模型,提出了面向专题情报服务的统一资源描述规范,支持对常见文献资源的描述和存储,有利于对异构资源进行统一管理,为跨平台的资源共享及进一步加工和利用提供了便利。(2)基于现有算法和模型分别提出了改进的关键词提取、摘要提取和内容分类算法。基于统计模型和N元语言模型,结合特征词词频、词长、词性、位置等信息,提出了适用于专题情报服务文献资源的关键词提取算法,且算法具有领域无关性,能够有效地识别未登陆词;采用基于统计的自动摘要算法,结合句子的内容和位置等信息,综合评价候选摘要句的权重,实现了摘要自动提取算法,该算法针对摘要中可能存在重复摘要句的问题,利用摘要句之间的相似度计算过滤冗余摘要句;基于朴素贝叶斯分类算法,实现了文献资源的自动分类,本文在算法具体实现时,对待分类项和训练样本中的特征项赋予不同的权重,相比原朴素贝叶斯分类算法取得了更好的分类效果。(3)从文献资源宏观分析角度出发,利用HDP主题模型,对数据集进行了主题分析及外部/内部特征统计分析,基于HDP主题模型,提出了面向资源检索情境的文献推荐模型,该模型能够从语义分析角度将文献特征相似度计算转换为隐含文献特征语义的主题相似度计算,提高了推荐文献的准确率。此外,文献推荐模型中还引入了时间权重,在文献检索时,能够优先推荐较新文献或与当前文献发表时间较接近的文献。(4)从实际需求出发,基于.Net平台设计并实现了一个面向专题情报服务的领域知识库构建平台。该平台能够实现从资源采集、资源组织到资源加工、资源利用等多方面的功能,通过相关数据实验,验证了本系统平台的技术可行性,具有一定的实践意义。