面向专题情报服务的领域知识库构建平台研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:cfzzfz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对互联网环境下文献资源数据量巨大、更新变化迅速,完全依靠传统的文献加工、处理方式无法满足新环境需求的问题,提出了面向图书情报机构专题情报服务的领域知识库构建平台研究课题。围绕该平台的服务模式、逻辑架构、技术体系及应用问题等进行了深入的探讨和研究,从系统开发与应用的角度详细分析并探讨了系统平台中涉及的关键技术,在此基础上设计并开发了面向专题情报服务的领域知识库构建平台。该平台能够辅助图书情报工作者构建领域知识库,从而进一步提高科技文献资源加工、处理和知识组织与利用的工作效率和服务能力。本文的主要工作和研究成果主要体现在以下四个方面:(1)针对专题情报服务工作中面临的多种异构文献资源采集、组织、加工处理问题,结合文献资源的特点和专题情报服务的需求,实现了网页文献资源的自动采集。在此基础上,参考都柏林核心元数据模型,提出了面向专题情报服务的统一资源描述规范,支持对常见文献资源的描述和存储,有利于对异构资源进行统一管理,为跨平台的资源共享及进一步加工和利用提供了便利。(2)基于现有算法和模型分别提出了改进的关键词提取、摘要提取和内容分类算法。基于统计模型和N元语言模型,结合特征词词频、词长、词性、位置等信息,提出了适用于专题情报服务文献资源的关键词提取算法,且算法具有领域无关性,能够有效地识别未登陆词;采用基于统计的自动摘要算法,结合句子的内容和位置等信息,综合评价候选摘要句的权重,实现了摘要自动提取算法,该算法针对摘要中可能存在重复摘要句的问题,利用摘要句之间的相似度计算过滤冗余摘要句;基于朴素贝叶斯分类算法,实现了文献资源的自动分类,本文在算法具体实现时,对待分类项和训练样本中的特征项赋予不同的权重,相比原朴素贝叶斯分类算法取得了更好的分类效果。(3)从文献资源宏观分析角度出发,利用HDP主题模型,对数据集进行了主题分析及外部/内部特征统计分析,基于HDP主题模型,提出了面向资源检索情境的文献推荐模型,该模型能够从语义分析角度将文献特征相似度计算转换为隐含文献特征语义的主题相似度计算,提高了推荐文献的准确率。此外,文献推荐模型中还引入了时间权重,在文献检索时,能够优先推荐较新文献或与当前文献发表时间较接近的文献。(4)从实际需求出发,基于.Net平台设计并实现了一个面向专题情报服务的领域知识库构建平台。该平台能够实现从资源采集、资源组织到资源加工、资源利用等多方面的功能,通过相关数据实验,验证了本系统平台的技术可行性,具有一定的实践意义。
其他文献
第一部分胰腺癌射波刀治疗CT定位增强扫描延迟时间优化研究研究目的:探讨胰腺癌在行射波刀治疗前CT模拟定位增强扫描的最优延迟时间,并分析此时间点时靶区勾画与各评分项目的
目的1.分析T2期胃癌原发病灶的CT特征及临床病理特征;2.探讨MDCT在T2期胃癌术前TNM分期中的价值;3.探究MDCT诊断T2期胃癌转移淋巴结大小的最佳阈值。方法回顾性分析93例经病
该研究旨在探究鲁中肉羊HIRA基因g.71833755 T>C和g.71874104 G>A两个位点多态性及其与产羔数之间的关系,以期为鲁中肉羊高繁殖力分子育种提供新的遗传标记。利用全基因组重
从盐生海芦笋中分离出一株内生真菌(Salicorn 15),采用分子生物学与形态学观察相结合对其鉴定。提取该菌的基因组DNA后分别对其18S rDNA和ITS区域进行PCR扩增并进行单克隆测
跨长度和跨层次现象以及相应的多尺度耦合反映物质世界的基本性质及多学科交叉的内禀特征 ,具有极其丰富的科学内涵。集量子力学、原子学模拟、粗粒化技术、准连续描述以及有
站在改革开放四十年的历史节点,如何准确把握中国经济和中国化妆品产业的下一程走向?面对贸易战的外部挑战,我们该如何应对?国务院参事姚景源指出,探索和把握中国经济的下一
在小学阶段,学生的思想意识处在启蒙阶段,在这一时期通过有效的音乐教育能够培养学生的审美能力,挖掘学生的艺术潜能,从而促进学生的全面发展。文章研究了音乐教学中创新教育
本文对财务人员职业道德修养“八慎”进行了深入的分析。
背景和目的:宫颈癌(Cervical Cancer)是目前为止在全球范围最常见的妇科恶性肿瘤之一,位居女性癌症相关死亡原因第二位,其发病率仅次于乳腺癌,是发展中国家女性的主要死亡原
高原地形复杂、气候恶劣,低气压、低氧、寒冷、风沙、紫外线辐射等多种环境因素对人体生理功能、生化代谢以及劳动能力均产生十分显著的影响[1].高原地区发生地震等自然灾害