基于向量空间模型与规则匹配相结合的文本层次分类系统的研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:lcm2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的普及与发展,数字化电子类信息资源极大的丰富和流通。对Internet上海量信息的有效组织和处理是网络时代所面临的巨大挑战。分门别类地对其进行自动分类,是当前图书情报及计算机界研究的热点。在这一领域,人们已经进行了大量的研究。但较为实用且可行的系统却不多。为此本系统研究了对海量数字资源进行特征抽取、表示、分类的方法和相关技术,为数字资源的自动化处理提供可参考的依据和可行的方案。 在该分类系统的构建过程中,本系统着重从以下几方面进行系统开发:探索有效的特征抽取与选择方法,找出其权值表示模式,尤其是关键词词表的构造与维护。在统计与规则两类不同分类方法中找到其切合点,探索如何将两种方法进行结合,发挥其各自的优点,提升分类器的效率和准确性。探索线性分类与层次分类的区别与联系,找出采用层次分类的优势所在,实验其可行性。探索自动分类技术在现实环境中的实用性,解决现实中存在的一些阻碍因素。在本文中我们分别给出了这些问题的解决方案和处理的算法和流程及相应的数据结构。针对研究过程中遇到的问题,本系统在应用相关领域的研究成果基础上,提出了多个新的算法和思路: ● 借鉴关键词轮排原理,结合相关统计模型,从正反两个方向对原始抽词词典进行压缩和优选,达到降维和准确表达主题的目的; ● 针对不同特征选择及权值计算方法的特点,采用多方法结合以投票方式进行特征选择和权值赋值,提高标引准确性; ● 针对分类体系的特点,研究提出逐级分类的算法,达到快速准确进行分类的目的; ● 验证统计与决策规则两种方法的切合点,即双重分类的分界阈值; ● 探索在保持分类能力的前提下,影响分类速度的相关因素,并提出改善方案。 基于以上几个方面,本文对该自动分类系统进行了海量新闻文本和基于《中图法》分类体系的VIP期刊论文分类的实验研究,测试结果表明,该系统具有进行大规模文本自动分类的可行性和实用性,分类效果基本上可以达到普通文本分类实用要求。
其他文献
目的:本论文旨在研究脊柱外科的电子病历的数据对象模型,电子病历是以病人为中心的信息集成,是医院所有业务系统的有机结合体,是对个人医疗信息及其相关处理过程综合化的体现。电子病历包含的数据格式多样化,内容复杂化,导致电子病历数据对象模型研究是国内的一个热点,且当前没有任何一个电子病历系统能够包罗万象、普遍适用,所以电子病历的研究需要着眼于某一专科,甚至于某一种疾病。这样面临的医学知识相对稳定,表达相对
数项新近的研究显示:全球学术图书馆的使用量出现骤降,本科生对图书馆的使用情况尤其如是,借阅量呈递减趋势;杂志与书籍(纸本和电子本)的使用率偏低;以学习、完成作业或休闲
期刊
通过对示范性高职院校图书馆学科服务现状的调查和分析,调研高职院校用户对学科服务的需求,揭示高职院校图书馆学科服务的特点,提出高职院校图书馆学科服务应适应高等职业教
图书馆员心理工作环境是馆员对工作情境中个人、图书馆组织、工作特征、人际关系等方面综合知觉的认知反馈。经过开放式问卷访谈、预试及正式调查程序,研究证实中国文化背景
本文调查了赞比亚局域网的应用情况和产生的效果。包括目前赞比亚网络技术状况的评估,网络投资潜力和赞比亚的公共组织准备利用网络技术的情况。数据的搜集是通过对首都(卢萨卡)十九个重要社会组织随机采样而来的,这些城市都有基础的公共组织。搜集数据的定性的研究方法使用非数据表格。通过各种常规传播媒体和集中的调查问卷进行更深入的调查。案头研究调查用来获得城市经济与人力资源的背景信息。分析数据用定性的数据分析方法
科学技术在飞速发展的同时,自身的分化进程也在加快。随着学科专业的逐步细化,专业文献的研究范围开始逐渐缩小,专业间的沟通变得越来越困难。原本在专业文献间有价值的关联
指出学科知识建模是一项巨大的工程,通过本体建模,能够构建严密的学科知识组织体系。探讨学科本体的研究现状,分析学科本体建模的特点,提出一种本体建模的新方法,并且利用该
针对移动环境下读者个性化阅读需求具有高度情境敏感性的特点,面向数字图书馆领域提出一种基于情境感知的个性化信息推荐模型.首先,提出“情境熵”来度量读者对不同情境属性
图书文献资源是广东省科技和社会发展的重要资源,是科技创新和社会发展的重要支撑。网络环境的不断发展,为文献资源的共享创造了有利的条件。本文首先介绍了图书文献共享相关的