数字图书馆中基于统计的自动文本分类方法研究

来源 :中国科学院研究生院(计算技术研究所) | 被引量 : 2次 | 上传用户:luoshibo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数字图书馆是保存大量信息和知识的数字化资源库,自动文本分类是数字图书馆中进行信息组织和管理的核心技术。自动文本分类是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。本文在国家科学数字图书馆的应用背景下,研究基于统计的自动文本分类方法。 为了对文档进行充分表达,本文提出了中文文本多层次特征表示方法。多层次特征表示方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征,能够更好地反映文档的统计分布,提高分类性能。 针对标准KNN算法的不足,本文提出了基于核的距离加权KNN算法,能够解决样本的多峰分布、边界重叠问题和分类器的精确分类决策问题。 互联网和文本库中有很多经过粗分类的训练文本,但普遍存在样本内容重复和质量过差的问题,这严重影响了文本分类器的性能。本文提出基于排序特征的快速冗余文档检测算法,去除样本中冗余文档。为了解决训练样本质量过差的问题,本文通过重要性分析方法进行训练文本选择。 在国家科学数字图书馆中,学科主题词表中包含一些语义映射关系。本文使用互信息度量不同主题词对不同类别的区分度,同时利用主题词表中的语义映射关系,这种方法混合使用了统计和语义信息,为后续研究提供了基础。
其他文献
<正>定边县位于陕西省西北角,陕甘宁蒙四省区交界处。县域总面积69.2万hm2,森林面积20.21万hm2。全县地貌南部为白于山黄土丘陵沟壑区,北部为毛乌素沙地风沙滩区,全县约有盐
2012年的刑事诉讼法修正案重点解决了辩护制度、证据制度等几方面的突出问题,对刑事诉讼权利的保障有较大进步。但在国家职权主义理念仍占主流、线性诉讼结构不能根本改变的
幼儿语言的发展是非常重要的。本文从幼儿语言教育生活化的必要性和幼儿语言教育生活化的途径两个方面,阐述让幼儿语言的发展渗透到幼儿的一日生活与学习中,给幼儿创造良好的
党的十七大在十六大关于“壮大”县域经济的提法的基础上,更进一步指出:“要毫不动摇地发展非公有制经济”,要“以促进农民增收为核心,发展乡镇企业,壮大县域经济,多渠道转移
人力资源是当今社会最重要的战略性资源,从战略发展的角度来看,人力资源又是旅游业构建内动力和软实力的重要保障。在当前的市场形势下,旅游市场竞争的本质是对人才的竞争,因
目的:探讨电针治疗中风偏瘫肩-手综合征的疗效。方法:将200例患者随机分为治疗组和对照组各100例。治疗组采用毫针加电,对照组单用毫针刺法治疗。结果:治疗组治疗2个疗程后统
当前我国女大学生群体日益壮大,出现了一些自我实现认识不清、发展要求趋于保守的社会现象,但她们的自我定位、价值实现和生活选择又越来越影响到社会的发展和我国未来的进步
晚年的马克思倾注了很大的精力探讨东方社会发展道路的特殊性问题 ;他在此期间所作的关于传统东方社会法律调整机理的理论阐述 ,丰富了马克思主义法律思想宝库 ,为我们提供了
本文以Matlab计算的个股的赫斯特指数为基础,通过个股对数收益率以及其峰度和赫斯特指数三者同大盘相应的数据作为对比.并设计了用符号函数将数据简单化来构建风险评级模型。
自SaaS(Software as a Service软件即服务)服务应用以来,Saas服务的安全性问题一直是用户、厂商和媒体热议的话题,也是企业是否选购企业在线管理服务考虑的主要因素之一。