文本宏特征抽取与基于质心的自动分类方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:huangys
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文本分类(也称文本分类)一直都是互联网信息处理的研究热点。随着实际应用中类别体系的灵活性要求越来越高和细分类别数目的急剧增长,文本分类中标准语料库的自动构建就成为真实应用中分类器构建的关键问题之一。另外,文本词级别特征忽略了文档作为一个有机整体时词与词之间的关联关系,以及基于质心的分类方法对比困难、适用场景不明确、分类效果一般,也一直都是文本分类的主要问题。针对上述问题,本文围绕文本分类中语料库构建、特征抽取和分类方法三个关键问题展开深入研究。研究内容主要包括:基于网页结构的文本分类语料库自动构建方法。由于固定的分类体系无法满足用户实际应用需求,而互联网大规模网站资源中蕴含了丰富的文本分类知识,为此,本文利用丰富的网络资源,借助网页结构、内容和链接关系,基于聚类的无监督标准语料库过滤,最终完成整个文本分类语料库的构建。实验表明基于网页结构的文本分类语料库自动构建能够达到73.73%的准确率,表明这一方法具有良好的可行性。有监督文本宏特征抽取方法。传统的文本特征抽取方法往往忽略了文本之间的关系,为此,本文基于文档之间的关系来抽取特征,并称为宏特征。根据标注语料所占比例对分类性能的影响,设计实现了基于聚类的宏特征抽取方法、基于聚类加权的宏特征抽取方法和基于质心向量的宏特征抽取方法。实验表明,在传统微特征的基础上,加入每种宏特征后对文档进行分类,文本分类性能都得到了有效提升。文本宏特征融合方法。考虑到在不同应用中能够获得的标注数据的规模不同,本文提出了有监督和无监督两种互补类型的宏特征融合方法。从模型融合和特征融合角度出发实现了基于Bagging和特征增广的宏特征融合。无监督宏特征抽取方法包括基于K-means的宏特征抽取方法、基于LDA的宏特征抽取方法和基于DBN的宏特征抽取方法。融合后的宏特征再结合传统的微特征共同作为特征来进行文本分类。实验表明,在传统文档微特征上加入融合后的宏特征比单独加入有监督或无监督宏特征能够获得更好的文本分类性能。基于排序学习的质心文本分类方法。基于质心的文本分类方法由于其模型简单、训练时间短等特点而倍受关注。由于目前已有的基于质心的分类方法基本原理各不相同,使得对比和性能改进相对困难,而且总体的分类精度不高。为此,本文提出了一个基于排序学习的质心分类方法的统一框架。在这个框架下,分类问题被转化成排序问题来看待,通过信息检索技术优化原型向量。基于此框架,本文将目前常用的三种基于质心的分类方法用该框架统一表示,并在此基础上,提出了新的基于排序学习的质心分类方法。实验表明,本文提出的基于排序学习的方法比其他三种常用的基于质心的分类方法在性能上都有较大的提升。
其他文献
随着国家医疗体制改革将健康教育提升到公共卫生事业基础性工作的高度,健康教育工作力度加大,由此产生的健康教育档案也呈现出新的特点。当前,健全健康教育档案管理制度、完成不
化学作业是化学教学的重要组成部分。它不仅是学生巩固知识、熟练技能的主要途径,还是教师检验课堂教学效果、改进课堂教学策略的主要手段。但如果作业设计处理不当,这将会打击
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
随着信息科学领域基于统计的自然语言处理技术和人文学科领域描述性语言学研究的发展,一些研究机构、企业和组织甚至个人都开发、建设和积累了大量不同规模的语料库。这些语
受大气湍流影响,平面波经大气传播后,振幅和相位将发生随机起伏,导致光强闪烁、波面畸变。当光进入光学系统后,光学系统自身装调误差、光学元件制造误差以及温度和重力等因素
介绍了如何使用Overture记谱软件完成五线谱的输入和打印,同时介绍了怎样将五线谱和WORD文本进行混排。使五线谱文件顺利插入文本文档中。
煤矿救援机器人的研究对煤矿救灾工作的顺利开展有着重要的现实意义,简要分析了煤矿救援机器人在环境建模方面的研究现状,针对煤矿事故发生后,救援蛇形机器人如何在恶劣的井
荆公新学是指北宋政治家、思想家、文学家王安石(1021-1086)的学术思想,涉及哲学范畴、伦理学范畴、政治学范畴。荆公新学是儒学发展中的重要一环,它与同时期的理学、洛学、濂学共同推动了儒学由汉学系统向宋学系统的转变,其心性论对于开启陆王心学亦有先功。王安石的诗文成就也毫不逊色于北宋诸家,其文列于“唐宋八大家”,其诗开创风貌独异的“荆公体”。然而,由于熙宁变法的政治影响,古往今来的学者对荆公新学及
为了能够在大量程范围内准确检测出涡流探头到曲面基体表面的距离,使用FEM-BEM程序进行数值计算并分析不同涡流线圈尺寸、曲面曲率大小、提离距离等因素对涡流信号的影响规律
本研究的目的在于考察主观幸福感的影响因素,并深入分析主观幸福感同个人成就与抱负之间的关系。首先,本研究编制了抱负水平问卷和成就水平问卷。其次,本研究选取学生、政府