文本宏特征抽取与基于质心的自动分类方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：huangys

【摘要】

：

自动文本分类(也称文本分类)一直都是互联网信息处理的研究热点。随着实际应用中类别体系的灵活性要求越来越高和细分类别数目的急剧增长,文本分类中标准语料库的自动构建就

【作者】

：

王丹丹

【出处】

：

哈尔滨工业大学

【发表日期】

：

2014年期

【关键词】

：

文本分类语料库自动构建文本特征抽取宏特征抽取质心分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自动文本分类(也称文本分类)一直都是互联网信息处理的研究热点。随着实际应用中类别体系的灵活性要求越来越高和细分类别数目的急剧增长,文本分类中标准语料库的自动构建就成为真实应用中分类器构建的关键问题之一。另外,文本词级别特征忽略了文档作为一个有机整体时词与词之间的关联关系,以及基于质心的分类方法对比困难、适用场景不明确、分类效果一般,也一直都是文本分类的主要问题。针对上述问题,本文围绕文本分类中语料库构建、特征抽取和分类方法三个关键问题展开深入研究。研究内容主要包括:基于网页结构的文本分类语料库自动构建方法。由于固定的分类体系无法满足用户实际应用需求,而互联网大规模网站资源中蕴含了丰富的文本分类知识,为此,本文利用丰富的网络资源,借助网页结构、内容和链接关系,基于聚类的无监督标准语料库过滤,最终完成整个文本分类语料库的构建。实验表明基于网页结构的文本分类语料库自动构建能够达到73.73%的准确率,表明这一方法具有良好的可行性。有监督文本宏特征抽取方法。传统的文本特征抽取方法往往忽略了文本之间的关系,为此,本文基于文档之间的关系来抽取特征,并称为宏特征。根据标注语料所占比例对分类性能的影响,设计实现了基于聚类的宏特征抽取方法、基于聚类加权的宏特征抽取方法和基于质心向量的宏特征抽取方法。实验表明,在传统微特征的基础上,加入每种宏特征后对文档进行分类,文本分类性能都得到了有效提升。文本宏特征融合方法。考虑到在不同应用中能够获得的标注数据的规模不同,本文提出了有监督和无监督两种互补类型的宏特征融合方法。从模型融合和特征融合角度出发实现了基于Bagging和特征增广的宏特征融合。无监督宏特征抽取方法包括基于K-means的宏特征抽取方法、基于LDA的宏特征抽取方法和基于DBN的宏特征抽取方法。融合后的宏特征再结合传统的微特征共同作为特征来进行文本分类。实验表明,在传统文档微特征上加入融合后的宏特征比单独加入有监督或无监督宏特征能够获得更好的文本分类性能。基于排序学习的质心文本分类方法。基于质心的文本分类方法由于其模型简单、训练时间短等特点而倍受关注。由于目前已有的基于质心的分类方法基本原理各不相同,使得对比和性能改进相对困难,而且总体的分类精度不高。为此,本文提出了一个基于排序学习的质心分类方法的统一框架。在这个框架下,分类问题被转化成排序问题来看待,通过信息检索技术优化原型向量。基于此框架,本文将目前常用的三种基于质心的分类方法用该框架统一表示,并在此基础上,提出了新的基于排序学习的质心分类方法。实验表明,本文提出的基于排序学习的方法比其他三种常用的基于质心的分类方法在性能上都有较大的提升。

其他文献

高中化学学生作业有效设计研究

化学作业是化学教学的重要组成部分。它不仅是学生巩固知识、熟练技能的主要途径，还是教师检验课堂教学效果、改进课堂教学策略的主要手段。但如果作业设计处理不当，这将会打击

期刊

高中化学作业有效设计

高可溶性绿色荧光蛋白在大肠杆菌中的表达分析

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

绿色荧光蛋白大肠杆菌可溶性表达

基于关系模型的语料库查询处理问题研究

随着信息科学领域基于统计的自然语言处理技术和人文学科领域描述性语言学研究的发展,一些研究机构、企业和组织甚至个人都开发、建设和积累了大量不同规模的语料库。这些语

学位

语料库关系模型查询处理关键字查询语义查询

相位差算法的并行化分析与实现

受大气湍流影响,平面波经大气传播后,振幅和相位将发生随机起伏,导致光强闪烁、波面畸变。当光进入光学系统后,光学系统自身装调误差、光学元件制造误差以及温度和重力等因素

学位

自适应光学相位差算法波前探测图像复原并行计算傅里叶变换光学传递函数

Overture记谱软件的使用技巧

介绍了如何使用Overture记谱软件完成五线谱的输入和打印，同时介绍了怎样将五线谱和WORD文本进行混排。使五线谱文件顺利插入文本文档中。

期刊

Overture五线谱记谱Overture a staff record musical score

煤矿救援蛇形机器人环境建模方法研究

煤矿救援机器人的研究对煤矿救灾工作的顺利开展有着重要的现实意义,简要分析了煤矿救援机器人在环境建模方面的研究现状,针对煤矿事故发生后,救援蛇形机器人如何在恶劣的井

期刊

煤矿救援蛇形机器人多传感器数据融合环境建模模糊神经网络

荆公新学及其美学意蕴

荆公新学是指北宋政治家、思想家、文学家王安石(1021-1086)的学术思想,涉及哲学范畴、伦理学范畴、政治学范畴。荆公新学是儒学发展中的重要一环,它与同时期的理学、洛学、濂学共同推动了儒学由汉学系统向宋学系统的转变,其心性论对于开启陆王心学亦有先功。王安石的诗文成就也毫不逊色于北宋诸家,其文列于“唐宋八大家”,其诗开创风貌独异的“荆公体”。然而,由于熙宁变法的政治影响,古往今来的学者对荆公新学及

学位

荆公新学心性论道论美学义理之学性理之学

大量程涡流测距探头的仿真设计

为了能够在大量程范围内准确检测出涡流探头到曲面基体表面的距离,使用FEM-BEM程序进行数值计算并分析不同涡流线圈尺寸、曲面曲率大小、提离距离等因素对涡流信号的影响规律

期刊

数值计算涡流探头阻抗数据数据拟合曲线标定

主观幸福感与成就水平、抱负水平的相关性研究

本研究的目的在于考察主观幸福感的影响因素,并深入分析主观幸福感同个人成就与抱负之间的关系。首先,本研究编制了抱负水平问卷和成就水平问卷。其次,本研究选取学生、政府

期刊

主观幸福感成就水平抱负水平

文本宏特征抽取与基于质心的自动分类方法研究

其他学术论文