大规模文本分类的若干问题研究

来源 :电子科技大学 | 被引量 : 5次 | 上传用户:jiward
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是文本信息处理的基础性工作,早就受到很多关注。但是,随着社会网络化的发展,大规模的甚至海量的文本信息急剧增加,导致文本分类问题面临着巨大挑战。本文从文本的表示和支持向量机的高效训练两个方面展开了创新性和探索性研究:1.文本通常表示为单词特征上的权值向量的形式。每个特征的权值一般用单词在文本中出现的频率及在不同文本间出现的次数来计算。本文在实际数据集上观察了这些度量取值的分布特点,得到了两个启发式的规则:在做特征选择时,宜选择中间频率的特征,或者按特征频率分为高中低三组;而传统的IDF权因子可以用训练集上总的TF来加强。2.短语表达的语义比单词更丰富,但传统上是用特征选择算法来选取一个短语子集作为文本的特征集。本文从语法分析树的节点层次的角度来选择短语,这种方法能够可更好地反映短语在句子结构中的语义地位和作用。对比实验表明,新的表示方法提高了正例的召回率。3.向量空间模型的语义化改造通常都利用相邻单词间的语义关系,或者非相邻甚至不出现的单词间的词典语义关系。本文利用上下文中的指代关系所给出的不相邻单词间的语义关系来改善特征的权度量。这种增强的加权度量可以从语义层面上更准确地表达特征的真实频率。经验研究表明,新表示方法提高了正例的召回率。4.核矩阵的cache缓冲是SVM分解优化求解的重要加速技术。但是传统的分解算法未必总表现出很好的局部性特点。本文提出了一种三层工作集选择框架,以直接控制迭代过程的局部化。结合多种工作集选择算法,有效地实现了对分解优化算法进一步加速的效果。5.对于大规模文本分类问题,利用逐步求精的思路,把它化为两阶段来处理是一个有效策略。直观上,两分类问题中每类数据的分布轮廓对于分类任务才是最重要的。本文用一个平面拟合每类数据,并把拟合问题转化为一个最小包球问题。进一步注意到,若用核集优化求解,则所产生的核集coreset能反映分布轮廓。对比实验表明,在这种很小的子集上训练SVM分类器具有非常高的效率,也可以得到非常稀疏的解。6.不同于前面用一个平面孤立地拟合其中一类数据,进一步纳入两类数据间的分离性来建立新的平面拟合模型。即平面不仅要拟合指定类别的数据,还要使得另一类数据尽量位于它的一侧。实验表明,改进的算法保持了与问题规模和维度无关的处理效率,同时具有与标准SVM类似的平均泛化能力。7.进一步探讨另外一种结合分离性的方法。即除了要求平面拟合指定类别的数据外,不仅要求另一类数据要尽量位于它的一侧,还要求离该平面尽量远。实验结果显示,新的改进算法平均泛化能力也与标准SVM相近,而且具有更大的潜在处理效率,因为每个平面的拟合代价几乎等效于一半数据上的计算开销。
其他文献
数千年来,信息在人类社会进步和发展中发挥了重要作用。当今,伴随着信息时代的到来,特别是80年代以来,随着计算机和网络技术的兴起与发展,信息安全问题日益凸显。基于信息光
赋予计算机以人类视觉能力的长期梦想,加上近年来图像数据爆炸式增长带来的图像管理、检索等相关应用的迫切需求,使得图像内容分析成为了视觉研究的热门课题。图像特征是进行
图像科学是一门汇集多门学科于一体的交叉学科,与相关学科(特别是数学学科)的基础理论在该学科的成功应用密切相关.在图像科学中,无论是图像模型的建立,图像特征的描述,还是
高速公路建设发达程度可以从侧面反映出一个国家或地区的经济水平.就国内而言,高速公路体系建设基本完善,随之而来的则是对高速公路施工技术的全新要求.其中路基工程质量的好
目的:报告中国现代康复心脏病学的发展和现状。方法:回顾性分析主要发表在1998年~2006年10月《心血管康复医学杂志》的有关300篇论文。结果:1991年中国康复医学会心血管病专业
幼儿期是身体发育最快的时期,科学合理的体育活动是很有必要的,能实现身体发育和运动能力发展的平衡,也可以使幼儿身心得到全面和谐的发展。幼儿体育活动的质量直接影响着幼