文本的特征提取及KNN分类优化问题研究

被引量 : 0次 | 上传用户:yueer40849263
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是信息处理领域中的一个重要的研究方向。随着信息技术的发展,特别是20世纪90年代基于机器学习的文本分类方法的逐渐成熟,文本分类技术在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用,而这些领域的发展,同时又推动了文本分类技术不断地提高。在基于机器学习的文本分类研究中,算法按照分类学习方式的不同,可分为有监督分类、半监督分类和无监督分类三种。有监督分类通常简称为文本分类(textcategorization,简称TC),它的主要任务是在预先给定的类别标记(label)集合下,根据文本内容判定它的类别;无监督分类称为文本聚类(clustering),文本聚类是按照某种准则对文本集合进行组织或划分,使得相似的文本划分到同一簇中,差异较大的文本划分到不同簇中;半监督学习介于有监督分类与无监督分类之间,它主要关注的是当训练样本不足或者数据的部分信息缺失的情况下,如何获得具有良好泛化能力的学习机器,对文本类别进行正确区分。无论是哪种分类算法,对于高维文本来说,特征提取和特征选择作为降维的重要方法,是降低计算复杂性、提高分类器性能的重要手段。同时,它们也跟上述的分类算法一样,面临着海量数据、非结构化、维数灾难与数据集偏斜等方面的挑战。本文主要研究中文文本分类,重点就文本的特征提取、特征选择、分类和聚类四个方面进行展开研究。本文首先提出了基于句子成分的文本特征提取算法;接着,提出了特征索引与特征补偿的KNN分类算法。本文研究中主要的创新点包括:1、基于句子成分的文本特征提取。在文本特征提取中经常会出现一些跟主题无关的词条。本文根据不同的句子成分在表达主题中所起的作用不同,利用句法分析实现句子成分的标注,并由此提出了基于句子成分的文本特征提取算法。实验结果显示,该算法不但能有效地过滤一些跟主题无关的词条,而且避免了停用词表或词性过虑的局限性。2、均衡特征选择算法研究。针对目前关于数据分类的假设在实际中难以满足以及数据偏斜的问题,本文通过对文本分类目标函数的分析,提出了均衡的特征选择算法,理论分析与在公开文本集的实验表明,该算法能够有效地处理子类间的数据偏斜问题。对证明和验证该算法的正确性和有效性。3、KNN分类算法改进研究。为了减少未标记样本与无关向量集的比较以提高分类的速度,本文利用选择的特征集作为待标记文本分类的索引,提出了基于特征空间索的最近邻分类算法。实验表明,该算法分类时间受维数增加的影响较小。另外,为了提高分类的准确性,本文将未包含在特征空间中且具有区分类别能力的特征词作为分类的补偿特征集,提出了基于特征补偿的KNN算法。
其他文献
幼儿期(约3岁以前)独立性的培养,是现代幼儿教育的热点和难点。幼儿期是儿童成长的一个非常关键的时期,做好这个时期的幼儿教育,尤其是独立性的培养,对儿童心里的健康成长非
以我国新能源上市公司2008~2013年的投入产出数据为样本,运用导向DEA模型多阶段求解方法分析光伏和风能上市产业的产能过剩状况及其原因。研究结果表明,我国有近四分之三的新
目的探讨胸腰段椎体骨折的手术治疗方法及其临床疗效。方法回顾性分析2003年1月至2010年12月我院76例新鲜胸腰段椎体骨折手术治疗病例。其中T113例,T1219例,L140例,L214例。
从生产运作管理的角度,对手工沙盘系统中与生产管理相关的部分进行改进,包括通过产能预估指导市场订单的获取,即生产和销售的平衡性问题;厂房和生产线的规划问题,考虑到采购
以教材中有关原电池原理的两个实验为基础,对其进行微型化改进。其一是克服演示实验过程中观赏性不足、浪费大,还有污染等不足;其二,有利于提高学生的参与率,变教师演示实验为
从继承、整理名老中医经验角度,系统阐释任继学教授对慢性肾功能衰竭病因病机的独特认识。任继学教授提 出禀赋薄弱是慢性肾衰发生的重要原因,并认为饮食、情志不节均可化毒
发生于我国的跨境污染已从早期的洋垃圾进口,发展到输入污染技术设备乃至整个产业,致使其造成的环境损害愈发难于治理。本文运用条件LOGIT模型及我国的FDI数据,对影响污染密
文章通过分析煤层瓦斯的形成、瓦斯在煤层中的储积与运移及影响瓦斯储积与运移的因素,阐述了瓦斯灾害的预防措施。
水运是我国贸易的主要运输方式,伴随着中国经济和港口经济不断的持续增长,港湾建设的竞争不断加剧,港口竞争力测评的研究已经成为提升港口竞争能力的重要途径之一。文中在分
本文通过对国内监理行业现状的分析,并与国外FIDIC合同下的咨询工程师进行对比,探讨了目前我国监理工程师与国外咨询工程师之间的差距,最后为监理行业的发展方向提出了建议。