【摘 要】
:
随着信息技术的快速发展,文本数据量不断增长,如何高效、准确地定位有效信息成为当今时代下的迫切需求。文本分类作为信息处理的核心技术成为解决这类问题的关键手段。在文本分类过程中,高维数据容易引起分类过程中的维度灾难,特征选择是解决维度灾难,实现维数约减的有效方法,因此论文以文本分类过程中的特征选择方法作为主要研究内容。论文首先简要概述了文本分类技术,并介绍了其详细过程,在每个步骤中都列举了一些常用的方
论文部分内容阅读
随着信息技术的快速发展,文本数据量不断增长,如何高效、准确地定位有效信息成为当今时代下的迫切需求。文本分类作为信息处理的核心技术成为解决这类问题的关键手段。在文本分类过程中,高维数据容易引起分类过程中的维度灾难,特征选择是解决维度灾难,实现维数约减的有效方法,因此论文以文本分类过程中的特征选择方法作为主要研究内容。论文首先简要概述了文本分类技术,并介绍了其详细过程,在每个步骤中都列举了一些常用的方法。其次为解决文本分类过程中的维度灾难,提出了两种新的特征选择算法。(1)提出一种基于NDM改进的特征选择算法(T F-NDM)。通过分析常见的特征选择算法,发现大部分算法都依赖于文档频率,未考虑词条频率,因此本文以表现优秀的NDM算法的文档频率为基础,引入词频权重,充分考虑类别信息和词条占比的情况。最后通过在五个数据集上不同的实验结果证明,T F-N DM算法性能良好,能够有效地提高分类性能。(2)提出一种基于文档专一化和词条多样化的特征选择算法(D S T D)。该算法在宏观上统一文档频率的多种计算方式,在微观上从多个角度考虑了词条分布的情况,提出文档专一性和词条多样性两个全新的影响因子。DSTD算法对两个因子进行有效结合,充分发挥了文档频率和词条频率的优势,最后在三个数据集上与六个相关算法进行了对比分析,验证了DSTD算法的有效性。本论文深入研究了文本数据集中的文档频率和词条频率,从不同角度提出两种特征选择算法,有效地解决了特征排序时的片面性问题,两种算法综合多个方面选出具有代表性的特征,并且通过实验表明它们具有良好的效果。
其他文献
本文对压力型体制产生的原因、特征、弊端进行了粗浅的论述。本文认为当前中国各个阶层必须达成共识,坚持以对社会主义的新认识、新发展的理论,对社会主义的本质更深刻认识的
页岩气开发利用的环境效益产生于页岩气能源对于煤炭能源的替代价值。因此,其环境效益评估体系应包含页岩气与煤炭资源两方面,其环境效益评估的基础是煤炭资源开发利用的环境
综述国内外关于岩体裂隙渗流特性的研究成果,并进行相应的分析和讨论。分析表明:试验研究在岩体裂隙渗流特性方面具有不可替代的作用;许多研究者根据试验结果提出相应的经验公式
情报主导警务(Intellgence-led Policing)是21世纪初在全世界范围内掀起的警务变革,其所体现的警务运行管理和社会治安治理理念和方法也对中国警务运行模式变革不断产生着影响。目前,我国已是新的信息化技术发展的高地,5G网络技术、大数据技术、人工智能等一系列的新的信息化技术的快速发展为情报主导警务在我国本土化实施提供了比较优势的技术环境。情报主导警务先进理念和先进网络数据技术及相关
谐波电流损害电器设备、缩短设备的使用寿命、降低电能使用和传输效率,形成资源浪费和环境污染,存在着巨大的安全隐患。阐述谐波检测和抑制的意义,探讨谐波检测和抑制的方法
胶凝砂砾石(CSG)坝是在碾压混凝土坝和面板堆石坝的基础上发展起来的。文章通过国内外CSG材料筑坝实践和研究现状,归纳分析了CSG坝的特点及大力开展CGS材料、本构模型、工程
特征选择一直是模式识别领域的研究热点之一。模式识别是对数据进行分类,分类的过程可以在原始数据空间中完成,也可以对原始数据进行变换,将数据映射到更能反映分类本质的特征空间中进行。在特征空间中得到的分类模型无论是模型的训练时间还是模型的可解释性都优于直接从原始数据得到的分类模型。所以特征选择的研究是模式识别的一项重要任务。论文详细介绍了基于互信息的过滤式特征选择算法的基本概念,在分析了已有的特征选择算
作为语言学的重要分支,语用学近几年在语言习得研究中也占有一席之地。本文从语用学角度讨论了语用学理论与语言教学的关系,对语言应用进行了理论分析,在此基础上,从语用学角
目的:观察电针手厥阴心包经“大陵”,“内关”,“郄门”穴对急性心肌缺血家兔心肌细胞血管内皮生长因子(VEGF)表达的影响。探讨针刺改善急性心肌缺血及心包经穴与心脏相关联
目的 研究蒙药章古-3汤对腺嘌呤诱导大鼠CRF的干预作用及其机制。方法60只Wister大鼠随机分为6组:空白对照组、病理模型组、章古-3汤高剂量治疗组(20g·kg-1·d-1)、章古-3汤