文本特征选择算法的研究

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:zsdown520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类技术是依据预先定义的类别,对网络中大量的未知信息进行分类,以提高信息的利用率,来实现信息对研究者的价值。文本分类包含文本预处理、文本语料库、构造分类器、特征降维、文本表示、测评六个部分。其中特征降维在诸多组成部分中占据着关键的地位,它在提高分类精度、节省空间、降低计算时间复杂度等方面起到最为重要的作用。特征降维包含两种方法,分别为特征提取与特征选择。特征提取是在原有的特征基础上依据一种函数映射关系,提取一个不同的新的特征子集,得到的这个特征空间能够更好的区分各类文本,并且特征之间独立性更强。特征选择是从已知的总特征集合中,利用特征值计算公式,选择区分类别强的特征作为分类的特征子集合。特征选择根据不同的出发角度可以得到不同的定义,其中在分类前有类别标记的被称为监督特征选择方法,分类前没有类别标记的称为无监督特征选择方法。本文研究工作包括以下两部分:首先,本文提出一种基于ReliefF特征选择算法——mRMR-ReliefF。该算法利用概率弥补特征差异度量上的不足,提出新的差异函数。此函数使提取出的特征更能体现文本的类内相关性和类间差异性。该算法还结合了不同词汇间的相互关联性。通过这种相关性,不但顾及到选择与类别联系性强的特征词,而且同时还顾及消除特征集中的冗余成分。通过三种算法的对比实验,表明本文算法为文本分类提供了更有效的特征子集。其次,本文提出了一种基于信息增益改进的TDpIG文本特征选择方法。首先对数据集按类进行特征选择,减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益值,降低低频词对特征选择的干扰。最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集。通过对照不同算法的测评函数值,表明本文选取的特征子集具有更好的分类能力。本文改进的两种算法,都属于监督类特征选择方法。从两种特征选择算法的不足出发对其进行相应的改进,以提高选择特征的质量,增加算法的精度,达到更好的效果。
其他文献
胎儿心电(Fetal Electrocardiogram:FECG)中包含着大量的生理信息,能够直观的反应围产期胎儿的生长发育和健康状况,达到对疾病及时发现、及时治疗的目的。目前FECG的主要检测
流形学习方法的研究逐渐成为了机器学习领域里的一个重要分支。针对图像特征流形的问题,本文提出了图像特征流形的谱估计学习框架,包括:(1)分析了图像流形拓扑不变性的相关谱
随着计算机技术的不断发展,软件测试渐渐成为一项耗费大量资源的活动,因此人们一直在研究使用何种方法来降低软件测试的成本。经验及实践表明,组合测试是一种实际而有效的测
互联网迅速膨胀所带来信息大爆炸使得现代搜索引擎正面临前所未有的性能挑战,每天约有数百亿条用户查询请求需要处理。作为搜索引擎处理用户查询的核心功能――倒排索引交集求
目标跟踪系统是一种典型的非线性、非高斯随机系统,而且在这一系统中存在的系统状态及参数估计等问题历来是该领域研究的难点与热点。为此,本文探讨了一种基于粒子滤波算法对机
流形学习方法是近年来深受人们关注的学习方法之一。本文以流形中或者流形间切丛上的仿射联络算子为出发点,提出了仿射联络算法。本文主要取得的成绩包括:(1)提出了基于张量数
随着互联网技术的迅速发展,Web信息呈爆炸式增长,在海量的数据中,如何快捷高效的搜索获取需要或者感兴趣的信息逐渐成为人们关注的焦点。Web个性化服务在一定程度上解决了信息高
LXI(LAN eXtension for Instrumentation)技术是局域网在仪器领域的扩展,由此构建的仪器测控平台具有成本低、可重构性强以及仪器组件可以分布式部署等优点,LXI已经成为仪器总
印鉴作为一种身份和行为的象征,广泛应用于社会生活的各个方面。随着计算机技术的发展和刻章工艺的提高,由伪造印鉴引起的犯罪案件时有发生。而印鉴识别系统的出现,实现了印鉴的
过去十多年里,大量的研究都集中在通过观察数据学习贝叶斯网络。在学习贝叶斯网络模型过程中有一个重要问题是,存在隐藏的或者潜在的变量。这些不可观察的变量却能够汇聚显变量