最优特征选择算法在文本分类上的应用研究

被引量 : 4次 | 上传用户:litao2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术和数据库技术的成熟,数据库系统逐渐普及。从文字分类搜索、到商业决策分析、更乃至前沿的生物工程。在数据库中储存的大量数据中隐藏着许多信息,这些隐藏的信息对于决策有着十分重要的作用。用作对这些隐藏信息进行分析处理的工具虽有了很大的发展,但是很多隐藏信息的许多重要内涵还远远没有得到足够的利用。数据挖掘作为一种新型的数据处理技术,数据挖掘的过程就是对数据信息的再处理再分析过程。首先需要收集各种相关数据信息,其次通过各项模型化处理方式如取样、分析、结论等获得符合目标的关键因素。所以,数据挖掘及其相关的技术和应用的研究和发展受到了业界的重视与长足的进展。从而研究一种更加高效的Filter型特征选择算法对各个学科领域都有着非常重要的作用。文本分类就是根据预先定义的主题类别,按照一定的规则将文档集合中未知类别的文本自动确定一个类别,涉及数据分类、计算机学科,工科,信息学科、管理学等多个学科。至今,大部分的机器学习方法、统计方法、数据分类技术被应用到文本分类里。本文首先研究了贝叶斯网络、朴素贝叶斯分类器、Filter型特征选择算法的问题,然后在此基础上详细讨论了基于最小联合互信息亏损的最优特征选择算法,并基于文本分类的应用需求进行了最优特征选择算法在文本分类上的研究及设计。最后通过试验,验证了Filter型算法可有效应用于文本分类的领域。本文重点研究了以下内容:首先,阐述了贝叶斯网络与朴素贝叶斯分类的定义。根据特征的不同,归纳了其特点及模型,以及相关应用。其次,阐述了Filter型特征选择算法的含义和基本特征。根据特征的不同,归纳了现有Filter型特征选择算法分为以特征子集搜索为基础的最优特征选择法和特征排序法两种类别,并对每种类别加以深入剖析。力求获得每种算法的特点、基本原理以及存在的缺点。再者,通过文本分类的定义及应用的介绍,引出了特征选择算法在文本分类上的研究。并通过算法的代码及实验过程进行了深入的研究。从而验证了Filter型算法可有效应用于文本分类的领域,提高了文本分类的效率。
其他文献
随着网络技术的迅猛发展,我们已经逐渐进入全民参与创造互联网信息的时代。评论文本成为互联网信息的主要承载方式,人们迫切希望从海量的评论文本中快速、高效地挖掘出有用的
利用公开披露的减持公告数据,从短时间窗口考察大股东减持的时机选择能力以及减持披露后的市场反应机制的研究结果显示,减持公告前后累计超额收益(CAR)呈先升后降的倒V形,CAR
20世纪90年代以来,语料库语言学给语言研究带来了一场深刻的变革,其中语言教学是广泛运用语料库的领域之一。Leech指出,语言教学与语料库研究之间已形成一种相互结合、学科共
许多食(药)用菌都具有良好的抗衰老功效.食(药)用菌是通过抗氧化伤、调节免疫功能、调节内分泌系统和补充必需微量元素等途径发挥其抗衰老作用的.对近年来国内外关于各种食(药)
为满足快速变化的个人、社会和环境的需求,建筑师不断寻找当代技术与建筑艺术的最佳结合途径,实现可适应性动态建筑的梦想。通过按时间顺序,将动态建筑分为四类(基于游牧情结
<正>《中国产业园区助推实体经济发展报告》出炉中国经济网消息,《中国产业园区助推实体经济发展报告》12月12日在北京发布。报告从产业园开发运营现状及存在的问题出发,主要
干扰素治疗小儿上呼吸道感染70例,与对照组抗生素疗效比较,结果示:治疗组总有效率为93%,明显优于对照组,发病1日内用药者的平均退热时间明显短于3日内用药者(P<0.01),提示用药愈早,疗效愈佳。
<正>中美合作所的全称是"中美特种技术合作所",简称中美合作所、中美所。中美合作所于1942年夏开张,1943年4月1日中美两国正式签署合同,到1946年3月,戴笠飞机失事死于南京牛
<正>来自:月寒的侠想世界(武汉)创建时间:2009年8月5日所谓治愈系,必须具备以下几个特征: 1、温暖人心,净化心灵,令人悲伤时得到安慰。它带来的这种抚慰心灵的力量就犹如徐徐
期刊
我国的电视产业一直发展得非常迅猛,无论是中央台还是地方台,都在多年的探索中总结出了自己的一套制作和运营方法。但是近些年来,新媒体的迅速发展,让电视媒体旧的体制受到了