基于粗糙集的文本分类器的设计与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:information1005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粗糙集理论(RoughSet简称RS)是二十世纪八十年代由Z.Pawlak提出的一种新的处理不精确、不确定知识的软计算(softcomputation)工具,而文本挖掘技术是随着互联网的蓬勃发展和电子图书的出现逐渐形成的信息技术领域的一个重要的研究方向。 本文以文本分类技术的研究为核心,从理论、算法和应用模型三个层次来讨论文本的分类技术。本文首先描述了文本的向量空间模型(VectorSpaceModel,简称VSM),并分析了常用的文本分类算法。在文本分类技术的研究中,重点研究如何利用粗糙集的知识约简理论来提高分类的效率,获取分类规则。在粗糙集约简问题的研究中,引入了信息熵(Entropy)的概念,并证明了决策表中决策属性集对条件属性集的条件熵的变化规律是单调递减的,由此得到了约简过程中的启发式的搜索的条件,并将概率论、信息论和粗糙集三者相结合,设计了基于信息熵的属性约简算法。根据这种方法设计与实现了一个文本分类器,通过系统测试证明该方法能够极大地压缩特征向量的维数,并使规则的分类能力保持基本不变。 最后,总结了本文所作的主要工作,对研究中的不足进行了说明,并对将来的研究方向提出了展望。
其他文献
本文的研究目标是航空制造业中物料采购与库存管理研究及软件开发。本文以波音飞机平尾生产实际项目为应用为背景,针对采购与库存之中涉及的管理理论问题,包括协同采购的理念、
遗传算法作为一种通用性好、鲁棒性强的启发式随机化搜索优化算法,广泛地应用于自动控制、组合优化、图像处理、机器人、人工生命、机器学习、人工智能和工程设计等领域。尤
企业应用系统的安全问题一直是人们关注的焦点,近年来频频发生的安全事件表明企业应用系统的安全已经成为网络安全领域研究的新热点.大多数企业应用系统都是采用J2EE开发的,
手势是人类日常生活中人与人之间最自然的一种交互方式,将手势识别系统用于人机接口,从而实现直接的、自然的人机交互方式,是手势识别的发展趋势和基本目标。手势识别研究涉及到
基于对象的图像/视频压缩技术的研究是多媒体技术进一步发展的基石,不同场景中对象的分割与识别是该技术的核心问题之一,目前由于这个问题仍未有很好的解决方法,因而基于对象
随着对入侵检测技术研究的发展,出现了许多入侵检测系统,因此对各种入侵检测系统的功能和性能评估也形成了需求.在需求的推动之下,对于IDS系统的测试也相应处于不断发展之中,
网络技术和通信技术在飞速发展的同时,多媒体信息的网络传播量也与日俱增.伴随着流媒体技术的发展,出现了大量诸如高带宽需求的多媒体网络应用.与此同时一个严峻的问题也摆在
随着Internet的蓬勃发展,作为信息系统的重要组成部分——报表应用迫切需要向Web转移。现有的报表工具主要采用客户端构件方式或者静态HTML方式支持Web报表的开发,无法满足根据
语义Web(semanticweb)研究的目标是让Web上的信息成为机器可理解的,从而使机器与人能够更好地相互协作,使Web所提供服务的质量得到质的提高.本体(ontology)是目前语义Web研究中
随着网络技术的发展,利用网络进行网上教学便远程教再得到了蓬勃发展的契机。网上教学以网络等各种高新技术为基础,提高教学效果,改进教学方式,增进教学互动。引入人工智能技