基于粗糙集的文本分类器的设计与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户：information1005

【摘要】

：

粗糙集理论(RoughSet简称RS)是二十世纪八十年代由Z.Pawlak提出的一种新的处理不精确、不确定知识的软计算(softcomputation)工具，而文本挖掘技术是随着互联网的蓬勃发展和电

【作者】

：

邢志红

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2004年期

【关键词】

：

粗糙集文本分类属性约简信息熵向量空间模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

粗糙集理论(RoughSet简称RS)是二十世纪八十年代由Z.Pawlak提出的一种新的处理不精确、不确定知识的软计算(softcomputation)工具，而文本挖掘技术是随着互联网的蓬勃发展和电子图书的出现逐渐形成的信息技术领域的一个重要的研究方向。本文以文本分类技术的研究为核心，从理论、算法和应用模型三个层次来讨论文本的分类技术。本文首先描述了文本的向量空间模型(VectorSpaceModel，简称VSM)，并分析了常用的文本分类算法。在文本分类技术的研究中，重点研究如何利用粗糙集的知识约简理论来提高分类的效率，获取分类规则。在粗糙集约简问题的研究中，引入了信息熵(Entropy)的概念，并证明了决策表中决策属性集对条件属性集的条件熵的变化规律是单调递减的，由此得到了约简过程中的启发式的搜索的条件，并将概率论、信息论和粗糙集三者相结合，设计了基于信息熵的属性约简算法。根据这种方法设计与实现了一个文本分类器，通过系统测试证明该方法能够极大地压缩特征向量的维数，并使规则的分类能力保持基本不变。最后，总结了本文所作的主要工作，对研究中的不足进行了说明，并对将来的研究方向提出了展望。

其他文献

航空制造业中的采购与库存管理研究及软件开发

本文的研究目标是航空制造业中物料采购与库存管理研究及软件开发。本文以波音飞机平尾生产实际项目为应用为背景，针对采购与库存之中涉及的管理理论问题，包括协同采购的理念、

学位

采购管理库存管理供应链管理水平尾翼航空制造业软件开发

遗传算法中自适应进化与复合交叉的应用研究

遗传算法作为一种通用性好、鲁棒性强的启发式随机化搜索优化算法,广泛地应用于自动控制、组合优化、图像处理、机器人、人工生命、机器学习、人工智能和工程设计等领域。尤

学位

复合交叉相似度基于个体相似度的遗传算法最小生成树度约束最小生成树问题

企业应用系统安全体系的设计与实现

企业应用系统的安全问题一直是人们关注的焦点,近年来频频发生的安全事件表明企业应用系统的安全已经成为网络安全领域研究的新热点.大多数企业应用系统都是采用J2EE开发的,

学位

企业应用系统安全体系J2EE安全

Hausdorff距离在手势识别中的运用

手势是人类日常生活中人与人之间最自然的一种交互方式，将手势识别系统用于人机接口，从而实现直接的、自然的人机交互方式，是手势识别的发展趋势和基本目标。手势识别研究涉及到

学位

图像锐化八方向链码关键点Hausdorff距离手势识别

基于内容的图像压缩编码技术的研究

基于对象的图像/视频压缩技术的研究是多媒体技术进一步发展的基石,不同场景中对象的分割与识别是该技术的核心问题之一,目前由于这个问题仍未有很好的解决方法,因而基于对象

学位

基于内容的图像编码图像分割区域合并分水岭变换小波变换零树形状自适应小波变换纹理编码轮廓编码数字水印图像内容认证

IDS测试系统AOLES的设计与实现

随着对入侵检测技术研究的发展,出现了许多入侵检测系统,因此对各种入侵检测系统的功能和性能评估也形成了需求.在需求的推动之下,对于IDS系统的测试也相应处于不断发展之中,

学位

入侵检测系统背景流量AOLES同步点

基于局域网的流媒体组播系统的研究

网络技术和通信技术在飞速发展的同时,多媒体信息的网络传播量也与日俱增.伴随着流媒体技术的发展,出现了大量诸如高带宽需求的多媒体网络应用.与此同时一个严峻的问题也摆在

学位

IP组播流媒体UMLRUPSocketDirectShow组件过滤器

基于XML的Web报表工具研究

随着Internet的蓬勃发展，作为信息系统的重要组成部分——报表应用迫切需要向Web转移。现有的报表工具主要采用客户端构件方式或者静态HTML方式支持Web报表的开发，无法满足根据

学位

报表工具XMLXSL解释器浏览器

描述逻辑SHOIN（D）的常识性扩展研究

语义Web(semanticweb)研究的目标是让Web上的信息成为机器可理解的，从而使机器与人能够更好地相互协作，使Web所提供服务的质量得到质的提高.本体(ontology)是目前语义Web研究中

学位

描述逻辑扩展本体OWLDL语言

基于Agent的计算机自适应考试系统的应用研究

随着网络技术的发展,利用网络进行网上教学便远程教再得到了蓬勃发展的契机。网上教学以网络等各种高新技术为基础,提高教学效果,改进教学方式,增进教学互动。引入人工智能技

学位

IRTCATAgent多Agent系统安全

基于粗糙集的文本分类器的设计与实现

与本文相关的学术论文