文本分类中特征选择的形式化研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:tingren_8912
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是数据挖掘、机器学习中的一项基本技术。文本分类中通常要把文本表示成多维特征构成的向量。原始的特征空间维数通常很高,不仅会导致分类的效率低下,而且由于噪音特征的存在也使得分类效果难以令人满意。因此,文本分类中一个非常重要的工作是降低特征空间的维数。目前实际应用中大多通过特征选择的方法来实现特征降维。但是已有的绝大数特征选择方法都存在一些不足。最主要的不足在于,现有方法大都通过已标注语料上的实验结果评价其性能,这使得面对不同的领域、不同的真实语料、不同的应用目标时一些实验中的结论并不成立。因此,如何从理论或者形式化的角度评价和选择特征选择方法是一个具有挑战性的难题,本文在这方面进行了尝试。   本文利用形式化的方法研究特征选择,分别提出了三个特征选择框架CDFS、DBFS及SCDBFS,并推导定义了有效特征选择方法应该满足的八个基本约束。CDFS和DBFS框架验证了类间分布差异公式中权重函数以及比较对象对分类结果的影响,为非平衡分类问题的特征选择提出了一种解决方法,同时为设计自适应的特征选择方法奠定了基础。经典的特征选择方法MI、CHI、ECE、IG、OR和OCFS等都可以被纳入DBFS框架。另外,DBFS可以用于合理评价特征选择方法的性质、性能。基于DBFS框架我们实现了几个具体的特征选择方法,实验结果表明了它们的有效性。SCDBFS框架展示了如何自适应地设计特征选择方法,在此框架下,我们提出一种具体的实现方法并应用在视频检索领域,实验结果表明该方法优于已有的性能较好的特征选择方法。特征选择的约束研究中提出的基本约束可以评估特征选择方法的性能。研究特征选择方法不满足或条件满足的约束有利于找到改进该方法的策略。基于多个公开语料的实验结果表明,本文提出的基于约束的分析方法具有很好的效果。
其他文献
随着互联网的高速发展,网络新闻已经成为人们获取信息的重要途径。传统的新闻门户虽然拥有海量信息,却只是扮演信息集合的角色。用户只能被动式地浏览网站提供的信息,查找需要的
随着集成电路工艺特征尺寸的进一步细化,相邻连线之间的串扰对电路功能与定时(timing)的影响越来越大,并可能使得电路在运行时失效。准确和快速地找到潜在的串扰故障,并针对这些
网格的最终目的是消除信息孤岛,实现真正的资源共享。在河南省基础与前沿技术研究计划项目“领域自适应的网格服务组合算法研究与实现”的支持下,以网格服务质量评价与网格服
近年来,在图像识别领域,卷积神经网络得到了高速发展和广泛重视。而神经网络中大规模的矩阵乘加运算并不适应于当前复杂的CPU结构,因此普遍使用基于GPU的异构计算平台的解决方案
激光雷达(Light Detection And Ranging,LIDAR)技术是利用返回的激光脉冲获取探测目标高分辨率的距离、坡度、粗糙度等信息,其能够全天时、全天候地获取地面的高密度三维数据,是
XML是一种采用开放的自我描述方式定义的数据格式。它包括了文档格式化标准(Schema)、文档显示模式定义(XSL)、文档查询标准(XQuery)、文档解析标准(SAX)和文档链接标准(XLin
Internet面临众多的安全威胁,为改变攻防双方的非对称博弈局面,对攻击者进行欺骗的蜜罐、蜜网与蜜场技术相继诞生。   蜜场技术通过集中式地部署蜜罐系统,利用网络攻击检测器
Maze作为当前教育网内最流行的P2P文件共享系统,以它短小精悍的设计,强劲的下载速度,受到越来越多用户的喜爱。但在Maze的设计实现过程中,为了简化设计,快速开发出可用的系统,没有
可编程逻辑控制器PLC(Programmable Logic Controller)是开放式数控系统中电气控制的关键设备。传统的PLC采取封闭式的体系结构,无法满足数控系统开放性的要求。近年来随着IE
数字音乐在人们的日常生活中扮演的角色越来越重要,中文第一搜索引擎百度在几年前就推出了mp3搜索服务,最近另一个搜索巨头google也发布了自己的音乐搜索服务,大有与百度一争高