基于混合特征相关性的特征选择方法

来源 :2009中国计算机大会 | 被引量 : 0次 | 上传用户:zhanghao2018
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对现有相关性度量方法只能直接计算两个连续特征或两个离散特征之问的相关度的问题,本文提出了一种度量连续特征与离散特征之间的相关性方法,在此基础上,进一步提出一种基于混合特征相关度的特征选择方法,并给出了一种闽值选择的指导性策略。提出的特征选择方法关于数据集大小具有线性时间复杂度,可以用于大规模数据集中的特征选择。在真实数据集、UCI机器学习数据集上的实验结果表明,本文提出的相关度计算方法及特征选择方法是有效、可行的。
其他文献
任务调度是计算机科学研究中的重要课题,实时任务调度的研究更是嵌入式系统研究的重点之一。目前在多核计算平台上的任务调度相关研究中较少关注实时任务的多帧特性,悲观的使用任务最坏情况下的执行时间进行可调度性判定。在研究多帧周期任务的基础上,给出了一个改进的统一多帧多处理器任务调度模型,证明了这种模型的可调度性优于周期任务模型,从处理器利用率边界和任务响应时间分析两个方面基于固定优先级抢占式调度算法进行了
在无线网状网(WMN)中引入认知无线电和多无线电多信道等先进的无线传输技术能够大大提高网络的容量。但是同时也对网络体系结构设计和高层网络协议的优化提出了新的挑战。本文以认知无线网状网带宽资源优化分配为研究背景,首次提出了最大最小公平的无线电分配和路由联舍跨层优化(MMFJRRO)问题,基于网络流模型,把无线电分配和路由作为一个整体进行建模,给出了MMFJRRO问题的集中式最优化求解算法。该算法由一
确定有限状态自动机(DFA)被广泛地应用到模式串匹配问题中.随着模式串规模的不断增加,DFA状态转移表空间也越来越大,大量内存访问开销导致算法性能剧烈下降,因此,研究在保证随机访问的前提下如何对大型状态转移表进行压缩是一个具有挑战性的问题.本文提出了一种可以融合待扫描数据特征和模式串自身特征的链式状态转移表结构,并给出了链式状态转移表的内存访问代价,理论证明:使用Huffman编码对访问序列进行重
该文采用多重分形分析方法,对系统资源参数时间序列的波动规律进行研究,提出一种定性和定量相结合的分析方法,预测资源消耗和软件衰退的趋势.首先借鉴分形理论对影响软件性能的系统资源参数的分形结构进行分析,发现参数的波动具有分形特性:且其多重分形谱特征能定性地分析在系统运行过程中随时间变化的情况。其次,提出了一种多维的H(o)lder指数计算算法,应用到资源耗费数据,并采用自回归移动平均模型(ARMA)对
对传统主题图进行扩展,实现了基于扩展主题图的多源异构知识融合.结合全信息理论与扩展主题图结构特点及语义信息,提出了面向多源知识融合的扩展主题图相似性算法ETMSC,该方法综合了语法相似性、语义相似性和语用相似性,不仅考虑了扩展主题图元素间组成结构上的相似性,还充分考虑了其涵义以及所处语境的相似性.实验结果表明,ETMSC算法比目前的单纯基于语法或语义的相似性算法,F值平均提高了9.2%~11.1%
数据流的变化往往表明产生数据流的时象特性可能发生了某种改变,具有需要进一步关注的领域含义,因此目前许多监控应用中需要对数据流的变化进行检测.同时,在很多应用中数据流的数据特征呈现出伪周期性,即数据特征在一定程度上会按照固定的时间间隔反复出现,但各个时间间隔内的数据出现规律又不会完全相同.在数据流上的现有变化检测算法并不适用于对出现密集程度较高的伪周期数据流周期间的变化进行检测本文对伪周期数据流变化
数据集成技术自二十世纪八十年代开始研究,旨在为访问多个数据源提供统一的访问接口和高效的查询处理能力。近年来,仍然有大量工作在数据集成查询处理领域展开,这些工作的主要研究目标是应对复杂的数据管理任务和查询处理环境.本文回顾和总结近年来数据集成查询处理技术中具有代表性的研究成果,对其进行分类和比较,分析它们的主要贡献和不足.此外,本文还探讨数据集成领域的未来研究方向。
在Deep web环境中,如何解决查询失败并保证查询执行结果的数据质量已经成为一个重要的研究问题。本文针对这一问题,提出了基于查询松弛的查询计划生成与数据集成方法.本文中首先提出了基于对象属性重要度的查询松弛算法,通过属性分组树产生查询松弛计划以解决失败查询造成的数据质量问题.其次,本丈构建了查询结果数据集成模型对查询松弛产生的数据进行集成。数据集成中主要引入了基于查询松弛二次查询的属性补全策略和
Web服务的语义建模是指对Web服务的属性、功能和结构等进行语义描述使用户能够对服务自动地定位、选择、使用和组合。本文以动作理论和描述逻辑为基础对服务的逻辑层信息(控制流和数据流)进行语义建模,用带前提和结果的原子动作描述简单服务.用复杂动作描述组合服务的控制流,用服务间的依赖关系描述数据流,并提出一个基本的Web服务自动组合框架.在该框架中,Web服务自动组合被划分为逻辑层和实现层两部分,于是服
离散化是Rough集理论研究的一个重要内容,目前基于Rough集的离散化算法很难兼顾高识别率和高效率。文中分析了候选断点在单属性上的重要性值分布规律,提出了“先动态聚类再选择候选断点”的两步处理思路和一种基于Rough集的快速离散化算法.该算法首先能够根据数据自身特点进行快速动态聚类,有效降低了候选断点的数目,快速地实现了决策表的离散化.实验结果表明,文中算法保持了与已有算法可比的正确识别率,且运