一种提高支持向量机集成差异性的学习方法

来源 :第二十五届中国数据库学术会议(NDBC2008) | 被引量 : 0次 | 上传用户:selions
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Bagging和Boosting方法的基础上,提出一种改进的支持向量机集成方法以进一步提高集成的泛化性能.给出一种基于混合核函数和相关参数并行扰动的个体支持向量机生成方法,有更多的模型扰动参数可以进一步提高集成的差异度,相应的集成方法分别命名为HK BaggingSVM和HKBoostingSVM.另外,当生成一个个体支持向量机后,采用测试方法确保集成的正确率。在标准UCI和StatLog数据集合上的仿真实验结果表明,HKBaggingSVM和HKBoostingSVM两种集成学习方法可以得到更高的分类性能和推广能力.
其他文献
提出了一种基于RDBMS的粒度可自动调节的XML索引结构AX-Tree,它是一种根据结点的路径信息建立的树状分层索引.AX-Tree能根据XML文档的结构分布自动调整索引结点的聚类粒度,寻求索引扫描速度和筛选能力之间的平衡,以达到更优的查询性能.展示了AX-Tree索引的结构及其构造算法、查询算法,并实验证明了AX-Tree索引的查询性能和文档适应能力.AX-Tree另一重要特性是索引基于关系数据
随着互联网的发展,针对特定用户的互联网调查已经是一种基本的获取所需统计信息的方法。然而,对于非专业人员,编制一张互联网调查表并做相应统计非常困难.即使是专业人员,编制起来也相当繁琐.因此,如果能够向用户提供SaaS(软件即服务),按用户的需求自动生成调查表并做出相应的调查统计,就大大减少了用户的麻烦.在详细考察了用户需求及系统易用性的基础上,对互联网调查表自动生成系统的体系架构和功能模块进行了设计
数字信息具有不稳定性和易逝性,读取数字资源的软硬件设备也随时面临过时和淘汰的危险,然而很多数字信息具有巨大的商业或学术价值,因此,数字资源的长期存取问题迫在眉睫.在遵循OAIS参考模型的前提下,利用一系列开源软件,设计了基于DSpace的数字资源长期保存实验平台的框架模型,并在Linux系统上进行了原型系统的实现,为数字资源长期保存的研究提供一个良好的实验和验证的环境.
中医方剂内药物配组的作用受方剂语境影响,药物搭配方式不同,功效则不同,药物配伍原理和机制尚不明确,是中医古方研究的重要内容.发现频繁药组,并对其进行功效标注可以多粒度、多维度、多方向,更深入地研究中药方剂药物配伍规律,对中医药学科研究具有重要意义,提出并形式化描述了该问题,讨论了相关性质,设计并实现了可直接进行多表关联分析的基于逆索引的2阶段频繁模式挖掘方法,讨论了算法特性。通过在真实古方数据集上
Top-k空间偏好查询根据空间对象周围的特征性质对空间对象进行等级评价,并返回具有最高等级评价的k个空间对象.现有的Top-k空间偏好查询算法大多利用R树结构为空间特征数据建立索引.考虑使用网格索引组织二维空间数据,并提出基于概念划分的Top-k空间偏好查询算法,本文分别设计实现了基于范围查询和NN查询两种方式的Top-k空间偏好查询算法TopRAN-G与TopNN-G.通过真实数据集测试结果表明
在语义网中,信息以及信息之间的关系使用元数据和本体库来表示,RDF和RDF Schema是W3C规定的用于表示元数据和本体的标准.由于RDF数据具有图的结构特点,存储和查询比较复杂,没有一个统一的标准,因此如何有效地存储和查询RDF数据成为了研究的一个热点.讨论了PDF数据存储的难点和问题所在,提出了一个存储RDF数据的算法。基于LUBM生成的数据,我们设计了不同复杂度和结构的查询,以检验不同算法
传统聚类以距离作为相似度计算依据.然而,有时对象与对象之间不具有相近的物理距离,但却存在相似的一致性模式.因此,采用基于模式的聚类方法解决此类问题。但模式聚类的一般方法效率较低。根据等差模式对应的数据集自身的性质,提出了一种新的等差模式聚类改进算法,与原有的等差模式聚类算法比较,此算法具有更好的时间效率。
基于Web 2.0的社区系统在互联网上的出现引出了全局表的概念(universal tables),并使得大规模稀疏数据表(large sparse table,LST)得到了广泛的应用。一个LST通常包括数千个以上的属性和百万条以上的记录,并且拥有大量的未定义值.而相似性查询是社区管理系统中最常见的查询.除了一种基于属性的倒排索引之外,目前针对LST的研究只集中在数据表的存储方法上.已有的倒排索
聚类是数据挖掘的重要组成部分;基于划分的聚类算法有近线性时间复杂度的优点,基于密度的聚类算法能发现任意形状的聚类.提出基于划分和密度的聚类算法CUPD(clustering using partition and density),它首先用基于划分的算法对数据进行分类,然后用基于密度的算法进行类的合并.理论分析和实验证明了CUPD算法保持了基于划分和基于密度聚类算法的上述两个优点.
个性化服务在现代服务业中越来越重要,进行用户日志挖掘是实现个性化服务的一种有效方法。设计了一种基于构件的通用日志挖掘框架ULMF,在ULMF中可嵌入通用挖掘构件,也可嵌入可定制的专用挖掘构件,这使得框架具有很强的可扩展性。为了验证框架的可用性,基于该框架实现了一个通用日志挖掘构件以及专用的相似用户挖掘构件,并对一个会议室预订系统的日志进行了分析.最后给出了进一步的研究方向。