【摘 要】
:
类别混叠度是指不同类别数据之间互相交叠、混合的程度,其量化指标包含基于几何统计的和基于信息论的两类,用于衡量数据分类的难易.实际分类任务中存在大量的非均衡数据,大类
【机 构】
:
广东工业大学自动化学院,广州,510006广东工业大学土木与交通工程学院,广州,510006;
论文部分内容阅读
类别混叠度是指不同类别数据之间互相交叠、混合的程度,其量化指标包含基于几何统计的和基于信息论的两类,用于衡量数据分类的难易.实际分类任务中存在大量的非均衡数据,大类与小类样本之间悬殊的数量差别给分类造成了极大的困难.本文采用实验研究的方法,验证类别混叠度量化指标指导非均衡数据分类的有效性,以减少甚至避免盲目试错带来的庞大计算开销.首先,针对两类分类问题,设计验证实验,在不同类数据非均衡率,不同别边界形状、不同特征类型、不同概率分布的非均衡仿真数据上研究类别混叠度的有效性.其次,在实验研究的基础上,分析数据的非均衡性对类别混叠度的影响规律,找出类别混叠度指导非均衡分类的有效方法.最后,在真实的非均衡数据上验证类别混叠度指导非均衡分类的实际效果.实验结果表明,对数据的非均衡率具有较强鲁棒性的类别混叠度量化指标可以有效地指导非均衡数据的分类器选择.
其他文献
1月13日,宝洁推出了全新日本进口的帮宝适特级棉柔拉拉裤,该产品在日本被誉为“10年来口碑最佳”的产品,本次来到中国,希望中国的宝宝也能感受到来自帮宝适的至臻呵护,该产品有如
医疗纠纷,是医疗行为中的客观存在。不论在什么制度下,不论在哪个级别的医疗机构中都会发生程度不等的医疗纠纷。医疗纠纷与医疗机构就像对孪生子如影随形。因此,如何妥善处
颞颌关节痛是以颞颌关节部一侧或双侧酸楚、麻木、疼痛,甚者咀嚼或张口时尤著为主要临床表现的一种病症.笔者1992年10月以来,在临床门诊工作中,每遇此病症者,即遵仲景芍药甘
Background Cancer-testis antigen (CTA) is a family of the most noticeable tumor antigens which could be potential tumor markers for cancer diagnosis. In this re
金佰利扩大了其GoodNites尿床护理用品的产品线。新产品的创新点在于含有棉纤维的Tru-Fit内裤与一次性吸收垫一起使用。该产品手感同普通内裤类似,可洗涤,这种内裤可提供整晚保
王清任为我国清代具有丰富实践经验的伟大医学家,他所创立的活血祛瘀法及所制方药对后人影响很大.笔者运用其方药治疗诸多疑难病症效果甚佳,略举数隅.rn
纸相学是通过把纤维“纸相化”变成纸张或纸板,并探讨纸张对纸板的抄造结构和性能变化的规律的科学.该文对纸相学的由来进行了简单地回顾,对纸相学的内容--主要是微观纸相学