引入偏置选择变量的不平衡数据集重采样方法

来源 :科技通报 | 被引量 : 0次 | 上传用户:gyf1978
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据分类是模式分类领域较难处理的一类问题,其主要原因在于类间样本数目不均衡。为了有效地提高不平衡数据分类效果,本文提出了一种引入偏置选择变量的不平衡数据集重采样算法。该算法引入一个偏置选择变量,该变量定义了多数类样本被取样的概率。通过引入偏置选择变量可以有效地降低不平衡度,因此能很好地提高分类算法在不平衡数据集上的泛化性能。在人工生成数据集上的分类实验充分验证了本文重采样算法的有效性。
其他文献
沈含颖档案:  沈含颖,记忆坊文化公司总经理,2003年进入民营书业,相继策划出版了《此间的少年》、《烈火如歌》、“九洲”奇幻系列小说、《裂锦》以及目前热销的小说《会有天使替我爱你》等畅销书。推出的策划项目有——“类型小说工厂”,“虚拟时空爱情小说”系列等。  “每个人都有少年轻狂时,每个人也都会从书中找到曾经熟悉的自己或者他人。”这是出现在“新言情主义掌门人”的江南出版的《此间的少年》一书封底的
硫酸盐还原菌(sulfate-reducing bacteria,简称SRB)是一类能够以硫酸盐等氧化态硫化物作为电子受体的厌氧微生物。已分离研究的SRB有18个属近40多个种。由于硫酸盐还原在环境污
通过建立经济优化模型,本文分析了网络食品经销商与食品生产商的食品质量检验合格率相关决策行为,并对网络食品经销商与食品生产商的单位食品合格率符合标准规范的相关影响因
摘要:本文基于哈肯模型及我国1996-2011年29个省市的物流业、第三产业和我国经济增长的面板数据,运用Eviews 8.0软件的实际操作对数据进行平稳性检验、协整检验,通过对物流业、第三产业和我国经济发展水平之间进行两两检验分析以及对序参量的检验,研究了物流业发展状况与我国的经济发展水平之间的关系,发现我国的经济发展水平是系统的序参量,并与物流业的发展状况存在较高的协同性,物流业的发展能较好地
基于本底趋势线理论,本文通过收集入境与国内旅游相关数据分析入境与国内旅游发展的非同步性,发现入境旅游与国内旅游存在多个时间长度不同的波动周期,入境旅游基于旅游收入
温度对沼气池甲烷菌的发酵有着重要的影响。通过对发酵温度与沼气池的需热量、月份产气率之间关系的分析,得到温度与沼气池的需热量近似线性关系,而随着温度的升高,月份产气