【摘 要】
:
随着移动互联网技术的兴起,越来越多的原始数据被收集起来用于分析与挖掘,其中很多领域内的数据是严重不平衡的,既属于不同类别的样本数量相差极为悬殊。传统的机器学习方法
论文部分内容阅读
随着移动互联网技术的兴起,越来越多的原始数据被收集起来用于分析与挖掘,其中很多领域内的数据是严重不平衡的,既属于不同类别的样本数量相差极为悬殊。传统的机器学习方法通常采用全局分类准确率作为训练目标,在不平衡数据集上表现欠佳,所以不平衡数据分类算法也逐渐成为一个受人关注的课题。目前主要的不平衡数据集分类方法分为两种,分别是数据重采样法以及集成学习方法,他们的主要思路是通过改变原始数据集中样本的权重或者比例来使原始数据达到一种“平衡”状态,从而适用于传统的分类算法,这类算法的结果与数据分布情况相关密切,往往需要一个复杂的调节过程才能得到一个较好的结果而且泛化能力不是很强。所以本文提出一种直接以F1值为训练目标的算法来解决不平衡数据集分类问题,并取得了不错的效果。本文首先介绍了不平衡数据分类中存在的难点和主要问题所在,以及不平衡数据分类的评价标准;然后简述了现有的经典不平衡分类算法,并从问题入手分析他们的主要思想,以及他们的优缺点;接着本文根据前面提到的思想与难点,提出了一种直接以不平衡样本分类评价标准为最终训练目标的分类思路,通过采用不平衡数据集分类标准中十分经典的F1值构造一个可优化的函数作为训练目标进行训练,并且保证该函数与分类器参数具有直接数学关系,进而采用了整体数据集优化分类器的思路,使用神经网络模型,反向传播算法来使目标函数迅速收敛于一个最优解以达到不平衡样本训练的目的;最后通过与其他算法进行对比试验来证明了此算法的有效性。
其他文献
蛋白质序列分析是蛋白质化学研究中的核心技术。运用Edman降解进行蛋白质N端顺序测定已成为十分完善的技术,并已经实现了自动化。C端与N端一样,在蛋白质分子结构分析中具有重要
在乡村城镇化的发展过程中,以单一村落为范围的乡村发展模式难以解决乡村生态系统退化,公共服务设施短缺,乡村文化没落等宏观问题。在此背景下,江苏特色田园乡村建设提出以“团”区域为单位,覆盖3个左右相对集聚的村庄,重点关注试点村庄的关联性和互动性研究,以利于形成空间连绵、整体示范效应明显的区域。而绿道的连通性与多功能性,使其成为了促进各类资源要素流动的重要空间载体,有利于落实多村联动发展中的关联性和互动
信息传输速度的不断提升和视频拍摄设备的普及,引发了人们对于视频分享和创作的热情。然而,只有少部分视频创作者具备编辑视频封面的时间和能力,大量缺乏优质封面的视频降低了视频的分享和检索效率。针对以上问题,本文对视频帧的视觉美学度和内容代表度进行建模,构建了通用的视频封面提取算法。而后,针对人物视频,构建人脸识别模型获取视频帧中的人脸语义信息,并将信息嵌入到上述通用的视频封面提取算法中,以确保封面包含视
俗话说:“知识就是力量”,这些包罗万象五花八门的应用,上知天文下知地理通晓古今还普及生活常识传授科学文化,总之,是学习各种知识不可少的软件。 知乎 总有你不懂的事 每天, 我们有如此多问题, 嗷嗷待解。我们有如此多疑惑, 无人回答。我们有如此多迷津, 需要指点。知乎是一个由不同领域的人组成的知识网络, 在知乎, 人们因分享而让变得更亲密, 创业者问投资人, 工程师问产品经理, 律师问医生,
随着计算机技术的提高,在教学过程中合理运用Power Point课件,使教学具有生动性、集成性、交互性等优点,在此同时传统教学的优势也是不可忽略的。因此,在生理教学中两者有机地结
用红外光纤分光法对桥丝式电点火头中的感应电流进行非接触式远程测量.从红外辐射理论和实验两方面证明该方法的可行性.对桥丝产生的弱信号红外辐射进行光调制和锁相放大,通过探
“同课异构”是学校目前比较常见的一种教研活动,符合《语文课程标准》中所要求的“多角度、有创意”的教学思想。学校开展“同课异构”教研活动,可以提高课堂的教学效率,促进教师的专业发展,进而改善学校的教研水平。笔者在校期间观察过语文“同课异构”的课堂,了解到该活动的一些内容,对此产生了浓厚的兴趣。选取X县中学的“同课异构”教研活动为研究对象,是因为其学校活动的发展历史悠久,具有了一定的管理模式,因而对于
【摘 要】作为小学数学中的重要教学内容,应用题教学在小学数学学习中有着举足轻重的作用。作为一类综合性题目,应用题反映的是现实生活中常见的数量关系及各类实际问题,其解决过程中需要运用多种数学知识。应用题教学可以有效培养学生发现问题、分析问题及解决问题的能力,从而使知识与能力,情感和态度教育目标融于一体,相得益彰。 【关键字】小学数学 应用题教学 教学策略 【中图分类号】G623.5 【文献标识码