基于“聚类-过采样”方法的肿瘤免疫亚型分类研究

来源 :现代计算机 | 被引量 : 0次 | 上传用户:feixingyuan1977
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类学习方法有一个基本假设,即不同类别的样本数量相当.样本数量分布不均衡,会影响分类的准确率.针对样本分布不平衡的肿瘤亚型分类问题,提出聚类-过采样(clustering minority over-sampling technique,CMOT),避免了算法“对少数类不友好”的情况.具体来说,首先在少数类的内部进行聚类,目的在于寻找少数类数据的分布结构.其次,使用改进的过采样方法,对少数类数据进行数据增强,最终实现不同类别的样本数量均衡.对比四种过采样方法,使用CMOT方法,肿瘤免疫亚型的分类准确率达到98.79%,明显高于其他方法.CMOT方法能够捕获少数类样本的真实特征,产生的伪样本足以平衡数据集,进而提升分类模型的精度.
其他文献
Photoshop CS 6是目前使用比较广泛的一款图像处理软作,也是我校文科类学生的必修课之一.在设计图片、图像修改等方面发挥着重要作用.进行图像处理时,选区抠图是一个重要的知识点,直接关系到我们处理图像水平的高低.那么选择Photoshop中的哪一种工具去进行选区抠图,就显得至关重要.因此对于图像处理人员来说,掌握好选区抠图的方法与应用具有重大意义.
针对中文主观题自动评分准确率低的问题,提出一种基于doc2vec算法的主观题自动评分方法.利用doc2vec算法计算出参考答案文本和考生答案文本的文本向量,计算出两文本向量之间的相似度,然后根据相似度计算考生得分.将主观题试题作为实验数据集,用doc2vec算法进行评分,并采用方差及偏差率作为衡量标准,对基于doc2vec算法的评分结果进行验证,并与基于TextRank算法的主观题自动评分结果及人工评分进行对比,实验表明基于doc2vec算法的评分结果的方差及偏差率都较小,稳定性较好,为后期研究主观题评分