论文部分内容阅读
摘 要:随着信息技术的不断发展,医疗大数据的概念也逐渐被人类所熟知。通过对数据挖掘技术在乳腺癌各领域的研究现状(乳腺癌基因研究、乳腺癌早期辅助检查、力学药物靶点识别、乳腺癌新中医治疗方法)的分析,展望数据挖掘技术应用于乳腺癌领域的前景,为数据挖掘技术在乳腺癌疾病的研究提供新思路。
关键词:数据挖掘;乳腺癌
一、前言
乳腺癌已成为当前社会的重大公共卫生问题。全球乳腺癌发病率自20世纪70年代末开始一直呈上升趋势。美国8名妇女一生中就会有1人患乳腺癌。中国不是乳腺癌的高发国家,但不宜乐观,近年我国乳腺癌发病率的增长速度却高出高发国家1~2个百分点。
二、数据源
我们将使用来自UCI的乳腺癌诊断数据集,该乳腺癌数据包括569例乳腺细胞活检样本,每个样本包含32个变量。其中id变量是样本识别ID,diagnosis变量是目标变量(M代表恶性,B代表良性)。其他30个变量都是由10个数字化细胞核的10个不同特征的均值、标准差和最大值构成。这10个基本特征为:
三、数据探索和预处理
.3.1 数据的探索
首先,搜集数据集如下图所示,由于数量问题,只显示其中部分,共计569个样本,32个变量。
将整个数据集导入SPSS软件中。
第一个变量为ID,无法为实际的模型构建提供有用的信息,所以需要将其删除。diagnosis变量是我们的目标变量,我们首先统计一下其取值分布。观察在我们的数据集中,恶性(M)和良性样本(B)的分布情况。在正式建模之前需要将其进行整数编码,将良性(B)编码为0,将恶性(M)编码为1。
通过统计我们的569个样本中,良性样本(B)和陰性样本分别有212个,占比分别为62.7%和37.3%。其中作为示例,我们主要选取所有变量中的三个:radius_mean,area_mean和smoothness_mean。
通过SPSS软件生成图形对三个变量进行分析:观察这三个变量的统计信息,发现它们的取值范围不大一致。radius_mean取值范围为6.981~28.110,area_mean取值范围为143.5~2501.0,smoothness_mean取值范围为0.05263~0.16340。不同变量的测量尺度不一致会影响K近邻算法中的样本距离计算。例如,如果上述三个变量直接参与距离计算,则area_mean变量将会对距离计算影响最大,从而会导致我们构建的分类模型过分依赖于area_mean变量。在应用K近邻等涉及距离计算的算法构建预测模型之前,需要对变量取值进行标准化。常见的标准化方法有min-max标准化和Z-score标准化等。
3.2数据的标准化:
为了将自变量进行min-max标准化,使用min_max_normalize函数。该函数输入为数值型向量x,对于x中的每一个取值,减去x的最小值,再除以x中数值的取值范围。结果如下可见所有的变量都已经正确地标准化到0和1之间:
四、模型性能提升
4.1 测试不同k取值对模型效果的影响
我们将分别测试 k = 1,5,9,11时模型的效果。由于模型整体预测准确率已经很高。我们通过观察假阴性(False Negative)和假阳性(False Positive)的数目和正确率(Accuracy)来对比不同k取值下模型的效果。
可见,当 k = 5 时,假阳性数量最少,且假阴性数量仅为1,正确率达到最高。当然,这也只是在171个测试样本上的结果。
参考文献
[1]MOURADC,LOPEZMA G.An evaluation of imagedescriptors combined with clinical data for breast cancer diagnosis [J].Intemational Joumal of computer Assisted Radiology and Surgery,2013,8(4):561-57.
[2]张旭东,孙圣力,王洪超.基于数据挖掘的触诊成像乳腺癌智能诊断模型和方法[J].大数据,2019,5(01):68-76.
[3]侯公楷.中医药防治乳腺癌进展[J].辽宁中医药大学学报,2016,18(05):249-253.
(作者单位:河北大学 生命科学学院)
关键词:数据挖掘;乳腺癌
一、前言
乳腺癌已成为当前社会的重大公共卫生问题。全球乳腺癌发病率自20世纪70年代末开始一直呈上升趋势。美国8名妇女一生中就会有1人患乳腺癌。中国不是乳腺癌的高发国家,但不宜乐观,近年我国乳腺癌发病率的增长速度却高出高发国家1~2个百分点。
二、数据源
我们将使用来自UCI的乳腺癌诊断数据集,该乳腺癌数据包括569例乳腺细胞活检样本,每个样本包含32个变量。其中id变量是样本识别ID,diagnosis变量是目标变量(M代表恶性,B代表良性)。其他30个变量都是由10个数字化细胞核的10个不同特征的均值、标准差和最大值构成。这10个基本特征为:
三、数据探索和预处理
.3.1 数据的探索
首先,搜集数据集如下图所示,由于数量问题,只显示其中部分,共计569个样本,32个变量。
将整个数据集导入SPSS软件中。
第一个变量为ID,无法为实际的模型构建提供有用的信息,所以需要将其删除。diagnosis变量是我们的目标变量,我们首先统计一下其取值分布。观察在我们的数据集中,恶性(M)和良性样本(B)的分布情况。在正式建模之前需要将其进行整数编码,将良性(B)编码为0,将恶性(M)编码为1。
通过统计我们的569个样本中,良性样本(B)和陰性样本分别有212个,占比分别为62.7%和37.3%。其中作为示例,我们主要选取所有变量中的三个:radius_mean,area_mean和smoothness_mean。
通过SPSS软件生成图形对三个变量进行分析:观察这三个变量的统计信息,发现它们的取值范围不大一致。radius_mean取值范围为6.981~28.110,area_mean取值范围为143.5~2501.0,smoothness_mean取值范围为0.05263~0.16340。不同变量的测量尺度不一致会影响K近邻算法中的样本距离计算。例如,如果上述三个变量直接参与距离计算,则area_mean变量将会对距离计算影响最大,从而会导致我们构建的分类模型过分依赖于area_mean变量。在应用K近邻等涉及距离计算的算法构建预测模型之前,需要对变量取值进行标准化。常见的标准化方法有min-max标准化和Z-score标准化等。
3.2数据的标准化:
为了将自变量进行min-max标准化,使用min_max_normalize函数。该函数输入为数值型向量x,对于x中的每一个取值,减去x的最小值,再除以x中数值的取值范围。结果如下可见所有的变量都已经正确地标准化到0和1之间:
四、模型性能提升
4.1 测试不同k取值对模型效果的影响
我们将分别测试 k = 1,5,9,11时模型的效果。由于模型整体预测准确率已经很高。我们通过观察假阴性(False Negative)和假阳性(False Positive)的数目和正确率(Accuracy)来对比不同k取值下模型的效果。
可见,当 k = 5 时,假阳性数量最少,且假阴性数量仅为1,正确率达到最高。当然,这也只是在171个测试样本上的结果。
参考文献
[1]MOURADC,LOPEZMA G.An evaluation of imagedescriptors combined with clinical data for breast cancer diagnosis [J].Intemational Joumal of computer Assisted Radiology and Surgery,2013,8(4):561-57.
[2]张旭东,孙圣力,王洪超.基于数据挖掘的触诊成像乳腺癌智能诊断模型和方法[J].大数据,2019,5(01):68-76.
[3]侯公楷.中医药防治乳腺癌进展[J].辽宁中医药大学学报,2016,18(05):249-253.
(作者单位:河北大学 生命科学学院)