论文部分内容阅读
数据科学家正在使用机器学习来解决肺癌的检测问题。从1月份开始,世界各地近1万名数据科学家参加了数据科学碗竞赛,开发最有效的算法,以帮助医疗专业人员更早、更准确地检测肺癌。
2010年,美国国家肺癌筛查试验显示,使用低剂量计算机断层扫描(CT)进行年度筛查能够将肺癌死亡率减少20%,这种扫描设备使用计算机处理来自不同角度的大量X射线图像,对这些图像进行组合产生高对比度的3D图像。虽然这一技术在早期检测上实现了突破,但与更传统的X射线相比,其误报率也相对较高。
机器学习公司Kaggle与合作伙伴Booz Allen Hamilton出席了年度数据科学碗活动,Kaggle首席执行官Anthony Goldbloom说:“这真的是一种非常强大的方法,可以将癌症死亡率降低20%,但是误报率非常高。有很多人被告知他们得了癌症,但后来才发现实际没有。这是人为的代价。会让人非常紧张。”
所以对于今年的数据科学碗,Booz Allen和Kaggle决定对数据科学和机器学习进行适当的引导,以解决误报问题。在Laura和John Arnold基金会资助下,这两名合作伙伴将为名列前十的参赛选手提供100万美元奖金。
数据科学为社会公益做出贡献
Booz Allen高级副总裁兼首席数据科学家Josh Sullivan说,Booz Allen和Kaggle在2015年创建了数据科学碗,目的是让数据科学为社会公益做出贡献。
他说:“我们想做一些让人们聚在一起为社会公益做出贡献的事情,能超越自我的事情。我们怎样为社会公益切实做一些事情?我们希望所做的事情能够导致科学发现。对公众开放的事情;不是为了我们的利益或者客户的利益,而是开放来源,为了世界各地的人们。”
Sullivan说,第三届年度数据科学碗收到了300多個建议(前两届数据科学碗的主题是确定海洋健康和检测心脏病的算法)。他说,最终,合作伙伴决定帮助美国国家癌症研究所(NCI)及其《Beau Biden癌症月刊》,努力加速癌症研究,为更多的患者提供更多的治疗方案,提高癌症预防和早期检测能力。
NCI为数据科学碗提供了2000张匿名的高分辨率CT扫描图像,每张图像包含千兆字节的数据。Sullivan说,1500张图像是训练集,有最终的诊断。剩下的500张图像是问题集。使用训练集后,参赛选手的机器学习算法必须学会怎样正确地确定其余500张图像中的肺部病变是否是癌变。根据正确诊断的百分比对算法进行评分。
数据已在Kaggle平台上打包。谷歌在3月份收购的Kaggle是由Goldbloom于2010年创建的,专业举办预测模型和分析竞赛。公司和研究人员发布数据,数据科学家在竞赛中使用这些数据,产生最好的模型。该公司在近200个国家注册了成百上千个“Kagglers”。
在这场竞赛中,Kagglers是卷积神经网络(CNN)方面的专家,这是一类由生物体内视觉机制启发产生的深度学习神经网络。CNN能够解决很多不同类型的问题,但尤其擅长计算机视觉问题。在以前的Kaggle比赛中,Kaggler参赛人员竞争创建基于CNN的算法,这一算法可以在社交媒体上区分狗和猫的图片。
Goldbloom对NCI提供的CT图像发表了看法:“这一数据源很新奇,它真的把卷积神经网络推向了从未涉足的方向。由于数据集的规模很大,医学数据集始终是一个难题。互联网上有多少猫和狗的图片?可能是数百万。但收集医学图像的成本非常高。人们会给自己的狗和猫照相,但很少去做CT扫描。”
Goldbloom解释说,CNN非常容易出现名为“过度拟合”的效应,统计模型倾向于描述噪声而不是基本关系,因为相对于观测次数而言参数太多了。
Goldbloom说:“很难构建不过度拟合的卷积神经网络,数据集越小就越难。这真的需要技巧。必须能够从数量相对较少的图像中得出抽象的结果。”
近10,000名Kagglers选手参加了数据科学碗。他们总共花了1万5千多小时,提交了近18,000个算法。许多放射科医师在Kaggle论坛上自愿为竞赛选手提供专业知识,帮助他们完善工作。
数据科学碗获胜者
最终,中国清华大学的两位研究人员Liao Fangzhou和Zhe Li获得了第一名。荷兰的软件和机器学习工程师Julian de Wit和Daniel Hammack获得了第二名。为一家荷兰公司工作的Aidence团队获得了第三名,该公司把机器学习技术应用于医疗图像解释。
Sullivan说:“NIH(美国国家卫生研究所)将最终与美国食品和药物管理局合作,提供这些分析技术,以便应用于实际阅读这些CT扫描图像的软件。这就是我们正在努力争取的巨大利益。”
他说,他希望NIH和FDA能够关注一些非常优秀的算法。优秀团队的得分相差不到百分之几,有的可能会很快转化为产品,也有的非常适合扩展。
2010年,美国国家肺癌筛查试验显示,使用低剂量计算机断层扫描(CT)进行年度筛查能够将肺癌死亡率减少20%,这种扫描设备使用计算机处理来自不同角度的大量X射线图像,对这些图像进行组合产生高对比度的3D图像。虽然这一技术在早期检测上实现了突破,但与更传统的X射线相比,其误报率也相对较高。
机器学习公司Kaggle与合作伙伴Booz Allen Hamilton出席了年度数据科学碗活动,Kaggle首席执行官Anthony Goldbloom说:“这真的是一种非常强大的方法,可以将癌症死亡率降低20%,但是误报率非常高。有很多人被告知他们得了癌症,但后来才发现实际没有。这是人为的代价。会让人非常紧张。”
所以对于今年的数据科学碗,Booz Allen和Kaggle决定对数据科学和机器学习进行适当的引导,以解决误报问题。在Laura和John Arnold基金会资助下,这两名合作伙伴将为名列前十的参赛选手提供100万美元奖金。
数据科学为社会公益做出贡献
Booz Allen高级副总裁兼首席数据科学家Josh Sullivan说,Booz Allen和Kaggle在2015年创建了数据科学碗,目的是让数据科学为社会公益做出贡献。
他说:“我们想做一些让人们聚在一起为社会公益做出贡献的事情,能超越自我的事情。我们怎样为社会公益切实做一些事情?我们希望所做的事情能够导致科学发现。对公众开放的事情;不是为了我们的利益或者客户的利益,而是开放来源,为了世界各地的人们。”
Sullivan说,第三届年度数据科学碗收到了300多個建议(前两届数据科学碗的主题是确定海洋健康和检测心脏病的算法)。他说,最终,合作伙伴决定帮助美国国家癌症研究所(NCI)及其《Beau Biden癌症月刊》,努力加速癌症研究,为更多的患者提供更多的治疗方案,提高癌症预防和早期检测能力。
NCI为数据科学碗提供了2000张匿名的高分辨率CT扫描图像,每张图像包含千兆字节的数据。Sullivan说,1500张图像是训练集,有最终的诊断。剩下的500张图像是问题集。使用训练集后,参赛选手的机器学习算法必须学会怎样正确地确定其余500张图像中的肺部病变是否是癌变。根据正确诊断的百分比对算法进行评分。
数据已在Kaggle平台上打包。谷歌在3月份收购的Kaggle是由Goldbloom于2010年创建的,专业举办预测模型和分析竞赛。公司和研究人员发布数据,数据科学家在竞赛中使用这些数据,产生最好的模型。该公司在近200个国家注册了成百上千个“Kagglers”。
在这场竞赛中,Kagglers是卷积神经网络(CNN)方面的专家,这是一类由生物体内视觉机制启发产生的深度学习神经网络。CNN能够解决很多不同类型的问题,但尤其擅长计算机视觉问题。在以前的Kaggle比赛中,Kaggler参赛人员竞争创建基于CNN的算法,这一算法可以在社交媒体上区分狗和猫的图片。
Goldbloom对NCI提供的CT图像发表了看法:“这一数据源很新奇,它真的把卷积神经网络推向了从未涉足的方向。由于数据集的规模很大,医学数据集始终是一个难题。互联网上有多少猫和狗的图片?可能是数百万。但收集医学图像的成本非常高。人们会给自己的狗和猫照相,但很少去做CT扫描。”
Goldbloom解释说,CNN非常容易出现名为“过度拟合”的效应,统计模型倾向于描述噪声而不是基本关系,因为相对于观测次数而言参数太多了。
Goldbloom说:“很难构建不过度拟合的卷积神经网络,数据集越小就越难。这真的需要技巧。必须能够从数量相对较少的图像中得出抽象的结果。”
近10,000名Kagglers选手参加了数据科学碗。他们总共花了1万5千多小时,提交了近18,000个算法。许多放射科医师在Kaggle论坛上自愿为竞赛选手提供专业知识,帮助他们完善工作。
数据科学碗获胜者
最终,中国清华大学的两位研究人员Liao Fangzhou和Zhe Li获得了第一名。荷兰的软件和机器学习工程师Julian de Wit和Daniel Hammack获得了第二名。为一家荷兰公司工作的Aidence团队获得了第三名,该公司把机器学习技术应用于医疗图像解释。
Sullivan说:“NIH(美国国家卫生研究所)将最终与美国食品和药物管理局合作,提供这些分析技术,以便应用于实际阅读这些CT扫描图像的软件。这就是我们正在努力争取的巨大利益。”
他说,他希望NIH和FDA能够关注一些非常优秀的算法。优秀团队的得分相差不到百分之几,有的可能会很快转化为产品,也有的非常适合扩展。