数据科学家参加竞赛,开发癌症检测算法

来源 :计算机世界 | 被引量 : 0次 | 上传用户:zl9881123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  数据科学家正在使用机器学习来解决肺癌的检测问题。从1月份开始,世界各地近1万名数据科学家参加了数据科学碗竞赛,开发最有效的算法,以帮助医疗专业人员更早、更准确地检测肺癌。
  2010年,美国国家肺癌筛查试验显示,使用低剂量计算机断层扫描(CT)进行年度筛查能够将肺癌死亡率减少20%,这种扫描设备使用计算机处理来自不同角度的大量X射线图像,对这些图像进行组合产生高对比度的3D图像。虽然这一技术在早期检测上实现了突破,但与更传统的X射线相比,其误报率也相对较高。
  机器学习公司Kaggle与合作伙伴Booz Allen Hamilton出席了年度数据科学碗活动,Kaggle首席执行官Anthony Goldbloom说:“这真的是一种非常强大的方法,可以将癌症死亡率降低20%,但是误报率非常高。有很多人被告知他们得了癌症,但后来才发现实际没有。这是人为的代价。会让人非常紧张。”
  所以对于今年的数据科学碗,Booz Allen和Kaggle决定对数据科学和机器学习进行适当的引导,以解决误报问题。在Laura和John Arnold基金会资助下,这两名合作伙伴将为名列前十的参赛选手提供100万美元奖金。
  数据科学为社会公益做出贡献
  Booz Allen高级副总裁兼首席数据科学家Josh Sullivan说,Booz Allen和Kaggle在2015年创建了数据科学碗,目的是让数据科学为社会公益做出贡献。
  他说:“我们想做一些让人们聚在一起为社会公益做出贡献的事情,能超越自我的事情。我们怎样为社会公益切实做一些事情?我们希望所做的事情能够导致科学发现。对公众开放的事情;不是为了我们的利益或者客户的利益,而是开放来源,为了世界各地的人们。”
  Sullivan说,第三届年度数据科学碗收到了300多個建议(前两届数据科学碗的主题是确定海洋健康和检测心脏病的算法)。他说,最终,合作伙伴决定帮助美国国家癌症研究所(NCI)及其《Beau Biden癌症月刊》,努力加速癌症研究,为更多的患者提供更多的治疗方案,提高癌症预防和早期检测能力。
  NCI为数据科学碗提供了2000张匿名的高分辨率CT扫描图像,每张图像包含千兆字节的数据。Sullivan说,1500张图像是训练集,有最终的诊断。剩下的500张图像是问题集。使用训练集后,参赛选手的机器学习算法必须学会怎样正确地确定其余500张图像中的肺部病变是否是癌变。根据正确诊断的百分比对算法进行评分。
  数据已在Kaggle平台上打包。谷歌在3月份收购的Kaggle是由Goldbloom于2010年创建的,专业举办预测模型和分析竞赛。公司和研究人员发布数据,数据科学家在竞赛中使用这些数据,产生最好的模型。该公司在近200个国家注册了成百上千个“Kagglers”。
  在这场竞赛中,Kagglers是卷积神经网络(CNN)方面的专家,这是一类由生物体内视觉机制启发产生的深度学习神经网络。CNN能够解决很多不同类型的问题,但尤其擅长计算机视觉问题。在以前的Kaggle比赛中,Kaggler参赛人员竞争创建基于CNN的算法,这一算法可以在社交媒体上区分狗和猫的图片。
  Goldbloom对NCI提供的CT图像发表了看法:“这一数据源很新奇,它真的把卷积神经网络推向了从未涉足的方向。由于数据集的规模很大,医学数据集始终是一个难题。互联网上有多少猫和狗的图片?可能是数百万。但收集医学图像的成本非常高。人们会给自己的狗和猫照相,但很少去做CT扫描。”
  Goldbloom解释说,CNN非常容易出现名为“过度拟合”的效应,统计模型倾向于描述噪声而不是基本关系,因为相对于观测次数而言参数太多了。
  Goldbloom说:“很难构建不过度拟合的卷积神经网络,数据集越小就越难。这真的需要技巧。必须能够从数量相对较少的图像中得出抽象的结果。”
  近10,000名Kagglers选手参加了数据科学碗。他们总共花了1万5千多小时,提交了近18,000个算法。许多放射科医师在Kaggle论坛上自愿为竞赛选手提供专业知识,帮助他们完善工作。
  数据科学碗获胜者
  最终,中国清华大学的两位研究人员Liao Fangzhou和Zhe Li获得了第一名。荷兰的软件和机器学习工程师Julian de Wit和Daniel Hammack获得了第二名。为一家荷兰公司工作的Aidence团队获得了第三名,该公司把机器学习技术应用于医疗图像解释。
  Sullivan说:“NIH(美国国家卫生研究所)将最终与美国食品和药物管理局合作,提供这些分析技术,以便应用于实际阅读这些CT扫描图像的软件。这就是我们正在努力争取的巨大利益。”
  他说,他希望NIH和FDA能够关注一些非常优秀的算法。优秀团队的得分相差不到百分之几,有的可能会很快转化为产品,也有的非常适合扩展。
其他文献
新一轮制造业争夺战正在全球范围内打响。除德国外,美国、日本、英国、法国等发达国家皆提出以重振制造业为核心内容的“再工业化”规划。发达国家当前力推的“再工业化”并不是简单的制造业回归,而是对制造业产业链的重构,是制造业的升级和以发展新兴产业为核心的结构转型。如果说当年的工业化是发达国家崛起与富强的基础,那么目前的“再工业化”则是向新的产业革命迈进。美国的“再工业化”战略  一、美国推动“再工业化”的
海联达首款支持802.11ac路由器亮相  本报讯 aigale海联达在近日召开的“精致你的生活”年度策略沟通会暨新品发布会上,推出了全球首款802.11ac无线路由器Rule Black Edition。海联达中国区总经理王俊人认为,无线生活的未来应该具有“更高速的连接、更精致的外观、更智能的操控、更丰富的应用以及更便捷的互联”,他表示,今年年内,海联达将发布更多无线娱乐解决方案,以实现无线数字
来自IDC的数据显示,到2025年,中国80%以上的组织都将成为技术组织,数字化转型将成为未来10年所有行业用户的主旋律。  这意味着,所有组织都将开始数字化转型之旅,IT将实现从支持到引领。  许多大型制造商正利用不同的数字技术驱动企业价值。  长城汽车股份有限公司(以下简称“长城汽车”)拥有40多家控股子公司,员工总数超过7万余人,2015年营业收入达760.33亿元,产品销往120多个国家,
LSI加速技术创新(AIS)亚洲高峰会首次登陆中国,3月26日在北京召开。在这次高峰会上,LSI阐释了在以数据为中心的时代,以互联网公司为代表的超大规模数据中心对硬件设计带来的影响,以及IT产业在转型中的未来趋势。LSI公司高级副总裁兼数据中心解决方案事业部(DCSG)总经理Tom Swinford认为,数据中心从未像今天这样对企业业务产生如此巨大的影响。同时,企业必须寻求创新的技术和方案,以快速
这是一个与电视有关的多事之秋。  在TCL爱奇艺的TV 电视发布后的一周之内,小米发布了自己的小米电视,创维联手阿里巴巴推出“酷开”电视,加上几个月前发布的乐视超级电视。从手机到“盒子”,再到电视,互联网企业不断把触角伸向硬件,但与手机和盒子不同,参加到“电视”这场混战中的还有传统电视厂商。  不过这一次,电视厂商与互联网企业的合作已经从最初的新闻资讯、游戏应用等内容端的合作,发展到联合推出电视机
至少近十年以来,智能家居一直是产业界津津乐道的话题。家电厂商、IT厂商和电器厂商在各种展会上一波又一波地演示智能家居平台、智能家居整体解决方案。消费者不断被告知,智能家居是未来的方向。然而智能家居一直无法落地,更像是企业凭空的幻想。  新年伊始,1月15日,谷歌忽然宣布以32亿美元重金并购智能家居企业Nest。此举在智能家居这一潭静水中搅起轩然大波,不仅震撼了智能家居行业、家电行业、电器行业,也深
无服务器计算是在无需最终用户管理的基础设施上托管应用程序的新方式  关于无服务器计算首先要知道的是,“无服务器”是一个非常糟糕的名称。  与其名称相反,过去两年来这一在云计算领域实现了突破的技术实际是在服务器上运行的。无服务器这一名称只是体现了最终用户不必管理运行其代码的服务器这一事实。  这听起来可能很熟悉。技术上,在公共基础设施即服务(IaaS)中,最终用户也不用实际去管理服务器——这涉及到遍
数据中心产业迎来高速发展期,施耐德电气助力河南正东云和中原云打造数据中心项目,加快河南省政务云平台建设。  近年来,我国国民经济和社会信息化得到了快速发展。国家“三网融合”和“两化融合”的政策指引,适度宽松的政府宏观政策和“十二五”规划的有力实施,给我国的数据中心产业注入了强劲的发展动力。而国家 “十三五规划纲要”的提出,更是奠定了大力发展数据中心等基础设施的基调。  一、数据中心产业发展现状  
2013年12月,Facebook宣布“深度学习”技术创始人之一,纽约大学教授扬·乐康加盟该公司人工智能实验室。乐康称,近年来兴起的“深度学习”技术,在图像识别、自然语言识别等领域得到了极其成功的应用,将对Facebook的未来产生重大影响。至此,Google、百度、微软、IBM和Facebook等诸多巨头悉数进军深度学习领域。  深度学习技术由起源于上世纪50年代的神经元网络技术发展而来。大脑的
政府、供应商和用户公司都可以做的更好 让世界各地的医院、政府机构、公司和个人损失严重的全球性WannaCry勒索软件攻击其实是可以避免的。那些所谓的黑客天才们在技术上并没有重大的突破。相反,他们实际上是利用了企业在处理安全问题时的惰性以及东拼西凑的工作方式,还利用了美国国家安全局(NSA)和大科技公司在互联网时代针对安全干的那些见不得人的勾当。 其实这也是个好消息,因为这意味着我们有可能阻止这种全