基于依存句法分析和机器学习的纵隔肿瘤诊断模型

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:pyane
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
纵隔肿瘤是指在纵隔内生长的肿瘤,属于罕见肿瘤,其真实患病率难以估计,但近些年随着肺癌筛查的进行,越来越多的纵隔肿瘤患者被发现。大多数纵隔肿瘤的形成病因不明确,形态性质各异、复杂多样,多数患者无典型症状,临床上无统一的诊疗指南,这些都对医生的诊断提出了挑战。临床上,医生需要在术前对肿块的性质进行准确的诊断,才能够评估手术风险、制定合适的治疗方案。而培养这样一个经验丰富的外科医生需要漫长的周期和大量的人力物力。借助AI辅助诊断,既可以提升诊断的精准性,也可以有效提升基层医院诊断水平,缓解人才稀缺问题,病人也可以得到及时有效的治疗。影像检查向来是术前诊断纵隔肿瘤的重要依据。医生可以从影像数据中获取信息,如肿块的位置、大小、密度等,对肿块的性质进行初步的判断,进而对病理类型进行诊断,术前诊断对患者的治疗方案和预后分析十分重要。近些年来,也有部分学者研究发现,一些血液指标对于纵隔肿瘤也具有一定的提示作用。本文获得了由上海市胸科医院提供的数据,基于影像检查和血液检验两部分数据,对纵隔肿瘤的诊断模型进行探究,期望借助人工智能技术可以在术前尽可能精准地判断出具体肿瘤类型,在术前评估阶段给予医生一定的参考意见,医生再结合自己的判断,制定更合适的手术方案,辅助医生提高诊断效率和诊断准确率,减少手术数量,尽量避免病人遭受手术病痛的折磨以及承担昂贵的手术费用。本文首先对病理数据和检验数据进行预处理,构建患者分类标签和检验部分的特征向量,分析纵隔肿瘤人口分布规律以及其与检验指标之间的关系。其次对影像文本数据进行处理,主要包括数据预处理模块、结构化模块以及数据后处理模块。数据预处理模块,主要是去除影像文本中的噪音影响。结构化模块主要采用了依存句法分析,对信息提取规则做出改进,整体key和value的准确率分别达到了86%和81%,部分词性的准确率可以达到98%。数据后处理模块,主要包括子句补充、指标合并、影像文本向量构建,在构建过程中对结构化模块中提取错误的key-value进行修正。最后,对指标重要性和诊断模型进行了探究。基于不同的实验目的,实验分为三个部分:实验一是基于检验数据集(n=5723)采用OvR(One Vs Rest)搭建的二分类模型,以探究不同肿瘤类型与检验指标之间的关系;实验二是基于影像文本数据集(n=713)搭建的二分类模型,以探究不同肿瘤类型与影像指标之间的关系;实验三是基于检验数据和影像文本数据的诊断模型,采用不同的数据、分类算法进行组合实验,包括二分类、六分类模型。实验结果证明:1)LR和linear SVC算法的诊断性能最佳;2)淋巴造血肿瘤更适合采用检验数据进行诊断,加入影像文本数据会进一步提高模型效果,其余4类肿瘤更适合采用影像文本数据进行诊断;3)除淋巴造血肿瘤的识别外,其他肿瘤的识别不建议将影像文本数据和检验数据同时放入模型中,从实验结果上来看,两部分数据确实存在相互干扰的情况。
其他文献
近年来,我国资本市场逐步发展成熟,总体规模位居世界前列。同时,市场正在向更开放的方向发展,不断地吸引着境外投资者参与其中。发展的要求和开放的趋势对中国资本市场带来了极大的挑战,对市场的稳定性提出了更高的要求。公司信息披露真实性的确保对维持市场稳定、健康运行具有十分重要的作用。为了保护投资者的利益,提高资本市场的信誉,国家在政策规范和技术手段上不断加强对于企业的监管力度和监管水平。然而,受到自身利益
学位
随着4G、5G网络的快速普及和智能手机的广泛使用,短视频已经成为人们日常生活中不可或缺的娱乐方式之一。据2020年研究报告显示,截至2020年,我国短视频用户规模达到8.18亿,占全体网民的87%、我国人口的58%。随着其用户规模的不断扩大,短视频的影响力和商业价值也在迅速增加。所以短视频广告逐渐受到更多商家的青睐,其市场规模在2020年已经达到1200亿元。短视频的播放量直接决定了商品的曝光人数
学位
抽动障碍(TD)是以运动性抽动和发声性抽动为特点的神经精神类疾病,由法国医生Tourette在1885年首次发现并描述的,而在我国早在1963年就首例报道了此病。近年来,TD患病率的逐年升高,严重危害了患儿的身心健康,所以寻找实验室指标辅助TD的诊断、病情评估变得至关重要。关于TD和注意缺陷多动障碍(ADHD)的病因大部分国内外学者都认为与神经递质异常密不可分,其中多倾向于与多巴胺系统功能异常相关
学位
通过定量而不是定性的方法,构建各种各样的数学模型,从各式金融数据来源中探寻出金融市场的统一规律,赋予统一的范式是量化投资方法中“量化”的本质。量化投资技术具有极高的公式化、范式化以及重视数据的特点。从特点上看,人工智能技术在量化投资领域具有很好的应用价值:量化投资是人工智能技术的良好应用场景。人工智能算法的应用,使投资者具备智能,可以随时根据金融金融市场的变化进行学习,并且比人类投资者更为冷静理性
学位
当前我国经济逐步转入高质量发展阶段,提升出口产品质量作为贸易高质量发展的内涵之一,对于中国出口竞争力提升具有重要意义;同时,随着贸易保护主义兴起及劳动力比较优势的消减,我国制造业“大而不强”及出口产品国际竞争力偏低仍是不争事实。目前,提升制造业企业的出口产品质量已成为亟待解决的难点。地区质量声誉是影响企业出口质量的重要因素,反映消费者对一国企业产品质量的信念,高声誉地区在质量信息不对称的困境下有助
学位
习近平总书记在联合国大会上宣布了碳达峰、碳中和的目标,碳中和不仅关系到绿色效益,也关系到经济效益,两者相互联系,不可分割。对于碳减排而言,市场机制要优于行政手段,因此我国从2011年开始逐步建立国内碳排放权交易市场,并在深圳、上海、北京、广东、天津、湖北、重庆、四川和福建等9个地方逐步开展试点工作,整体而言地区碳市场各具特色、交易规模和交易活跃度不断提升,积累了碳交易的丰富经验。碳交易试点政策能促
学位
随着国家层面对技术创新的重视度逐步提升,中国企业也提升了对技术创新方面的重视程度,企业在专利申请与技术并购方面的积极性显著提高。作为能够快速提升企业自身创新研发实力的一种手段,技术并购一直受到企业的重视。尽管理论界对技术并购有着大量的研究,但对地理距离与其之间的关系研究相对较少且宽泛,并且研究也较少考虑主并企业的研发型子公司在技术并购中的作用。本文研究的对象为中国A股上市公司的技术并购事件,研究的
学位
汽车工业属于国民经济中的支柱型产业,同时它也与人们的生活息息相关,已经成为现代社会必不可少的组成成分。但是,以石油为燃料的传统汽车工业虽然为人们提供了便捷、舒适的交通工具,但也同时增加了汽车尾气对城市空气的污染程度。更关键的是,它加剧了国民经济对化石等不可再生能源的依赖,进而加深了能源生产与消费之间的矛盾。在这种国际背景下,各国都在千方百计地降低汽车的燃料消耗和致力于代用清洁燃料和新能源的开发研究
学位
近年来我国经济形势稳中向好,国内互联网普及率逐步提升,互联网已然成为大众通讯、社交、学习、娱乐和购物等的必要途径。与此同时,大批社交媒体平台也借助互联网的盛行走入公众视野,为民众提供了交流的新平台。新时代网民的生活方式、购买习惯也因互联网形式的更迭而发生着巨大的变化。一方面,传统的电商平台如淘宝、京东等开启了网友们线上购物的新旅程,成为了各大品牌方和商家的新营销主阵地,时至今日已然发展得较为成熟,
学位
<正>笔者有幸跟随国医大师刘嘉湘教授侍诊,现将其辨治皮肤T细胞淋巴瘤难治性瘙痒病验案1则报道如下。何某,男,61岁。既往有左肺腺癌Ia期手术史(2015年11月)。2019年8月28日初诊:主诉:躯干反复皮疹伴瘙痒3年余,泛发全身1年半。2016年7月在无明显诱因下出现躯干部反复皮疹伴有瘙痒,西医口服及外涂药物效果均欠佳,皮疹范围、瘙痒程度逐渐加重,于2018年10月在外院行PET-CT、
期刊