基于机器学习的智能问诊技术研究和实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:yangtt00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据卫生部的报告[1],城市居民中处于亚健康状态的高达70%,但只有4.8%的人去医院,接近80%的人首先在网上寻找信息。传统的搜索引擎难以提供正确的医疗信息。公开数据显示[2],2020年,至少50%的人机交互设备将具备语音功能。基于上述背景,本文拟研究基于语音对话方式的智能问诊系统。智能问诊系统的诊断流程是:用户陈述病情,系统根据陈述文本进行疾病分类得到初始疾病假设,当病情信息过少不足以确诊时,系统进入交互式智能问诊,匹配出与“当前症状”和“初始疾病假设”相关的症状来反问用户,并根据用户的反馈进一步疾病分类。智能问诊的系统的研究具有以下的三个难点:1)病情陈述的文本量随着问诊的进行逐渐堆积,不同的文本量需要采用不同的疾病分类方法。问诊前期存在文本特征稀疏的问题,问诊后期特征稀疏性减弱,主要问题是对疾病分类的精度有更高的要求。2)识别出病情陈述中描述的症状。交互式智能问诊需要根据“当前症状”和“初始疾病假设”匹配出相关症状来反问用户,所以研究症状识别是本文的一个重要工作。传统的词典匹配未能考虑中文里口语化、相近和相似的词较多的情况。3)匹配出与“当前症状”和“初始疾病假设”相关的症状。通常的症状选择策略是建立疾病症状知识库,但疾病知识库的建立需要医学专家知识和大量的规则推断。针对智能问诊系统存在的问题,本文以前人的研究为基础,提出了相应的解决方法。具体来说,本文的贡献和创新点主要包括如下几点:1)针对问诊前期病情陈述中的文本特征稀疏的问题,本文提出了基于关键词相似性度量的特征扩展方法。首先提取出文本中的关键词,然后对关键词进行语义扩展,其中语义扩展就是采用相似性度量方法在问诊语料中找到与关键词语义相同、相近或相关的词语进行扩展。最终实验表明,在本文的问诊语料和前人所用复旦语料下,F1值提高了约 2%。2)针对问诊后期语料复杂度增高、学习深度不够、需要更高的疾病诊断精度等问题。本文采用了卷积神经网络的来对问诊后期的长文本进行疾病分类。实验表明,对于长文本,卷积神经网络的诊断准确率要比传统的机器学习高3.9%。3)针对中文里口语化、相近和相似的词较多的情况,在传统词典匹配基础上,分别引入了《同义词词林》[4]和词向量相似度计算,采用不同的症状匹配策略。最后将三种方法的识别结果加权评分,选出评分达到阈值的症状。最终实验表明,词典匹配的的召回率由改进前的50.89%提升到了 83.51%。针对症状的选择策略,本文建立了基于朴素贝叶斯的相关症状匹配模型。模型的输入是已提取出的症状的和初步诊断出的疾病,输出是相关症状的条件概率。本文统计出每个疾病和症状的共现的频率作为症状选择的基准,最终实验表明,本文提出的相关症状匹配模型的症状选择空间仅为基准的12.95%。4)智能问诊系统的实现。本文在研究算法的基础上,初步实现了智能问诊系统,客户端主要包括语音交互模块和HTTP通讯模块,服务端主要包括文本预处理模块、症状识别模块、疾病诊断模块和相关症状匹配模块。本文的研究成果主要包括:提升了症状识别的准确率,有效地减小了特征稀疏对疾病诊断的影响,提升了问诊后期疾病诊断的准确率,并提出了一种新的症状选择策略用于交互式对话。这些成果将为智能问诊的实际应用提供了全面的理论参考和支持。
其他文献
四辊卷板机广泛应用于船舶制造、风能收集、土木工程、机械工程等领域。目前由四辊卷板机成形精度较高的零件时仍需操作人员凭借经验反复调整工艺辊的位置参数,生产率较低。卷板设备生产厂家急需提高卷板成形过程中的自动控制技术,提高板材的加工精度和加工效率,同时降低工人的劳动强度。本文针对四辊卷板机成形质量、生产效率等问题,对四辊卷板机滚弯成形工艺进行了研究,开发了一套卷板工艺数据库软件系统。主要内容包括:(1
近几年,随着新能源汽车产业的发展,以电动汽车为代表的新能源汽车的产量逐年上升。而电动汽车的使用经济性取决于电池性能。二次锂电池因其比能量密度高,工作电压高,循环寿命长等优点成为电动汽车的首选。然而将其应用于汽车工业中,锂离子电池需要更低的的生产成本,更低安全风险,更高的特定能量密度和更长的循环寿命。负极材料作为锂电池的重要组成部分,其性能的优劣严重影响着锂电池的性能。Fe2O3负极材料因其能量密度
近年来,中国劳动力优势衰退,加之美国贸易保护主义下贸易政策的倾斜,使得中美间贸易摩擦形势日益严峻,并在2018年爆发了严峻的集中在高新技术领域的中美贸易战,使得制造业出口企业创新能力遭遇了严重冲击。本文采用实证分析法,选用中美贸易摩擦相关数据与中国制造业出口企业财务数据构造多元线性回归模型,对中美贸易摩擦对中国制造业出口企业创新的影响进行分析。为佐证实证结果,选取美国加强限制华为案件为案例进行分析
日本电商市场发展迅速,使其成为世界第三大电商市场(排名第一,第二的分别是美国和中国)。日本电商市场在所有零售渠道中增速最快,但是占比仅有5%,所以还有较大的潜力和增长空间。同时日本电商市场拥有很多高价值的消费者,吸引众多商家进军日本电商市场,然而许多商家对日本跨境电商市场和日本消费者了解并不够深刻。因而了解日本消费者行为以及他们会对跨境电商产生的影响,有助于帮助企业和商家打开日本跨境电商市场。本文
话语标记大量出现在自然语言中,从结构上来看,它不充当任何句法成分,是语言运用的特殊手段,汉语中的话语标记用法多变,分类繁杂,并且存在许多其他语言没有的话语标记,这些特点使得对外汉语教学充满挑战。本文在以往对话语标记教学研究的基础上,以大量语料和汉语事实为依托,系统考察了“现在好了”,“这下好了”等话语标记的共性和个性,探索话语标记形成所需要具备的条件和所经历的路径及过程,回顾了以往对外汉语教学中的
汉语和法语分属于汉藏语系和印欧语系两种语言系统,其语言结构与语法规则各不相同。法语和汉语中虽都有定语,但两者充当定语的成分、定语与中心语之间的位置、以及定语标记形式“的”的使用方法却各有特点,这些不同点给法语背景的留学生学习汉语带来了许多障碍。另外,虽然学界对于汉语定语的研究成果颇为丰富,但对于法语背景留学生汉语定语习得的偏误研究却屈指可数,大多数侧重于两种语言中定语成分和位置的对比,并未将学生习
超级电容器作为一种新型的储能器件,其优点在于功率密度高、充电时间短、使用寿命长、温度特性好、绿色环保等,表现出强大的市场潜力。超级电容器研究的难点在于寻找高性能的电极材料。随着科技的不断发展,诸如碳纳米管、碳纤维等新型纳米碳材料横空出世,这些材料拥有高容量电极材料所需要的一切特性,成为当前电极材料研究的新贵。制备纳米碳材料的方法很多,静电纺丝法凭借其设备简单、操作便利、成本低、能够连续制备等优势备
研究变分和H-半变分不等式问题对力学、物理学和工程科学中各种问题的定性分析起着重要的作用.本文主要结合Rothe方法以及偏微分方程、非线性分析、集值分析等理论研究了几类双曲型变分-H-半变分不等式解的存在性.第一章为绪论,介绍了变分和H-半变分不等式的研究背景及意义,分析了近几年来国内外研究现状及发展动态,并给出了本文的主要结果.第二章介绍了本文所需的函数空间中重要的定义及结论,并给出几个不等式和
为解决全球能源危机、缓解温室效应和环境恶化,减少化石燃料的使用、提高清洁能源供应多样性成为主要的解决方案。核能和风能是清洁能源中的重要组成部分,800H奥氏体不锈钢和304LN奥氏体不锈钢分别在核能和风能发电中起着至关重要的作用。为解决压水堆核电站蒸汽发生器传热管的晶间腐蚀问题,800H奥氏体不锈钢焊接接头晶间腐蚀敏感性主要通过改进焊接方法和焊后处理的方式来实现,为解决传热管的晶间腐蚀问题提供了一
随着生活水平提高,驴肉作为一种营养丰富兼具保健功能的肉类日益被人们接受。但驴肉自身高蛋白、高肌红蛋白含量、高不饱和脂肪酸的特性决定了它比其他禽畜肉更易发生腐败和品质劣变。目前对驴肉保鲜贮藏技术研究较少。本课题以驴肉为研究对象,探究了驴肉4℃冷藏贮藏过程中理化品质及微生物变化规律。同时通过MIC最小抑菌试验和响应面法优化了复合生物保鲜剂的配比,延长了驴肉冷藏保鲜期。1.试验对驴肉4℃冷藏贮藏下理化指