面向互联网医疗百科的知识抽取和融合研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:pb8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能医疗的构建需要全面科学的知识体系网络来支撑,医疗知识图谱的应用推进非结构化知识被更加有效的管理和利用,不仅使患者的就诊流程简易化,还使医务人员的工作量降低,从而使其诊治效率提升。现阶段医疗网站层出不穷,可从中抽取关键的医疗信息知识为医患提供辅助参考,相比于以往集中于医学文献和电子病历的医疗研究,更加贴近现代社会人们对健康问题的关注侧重点。此外,当前知识图谱构建的研究大多集中于知识抽取方向,然而多来源数据存在差异性,单纯合并会产生冗余现象,因此,论文在图谱构建过程中引入知识融合,以获得高质量数据。文章以“39健康网”和“寻医问药网”网站为数据源爬取乳腺疾病百科板块信息,针对百科知识半结构化、专业名词多、长文本以及数据量较少的特点,对其进行知识抽取、知识融合研究,进而构建知识图谱进行实验验证,主要工作如下:(1)互联网医疗百科知识图谱模式层定义。引入矩阵分析法从医生关注程度和患者关注程度两个维度基于文本语料特点和实际情况对实体类别进行划分,将知识图谱模式层定义为7类实体和14类实体关系。(2)面向互联网医疗百科的知识抽取工作研究。综合采用预训练模型BERT(Bidirectional Encoder Representation from Transformers)、双向长短时记忆神经网络(Bidirectional Long Short-Term Memory,Bi LSTM)和条件随机场(Conditional Random Field,CRF)进行命名实体识别,相比于Word2vec模型,BERT可生成包含丰富语义信息的动态词向量,实验表明实体识别预测的准确率提高了3.2542%;综合采用预训练模型BERT、双向门控循环单元(Bidirectional Gated Recurrent Unit,Bi GRU)和注意力机制(Attention)进行关系抽取,对医疗语料信息进行深层次的特征挖掘,结果显示“临床表现”、“诊断依据”等大部分细分关系类别的F值均达95%以上;同时引入early_stopping机制根据模型的表现提前停止迭代训练,不但可以避免过拟合现象的产生,还可以提高知识抽取的效率,最终实现不同源医疗实体关系库的构建。(3)面向互联网医疗百科的知识融合工作研究。针对多来源知识融合中可能出现的“多词一义”现象使用Mu GNN(Multi-Channel Graph Neural Network)模型进行医疗实体对齐,不仅有效解决了图结构的异质性问题,还为每个实体捕获到了信息最丰富、最有判别力的邻居,实验证明该模型的实体对齐效果优于GCN-Align模型,其中前n项命中率Hits@1提升了12.17%;针对多来源知识融合中可能出现的“一词多义”现象基于上下文进行实体消歧,充分考虑了单词上下文语序对消歧的影响,增强了向量的表达能力,最后结合上述结果实现多来源知识的融合并完成医疗知识统计。(4)基于互联网医疗百科的知识图谱可视化和分析。应用图数据库实现乳腺疾病知识图谱可视化展示,并提出实体专业性、连接唯一性等4个评价指标将论文构建的知识图谱与实验室现有乳腺癌知识图谱进行比较,表明本研究通过知识融合获取了覆盖面更广,质量更加优质的乳腺疾病相关知识,最后针对医护人员和患者两类不同服务对象总结了知识图谱的管理应用启示。
其他文献
煤化工行业按照产业链的不同可分为传统煤化工和现代煤化工。我国传统煤化工产能严重过剩,现代煤化工已出现潜在的产能过剩迹象,产能过剩问题已经严重影响到我国煤化工行业的可持续发展。“一带一路”倡议和国际产能合作概念的提出有助于解决我国煤化工行业的产能问题。本文首先从国际产能合作的两大方式,即贸易和投资角度分析了我国对“一带一路”沿线国家煤化工国际产能合作的特征,得到目前我国煤化工贸易合作主要集中在传统煤
学位
供应链中的中小型零售商一方面因核心企业的延迟支付承受较大的资金压力,另一方面因在传统信贷机构的信用等级较低面临高出基准贷款利率的贷款或者甚至得不到贷款机会。在现有供应链金融的众多模式下,论文针对实践中普遍存在的企业信用评级,分析不同企业等级带来的不同融资机会情况对中小型企业的最优决策乃至整个供应链决策和利润的影响。区别于传统金融机构如银行对授信主体进行的信用评级,论文的企业信用评级是指核心企业对其
学位
在资本市场上,股价崩盘现象会给市场造成巨大的冲击,严重损害了市场健康发展和投资者权益。大量的研究表明,信息披露是解决资本市场信息不对称问题的重要途径,有效的信息披露,能减少信息不对称,从而降低股价崩盘风险。随着互联网与社交媒体的发展,投资者获取信息和交流信息的内容、范围和方式被深刻地改变,也影响着信息披露和股价崩盘风险之间的关系。因此本文在考虑社交媒体因素的基础上,主要探究信息披露与股价崩盘风险之
学位
“一带一路”作为国家级顶层合作倡议,旨在通过全方位的互联互通,形成高质量的贸易网络,从而带动各区域经济体的经济发展,因此物流设施互联互通和贸易高质量发展是“一带一路”建设的重中之重。而“一带一路”倡议提出已8年有余,目前积累的经济数据已经可以用来检验“一带一路”倡议对于中国出口的政策效果和探讨互联互通的作用机制,以此为“一带一路”倡议的行稳致远提供更多的证据支持和建设经验。本文首先对“一带一路”共
学位
随着数字技术的高速发展,数字创业企业作为繁荣的数字经济中一股中坚力量,面临的机会和挑战并存。数字创业企业风险在数字技术的作用下异化而呈现出不一样的特征,传统创业企业风险预警和控制理论具有一定局限性。本文通过与传统创业各要素对比厘清数字创业的含义,描述了数字创业企业及其风险的独特性,发现了现有风险预警与控制模型对于数字创业企业这一特殊复杂主体而言具有不适用性,为了给创业者提供全局的、系统的、连贯的而
学位
自上海、深圳证券交易所成立,我国证券市场高速成长,上市公司蓬勃发展、百花齐放。然而,由于我国证券市场正处于成长阶段、运作与监管体系尚在完善、信息不对称等原因,上市公司财务造假现象层出不穷、愈演愈烈,不仅损害了广大投资者的切身利益,还影响中国市场的稳定健康发展。随着信息技术的发展,以机器学习为代表的数据挖掘技术被广泛应用于财务造假识别。然而,财务造假面临着内在的样本不平衡与代价敏感性问题,而财务造假
学位
随着全球经济的发展所带来的大量二氧化碳排放,全球变暖正日益威胁着人类的生存。为此,全球各国政府将碳减排作为国家能源战略发展的重点,以此缓解人类气候危机。作为传统燃油汽车(Internal Combustion Vehicle,ICV)的替代品,电动汽车(Electric Vehicle,EV)已被视为缓解全球变暖的根本途径。为此,世界各国政府纷纷颁布多项政策以推动电动汽车产业的发展,尤其是补贴政策
学位
在竞争日益激烈的时代大环境下,互联网行业已从用户增量市场逐渐转化为用户存量市场。如何准确预测用户流失、进而采取对应促活手段及成本投入以召回用户,对企业而言越来越重要。数据科学技术的发展,使得用户大量数据得以存储并应用于具体用户预警研究中。然而,现有的相关研究存在些许不足,一是在用户流失建模方面:流失定义的粗糙带来流失识别滞后,不利于实现流失预警,且对时间动态特征考虑不足;二是在后续辅助企业管理决策
学位
近年来,在政策支持、多样化的消费需求以及完善的外部设施等各方面积极因素的推动下,跨境电商蓬勃发展。通过跨境电商平台,消费者能便捷地购买到海外的优质产品。但与购买本土产品不同的是,在电商平台上购买进口产品时,需要支付“产品+进口关税”的费用。进口关税的计税方式通常分为从价税和从量税。从价税是根据产品价格征收一定比例的税费,而从量税是对市场中所有同类产品征收单位税费。在实践中,出于保护本土产业等原因,
学位
金融是经济的“血脉”,金融安全是经济安全的核心。习近平总书记在政治局集体学习与全国金融工作会议等场合反复强调,金融是国家重要的核心竞争力,金融安全是国家安全的重要组成部分。国际经济金融一体化进程不断加速,危机事件频发造成国内外市场风险聚集效应。股票市场的安全直接关系到金融市场的安全,进而关系到整个宏观经济的发展,其风险与安全性问题不容忽视。本文旨在揭示国内外股票市场风险传染呈现的特点,对于完善金融
学位