论文部分内容阅读
随着信息技术的逐渐发展,传统行业的信息化程度越来越高,作为传统行业中介入壁垒最高的领域,医疗行业的信息化进程在近年来广受重视。商务智能技术作为完成行业信息化的重要工具,可以很好的帮助医疗从业者完成现有数据整合、业务逻辑重组、深层数据挖掘和潜在知识发现等一系列工作。一方面,在当下的互联网环境中,利用网络信息流中的医疗健康数据以及商务智能中的数据挖掘分析技术,可以及时发现疾病爆发趋势、医疗热点问题,帮助个人用户建立健康记录,方便个人进行日常健康管理;另一方面,商业智能技术可以应用到医院管理与服务中,可以很好的解决由于医生数量有限、服务人群量大、服务对象属性复杂引起的资源优化问题。围绕上述两个方向,本文重点开展了以下四个方面的研究工作:(1)对于互联网线上的在线医疗数据,本文以互联网医学在线问答社区为背景,针对医学问答社区中用户提问得不到及时有效回答的需求痛点,利用社区中的用户历史活动数据,提出基于查询似然语言模型的用户个人领域关注度模型,用以描述医学问答社区中用户对不同领域的关注程度;同时,提出基于历史答案质量评估的用户个人专长模型,用以描述个人用户自身在回答医学问题时的专业性。通过综合上述两个模型,提出一种加权的用户个人模型,对被推荐用户是否能够对问题做出及时有效的响应进行预测,以提高潜在问题回答者推荐结果的准确性。(2)对于医疗环境线下的信息化数据,尤其是以电子病历为代表的病人个人信息数据,由于其中的非结构化文本中语言文字过分糅杂,阅读者在短时间内难以提取有效信息,本文提出一种面向自然语言文本的电子病历文档关键信息提取算法。通过对电子病历中的关键信息进行明确定义,确定"疾病"、"治疗手段"和"医学测量和检查"三类基础医学概念作为关键信息的提取目标,本文利用医学自然语言处理和神经网络语言模型,提出基于监督式方法的电子病历关键信息提取算法,然后建立基于深度神经网络的词向量特征学习模型对病历文本进行特征扩展,将学习到的词向量特征用于文本中关键信息的抽取算法中,有效的完成了关键信息抽取工作,帮助医生解读复杂医疗病历中的核心信息。(3)针对当前医疗环境中急诊访问次数过高且不合理的现实问题,为能够给以医院为代表的医疗机构进行急诊服务优化,本文利用电子病历系统中病人的历史就诊数据,提出一种基于随机森林集成学习算法的急诊病人入院风险预测模型。通过使用统计学习方法,发现决定病人未来急诊访问风险的关键特征,并据此利用集成学习方法和迭代式随机森林决策算法对病人未来急诊访问风险建模,以获取病人急诊访问风险系数;在完成风险评估任务后,对识别出来的高风险病人进行聚类分析,识别出高风险病人中医学特征模式,为医疗从业人员对高风险病人提供医疗前期干预提供有效的决策支持。(4)在本文最后,基于前面几个研究工作的基础上,提出针对电子医疗病例进行数据挖掘的整套医疗商务智能解决方案,搭建了全流程的医疗商务智能分析平台,以通用型的医疗领域数据仓库作为数据平台基础,提出跨平台的数据整合集成过程,设计并实现了基于关键绩效指数的医疗商务智能企业仪表板。