论文部分内容阅读
伴随着人口老龄化、慢性病频发以及人们健康意识的提升,高质量的医疗服务需求快速增长。然而由于医疗资源的短缺以及分布的不均衡,健康消费者的医疗服务需求无法有效地得到满足。幸运的是,伴随着移动互联网以及智能终端的快速普及,在线问诊服务正在快速兴起,健康消费者足不出户就可以远程获得著名医院专业医生所提供的在线疾病、健康咨询与指导,这种廉价高效的全新线上医疗方式有效地整合了线下医疗资源,既满足了健康消费者的一般需求,也在某种程度上缓解了医院的运营压力。与传统的社区问答系统以及搜索引擎相比,在线问诊服务中每一个回答都是由经过资格认证的专业执业医师提供,可以确保大部分回答是可信赖的。尽管在线问诊服务具有提供高质量回答的能力,但是却不能确保每个回答都是高质量的。例如高级别医生可能工作忙碌,并不能确保总是有足够的业余时间给线上健康消费者提供详细而高质量的回答。而一些低级别的医生可能只是想借助在线问诊服务平台推销自己及其医院,通常提供一些不相关的广告。低质量的回答会给在线问诊服务中累计的海量健康问答信息的知识挖掘和复用造成巨大困扰,而高质量的健康问答信息知识库是构建虚拟健康助理以及健康推荐系统的关键。因而对在线问诊服务上下文中的回答质量进行自动化评估就显得至关重要。本文将聚焦于在线问诊服务回答质量自动化评价技术中的关键问题,对涉及到的相关内容开展一系列基础性、系统性的研究工作。具体来说,本文的主要研究工作包括如下四个方面:(1)针对在线问诊服务缺乏“群体智慧”属性,已有社区问答系统回答质量评价相关研究中的算法和特征不再完全适用的问题,通过对在线问诊服务特性以及与社区问答系统异同点的深入分析,引入并提出了表面语言、社会化与时序三种类别的典型非文本特征来综合表征在线问诊服务的回答质量。通过对在线问诊服务数据的深入剖析,提出了一套清晰而明确的在线问诊服务回答质量评价指标,并且基于此指标收集、整理了首个用于学术研究的在线问诊数据集。(2)针对在线问诊服务中的回答主要是面临特征稀疏问题的短文本的难题,预训练了首个用于学术研究的在线问诊服务词嵌入,通过结合两种异构卷积神经网络从全局和局部两种角度对短文本进行建模,实现了对在线问诊短文本语义空间的扩充,接着,提出了协同决策策略来生成一个在线问诊短文本的更加精准的混合语义表示。随后,在上述基础上引入了多模学习和隐因子分解机,提出了一个协同决策卷积神经网络框架,通过俘获不同数据模态间的高度非线性关系以及同一数据模态中不同特征间的非独立交互关系,提升了在线问诊服务回答质量的预测性能。(3)针对在线问诊服务的数据拥有多个模态的异构表征方式,不同数据模态间存在着复杂的高度非线性关系的问题,通过组合伯努利和高斯受限玻尔兹曼机,建立了一个可扩展多模态深度学习框架来融合来源于不同数据模态的语义知识,实现了在线问诊服务回答质量预测性能的提升。通过组合伯努利受限玻尔兹曼机,建立了针对短文本的高阶隐藏语义表示挖掘的深度信念网络,有效地克服在线问诊短文本所面临的严峻的特征稀疏问题。通过大量实验探究了数据不平衡问题对于在线问诊服务回答质量评价研究的重要影响。(4)针对在线问诊服务存在大量廉价未标注短文本数据,专家标注成本过于高昂的问题,通过提出两种独立而充分的基于特定领域词嵌入的深度文本视角以及引入隐因子分解机作为基级分类器,建立了一个可以挖掘嵌入在未标注短回答文本中的高度非线性语义知识,俘获同一深度视角内不同特征间的非独立交互关系以及俘获不同视角间的高度非线性关系的深度协同训练框架,实现了对大量未标注的特征稀疏短文本回答的自动化标注以及对回答质量预测性能的提升。