论文部分内容阅读
近年来,随着大中型医院放射科设备性能的改善,医院的看病效率有了很大的提高,每天病人的诊断数量也在不断上升,影像诊断医生的工作负荷量也随之加重。并且伴随着影像显示器逐渐替代胶片,诊断报告的撰写方式和工具已经向数字化阶段迈进,随之而来的是如何高效率使用报告撰写工具的问题。有些医院放射科曾采用诊断医生口述录音并由语音转换员听写生成最终报告的方式,费时费力,人工成本高。伴随着语音识别技术的不断成熟,该技术已经被运用到医疗信息化建设中。放射科医生可以自己操作语音识别引擎,直接生成诊断报告,控制生成时间及其质量;并且可实现实时签发,而不再考虑转录员对报告所产生的延迟影响。语音识别技术已经在以美国为首的西方国家成功运用到医院放射科、病理科、急诊室等部门中,很大程度上提高了工作效率,降低了医院日常运作成本。但是目前我国医院还没有成功使用连续语音识别技术撰写诊断报告的案例,其中主要的原因之一就是连续性汉语语音识别系统在实际的环境中没有达到较理想的准确率与识别速度,而国内医院看病人群密度大、环境嘈杂的特点与识别系统得到训练的实验室环境不匹配,极大影响了连续语音系统的识别效果。如何提高连续语音识别系统的环境鲁棒性成为该技术在国内医疗领域普及的关键因素之一。本文基于开源语音识别引擎Sphinx,设计与实现专门应用于放射科影像诊断报告语音录入环节的连续性语音识别系统,在该系统基础上分析环境自适应算法在抗噪声语音识别中的应用,并提出了一种新型的自适应方法,最终设计和实现了完整的环境自适应流程,证明了所提出的环境自适应新算法能有效改善系统在噪声环境中的性能。本文的主要内容首先是详细讨论了语音识别相关的关键技术,主要包括HMM的核心思想与基本算法,以及基于HMM建模的声学模型;为构建放射科语音识别系统以及环境自适应技术的研究奠定理论基础。其次,分析噪声对语音识别系统的影响以及常见的语音抗噪技术,在前人研究工作基础上提出一种新的基于噪声环境的模型自适应算法,即在MAP方法中引入一个简化的MLLR模块。最后,基于开源语音识别引擎,构建放射科语音识别系统,并设计噪声环境自适应流程和测试流程,针对放射科颅脑以及肺部X线放射影像报告语音录入语料,训练相关声学模型,并用带噪语音数据集进一步自适应;对实验结果进行了分析,比较所提出的新自适应方法与MAP、MLLR方法各自对噪声环境的自适应效果,最终通过实验数据证明该算法提高了语音识别系统在噪声环境下的性能。