论文部分内容阅读
病理报告作为医疗文档中的非结构化数据之一,是诊断病理学中的重要文档。它是病理医生根据病理活检结果,采用规范化的自然语言描述形成的文本格式的临床数据。其中,非结构化的文本数据是病理医生做出病理诊断的关键,也是临床医生进行疾病诊断的重要工具之一。当前,病理诊断主要依靠医生针对文本数据的描述要点,依据个人经验做出带有主观性的判断。读取数据的实质是人工抽取信息并进行文本结构化的过程,不仅效率低且不可避免地产生正确率难以保证的问题,并因此导致漏诊误诊。为此,本文针对病理报告中镜检文本的数据特征,借助统计分析、文本聚类、中文分词等技术手段,设计并实现了一套适用于此数据的文本结构化系统,以支持自动地提取结构化数据。本文首先归纳出病理镜检文本的数据特征,同时将其作为本文方案的基础支撑,并依据其特征完成了短句切分、特征词标记等文本预处理过程,接着给出了病理镜检文本数据的结构化处理流程。以此为基础,本文设计了系统的总体架构,且依次阐述了三个核心模块:文本预处理模块、构建病理字典模块、结构化处理模块的主要功能及流程。然后,为实现构建病理字典的目的,本文提出了基于文本聚类的关键词抽取算法,其输入为聚类后的相似性短文本,实现了提取同类短句核心词的功能。之后,结合文本数据的书写模式及规范进行词汇扩展,最终得到由属性词和描述词所组成的病理字典。最后,依赖病理字典,采用镜检文本的结果化处理算法,实现了从文本数据中抽取键值对形式的术语词,并通过添加否定检出得到的否定词得到了语义完整的结构化数据。同时采用web站点形式,建立了面向用户的结构化数据抽取系统,为提高系统的准确率,向用户提供了反馈接口,通过此过程实现字典的更新。为了验证所提出算法的有效性,本文对真实数据集进行测试,通过人工对病理字典及抽取的结构化数据进行检测,证明其能够达到预期目的。这不仅克服了通用分词软件的领域不适用性,实现自动化结构数据抽取,并且可以为将来的疾病分析提供有力的数据支持。