论文部分内容阅读
队列研究是国际公认的探讨常见重大疾病病因的有效方法,由于各种人为因素的影响和队列管理信息系统自身的问题,队列研究在数据采集的不同环节中会出现数据填写错误,填写遗漏,录入错误和录入遗漏等问题。传统的措施大多是针对某一环节进行人工校验,不能全面覆盖不同环节的数据问题,而且需要耗费较高的时间和人力成本。针对以上问题,本论文应用表单识别技术和电子病历(Electronic MedicalRecord,EMR)信息提取技术,开展了面向队列研究的自动化数据校验方法的设计与实现,具体的内容包括:1.调研和分析了表单识别的相关技术,设计了一种基于纸质病例报告表(CaseReport Form,CRF)的自动化数据校验方法。利用基于描述语言的方法为CRF构建描述模型完成表单结构的识别,利用机器学习的方法对CRF中的勾选标记和手写数字进行识别,应用识别结果对数据进行自动校验。针对具体队列研究中的录入数据进行校验,查准率、查全率和F1值分别为79.06%、89.04%和83.75%。2.调研和分析了电子病历的信息提取技术,设计了一种基于电子病历的自动化数据校验方法。根据队列研究的数据校验需求,利用基于规则的方法从电子病历中提取相应的信息,应用提取结果对数据进行自动校验。针对具体队列研究中的录入数据进行校验,查准率、查全率和F1值分别为89.06%、92.43%和90.71%。3.针对前两种方法存在的一些不足,本论文进一步提出了一种基于多源数据的协同校验方法。设计了一种协同校验模型,根据两种数据源的存在性、一致性和可信度,对单数据源校验结果按照一定的规则进行汇总得出最终校验结果。针对具体队列研究中的录入数据进行校验,查准率、查全率和F1值分别为93.29%、96.14%和94.69%,相对前两种方法有明显改善。4.基于提出的协同校验方法在具体的队列管理信息系统中设计并开发了数据校验功能,实现了单人校验和批量校验的流程,已通过应用验证。