面向队列研究的数据校验方法设计与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户:zhanagyuxing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
队列研究是国际公认的探讨常见重大疾病病因的有效方法,由于各种人为因素的影响和队列管理信息系统自身的问题,队列研究在数据采集的不同环节中会出现数据填写错误,填写遗漏,录入错误和录入遗漏等问题。传统的措施大多是针对某一环节进行人工校验,不能全面覆盖不同环节的数据问题,而且需要耗费较高的时间和人力成本。针对以上问题,本论文应用表单识别技术和电子病历(Electronic MedicalRecord,EMR)信息提取技术,开展了面向队列研究的自动化数据校验方法的设计与实现,具体的内容包括:1.调研和分析了表单识别的相关技术,设计了一种基于纸质病例报告表(CaseReport Form,CRF)的自动化数据校验方法。利用基于描述语言的方法为CRF构建描述模型完成表单结构的识别,利用机器学习的方法对CRF中的勾选标记和手写数字进行识别,应用识别结果对数据进行自动校验。针对具体队列研究中的录入数据进行校验,查准率、查全率和F1值分别为79.06%、89.04%和83.75%。2.调研和分析了电子病历的信息提取技术,设计了一种基于电子病历的自动化数据校验方法。根据队列研究的数据校验需求,利用基于规则的方法从电子病历中提取相应的信息,应用提取结果对数据进行自动校验。针对具体队列研究中的录入数据进行校验,查准率、查全率和F1值分别为89.06%、92.43%和90.71%。3.针对前两种方法存在的一些不足,本论文进一步提出了一种基于多源数据的协同校验方法。设计了一种协同校验模型,根据两种数据源的存在性、一致性和可信度,对单数据源校验结果按照一定的规则进行汇总得出最终校验结果。针对具体队列研究中的录入数据进行校验,查准率、查全率和F1值分别为93.29%、96.14%和94.69%,相对前两种方法有明显改善。4.基于提出的协同校验方法在具体的队列管理信息系统中设计并开发了数据校验功能,实现了单人校验和批量校验的流程,已通过应用验证。
其他文献
云计算是现代信息产业中常用的一种计算模式,同时也是业内研究的热点。云GIS平台具有高效、稳定、成本低的优势,可用于各种网站的地理信息服务的架设中,成为GIS平台的主流发
<正>白癜风是一种局限性或泛发性的皮肤色素脱失性疾病,属中医的"白癜"、"白驳风"、"斑驳"等范畴。此病异常顽固,慢性病程,易诊难治,影响美容。中医学早有认识,《素问.风论篇
患者女,25岁。临床表现为整个头皮毛发几乎全部脱落,眉毛全部脱落,部分睫毛及双上肢少量毳毛脱落,右下腹及中下腹出现不规则白斑。
网络科技的发展对法律制度的冲击,以及对责任分配的重塑可以从个人参与网络生活时的权利窥见一斑。本文以最近兴起的信息获取权和被遗忘权为切口,诠释网络科技发展下个人权利
在我国经济发展中,民营企业处于重要地位,加强民营企业资金管理,可以促进民营企业获得更广阔的发展空间,稳定社会经济长期有效发展。资金是企业的血液,在当前形势下,我们经济
新的形势对高校的资助工作提出了新的要求,单一的认定手段,陈旧的资助方法已无法适应互联网+时代高校学生资助工作的需求。充分利用新媒体及网络大数据的技术,企业参与,将创
科技型中小企业的成长离不开政府的引导,但政府引导科技型中小企业成长会产生许多不确定性。针对中小企业发展过程中三个不同时期的特点,本文应用博弈论分析了科技型中小企业
初中物理教师要善于在科学探究中发展学生的核心素养。结合实例指出,教师要立足探究的本质,有效激起学生的参与热情,同时教师还要善于从生活中选取素材,以此来提升学生的探究
伴随着信息技术在政治、经济、文化等领域的广泛应用,注册会计师的执业环境也发生了深刻变化,迫切要求会计师事务所直面信息革命的挑战和机遇,融合信息技术,变革执业理念、方
对于中国的城市而言,城市的发展已经从纯粹追求经济的增长到注重城市文化品牌的塑造。城市之间的竞争日趋激烈,在城市风格"同质化"时代,城市文化作为一座城市的"软实力",作为