【摘 要】
:
随着数字信息化的发展,医疗数据呈指数形式增长,使得医疗行业成为数据最密集的行业之一。根据IDC Digital的预测结果,医疗行业的数据量将在2020年时达到40万亿GB,预计是2010年医疗数据量的30倍,这些数据蕴藏着巨大的潜在价值。中国人口众多,“看病难、看病贵”成为当下的主要问题,其主要的原因在于医疗医护资源稀缺、分布严重不均衡,且看病效率低下,无法满足日益增长的民众需求。从供给层面来看,
论文部分内容阅读
随着数字信息化的发展,医疗数据呈指数形式增长,使得医疗行业成为数据最密集的行业之一。根据IDC Digital的预测结果,医疗行业的数据量将在2020年时达到40万亿GB,预计是2010年医疗数据量的30倍,这些数据蕴藏着巨大的潜在价值。中国人口众多,“看病难、看病贵”成为当下的主要问题,其主要的原因在于医疗医护资源稀缺、分布严重不均衡,且看病效率低下,无法满足日益增长的民众需求。从供给层面来看,优质医疗资源更为紧张,体现得更为明显。在上述背景下,推荐预测系统成为解决该问题的方法之一。目前推荐系统已经广泛应用在各行各业并且取得了不错的成果,但是随着数据量的增多,数据关系的丰富,推荐系统也面临着冷启动、可解性、可扩展性等问题。本文针对上述问题结合医疗卫生数据的特点,提出了一种基于大数据的混合推荐算法,并基于此算法搭建了疾病预测系统。本文的主要研究内容如下:(1)医疗卫生数据集获取。医学数据的特殊性导致没有公开的标准数据集,且患者对于诊断结果或者症状没有明确评价导致数据的稀疏性,进而导致冷启动的问题,一般而言数据规模越大就越稀疏,因此,获取高质量的数据集成为必不可缺的前提。本文通过数据采集从业务系统获取所需医疗卫生数据,并对这些数据按照规则与标准进行清洗,最终使用数据质控算法衡量数据质量的优劣,以此获取高质量的医疗卫生数据集。(2)基于大数据的混合协同过滤推荐算法研究。目前,在医学推荐上大部分关于冷启动问题的研究主要从用户角度出发,通过分类、用户反馈或者利用专家进行标注来解决。虽然这些措施有助于优化用户的兴趣,但是都需要提前构建,不仅需要花费大的精力而且影响了算法扩展性。本文研究从内容入手,通过内容信息(关键字)为用户和疾病建立关联关系,并通过大数据获取大众的偏好来代替用户的偏好。基于此发现,本文在大数据情境下将协同过滤与基于内容的推荐算法结合,提出一种基于大数据的混合协同过滤推荐算法。分析显示该算法具有良好的可解性,并且实验结果表明本文所研究的算法不仅能够为新用户做出推荐而且相较于传统的算法性能更好。(3)疾病预测系统搭建。本文基于上述研究搭建了疾病预测系统,将基于大数据的混合推荐算法应用到实际中,并对预测系统进行测试,能够满足日常使用。
其他文献
随着微博、微信、论坛等各种社交网络的广泛应用,人们在社交网络中产生了大量的数据,这些生成的数据构成了复杂的虚拟社会网络,虚拟社会网络是对现实社会的虚拟映射,利用计算机技术手段分析和研究虚拟网络中的社会关系、社会行为的规律和发展趋势,对研究和解决社会学中的相关现实社会问题具有重要的意义。社区发现是复杂社会网络研究的基础,近年研究者发现,重叠社区发现更能反映真实社会的状况。标签传播算法是社区发现算法中
徽州地区,地形闭塞,群山环绕,加之历史上鲜有战乱,人员集聚,形成规模巨大的村落聚落。但是由于太平天国运动的爆发,徽州地区晚清的人口出现急剧减少。战后,为了恢复生产,晚清政府出台了移民政策的激励,加之徽州地区的自然人文环境的优势吸引了大批的移民。徽州的移民主要来自省内的安庆府、庐州府,同时也有来自湖南、湖北、河南、江西的省际移民,不少躲避战争的流民闻风而来,或经商,或务农,通过对徽州地区的开发,使得
近年来,我国的交通网络建设飞速发展,交通安全越来越受到重视。交通标志在道路交通中有着重要作用,对于保障人们的人身财产安全具有重要意义。随着计算机科学的发展,交通标志的识别逐渐成为了计算机领域重要的研究方向。智能化地识别交通标志不仅能为未来自动驾驶时代的到来打下基础,更重要的是可以避免驾驶员错过重要的道路信息,从而减少不必要的损失。早期的研究多采用特征工程的方法,使用交通标志的具体形状信息和色彩信息
研究1:对痉挛型构音障碍脑瘫儿童汉语普通话声调听懂度的分析。目的:探讨痉挛型构音障碍脑瘫儿童与正常同龄儿童汉语普通话声调听懂度的差异,脑瘫儿童发声声调是否存在异常。方法:收集28位7-15岁痉挛型构音障碍脑瘫儿童和30位7-14岁正常儿童,进行汉语普通话声调听懂度的分析。结果:(1)两组受试者的年龄、性别差异无统计学意义(x2=0.181,Z=-1.125,p>0.05);(2)3名评估者对
城市公园是城市绿地建设系统中不可或缺的组成部分,它是城市建设中涵盖精神文明与社会文明的重要载体,兼具着社会、经济、环境等功能。在传统城市公园发展进步的进程中,怎样去平衡城市公园与现代化城市生活节奏是当下所需面临的主要问题。随着社会进步,时代的不断发展,以及社会对儿童群体成长的日渐关注,社会各界已经提出建设“儿童友好型城市”的概念,其中对城市公园的改革是建设“儿童友好型城市”的关键一环;基于儿童行为
目的:探究快速康复外科(enhanced recovery after surgery,ERAS)在腹腔镜下早期子宫内膜癌分期术中的应用安全性及有效性。方法:收集大连市妇幼保健院妇科肿瘤病房临床及病理
背景:随着介入治疗的开展与成熟,急性心肌梗死(Acute myocardial infarction,AMI)的死亡率明显下降,且部分患者经介入治疗血管再通后左室射血分数(Left ventricular ejection
大数据时代,个性化推荐系统作为对抗信息过载的有效手段,已然成为人们生活中不可或缺的一部分。网络数据广泛存在于各种推荐场景之中,譬如用于描述用户与物品交互关系的二分网络,以及由用户构成的社交网络、由地理位置构成的地理信息网络等等,这些网络数据从不同侧面传达着用户的多样化信息需求。本文聚焦于社会化推荐场景和路线推荐场景,根据两种应用场景的特点,提出两种结合网络嵌入的推荐方法。在社会化推荐方面,如何将社
随着科学技术和医疗水平的发展,医院每日都会产生大量的医学影像数据,这增加了放射科医生医疗诊断及影像报告撰写的负担。医学影像报告自动生成的研究大多是基于Image Caption的模型设计,虽取得了一定的效果,但没有对医学影像特征和医学语义进行充分的分析,只是通过模型的训练使影像特征与报告中的文本特征对齐,导致所生成的医学影像报告质量不高,临床意义有限。本文提出了一种基于Topic注意力机制的医学影
黄瓜(Cucumis sativus L.)是我国广泛栽培的主要蔬菜作物之一,其营养丰富,深受消费者喜爱。果皮颜色是黄瓜重要的品质性状,开展黄瓜果皮颜色性状的研究对指导黄瓜品质育种具有重要意义。本研究选用成熟果皮呈现黄棕色的黄瓜自交系PW和成熟果皮呈现绿色的黄瓜自交系Gy2为亲本,构建四世代遗传群体(P1、P2、F1、F2),对控制黄瓜成熟果果皮颜色yellow-brown(yb)基因进行遗传分析