【摘 要】
:
社交媒体的快速发展,为持续监测数百万人的个人健康报告提供了前所未有的机会。健康监测能够对疾病研究起积极作用。传统的以调查为基础的监测方式资源有限,且具有一定的滞后性。微博上大量的自我健康报告数据能够作为传统监测方式所需的正式报告以外的很好的补充数据,辅助相关机构进行疾病研究,帮助发现季节性、地方性、流行性疾病。实现监测的关键一步是识别真正的症状报告微博内容。本文提出了一种针对微博中文短文本的症状提
论文部分内容阅读
社交媒体的快速发展,为持续监测数百万人的个人健康报告提供了前所未有的机会。健康监测能够对疾病研究起积极作用。传统的以调查为基础的监测方式资源有限,且具有一定的滞后性。微博上大量的自我健康报告数据能够作为传统监测方式所需的正式报告以外的很好的补充数据,辅助相关机构进行疾病研究,帮助发现季节性、地方性、流行性疾病。实现监测的关键一步是识别真正的症状报告微博内容。本文提出了一种针对微博中文短文本的症状提及识别模型(WCCL_MCNN)。通过结合文本词级别、字级别、扭曲质心、基于质心的扩展特征的联合表示模型(WCCL)构建文本表示,然后将其输入卷积神经网络提取更高层次的语义信息训练一个高性能分类器完成症状提及识别任务。相较于传统的文本分类模型,文本联合表示模型能够从不同层面表示文本,同时基于质心的扩展特征能够提升分类器的泛化能力,最后利用卷积神经网络学习提取更高层次的局部特征,经过池化、全连接层和Softmax回归层进行文本分类。实验证明,对于微博症状提及识别分类任务,本文的模型能够在一定程度上解决短文本特征稀疏和类别不平衡的问题,具有较好的性能。本文也将理论与实际相结合,应用微博症状提及识别模型,开发了微博健康监测系统,连续、系统地收集微博用户症状报告,最后以全国分布热力图,症状报告具体位置表,数量趋势折线图等形式展示给用户,使其清晰明确的看到微博上相关症状报告时间空间上的分布情况。为相关研究人员提供大量的健康报告统计数据,辅助监测公共健康、疾病研究、发现季节性、地方性、流行性疾病等。
其他文献
背景:生长激素具有免疫调节、促进细胞增殖及蛋白合成等生理作用,已被证实可以促进急慢性创面愈合。目的:构建过表达生长激素的脂肪干细胞系(生长激素-脂肪干细胞),并探究其对成纤维细胞增殖迁移能力的影响及其分子机制。方法:(1)体外分离并鉴定脂肪干细胞;(2)构建生长激素过表达慢病毒,将脂肪干细胞分为生长激素组、空载组、对照组,以上3组分别转染生长激素过表达慢病毒、空载慢病毒或不进行传染;(3)RT-q
随着社会的发展,海量数据在给人们带来生活便利的同时也带来了困扰。以用户购房为例,海量房源数据使用户容易陷入信息过载的泥潭,难以获取到有效数据;并且区位资源已经成为用户购房考虑的重要因素,但是用户难以将自己对于区位资源的需求同房源数据关联起来。本文针对以上用户购房时遇到的问题进行设计实现。系统由六个模块组成,分别是数据台账、查询统计、区位资源、房源推荐、房源对比和个人信息。数据台账模块展示整体房价和
基于草图的图像生成是计算机视觉中一个亟待解决的重要问题。对于手绘草图来说,不同用户对同一个对象的表达有巨大的差异,这要求算法模型能够学习草图类别内部巨大的差异。并且,草图与图像之间存在着尺度与纹理间的巨大差异,这种特征之间的鸿沟使得草图生成图像模型训练更加困难。为了填补草图与图像之间的特征鸿沟,本文提出了由草图到边缘图,再由边缘图到图像的两阶段草图生成图像模型,并应用该模型实现了基于多类别草图的图
当下的工业物联网(Industrial Internet of Things,IIo T)包含了承担多种不同业务的节点。IEEE 802.11ac/ah协议共同应用于IIo T中,可以满足复杂的传输需求。信道绑定技术和限制接入窗口(Restricted Access Window,RAW)机制是IEEE 802.11ac/ah协议在媒体访问控制(Media Access Control,MAC)层
网格作为工业界建模,模拟,有限元分析计算以及多媒体,游戏开发等计算机三维图形应用中几何物体的表示方法,在信息时代中起着不可或缺的作用,它使简单的模型文件可以显示在屏幕上,进行动画渲染以及仿真计算。在计算机图形领域的快速发展的当下,网格的生成与相关算法成为该领域的一个热点。现在的表面网格中,广泛应用的有三角形网格和四边形网格,而四边形网格由于其适用于纹理贴图与离散计算的特性,更是发挥着越来越重要的作
计算机视觉在体育视频方面已经越发的成熟,并且在很短时间内获得了长足的发展。其中目标跟踪是热门研究方向之一,多目标跟踪是现阶段要解决的难点问题。本文目的是在现有目标跟踪算法基础上,针对足球转播视频的场景下进行改进,完成对小目标球员的跟踪,并将算法应用于移动端进行实时跟踪。在预处理阶段,本文对于原始的足球转播视频存在大量镜头切换的现象,提出基于主色率和帧差阈值双阈值限定的视频镜头检测算法,对原始足球转
隐喻普遍存在于人类的日常表达中,据统计,平均每三句话就包含一句隐喻。隐喻是一种常见的语言表达方式,也是一种重要的认知手段。人类习惯于借助已知的具体概念来描绘未知的抽象概念。准确地识别出隐喻现象能够帮助人们更好地理解复杂的抽象概念,深入地挖掘语言中的深层含义。目前,隐喻识别已经成为自然语言处理领域中的一个重要问题,被广泛应用于信息抽取、观点挖掘、机器翻译、情感分析等任务中。随着社交媒体的蓬勃发展,语
芯片行业不断发展,IC设计规模和复杂程度进一步提高,IC验证已成为高性能芯片研发过程中的一个重要瓶颈。同样,FPGA系统的验证工作存在复杂性和全面性的问题。当前仿真验证与形式化验证技术主要针对系统实现的中后期,对于早期设计与需求的一致性验证上未能发挥作用。而越早开始系统验证工作,发现错误后的改正成本越低。从验证的全面性角度考虑,验证工作应尽量覆盖数字系统的设计实现过程,做到问题尽早发现,提高验证效
面对数据爆炸式积累的大数据时代,从海量数据中如何高效的挖掘信息成为了一项有意义的研究课题。分类是数据挖掘中基本且重要的技术,在生物特征识别、文档分类、医学诊断等领域有着广泛应用,而数据缺失是进行分类任务时需要处理的一个常见缺陷。真实数据集中通常会存在数量不等的数据缺失,从而增大了数据分析的难度。在此背景下,本文论述了一种不完整数据分类辅助缺失值填补的多任务学习模型,以提高缺失值填补性能为切入点,研
目前,随着预印本数量的不断增长,预印本文献对科研领域以及各行各业都产生了巨大的影响。不同于传统的对已发表论文进行评价时的标准,即论文发表所在期刊的影响因子。这种评价标准对于评估预印本文献的影响力来说并不适用,因为预印本很多还没有被正式出版。因此,如何对预印本文献影响力进行评估就成为了迫切需要被解决的问题。基于上述需求,本文设计并实现了可以对预印本文献的影响力进行评估的系统。本系统的核心是确定预印本