健康领域热点事件自动检测与跟踪

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhangbingcug
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济的发展,人们越来越关注健康问题,网络作为现代化信息提供的主要来源,可以让人们快速的获取健康知识,但是随着网络信息成爆炸式增长,如何快速准确地选择自己需要的信息越来越成为人们关注的焦点,特别是一些健康热点信息,经常零散的分散在网络的各个地方,让我们很难了解一些事件发生的原因、经过和结果,所以,如何让人们第一时间准确的了解到正在发生的健康热点成了亟待解决的问题。话题检测与跟踪(TDT)一直是国内外网络信息处理研究的一个热点,具有广泛的应用前景。  针对上述问题,本文通过TDT技术对信息分类整理,实现了健康领域新闻热点发现与跟踪系统,此系统实时收集健康信息,用分类技术首先分门别类,然后针对每个类别,使用聚类技术进行热点话题发现,并且完成对话题的跟踪。最终以界面的形式呈现给用户,使用户可以根据自己的爱好选择感兴趣的事件,从而方便了人们快速了解健康领域各个热点事件以及来龙去脉。本文主要分4个方面进行了介绍:  (1)使用基于类别特征域的KNN分类,对信息进行分门别类,有助于后续聚类中精度的提高。  (2)利用聚类技术,在类内进行热点发现与跟踪,此模块针对聚类过程中的特征高维问题,分析了健康领域的特性,提出了一种基于类别特征和领域词典的动态特征提取方法。  (3)针对健康领域的特点,在相似度计算时,提出了一种基于领域词的分解的向量空间模型表示方法。  (4)结合上述动态的特征选择方法和改进的文档向量表示方法,最终用其完成了疾病和曝光两个领域的热点检测与跟踪。  在话题检测与跟踪评测中,把本文的基于动态的类别特征域和领域主题词的的特征提取方法与基于疾病名称的文档向量表示方法运用于凝聚层次聚类和AP聚类,与不使用上述方法的凝聚层次聚类和AP聚类做了对比试验。通过实验证明改进的系统取得了更好的成效。
其他文献
随着地理信息系统的应用越来越普遍,对空间数据库的设计和响应速率的要求也越来也高。地理信息系统的开发少不了空间数据库的支持,目前空间数据库的设计与建设主要是以Arc SD
生物特征识别技术近几年取得了飞速的发展,利用人体的生物特征来鉴别个人身份成为安全验证的重要方式。对人脸识别方法和技术的研究已经是国内外模式识别领域的研究热点。目
随着数字图像处理技术的发展,医学图像处理和分析技术在医学诊断领域发挥着越来越重要的作用,比如在对大脑图像进行分割时,可以利用机器学习的方法判断老年痴呆病发的可能性;
众所周知,随着网络技术的迅猛发展,网络上多媒体资源已越来越多。在音乐检索方面,单纯的文字输入检索已经不能满足用户的需求,尤其是网络上的音乐多媒体爆炸式增长的情况下。
随着互联网技术的飞速发展,不同领域网络信息的种类和组成形式愈加复杂,每个网站节点都具有复杂的分类体系结构,并且包含丰富的文本信息,如何将大量的文本信息标注到对应正确
人脸识别由于具有自然性和友好性的特点,因此成为生物特征识别领域中的一个热点研究问题。通过采用人脸识别技术,可以准确的识别出人的身份信息,进而保证信息安全。由于这个
服务计算(SOC)和服务构架(SOA)的兴起和发展,促使通过实现服务协同来构建虚拟组织(Vos, Virtual Organizations),成为革新Internet计算环境下应用软件系统的主流方式。然而,
本文研究了有时间间隔的事件的挖掘问题。假设原始数据库由事件序列集构成,其中事件发生在时间间隔内,我们的目的是挖掘出数据库中频繁发生的间隔事件间的时间关联规则。之所以
中医有“望、闻、问、切”四诊,是传统文化的精华,具有简单、方便、非侵入等优点,但比较主观,缺乏客观诊断标准。随着信息科技领域的不断发展,为中医的数字化、科学化、现代
作为一门无监督学习技术,聚类广泛应用在很多领域中,包括数据压缩,文件检索,人工智能,临床图像和微阵列分析等多方面。随着信息技术的飞速发展,在这些领域中积累的数据量将不