Web医疗咨询数据的检索技术研究与实现

来源 :东华大学 | 被引量 : 1次 | 上传用户:flyrat1997
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web已成为世界上最大的信息数据源,如何从海量Web数据中检索用户感兴趣的信息已成为工业界和学术界日益关注的热点问题之一。医疗一直是人们关注的热点话题,与人们的生活紧密相关,人们利用互联网检索和咨询病情也愈加频繁。研究大规模医疗咨询数据的查询检索技术具有重要的应用价值和实际意义。本文研究了信息检索领域中的文本检索方法,尤其是向量空间模型和TFIDF算法。向量空间模型用向量表示文本,用向量间的余弦相似度表示文本间的相似度,模型方法简单、直观。TFIDF算法是计算文本中特征项权重的经典算法,算法简单、有效,但该算法统一根据特征项在文本和文本集中的出现频率来计算其权重。然而,Web医疗咨询数据具有明显的语义分段结构特点,且咨询文本中的部分特征项具有明确的专业领域意义,不适合用向量空间模型和TFIDF算法来处理。针对上述问题,本文首先提出了一个分段向量空间模型,接着将其应用于Web医疗咨询数据的检索中,最后从不同的视角对Web医疗咨询数据进行了分析。本文主要做了以下几方面的工作:(1)研究了文本检索领域中的向量空间模型及TFIDF算法,提出了一个分段向量空间模型。根据文本固有的语义分段结构特点,将文本表示成分段向量,分段向量的各部分可以用不同的方法分别计算分量值和相似度,最后计算各部分相似度的加权和作为两向量的总相似度。分段向量空间模型具有表示灵活性,从而提高检索结果的准确率和时空效率。(2)研究了Web医疗咨询数据的特点,接着对Web医疗咨询数据进行预处理,然后将SVSM模型应用于Web医疗咨询数据的检索中,在真实Web医疗咨询数据集上的实验结果验证了本文所提出的分段向量空间模型在提升检索结果准确率方面的有效性。(3)从不同的视角对Web医疗咨询数据进行了分析。一是从用户的基本信息的视角,其中又包括用户性别、年龄和地区的分析,分析目标是探究疾病在性别、年龄和地区上的分布情况,分析工具采用SAP HANA内存数据库;二是从病情描述的视角,其中又包括病症和药物的分析,分析目标是探究与疾病最相关的症状和药物,采用统计学方法进行分析。
其他文献
随着中国高等教育招生规模的日益扩大和人才素质要求多元化的发展,采用传统的评价方法已经不能把教师的教学业绩、科研业绩、道德与管理能力等全面地反映出来,已不再适合社会对
随着互联网浪潮的到来,人们对网络的依赖与日俱增,以主机为中心的传统网络体系结构正遭遇到一系列的挑战。一方面包括网络流量过载容易导致访问过程中有很大的时延;另一方面网络
随着信息采集手段的快速发展,很多应用领域的数据呈现出“连续数据流”的形式而不是传统的静态存储结构形式。这些应用领域包括交通监控系统、传感器网络数据管理、金融证券信
本文从国内外温湿度环境监测系统的研究现状出发,针对与工矿企业和日常生活中的环境参数监测的需要,提出了本课题的研究所要实现的功能,为课题的研究提出了目标。目前国内外的温
在计算机视觉研究领域中,人体动作识别一直是一个富有挑战性的课题,且有许多的研究者在此领域投入了大量的精力并取得了不错的成绩。然而,很多传统算法都是基于单一特征,单一
随着计算机的普及和多媒体技术的发展,计算机已经成为人们生活中不可或缺的工具,在各个领域发挥着不可替代的重要作用,影响并改变着人们的生活、工作、学习。随着因特网的日益普
建设网格首先要解决资源监测与资源发现问题。资源监测为其他的网格中间件提供了必要的与资源有关的性能数据,是资源发现和任务分配的基础。资源发现就是根据用户或应用的资
随着计算机技术的不断发展,应用于工业控制领域的软件与硬件设备的种类也越来越丰富,系统集成变得越来越复杂与困难。所以,无论是对于客户还是开发者而言,一套统一、通用的标
本体映射就是在不同的本体间搭建语义桥梁,以实现不同本体间的知识共享和信息交流。而对于大规模本体,由于其概念数量庞大、相互之间关系复杂,要实现它们之间的映射就变得更
随着互联网的高速发展与普及,电子商务作为计算机网络和商业结合的产物,正在改变着人们的生活方式。然而,由于互联网的开放性和匿名性,不可避免的存在着各种安全隐患,各种黑