论文部分内容阅读
Web已成为世界上最大的信息数据源,如何从海量Web数据中检索用户感兴趣的信息已成为工业界和学术界日益关注的热点问题之一。医疗一直是人们关注的热点话题,与人们的生活紧密相关,人们利用互联网检索和咨询病情也愈加频繁。研究大规模医疗咨询数据的查询检索技术具有重要的应用价值和实际意义。本文研究了信息检索领域中的文本检索方法,尤其是向量空间模型和TFIDF算法。向量空间模型用向量表示文本,用向量间的余弦相似度表示文本间的相似度,模型方法简单、直观。TFIDF算法是计算文本中特征项权重的经典算法,算法简单、有效,但该算法统一根据特征项在文本和文本集中的出现频率来计算其权重。然而,Web医疗咨询数据具有明显的语义分段结构特点,且咨询文本中的部分特征项具有明确的专业领域意义,不适合用向量空间模型和TFIDF算法来处理。针对上述问题,本文首先提出了一个分段向量空间模型,接着将其应用于Web医疗咨询数据的检索中,最后从不同的视角对Web医疗咨询数据进行了分析。本文主要做了以下几方面的工作:(1)研究了文本检索领域中的向量空间模型及TFIDF算法,提出了一个分段向量空间模型。根据文本固有的语义分段结构特点,将文本表示成分段向量,分段向量的各部分可以用不同的方法分别计算分量值和相似度,最后计算各部分相似度的加权和作为两向量的总相似度。分段向量空间模型具有表示灵活性,从而提高检索结果的准确率和时空效率。(2)研究了Web医疗咨询数据的特点,接着对Web医疗咨询数据进行预处理,然后将SVSM模型应用于Web医疗咨询数据的检索中,在真实Web医疗咨询数据集上的实验结果验证了本文所提出的分段向量空间模型在提升检索结果准确率方面的有效性。(3)从不同的视角对Web医疗咨询数据进行了分析。一是从用户的基本信息的视角,其中又包括用户性别、年龄和地区的分析,分析目标是探究疾病在性别、年龄和地区上的分布情况,分析工具采用SAP HANA内存数据库;二是从病情描述的视角,其中又包括病症和药物的分析,分析目标是探究与疾病最相关的症状和药物,采用统计学方法进行分析。