论文部分内容阅读
互联网时代信息技术推动健康领域革命性的变革使得人们不但对生活质量的要求越来越高还对个人和家庭的健康也越来越重视;人们不再满足于不生疾病,而到更关注预防疾病和保健。虽然现代人对健康的关注意识比以往任何时候都强烈,但是在如何健康地饮食,如何科学地预防疾病,以及慢性疾病发生时如何长期地监控疾病等方面,大多数人还是处于一个不甚了解的状态。因此,近年来信息技术在医疗健康领域的研究也越来越多,出现了很多的个人健康管理软件和穿戴式移动健康设备等硬件,它们管理和存储健康数据,为更好地利用健康数据和为用户提供服务奠定了良好的基础。在日常生活中时间信息和空间信息与我们息息相关,在通常的信息搜索中,我们也经常把时间和空间信息作为关键词提交给搜索引擎进行查询。在用户提交的查询中有包含了显式的时空约束和隐式的时空约束。例如,外卖网站中经常会搜索当前用户位置附近的餐厅以及最近时间卖得最热的菜品等等。可想而知,这些与时间和位置相关的查询中,如果脱离了时间和空间信息,其检索结果将是很糟糕的。现今互联网信息呈现出爆炸式增长,从海量的信息中快速查找到真正需要的信息已变得十分困难,因此普通检索不能很好地理解用户的查询意图,于是就衍生出了信息发现技术。基于以上背景,本文针对现有的信息发现技术在时空感知搜索能力方面还比较弱的现状,研究了时空感知的信息发现技术及其在健康领域的应用,提出了一系列的方法。本文首先阐述了信息发现和时空感知的相关理论以及国内外研究现状,分析了时空感知的信息发现研究中存在的问题;然后提出了基于时空感知的信息发现模型;最后在信息发现模型的基础上设计了健康信息抽取算法和基于时空感知的信息发现算法-STAORank算法。STAORank算法是基于ObjectRank算法的改进,在其中扩展了时间相似度和空间相似度的计算以及健康数据的关联性。STAORank算法首先查询出包含文本关键词的结点集;其次,在健康数据图上搜索满足时间和空间约束的结点,并产生候选结果;最后,对候选结果集利用评分公式计算相应的最终分数进行堆排序得出Top-k个结果。本文运用上述方法实现了一个基于时空感知的健康信息发现原型系统并抽取了大量的健康数据。本文使用了P@k评价指标以及查询时间两个指标对比和分析了不同算法的实验结果。实验结果表明,本文设计的STAORank算法具有良好的检索效果。