基于WEB的生物医学文献挖掘

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:shenzhixian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的飞速发展,可从网络上获得的知识和信息量呈现爆炸性增长。同样,网络上生物医学领域的专业文献等资料数据的数量也迅速扩展。另一方面,网络上的知识和信息还具有结构多样化、可能重复出现等特点,致使研究人员从网络上准确而全面地获得所需要的特定知识越发困难。搜索引擎是用于在网上检索特定信息的有效工具。经典的搜索引擎一般利用关键词匹配(如Google等)或主题词检索(如PubMed等)技术来检索特定文献等信息,对被检索文献的内容和所关注主题的符合程度考虑不多,因而无法高效地查准和查全所需文献。针对经典搜索引擎的这个局限性,本文研究了一种新的基于WEB文献检索的策略和方法:以被检索文献的摘要内容和所关注主题的符合程度为依据,运用数据挖掘技术构建检索模型,从而提高了检索的性能和效率。本文研究内容如下:   1,确定某一个关注的主题(本文以“非遗传编码碱基对”为例)。以目前网上最大的生物医学文摘库PubMed为信息源。利用医学主题词从PubMed获取相关文献,建立相关文献数据集。并从这些文献所属期刊中随机抽取相同数量的其他文献建立不相关文献数据集。下载这些文献的摘要并进行预处理,建立训练样本集和测试样本集。   2,研究了两种降维方法,即:泊松概率降维和TF×IDF降维。对原始数据降维后,能有效提高数据挖掘模型的性能和效率。   3,研究了两种不同的数据挖掘模型,即贝叶斯概率模型和神经网络预测模型。   4,以查全率、查准率、灵敏度、特异度、准确率和ROC曲线下面积等参数为指标,分析和比较了所建模型的性能,并同关键词检索方法进行对比。结果表明:“基于TF×IDF降维的贝叶斯概率模型”的检索性能优于其他模型及经典的关键词匹配检索方法,达到:AUC为0.8683,特异度为84.58%,灵敏度为89.03%,准确率为86.83%,查准率为85.28%,查全率为89.03%。检索效率达到每小时80万篇。   5,另行确定一个关注的主题(本文以临床医学中的“糖尿病的饮食疗法”为例)。以上述建立的“基于TF×IDF降维的贝叶斯概率模型”方法检索相关文献,并将检索结果与关键词匹配检索法比较。结果表明本文方法的性能更优。说明:本文建立的方法的性能与主题本身无关,故具有推广的适用性。   结论:本研究通过采用医学主题词方法从PubMed网站下载相关数据,将下载数据处理后,利用Lucene工具对下载的数据进行分词构建样本。将分出的单词作为特征项,分别应用泊松概率和TF×IDF方法进行降维,然后建立数据挖掘模型。比较不同模型和关键词方法的检索性能。结果表明:本文研究建立的“基于TF×IDF降维的贝叶斯概率模型”在不同主题文献检索中的综合性能均优于关键词匹配检索,且具有推广的适用性。
其他文献
气固多相流动自然和国民经济各领域中广泛存在.人们对多相流动和传热机理的认识很大程度上受制于多相流动的复杂性和实验技术的落后,随着相关科学技术的发展,特别是激光测量
实际的反应管理在制造过程中内壁产生的微小缺陷,焊缝存在的焊接缺陷以外壁 长期受到腐蚀而产生的缺陷都是可能的,这就使裂纹经历很短的萌生期直接进入裂纹的扩展阶段百发生
现代社会人们生活节奏的加快和工作压力的加大,致使心血管疾病发病率猛增,它已经是致人死亡的主要疾病之一。心血管疾病具有隐蔽性强、发病急、不可预见等特点。现有实时检测心
在制冷领域,目前绝大多数需要建立大型数据中心的单位,对数据中心“绿化”认识不足。在系统规划时,只是看到了数据中心的处理能力和设备功能等情况如何,而对数据中心的能耗、空调、环保设计还缺乏认识,在数据中心的节能、降耗、运营成本等方面进行缺乏非常全面的综合考虑。另外,随着通信技术的飞速发展,移动、电信部门的机房建设规模也越来越大,作为机房正常、稳定运行基本保证的空调、电源等设备的运行状况及机房环境的安全
本文通过对荣华二采区10
期刊
本文研究了一种基于旋转阳极振动信号分析的X射线管工作状态监测方法。利用LabView虚拟仪器开发平台,对通过加速度传感器和高分辨率数据采集卡采集到的X射线管旋转阳极的振动
该文结合AutoCAD R14提供的二次开发工具ObjectARX,对电冰箱的计算机辅助设计进行了研究,介绍了Windows开发平台下开发的电冰箱CAD软件.
在模式识别和计算机视觉领域,一个重要的问题是如何对目标进行描述和表达。自Hu于1962年提出矩不变量理论以来,矩函数和矩不变量作为一种有效的图像描述子,在模式识别和图像