论文部分内容阅读
随着网络技术的飞速发展,可从网络上获得的知识和信息量呈现爆炸性增长。同样,网络上生物医学领域的专业文献等资料数据的数量也迅速扩展。另一方面,网络上的知识和信息还具有结构多样化、可能重复出现等特点,致使研究人员从网络上准确而全面地获得所需要的特定知识越发困难。搜索引擎是用于在网上检索特定信息的有效工具。经典的搜索引擎一般利用关键词匹配(如Google等)或主题词检索(如PubMed等)技术来检索特定文献等信息,对被检索文献的内容和所关注主题的符合程度考虑不多,因而无法高效地查准和查全所需文献。针对经典搜索引擎的这个局限性,本文研究了一种新的基于WEB文献检索的策略和方法:以被检索文献的摘要内容和所关注主题的符合程度为依据,运用数据挖掘技术构建检索模型,从而提高了检索的性能和效率。本文研究内容如下:
1,确定某一个关注的主题(本文以“非遗传编码碱基对”为例)。以目前网上最大的生物医学文摘库PubMed为信息源。利用医学主题词从PubMed获取相关文献,建立相关文献数据集。并从这些文献所属期刊中随机抽取相同数量的其他文献建立不相关文献数据集。下载这些文献的摘要并进行预处理,建立训练样本集和测试样本集。
2,研究了两种降维方法,即:泊松概率降维和TF×IDF降维。对原始数据降维后,能有效提高数据挖掘模型的性能和效率。
3,研究了两种不同的数据挖掘模型,即贝叶斯概率模型和神经网络预测模型。
4,以查全率、查准率、灵敏度、特异度、准确率和ROC曲线下面积等参数为指标,分析和比较了所建模型的性能,并同关键词检索方法进行对比。结果表明:“基于TF×IDF降维的贝叶斯概率模型”的检索性能优于其他模型及经典的关键词匹配检索方法,达到:AUC为0.8683,特异度为84.58%,灵敏度为89.03%,准确率为86.83%,查准率为85.28%,查全率为89.03%。检索效率达到每小时80万篇。
5,另行确定一个关注的主题(本文以临床医学中的“糖尿病的饮食疗法”为例)。以上述建立的“基于TF×IDF降维的贝叶斯概率模型”方法检索相关文献,并将检索结果与关键词匹配检索法比较。结果表明本文方法的性能更优。说明:本文建立的方法的性能与主题本身无关,故具有推广的适用性。
结论:本研究通过采用医学主题词方法从PubMed网站下载相关数据,将下载数据处理后,利用Lucene工具对下载的数据进行分词构建样本。将分出的单词作为特征项,分别应用泊松概率和TF×IDF方法进行降维,然后建立数据挖掘模型。比较不同模型和关键词方法的检索性能。结果表明:本文研究建立的“基于TF×IDF降维的贝叶斯概率模型”在不同主题文献检索中的综合性能均优于关键词匹配检索,且具有推广的适用性。