论文部分内容阅读
目的生物医学文献数量的爆炸式增长为文本挖掘提出了问题和挑战,期刊网络版及网络数据库的出现为文本挖掘提供了广阔的舞台。文本挖掘就是从非结构化文本信息中获取用户感兴趣或者有用的知识或模式的过程,它涵盖了信息技术、文本分析、统计学、自然语言处理、机器学习及数据可视化等多学科技术。本研究的主要目标是尝试对特定领域内主题词之间的潜在语义关系进行挖掘、表达和检验。材料与方法本研究对生物体类主题词相关的语义关系进行提取,检索文献时分三个层次进行:微观层次,选择10个末级主题词;中观层次,生物体类可以组配的副主题词;宏观层次,对生物体类主题词进行检索。规则挖掘,利用元数据即主题词共现聚类分析方法对来自于MEDLINE的生物体类相关文献中的高频主要主题词进行共词聚类分析,获取主题词之间的关联规则。知识表达,即主题词对之间的语义关系用UMLS语义关系表达语言进行结构化、模式化表达。将三个层次文献筛选出的主题词对作为检索策略进行逻辑“与”检索,阅读文摘确定两主题词之间的关系,然后选择适当的UMLS语义关系词汇对它们连接,即形成一条具体的规则。为了规则的数量能得到有效控制,并且关联规则具有一定的代表性和概括性,本研究采用主题词的二级树状结构类号替代主题词。并且将全部规则导入MeSH_Manager关联规则检验与应用系统,生成规则库。规则评价,验证共词聚类获得关联规则的效能,从MEDLINE中选取60篇发表于《中华医学杂志》上的生物体类文献作为测试集,由多位专家对其阅读并人工抽取主题词之间的二维关系,将结果与共词聚类得到的关联规则进行比较。本文对二者的完全匹配及部分匹配情况进行了定义,评价的指标包括敏感度和准确率。结果对全部待描述规则归纳总结后,共获得194个生物体类主题词相关的关联规则,其中微观37,中观141,宏观16。对专家抽取关系的结果进行整理,选取专家抽取的全部关系中一致认同频次大于等于3的关系作为认同规则,得到40个具体认同规则,来自于29篇文献;用二级类号替代认同规则,得到24个关系。将60篇测试集文献导入MeSH_Manager系统,自动返回18个关系,来自于11篇文献。将18个关系与40个认同规则进行比较,完全匹配8个,部分匹配17个,不匹配1个,因此完全匹配敏感度20%,部分匹配敏感度35%,完全匹配准确率44%,部分匹配准确率94%。又将专家抽取的24个二级类号认同规则与MeSH_Manager系统的规则库进行比较,MeSH_Manager系统可提取出18个,因此二级类号关系的敏感度75%。结论利用共词聚类分析对生物体类主题词关系的挖掘及评价分析,为文本知识发现提供了一种新的尝试。第一,利用高频主题词共词聚类分析方法提取关联规则对以及利用UMLS语义关系表达知识是一种可行的而且具有一定可靠性的方法。第二,规则库得到扩充以及UMLS语义关系的一致理解和表达会增加系统的敏感度和准确性。