论文部分内容阅读
本文探讨数字资源联合检索(UnionSearchingofDigitalResources,USDR)中词汇辅助服务的设计与实现,首先对国内外相关研究进行了综述,然后提出利用词库在USDR中进行词汇辅助服务的设计与实现思想。
词库利用各类词表(如汉语分类主题词表等)来建立,以反映词汇之间的各种关系(如层次、同义、近义、反对或矛盾、因果、交叉、对立、并列、施受、应用、影响等),并通过词汇关联分析,即采用词汇关联规则挖掘(AssociationRuleMining,ARM)、隐性语义分析(LatentSemanticAnalysis,LSA)和统计隐性语义分析(ProbabilisticLatentSemanticAnalysis,PLSA)相结合的方法发现新词以及新的词间关系,经确认后将它们添加到词库中以实现对词库的丰富。
本文的创新之处在于提出ARM、LSA和PLSA相结合进行词汇关联分析的方法,即:
1、将LSA或PLSA作为一种数据预处理方法,最后由ARM给出词汇关联分析结果。传统ARM针对的是出现在文档中的词——不论词与文档的主题内容是否相关,但是,与文档主题内容不相关的词往往很分散,这会对词汇关联规则挖掘的效果产生负面效应。在ARM处理之前,首先使用LSA或PLSA方法对文档进行预处理,保留那些出现在文档中并且与文档主题内容相关的词,过滤掉那些虽然出现在文档中但与文档主题内容不相关的词,甚至包含进那些没有出现在文档中但是与文档主题内容相关的词。也就是说,经过预处理步骤,文档最后保留下来的主要是与该文档主题内容相关的词,在此基础上进行词汇关联规则挖掘,可得到更理想的效果和结果。
2、将ARM作为一种数据预处理方法,最后由LSA或PLSA给出词汇关联分析结果。LSA或PLSA将词向量(向量元素是文挡与该词关系的度量值)分布在一定维度的空间内,传统的LSA或PLSA往往会由于数据问题而使得大量关联程度不高的词的向量在空间的分布也相对聚集,这会导致误判某些关系不大的词具有强关系。LSA或PLSA利用ARM作为一种数据预处理方法,只考虑ARM处理结果中的那部分词,可降低LSA或PLSA误判机率,最终得到更好的词汇关联分析效果和结果。