USDR中词汇辅助服务的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:suilong12341106
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文探讨数字资源联合检索(UnionSearchingofDigitalResources,USDR)中词汇辅助服务的设计与实现,首先对国内外相关研究进行了综述,然后提出利用词库在USDR中进行词汇辅助服务的设计与实现思想。 词库利用各类词表(如汉语分类主题词表等)来建立,以反映词汇之间的各种关系(如层次、同义、近义、反对或矛盾、因果、交叉、对立、并列、施受、应用、影响等),并通过词汇关联分析,即采用词汇关联规则挖掘(AssociationRuleMining,ARM)、隐性语义分析(LatentSemanticAnalysis,LSA)和统计隐性语义分析(ProbabilisticLatentSemanticAnalysis,PLSA)相结合的方法发现新词以及新的词间关系,经确认后将它们添加到词库中以实现对词库的丰富。 本文的创新之处在于提出ARM、LSA和PLSA相结合进行词汇关联分析的方法,即: 1、将LSA或PLSA作为一种数据预处理方法,最后由ARM给出词汇关联分析结果。传统ARM针对的是出现在文档中的词——不论词与文档的主题内容是否相关,但是,与文档主题内容不相关的词往往很分散,这会对词汇关联规则挖掘的效果产生负面效应。在ARM处理之前,首先使用LSA或PLSA方法对文档进行预处理,保留那些出现在文档中并且与文档主题内容相关的词,过滤掉那些虽然出现在文档中但与文档主题内容不相关的词,甚至包含进那些没有出现在文档中但是与文档主题内容相关的词。也就是说,经过预处理步骤,文档最后保留下来的主要是与该文档主题内容相关的词,在此基础上进行词汇关联规则挖掘,可得到更理想的效果和结果。 2、将ARM作为一种数据预处理方法,最后由LSA或PLSA给出词汇关联分析结果。LSA或PLSA将词向量(向量元素是文挡与该词关系的度量值)分布在一定维度的空间内,传统的LSA或PLSA往往会由于数据问题而使得大量关联程度不高的词的向量在空间的分布也相对聚集,这会导致误判某些关系不大的词具有强关系。LSA或PLSA利用ARM作为一种数据预处理方法,只考虑ARM处理结果中的那部分词,可降低LSA或PLSA误判机率,最终得到更好的词汇关联分析效果和结果。
其他文献
本文针对指纹识别提取细节点的算法普遍存在算法的效率低和细节点提取的准确率低这两方面的问题,提出快速可分解Gabor滤波算法,以及基于全方向场的指纹灰度图像特征提取算法。
数字视频信号通过压缩技术,减少数据量,节约传输带宽和存储空间。近年来,视频编码技术在通信、广播电视等领域得到广泛的应用,并且促使了一系列视频编码标准的产生,如MPEG-1/2/4、
宽带相控阵雷达具备灵活调度波束,跟踪、成像与识别多目标能力,因而在现代雷达发展中有突出的地位。但是在其一维距离成像中,有些问题需要重点研究,包括:(1)相控阵雷达可以跟踪高
现代空中威胁目标不断地发展变化,对防空导弹主动雷达导引头的设计提出了严酷的挑战。导弹在下视情况下拦截目标时,由于导弹的高速运动,地面杂波频谱具有很大的分布范围。此时目
本文首先分析了电信网产品生命周期及生命周期内的各项检验测试;着重分析了一致性测试的要求、目的及局限性,并根据相关文献,总结分析了“试运行测试”的概念,内容及其重要性。然
本研究旨在细菌通过监控某些信号分子的浓度可感知其群体大小,进而调节整个群体的行为,使其能与多细胞生物一样,行使单个细胞无法完成的功能,这种依赖细胞密度的细胞信息交流现象
本研究针对入侵监测技术这一热点安全技术,总结了本人9年多的实践经验,在导师的指导下,首次提出了“侵入认知”概念,系统化地分析“入侵管理”,创建了入侵管理关系模型和入侵管理
学位
随着隐身和反隐身技术的发展,低散射目标RCS的高精度测量需求正变得越来越迫切。室内紧缩场系统是实现目标RCS高精度测量的重要措施之一。紧缩场中利用精密反射面产生的平面波
近年来以视频会议为主的视频通信发展较快,我们做了广泛的调研和需求分析,发现在军队、公安、银行、证券等一些国家关键领域对那种安全、高效的视频通信系统需求空间很大。
本文通过对荣华二采区10
期刊