基于概念图模型的词汇多源释义的融合研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:smaboat
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的普及以及互联网的迅猛发展,网络上的各种信息呈爆炸式的增长,传统的采用布尔检索模型的中文信息检索已经越来越不能满足人们的需要,以汉语内涵语义分析作为着眼点的概念信息检索成为目前中文信息检索的一个新的发展方向。基于概念图模型理论的概念信息检索包括用户需求的概念分析、概念图的标引以及概念图的匹配。其中概念图标引质量的好坏很大程度上影响着整个信息检索系统的性能。为了提高概念图标引的准确率和对已有的概念图标引结果提供校验,本文作者旨在构建一个知识完备、内容翔实、信息准确的相关领域概念知识库,以期为进一步构建实体概念内涵关系网络、改进和完善基于概念的信息检索提供了必要的基础资源。为了构建这样的一个领域知识库,本文工作选择了知识丰富权威、信息组织规范的机器可读词典作为知识库的源语料。然而以往的词典知识抽取大都针对一部词典,忽略了多部词典内涵信息之间的相容性和互补性。因此本文在已有工作的基础上尝试着提出一种机读词典内涵属性信息抽取的改进方法,目标是使知识来源多样化并能够在保证一定的知识覆盖面的同时达到可以接受的准确率,通过新的方法构建合适的机读词典领域知识库不但可以为概念图的标引提供准确的知识信息,也可以为用户的需求分析和需求与snippet的标引提供校验,具有很强的实际意义。本文的研究是以概念图模型理论为基础的。本文的工作内容及贡献主要如下:1.尝试了同时对《现代汉语词典》和《现代汉语规范词典》的内涵属性信息抽取和融合,得到的以实体-内涵属性值关系对形式表示的内涵属性信息尽量综合两部词典的知识,可以直接应用于概念图的标引和校验,避免再对词典释义进行概念分析,提高标引的效率和准确率。2.尝试了采用模式聚类方法对抽取模式进行分类。通过对抽取模式进行聚类并按内涵属性类型划分为不同的簇,再按照不同的簇从词典中抽取出不同内涵属性类型的内涵属性值。这样就极大的降低了识别抽取模式的内涵属性类型的人力消耗。3.尝试了将语义相似度计算引入到抽取模式的聚类中。通过计算抽取模式的上下文之间的语义相似度可以降低模式聚类的错分率,提高词典内涵属性值抽取的准确率。本文的研究对多部词典词汇释义的内涵属性信息的抽取和融合进行了探索,目标为概念图标引和概念信息检索提供一些基础资源和方法研究的思路。
其他文献
生物特征识别技术利用人体本身所拥有的生理特征或行为特征进行自动身份识别,具有很高的安全性。现在生物特征识别系统通常直接在模板数据库或Smartcard中保存原始生物特征,这
基于服务的软件系统(SBS)通过调用远程服务而完成特定功能,是由相互作用和相互依赖的若干原子服务组合而成的有机整体,通过对其进行抽象建模得到服务网络模型,目前关于服务网
现有的经典信息安全主要研究黑客、木马、病毒等外部攻击威胁,往往忽视了通过公司、单位内部员工发生的泄密事件,数据表明,绝大部分的泄密事件是由后者所引起的。近年来,随着内网
在现代信息社会中,数字签名技术已经被广泛的应用于各个领域以提供数据一致性校验和授权认证。在标准的数字签名中,任何人都能够验证签名的有效性,然而在很多应用中我们需要
随着数据采集和数据存储技术的飞跃发展,用于机器学习的数据集规模越来越大,利用单个学习器不一定能很好地解决某些学习问题。为了能够提高学习器的泛化能力,有学者提出用集
华源热力供暖公司实时数据采集传输管理系统以实际的业务需求为背景,解决了如何将电厂工业控制网中的实时数据引入到供暖公司内部管理网的问题,同时为供暖公司相关用户提供了
近些年来,通信事业发展迅速,各种新技术的出现,使人们对通信质量的要求越来越苛刻,以致频谱资源越来越紧张。在保证良好通信质量的情况下,如何提高频谱利用率,已经成为一个难
RFID技术被认为在二十一世纪最有发展潜力的技术之一,目前在很多领域得到了应用,作为RFID应用的中枢系统,RFID中间件的性能直接影响到整个RFID系统的实施。而中间件系统性能
在数字近景摄影测量中,借助于特制的人工靶标,可快速便捷地完成同名点匹配、三维立体重建和相机定姿定位等摄影测量任务。然而,随着复杂环境和缺乏纹理区域的工程应用增多,现有测
学位