论文部分内容阅读
语义相似度是中文信息处理的关键技术,在自动分类、自动聚类、机器翻译、信息检索、信息过滤等领域有着广泛的应用。传统的语义相似度算法难以表达丰富的语义信息,计算结果与人的主观认识有一定的差距。区间直觉模糊集具有强大描述模糊信息的能力,它采用区间直觉模糊数揭示语义模糊信息。因此,基于区间直觉模糊集的语义相似度研究能够更好的表征语义,挖掘语义信息,提高语义相似度计算的准确性,突破传统语义相似度在语义表达上的瓶颈。本文首先介绍了语义相似度研究的国内外现状,提出了目前语义相似度的主要缺点是没有充分体现语义信息。文章引入了区间直觉模糊集表示语义信息,并详细阐述了如何使用区间直觉模糊集表示层次信息、深度、密度、语义传递信息等。在此基础上,本文构建了模糊矩阵,把语义相似度的问题转化为模糊矩阵的问题。结合《知网》中的“词语由义原整合”的思想,实现了基于区间直觉模糊的词语相似度计算。最后,采用30对词语对算法进行了测试,证明了算法的有效性。本文的主要研究内容为:(1)分析了语义相似度研究的必要性,并对国外研究现状进行了文献调研和分析。(2)分析并归类了目前的主要的语义相似度算法,并提出了目前语义相似度算法的不足之处。(3)介绍了区间直觉模糊集与区间直觉模糊数、区间直觉模糊关系、语义传递包的计算以及《知网》等基础知识,为基于区间直觉模糊集的语义相似度计算奠定了基础。(4)提出了基于区间直觉模糊集的语义相似度算法思想。综合考虑了层次结构、深度、密度对语义关系权值的影响,建立模糊矩阵,表征层次结构中的语义关系。结合《知网》中的单位——义原,把词语表示为义原,计算并整合词语表示式中所有的义原相似度得到词语的整体相似度。(5)对算法进行验证和分析。与刘群的测试数据和主观经验对比,以此验证本文中提出算法的合理性和有效性。本文对基于区间直觉模糊集的语义相似度研究展开了研究和讨论,提出了语义相似度算法并进行了有效性验证。继续完善语义相似度的各环节,并把本算法推广应用到句子相似度、文档相似度中去,是我们今后工作的目标。