基于组合策略的中文词语相似度计算研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:alexzc1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对当前词语相似度计算方法存在的局限性:基于语义词典的词语相似度计算方法依赖字典进行相似度计算,因此无法对字典未登录词语进行计算;基于语料库的词语相似度计算方法在计算低频词语的相似度时,由于低频词语上下文信息量太少,使得词向量不能较好地表示词语语义,导致其相似度计算无效。本文进行了如下的研究:   首先,本文利用大规模的真实语料对中文词语的分布规律进行了研究,掌握了中文词语的分布规律,并且建立了一个基于真实语料的实验数据集。该部分工作为后文有针对性地设计相似度算法和客观地评估相似度计算性能做好了充分而必要的准备。   其次,本文提出一种利用背景语料和词典的未登录词语相似度计算方法,该方法利用未登录词语的背景语料确定未登录词语在语料库中的最佳概念表达,然后为其最佳概念表达构造语境,通过比较未登录词语的最佳概念表达的语境和其本身的语境之间的差异来判断该最佳概念表达能否表达未登录词语的涵义,最后利用字典进行相似度计算。该方法有效地解决了传统的采用切分方法的未登录词语相似度计算方法中存在的错误切分和滥切分的问题。实验证明该方法是有效的。   最后,在上文研究的基础上,本文提出了一种中文词语的相似度计算的框架。该框架采用组合策略,利用背景语料、语义词典和基于Internet的构造语料进行词语相似度计算,它包括四个步骤:(1)若待处理词语a、b均为语义字典的登录词语,则直接利用语义字典进行相似度计算;(2)若a、b中存在为语义字典的未登录词语,但未登录词语均可切分为语义字典的登录词语的组合,且其概念可由其登录词语的概念组合来表示,则将词语a、b的相似度转化为其概念组合的相似度来进行计算;(3)否则,分别以词语a,词语b,词语a和b作为查询,利用它们在Internet中的搜索结果为词语a和b构造一个上下文语料,然后采用基于词语上下文的方法进行相似度计算。为保证三种异源相似度计算结果具有可比性,文中提出了一种利用同义词阈值对异源相似度计算结果进行整合的方法。实验结果表明该方法能较好的解决中文词语的相似度计算问题。
其他文献
TTCN-3由欧洲电信标准协会(ETSI)发布,是一种功能强大测试描述语言,起主要应用于网络协议及系统的一致性测试,随着计算机技术的迅速发展,TTCN-3语言的使用范围也逐步扩展到服
随着中国经济的快速发展和人民生活水平的提高,国内外的一些恐怖事件和工厂矿井等突发事件促使了人民的安防和自我保护意识的提高。同时,近几年来计算机硬件和软件技术遵循着
云计算是在分布式计算、并行计算、网格计算基础上发展起来的新兴商业计算技术。它一经提出便受到了IT技术各个行业的追捧,随后被Microsoft、IBM、Amazon和Google等大公司相
无线传感器网络(Wireless Sensor Networks, WSNs)的出现引起了世界范围内的广泛关注,其应用已经由最初的军事国防领域迅速扩展到卫生医疗、环境科学以及我们的日常生活中。
改革开放以来,我国涂料工业发展呈日新月异的态势,其中中小型涂料企业占据了绝大部分。中小型涂料生产企业普遍存在面向订单生产的特点和综合成本较高、生产调度基本依靠人工
空对地视频交通监控以其直观、方便和价格低廉等特点,日益受到智能交通领域研究者的高度重视。其核心在于使用安装在无人机等浮空平台上的摄像机感知交通场景,通过关键技术的
随着经济的发展,顾客需求的多样化和个性化增加了企业在实际生产中的不确定性和动态性因素。为了满足顾客的需求,企业开始注重资源的合理配置。因此,研究多目标车间调度问题
无线传感器网络是21世纪备受关注的研究热点之一,已广泛应用于军事国防、医疗护理、城市管理、地震监测、设备监测、建筑物结构监测等明显带有实时性需求的领域。本课题来源
随着我国经济、工业的不断发展,资源的利用也在逐步增加,随之而来的就是资源污染、短缺的问题,其中最为显著的就是水资源。我国人口众多,在水资源占有方面远低于其他国家,人
随着计算机信息处理技术和通信技术的快速发展,每天都会产生大量的数据,对于一些资源有限的设备,如何在处理这些大量信息的同时保障其安全性是一个至关重要的问题。一种可行