论文部分内容阅读
随着计算机的普及以及互联网的迅速发展、海量信息以电子文档的形式出现在人们面前,如何快速准确地从大规模的文本信息中找到所需信息越来越困难。自然语言文本形式是最普遍的信息存储和信息交换形式,对中文句子语义相似判定研究是自然语言处理中的基本问题,是展开信息检索、信息抽取、数据挖掘、人工智能等任务的前提。中文是以长字符串形式的方式书写,其复杂的语义表达能力和词语的多歧义性使得计算机对中文进行语义分析难度很大。如何采用更加准确、高效的方法对语义相似度进行判定是亟待解决的问题。在中文句子语义相似度判定方面,人工的对句子进行标注是准确率很高的一种方法,但是这种方式不仅要花费大量的资金去雇佣人力,而且工作效率也很低,而传统的句子语义相似度计算方法依赖于词频统计、句法分析、句子结构分析等方法,由于中文语义的多义性、句式的多样性等方面的因素,现有的自然语义处理技术都存在不完善之处,因而导致句子语义相似度计算达不到很好的计算效果。“众包”是一种灵活有效并且成本较低的解决问题的方式,已逐渐得到越来越多人的关注,其采用“人计算”的思想,将一些计算和功能的实现外包给人特别是在线社区群体去完成,使得计算机与人进行协同工作,从而得到最佳的计算结果。中文句子语义相似判定问题中存在很多不可判定问题和NP问题,这些问题对于计算机来说是难以解决的,但是人本身具备更多的背景知识和良好的理解归纳能力,可以更好地解决这些问题。因此,这样的问题可以通过众包的方式去解决。在众包系统中,为了让众包工作者能够更好地完成任务,通常将复杂庞大的任务细分为一系列简单的任务,再将这些任务分发给一定数量的众包工作者,众包系统收集工作者提供的答案,并通过计算聚合,最终生成符合需求的结果。利用众包的方式解决此类问题不仅可以在短时间得内到大量的判定结果,同时也保证了结果的质量。本文分析了现有的中文句子语义分析技术以及现有的句子相似度计算存在的不足之处。设计了中文句子语义相似判定问题的众包解决方案,设计了相关句子扩展方法,将句子拓展成与其语义可能相似的句子集合;将相关句子集合中的句子两两组合,分配给众包工作者去完成;本文对众包模型中句子语义相似判定问题给出形式化定义,提出中文句子语义相似排序算法,并分析了其计算复杂度,证明众包排序算法是NP难问题,并给出了多项式时间可解决的启发式算法,从而得出句子语义相似度的排序序列;对于众包工作者,设计了评估众包工作者准确度的算法,保证了众包工作的质量;最后通过实验,验证了算法的正确性和可行性,同时分析了影响算法准确性和效率的因素。