中文句子语义相似判定问题的众包解决方案

被引量 : 1次 | 上传用户:liongliong491
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的普及以及互联网的迅速发展、海量信息以电子文档的形式出现在人们面前,如何快速准确地从大规模的文本信息中找到所需信息越来越困难。自然语言文本形式是最普遍的信息存储和信息交换形式,对中文句子语义相似判定研究是自然语言处理中的基本问题,是展开信息检索、信息抽取、数据挖掘、人工智能等任务的前提。中文是以长字符串形式的方式书写,其复杂的语义表达能力和词语的多歧义性使得计算机对中文进行语义分析难度很大。如何采用更加准确、高效的方法对语义相似度进行判定是亟待解决的问题。在中文句子语义相似度判定方面,人工的对句子进行标注是准确率很高的一种方法,但是这种方式不仅要花费大量的资金去雇佣人力,而且工作效率也很低,而传统的句子语义相似度计算方法依赖于词频统计、句法分析、句子结构分析等方法,由于中文语义的多义性、句式的多样性等方面的因素,现有的自然语义处理技术都存在不完善之处,因而导致句子语义相似度计算达不到很好的计算效果。“众包”是一种灵活有效并且成本较低的解决问题的方式,已逐渐得到越来越多人的关注,其采用“人计算”的思想,将一些计算和功能的实现外包给人特别是在线社区群体去完成,使得计算机与人进行协同工作,从而得到最佳的计算结果。中文句子语义相似判定问题中存在很多不可判定问题和NP问题,这些问题对于计算机来说是难以解决的,但是人本身具备更多的背景知识和良好的理解归纳能力,可以更好地解决这些问题。因此,这样的问题可以通过众包的方式去解决。在众包系统中,为了让众包工作者能够更好地完成任务,通常将复杂庞大的任务细分为一系列简单的任务,再将这些任务分发给一定数量的众包工作者,众包系统收集工作者提供的答案,并通过计算聚合,最终生成符合需求的结果。利用众包的方式解决此类问题不仅可以在短时间得内到大量的判定结果,同时也保证了结果的质量。本文分析了现有的中文句子语义分析技术以及现有的句子相似度计算存在的不足之处。设计了中文句子语义相似判定问题的众包解决方案,设计了相关句子扩展方法,将句子拓展成与其语义可能相似的句子集合;将相关句子集合中的句子两两组合,分配给众包工作者去完成;本文对众包模型中句子语义相似判定问题给出形式化定义,提出中文句子语义相似排序算法,并分析了其计算复杂度,证明众包排序算法是NP难问题,并给出了多项式时间可解决的启发式算法,从而得出句子语义相似度的排序序列;对于众包工作者,设计了评估众包工作者准确度的算法,保证了众包工作的质量;最后通过实验,验证了算法的正确性和可行性,同时分析了影响算法准确性和效率的因素。
其他文献
针对制造业目前的竞争环境,总结出制造业服务化转型过程中的特点;通过对传统价值链和制造业服务化价值链的比较,对前后价值链的变化进行了研究;最后从价值链纵向延伸、横向拓
赤坎的兴旺繁荣缘于近代华侨经济的崛起。时至今日,赤坎镇还完好地保存着由600多座融合中西建筑工艺的骑楼组成的街区,俨然是20世纪初期商贸发达的广州十三行的缩影。赤坎镇
随着大学英语教学的不断改革,跨文化交际能力的培养已成为当今外语教学中任重而道远的目标。在分析我国高校跨文化交际能力培养模式的基础上,高一虹提出了跨文化交际能力"超
社会保险基金先行支付制度是在2011年7月1日生效实施的《中华人民共和国社会保险法》(以下简称《社会保险法》)中得以确立的一项创新性制度,属于社会保险领域的一个重要突破,
运用文献资料法、访谈法、问卷调查法、数理统计法对高校大学生体育锻炼状况进行调查及分析,研究发现,多数大学生认识到健身的重要性,体育锻炼项目主要是篮球、足球、跑步等
职业教育是近年来教育学领域研究的热门课题之一。在回顾相关文献的基础上,介绍了世界上几个比较有代表性国家的职业教育模式及发展情况,分析比较了这些国家的职业教育在制度
在当前跨文化交际中,中英文的互译占据着举足轻重的地位。而姓名作为人类社会中特有的文化现象,对它的翻译能在翻译实践中加深对两种不同文化的认识和了解。但由于中英文环境
我国作为传统柑橘种植大国和柑橘文化发源地之一,在柑橘产业方面有着非常丰富的资源和得天独厚的优势。中国柑橘之父——章文才教授曾提出“在贫困山区搞柑橘能够解决脱贫问
<正>土墩墓是青铜时代江南地区特有的埋葬方式,主要分布在苏南、皖南、浙江一带,其中江苏以句容、金坛一带分布尤为密集。2005年4-9月南京博物院考古研究所主持对宁常、镇溧