基于沙普利值的中文文本识错研究

被引量 : 0次 | 上传用户:wwwwwwwwg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在计算机全面普及的今天,使用计算机进行中文信息处理已经成为当今人们工作、生活中必不可少的一部分。现代社会需要计算机具有准确的中文输入、中文显示、文本编辑和输出等文本处理等功能,同时,也需要计算机可以智能地进行文本识错。中文识错方法研究是中文信息处理领域是一个重要的研究方向,做好中文识错的处理首先要解决的基础难题是对文本进行准确的识别——这就需要对文本进行准确的分词,再对分词后的文本进行识错处理。本课题是在实验室已取得的基于特殊标志符的分词基础上进行中文识错方法研究,其主要研究内容是对待处理的文本进行分词,然后核查语句或句子是否正确,如果不正确,能将不正确的词语提取出来并提出修正建议。本文主要进行了以下三方面的工作:(1)对实验室已取得的研究成果——特殊标志符分词算法进行改进。即:在中文文本句子中,选择具有特殊意义和作用的字词或者是符号作为标志符,运用改进的特殊标志符算法对中文文本进行更加精准的分词。(2)引入N-gram模型对已分词的文本进行语段一级的识错。即:假设中文文本中的第N个词只与它前面出现的N-1个词相关,与文本中的其他词语都不相关,这样对于句子出现的概率而言,等于其每个词语出现的概率的乘积。运用N-gram模型可以进行语段识错。(3)运用博弈论中沙普利值的概念,对语段组建博弈模型,查找文本中词汇级错误。即:在数据库的支持下,运用到博弈论的沙普利值来得出随后的最大的可能性词语,这样可以提高遍历比较的准确度。中文的识错与修正是一个非常有意义的工作,虽然我们对基于沙普利值的中文文本识错策略进行了一些研究,但由于此领域涉及的知识领域广,实现起来复杂繁琐,需要用到的数据量大,而短短的研究生学习期间能够做的工作非常有限,所以还有很多不足的地方仍需进一步改进和完善。
其他文献
练习是使学生掌握知识,形成技能,发展智力的重要手段,校本练习是近年来教学与课改的热点课题之一,校本练习是根据课程标准和考纲、结合教学内容和学生实际,形成学校特色的练
高等职业教育在国家和社会的重视下,发展势头增长。但其社会地位仍然不高,得不到普通高中学生的认同,高等职业教育面临报到率低、生源质量差等问题。高等职业教育与普通高等教育
应用风险中性原理研究基于分数跳扩散过程的欧式双向期权定价,推导出标的资产价格服从分数跳扩散过程的欧式看涨期权、看跌期权及欧式双向期权的定价公式。
给出几种类型的双转子电机的结构和原理,分析了双转子电机与内燃机混合动力驱动系统的运行过程及其在风力发电系统中的应用,指出了应用中所存在的问题。
通过制度化管理、程序化运作以及多元化的信息管理能够有效提高企业的经济效益,减少资金占用,提高资金利用率,进而达到提高企业的竞争力的目的。
氢化吲哚型生物碱广泛存在于自然界中,由于其显著的生物活性和潜在的药用价值,一直以来吸引着合成化学家的兴趣。从化学合成的角度分析,此类生物碱分子骨架中的“手性全碳季
教育一直以来都关系到国家的兴衰与发展,而大力发展普通高中教育,对于培养学生的创新能力,全面提高人口素质,增强综合国力和国际竞争力,具有极其重要的意义。这其中我们更加
背景:近年来分子靶向药物(代表药物:吉非替尼)的问世为晚期非小细胞肺癌(NSCLC)患者提供了一条新的途径,无论是一线或二线治疗中,与标准化疗方案疗效相当,易使用、易耐受的优势
十八届四中全会全面推进依法治国,对党风廉政建设和反腐败工作具有重要的战略意义,标志着我国的法治反腐将进入一个新的历史时期。法治反腐是摒弃人治反腐流毒的有力保障,是
贫困问题是当今世界的一大难题,为国际社会和各国政府普遍关注。改革开放以来,我国的经济得到了快速的增长,农村贫困人口也在不断的减少,但是随着经济的不断增长,农村居民的收入分