【摘 要】
:
本课题来源于国家863计划项目——语言类问题求解和答案生成关键技术及系统。该项目具体目标是解决语言类问题,即高考语文题。其中,基础语言类问题主要分为三种:字级别,词级
论文部分内容阅读
本课题来源于国家863计划项目——语言类问题求解和答案生成关键技术及系统。该项目具体目标是解决语言类问题,即高考语文题。其中,基础语言类问题主要分为三种:字级别,词级别以及句子级问题,字级别问题主要是判断字音字形正误问题,词级别主要是字形字义相近的词语之间的甄别,句子级主要是处理多种病句问题。判断字音字形正误与高考语文选择题目中的“正确字音字形判断题”对应。本课题将判断字音字形正误建模为字音字形检索问题,设计并实现了一种多资源融合的策略。对于字音问题,本课题使用的资源包括:1)字音词典;2)大规模文本。对于字形问题,本课题使用的资源包括:1)字形词典;2)分词模型。实验结果表明,多资源融合的方法取得了75.4%的判断正误准确率。相对仅使用词典的基线模型,这一方法获得了5.2%的准确率提升。形近词、近义词词语甄别问题与高考语文选择题目中的“正确词语选择题”对应。本课题将形近词、近义词词语选择问题建模为判断句子不同流畅度问题。本课题使用语言模型建模句子的流畅程度,分别尝试使用循环神经网络语言模型(RNNLM)以及N-元语言模型(N-gram)对句子流畅度进行建模。本课题的实验评价方法是计算选择正确词语的准确率,实验结果表明两种语言模型性能接近。RNNLM取得到了63.4%的准确率,N-gram取得了65.2%的准确率。病句识别与高考语文题中“病句选择的问题”对应。本课题根据病句的语法特征将其分为十种类型,其中最常见的是搭配不当以及语序不当类型病句。本课题将搭配不当建模为是否有语病的分类问题。针对搭配不当病句的识别问题,本课题提出了一种基于依存句法分析的搭配不当病句识别方法。实验结果表明依存信息的特征显著提升了病句识别的准确率并达到55.5%的准确率。针对语序不当的识别问题,本课题提出了基于编码器-解码器(encoder-decoder)的识别方法,模型输入含语序不当错误的句子,输出为语序正确的句子。本课题选用的评测方法是计算生成句子的BLEU值,最后达到了12.76。
其他文献
XML文档的应用日益广泛,而其中的XML解析技术是XML应用的关键。如何正确、高效地解析XML数据非常重要,尤其是对于要处理大量数据的应用程序。不合适的解析会导致过度的内存消
近年来,由于硬件技术的发展,硬件成本逐渐降低,具有低功耗、自组织、可靠性、分布式的无线传感器网络WSN(Wireless Sensor Network)获得了人们的广泛关注。在无线传感器网络
随着图像传感器技术的发展,图像处理技术的应用也越来越广泛。同一光学传感器在对同一场景成像时,要使场景中所有目标都聚焦清晰是很困难的。这一问题可以通过图像融合技术来
从当前大量发表的论文来看,国内外现有的文本信息隐藏技术在水印容量、隐蔽性、鲁棒性、安全性之间普遍存在着不可平衡的矛盾且国内外的研究主要是基于英文文本格式的信息隐
众所周知,在人们的日常工作以及娱乐生活,信息传递等方面,视频发挥着举足轻重的作用。视频是由多帧图像组合而成,如果在视频传输的过程中直接对视频图像进行编码传输,这样极
当今社会是网络信息时代,越来越多的社会网络关系数据被收集,从这些关系数据中发现有用的知识变的越来越重要。Markov逻辑网就是一种能有效处理关系型数据的模型。Markov逻辑
南美白对虾是我国重要的经济类养殖虾种,但由于大多数养殖户没有进行过专业的养殖知识学习,并且缺乏专业的培训与指导,造成他们对疾病的发生规律认识不够深刻。加上养殖户大都比
随着人们生活水平的提高,饮食健康成为大众关心的焦点。科学合理的饮食有利于身体健康,同时对疾病的治疗有着非常重要的作用。由于国内营养师匮乏,人们需要采取一种有效方式
现在信息技术(IT)在推动企业成功方面比以往任何时候都发挥着更大的作用。由于业务需求的变化,标准的流程跨企业边界并且变得更加复杂。IT部门必须找到一个符合成本效益的方式利用和扩展现有的系统,以支持新的业务需求。组织机构应允许商业实体之间进行灵活而松耦合的集成与通信。紧耦合的应用应转变为灵活的、可重复使用的未来系统的构建模块。业务上的变化要求组织机构根据必要的新解决方案来重新架构它们的IT基础设施。
心跳机制是高可用集群的基础技术。人们提出了很多的模型和算法,并且得到了广泛的应用,如心跳环机制,加速心跳协议,基于概率统计模型等,但这些模型都各有自己的优缺点。目前