基于Web短文本错误的诊断与修复研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:yun0558
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在如今高度信息化的时代,在线学习社区对于人们学习和生活都发挥着非常重要的作用,例如知乎、CSDN论坛等,人们会将自己疑惑的问题发布出来,同时也会帮助解答一些自己了解的问题。随着越来越多的学习者开始使用在线学习社区来解决自己的学习问题时,存在一些错误的自然语言描述往往会对学习者本身的学习分析造成干扰。除此之外,随着对学习者的诊断、预测与推荐服务的工作(例如通过对问题与回答的分析表征学习者的行为、认知和情感或者把一些学习者可能会解决的问题推荐给他回答等)越来越多,自然语言描述的精确度也要求更高,因为这些工作都取决于所使用数据本身的质量,如果数据质量有问题,即便是使用精妙的分析方法所得出的结论均不值得信赖。最初对于存在错误的文本描述多采用人工的方式进行检测,但这样造成的成本巨大,耗费大量的时间精力;后来对文本错误数据的检测主要是基于词语匹配的方式,通过对比词库发现词语错误;接着近些年人们开始基于单一的规则或者统计的方式,还会融入机器学习或深度学习以提高算法的精确度和实验的准确率,但是总体来说这些方式比较单一,对于解决的错误文本类型也比较单一,而且没有实现一套诊断和修复错误文本数据的方法。本文为了提高短文本自动诊断与修复的效率和准确度,将一些单一的方法进行改进,主要工作如下:首先,对于在线学习社区的短文本可能存在的错误类型进行详细分类,并对每个错误类型给出合理的定义;其次,提出基于词性搭配的方法对文本语法结构类错误进行诊断,然后利用知识搭配库对语法错误进行了修复;利用n-gram概率统计模型、上下文语境和中文词性固定搭配方法自动诊断与修复音相似形相似的文本错误;最后,基于知乎爬取问题和回答作为数据集,进行如下实验工作,其一是针对文本语法结构类错误诊断与修复问题,首先采用基于词性搭配的方法进行错误诊断,然后对不确定错误的情况使用证据理论加以诊断,相关实验结果表明加入证据理论之后诊断的精确度有了明显的提升,最后采用知识搭配库的方法对错误进行修复,实验结果表明修复错误有一定效果;其二是将本文提出的音相似形相似错误诊断与修复的方法与采用单一方法进行比较,相关实验结果表明本文所提出方法的精确度以及召回率有了明显提升。
其他文献
液压马达输出功率密度大, 控制性能好, 广泛应用于盾构机驱动刀盘工作.该文提出了基于信息融合的多尺度状态监测方法对盾构机刀盘驱动液压马达的工作过程进行了状态监测, 对
随着中国国际地位的日益提高,汉语学习对于国际学习者的发展变得越来越重要。本文探讨的中文语法错误诊断(CGED)任务的目标是开发一款计算机自动辅助工具并通过该工具协助第
从植物防御、昆虫反防御以及环境条件对植物与昆虫之间关系的影响三个方面综述了昆虫与植物协同进化的表现和作用机制,并对该领域的未来发展进行了展望。
<正>新千年伊始,2000年全国高考作文试题是"请以‘答案是丰富多彩的’为话题写一篇文章"。"答案是丰富多彩的",道出了生活的哲理,也揭示了作文的真谛。12年来,"答案是丰富多
中心气道指肺段以上支气管、气管。中心气道狭窄严重影响患者通气,临床表现为咳嗽、呼吸困难,以肺癌最为常见,约占56.5%,常侵犯气管,隆突,主支气管,严重者出现呼吸衰竭,如抢救不及时,将
研究了以BTCA为交联剂的纯棉针织物的免烫整理工艺,制定了较为合理的免烫整理工艺流程,通过正交试验设计,分别对交联剂、催化剂、柔软剂等三项因素进行了三因子、三水平试验,
青少年肌阵挛癫痫是一种特发性全面性癫痫综合征,对其诊断主要依靠病史、临床症状和脑电图,常规影像学检查未见脑内器质性病变。MRS可无创地定量测定脑内神经代谢物浓度,评估
介绍了样品前处理在整个化学分析中的重要性,特别是在食品中铅含量的测定中,甚为重要。文章着重从试样的贮存、粉碎与匀质以及试样消化方法及试剂的选择等方面,介绍了样品前
中国现代通俗小说是对中国古代白话小说的继承和发展。中国古代白话小说直接滥觞于唐五代的俗讲,产生于宋代市井间的平话,经宋元明三代之流变,遂于明末因一次"误会"始得"通俗
如何架构基本医疗卫生的筹资机制,实现公平、有效、稳定、可持续的医疗卫生改革目标,是当前理论和实践界的重要课题。本文从基本医疗卫生服务筹资机制的政策目标出发,从转变政府