论文部分内容阅读
在如今高度信息化的时代,在线学习社区对于人们学习和生活都发挥着非常重要的作用,例如知乎、CSDN论坛等,人们会将自己疑惑的问题发布出来,同时也会帮助解答一些自己了解的问题。随着越来越多的学习者开始使用在线学习社区来解决自己的学习问题时,存在一些错误的自然语言描述往往会对学习者本身的学习分析造成干扰。除此之外,随着对学习者的诊断、预测与推荐服务的工作(例如通过对问题与回答的分析表征学习者的行为、认知和情感或者把一些学习者可能会解决的问题推荐给他回答等)越来越多,自然语言描述的精确度也要求更高,因为这些工作都取决于所使用数据本身的质量,如果数据质量有问题,即便是使用精妙的分析方法所得出的结论均不值得信赖。最初对于存在错误的文本描述多采用人工的方式进行检测,但这样造成的成本巨大,耗费大量的时间精力;后来对文本错误数据的检测主要是基于词语匹配的方式,通过对比词库发现词语错误;接着近些年人们开始基于单一的规则或者统计的方式,还会融入机器学习或深度学习以提高算法的精确度和实验的准确率,但是总体来说这些方式比较单一,对于解决的错误文本类型也比较单一,而且没有实现一套诊断和修复错误文本数据的方法。本文为了提高短文本自动诊断与修复的效率和准确度,将一些单一的方法进行改进,主要工作如下:首先,对于在线学习社区的短文本可能存在的错误类型进行详细分类,并对每个错误类型给出合理的定义;其次,提出基于词性搭配的方法对文本语法结构类错误进行诊断,然后利用知识搭配库对语法错误进行了修复;利用n-gram概率统计模型、上下文语境和中文词性固定搭配方法自动诊断与修复音相似形相似的文本错误;最后,基于知乎爬取问题和回答作为数据集,进行如下实验工作,其一是针对文本语法结构类错误诊断与修复问题,首先采用基于词性搭配的方法进行错误诊断,然后对不确定错误的情况使用证据理论加以诊断,相关实验结果表明加入证据理论之后诊断的精确度有了明显的提升,最后采用知识搭配库的方法对错误进行修复,实验结果表明修复错误有一定效果;其二是将本文提出的音相似形相似错误诊断与修复的方法与采用单一方法进行比较,相关实验结果表明本文所提出方法的精确度以及召回率有了明显提升。