论文部分内容阅读
英语自动英语作文评分研究是当前的一个热点。做好自动作文评分研究,一方面可以减轻广大英语教育工作者工作负担,使他们的工作更有效率;另一方面则使英语学习者能够更快速直接地了解自己的英语水平。基于以上原因,本文在大学生四六级自动英语作文评分算法方面做了深入的研究,探索分析了作文的特征选择、提取以及有关自动作文评分的算法。提出了一种基于SVM+LDA的四六级自动英语作文评分算法。本文的主要工作有以下几方面: 首先,针对现有方法未能充分利用标题与内容关联信息的问题,提出了一种基于余弦阈值统计的标题与内容关联特征的提取方法。该方法通过计算各个句子与标题的相似度(即词频向量间的余弦值),标记出大于某个特定阈值的句子,从而获得文章的中心句。本文所提出的基于余弦阈值统计的特征由中心句占总句子数的比例决定,其能较准确地表示标题与内容之间的关联信息。实验结果表明由此提取的特征与作文分数具有较好的相关性。 其次,在以“中国学习者英语语料”中标题为“Haste make waste”的六级作文为研究对象的实验中,针对样本数据的低样本数、高维数的特点,将支持向量机(SVM)分类器应用到英语自动作文评分中。考虑在模型训练中高斯核函数下的SVM比线性核函数下的SVM更容易出现过拟合现象,这里采用线性核函数下的SVM来构建英语自动作文评分算法,并寻找最优评分性能下的分类器参数。实验结果表明基于线性核函数下的SVM英语作文自动评分算法优于高斯核函数下的SVM英语作文自动评分算法,其能更好的避免过拟合问题。 最后,考虑现有算法中对作文主题信息提取不足,引入LDA(Latent DirichletAllocation)主题模型,提出一种基于SVM+LDA的英语六级作文高分与低分档分类算法。该方法通过LDA主题模型中的主题-词特征来表达作文中主题信息和其它语义信息,以替代作文中单词特征。在一个特定主题范围下,评分高的作文一定是围绕着几个关键主题来描述作文的内容,而评分低的则可能在写作文时内容较分散没有突出中心主题。同时相比作文单词特征,主题-词特征不仅包含了单词特征包含的主要语义信息,而且还包含了作文中的主题信息。在以“中国学习者英语语料”中标题为“Haste make waste”的六级作文为研究对象的实验中,评分算法用的特征包括常用文本特征、言语失误特征和主题-词特征;对比算法中的特征只是将主题-词特征换为作文单词特征。实验结果表明与其它算法相比该算法在准确率和F-测度值都有明显的提高,这也说明相比作文的单词特征,主题-词特征在表达作文的语义信息方面更有优势。