基于SVM+LDA的英语四六级自动作文评分算法的研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:xzyn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
英语自动英语作文评分研究是当前的一个热点。做好自动作文评分研究,一方面可以减轻广大英语教育工作者工作负担,使他们的工作更有效率;另一方面则使英语学习者能够更快速直接地了解自己的英语水平。基于以上原因,本文在大学生四六级自动英语作文评分算法方面做了深入的研究,探索分析了作文的特征选择、提取以及有关自动作文评分的算法。提出了一种基于SVM+LDA的四六级自动英语作文评分算法。本文的主要工作有以下几方面:  首先,针对现有方法未能充分利用标题与内容关联信息的问题,提出了一种基于余弦阈值统计的标题与内容关联特征的提取方法。该方法通过计算各个句子与标题的相似度(即词频向量间的余弦值),标记出大于某个特定阈值的句子,从而获得文章的中心句。本文所提出的基于余弦阈值统计的特征由中心句占总句子数的比例决定,其能较准确地表示标题与内容之间的关联信息。实验结果表明由此提取的特征与作文分数具有较好的相关性。  其次,在以“中国学习者英语语料”中标题为“Haste make waste”的六级作文为研究对象的实验中,针对样本数据的低样本数、高维数的特点,将支持向量机(SVM)分类器应用到英语自动作文评分中。考虑在模型训练中高斯核函数下的SVM比线性核函数下的SVM更容易出现过拟合现象,这里采用线性核函数下的SVM来构建英语自动作文评分算法,并寻找最优评分性能下的分类器参数。实验结果表明基于线性核函数下的SVM英语作文自动评分算法优于高斯核函数下的SVM英语作文自动评分算法,其能更好的避免过拟合问题。  最后,考虑现有算法中对作文主题信息提取不足,引入LDA(Latent DirichletAllocation)主题模型,提出一种基于SVM+LDA的英语六级作文高分与低分档分类算法。该方法通过LDA主题模型中的主题-词特征来表达作文中主题信息和其它语义信息,以替代作文中单词特征。在一个特定主题范围下,评分高的作文一定是围绕着几个关键主题来描述作文的内容,而评分低的则可能在写作文时内容较分散没有突出中心主题。同时相比作文单词特征,主题-词特征不仅包含了单词特征包含的主要语义信息,而且还包含了作文中的主题信息。在以“中国学习者英语语料”中标题为“Haste make waste”的六级作文为研究对象的实验中,评分算法用的特征包括常用文本特征、言语失误特征和主题-词特征;对比算法中的特征只是将主题-词特征换为作文单词特征。实验结果表明与其它算法相比该算法在准确率和F-测度值都有明显的提高,这也说明相比作文的单词特征,主题-词特征在表达作文的语义信息方面更有优势。
其他文献
现代信息隐藏技术为解决信息安全领域中新的难题提供了有效的方法,成为该领域重要的研究课题。本文研究了信息隐藏中的重要分支之一——数字水印技术,针对当前水印研究所存在的
随着光通信传输速率的不断提升,信道密集度的增加以及掺铒光纤放大器等光放大器件的广泛应用,光纤非线性效应对光网络中信号传输质量造成了极其严重的影响,如频谱展宽、功率衰减
随着电磁场理论的发展和计算机性能的不断提高,计算电磁学在最近几年里得到了长足的发展。其中,瞬态电磁学在各种实际工程中得到了广泛应用。本文研究的是具有导电特性的大地,利用瞬态电磁场的似稳特性探测地下目标。模拟电磁场在地下介质中的传播规律是理解地下介质响应的重要手段,而直接应用有限差分法在时间域对二维时域似稳场进行数值分析是一种有效方法。本文直接从时间域出发,应用有限差分方法(FD)的DuFort-F
线性调频连续波雷达(LFMCW)雷达以其无距离盲区、低发射功率、结构简单等优点,在目标识别领域具有广阔的应用前景。本文研究的雷达目标识别器结合了毫米波(MMW)和LFMCW雷达的
Turbo码作为具有接近Shannon极限的纠错编码,由于其优异的性能引起国内外学者的广泛关注,它的出现被看作是信道编码理论发展史上一个里程碑。它使人们设计信道编码的方法从以单
大规模多输入多输出(Massive Multiple-Input Multiple-output, Massive MIMO)技术通过在宏小区基站安装大规模天线阵列而实现,并通常采用时分双工模式进行工作以利用信道互