英语试题关键词抽取算法研究

被引量 : 4次 | 上传用户:chen2960798
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
教育信息化推动了虚拟学习平台的诞生,动态网页技术使得虚拟学习平台的动态交互和个性化成为可能。然而,海量的教育资源与人们有限的学习时间之间的矛盾日益加剧。文本挖掘是解决信息爆炸式增长与信息有效利用问题的重要技术。本文旨在以文本挖掘理论为指导,对教育资源类的短文本进行关键词抽取研究,从而梳理出潜在的模式。本文深入研究了文本挖掘中文本预处理和特征项选取的相关知识,重点分析了KEA、PAT TREE和GenEx三种关键词抽取算法,提出了基于自适应的关键词抽取算法。本文的主要内容及创新点如下:1、英语试题文本内容短小、结构灵活的特点使得传统关键词抽取算法难以选取完备有效的特征项。针对这个问题,本文从基于统计模型和语义的两个层面综合考虑英语试题文本的特征项选取方法,引入词频、位置、词长和词同现四个特征因子,从而保证特征项选取的完备性和有效性。2、为自适应类别多变的英语试题文本,引入特征项权重调节系数。调节系数用于调整四个特征因子对候选词权重的贡献,从而构建不同类别的文本的特征项权重评估模型,实现关键词提取算法自适应类别多变的试题文本。3、采用遗传算法训练特征项权重调节系数,获取适用于不同类别的英语试题文本的权重评估模型。采用多线程并发执行方式计算四个特征因子的权值,提高算法效率。并通过实验比对本文提出的算法与TF-IDF算法、KEA算法在试题文本中关键词提取效果,验证基于自适应的关键词抽取算法的正确性和有效性。4、在基于自适应的关键词抽取算法的基础上,设计并实现关键词自动抽取组件,用于提取英语四级试题的核心词汇。最后,以组件为中心开发了大学英语四级学习平台。
其他文献
本研究从环境分离到一株碱性蛋白酶产生菌,通过形态特征、生理生化和16SrRNA基因序列分析确定菌株的分类地位,并采用正交试验设计探讨其发酵改良血粉和豆粕饲用品质的效果,同
研究背景:迁延性慢性腹泻是-组多病因、多因素共同作用所致的肠道疾病综合症,其病因复杂,多为急性腹泻未治愈、营养不良、过敏、乳糖不耐受、免疫功能低下及反复感染等引起。
该论文采用文献资料法、访谈法、实地调查法等研究方法,主要以黄平县谷陇9.27芦笙节的传统体育活动为调查对象,分别从芦笙参赛队、板凳舞队、斗牛、赛马、对唱山歌、斗画眉等
强冲积河流过程泥沙运动非常活跃、河床变形快,与水流之间存在强烈的相互作用.传统的基于简化控制方程的非耦合数学模型违背了基本守恒律,只能近似地适用于弱冲积河流过程.建
我国水资源供需矛盾不断加剧,水的问题已成为维系经济社会可持续发展的战略问题。当今,我国纺织印染行业进一步发展,其用水的需求量不断增大,而供给量却相对减少。排放标准的
<正>近年来,受世界旅游热潮的影响以及我国经济的迅猛发展,旅游业在我国迅速蓬勃兴起。东西绵延一千二百公里的祁连山不仅以迷人的自然景色令人心驰神往,更以光彩夺目的人文
本论文于2009年至2011年期间进行,针对全国多处柑橘产区的专家和农户反映的柑橘生长期病害展开研究。这些病因不明确的病害,正严重威胁着我国的柑橘产业。本研究在田间调查和
汉代雕塑是我国古代雕塑艺术的典范,汉代雕塑中具有的写意性比较独特,不同于其他类型的雕塑。并且在传达思想以及创作手法上都不同于传统雕塑,因此对于这种雕塑的研究有着非
目的:研究大脑中动脉中央支的起始的走形,分段以及其外径;统计测量研究其发出穿通支的特点及相关解剖学数据。目的是更好的理解大脑中动脉中央支的解剖学结构,为临床上大脑中动脉
翻开人类文学的历史,我们从历史起源、哲学基础、心理功能3个方面可以窥见"体育"与"文学"的不解之缘。体育文学以语言和它的书面符号——文字为物质手段构成体育形象,表达对