基于语法知识的英文文本分级和读物推荐系统

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:woyao515151
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年来教育体系的不断变革,英语考试对阅读材料时效性和内容多样性的要求逐步提高,如何科学指导学生对海量文本数据进行挑选,寻找到适合自己阅读能力的英文文本,提高英语阅读能力,具有很强的实际意义。然而,现有的英语分级系统或算法,分级特征很多都停留在浅层数据特征,对文本难度表征不够,导致文本分类分级精确度较差,同时还存在现有分级系统数据库静态,不能满足材料时效性的问题。因此,本文构建了基于语法知识的英文文本分级和读物推荐系统,一方面搭建语法分析引擎用于提取文本语法知识;另一方面基于该引擎输出的语法现象,在传统阅读难度评估参数的基础上加入语法特征,实现文本分级算法的改进。最后,基于文本的分级评估,结合协同过滤推荐算法搭建基于语法知识的英文文本分级推荐系统。首先,为了提取文本语法知识,本文开发了语法分析引擎,对英语文本进行语法知识的自动解析。根据专业英语教师总结的树状语法知识图谱,本文基于NLP(Natural Language Processing,自然语言处理)工具的词性标注、依存句法、命名实体识别等结果,实现知识图谱中语法知识点的按种类逐条覆盖,将输入文本自动解析为常见的语法知识点。经过实验测试,底层NLP工具选用spa Cy解析效果最好,对于小学范围内的英文文本进行语法分析,能够达到80%以上的正确率,且速度最快,等待时间在秒级范围内。其次,基于语法分析引擎,本文进行了现有文本分级算法的研究和改进。为了提高分级精确度和召回率,本文在现有的文本阅读难度评估特征基础上,将语法分析引擎的解析结果提取转化为若干语法知识相关的词法、句法参数特征,更好地表征文本阅读级数,并利用多分类器集成学习构建分级模型。在真实的数据集上,实验证明,基于语法知识的改进分级模型,文本分级效果优于基于传统特征构建模型的分级效果。最后,基于上述研究,本文设计了基于语法知识的文本分级和推荐系统。系统分为三个分区,文本阅读难度评估分区利用分级算法获取文本难度评估值,读者阅读能力评估分区基于读者检测题的测评情况生成用户阅读能力评估值,最后的个性化推荐分区根据读者阅读能力,实现为读者个性化推荐英文文本。本文设计的系统可以支持对任意文本的语法解析和阅读分级,满足了阅读材料时效性的要求,填补了国内分级系统的空白,改进了现有分级算法,为分级推荐模型研究奠定了基础。
其他文献
从大脑中提取出与生理信息或行为相关的脑电信号对于大脑信息的处理机制和脑-机接口(BCI)研究具有重要意义。为了得到更精确的脑电信号,获得有效的大脑信息,神经元细胞外微电极阵列记录的方式得到快速发展,由此记录到的动作电位(锋电位)能够提供更精确的信号,控制更精细的动作,在植入式BCI的研究中越来越引起研究者们的关注。在脑电信号的提取过程中,通常是通过神经元细胞外微电极阵列记录的方式产生的神经信号来获
本研究旨在探讨思维导图辅助课文背诵活动对初中生英语成绩的影响。本研究的理论基础是输入假设、输出假设和图式理论。本研究的意义是为英语学习者提供有效的背诵方法指导,以便掌握课文中的基本知识,并且对他们的英语学习产生积极的影响。本研究的具体研究问题如下:(1)思维导图辅助课文背诵活动对初中学生的英语成绩有何影响?(2)思维导图辅助课文背诵活动对高低水平学生的英语成绩有何影响?本研究的对象是江苏省新簧初中
在我国,票据的签发与转让属于银行的专营业务,法律将票据的融资功能限制在很小的范围内。同时,受商业银行“惜贷”行为的影响,部分企业为了实现融资目的“另辟蹊径”,市场上
选址问题一直是当前社会中常见的热点问题,比如:广告气球的投放,公共设施安置以及实体销售网点选择,这类问题时时刻刻出现在实际生活中。随着,GPS技术在移动设备上的广泛应用,可以获取到不同设备用户大量的位置信息。选址问题的初衷便是更好的服务大众或者吸引大众的注意力。在这些地理位置信息的基础上,再进行选址问题的分析,会使得到的结果更具有参考价值。在本文中,主要研究并提出一个基于移动轨迹的Top-k最大影
日益复杂的战场电磁环境和未知的目标特性给雷达信号处理带来了更多的挑战。传统的雷达信号处理是基于模型的,主要利用模型的先验信息及相关信号处理准则设计信号处理方法,它使用了高斯的、线性的和平稳的假设。深度学习方法是一种基于数据的方法,它可以直接获得输入与输出之间的关系,本文研究如何在雷达信号处理中使用该方法。本文主要研究内容有:高斯和非高斯噪声条件下的确定性信号的神经网络检测器,对于运动目标的神经网络
当今世界已进入知识经济时代,专利规模的不断扩张,专利等知识产权受到人们前所未有的重视。专利不仅是企业技术实力的重要展现,更是企业参与竞争的战略性资源,是企业高价值的资产。目前专利文献的标引工作主要是请专业标引人员进行标引,在标引的过程中存在天然的缺陷,费时费力且主观性强,且在专利标引的过程中,只能对每件专利文献中的信息进行标引,标引的内容极少,专利知识难以掌握并合理利用,并且标引的内容并不能直观、
伴随着我国国内经济的发展,人们对生活品质的提高给予了更多关注,我国各项社会服务和基础建设也在不断完善,但经济发展方式出现了一些弊端,在教育、医疗、就业等民生领域积累了许多问题。因此保障并改善我国民生状况显得尤为重要。目前,我国的经济发展从过去阶段的高速增长转变为现在阶段的高质量发展,“新常态”下经济增速逐渐变缓,过去注重民生财政支出的数量,现在应该注重民生财政支出的绩效并且持续不断的优化民生财政支
虚拟现实技术,英文缩写为VR,是20世纪开始发展起来的一项全新的实用技术。虽然VR技术有着广阔前景,但是作为一项高速发展的科学技术,其自身的问题也随之逐渐浮现了,例如显示画质差、运动响应延迟大、发热严重、耗电快、人机交互方式单一等用户体验问题,此外,高昂价位同样是制约其扩张的原因之一。因此,提高VR设备的用户体验和降低VR设备的制作成本,是迫切需要解决的问题。VR一体机是科技和市场发展的必然趋势,
目前,金融市场风起云涌。作为整个银行的利润中心,零售业务刺激银行业的增长作用也日益显著。基于新的信息技术环境下,商业银行零售业务无论是在利润空间,还是在资源利用率方面都发挥着十分重要的作用。因此,零售业务日益受到银行的重视。与此同时,面对金融机构的激励竞争,零售业务面临的机遇和挑战也在不断的升级。随着互联网金融的不断发展,为了能够保持自身强劲的竞争优势,国有银行需要重视零售业务并确立以零售业务为核
学位