基于众包标注的语文教材句子难易度评估研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:yuhy07
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文提出了一种基于成对比较的众包标注方法,该方法可以通过非专业人士的简单判断获取标准统一的句子难度标注结果。基于该方法,构建了基于语文教材的由18411个句子组成的汉语句子难度语料库。面向单句绝对难度评估和句对相对难度评估两项基本的句子难易度评估任务,使用机器学习方法训练汉语句子难度评估模型,并进一步探讨了不同层面语言特征对模型性能的影响。实验结果显示,基于机器学习的分类模型可以有效预测句子的绝对难度和相对难度,最高准确率分别为63.37%和67.95%。语言特征可以帮助提升模型的性能,相比于词汇和句法层
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
虚拟化技术正在成为一种主流的网络应用,Xen作为一种虚拟化产品,已经在开源社区中得到广泛推广,其安全风险也受到业界关注。文章系统分析了Xen的安全框架XSM的实现机制和关键技术,介绍了ACM和Flask两种不同的安全构架,深入剖析了其中安全模型的具体实现原理和方法,并结合实际应用中的场景进行了安全保护分析。
随着现代信息技术的快速发展,使诸多先进技术在社会行业领域中有广泛应用。建筑是满足人们生存和发展的保障,该行业的快速发展,对设计要求越来越高。BIM技术在建筑工程设计阶
近年来,随着钢材料研发及应用水平不断的提升,在工业厂房设计的建设过程中,其主要结构大多是采用钢结构材料。本文通过介绍钢结构工业厂房的优越性,结合钢结构工业厂房设计过
泵站是能提供有一定压力和流量的液压动力和气压动力的装置和工程,在供水、排水等方面都发挥着十分重要的作用。近些年来,我国大型泵站的数量呈现出不断增加的趋势,针对大型泵站
在高速发展的经济时代,国家商业经济的发展速度举世瞩目,尤其是中国城镇化发展带动了中国商业地产的快速发展,与此同时商业地产在快速发展的过程当中,也逐渐突显出了诸多问题
黏着语的自然语言处理中,词干提取作为一项基础的预处理任务,对其他任务的性能影响较大。现有的乌兹别克语词干提取任务仍依赖基于规则的方法,且实验效果不太理想。该文将乌
依据国家《物流业调整和振兴规划》《辽宁沿海经济带发展规划》,盘锦市制定《盘锦市物流业发展规划》(2009—2020年),物流业全面发展的大幕徐徐拉开。文章对盘锦市物流产业发
基于近几年市政道路情况,文章主要对市政道路改造工程中施工质量控制方面存在的难点问题进行研究,对其中的病害问题、排水设施设计的问题及工期紧张问题等进行简要分析,并提
近年来,在信息时代快速发展的背景之下,数据智能化与大数据时代的到来,使企业的财务管理工作面向很多新的领域,传统的记账方式也开始被淘汰,开始采用互联网+代理记账新模式,