基于线性回归的中文文本可读性预测方法研究

被引量 : 0次 | 上传用户:kang543
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的发展,网络上的信息越来越多,人们往往通过向搜索引擎提交查询,然后搜索引擎能够返回与用户的查询最相关的结果。然而人们的阅读水平与理解能力不尽相同,如何为用户找到适合其阅读的网页文本成为一个重要的课题,而文本的可读性预测在这一过程中扮演着重要的角色。因此,如何准确地预测文本的可读性具有十分重要的意义。文本的可读性预测指的是度量文本的阅读难度,这在多个领域中都有应用,如语言教育,信息检索和文本简化。迄今为止使用最多的方法是可读性公式,这些公式一般是基于一些简单的特征通过线性回归模型建立的。近期的研究使用了机器学习技术,并且受益于自然语言处理技术等其他领域的发展,一些新的复杂的特征得以被利用。这些新的可读性预测方法表现出对经典可读性公式的优越性。然而可读性公式的这种表现很有可能是由于使用的特征有限,并且它们是基于特定的训练语料库建立的。本文总结并分析了现有的可读性研究成果,提出了基于线性回归与特征选择的中文文本可读性预测方法,然后通过一系列的实证研究来评估该方法的有效性。现将本文的主要贡献概括如下:1.综述了文本可读性预测问题的研究进展。首先对文本可读性预测问题进行了介绍,包括文本可读性的基本概念,以及可读性预测的问题定义。然后总结了现有的文本可读性预测方法,并将其分为四类进行了介绍,包括基于传统的文本特征的可读性公式方法、基于认知理论的方法、基于单词统计的语言模型方法和基于复杂特征与机器学习的方法。2.提出了基于线性回归与特征选择的中文文本可读性预测方法。首先对本文提出的基于线性回归与特征选择的中文文本可读性预测方法的动机进行了介绍,接着阐述了该方法的框架,并从中文特征计算、特征选择和线性回归模型三个方面对该框架进行了介绍,最后介绍了该方法的设计与实现。3.展开了对基于线性回归与特征选择的中文文本可读性预测方法的实证研究。为了评估本文中提出的基于线性回归与特征选择的中文文本可读性预测方法的有效性,我们首先提出两个主要的研究问题。接着对实验用的数据集进行介绍。然后介绍实验设计部分,包括实验设置和所使用的性能评价指标。最后通过分析实验结果,验证本文提出方法的有效性。
其他文献
本文研究了供应商五种权力的使用对制造商两种关系承诺的影响,以及它们对供应商整合的作用.通过对我国617家制造商的问卷调查及分析,提出并验证了供应商管理的权力-关系承诺-
民营经济是国民经济的重要组成部分,在解决社会就业、保持社会稳定、促进经济发展、增加财政收入等方面都发挥着重要作用,但我国现行税收政策存在着设计不合理、税负不平等、
目的探讨帕金森病病人中外周血单个核细胞(PBMC)分泌IL-2的能力。方法采用酶联免疫吸附法(ELISA)分别检测体外培养的PBMC上清液、及PBMC接受刀豆蛋白(ConA)刺激后上清液中IL-
<正>K粉(street ketamine)是近年来新兴的毒品,由于制造工艺、方法的不同以及流通途径的原因,常见的K粉是一种复杂的混合物,其中主要成分是氯胺酮(ketamine)。临床上常用的氯
<正> 交易成本经济学(以下简称为 TCE)是一种采用契约的探究方法研究经济组织及其治理的新制度经济学。TCE 源于科斯1937年的经典文章《企业的性质》,后经威廉姆森、克莱因等
玻璃瓶作为酒饮料的主要包装容器,其产品(特别是瓶口)质量直接影响酒的品质与安全。根据透明玻璃瓶在线检测中缺陷信息弱、生产线抖动等特点,研究与开发了一种基于机器视觉的
目的:观察清热利胆解毒方对铜负荷大鼠学习记忆和海马区超微结构的影响。方法:100只雄性大鼠分为空白(NG)组、模型(MG)组、清热利胆解毒方(TCM)组、青霉胺(PCA)组和清热利胆
随着电子媒介的飞速发展,影像成为了当下最直接、最大众化的文化传播手段之一。影像服饰,是指根据人物角色的职业、年龄、个性、身份地位及宗教信仰所整体设计的服饰和相关配
分析了河北省珍稀濒危植物的现状和濒危原因,探讨了珍稀濒危植物的保护对策。
耶鲁素有国际交流的传统,进入21世纪,高等教育国际化作为一种重要的教育理念在耶鲁受到前所未有的重视,国家层面、耶鲁大学自身层面是耶鲁大学国际化办学理念的主要驱动力量