论文部分内容阅读
随着Internet的发展,网络上的信息越来越多,人们往往通过向搜索引擎提交查询,然后搜索引擎能够返回与用户的查询最相关的结果。然而人们的阅读水平与理解能力不尽相同,如何为用户找到适合其阅读的网页文本成为一个重要的课题,而文本的可读性预测在这一过程中扮演着重要的角色。因此,如何准确地预测文本的可读性具有十分重要的意义。文本的可读性预测指的是度量文本的阅读难度,这在多个领域中都有应用,如语言教育,信息检索和文本简化。迄今为止使用最多的方法是可读性公式,这些公式一般是基于一些简单的特征通过线性回归模型建立的。近期的研究使用了机器学习技术,并且受益于自然语言处理技术等其他领域的发展,一些新的复杂的特征得以被利用。这些新的可读性预测方法表现出对经典可读性公式的优越性。然而可读性公式的这种表现很有可能是由于使用的特征有限,并且它们是基于特定的训练语料库建立的。本文总结并分析了现有的可读性研究成果,提出了基于线性回归与特征选择的中文文本可读性预测方法,然后通过一系列的实证研究来评估该方法的有效性。现将本文的主要贡献概括如下:1.综述了文本可读性预测问题的研究进展。首先对文本可读性预测问题进行了介绍,包括文本可读性的基本概念,以及可读性预测的问题定义。然后总结了现有的文本可读性预测方法,并将其分为四类进行了介绍,包括基于传统的文本特征的可读性公式方法、基于认知理论的方法、基于单词统计的语言模型方法和基于复杂特征与机器学习的方法。2.提出了基于线性回归与特征选择的中文文本可读性预测方法。首先对本文提出的基于线性回归与特征选择的中文文本可读性预测方法的动机进行了介绍,接着阐述了该方法的框架,并从中文特征计算、特征选择和线性回归模型三个方面对该框架进行了介绍,最后介绍了该方法的设计与实现。3.展开了对基于线性回归与特征选择的中文文本可读性预测方法的实证研究。为了评估本文中提出的基于线性回归与特征选择的中文文本可读性预测方法的有效性,我们首先提出两个主要的研究问题。接着对实验用的数据集进行介绍。然后介绍实验设计部分,包括实验设置和所使用的性能评价指标。最后通过分析实验结果,验证本文提出方法的有效性。