论文部分内容阅读
随着互联网技术的飞速发展,互联网用户的人数规模和年龄范围都在持续扩大,在网络中发布、传播和获取信息的频率也在不断提高。文本作为互联网信息的主要载体之一,不仅规模增长越来越快,其来源和表达也越来越多元化和多样化,用户想找到满足特定需求的文本变得越来越难,这些都使得利用计算机技术等自动化手段来分析和处理文本变得愈发重要。如何高效地管理、分析和理解海量的自然语言文本一直是众多计算机科学家和语言学家关注的重要领域,而文本可读性评估则是自然语言处理领域的重要分支。文本的可读性通常指的是文本被理解的难易程度。对于文本可读性评估而言,核心问题就是建立文本特征与可读性(一般量化成可读性级别或者分数)之间的关系,这其中包括两个重要的步骤:文本表示、模型学习。文本表示指的是将文本转换成另一种数据形式,使得模型更容易处理以及从中学习规则,这种表示也被称为特征。模型学习指的是基于已知可读性类别的文本,建立模型来分析文本特征和类别之间的关系,并能够对未知文本进行可读性预测。由于模型各有偏好,文本类型各有特点,作为中间转换的文本表示的重要性和灵活性就尤为凸显。近十几年来,对文本表示的研究构成了可读性评估工作中的重要组成部分。在这些工作中,研究者们主要关注于特征集合的扩增和目标语言的迁移。在特征集合扩增方面,越来越多基于新兴技术和理论的特征被设计出来,为学习模型提供更丰富的信息,以得到更准确的评估效果;在目标语言迁移方面,研究者们逐渐开始针对英语以外的其他语言进行探索,比如德语、法语等,有效地扩展了可读性评估的应用范围。这些研究都非常有价值,但它们大部分都局限在传统的归纳学习设置下以及少数的几种语言中。为了获得更广泛的应用或者更准确、更高效的评估效果,这些限制可能需要进一步放宽,比如考虑其他目标语言和其他学习设置等,而这也将对文本表示技术的研究提出更多的挑战。本文从以下三个方面对可读性评估任务中的文本表示技术开展更深入的研究。(1)针对中文文档可读性评估,提出一种基于语言特点的人工特征抽取方法。现有的可读性评估方法大部分适应于英语,也有研究者开始进行德语和法语上的可读性评估研究,但是针对中文的可读性评估工作一直很少。鉴于此,本文提出了一种基于人工特征的中文文档可读性评估方法。对于中文文档的可读性特征设计,该方法一方面借鉴其他语言的一些设计经验,将语言无关的特征进行迁移;另一方面,对于语言相关的特征,该方法还针对中文的特点进行重新设计,比如中文中的分词、字、笔画等特点。本文一共设计了五组特征,分别从词汇、词性、语法、信息量等方面对文本的可读性进行了度量。基于这些特征,本文使用了一种有序多分类框架对文本进行可读性分类。实验结果证明本文设计的特征能有效被用于可读性评估,有序多分类框架能很好的利用这些特征。(2)针对直推学习设置下的可读性评估,提出一种基于单词耦合的传统特征改造方法。现有的可读性评估方法经常基于人工特征来构建归纳式分类模型,用以对文档的可读性进行评价,这种方式被证明效果很好。但是,这种归纳式方法没有对文档之间在可读性上的关系进行利用,而这种关系对于准确的评估也是有帮助的。为了利用这种关系,直推式分类模型需要被采用,并对文档间的可读性关系进行建模。不同于归纳式模型,直推式模型能够直接通过实例之间的关系来推理实例所属的类别。但在实验中会发现,简单的使用传统特征无法有效地度量文档在可读性上的关系,这使得传统特征需要作进一步的处理。因此,本文提出了一种基于传统特征改造的可读性评估方法。该方法通过单词耦合的方式对传统词袋模型进行改造,使之能够适应可读性评估的场景。基于改造后的词袋模型以及现有的人工特征,本文提出了两视图的图传播算法,该算法可以同时利用这两类特征来进行可读性评估。通过在中文和英语两个数据集上进行了实验,改造词袋模型和两视图标签传播算法的有效性得到了验证。(3)针对表示学习框架下的可读性评估,提出一种基于领域知识的自动特征学习的方法。现有的可读性评估方法大部分都依赖于特征工程,文本的表示非常耗时耗力。一种比较好的方式是从数据中自动学习文本表示,也叫自动特征学习。因此,本文提出了基于自动特征学习的可读性评估方法,该方法能直接从原始文本输入得到可读性输出,可以有效地减少人工参与。通过结合文本信息和领域知识对现有的词嵌入模型进行改造,本文设计了一种针对可读性的改进词嵌入学习模型。基于改进词嵌入,本文进一步提出了基于词嵌入的可读性评估方法,该方法通过基于单词级别的表示对文档进行表示,进而基于文档表示进行文档可读性分类。通过在两种语言的四个数据集上进行实验,实验结果验证了改进词嵌入模型以及基于词嵌入的可读性评估方法的有效性。