论文部分内容阅读
随着信息可视化的发展,自然语言的可视化逐渐进入人们的视野。文景转换就是将自然语言描述的场景用图片或动画等形式进行展现的过程,其可能对文化交流、设计等多个领域的发展有着重要的影响。文景转换的可视化信息来源于文本,而名词是文本中实体、事件、动作等可视化信息的主要表达,但不是所有名词都适合可视化。因此,如何判别名词的可视性成为了文景转换中的关键性问题。由于名词可视性的研究是一个新的问题,当前缺乏统一的基础理论以及可视性判别的技术方法,针对这一现状,本文对名词可视性的定义、分类、影响因素以及判别方法几个方面进行了研究,主要工作包含以下几点:1.针对名词可视性缺乏理论基础的问题,本文在现有对名词研究的基础上,定性地对名词的可视性进行了基本分析,给出了名词可视性的释义、分类以及各类别的特征,分析了名词可视性的影响因素,为进一步研究奠定了基础。2.针对名词的可视性判别缺乏技术方法的问题,本文提出了基于约束规则的名词过滤方法和基于词典的名词可视性判别方法。首先对名词担当的句子成分进行分析,通过制定约束规则提取出句中需要进行可视化的名词。然后对这些名词进行可视性的判别,在缺乏数据基础的情况下,本文基于对名词类别以及可视性的分析建立构建词典的规则,进而构建名词可视性词典,实现名词可视性的基本判别。实验结果表明,基于约束规则的方法能够有效提取出需要可视化的名词,基于词典的方法能够判别部分名词的可视性,但存在不能识别新词的问题。3.针对词典不能识别新词的问题,在词典的基础上,采用了基于语义分类的方法。其中,由于词典数据的不平衡性导致分类对不可可视化名词识别率较低的问题,提出了一种对SMOTE算法进行改进的基于数据分布及密度的过采样方法(Oversampling based on Data Distribution and Density,ODD)。实验结果表明,基于语义分类的方法能够较为有效地识别新词的可视性,通过ODD方法对词典数据处理后,基于语义分类方法得到的分类模型更为稳定,准确率、召回率、F1值都有明显提高。4.最后,建立了实验原型系统。结合自然语言处理技术和本文提出的名词可视性标注体系以及判别方法,实现对普通文本进行处理,形成名词可视性判别和标注。同时,证明了本文提出的理论和方法的有效性和可行性。