论文部分内容阅读
在“文景转换”系统中,要针对输入文本生成相应的三维动画,就必须首先运用自然语言处理技术,全面地理解文章中的场景信息。为此,我们提出了面向“文景转换”系统的场景识别的研究。本文的主要工作如下:(1)术语定义与类别体系构建。本文根据研究需要,对场景识别的相关术语进行了定义;结合儿童故事,提出了基于Hownet上下位关系及概念相似度的场景类别信息词聚类算法,配合手工调整得到了48类场景类别体系结构,作为场景识别的类别标准。(2)知识库的建立。本文给出场景识别语料的加工方法、相关度公式及场景信息形式化定义;提出了一种基于相关度计算的文本中场景识别的方法,根据中文语料库中的动作信息与场景类别,分别通过使用MI、Cosine系数、χ2测试、Dunning似然比测试四种相关性度量公式计算,生成记录为(动作,地点场景类别,相关度值)的集合,再通过相关度的排序生成地点场景识别知识库;最后给出时间与季节的场景类别,建立时间与季节的场景识别知识库。知识库是场景识别的依据。(3)场景识别。本文对知识库记录采用1-best方法进行场景识别,1-best方法强调了单一知识记录对知识库的影响作用,扩大了噪声对识别结果的干扰。对此,我们提出了vote方法解决该问题。本文对实验结果进行了t-test,证明通过相关度进行场景识别的结果具有统计学的意义。本文首次提出使用准确率、召回率、F值的评价方法对场景识别结果进行评价,评价结果证明基于“常识”的语料库扩展是可行的,通过对多种上下文、多个知识库以及多种识别方式进行分析,我们还证明了在开放测试中,相邻的句子对同一场景的描述存在相关性,且Dunning似然比的方法在场景识别中优于其它方法。(4)系统设计与实现。本文实现了一个场景识别系统,对中文文本的地点、时间和季节三种场景类别进行推测,用户可参与交互,以便完善推测结果。该系统取得了一定的效果。