文本中场景识别的研究与分析

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wang8327501
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在“文景转换”系统中,要针对输入文本生成相应的三维动画,就必须首先运用自然语言处理技术,全面地理解文章中的场景信息。为此,我们提出了面向“文景转换”系统的场景识别的研究。本文的主要工作如下:(1)术语定义与类别体系构建。本文根据研究需要,对场景识别的相关术语进行了定义;结合儿童故事,提出了基于Hownet上下位关系及概念相似度的场景类别信息词聚类算法,配合手工调整得到了48类场景类别体系结构,作为场景识别的类别标准。(2)知识库的建立。本文给出场景识别语料的加工方法、相关度公式及场景信息形式化定义;提出了一种基于相关度计算的文本中场景识别的方法,根据中文语料库中的动作信息与场景类别,分别通过使用MI、Cosine系数、χ2测试、Dunning似然比测试四种相关性度量公式计算,生成记录为(动作,地点场景类别,相关度值)的集合,再通过相关度的排序生成地点场景识别知识库;最后给出时间与季节的场景类别,建立时间与季节的场景识别知识库。知识库是场景识别的依据。(3)场景识别。本文对知识库记录采用1-best方法进行场景识别,1-best方法强调了单一知识记录对知识库的影响作用,扩大了噪声对识别结果的干扰。对此,我们提出了vote方法解决该问题。本文对实验结果进行了t-test,证明通过相关度进行场景识别的结果具有统计学的意义。本文首次提出使用准确率、召回率、F值的评价方法对场景识别结果进行评价,评价结果证明基于“常识”的语料库扩展是可行的,通过对多种上下文、多个知识库以及多种识别方式进行分析,我们还证明了在开放测试中,相邻的句子对同一场景的描述存在相关性,且Dunning似然比的方法在场景识别中优于其它方法。(4)系统设计与实现。本文实现了一个场景识别系统,对中文文本的地点、时间和季节三种场景类别进行推测,用户可参与交互,以便完善推测结果。该系统取得了一定的效果。
其他文献
随着医学影像技术的迅速发展,CT、核磁共振和超声等成像方式在计算机辅助诊断,手术规划与仿真和放射治疗规划等方面已经得到了广泛地应用。通过对医学图像序列中的器官进行三
本文针对原有电厂现场采集控制系统传输速率低,双机切换耗时、任务接替丢失数据,实时性差等缺点,设计了基于PROFIBUS现场总线的双模热备份容错系统。本文在电厂采集控制系统中,创
目前,国内仪表校准和检定工作主要还是由人工完成的,这种人工读取数据的方式,存在着工作效率低,检测精度难以保证等缺陷。如何解决这些问题已越来越引起仪表生产厂商和计量检测部
软件测试是软件开发过程中控制软件质量必不可少的一种手段,随着新的开发语言和应用平台的不断出现,软件质量和可靠性保证面临着新的挑战。目前,针对面向对象软件的各种测试
早在公元前,利用脉象诊断人体疾病的脉诊就已经在许多传统医学中得到了详细的描述和记载,如中国医学(2500BC)、印度Ayurveda医学(1600BC)等等,并且有着广泛的应用。  然而,由于
唇读、唇动技术作为一种新兴的智能人机交互技术,近年来正逐渐走向实用化。对唇动技术的研究,主要集中在唇动身份识别和说话人内容识别(即,唇读)两大应用上。本文主要致力于
对于基于Web的工业监控应用来说,嵌入式浏览器是一个重要的环节,尤其是在数控领域。随着嵌入式系统和计算机网络技术的快速发展,应用于数控领域的嵌入式浏览器技术也必须不断
近年来,随着Internet的迅速发展和应用需求的日益增长,人们面临着无处不在的海量信息资源,却无法获得需要的有效资源。于是,网格计算的概念也就就应运而生了。网格构建在现有
在进入信息时代的当今社会,人们被各种各样的信息所包围,股票行情、公司管理、客户关系、天气预报、体育新闻…,信息的即时获取是信息综合开发和利用的一项重要工作。信息的
近年来,由于人类生存环境的恶化,肺癌等肺部疾病已经成为导致人类死亡、影响人类生活质量的主要原因之一。对于肺癌病人来说,早期检测可以使病人及时进行治疗,产生良好的预后