汉语框架排歧技术研究

来源 :山西大学 | 被引量 : 4次 | 上传用户:ming968
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
框架排歧研究是SemEval-2007中第19项语义分析评测"Frame Semantic Structure Extraction"中的一个子任务。该研究基于FrameNet语义知识库,针对句子中给定的歧义目标词(能够激起至少两个框架的目标词),根据目标词当前所在句子的语境,判断该目标词所能激起的多个候选框架中,哪个最能表达当前句子的语义场景。框架排歧与词义消歧有些类似,但词义消歧更侧重于静态地计算多义词在词典中的哪个释义更适合于当前句子。而框架语义学是一种动态场景语义,它更侧重的是,根据场景中的参与者及涉及的相关语义角色,来判断哪个候选框架所激起的场景语义与当前句子的场景语义是一致的。本文面向汉语框架网(Chinese FrameNet),研究汉语框架排歧技术。目前,汉语框架网中共有332个属于多个框架的词元,本文从中筛选了7个有代表性的词元进行研究,并从搜狗语料库和北大CCL现代汉语语料库中搜集了1000多条汉语句子,在经过整理精炼后作为实验的语料集。对于这些包含能够激起多个框架的目标词的汉语句子,本文在依存句法分析基础上,采用机器学习方法进行了汉语框架排歧技术的探索研究。本文的主要研究内容及成果包括:(1)基于序列标注思想,在对汉语句子进行依存句法分析基础上,采用Tree-Structured Conditional Random Fields (T-CRF)模型进行框架排歧的特征选择及参数估计,并与CRF模型的实验结果进行了对比分析。(2)基于分类思想,在依存句法分析基础上,对汉语句子中的每个目标词建立SVM分类器来实现目标词的框架排歧,模型训练过程中主要包括特征选择、参数估计、核函数选择。(3)对比实验:利用广义组配理论中的共现组配思想,本文提出了基于词元相容度计算方法来进行目标词的框架排歧,并使用了most-frequent frame方法baseline实验。实验结果表明,使用机器学习方法,在依存句法树上抽取特征,能够捕获句子中司语之间较为深层和隐含的联系,对于汉语框架排歧技术的研究很有帮助。
其他文献
行人/自行车/机动车混行的交通特性是我国城市交叉路口最显著的交通特点之一,深入研究交叉路口移动目标的交通行为对于缓解交叉口拥堵,提高交通效率等方面具有重要意义。但是
随着电子化不断发展,越来越多政府工作都由手工升级为电脑自动处理,电子政务应运而生。电子政务已成为政府工作自动化和智能化的重要手段,电子政务应用软件反映了政府工作效
随着网络规模的扩大、节点种类的增长以及网络中支持的应用与服务的多样性的提高,网络环境的复杂性迅速增加。网络协议与应用的开发中不得不考虑越来越多应用无关的底层细节,
随着网络技术的飞速发展,与互联网有关的安全事件与日俱增。近年来网页木马已成为恶意代码最常见的传播方式之一。部分黑客利用网页木马入侵因特网客户端主机,窃取虚拟财产和
人工植物优化算法是一种新颖的群智能寻优算法,它通过模拟植物生长的过程,建立了具有光合作用算子、向光性算子及顶端优势算子的人工植物算法框架,但由于该算法的局部搜索能
“离线下载”是近两年来伴随云计算技术出现的一种新型的互联网资源分发方式。它基于云平台提供广域网的、智能的代理下载服务,因此也被称为“云下载”。在该系统中,用户向系
信息隐藏技术作为保护机密信息的一种新手段,越来越受到人们的重视,得到广泛的应用与研究。将标识产品的数字序列、文字、图像等信息隐藏于产品中,这就是数字水印技术,它是信
网络恐怖信息过滤的研究不仅能够促进网络内容安全和人类情感认知等相关领域研究的发展,而且对构建和谐网络环境,维护社会稳定具有重要的社会意义。本文针对恐怖视频展开研究
随着终端数量和流量需求的提高,无线局域网(WLAN,Wireless Local Aera Network)中单位空间设备和流量密度越来越高,高密场景吞吐量瓶颈越来越突出。IEEE802.11协议中的增强分布
访存性能是影响高性能计算机性能的重要因素之一,提高访存性能对提高应用性能具有重要作用。超并行(Hyper Parallel Processing,HPP)体系结构是国家智能计算机研究开发中心提出