基于词典的概念关系网构建研究

来源 :上海交通大学 | 被引量 : 2次 | 上传用户:wuyouan321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义信息在信息处理中起着极为重要的作用,自然语言的语义分析和内容的理解,都离不开语义信息的支持。语义知识库作为语义信息的表现形式已成为自然语言处理领域的不可或缺的一项基础资源。然而当前的大部分语义知识库是由手工构建的,因此其规模,也就是数量级上严重受到时间积累和成本的制约。如果能在保证质量可接受的条件下,无论在时间成本还是金钱成本上,自动构建无疑比手工构建有更大的优越性。本文研究如何自动从可读字典中抽取语义关系。由于一个好的句法分析器难以获得,而单纯的靠基于字符的模板匹配又过于粗糙,难以捕捉复杂的结构信息。因此,本文研究了基于特定特征的统计技术来自动构造识别方法,并用以识别语义关系。本文的研究工作主要如下:第一,提出了如何构造词法信息、句法信息、语义信息、位置信息以及它们的某些组合等的多种特征类型。由于类型的多样性,使用了统一的方式进行表达。为了减少噪声的影响,通过t-测试来识别有效的特征项,进一步,使用t-测试来发现词的配对这种有效的特征类型。第二,为了更好的选择特征,通过引入优先权的方法将人的先验知识结合到统计模型中。并通过信息增量和几率比来挑选特征并构造规则集合,使得规则集合里的每条规则都有高的准确率,在规则集合整体上表现较好的召回率。第三,由于某些因素的固有干绕,难以单纯从某个词是否有某些特征来判断是否有某种语义关系,于是引入了反特征项。对于每一种语义关系类型,都将构造一个由规则集和反特征集组成的识别方法来识别语义关系。第四,当使用了这些识别方法抽取出语义关系实例后,将这些语义关系实例构建成一个概念关系网,使得很多原本没有直接连接起来的词能够间接的连接起来,从而获取更大的价值。最后,为了验证本文所提方法的有效性,通过对实验结果随机挑选样本进行手工的检查。然而,由于个人的手工判断还存在一定的任意性和模糊性,需要进一步的通过一个同义词词典来产生相似词对和非相似词对,并利用路径模式来计算相似度以便进行更客观的间接的评估。本文的研究朝着自动构建概念关系网的目标更进了一步。如果我们通过词典建立了较完备并且准确率较高的概念关系网,那么我们就可以对很多中文自然语言处理应用打下一个很好的基础。
其他文献
RSS也叫聚合RSS,是在线共享内容的一种简易方式。传统的网络爬虫对实时性要求不是很高,但是RSS的特点是时效性强,为了向用户提供高时效性的个性化服务,服务器需要以最短的延
话题模型(Topic model)是目前流行的一种图模型(Graph model)的.其严格遵守贝叶斯概率框架,是一种完全的贝叶斯模型。话题模型作为一种产生式模型,具有非监督学习,能够利用大
2008年8月,IETF NetLMM标准化了一种基于网络的移动性管理协议,称之为代理移动IPv6(PMIPv6)。PMIPv6是基于网络的移动性管理协议,MN不需要参与任何的移动性信令管理,网络中的
遗传算法发展到现在,仍然是演化计算领域研究的热点,对旅行商问题的求解是其应用之一。传统的遗传算法对于大规模的旅行商问题不再适用,必须开发新的算法,或对现有的相对来说
随着信息技术和互联网的飞速发展,在这个信息知识大爆炸的时代里,人们正面临着信息的飞速激涨,所以迫切需要可以很好的协助人们从这海量的信息文本中快速而准确的找到真正所
随着信息技术的飞速发展,互联网已经在全球范围内得以迅速普及,已经成为了人们工作、生活不可或缺的信息承载工具。而伴随网络技术的发展,网络规模的迅速扩大,网络服务的种类
隧道工程是交通基础设施建设的控制性工程,从设计、施工到运营维护,地质结构对于隧道全寿命周期的安全性具有关键性作用。特别是在隧道工程施工阶段,为了确保施工的合理以及
主题模型(Topic Model),顾名思义就是对文字中隐含主题的一种建模方法。主题模型在机器学习和自然语言处理领域中有广泛应用。通常被用来在-系列文档中去发现与本文档语义相近
随着微处理器技术的不断发展和应用需求对计算能力要求的不断提升,片上多核处理器已经成为了处理器发展的趋势。多核系统的出现,加剧了程序对共享资源访问的冲突。因此,针对
随着互联网技术的发展,传统软件已经不能满足用户和服务提供商的需求,使得软件开发质量下降。因此,在软件实际开发过程中通过使用可以重用的组件高效地进行软件产品的开发。通过