基于中文维基百科的语义知识挖掘相关研究

被引量 : 39次 | 上传用户:saood
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了实现基于自然语言的智能信息处理,计算机需要了解大量的语义知识。大规模语义词典和知识库通常依靠人工构建完成,在建设和维护过程中耗费了大量的人力物力。从语料资源中自动抽取语义信息,建设大规模的语义知识资源已成为一个热门的研究课题。维基百科是一个开放式的在线百科全书,对于自然语言处理它不止是一个大规模的语料库,还可以用作一个包含了大量人类知识和语义关系的知识库资源。本文从自然语言处理和语义知识资源建设两方面出发,研究了维基百科挖掘语义信息挖掘等方面的处理方法及相关应用。针对自然语言处理中的语义相关度计算,本文提出了基于维基百科链接关系(分类图和文档图)的“多路径搜索”算法。实验下载了中文维基百科页面并利用链接关系抽取出反映分类层次关系的分类图以及反映解释文档超级链接引用的文档图。进一步通过搜索多条相关路径,综合路径长度及节点或链接权重等完成语义相关度计算。实验利用超级链接引用关系抽取了大量的语义相关词对,并建立了一个人工标注的测试集,通过与经典算法的对比对实验结果进行了分析评估。文本语义相关度的计算也可以利用维基百科实现语义知识扩展。实验抽取了页面重定向、分类层次、文本链接等反映语义关联关系的链接结构,并利用矩阵运算综合了直接或间接的语义关联关系,建立了一个包含维基百科背景知识的语义转换矩阵。通过将文档词频向量与语义转换矩阵相乘,获得一个在新的语义空间上的扩展向量,利用传统的向量夹角余弦等方法计算文本的语义相关度。算法同样可以用于抽取大量的存在语义相关关系的词,作为语义相关度测试集。针对挖掘维基百科构建语义知识资源,本文从两个角度进行了探索。一方面结合维基百科分类图的层次关系及词汇短语结构,并利用解释页面文档的句法模式等信息,挖掘出反映语义关系类别的信息,并为不包含具体语义关系类型的分类图添加语义关系标记,建立一个本体型语义层次网络。另一方面,从维基百科词汇中筛选出反映独立语义概念的核心词,并为所有词条标注最能反映概念、属性特征的相关词解释,建立解释型语义词典。进一步探讨了将维基百科关联到中文语义词典知网(HowNet),并通过挖掘分类关系为其扩充新词、标注义原解释的可行性及其实现方式。
其他文献
<正> 葶苈大枣泻肺汤加味治疗漏下周××,32岁,教师。1974年4月5日诊。自述月经淋漓不净半年余。询之,经量时多时少,逢经期时量增,甚或血带相兼或带中血丝隐见,屡屡求医,卒未
本文通过高速精密微切削Ti-6Al-4V合金试验,研究切削因素对表面质量及切削力影响规律,评价加工后的表面质量及优化Ti-6Al-4V合金高速微切削工艺参数,以期得到高速微切削Ti-6A
中国特色城市化的重要特点是弹性城市化模式。弹性城市化的核心是农民在城乡之间进退有据,从而确保了我国城市化过程的稳健有序。弹性城市化的社会机制是接力式进城,是农民以
雷替曲塞是一种特异性胸苷酸合成酶(TS)抑制剂,它在细胞内代谢成多种聚合谷氨酸而发挥抗肿瘤作用。该药由Zeneca医药和肿瘤研究中心(UK)共同研发,自1996年以来,先后在英国、法国
随着知识经济时代的到来,人越来越成为组织实现自己战略目标的关键因素。人才资源的开发、利用和管理不仅已经成为经济增长的决定性因素,而且成为一个国家经济和社会发展最重
中国人口老龄化趋势日益明显,这给养老、医疗、社会服务带来了巨大的压力。本文从居住模式和主要经济来源两个方面来界定中国老年人的养老模式,利用经济学方法,根据2002年、2
本文以1995年至2004年上市公司为样本,考察了经济增长、经济政策与公司业绩之间的关系。通过构筑IS-LM模型,本文测算了我国的各项财政政策与货币政策乘数,以量化我国宏观经济
本文讨论了中央开孔的修正型卡塞格伦天线的最佳吻合原理和计算方法。对上海天文台25米射电望远镜天线,在三种俯仰角状态下进行了主面偏差实测及最佳吻合,给出偏差值及等值线
烧结矿是高炉炼铁的主要原料,烧结矿质量的优劣直接影响到炼铁生产的产量、质量及能源消耗。由于烧结过程较为复杂,影响因素众多,使得实际生产过程中,难以对烧结矿质量进行有
<正> 通常我对肾病蛋白尿用以下治法:一、益气健脾除湿法:慢性肾小球肾炎、肾病型或肾病综合征大量蛋白尿,血浆蛋白低下,高胆固醇症,临床表现面色萎黄,脘腹胀满,便溏纳差,肢