基于Web文本挖掘的领域本体构建过程中主题层次树生成的理论分析和实验研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:xuzuhua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的发展,互联网已经成为最庞大的知识库.面对Web上信息的爆炸式增长,如何更加有效地对信息进行语义上的组织和复用,进而达到语义级的知识共享,是目前知识工程和语义网研究领域面临的一个极具挑战性的问题.该文对本体构建方法,特别是半自动的本体构建方法进行了深入研究,分析了现有本体构建方法和工具的主要特点,提出了基于海量Web文本的中文领域本体半自动生成方法.该方法以Web文本作为信息源,构建领域本体,包含三个研究重点:首先基于文本挖掘技术提炼和整合Web文本中的知识,并将其表达为主题层次树的结构;继而利用常识本体进一步精化和扩充领域知识,将其表达为概念关系图.最后,整个本体搭建的过程需要知识工程师的介入和指导.这是一个结合了海量Web文本、常识本体和知识工程师的知识半自动的搭建领域本体的全过程.该文着重研究利用文本挖掘方法获取Web文本知识表示的方法.由于Web文本具有数量巨大,形式多样,句子语法结构不完整以及标签信息缺乏的特点,因此该文基于层次聚类算法实现Web文本挖掘.通过数学模型刻画了层次聚类算法的系统树图中聚合特性的跳变规律,设计主题关系提取算法从系统树图中提取领域相关的主题集合,利用主题结点在系统树图中的层次关系挖掘主题之间潜在的语义联系,从而形成Web文本的知识表示—主题层次树.并在此基础上提供可视化工作便于知识工程师对主题层次树的修正.该文最后通过具体的实验数据对主题关系提取算法的可行性进行了验证并对基于不同文本集合生成的主题层次树进行了比较.
其他文献
随着计算机性能和网络带宽的大幅度提高,传统的二维可视化系统不能满足人们的需求,越来越多的学者投身于三维可视化系统的研究由于航空航天和遥感测绘技术的发展,空间地理数据的
近年来,大量出现的嵌入式系统对操作系统的开发提出了不同的需求.基于构件的操作系统研究为嵌入式操作系统的开发提供了一个新的途径.为了对基于构件的嵌入式操作系统开发提
网格正在逐渐成为解决科学计算问题的一种有效技术.网格容错技术帮助科学计算任务自动从故障中恢复.容错网格文件热备份系统是网格容错技术的一部分,它可以管理多个分布异构
对于普适计算的实现,我们首先要解决的问题是普适计算上下文处理.该论文首先讨论了普适计算与 agent 的定义、特点、结构以及形式化定义.在此基础上,引进了移动 agent 的概念
信息隐藏及数字水印技术作为一门广泛涉及人体感知理论、信息论、密码学、数字通信、数字信号处理、信号检测、模式识别、编码理论等学科的信息安全技术,在信息战、版权保护
当前网络管理系统正在逐步向分布式和智能化发展,而移动代理技术作为一种新型的智能分布式技术,正满足了这种需要,目前已在网络管理领域得到一些应用.在基于移动代理的网管模
移动代理(Mobile Agent,下简称MA),是指一种能够代表用户执行给定任务,并在网络上不同节点间移动的应用程序,它的出现是网络技术和智能代理技术发展的结果.作为一种新型的分
现今大量的图像与视频信息都是以压缩数据格式进行存储和传输的.直接在压缩域实现视频编辑、特征提取等传统空域处理技术,能够避免繁琐的视频编、解码过程,减少处理的时间和
医学影像压缩是当今医学技术中的热点和重点.现代的医学技术中使用了海量的现代医学数据,如CT,超声等,当这些海量数据通过互联网进行存储和浏览时(如远程医学诊断),如此大的
随着网络和计算机的普及,企业应用程序规模的逐步扩大,应用软件无可避免的会通过数据库管理系统设计复杂的数据管理工作,应用软件中也会包含大量的工作流的概念,例如:任务的