基于Web挖掘的中文本体学习研究

来源 :太原理工大学 | 被引量 : 6次 | 上传用户:yulinfeng93
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本体在计算机应用如知识管理及语义网中正发挥着越来越重要的作用,而对领域本体的建立和维护成为制约这些应用发展的瓶颈。目前只有很少手工构建的本体如WordNet和CyC,但是一方面用手工方式构建本体需要耗费大量的人力和时间,另一方面,这些通用本体只包含非常少的领域概念。同时,由于本体中俘获的知识是流变的,它总是在不断地发展和更新。为避免本体成为过期的无用信息,这就意味着本体不能像字典一样以手工方式构造,否则它的发布之日就已过时。而且建造完成后,本体的维护对知识管理者来说也是费时的工作。如何以自动或者半自动的方式获取和演化本体是目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时,由于本体是未来语义网的基础,本体的快速构建对其发展和应用具有重要意义。为了解决本体工程中“知识瓶颈”问题,我们需要自动化或半自动化工具来构建本体。本体学习技术是当前的一个热点,其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体,本体学习任务主要包括本体所包含的各个元素的自动或半自动获取,例如概念学习以及概念之间的关系学习等。目前,国外已经出现了许多半自动的本体构建工具,如OntoLearn,Text-To-Onto等,这些工具虽然支持了从不同结构化文档中半自动化地提取本体,但是存在了不同程度的对通用词典或核心本体的依赖性,在国内,对于从中文文档中进行本体学习的研究还相对薄弱,已有的研究也或多或少存在着上述问题。同时,目前还没有一个支持中文的本体学习工具;本研究的主要目标是,采用知识获取及句法分析技术从中文web文档中自动获取领域术语及关系,降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范畴,语义描述要能够为计算机方便利用。因此,它的任务是把共同约定、共同享用的知识(词语的语义规范),用计算机容易处理的形式表达出来。针对以上现有方法的不足,本文在词频分析和语法分析的基础上,充分利用Web页面半结构化的特点,加入浅层语义分析;同时,本文不依赖于领域词典,采用基于ICTCLAS对文档进行初步的分词和词性标注,利用互信息统计模型计算待识别中文字串的内部结合强度,进行候选术语的抽取,利用大规模领域语料的领域一致性过滤原则对领域本体概念进行过滤选择,充分利用了自然语言处理和统计相结合的方法来抽取本体中的概念;以上方法一方面保持算法简单,同时又极大地提高本体概念抽取的速度和准确性;最后,本文用基于规则和句法分析的方法来抽取概念之间的关系,提高了概念关系抽取的准确性,并可以对抽取出的关系进行度量。
其他文献
目前,大范围高分辨率的遥感图像已经在很多领域和行业中得到了广泛的应用,如国土资源统计、地理信息系统(GIS)、军事国防、地质调查、灾害评估、自然环境监测以及城市规划等。但原始图像中的不同区域的子图像可能是由不同型号的卫星在不同时刻及不同气候条件下拍摄得到的,因此在后期拼接后显示时,会出现相邻域子图像的色调相差过大的问题。这会为后续的地理数据的分析处理带来困难,影响分析统计结果的准确性。目前实际工作
随着移动通信技术的飞速发展,移动通信网络带宽的不断增加,移动终端处理能力的迅速提高,移动流媒体服务正成为全球范围内移动业务研究的热点之一。然而由于移动通信网络和移
随着网络通信技术和信息处理技术的迅速发展,网络通信得到越来越广泛的应用。信息隐藏技术作为一种新兴的网络信息安全技术,也越来越受到人们的重视。信息隐藏技术在网络信息伪
WebSpark是一个用Java编写的按照MVC分层模型来构建的Web框架。简洁,易用,灵活是WebSpark的设计原则,同时在该框架的具体实现中也体现了一种组件化的思想。WebSpark框架接收服务
数字电视是指电视节目的采集、制作、编辑、播出、传输、接收的全过程都采用数字技术的新一代电视。数字电视具有频谱利用率高、信号质量好、抗干扰能力强等优点,因而它取代目
虚拟现实技术是采用计算机技术生成一个逼真的虚拟环境,只要利用虚拟现实中的交互技术、实时技术和沉浸感技术,就可以让使用者以自然方便的形式与虚拟环境中的对象进行交互,从而
当今,信息网络特别是计算机网络的高速发展给人们带来了极大的方便,但与此同时,发展中的网络也向人们提出了挑战,表现在网络规模不断扩大,网络结构日渐复杂,网络复杂性日益提高。因
在计算机科学不断发展的今天,学科与学科之间的联系变得非常密切,各个学科之间的相互交叉和合作在不断的加深。随着网络技术的不断进步以及人工智能研究的不断深入,传统CAD系统
当前,超高产育种已成为国内外热门研究课题,而优良的植株形态结构是超高产的骨架。因此,高产作物的理想株型受到广泛关注。在株型研究工作中,研究人员常采用的田间实验方法能够为育种提供有益的参考和方向,但耗时长、工作繁琐,不能快速且有针对性的进行定量化株型育种。结合虚拟植物,可以模拟传统的农艺活动,定量控制改变植株个体、环境等,并快速获得这种改变的影响结果,但受限于人为操作能力而导致优化效率仍然较低。因此
由于数据库中存在着大量数据,因此从数据库中发现有价值的信息显得十分重要。数据挖掘技术就是为解决这个问题而产生的。对数据挖掘技术的研究,国内外已经取得了许多令人瞩目的