【摘 要】
:
信息抽取是自然语言处理技术的一个重要发展方向,信息抽取的目的是让有用的信息以统一的形式集中在一起,从而利于人们对信息的获取。作为一种自然语言处理系统,信息抽取系统
论文部分内容阅读
信息抽取是自然语言处理技术的一个重要发展方向,信息抽取的目的是让有用的信息以统一的形式集中在一起,从而利于人们对信息的获取。作为一种自然语言处理系统,信息抽取系统需要强大知识库的支撑。由于在不同的信息抽取系统中知识库的结构和内容的不同,使得信息抽取技术仍面临着知识瓶颈问题。本体作为领域知识的共同理解,可为信息源提供必要的语义标注信息,将本体引入信息抽取中,有助于信息抽取系统对领域内的概念和概念之间的联系的统一认识,从而为用户提供更有价值的信息。本文以领域本体为研究对象,就领域本体的构建及其在信息抽取系统中的应用开展了以下研究工作:1.对领域本体在信息抽取系统中的应用现状和本体构建方法的研究现状进行分析和研究,结合本体的语义优势,确立了在信息抽取中构建并应用领域本体的目标。2.给出了一种领域本体构建方法,包括领域的确定、概念及其关系的抽取和本体的编辑与存储。在本体半自动构建的概念抽取过程中,通过对领域文本挖掘得到领域关键词,然后使用改进的TF-IDF公式从关键词集中抽取具有领域性的特征词,经人工修正后得到本体概念;概念间关系的抽取则是采用基于WordNet和基于模式学习相结合的获取方法;最后使用Protégé软件编辑得到领域本体。3.以手机领域为例,在信息抽取系统中构建一个小规模的领域本体,接着将本体与信息抽取两项技术结合,提出了基于OWL本体的文本信息抽取算法。在算法中,以本体作为领域的知识框架来参考,结果抽取出该领域框架的结构化的实体,即通过本体的组成元素:类,属性和实例,来描述抽取的文本信息。最后利用此算法对一些手机领域样本网页进行抽取并对抽取后的结果进行了分析。
其他文献
环境是动态变化的,MAS中Agent行为也是未知的,要建立领域完备的先验模型几乎不可能,许多领域知识也是在Agent的交互过程中逐步获得的,因此复杂环境下的Agent应当能够根据以前
在组播安全理论的研究中,关于组播数据处理和组密钥管理是研究的热点。人们提出了各种不同的数据处理方法和组密钥分发办法,希望可以设计出能够满足各种不同安全需求的组播安全
WAP事务协议(WTP)作为WAP协议体系结构中的一个重要部分,向会话层提供基于请求响应的分布式事务服务。由于WAP论坛将WAP协议规范以自然语言的形式发布,这样的好处是可读性好,
集成学习(Ensemble Learning)是一种较新的机器学习范式,它使用多个学习器来解决同一问题,它能够显著地提高学习系统的泛化能力。决策森林作为一种优秀的集成学习方法,在实际
本文所做工作是科研课题“C/C++软件安全检查工具”的一部分。根据该课题的实际要求,本文在充分研究C/C++语法结构的基础上,主要做了以下工作:首先,基于分析器自动生成工具ANT
目前,大数据技术在社会各个领域和层面都发挥着巨大作用,且地位不断跃升。能否整合并利用好大数据已经成为政府和各经济体事业成败的关键。作为一种新型的战略资源,大数据具
搜索引擎的出现,成为互联网发展史上一个重要的里程碑,它能帮助人们从浩瀚的网络中筛选所需信息,所以搜索引擎成为人们获取网络信息的首选工具。但是搜索引擎的表现并不总是尽如
水产养殖,是一项有特色、有活力、有潜力的产业。近10多年来,高速发展的中国水产养殖业给社会带来了巨大财富,工厂化水产养殖模式则使得水产养殖进入了“科学养殖”工业化的
无线传感器网络是集计算机、通信、网络、智能计算、传感器、嵌入式系统、微电子等多个领域交叉综合的新兴学科,具有协作的感知、采集、处理和传输信息的能力。由于无线传感
近年来,随着人们对定位信息的需求与日俱增,室内定位技术的应用越来越广泛。应用于机场、商场等室内公共场所的定位信息,可以方便快捷的找到所需的行李或是走散的人员。此外,越来