【摘 要】
:
信息抽取是在互联网迅速发展的背景下产生的一项技术。它的目标是实现从浩如烟海的文本信息中抽取预先想要的信息。本体起源于哲学,后被引入到人工智能中,一个设计完善的领域
论文部分内容阅读
信息抽取是在互联网迅速发展的背景下产生的一项技术。它的目标是实现从浩如烟海的文本信息中抽取预先想要的信息。本体起源于哲学,后被引入到人工智能中,一个设计完善的领域本体可以为某领域的知识表示提供基础。本文通过对信息抽取和本体这两项技术的探索与研究,将二者相结合,提出了基于OWL本体的文本信息抽取算法。在算法中,将本体作为领域的知识框架来参考,待抽取的文本被视为非结构化的该领域框架的实体。算法的目的是抽取出该领域框架的结构化的实体,即通过本体的组成元素:类,属性和实例,来描述抽取的文本信息。该算法包含五个子算法,分别是:显性类和实例的抽取算法,隐性类的抽取算法,对象属性的抽取算法,数据属性的抽取算法以及区分领域实体的算法。这些算法的基本思想都是源于对本体结构的分析。因此他们都是基于语义的抽取算法。以基于OWL本体的文本信息抽取算法为核心,本文还设计并实现了由语义信息库,本体解析模块,文本预处理模块,语义信息抽取模块和抽取结果存储模块五部分组成的文本信息抽取系统,并将其命名为TIEBOO。实验表明,在系统各模块的协同运作下,能够实现较精确的文本信息抽取。最后,通过对信息抽取技术以及信息检索技术的联系与区别进行分析,本文设计了将TIEBOO系统应用到信息检索系统中的系统体系结构,并阐述了TIEBOO在提高检索系统性能方面的优势。本课题从一个全新的角度设计了信息抽取的方法,抽取性能的F指数能达到80%左右。并展示了利用信息抽取系统提高信息检索性能的系统架构。为构建智能信息检索系统提供了有力的参考。
其他文献
阅读是获取各种信息的有效途径。在信息丰富并且快速更新的年代,只有掌握快速阅读技能,才能够在短时间内迅速获取需要的信息,提高阅读的效率。大学英语四、六级考试在2006年1
评价一个城市旅游品牌的受众感知核心在于了解品牌自身所塑造的社会公众目标,即品牌的知晓度、美誉度以及忠诚度。借助于ROST文本挖掘软件,通过问卷调查的方法获取贵阳市城市
本论文借助正交实验的方法,通过对有可能影响板式柜类家具装配精度的因子正交实验数据的研究分析,确定了对装配精度影响程度较大的因子,并得出了制造高装配精度板式柜类家具
软PLC技术是最近工业自动化领域逐渐兴起的一项基于PC的新型控制技术。和传统的PLC(Programmable Logic Controller可编程逻辑控制器)相比,软PLC克服了传统PLC兼容性和可扩展
目的探讨早期护理干预在促进妇科经腹手术后患者胃肠道功能恢复中的应用价值。方法将本院妇科在2015年3月~2017年10月收治的86例经腹手术患者作为研究对象,随机分为对照组和观
电源系统是托卡马克装置的核心组成部分之一,它给装置的磁体线圈提供合适的电流,以完成产生、约束和加热等离子体,以及驱动和维持等离子体电流等一系列任务。电源系统的设计
目的:本实验通过乙醇梯度灌胃的方法建立酒精性肝病(ALD)大鼠模型,并使用化浊解毒汤给大鼠灌胃,观察化浊解毒汤对酒精性肝病肝损伤大鼠NF-κB表达及ALT、AST、CAT、LN、IV-C
能源短缺与环境污染是当今世界首要关注的两大热点问题,作为主要的能源消耗主体和环境污染来源的内燃机受到广大研究者的关注。LPG作为柴油代用燃料,能提高燃油经济性并降低
在微波、毫米波系统中,性能优越的上变频组件对系统性能起着关键性的作用。本文对毫米波上变频器及其本振倍频链的理论和设计进行了研究。本文的主要工作是为某实验室制作一
介绍了一种新的数字显示接口DisplayPort,讲述了其形成的技术背景和基本技术组成,并与现有接口(DVI,HDMI,LD-VS)的各项性能参数进行了对比。新的数字显示接口能在更少的线数