论文部分内容阅读
大数据应用系统发展如火如荼,从互联网、物联网获取数据,提炼成信息或知识服务于各类用户。网页、感知数据集、数据集、各类结构化数据、语义数据的查询搜索是所有应用系统的一项基本功能,而爬取、抽取、索引是其中的关键功能。本文围绕以上几点进行了如下工作:1、提出了智慧搜索引擎的软件体系结构。借鉴传统搜索引擎模型的设计方法,分析智慧领域应用,确定领域边界、角色模型、业务模型、领域本体模型等,完成领域分析。在此基础上,完成实体构件、任务管理构件、实体管理构件、任务执行构件的设计。2、提出了基于本体的信息抽取方法。首先分析了各类网页数据的异同,针对各自的特点选择有针对性的方法进行网页信息的抽取。重点研究使用基于统计的方法抽取自由文本中的领域知识,扩充本体实例库。3、完成智慧搜索引擎原型系统的开发。以智慧安全领域为背景,利用已有的设计及数据资源,进行搜索引擎功能、界面的设计与实现。本文针对由互联网与物联网带来的海量数据,设计出能够满足智慧领域用户多种需求的搜索引擎软件体系结构,整合异构数据,提升搜索服务效果,支撑领域应用。