论文部分内容阅读
我国林业是国民经济的基础产业,担负着生态环境建设和促进社会可持续发展的重大使命,人类是林业产业建设中的主要受益群体,当林业产业结构形成时,人们就在其中发挥其各自不同的作用。近年来,林业信息化推进,促进了林业信息资源的共享,为公众提供了便利,促进了林业产业的发展。但是,林业信息化的发展还有其必要性,如何更好地利用林业信息资源,为我国林业科学领域广大科研人员、教学工作者以及林农服务,就迫切需要对林业信息实现快速搜索与集成。如何从海量信息中快速查找到用户所需要的信息,已经成为公众对特定领域信息的查找所面临的主要问题。互联网上林业信息越来越庞杂且无序,普通的搜索引擎已经不能满足大众对个性化信息的需求。针对用户在进行林业主题信息查询时,通用搜索引擎需要花费大量时间及精力去查找所需要的信息,且主题信息的召回率和精确率都比较低,不能满足用户的需求,因此公众急需一个分类精确、数据全面、更新及时的林业主题搜索引擎。本论文的研究内容来自导师主持的湖南省科技计划重点项目(2010nk2004)。本文以系统科学、林学、信息学和统计学等理论为指导,对林业动态信息搜索与集成进行了全面的研究。研究过程中,对国内外林业动态信息搜索与集成等方面的研究进行了综述。主要从林业动态信息的需求分析与分类、主题爬虫搜索器以及文本识别分类器等三个方面进行了研究,主要研究工作如下:(1)综合分析了国内外对于搜索引擎的既有理论和实践成果,表明了目前建立一个林业主题搜索引擎的重要性和必要性,并对其中的关键技术进行了深入研究。本研究将林业主题搜索引擎分为数据收集层、数据存储层以及数据表示层三个层次,并对这三个层次中涉及的相关方法进行了探讨和总结。(2)利用网页上公布的信息,结合各部门及公众对林业动态信息的需求,明确对各部门及公众真正有实际意义的林业动态信息类别,并对所需林业动态信息进行分类、分块,使各种林业动态信息具体化,主要分为以下七类:林业科技信息、林业生产资料、林产品市场供求信息、花卉信息、林业政策法规、林业劳务信息、气象与环境信息。(3)根据已构建的林业动态信息类别体系,搜集与之相关的林业专业网站,明确信息采集的网站来源。采集我们所需要的数据所提供的网站域名,并采集域名后的内容,同时辨别所采集的网站类别,实现对林业动态信息源的搜集及分类。(4)运用基于内容分析与基于链接结构分析相结合的一种新型搜索策略,通过综合分析评价,对候选URL所指向的页面进行主题相关度判断以及对候选URL进行排序,实现最优的林业主题爬虫搜索器,从而使所下载的网页按与林业主题相关且重要性突出递减的顺序排列。(5)采用计算机智能的SVM自动文本分类技术,对样本数据进行机器训练,实现对主题爬虫搜索器所采集到的林业动态信息进行分类存储,达到对林业主题搜索引擎的数据收集层的构建进行优化的目的。林业动态信息搜索与集成是在对现有的搜索与集成技术进行研究和优化的基础上,融合了公众对林业动态信息的需求,使得公众在获取林业动态信息时的准确率、全面率和成功率都得到了明显提高。随着科学技术的快速发展,新理论、新方法、新技术将进一步运用于林业动态信息快速搜索与集成,林业信息管理与服务也将迈上新台阶。