基于Web的主题信息采集系统研究与设计

来源 :兰州大学 | 被引量 : 0次 | 上传用户:swl3322
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文以主题搜索引擎和元搜索引擎技术为背景,研究了基于Web的主题信息采集系统(聚焦爬行系统)的几个问题:首先,研究了Web主题词典的建立问题,提出一种自动动态建立Web主题词典的方法;其次,针对主题信息采集策略问题,提出了一种基于元搜索引擎的改进的SH(SimpleHeuristics简单启发)算法,该改进的算法比原算法更适应于中文环境。同时,由于它是基于元搜索引擎的,根集合的形成不需要耗费太多的资源,并且可以实现用户实时动态的查询请求;第三,在采集系统结构方面,采用了非递归的爬行器结构,且各个功能分别通过松耦合关系的不同类组来实现,使得该系统的可扩展性良好;最后,以敦煌学*主题为样本设计和实现了一个基于Web的主题信息采集系统,并对该系统的采集效果进行了比较分析,证明该系统采用的主题搜索策略良好,可以较好地解决主题用户“资源迷向”的问题。   
其他文献
本文首先结合代价敏感的学习方法CSL和NB分类方法提出了一种代价敏感的NB分类算法CSNB,该算法以较少的计算开销取得对稀有类问题相对最优的分类结果;其次,采用Boosting技术构造
软件开发的产品质量水平,是一个由来已久的话题。而提高软件企业的产品质量水平,必须改进软件产品的开发过程。该文的主要内容是研究软件过程改进的理论,对广州数园网络有限公司
计算机网络已经得到广泛应用,网络功能不断增强,网络结构日趋复杂,异型机和异构网的互联,使网络的规模更加扩大。如何有效地管理网络,使网络高效、可靠的运行正是网络管理需
分类是数据挖掘中一个重要内容,它找出描述并区分数据类或概念的模型,以便能够使用模型预测类标记未知的对象类。它主要用于提取重要数据类的模型或预测未来的数据趋势。目前的
人脸动画是计算机图形学和计算机视觉领域最根本的难题之一,也是近年来较为活跃的研究热点,在电影、广告、计算机游戏、视频会议等诸多领域有着广阔的应用。面向MPEG-4的人脸动
  本文研究了蜜网系统的关键技术,以及蜜网系统在网络安全防护中的地位和作用。在此基础上,本文给出了一个可变结构的蜜网系统设计,包括体系结构设计、功能结构设计等。论文对
  在计算机上进行柔性织物仿真,生成真实感服装,是近十多年来国际和国内计算机图形学界的一个重要的研究方向。它不仅是企业服装CAD/CAM系统的关键组成技术,而且在虚拟现实、
本文首先介绍了图形用户界面的结构层次,分析了图形用户界面中最关键的组成部分窗口管理系统。窗口管理系统的主要功能是管理多个窗口的输出和输入,提出了窗口管理系统与用户交
在信息化建设呼声高涨的今天,许多企业学校、机关等纷纷建立了自己的管理信息系统。然而我们发现,在实际应用中,我们经常需要其他系统中的共享数据。原有分散系统之间的数据
在当今数字化、信息化、网络化的21世纪,以多媒体和因特网为标志的新的信息技术革命正在引起教育领域的深刻变革,使教育体制与教学模式产生新的飞跃,随之逐渐形成一种新的教育理