【摘 要】
:
随着WWW技术的广泛应用,传统的通用搜索引擎正面临巨大的挑战,存在着查全率不高、检索的精度不高、更新不及时、不能很好地表达用户需求、提交的搜索结果中包含大量与用户无
论文部分内容阅读
随着WWW技术的广泛应用,传统的通用搜索引擎正面临巨大的挑战,存在着查全率不高、检索的精度不高、更新不及时、不能很好地表达用户需求、提交的搜索结果中包含大量与用户无关的信息、缺乏个性化和智能化等问题.同时,越来越多的不同领域的客户群,他们急需的是能够提供高效检索其业内信息的专业搜索引擎.面向特定主题信息的专业搜索引擎(Topic-Specific Search Engine),通过采用导向词导引、定点采集、定题采集、网站结构挖掘等特有的方法来提高查全率和查准率,保证其较高的时效性、专业性并提供更好的个性化服务,从而可高效地发掘特定领域的信息,提供有特色的检索服务.本文阐述了基于Web信息挖掘技术的专业搜索引擎的设计与实现,并着重分析了基于特定主题的爬取方法、网页特征的综合描述方法、网页分类技术、专业分词词典的构造;通过对网页的按功能分类及超链接分析,研究并建立了一种网站结构挖掘的模型;提出了类别向量和特征向量的特殊构造方法,利用改进的VSM方法将结构挖掘和内容挖掘结合起来,并设计了特定主题的自动分类算法,对基于Web挖掘的中文专业搜索引擎的设计与实现具有较好的理论和实践价值.
其他文献
嵌入式系统一般指非PC系统,包括硬件和软件两部分。硬件包括微处理器、存储器及I/O端口等。软件部分包括应用程序和嵌入式操作系统(EOS)。嵌入式操作系统一般要求实时和多任
随着基因测序技术和人类基因组计划的发展,人类已获得了大量的生物序列数据,并且其积累速度还在飞速增长。生物信息学作为一个新兴学科,对如何利用信息技术来分析生物数据,提供了
随着网络传真技术和OCR技术的发展,网络传真智能监测系统的研究有着广泛的应用价值和理论意义.而作为该系统关键技术部分的传真图像恢复,对于提高传真OCR识别率、丰富图像恢
XML是可扩展标记语言的简称,它为Web上的结构化文档和数据提供了通用的格式。随着Internet的发展尤其是Web技术的广泛应用,越来越多的应用采用了XML技术作为信息表示和数据交换
关联规则挖掘是数据挖掘领域中一个重要的研究方向。为了解决数量型关联规则挖掘过程中“边界划分过硬”的问题,人们将模糊集的有关概念引入到关联规则挖掘中,提出了“模糊关
本文主要研究了模式驱动 J2EE 应用的软件设计方法。首先介绍了设计模式和J2EE 技术,然后对典型 J2EE 设计模式展开论述,对于这些设计模式,本文分析了它们的产生背景、基本原
本文首先介绍了并行编程的背景、以及并行编程面临的问题。然后提出一个并行化模型--基于元任务的用户引导的串行程序并行化模型(Metaparallel),经由并行化模型产生的并行程序能
经济全球化带来了机遇也带来了挑战。价格因素作为主导消费市场的主要因素,一直是影响企业竞争策略的重要方面。利用那些对价格波动产生影响的因素所表现出的信息,结合市场价
近年来,云计算技术发展迅速,已经成为成IT产业发展的一个主流方向。Map Reduce是一个广泛应用于分布式计算环境中的编程模型。由于Map Reduce模型中Map与Reduce阶段的同步过
粗糙集(rough set)理论是由波兰科学家Z Pawlak在1982年提出的一种新型的处理模糊和不确定知识的数学工具。这一理论从新的视角出发对知识进行了定义,它把知识看作是关于论域