论文部分内容阅读
随着互联网上信息量爆炸性地增长,如何高效、低成本地利用Web信息资源就逐渐成为信息服务机构和最终信息用户所关注的问题。本论文研究目的就是希望通过对主题搜索的应用进行研究,探索Web主题资源的建设方法。Web主题资源自动搜索技术可以充分利用Web上大量的免费资源,自动地搜集Web主题资源,摆脱对专家的依赖,降低建设成本,提高Web主题资源建设的速度、效率和质量。 本论文的研究工作主要包含以下四个方面: (1)研究了主题搜索的基本理论和Web主题资源的建设模式,探讨Web主题资源自动搜索的相关技术,为自动主题搜索提供一个可行的研究方案,设计出一个Web主题资源自动建设的功能框架; (2)分析和实现了一个新型的多模式字符串匹配算法。该算法是以确定性有限状态自动机(DFSA)为基础,结合Quick Search算法而提出的,可以用来提高主题爬行器的网页分析和Web网页分类器的速度。经改造之后,状态自动机所占用的内存不到标准DFSA占用内存的一半,提高了多模式字符串匹配算法的性能。 (3)从社会学、文献计量学和计算机科学等角度分析了Web超链相关知识,并在经典的HITS算法基础上,设计并实现了一个Web主题资源的自动发现技术。另外,利用文献同引和文献耦合的思想,实现了查找相关网页的功能,并与Google和Alexa提供的类似功能进行比较,分析它们在查找相关网页方面的性能。 (4)分析和设计了一个合作式主题爬行器。本论文所设计的合作式主题爬行器,利用了Web超链信息和隧道技术,可以有效地提高主题资源的覆盖度和主题的准确度,在一定程度上克服了一般爬行器的固有缺陷,使得爬行网页的主题覆盖度和主题准确度不再完全依赖于种子站点的数量和质量。合作式主题爬行器适合搜索某个学科且主题宽泛的Web学术性资源。 在研究过程中,笔者采用了文献调查法、分解与合成法和实验法等研究方法,对自动主题搜索的应用方面进行了综合性研究。通过研究,本论文从理论和实践上证明了在目前的技术条件下,Web主题资源建设的自动化是可行的也是有效的,可以为数字图书馆的Web主题资源建设提供方法和技术上的支持。 本论文共包括图60幅,表10个。