基于"链接"层次分类的主题爬取

来源 :第二十四届中国数据库学术会议 | 被引量 : 0次 | 上传用户:asdf8865
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种新的基于“链接”层次分类的主题爬取系统Fusion-Crawler,能够有效地利用锚文字和URL等有用信息分析“链接”的层次性,在深层次网页拓扑上展开分析和爬取,并在多个大学网站上实际爬取,测试了性能。
其他文献
本文引入带权欧式距离概念,将其应用于相似搜索匹配的过程,提出用层次分析法(AHP)确定数据库中各维的权值,并且对利用基于关键点的分段法进行相似搜索的过程进行了深入的探讨。
本文从支持断接和节约系统资源角度研究了一种嵌人式移动实时事务的并发控制机制DC/POS-PAI-2PL。该协议是基于谨慎有序共享及散度控制封锁模型设计的。该模型放松了对事务的
本文针对数据流的Skyline查询,提出了一种算法:DC-Tree。它支持高效数据更新,能持续的输出查询结果,并实验证明了算法的效率。
本文对个性化搜索引擎中用户兴趣模型进行了研究。文章用试验的方法阐述了建立个性化搜索引擎的可行性和时效性,并结合Web挖掘的方法和P1E方法建立了用户兴趣模型,同时对PIE方
一提起湖,人们总想到碧波粼粼、风景如画。然而天地之大,无奇不有。我们在这里介绍一个独特的神奇怪湖——天然沥青湖。它座落在加勒比海上特立尼达和多巴哥的特立尼达岛西
本文对完整词自动识别进行了研究,在总结主流分词模型的基础上,提出了基于互信息的中文完整词自动识别的模型,并进行了一些探索和实验。经测试表明,这种方法是有效的。
本文将Web Service与元搜索引擎技术相结合,并利用元搜索引擎的思想,提出了完善高效的跨库检索机制,同时提出了针对不同用户的主动的性化服务----个性化信息推荐。
本文研究了如何存储和恢复在数据库集群系统中高速产生的归档数据流。针对应用的日志密集型的特点,基于减少磁盘I/O的访问代价和一个简化高效的一致性协议提出了一个优化的数
本研究在原有普通关系数据库的基础上,引人二元关系约束的思想,扩展建立了含有二元关系约束的数据库模型,并基于该模型讨论了其上的DML操作和部分关系代数操作新的实现细节,给出
本文提出了一种支持更新的图可达性查询算法GraphReach。该算法支持图的更新,当图更新时最多只需要对索引进行简单调整,代价很低。另外,该算法能够快速处理图可达性查询,其索引具