主题Web信息采集系统的研究与设计

来源 :西南科技大学 | 被引量 : 0次 | 上传用户:fangfang_936
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
海量Web信息采集是播存结构源端的一个重要课题。随着Web信息的爆炸性增长,传统的Web信息采集无针对性,页面失效率高,不能满足人们日益增长的个性化需求的缺点越来越明显。针对这种情况,本文围绕主题Web信息采集技术展开了具体的理论研究和实验工作。 论文首先分析了主题Web信息采集的原理和主题页面在Web上的分布规律,研究了主题相关性判别算法,网页去重以及UCL标引技术,其中重点研究了URL与主题的相关性判别算法。 其次,设计并实现了一个主题Web信息采集系统FocusedSpider。该系统考虑子页面的主题相关性反馈影响,采用Web结构和网页文本内容相结合的一种URL与主题的相关性判别算法,准确地预测URL的主题相关度;同时根据去重对象的不同,采用一种网页三级去重机制,有效地消除重复网页;并对采集到的网页进行UCL标引,以便信息的组织。 再次,本文研究了RSS技术,设计并实现了基于RSS的主题Web信息采集,能够有效地采集RSS种子中新增加的主题页面。 最后,对FocusedSpider进行了实验测试,完成了对实验结果的分析。实验结果表明FocusedSpider具有较高的采集效率和准确率。
其他文献
移动AdHoc网络(MANET)是由一组带有无线收发装置兼有主机和路由器功能的移动节点组成的一个多跳临时性自治系统由于自主性临时性无基础设施要求及易于组网等特点MANET在民用
天线是通信系统的收发前端,其主波束宽度、副瓣电平、增益、带宽等关键指标很大程度决定了整个系统的性能,而这些指标又是相互联系的,需要在实际工程设计时折衷设计。副瓣电
下一代网络(NGN)的一个重要特征就是在统一的IP网络之上形成开放式的网络环境,向用户提供灵活多样的融合业务。如何自适应用户环境、网络环境和终端环境向用户提供更加智能化
1993年由C.Berrou等人提出的Turbo码具有接近Shannon极限的性能。因此Turbo码自提出起就成为信息论和编码理论界热切关注的焦点。目前Turbo码已经成为第三代移动通信系统的标
目前,电力系统中的间谐波问题越来越突出,已引起人们的广泛关注。各种处理间谐波的理论和文献为间谐波的准确检测提供了各式各样的依据和途径。现有的间谐波检测算法各有其优缺点,总的来说是不能达到精度和实时性的和谐统一。算法的思想在一定程度上决定了算法的精度和复杂度,而复杂度和实时性紧密相连。一般情况下,精度高的算法,复杂度较高,而实时性相对较低;若要求较高的实时性,就必须选用复杂度较低的算法,但这类算法的
随着信息技术的飞速发展,有关3D视觉的研究逐渐升温,3D视频信号成为未来多媒体通信的主要内容。多视角视频是使用多个摄像机在空间的不同位置从不同角度拍摄同一场景而得到的一
交织多址技术(IDMA,Interleave Division Multiple Access)作为第4代移动通信多址接入技术的又一强势竞争者,自被提出以来,已引起各国学者广泛的关注。IDMA系统不仅继承了CDM
多输入多输出(MIMO)技术是无线移动通信领域智能天线技术的重大突破,该技术能在不增加带宽的情况下成倍地提高通信系统的容量和频谱利用率。MIMO通信系统结合正交频分复用(OFD
随着网络、通信技术的不断发展,以网络通信处理器为核心的嵌入式系统得到了广泛的应用。Freescale公司生产的Powerpc系列CPUMPC8347是一款先进的网络通信处理器。为了便于研究