Blog数据搜集与数据分析技术

来源 :北京大学 | 被引量 : 0次 | 上传用户:dfsdfdf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着blog在全世界的流行,面向blog的Internet服务系统也越来越多。其中最常见的是blog搜索服务,也就是面向blog的垂直搜索引擎。尽管对blog的研究方兴未艾,但是很少有文献完整全面的讨论blog的搜集系统的设计,特别是在垂直搜索引擎的大框架下。 本文的工作就是分析和设计blog垂直搜索引擎的搜集系统。主要贡献包括下面几点。 1.设计了blog垂直搜索引擎的系统架构。本文针对垂直搜索引擎和通用搜索引擎的区别,对blog垂直搜索引擎的搜集、索引和服务子系统作了分析,并给出了系统架构图。 2.分析了blog垂直搜索引擎搜集系统设计要点。本文给出典型搜集系统的架构,讨论搜集系统普遍遇到的问题。然后具体针对blog垂直搜索引擎,分析它的搜集系统需要考虑的一些特殊问题,包括搜集策略的问题,JavaScript的问题,虚拟主机的问题等等。 3.详细讨论了blog搜索引擎搜集系统的设计和工作流程。我们设计了搜集系统的系统架构;提出用focused搜集策略搜集blog站点;利用站点的URL模式来识别blog;针对blog站点的特点,设计高效的DNS解析系统;分析blog搜集中的友好性设计面临的问题,并给出详细的frontier模块的设计;分析post搜集的两种方案,并给出post搜集的系统架构。 4.对搜集到的百万blog数据作了简单的分析。我们讨论了blog站点中存在的链接局部性、blog分布不均衡等4点特性,并评估它们对搜集系统的影响,尤其针对AJAX带来的影响,给出了blog搜集的一些具体的改进方案。
其他文献
互联网和现代信息技术的飞速发展为现代农产品物流注入了新的活力,带来了巨大的发展机遇和挑战,促进了现代农产品物流的大发展。尽管目前农产品物流配送企业普遍采用了计算机进
深圳市南山区社区综合信息决策支持系统CODSS是深圳市南山区政府委托深圳市高正软件有限公司开发的一套电子政务系统。该系统通过综合信息服务平台、社区综合信息管理平台、
无线Mesh网络(Wireless Mesh Network,WMN)作为一种无线多跳的组网方式有着广阔的应用前景。使用WMN网络技术,用户可以不依赖于现有的网络基础设施,用较低的成本快速部署一个可
近年来,随着网络技术的不断发展和网络数据的迅猛增长,用户对搜索引擎的要求也越来越高,希望对于搜索到的文件,不必安装相应的阅读软件,就可以打开并使用。 目前,为了解决这一问
视频中的异常检测是一项极具意义和挑战性的工作,不仅在日常的监控系统中有很大的应用价值,在计算机视觉中也是研究的重点,而现实生活中的监控场景大都是拥挤场景,例如车站,
面向Web Services的构件信息收集工具的设计与实现软件构件库为软件开发人员查找合适的构件提供了便利。目前软件构件库主要采用由构件开发者发布的方式来收集构件。而构件开
随着智能手机技术的发展,人们越来越多地把工作和生活的计算平台从传统的PC平台转移到移动平台。智能手机储存了大量的用户隐私,例如通信记录、位置信息等,因而成为攻击者的
量化的软件过程管理方法对于提高过程成熟度和软件产品质量起到了重要的作用,并且已经被业界广泛的接受。现有的方法存在下述问题:需要为每个过程独立的制定其度量策略,成本很高
随着Internet的快速发展和网络信息量的增长,Web信息已经成为当前人们生活必不可少的信息源。为了在Web这个大的信息库中查找、获取我们感兴趣的信息,我们通常的方式使用搜索引
随着P2P文件共享系统从以服务器为中心架构转变为弱中心或无中心的架构,传统的节点管理已经不能适应发展需求,因而导致了一些漏洞的产生。与此同时P2P的用户数量却在迅速增长,使