面向微博的主题爬虫设计与实现

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:lixinjun678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  Internet 的高速发展使得互联网逐渐渗透到人们的日常生活中,对社会的方方面面产生了深远的影响。权威机构的调查显示,互联网用户数量每年都在飞速递增,并且中国的网民数量已经位居全球第一。互联网用户可以在Web 上畅所欲言,相互交流,因此互联网已经成为虚拟“公共话语空间”,是公众都能参与的新兴公共舆论平台。   随着互联网的迅速发展,微博己经发展成为包含多种信息资源、站点分布全球的海量信息服务网络。微博爬虫是一种用于帮助互联网用户查询信息的搜索工具,它以一定的策略在微博中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务和信息导航。   本课题的主要目的是设计面向微博的主题爬虫程序,同时需要满足性能和功能要求,考虑到微博爬虫的不同需求,微博爬虫应用宽度搜索技术,对URL进行分析,去重。微博爬虫的实现使用多线程技术,使爬虫具备更好的的抓取性能,并对网络爬虫的连接网络设置连接及读取时间进行设定,避免无限制的等待。为了适应不同需求,微博爬虫采用预先设定的主题,实现对特定主题的爬取,本论文研究了微博爬虫的原理,并实现爬虫的相关功能。
其他文献
在基于角色的访问控制模型中,虽然已经提出了很多改进模型来解决RBAC模型的不足。但这些模型或者对权限的划分粒度不够精细,或者忽略了授权的灵活性,从而影响功能模块的独立
随着信息技术和“以客户为中心”的经营模式发展,客户价值逐渐成为客户关系管理(CRM)的核心;科学、全面地掌握和评估客户价值大小并采取有效的、正确的策略提升客户价值,成为
随着网络通信与计算机技术及信息产业的高速发展,基于混沌理论的信息安全技术的研究变得越来越重要。混沌系统因其具有对初始状态与参数极端敏感性、遍历性和轨道的不可预测性
随着计算机技术的不断发展,目标跟踪作为当前计算机研究领域中的一个热点问题,广泛应用于民用和军事等领域。例如:人机交互、智能监控、城市安防、智能交通、战场监视等。目标
图像分割一直都是高光谱技术研究中的一个热点。虽然目前已经有较多的图像分割算法,但大都针对具体的应用,在海面溢油区域划分问题上效果不理想。如果能有一种分割算法很好地
最近几年来,随着多层前馈脉冲神经网络监督学习研究的快速发展,越来越多的研究成果表明基于脉冲精确定时编码的脉冲神经网络是神经系统处理信息的基础。很多研究者借鉴传统人工
激光扫描测量技术是继GPS之后测绘领域诞生的一种高新测绘技术,能够快速高效地获取目标物体表面详细的三维空间信息,在数字城市、环境监测、交通仿真等领域为快速实现三维建
随着社会经济全球化发展,企业竞争由产品竞争转向市场竞争,市场竞争的关键在于争夺客户资源,如今,客户已经成为企业生存发展的重要资源。为了维持企业的长期发展,增加企业的
Euclidean最短路径(ESP)问题是计算几何领域的经典问题。本文针对LR可视多边形中ESP问题的求解算法研究,设计出一个简单、可行的求解算法,为解决一些实际应用问题(如巡视员问
科技的进步,推动农业机器人技术迅猛发展。在农业生产中,采摘是一个重要的环节,它的工作量约占整个工作量的一半以上。采摘机器人作为农业机器人的一个主要的类型,能够提高劳动生