论文部分内容阅读
大数据时代让网络爬虫成为信息获取与数据采集的利器,也让爬虫成为了一把双刃剑,恶意爬虫不仅导致网站访问速度变慢,还会泄漏隐私机密信息,因此对反爬虫机制的研究显得尤为重要.本文主要研究基于流式计算技术的反爬虫机制,通过分析某订票官方网站日志,制定防爬规则.根据大数据时代下爬虫爬取信息的自动、大量、快速等特点,设计实现了依托于流式计算技术的反爬虫系统.