加强规范,不让网络爬虫变“害虫”

来源 :新华月报 | 被引量 : 0次 | 上传用户:zhanghongyingyxl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  近年来,随着移动互联、人工智能、大数据、云计算等新技术的迅速发展与普及应用,人们的工作、交往和生活方式都发生了深刻变化,数据成为驱动社会发展的新型生產要素、各行各业增强竞争力的重要源泉。但在大数据收集过程中,也存在着各种违法犯罪问题。网络爬虫(Web Crawler)作为一种能快速精准地获取数据信息的基础性网络技术,近年来得到了越来越多的青睐和应用。如何对其进行规制,驱动其向好向善,成为当前重要的法治议题。

“小爬虫”的“大角色”


  网络爬虫,又称为“网页蜘蛛”“网络机器人”,是一种按照一定的规则,自动抓取网络信息的程序或者脚本。它能在特定程序的驱动下,模仿人工点击从网站、手机应用、小程序或搜索引擎中检索、提取、存储数据。我们可以形象地将它们理解为一种爬行在网络上的蜘蛛,它们根据程序的指令,通常沿着URL(网址)这根蛛丝,在互联网这张大网上爬来爬去,寻找和带回所需要的数据资源。我们熟知的百度、搜狗、谷歌等搜索引擎,其技术核心元素之一就是“网络爬虫”。例如百度蜘蛛,它通过互联网入口爬取网页,实时存储并更新索引,然后为用户提供检索服务。
  自从1993年第一个网络爬虫程序——“互联网漫游者”被开发出来,网络爬虫这种便捷高效的搜索技术便得到了业界关注。特别是随着数据资源的爆炸式增长,网络爬虫的应用场景也变得越发广泛与多元,长期活跃于市场调查、产品研发、金融分析、舆情监控、风险预测等领域。近年来,一些运用爬虫技术为客户提供数据服务的互联网企业,也获得了快速发展。对个人而言,我们可以利用爬虫软件等计算机编程语言,让网络爬虫为自己服务。例如想买到理想的房子,就可爬取房产中介的公开信息,分析房源数据与趋势以辅助决策。
  网络的本质与价值在于连接,核心是实现数据的流动与分享。网络爬虫作为数据抓取的技术工具,通过爬行增强了网络节点间的联络,提升了网络的整体价值,是构建互联网开放与共享理念的重要技术基石。但网络爬虫所行之处,并非总是鲜花和掌声,特别是涉及隐私领地和网络安全之时。因此,为了规范爬虫,维护网络秩序,1994年诞生了“robots.txt协议”,该协议虽然只是一个“君子协议”,但它逐渐被视为网络空间爬虫技术应用公认的行业准则,也成为判定爬取行为是否获得网站许可的主要依据。在2014年百度公司诉奇虎360违反robots协议案中,法院在判决时就认为,被告没有遵守原告网站的robots协议,其行为明显不当,应当承担相应的不利后果。

科技异化:“好爬虫”和“坏爬虫”


  科技本身是一种中立性工具,向善向恶、合法与非法,关键在于使用者的选择。原本通过robots协议,一方获得了数据与信息,一方增加了流量与关注,皆大欢喜。但robots协议能防“君子”却难防“小人”,有些爬虫程序不遵守规则,随心所欲地爬取别人不愿意分享的数据信息,并大量挤占服务器资源,变成了“网络害虫”。例如近年来一些大数据风控公司利用爬虫技术,在网络上非法收集用户个人信息并转卖给第三方,借以谋取经济利益。
  网络爬虫设计的初衷是通过计算机技术,自动为网站编纂索引,更新信息,为用户提供高效的检索服务。具有访问、下载和解析(对数据进行分析与筛选)三种基本功能。目前,爬虫作恶主要是对前两种功能的异化,体现为三类作恶方式。
  一是恶意抓取非授权数据。访问数据是“网络爬虫”的行为起点,也是其价值本源,一些企业或个人为了经济利益或其他特殊目的,想方设法让网络爬虫突破道德规则与技术障碍(网站“反爬虫”措施),爬取未经授权或超过授权范围的数据。例如2018年2月至4月间,马某通过编写“爬虫”程序,窃取手机应用及网站的用户信息约20万条,然后通过微信出售给他人,非法获利共计2.4万元,这种行为就构成了侵犯公民个人信息罪。
  二是恶意侵犯知识产权。一些网络爬虫在数据爬取过程中,未经版权方的许可,就下载、复制或传播文字、图片和视频等内容,并以此获利。通常形式是,爬虫对具有版权归属的文学或影视作品等设置加框链接,吸引用户点击,然后通过售卖广告等形式牟利。例如段某建立的“窝窝电影”网站,利用爬虫技术对多家视频网站的500余部影视作品设置了加框链接,吸引用户点击播放,并赚取广告费100余万元,这种行为就触犯了著作权法。
  三是恶意扰乱系统运行。网络爬虫访问系统时,跟人工点击原理一样,因此当巨量爬虫同时访问某一网站时,就会占用大量的带宽资源,造成服务器不堪重负甚至崩溃。业内专家表示,2019年有近40%的网络流量来自爬虫,其中20%来自恶意爬虫,而且比例还将不断上升。出行行业即是重灾区。以中国铁路“12306网站”为例,自2011年上线运营以来,春运期间多次出现因爬虫(主要是抢票软件)攻击而无法访问的情况。据统计,2018年春运期间,网站最高峰时1天内页面浏览量达813.4亿次,其中近90%是“爬虫”所为。

合理规制,让“爬虫”向善向上


  据统计,截至2020年12月,我国网民规模达9.89亿。增强网络空间治理,保障个人信息和数据安全,已成为重大的时代命题。
  目前我国对网络爬虫的规制还没有专门的法律法规,主要依靠民法典、反不正当竞争法、著作权法、网络安全法以及刑法中的相关法律条款。但从法律规制效果来看,情况不容乐观。一方面是由于互联网技术的快速发展,以及网络所具有的开放性、虚拟性和流动性等特征,让对违法犯罪行为的监管和证据提取较为困难,特别是随着数据抓取从网页拓展至手机应用程序、小程序等移动端平台,抓取手段就更加复杂与隐蔽;另一方面是网络世界和数字服务发展迅猛,法律法规还具有较大的滞后性,司法实践对网络爬虫技术滥用引发的法律问题缺乏足够的司法经验,而相关的司法解释亦未能予以足够关注,难以形成有效规制。例如2017年今日头条与新浪微博之间因“微头条”业务同步“微博”发言内容的纠纷案例,其实质是数据权属难以确定的问题。但由于缺乏明确的司法解释指引,引发了实践中的普遍争议。
  2019年5月,国家互联网信息办公室公布了《数据安全管理办法(征求意见稿)》,该办法专门针对利用网络开展数据收集、存储、传输、处理、使用等活动进行了规制,有望对网络爬虫等技术行为进行有效治理。该办法强调,国家坚持保障数据安全与发展并重,鼓励研发数据安全保护技术,积极推进数据资源开发利用,保障数据依法有序自由流动。这也提醒我们,网络爬虫等本质上是顺应数字经济发展需求而生,既要从法律层面高度重视,也要把握好法律规制的边界,力求达到数据利用与合理规制之间的良性平衡,以便让网络技术更好地服务经济社会与人民生活,助推数字中国建设。
  (摘自3月20日《光明日报》。作者分别为中央民族大学法学院院长、教授,中央民族大学法学院犯罪防控研究中心研究员)
其他文献
为别人开一朵花,其实也是在为自己开一朵花。在别人开心、快乐的时候,自己又何尝不会感觉到幸福呢?  失业后,在父亲的帮助下,我租了问门面,开了家鲜花店,用以贴补日渐贫困的家庭。由于地理位置的原因,加上又没有特别醒目的标识,鲜花店生意惨淡。为了招揽生意,我决心将一些鲜花从店里搬出来,这样,门口就被打扮得花团锦簇。  一天过后,我打开门时,却发现自己门前摆着的几盆鲜花不见了,仔细一看,却摆在右边饭店的门
《中华人民共和国长江保护法》已于2021年3月1日起正式施行。作为我国第一部流域法律,长江保护法以推进共抓大保护、不搞大开发,提高长江流域生态环境保护的整体性和系统性为立法思路,以生态优先、绿色发展为立法原则,以实现长江经济带高质量发展为立法目标,在立法理念和立法内容等方面均有重大创新与突破。  近日,江苏长江经济带研究院院长成长春教授接受专访,深度解读长江保护法将为保护长江母亲河提供哪些保障,以
在喧闹的人群中,是不会寻找到诗意的。诗意必须要回到自己,要么一个人站在一棵树下寻找绿意,要么你就是一棵树,诗意的本质,是安静中的蓬勃。  活在一群狐朋狗友中,是不容易有诗意的。世俗的吃喝玩乐,只能养成世俗的情趣和情绪。诗意的圈子,二三人足矣,彼此赏心,却从不腻在一起。  距离是诗意的一部分,所有隔着距离的情感才会美。  大自然里最诗意的画面都是安静的。  喧嚣和躁动是美的大敌。内心宕动的生命,形体
长江流域是世界上保存比较完整的淡水河流生态系统,也是世界淡水水生物多样性最为丰富的水系之一。这里是大熊猫、金丝猴、朱鹮等珍稀濒危动物的主要分布区,也是四大家鱼(青、草、鲢和鳙鱼)及其他重要水产种质资源的主要栖息繁殖地。  这里还繁育着诸多特有物种,具有重要的生态价值,与人类的生產生活息息相关。从科学研究到餐桌,不同的长江特有物种都扮演着重要的角色。人工养殖离不开野生鱼原种  民间流传着“长江三鲜”
瓜园中丝瓜蔓顺着竹竿爬上了瓜棚,不断向前延伸。巴掌大浓绿的叶子铺满棚面,叶子隙缝中一条条小丝瓜长势旺盛。  一只小猪窜进瓜园来,在瓜棚下东瞅西望寻找食物,但是四周空空如也。饥饿的小猪不耐烦了,用它长长的嘴唇拱起泥土,瓜的根不断被挖掘出来,零零乱乱地撒满一地。  “哈,看那可怜相,”叶子指着露在地面的根兴灾乐祸地对小瓜说,“这些没用的东西,一天到晚躲在地下阴暗的角落里,不知都干些什么見不得人的事情。
河北乐亭·李大钊故居、纪念馆  一把藤椅,百年岁月。  在河北省唐山市乐亭县大黑坨村的李大钊故居中,有一件文物尤其珍贵:那是一把历经百年沧桑的藤椅,藤椅表面已呈黄褐色,扶手、椅座处有些许藤条已经断裂。这是1918年1月,李大钊出任北大图书馆主任时亲自买来的。就是在这把藤椅上,李大钊潜心研读马克思主义,挥笔疾书写出了《庶民的胜利》《布尔什维主义的胜利》等重要文章,用敏锐的目光、深邃的思想、无畏的精神
先进精英的群体性选择  今年2月20日,习近平总书记在党史学习教育动员大会上提出了四个新说法:一是学史明理。要明白三个问题,就是马克思主义为什么行、中国共产党为什么能、中国特色社会主义为什么好。二是学史增信。要增加对中国道路的自信。三是学史崇德。就是要了解中国共产党一路走来,100年积累起来的伟大精神和红色基因。四是学史力行。就是要实践,开新局。习近平总书记指出,学党史要发挥四个方面的作用,我想中
2020年,我国有196万种书没有卖出1000册,图书质量良莠不齐。与此同时,随着人们的阅读越来越碎片化,书反而越出越厚。有人问:以往老一代学者写的“小而可贵”的书,今天还在吗?“大家写小书”的传统,如何延续下去?围绕读者关切,记者进行了深入采访。  北京,王府井书店。最显眼的书架上摆放着一些看似“大部头”的历史类图书。翻开一本封面写着“理想读本 经典藏书”的《史记故事》,全书42万字,却并没有一
2020年,我国有196万种书没有卖出1000册,图书质量良莠不齐。与此同时,随着人们的阅读越来越碎片化,书反而越出越厚。有人问:以往老一代学者写的“小而可贵”的书,今天还在吗?“大家写小书”的传统,如何延续下去?围绕读者关切,记者进行了深入采访。  北京,王府井书店。最显眼的书架上摆放着一些看似“大部头”的历史类图书。翻开一本封面写着“理想读本 经典藏书”的《史记故事》,全书42万字,却并没有一
一套由日本学者集体所著的《中国的历史》丛书,近年来在中国国内引起广泛关注。记者近期走访了出版方讲谈社以及两位日本作者,一探丛书出版背后的故事。出版者说  讲谈社是日本最大的综合出版社之一,出版物涵盖文学、社会、哲学宗教、地理历史等几乎所有门类,涉华题材是其历来较为关注的出版题材之一,至今出版过不少以中国历史、中国文化、中国旅行记等为题材的图书。这套《中国的历史》于2004年至2005年间推出,属于