| 作者:赵政瑛
| 审稿:袁睿斌
| 编辑:周韵诗
| 设计:冯歆怡
LinkedIn 是微软旗下的职业社交平台,用户可以在 LinkedIn 网站建立个人档案,包括教育背景、工作经历、技能等信息。HiQ 则是一家数据分析公司,从 LinkedIn 爬取公开数据,进行整理分析后将处理结果出售给相关企业。
2017年5月,LinkedIn致信hiQ,要求其停止未经授权的访问和数据爬取行为,随后hiQ向美国加州北部地区法院提出诉讼,主张LinkedIn的行为违反言论自由的规定。至此,LinkedIn也开启了长达5年的法律诉讼,这便是轰动科技圈的「hiQ Labs Inc v. LinkedIn Corporation」事件。
在此案之前,任何访问 LinkedIn 网站的人都可以得到这些数据。在数据分析公司 HiQ 长期对 LinkedIn 的网站数据进行爬取行为后,LinkedIn 向 HiQ 发送了禁止通知函,并在函中援引了《计算机欺诈与滥用法案》(Computer Fraud and Abuse Act, “CFAA”)。美法院法官认为,这种爬虫行为并不违反法律,因为 LinkedIn 网站上的数据是公开数据,对于公开数据,即使违反对方设置的 robot 协议,也应当是被法律允许的。
2022年4月18日,在第二次裁决中,第九巡回上诉法院重申了其最初的决定——网络爬虫是合法的。并表示,抓取互联网上公开数据的行为,并不违反美国《计算机欺诈和滥用法案》,即CFAA。
此案的裁决得到了美国媒体的欢呼和赞誉,认为第九巡回法院的决定是档案工作者、学者、研究人员和记者的“重大胜利”。在2021年第二季度,全球遭遇的账户滥用攻击达到了700亿次,同比增长15%,相较于2020 年,2021 年黑产每周对企业的网络攻击数量增加了 50%,并且在全球互联网流量中,爬虫占据将近40%的流量。美国法院这一裁定,也意味着从此百亿爬虫抓取在线零售商和社交网络平台的公开信息,是合乎美国法律的。那么将来更多美企遭遇同样问题的时候,面对“爬虫攻击”也将“无法可依”。
爬虫攻击是一种自动化的恶意软件,通过远程互联网对目标站点进行攻击,以达到商业欺诈的目的。凭证滥用类攻击是撞库攻击最主要的方式,它将从黑市上获取的大量用户数据和账户信息在不同的网站进行登录尝试,从而得到有效账户,最终把这些账户非法贩卖给其他人。并且,黑产发起的万亿级爬虫攻击,会给企业造成大量的带宽资源消耗,占用大量的服务器资源,如果服务器没有储备额外的业务并发,就会对正常业务造成影响,导致用户访问速度变慢,甚至是服务器崩溃。
对于爬虫攻击企业面临的挑战有3个:来自竞争对手的数据爬取行为;用户隐私数据泄露与账号盗用;对用户轻打扰,甚至零打扰。所以企业既要防止黑产对业务的破坏,又要兼顾业务体验与业务的正常开展。
其实我们经常在与反爬接触,比如:在浏览网站或者打开某个应用的时候,注册账户、登录或访问页面时,经常会遇到各式各样的验证码,又或者是,在看视频直播、玩游戏等过程中弹出的小窗口,这都是企业的反爬。作为区分人类与机器的利器,验证码是当前最为常见与普遍的反爬虫解决方案之一。
对于编写网络爬虫的程序员来说,要谨慎对待爬虫技术,因为如果爬到不该爬的数据,就存在违法的可能。而对于企业来说,应遵循用户的选择、数据开放交换和共享及数据安全的原则,如果数据保护定义模糊时或不在法律保障范围内,反爬将成为最后一道防线。
| 留言与评论(共有 0 条评论) “” |