爬虫程序正在倒卖以色列政府服务
作者:Gon Avnon
执行摘要
以色列政府机构服务机会难求,一种黄牛爬虫程序趁火打劫,从以色列公民身上牟利,Akamai 研究人员持续密切监控该爬虫程序的情况。
目前有 70 多万名以色列人需要预约护照续签服务,这给内政部造成了需要数月才能消化完毕的积压工作。
一个开发人员团体制作了一个爬虫程序,支持快速获得以色列部分政府机构使用的预约平台 MyVisit 提供的预约名额,并将此程序免费发布给公众使用。
不久之后,另一个团体制作了自己的爬虫程序,借各种政府服务的 MyVisit 预约通道牟利,其中涉及到内政部、交通部、国民保险部、以色列邮政、电力公司等政府机构的服务。每项预约的收费超过 100 美元。
MyVisit 曾尝试使用验证码来降低爬虫程序的影响,但攻击者的爬虫程序很快就绕过了验证码机制。
为了有效拦截这些爬虫程序,需要找到更全面的解决方案,它应该具备爬虫程序管理产品提供的那类功能,并使用各种安全措施:设备指纹、浏览器验证、JavaScript 质询,以及在后端对数据进行分析和分类的高级机器学习模型等。
前言
恶名卓著的 Scalper 爬虫程序威胁着世界各地的电商购物者。无论是游戏机、热销运动鞋、收藏品还是显卡,任何限量版商品都会成为黄牛党的目标,他们将这些商品倒卖给不太擅长利用技术的消费者,并从中获利。
但以色列出现了一个有风险的新黄牛市场——政府服务。漫天要价的演唱会门票没有损害以色列人的经济利益,与日常生活休戚相关的服务却攫取了他们的钱财。相较于没法去度假,这个黄牛市场造成的损害要更大。
在这篇博文中,我会解释这种威胁的起源、现状,以及它给以色列和其他国家/地区造成的危险。
护照续签潮
新冠疫情对我们生活影响最大的一个方面就是休闲旅行禁令。幸运的是,旅行禁令已经略有放松,这就是本文故事的开端。在过去两年多的时间里,数百万以色列人居家避疫,他们渴望出国旅行,在禁令放松之际,他们纷纷找出被遗忘已久的护照,而数十万人发现护照即将过期。在疫情之后,内政部人手紧缺,对于这种情况全无准备,大量渴望度假的以色列人的涌入让他们不堪重负。当时他们待处理的申请 超过 70 万份 ,外交部的劳资纠纷更是雪上加霜, 造成到期护照不能得到及时处理, 进出以色列都非常不方便。
以色列人通过何种方式取得这些“一证难求”的政府文件?为了预约护照续签服务,人们会不停刷新每天早 7 点开放新名额的在线预约网站 MyVisit,希望能刷到预约名额。许多人等待了几个月,并前往全国各地以获得必要的预约。
但有一些开发人员想出了更好的解决方案,他们制作了一个名为 GamkenBot的预约爬虫程序。在您填写联系信息和首选地点之后,这种预约爬虫程序会持续查询预约系统,尽力查询和获得新名额。他们将这个小工具发布给公众使用,并获得了广泛好评,其创建者很快就成为公众心目中反抗官僚制度的斗士。
贪婪者闻风而至
遗憾的是,心怀恶意者不会放过大多数可用于正面用途的事物。黄牛党很快就出现了,他们利用这个善意爬虫程序,获得这些宝贵的预约机会,并将其倒手卖给迫切渴望获得预约的民众。
就在 GamkenBot 发布后不久,5 月 10 日,MyVisit Appointments Group 在一个 Telegram 频道中诞生。显然,内政部并不是唯一依赖 MyVisit 预约系统的政府机构。这个 Telegram 小组不但提供护照续签预约服务,还可预约人口管理局、以色列电力公司、国民保险部、以色列邮政、交通部等机构的服务。其管理员自称是一群开发人员,他们制作的爬虫程序可执行扫描,抢下新开放的预约名额,然后转卖给公众。如果买家购买 2 项或更多预约服务,他们甚至还提供折扣。
这将必要的政府服务变成了一种可交易的商品。对寻求必要服务的公民“敲竹杠”本身就非常糟糕,更何况这种漏洞可能给国家安全造成更严重的影响,本文后续会谈到这方面的话题。
这些爬虫程序的开发人员声称,他们是为客户提供服务。但实际上,他们与那些倒卖运动鞋或演唱会门票的黄牛党没有区别。他们介入到供应商与消费者之间,对于不需要他们干预也能完成的事务收取“中间费”。
MyVisit 是各政府机构使用的预约系统,旨在为公众提供便利。但由于实施方法不安全,这个系统反而放大了其最初要解决的问题。这造成金融、行政和其他与大众生活休戚相关的服务成了敲竹杠的筹码。
国家安全风险
令人不安的是,这种爬虫程序的影响不只有利用必要的政府计划向民众“敲竹杠”。这可能给敌对实体或希望造成混乱的实体带来机会,他们不仅有可能关内政部的护照预约通道,还有可能关闭交通部的卡车和公交车司机登记服务,或是国家保险公司或电力公司的访问预约服务等。如果这份列表进一步扩大,包含医生预约或医院手续,结果不堪设想。
减轻威胁
MyVisit 曾尝试过 在预约页面上嵌入一个 CAPTCHA 验证码,以阻止爬虫程序,但爬虫程序开发人员 只用了几天时间就绕过了这种机制。CAPTCHA 验证码毕竟算不上反爬虫程序解决方案,因为这种机制能通过比较简单的技术绕过,例如自动生成的解析器、人工农场或令牌搜集,具体选用的技术取决于 CAPTCHA 验证码的难度和攻击者的动机。
在爬虫程序发展初期,可以通过简单的 HTTP 标头异常来检测许多爬虫程序。但时至今日,爬虫程序已发展到能娴熟模仿人类的在线互动方式。为了对抗现代爬虫程序,爬虫程序管理产品采用了更先进的措施。设备指纹和行为分析与机器学习模型相结合,每天馈送数十亿个请求,以检测趋势和异常情况。爬虫程序开发人员学会了操纵其浏览器环境并模仿人类行为,这促使研究人员不断竭力提高检测能力,寻找属性篡改、自动化痕迹以及新型规避方法。
最终,只要动机足够高、资源足够多,攻击者能绕过任何反爬虫程序保护机制,至少在小规模上是这样。但应尽可能设定较高的标杆,而且必须不断提高标杆。至少从这个方面来说,一些政府机构远不及运动鞋公司。
结论
在现代社会中,爬虫程序能提供一些显著的好处。例如,提供预约服务帮助的爬虫程序能给民众带来便利,因此广受欢迎。聊天机器人和助理机器人旨在让我们的生活更轻松,除了一些小小的不便之外,它们确实兑现了这一承诺。
日新月异的科技让我们能将更多复杂任务自动化,交给爬虫程序进行处理。这些爬虫程序帮我们摆脱了一些繁琐的工作,但也给心怀叵测者带来了机会。为了保护网络生活,确保其不受破坏,我们必须能识别和分类爬虫程序,让它们远离本不属于他们的领域。