需要云计算吗? 即刻开始体验

这种抓取会产生怎样的影响?网络抓取类爬虫程序如何损害电商利润

Mitch Mayne

寫於

Mitch Mayne

June 25, 2024

Mitch Mayne

寫於

Mitch Mayne

Mitch Mayne 是网络安全领域的知名人士,撰写了多篇理念富有前瞻性的文章和威胁情报报告。此外,他还主持了多个成功的播客系列,并作为事件响应人员,提供主动沟通计划和应对性沟通计划,帮助客户在数据泄露发生前提前做好准备并在事后进行有效应对。在 Akamai,他领导威胁情报和网络安全研究团队,提供全面的分析和报告,帮助客户、政策制定者和行业同仁更好地防范网络犯罪分子的威胁。

Mitch 利用其在新闻领域的背景,专门将复杂的技术内容转化为可操作的、易于理解的信息,方便日常业务用户使用。他拥有斯坦福大学传媒专业硕士学位。

对电商企业而言,爬虫程序就像花园里的昆虫:其中一些是有益的,而另一些则是毁灭性的害虫。
对电商企业而言,爬虫程序就像花园里的昆虫:其中一些是有益的,而另一些则是毁灭性的害虫。

对电商企业而言, 爬虫程序 就像花园里的昆虫:其中一些是有益的,而另一些则是毁灭性的害虫。爬虫程序可以为网站带来流量,将流量重定向到自己的虚假网站,或者执行其他阴谋诡计,比如 撞库

最近,一种特别的爬虫程序引起了电商企业的注意: 网络抓取类爬虫程序。这些爬虫程序能够避开检测,进而隐秘地侵蚀受害者的利润。

什么是抓取类爬虫程序?

正如其名称所暗示的,这类爬虫程序会潜入网站并抓取所有可公开访问的数据和内容,比如图片、产品详情、定价信息和库存信息。

此类内容可通过各种各样的方式加以利用。例如,可将其用于竞争分析,包括产品价格、折扣、库存,以及产品 SKU 编号、类别和描述。合法网站还可能被复制用于 网络钓鱼 或品牌仿冒活动以压低价格,从而导致企业陷入恶性竞争。

威胁性较低的 网络抓取工具 仍可能通过涌入网站的铺天盖地的 GET 请求来降低网站性能,抬高计算和服务器成本。无论出于什么目的,抓取类爬虫程序都可能使电商降低收入、增加 IT 成本并损害客户体验,让您处于竞争劣势。

我们在新的互联网现状 (SOTI) 报告中探讨了这一现象,并探讨了电商企业可以采取哪些措施来进行自我保护。该报告名为 《侵蚀您的利润:网络爬虫程序对电商行业的影响》

无图形界面浏览器:隐蔽的威胁

网络抓取类爬虫程序之所以如此另类且令人担忧,是因为它们真正的经济影响通常都隐藏于表面之下。检测出这类恶意爬虫程序很困难,其中一部分原因是它们使用的是无图形界面的浏览器,即缺少图形化用户界面的浏览器,这种浏览器通常用于测试和抓取网站。这使其极易避开检测。

影响商务的主要应用场景

我们的研究还发现了使用网络抓取类爬虫程序开展各种不当活动的示例,包括: 

  • 创建仿冒网站

  • 囤积库存

  • 收集情报

创建仿冒网站

酒店业务是抓取类爬虫程序的首要目标,它们会抓取内容并建立虚假预定网站,以盗取信用卡号和其他个人身份信息。

囤积库存

另一个应用场景是囤积库存,即爬虫程序反复 ping 目标网站,一旦发现产品有货,就将产品添加到购物车,使得合法客户无法购买。这类场景通常出现在假日季,在线购物量达到高峰、物超所值的时候。

这项技术还可能影响搜索,因为当被抓取的网站上商品“缺货”时,其他零售商就会出现在结果中。这不仅会抢走卖家的收入,损害其搜索排名,还可能劝退合法客户,让他们决定将来在其他地方购物。

收集情报

还有人使用网络抓取类爬虫程序收集竞争情报,例如定价和特惠活动数据,让零售商能够以低价打压竞争对手。市面上出现了多款帮助收集此类数据的第三方网络爬虫工具和服务。

甚至还有 ScrapeCon 这样专门的行业大会,供参与者分享避开反爬虫程序抵御技术的最佳实践和技术。虽然网络抓取公开内容本质上并不违法,但很多人利用第三方工具都是为了后续开展恶意行动。

AI 加剧了抓取带来的危害

如同其他类型的威胁一样,由人工智能 (AI) 驱动的抓取类爬虫程序让希望阻止它们的企业面临更大的危害。AI 爬虫程序不仅会收集数据,还会提取和处理此类数据。

这使得爬虫程序能够有效识别重要信息,简化了筛选价格、折扣、库存,以及产品 SKU 编号、类别和描述等信息的流程。这可能用于迅速收集大量竞争情报或大规模开展倒卖活动。

专业化检测的价值

有个好消息要告诉对 网络抓取倍感担忧的电商企业。设计用于专门检测和阻止抓取类爬虫程序的 爬虫程序管理解决方案 已表明能够大幅降低高风险爬虫程序流量,改善业务成果。

最近,Akamai 研究人员调查了一组电商活动一周的流量。他们分析了 69 亿次请求来识别流量并总结流量的特征(图 1)。他们发现:

  • 49.3% 的请求来自人类用户

  • 42.1% 的请求来自爬虫程序(8.7% 为混合型或未分类)

  • 65.3% 的爬虫程序流量来自被分类为恶意爬虫程序的抓取工具

  • 34.7% 的爬虫程序流量来自被分类为良性爬虫程序的抓取工具

They analyzed 6.9 billion requests to identify and characterize them (Figure 1). Fig. 1: Traffic activity classification breakdown

抵御恶意爬虫程序

区分良性和恶意爬虫程序流量,使我们可以瞄准目标采取抵御措施。激活后,通过 Akamai Content Protector 进行抵御,可大幅减少高风险爬虫程序请求,显著降低恶意活动(图 2)。

Once activated, mitigation with Akamai Content Protector resulted in a dramatic reduction in high-risk bot requests, lowering malicious activity substantially (Figure 2). Fig. 2: Risk levels before and after mitigation with Akamai Content Protector

改善业务成果

抵御网络抓取工具可降低恶意活动的风险,同时大幅减少消耗网站资源的流量。高风险流量的减少可从各方面改善业务成果,如提高网站性能、提高转化率、提高网站指标准确度,以及降低 IT 成本。掌握有关有益流量的准确指标,还能让公司制定出更好的投资决策,推动收入增长。

阻挡不断涌现的网络抓取类爬虫程序

爬虫程序牧人很狡猾,他们的手段在不断升级。 检测并抵御恶意网络抓取类爬虫程序 需要拥有与爬虫程序本身一样复杂的工具和专业知识。与拥有这些能力的合作伙伴携手,在阻挡不断涌现的网络抓取类爬虫程序时可能带来不可估量的价值。

爬虫程序的态势变化多端,不断为电商企业带来新的安全挑战。了解网络抓取的威胁是关键的第一步,只有这样,才能保护您的企业免遭欺诈损失,确保您的电商企业正常运转、卓有成效且不被害虫侵蚀。

了解更多

获取完整案例:下载互联网现状 (SOTI) 报告 《侵蚀您的利润:网络爬虫程序对电商行业的影响》



Mitch Mayne

寫於

Mitch Mayne

June 25, 2024

Mitch Mayne

寫於

Mitch Mayne

Mitch Mayne 是网络安全领域的知名人士,撰写了多篇理念富有前瞻性的文章和威胁情报报告。此外,他还主持了多个成功的播客系列,并作为事件响应人员,提供主动沟通计划和应对性沟通计划,帮助客户在数据泄露发生前提前做好准备并在事后进行有效应对。在 Akamai,他领导威胁情报和网络安全研究团队,提供全面的分析和报告,帮助客户、政策制定者和行业同仁更好地防范网络犯罪分子的威胁。

Mitch 利用其在新闻领域的背景,专门将复杂的技术内容转化为可操作的、易于理解的信息,方便日常业务用户使用。他拥有斯坦福大学传媒专业硕士学位。