OpenAI 的机器人像 DDoS 攻击一样摧毁这家七人公司的网站

作者:

CBISMB

责任编辑:

张金祥

来源:

ISMB

时间:

2025-01-13 11:39

关键字:

OpenAI 机器人 DDoS

在周六的一个平静日子里,Trilegangers的首席执行官Oleksandr Tomchuk突然收到了一条令人不安的警报——公司的电子商务网站瘫痪了。经过初步调查,他发现这场灾难的源头竟然来自OpenAI的一个机器人,该机器人正试图大规模抓取Trilegangers网站上庞大的数据资源。

Trilegangers,这家仅有七名员工的公司,经过十多年的努力,建立了网络上最大的“人体数字替身”数据库,即基于真实人体模型扫描而来的3D图像文件。这些文件以及相关的照片被广泛应用于3D艺术、视频游戏制作以及任何需要以数字方式重现真实人类特征的领域。然而,这次OpenAI的爬虫行动却给Trilegangers带来了前所未有的危机。

据Tomchuk透露,OpenAI的爬虫使用了600个IP地址,发送了“数万”个服务器请求,试图下载Trilegangers网站上超过65,000种产品的所有信息,包括数十万张照片及其详细描述。这种高强度的数据抓取行为,无疑对Trilegangers的网站构成了巨大的压力,甚至可以被视为一种分布式拒绝服务(DDoS)攻击。

然而,令人惊讶的是,Trilegangers的网站原本有一个服务条款页面,明确禁止机器人未经许可拍摄其图像。但遗憾的是,这个条款并没有起到应有的作用。因为网站并没有正确配置robot.txt文件,这是一个用于告诉搜索引擎和其他爬虫哪些内容不应该被抓取的协议。由于这个疏忽,OpenAI和其他公司的爬虫便认为他们可以随意抓取Trilegangers网站上的数据。

Tomchuk表示,这次事件不仅导致Trilegangers的网站在美国工作时间内被迫下线,而且由于爬虫的大量CPU和下载活动,公司的AWS账单也大幅增加。更糟糕的是,他至今没有找到合理的方法来查明OpenAI究竟成功窃取了哪些内容,或者如何删除这些内容。

事实上,Trilegangers的遭遇并不是个例。随着人工智能技术的快速发展,越来越多的AI公司开始使用爬虫技术来收集数据以训练他们的模型。然而,这种数据抓取行为往往缺乏明确的规范和监管,导致许多网站在不知情的情况下被大量抓取数据。

对于Trilegangers来说,这次事件不仅是一次技术上的挑战,更是一次对业务模式的深刻反思。Tomchuk表示,他们现在必须每天监控日志活动以发现这些机器人,并采取措施来保护自己的数据。同时,他也希望其他小型在线企业能够意识到这个问题的严重性,并主动采取措施来保护自己的版权资产。

此外,Tomchuk还呼吁OpenAI等AI公司能够更加负责任地使用爬虫技术。他认为,这些公司在抓取数据之前应该请求网站的许可,而不是仅仅依靠robot.txt文件来决定哪些内容可以被抓取。只有这样,才能建立一个更加健康、可持续的AI数据生态。

地址:北京市朝阳区北三环东路三元桥曙光西里甲1号第三置业A座1508室 商务内容合作QQ:2291221 电话:13391790444或(010)62178877
版权所有:电脑商情信息服务集团 北京赢邦策略咨询有限责任公司
声明:本媒体部分图片、文章来源于网络,版权归原作者所有,我司致力于保护作者版权,如有侵权,请与我司联系删除
京ICP备:2022009079号-2
京公网安备:11010502051901号
ICP证:京B2-20230255