亚马逊调查Perplexity AI：涉嫌违规抓取网站数据

栏目分类

业务范围: 关于华宇; 业务范围; 最新动态; 联系我们

热点资讯

格鲁吉亚现状，不知当讲不当讲

【太恐怖了】景区看人头，到处排长队，拍照全是人！网友大喊：妈

杭州八月十八大潮马上要来了，“追潮人”都准备好了吗？

你的位置：华宇注册 > 业务范围 > 亚马逊调查Perplexity AI：涉嫌违规抓取网站数据

亚马逊调查Perplexity AI：涉嫌违规抓取网站数据

发布日期：2024-07-02 00:36 点击次数：153

长期以来，各大搜索引擎和知名公司的爬虫程序普遍遵循robots.txt协议这一标准。

【环球网科技综合报道】6月29日，据多家外媒消息，亚马逊网络服务（AWS）已正式对人工智能搜索初创公司Perplexity AI展开调查，起因是后者被指控未经网站所有者同意，使用托管在AWS服务器上的爬虫程序抓取数据，且涉嫌违反robots.txt排除协议。

robots.txt协议作为一种网络标准，由网站管理员设置，旨在告知网络爬虫哪些页面可以被访问，哪些则禁止抓取。尽管遵守该协议是自愿的，但长期以来，各大搜索引擎和知名公司的爬虫程序普遍遵循这一标准。然而，近期有指控称，Perplexity AI的爬虫程序却选择了忽视。

根据《Wired》杂志的报道，其调查团队发现了一台托管在AWS服务器上的虚拟机，该机器使用的IP地址为44.221.181.252，在过去三个月内多次访问并抓取了Condé Nast旗下资产的内容，包括《Wired》杂志本身。此外，《卫报》、《福布斯》和《纽约时报》等媒体也报告了类似情况，指出该IP地址多次访问其出版物内容。

为验证Perplexity AI是否确实在抓取内容，《Wired》杂志将文章标题或简短描述输入Perplexity的聊天机器人进行测试。结果显示，聊天机器人返回的内容与原文措辞高度相似，且引用极少，进一步加剧了对其违规行为的质疑。

面对指控，Perplexity AI方面表示已回应亚马逊的询问，并否认其爬虫程序故意绕过robots.txt协议。公司发言人Sara Platnick强调，PerplexityBot在AWS上运行时尊重robots.txt文件，并确认公司控制的服务不会违反AWS服务条款进行爬虫活动。然而，她也承认，在特定情况下，即用户输入特定URL时，PerplexityBot会忽略robots.txt协议。

Perplexity AI首席执行官Aravind Srinivas则指出，公司确实使用了第三方网络爬虫程序，而Wired所识别的违规爬虫可能正是其中之一。他否认公司“无视机器人排除协议并就此撒谎”，但承认公司在数据处理和引用来源方面存在改进空间。

值得注意的是，路透社最近的一份报告指出，Perplexity AI并非唯一一家绕过robots.txt文件收集内容以训练大型语言模型的人工智能公司。然而，亚马逊的调查目前似乎仅针对Perplexity AI展开。

亚马逊发言人向《连线》杂志表示，AWS服务条款明确禁止客户使用其服务进行任何非法活动，且客户有责任遵守条款和所有适用法律。此次调查旨在确认Perplexity AI是否存在违规行为，并根据调查结果采取相应措施。

上一篇：iPhone16能换电池？苹果你来真的啊

下一篇：手机/耳机/音箱上榜：苹果三款“复古产品”你有几个？