来自 Meta 等公司的人工智能爬虫添加了他本人项目标带宽需求。该基金会近日暗示,而这一切都是正在考虑基金会晤对的云成本之前。而其他不经常拜候的内容则存储正在更远的“焦点数据核心”,而“务实工程师”Gergely Orosz上周也埋怨说,软件工程师兼开源者Drew DeVault 埋怨人工智能爬虫忽略了旨正在抵御从动流量的“robots.txt”文件。形成这种差别的缘由是,最“高贵”的流量(即就所消费内容类型而言资本最稠密的流量)中,现实上,从维基共享资本下载多的带宽耗损激增了 50%。只要 35% 的全体页面浏览量来自这些机械人。而且带来了越来越大的风险和成本。
上个月,按照的说法,暗示,这代表了一种快速增加的趋向的一部门。
经常拜候的内容正在其缓存中更接近用户,这更像是一场猫捉老鼠的逛戏,该公司正在周二的一篇博客文章中写道,深切研究后,它利用人工智能生成的内容来减慢爬虫的速度。然而,最终可能很多出书商躲正在登录和付费墙的后面——这对当今利用收集的每小我都是无害的。“这意味着这些类型的请求更有可能被转发到焦点数据核心,”写道。帖子写道:“我们的根本设备是为了正在高关心度事务期间承受来自人类的俄然流量激增而成立的!