当谈到维基百科时,这里的一切都很熟悉。可以说,维基百科是普通百姓理解概念的最舒适和最有力的方式之一。 Wikipedia的运营组织是一个名为Wikimedia的非营利组织。除Wikipedia外,该组织还拥有Wiki共享资源,Wiki字典,Wiki教科书等项目。这些项目都是免费的,因为Wikimedia的基本数量是允许知识免费并共享。但是最近,Wikimedia确实被AI公司感到恼火。为了培训大型型号,这些公司已派出无数的AI爬行者,继续从Wikimedia爬网。但是您简直不敢相信:Wikimedia并没有追求这些AI公司,而是选择自愿提交它。 “亲爱的兄弟姐妹,我遵循了所有信息。你能停止爬行吗?”几个小时前,Wikimedia已将英语和法语的Wikipedia内容保证给社区平台KAGGLE告诉AI公司,他们需要获得自己的资源。仅提供资源是不够的。 Wiki还需要提供这些大兄弟,特别是为了优化AI模型的口味信息。由于机器与人类不同,因此它们似乎清晰易理解,并且需要使用大脑来确定每个部分是什么。因此,Wiki以JSON格式创建了结构化内容的页面,标题,摘要和解释被根据单个格式分为所有内容。通过这种方式,AI可以在查看时更读取Madlyi的每个段落的内容和数据,从而降低AI公司的成本。这波是为了保护巢免受洗涤的影响。 Wiki为气球做了一盘美味的肉,然后将其扔到其他地方。 Shichao觉得Wiki无助。 4月1日早些时候,他们发布了一个博客以抱怨:自2024年以来,该平台用于下载多媒体内容的流量增加了50%。我以为每个人都希望学习更多,但是在检查后,我发现所有TMS都是来自AI公司的爬行者。爬行者继续蔓延到资源中,然后使用它们来训练大型模型。 Wiki Crawlers的影响力真的很棒。由于Wikimedia拥有许多区域数据中心(欧洲,亚洲,南美等),并且全球一个基本数据中心(美国弗吉尼亚州阿什伯恩)。核心数据中心存储所有信息,而区域数据中心将暂时捕获一些流行的条目。这样做有什么好处?例如,许多亚洲人正在查看“速度”一词,而“速度”将在亚洲的区域数据中心使用。通过这种方式,当亚洲网民审查“速度”时,这些数据将从亚洲数据中心开始,而无需从美国数据中心获得国际物流。这种高频条目的方法采用了廉价的频道和低频条目采用高价通道不仅会增加不同区域中用户的加载速度,而且还会降低Wikimedia服务器的压力。但是问题是:AI会照顾您吗?除非是条目,否则需要访问和批处理。这导致了不断增加的交通价格。几个小时前,维基梅迪亚发现,在美国数据中心旅行中有65%的高成本交通受到AI爬行者的破坏。您知道Wiki是免费的,但其服务器不是,并且每年的费用为300万美元。但是,投诉可能没有用,因此经过几周后,Wikimedia选择对资源进行分类并在其他平台上摆姿势,以便AI公司可以选择它们。实际上,不仅维基百科,而且每个人都遇到类似的问题,从内容平台到打开资源项目,从个人播客到媒体网站。最后一个标签 - 苏尼,ifixit老板在Twitter上同志,克劳德(Claude)的爬行者每天访问了他的网站100万次。 。 。看在这个问题上,您可以说这不是您不希望Ai crawler访问自己的网站的机器人协议robot.txt,因此您可以在协议中写下它。啊,是的,在ifixit将Claude crawler添加到robots.txt之后,爬网停了下来(每30分钟一次)。在互联网期间,机器人协议实际上是一项涉及全部技术,而有些公司不遵守。但是现在,与绅士的这一协议只能被视为纸的老虎。大型公司模型现在可以尽可能攀登。毕竟,其他家庭上升。如果您不攀爬,您的语料库将不会像其他人那样强大,并且大型模型的起跑线将比其他模型少。什么是gagawin?更改爬行者名称(用户量)。您只是说您不会让Lu Xun Crawl离开,但您不让周Shuren崩溃。有没有耻辱的大型模型?但是有很多。有一些雷迪特网民在协议中清楚地禁止了openai爬行者,但对方改变了他们的名字并继续爬行。例如,这种混乱也被技术的有线媒体抓住,忽略了机器人的协议。多年来,每个人都尝试了各种新方法。一个人发现在协议机器人中放置了坏死链接。单击链接的任何人都应该是爬网。毕竟,普通用户不会单击此协议。有些人还选择使用Web应用程序防火墙(WAF)根据IP地址,请求模式和进行检查。有些人还决定为该网站获得一套验证代码。但是通常这些方法通常高一英尺,高1英尺。您将停止的无情,残酷的AI公司将采用。因此,几个小时前的网络菩萨Cloudflare开发了一系列技术来监视恶意爬行者,因此它们仅允许爬行者。当然,说这不是给它一个美好的时光,而是要弄错rice” - 提供了一串与爬网网站无关的网页,以便AI可以慢慢观看。CloudFlare的操作仍在转换。今年1月,一个网民写了一个更为凶猛的工具。谋杀Nepen昆虫的尼泊尔昆虫,AI Crawler的尼泊尔人的Nepenthes,AI Crawer的尼泊尔人只能被“不可能的链接”而来,这些链接不可能链接到不断的链接。 “ Nepenthes”继续为“ Markov”押韵,以摆脱AI训练数据,只有OpenAi爬行者才能逃脱这一技术,还可以使进攻性和防御性的战斗启动。推文您每月都可以访问。K Times未能讨论,它指责Openai持有自己的文章。当您看到它时,您可能会很好奇:为什么Wikipedia不判断这些AI爬网? Shichao认为这可能与Wikipedia本身有关。 Wikipedia的许可协议已开放。它的大多数内容允许任何人(包括AI公司)在识别和共享同一协议的条件下自由使用,复制,更改和分发。因此,从法律的角度来看,AI公司可能可以爬行并使用Wikipedia数据进行模型培训。即使对AI公司进行了判断,该行业违反了该行业的法律边界也没有明确的法律边界。对于Wikimedia而言,这种高风险,高成本和长时间消耗时间的选择是不切实际的。最重要的是,维基梅迪亚的使命是赋予每个人获得所有知识的自由世界。尽管服务器成本带来了NG AI爬行者是一个问题,但限制其他人通过法律或商业商业同意获得资源可能与他们的使命背道而驰。从那时起,Wikimedia调整数据并将其提供给AI公司进行培训的选项可能是最合适的,但这也是最无助的方式。