系列指控侵犯版权的诉讼外,版权活动家还在推动立法对数据训练进行监管,迫使人工智能公司为其使用的数据付费。对 Common Crawl 和其他流行数据集(如 LAION-5B)的进一步审查表明,在从互联网各地收集数据时,这些语料库无意中存档了一些最黑暗的角落。(LAION 5-B 于 2023 年 12 月被暂时下架,此前斯坦福大学研究人员的一项调查发现该数据集包含儿童性虐待材料。)
丹麦权利联盟对人工智能和版权问题的态度非常强硬。今年早些时候,该联盟领导了一项活动,要求对未经许可将作品上传到 OpenAI的 GPT 商店的图书出版商提交《数字千年版权法》(DMCA)删除通知,提醒公司注意其平台上托 柬埔寨电报号码 管的内容可能侵权。去年,该联盟带头从互联网上删除了一种名为Books3的流行生成式人工智能训练集。总体而言,丹麦媒体在打击未经许可就将媒体用作训练数据的人工智能公司方面组织严密;最近,一些主要报纸和电视台威胁要起诉 OpenAI,除非它为在其训练数据中使用他们的作品提供补偿。
如果有足够多的出版商和新闻机构选择退出 Common Crawl,这可能会对一系列学科的学术研究产生重大影响。Baack 认为,这还可能带来另一个意想不到的后果。他认为,除了学术界,终止 Common Crawl 可能主要影响新人和较小的项目,巩固当今的强势参与者目前的主导地位,并使该领域僵化。“如果 Common Crawl 受到严重破坏,不再可用作训练数据源,我认为我们基本上是在为 OpenAI 和其他领先的人工智能公司赋能,”他说。“他们现在有资源自己爬取网络。”