Um grupo de escritores processou a companhia de inteligência artificial Anthropic nesta segunda-feira (19). Os autores acusam a empresa de treinar os modelos generativos com livros piratas.
No texto, os escritores alegam que a Anthropic usou um banco de dados conhecida como “The Pile”. Nele, estão contidos 886,03 GB de texto em inglês.
O problema, porém, está no Books3, uma biblioteca de livros pirateados, também presente no “The Pile”. Entre os títulos distribuídos de forma irregular, estão livros de Stephen King e Michael Pollan, além de milhares de outros escritores.
Os autores envolvidos no processo alegam que a Anthropic usou cópias piratas de seus livros para treinamento.Fonte: GettyImages
Ao site Vox, a Anthropic confirmou que usou “The Pile” para treinar o Claude, seu modelo de IA, mas não se manifestou sobre o processo.
A versão “mais oficial” do “The Pile” não contém o material do Books3 — e os requerentes reconhecem isso. Contudo, eles mencionam que a versão com conteúdo pirata está disponível na web.
Os autores do processo são escritores de um conjunto de trabalhos de ficção e não ficção. Eles também se queixam de não terem sido ao menos procurados para receber alguma compensação financeira pelo uso do material.
“A Anthropic adotou múltiplas medidas para esconder toda a extensão de sua violação de direitos autorais”, argumentam no processo. “A Anthropic compromete a capacidade de os autores de terem renda própria, uma vez que grandes modelos de linguagem (LLMs) permitem que qualquer um gere (de forma automática ou bem barata) textos que autores seriam pagos para criar e vender”, complementam.
No processo judicial, os requerentes exigem uma quantidade não especificada de danos monetários e o bloqueio permanente do material para uso da Anthropic.