A empresa Nvidia fez o download massivo de vídeos de serviços como YouTube e Netflix para alimentar tecnologias de inteligência artificial (IA) da empresa. Essa é a denúncia de uma reportagem do site 404 Media, que teve acesso a conversas internas sobre o tema.
O site obteve capturas de tela de conversas entre funcionários no mensageiro corporativo Slack. Nos chats, eles discutem como fazer para baixar clipes em massa e até confirmam que a gerência autorizou o procedimento — apesar das preocupações éticas e jurídicas existentes.
A equipe em questão trabalha em um serviço chamado Cosmos, que ainda não foi anunciado ao público e está em fase de desenvolvimento. Ele possivelmente envolverá a geração de vídeos, assim como o projeto Sora da OpenAI.
Uma das mensagens vazadas, mostrando a criação do grupo. (Imagem: 404 Media/Reprodução)Fonte: 404 Media
Em algumas das conversas, há garantias de que todos os dados baixados não serão usados em estudos publicados para a comunidade científica. Porém, não há citações sobre a utilização desses materiais para o treinamento de IAs generativas e modelos fundacionais, por exemplo.
A operação parece de grandes proporções: em certo momento, há uma discussão sobre usar dezenas de máquinas virtuais no Amazon Web Services para baixar “o equivalente a 80 anos de vídeos por dia“.
Em determinado momento, um colaborador até publica uma lista de youtubers que poderiam ter os materiais baixados. Eles incluem até os vídeos do canal MKBHD, do renomado criador de conteúdo de tecnologia Marques Brownlee — que jamais autorizou esse procedimento para empresas como a Nvidia.
Direitos autorais e IA generativa
Questionada sobre o treinamento de modelos de IA usando materiais protegidos, a Nvidia declarou ao 404 Media que está “em completo acordo com o espírito da lei de direitos autorais“.
Porém, as capturas de tela mostram que a companhia não parecia se importar com o pedido de autorização para fazer o download e treinar IAs com o conteúdo de estúdios de cinema ou youtubers — algo que, tecnicamente, é proibido.
Um youtuber já iniciou uma ação judicial contra a OpenAI pela acusação de usar vídeos da plataforma da Google para treinar o Sora. Além disso, o próprio CEO do YouTube já confirmou que essa prática é ilegal.
Em defesa na época, a OpenAI alegou que “não saberia dizer” se os seus modelos foram ou não treinados usando materiais protegidos por direitos autorais.