Mais...
    InícioTecnologiaNVIDIA acusada de usar milhares de livros pirateados para treinar modelos de...

    NVIDIA acusada de usar milhares de livros pirateados para treinar modelos de IA

    NVIDIA apanhada em flagrante a usar 500TB de livros roubados para IA

    Jensen Huang NVIDIA CES 2026 Screenshot

    A NVIDIA enfrenta acusações graves numa ação coletiva que alega contacto direto com o Anna’s Archive para obter acesso a milhões de livros pirateados destinados ao treino dos seus modelos de inteligência artificial. Segundo documentos internos citados no processo, a gigante tecnológica terá procurado ativamente material protegido por direitos de autor para alimentar os seus sistemas de aprendizagem automática.

    A queixa atualizada, apresentada a 17 de janeiro num tribunal federal da Califórnia, expande substancialmente o âmbito de uma ação legal inicial de 2024. Os autores Brian Keene, Abdi Nazemian e Stewart O’Nan alegam agora que a NVIDIA não só usou o controverso dataset Books3 contendo cerca de 197.000 livros pirateados do Bibliotik, como também estabeleceu contacto deliberado com outras bibliotecas piratas.

    Emails internos supostamente revelam que um membro da equipa de estratégia de dados da NVIDIA contactou o Anna’s Archive para explorar que recursos o site poderia oferecer para o treino de modelos de linguagem de grande escala. Segundo a queixa, o Anna’s Archive cobrava dezenas de milhares de dólares por acesso de alta velocidade às suas coleções, e a NVIDIA procurou detalhes sobre este acesso.

    O processo alega que o Anna’s Archive alertou a NVIDIA de que o conteúdo da sua biblioteca tinha sido obtido ilegalmente. Apesar do aviso, os executivos da empresa terão dado luz verde para prosseguir com o projeto no espaço de uma semana, obtendo assim acesso a aproximadamente 500 terabytes de dados.

    Para além do Anna’s Archive, o documento judicial afirma que a NVIDIA terá feito download de livros protegidos por direitos de autor de outras fontes piratas, incluindo LibGen, Sci-Hub e Z-Library. Estas bibliotecas têm sido alvo de múltiplas ações legais em vários países por distribuírem material protegido sem autorização.

    Os autores acusam ainda a NVIDIA de ter distribuído scripts e ferramentas aos seus clientes corporativos que lhes permitiam descarregar automaticamente datasets contendo conteúdo de livros pirateados. Esta alegação levanta questões de responsabilidade secundária, com os autores a argumentarem que a empresa facilitou ativamente a infração de direitos de autor por terceiros.

    A queixa cita que as pressões competitivas levaram a NVIDIA à pirataria, afirmando que a empresa procurou ativamente acesso a datasets ilícitos de livros à medida que a procura por dados de treino de IA se intensificava. O contexto é particularmente relevante dado o boom da inteligência artificial que impulsionou a receita da NVIDIA devido à elevada procura pelos seus chips de aprendizagem de IA e serviços de centros de dados.

    Nvidia RTX 4090

    A NVIDIA desenvolve os seus próprios modelos de IA, incluindo NeMo, Retro-48B, InstructRetro e Megatron. Estes modelos são treinados usando hardware da NVIDIA e grandes bibliotecas de texto, numa prática semelhante à de outras empresas tecnológicas. No entanto, a empresa tem enfrentado desafios legais de detentores de direitos de autor relativamente às suas metodologias de treino.

    A defesa da NVIDIA tem-se centrado no conceito de fair use, argumentando que criou o seu modelo de IA NeMo em plena conformidade com a lei de direitos de autor. A empresa mantém que o uso destes dados constitui uso justo, uma posição que tem sido amplamente contestada por advogados e especialistas em propriedade intelectual.

    O processo menciona que alguns materiais oferecidos estavam normalmente disponíveis apenas através do sistema de empréstimo digital controlado do Internet Archive, que tem sido alvo de processos judiciais relacionados com direitos de autor. O Internet Archive perdeu recentemente um caso importante contra editoras, estabelecendo um precedente preocupante para práticas de preservação digital.

    Esta não é a primeira vez que o Anna’s Archive é ligado a grandes empresas tecnológicas. Em dezembro de 2025, o Spotify confirmou que estava a investigar alegações de que o Anna’s Archive tinha obtido 300 terabytes de dados do serviço de streaming de música. O arquivo de música incluía metadados para 256 milhões de faixas e ficheiros de áudio para 86 milhões de canções, representando aproximadamente 99,6% de todas as músicas no Spotify.

    O Anna’s Archive oferece acesso de alta velocidade à sua coleção completa via SFTP a grupos que treinam modelos de linguagem de grande escala em troca de grandes contribuições monetárias ou de dados. Segundo a mesma fonte, o site forneceu tal acesso a cerca de 30 empresas em janeiro de 2025, principalmente sediadas na China, incluindo tanto empresas de LLM como corretores de dados.

    O modelo VL da DeepSeek foi parcialmente treinado com dados de ebooks do site. Esta informação levanta questões sobre a extensão do uso de material pirateado na indústria de IA e sugere que a prática pode ser mais disseminada do que inicialmente se pensava.

    Documentos judiciais não selados em fevereiro de 2025 revelaram que a Meta descarregou mais de 81 terabytes de dados através de torrents do Anna’s Archive, para além de dados previamente descarregados do LibGen. Os autores nesse caso alegaram que Mark Zuckerberg autorizou pessoalmente o uso de bibliotecas pirata.

    Em junho de 2025, o tribunal decidiu parcialmente a favor da Meta, considerando que o treino era altamente transformativo e constituía portanto uso justo. O juiz Vince Chhabria enfatizou que a decisão não significava que as ações da Meta fossem de facto legítimas, mas afirmou que os queixosos falharam em desenvolver argumentos fortes.

    Nvidia logo HD

    Este precedente pode ter implicações significativas para o caso da NVIDIA. Se os tribunais continuarem a considerar que o treino de IA constitui uso transformativo e portanto justo, pode tornar-se extremamente difícil para autores protegerem os seus trabalhos de serem usados sem compensação ou autorização.

    A NVIDIA enfrentou inicialmente um processo de autores no início de 2024 por violação de direitos de autor, alegando que os modelos de IA da empresa foram treinados no dataset Books3, que incluía obras protegidas do Bibliotik sem permissão. O Books3 esteve disponível na plataforma de aprendizagem automática e ciência de dados Hugging Face até outubro de 2023, após o que foi removido com uma declaração afirmando que o dataset estava extinto e já não era acessível devido a violação de direitos de autor reportada.

    Os autores pedem indemnizações não especificadas para pessoas nos Estados Unidos cujas obras protegidas ajudaram a treinar o NeMo nos últimos três anos e que a NVIDIA destrua todas as cópias do dataset Books3 usado para alimentar os modelos NeMo Megatron. Argumentam que a NVIDIA continuou a fazer cópias das obras infringidas para treinar outros modelos e pretende distribuir os seus modelos NeMo como base para construir modelos adicionais, infringindo ainda mais o seu trabalho.

    Helder Archer
    Helder Archer
    Fundou o OtakuPT em 2007 e desde então já escreveu mais de 60 mil artigos sobre anime, mangá e videojogos.

    Artigos Relacionados

    Subscreve
    Notify of
    guest

    0 Comentários
    Mais Antigo
    Mais Recente
    Inline Feedbacks
    View all comments
    - Publicidade -

    Notícias

    Populares