Editores pressionam Common Crawl para suspender coleta de conteúdo para IA: um embate crucial sobre direitos autorais digitais

A Digital Content Next (DCN) exigiu que a Common Crawl Foundation cesse a raspagem de conteúdo protegido, levantando questões sobre uso indevido e o futuro do treinamento de IA. Este confronto pode redefinir o acesso a conteúdo para IA, impulsionando licenças e fontes verificadas para maior precisão

Por Danny Goodwin·há cerca de 2 meses· 2 min de leitura

Editores pressionam Common Crawl para suspender coleta de conteúdo para IA: um embate crucial sobre direitos autorais digitais

A batalha entre grandes editoras digitais, representadas pela Digital Content Next (DCN), e a Common Crawl Foundation intensifica-se. A DCN enviou uma notificação formal exigindo o fim da coleta e distribuição de conteúdo protegido de seus membros – que incluem pesos-pesados como The New York Times e Bloomberg – e a remoção de dados pré-existentes, inclusive de artigos pagos. O cerne da questão reside na alegação de infração de direitos autorais, já que a DCN sustenta que a legislação não contempla sistemas de "opt-out" para uso de conteúdo.

Editores questionam a eficácia dos mecanismos de exclusão oferecidos pela Common Crawl, apontando que, em alguns casos, remoções solicitadas não foram integralmente atendidas, levantando dúvidas sobre a transparência e a viabilidade técnica dos processos da fundação. O CEO da DCN, Jason Kint, enfatiza que a simples acessibilidade online de um conteúdo não lhe confere permissão para ser coletado e reutilizado, especialmente para alimentar modelos de inteligência artificial sem compensação ou consentimento. A Common Crawl, por sua vez, afirma que seus bots respeitam as barreiras e nega ter enganado editores, mas o embate expõe fragilidades operacionais e éticas.

A relevância desse conflito transcende as partes envolvidas, moldando o futuro do treinamento de IA e o uso de conteúdo digital. Visto que a Common Crawl tem sido uma fonte primária para o treinamento de modelos como o GPT-3, segundo investigações, o resultado dessa disputa pode forçar desenvolvedores de IA a depender mais de fontes licenciadas e menos da vasta, porém permissiva, “web aberta”. Tal cenário pode redefinir direitos autorais na era digital e impulsionar um ecossistema mais justo para criadores de conteúdo. (Fonte: Search Engine Land)

---

Fonte original: [Search Engine Land](https://searchengineland.com/publishers-common-crawl-content-ai-training-479831)

Fonte Original

Search Engine Land