Por Juliana Vicentini
Parceria entre pesquisadores do Brasil, China e Reino Unido resultou na criação de metodologia para proteger direitos autorais e evitar uso não autorizado de fotos tridimensionais geradas com IA.
Com o avanço das tecnologias é possível capturar várias imagens de alguém, objeto, ou lugar e criar modelos infinitos (representações) em 3D (simulam profundidade, como no mundo real), a partir de cenas em 2D (imagens e fotos planas). Essas produções são feitas com o auxílio da IA e utilizadas para diversas finalidades, como jogos, audiovisual, publicidade e realidade virtual metaverso, ou até mesmo, para crimes.
“Quando criadores de conteúdo compartilham imagens com múltiplas perspectivas online, eles essencialmente perdem o controle sobre como essas imagens são usadas. Qualquer pessoa pode coletar essas fotos e reconstruir modelos 3D de alta qualidade usando ferramentas gratuitas como NeRF ou 3DGS, gerando perspectivas ilimitadas sem o conhecimento ou consentimento do criador. Os criadores praticamente não têm meios técnicos para comprovar que suas imagens foram usadas dessa forma”, diz Ziyuan Luo da Universidade Batista de Hong Kong e membro do Horus, projeto que utiliza IA para identificar e prevenir realidades sintéticas no Recod.ai.
Esse tipo de manipulação remove marcas de crédito das fotos e traz desafios, como vulnerabilidade da propriedade intelectual e uso indevido. A falta de proteção pode gerar disputas jurídicas e prejuízos financeiros, uma vez que os proprietários das imagens não dispõem de meios eficazes para verificar se essas novas produções derivaram de suas fotos originais.
O desaparecimento da autoria das imagens
A marca d’água é um recurso utilizado em fotos para identificar sua propriedade. É como se fosse uma assinatura que pode ser visível ou invisível, é colocada na própria imagem. No entanto, o aperfeiçoamento de tecnologias 2D que geram cenas digitais (ambientes) em 3D trouxeram consigo uma complicação para identidade digital desse tipo de produção.
NeRF (Neural Radiance Fields – Campos de Radiância Neural) é uma técnica que modela ambientes a partir de uma rede neural que aprende com dados de cor, luz e intensidade, captadas em ângulos diferentes para reconstruir imagens realistas em 3D. Já 3DGS (3D Gaussian Splatting – Espalhamento Gaussiano) é uma técnica que reconstrói espaços a partir de gaussianas (estruturas matemáticas que se parecem com nuvens) que coletam pontos de cor, transparência e posição no ambiente.
Quando essas metodologias são aplicadas para produzir peças tridimensionais, elas removem marcas d’água das imagens. Essas marcas consistem em padrões escondidos nos pixels da foto e são interpretadas pela IA como espécie de ruído ou sujeira. Por isso, são excluídas para deixar o modelo mais limpo. Por outro lado, como consequência, o dono da imagem não consegue mais identificá-la e rastreá-la.
A impressão digital invisível e indestrutível
Para driblar esse mecanismo de exclusão da marca d’água no processo de transformação de cenas em 2D para 3D, os pesquisadores desenvolveram a MantleMark. Trata-se de uma espécie de assinatura invisível que preserva a identificação das imagens produzidas por tecnologias bidimensionais multi-view (captadas por diferentes ângulos para reconstrução do espaço), e não apenas por NeRF e 3DGS.

A MantleMark é operacionalizada em algumas etapas. Em vez de construir uma marca em pixels sobre a imagem — que, como vimos acima, pessoas têm utilizado IA para removê-las — cria-se uma estrutura matemática no espaço de frequência 3D. Ela tem o formato de uma casca esférica oca, algo parecido com o manto da Terra (Earth’s mantle), o que inspirou o nome dessa tecnologia. Quando a marca é inserida dentro dessa estrutura, algoritmos de IA não a interpretam como ruídos durante a produção em 3D, por isso, não são excluídas.
Essa nova metodologia faz uma espécie de corte na esfera, bem no ângulo em que a imagem original foi tirada. Como essa casca tem simetria, qualquer parte dela que seja captada sempre gera um padrão consistente com a imagem original. Quando isso ocorre, o sistema altera certas frequências da foto – ao invés de pixels – para incluir a marca d’água, fazendo com que ela fique imperceptível. Feito isso, ela é interpretada pelo computador como integrante da estrutura da cena e não é removida.
As marcas d’água comuns 2D são como um logo no canto da foto e são apagadas pela IA. Isso é facilitado por serem colocadas na superfície da imagem. É como se fossem um adesivo colado no vidro, algo que conseguimos identificar e remover. A MantleMark cria uma impressão digital com padrão invisível, mas matematicamente identificável. É como se fosse uma alteração na composição química do vidro, por isso, essa assinatura não pode ser removida sem destruir a imagem, pois ela se torna inseparável da foto.
Os testes realizados pelos pesquisadores impressionam: a marca d’água permaneceu identificável nas imagens, independentemente do método de reconstrução por IA. Além disso, a qualidade das fotos originais ficou praticamente inalterável, mesmo após a inclusão dessa assinatura em todos os seus ângulos. Outro destaque é a velocidade: o processo de proteção em cenas 3D dura cerca de três segundos, superando outros métodos que podem levar horas.
Impactos no ecossistema digital
O compartilhamento de imagens e o uso delas em múltiplas perspectivas gera desequilíbrios entre criadores, plataformas digitais de divulgação e empresas de IA que disponibilizam as ferramentas para a reconstrução 3D. Produtores perdem o controle sob suas fotos, as corporações se beneficiam da circulação de imagens e desenvolvedores alimentam seus bancos de dados e aprimoram suas tecnologias. Todos lucram, exceto, é claro, o próprio autor da imagem.
“Soluções de rastreabilidade como a MantleMark podem começar a mudar esse desequilíbrio. Isso tem potencial de promover maior responsabilidade em todo o ecossistema: plataformas e empresas de IA saberiam que a proveniência das imagens e a origem poderia ser rastreada, mesmo após reconstruções 3D sofisticadas. A longo prazo, esperamos que essas tecnologias incentivem práticas mais transparentes e respeitosas em relação ao uso de conteúdo e apoiem modelos de remuneração justos para os criadores, cujo trabalho alimenta o treinamento e a geração de conteúdo 3D”, explica Luo.
Os bancos de imagens e as plataformas de compartilhamento concentram grande parte dos materiais usados em reconstruções em 3D. Por isso, esses sistemas digitais “poderiam incorporar automaticamente marcas d’água no domínio da frequência em coleções de fotos com múltiplas visualizações no momento do upload ou download. As marcas d’água persistiriam mesmo se terceiros utilizassem essas imagens para construir modelos 3D e renderizar novas visualizações”, aponta o pesquisador.
A MantleMark é revolucionária porque funciona em todos os métodos de reconstrução 3D que são aplicados na imagem. “Essa propriedade de independência de reconstrução é crucial para a implementação no mundo real, visto que o cenário de ferramentas de geração 3D está em rápida evolução. Prevemos que essa marcação d’água possa se tornar uma camada padrão de proteção, semelhante ao uso atual de metadados ou marcas d’água visíveis, mas com a capacidade adicional de sobreviver ao fluxo de trabalho cada vez mais comum de fotos 2D para conteúdo 3D”, ressalta.
Próximos passos
A MantleMark é a primeira etapa na construção de uma ferramenta robusta que pode auxiliar na governança de dados de maneira ainda mais eficiente. O estado da arte do manto opera de maneira binária, ou seja, identifica a presença ou ausência da marca d’água. A ideia é ampliar a capacidade de carga para aumentar a quantidade e complexidade de informações que possam ser ocultadas do rastreamento da IA e, consequentemente, não sejam excluídas.
Os pesquisadores querem encontrar uma maneira de incluir a identidade dos usuários e um metadado capaz de rastrear o momento exato em que a imagem foi criada, modificada ou redistribuída. Esses registros permitirão identificar o proprietário do conteúdo, o responsável pela alteração e o distribuidor.
Outra meta é criar um sistema de autenticação de múltiplas partes. É um mecanismo que permite identificar autorias coletivas de imagem. A inclusão de permissão e de regras de uso da foto também são objetos de interesse para serem escondidas nas imagens. Esses recursos são importantes porque permitem que o(a) detentor(a) da propriedade intelectual saiba se a utilização da imagem infringe as regras que ele(a) determinou.
O que está por vir é uma inovação que pretende subir o nível da MantleMark. Isso significa transformar o manto em uma infraestrutura completa composta por identificação e rastreabilidade, capaz de garantir o licenciamento e proteção de autoria na geração de imagens 3D por IA. Outro benefício, é o uso desses dados como facilitadores para a monetização dessas peças.
___
Para saber mais, confira a íntegra da pesquisa de autoria de Ziyuan Luo, Jun Liu, Haoliang Li, Anderson Rocha e Renjie Wan publicada no IEEE Transactions on Information Forensics and Security,
Essa pesquisa foi desenvolvida em parceria com o Recod.ai, no Projeto Horus, financiado pela Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP). Também recebeu apoio do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq), Fundação Nacional de Ciências Naturais da China, Fundação de Pesquisa Básica e Aplicada de Guangdong, e Conselho de Bolsas de Pesquisa de Hong Kong. A produção desta reportagem contou igualmente com apoio da FAPESP, por meio da bolsa Mídia Ciência de Jornalismo Científico.