A Re-Identificação totalmente não supervisionada de Pessoas e Veículos tem recebido crescente atenção devido à sua ampla aplicabilidade em áreas como vigilância, investigações forenses, entendimento de eventos e cidades inteligentes, sem a necessidade de qualquer anotação manual. No entanto, a maioria dos trabalhos anteriores foi avaliada em conjuntos de dados com apenas alguns milhares de amostras. Esses cenários de pequenos volumes de dados frequentemente permitem o uso de técnicas dispendiosas em termos de tempo e memória, como o Re-Ranking, para melhorar os resultados de agrupamento. Além disso, alguns trabalhos anteriores até mesmo pré-selecionam os melhores hiperparâmetros de agrupamento para cada conjunto de dados, o que é irrealista em um cenário de grande escala totalmente não supervisionado.
Nesse contexto, este trabalho aborda um cenário mais realista e propõe duas estratégias para aprender a partir de grandes volumes de dados não rotulados. A primeira estratégia realiza uma amostragem de vizinhança local para reduzir o tamanho do conjunto de dados em cada iteração sem violar as relações de vizinhança. A segunda estratégia aproveita uma nova técnica de Re-Ranking, que possui uma complexidade superior em tempo reduzida e diminui a complexidade de memória de O(n²) para O(kn), onde kn é proporcional ao número de amostras. Para evitar a necessidade de pré-seleção de valores específicos de hiperparâmetros para o algoritmo de agrupamento, apresentamos também um novo algoritmo de escalonamento que ajusta o parâmetro de densidade durante o treinamento, aproveitando a diversidade de amostras e mantendo o aprendizado robusto a rótulos ruidosos.
Por fim, devido ao conhecimento complementar aprendido por diferentes modelos em um conjunto, também introduzimos uma estratégia de co-treinamento que se baseia na permutação de pseudo-rótulos previstos entre os modelos base, sem necessidade de hiperparâmetros ou otimização de pesos. A metodologia proposta supera os métodos estado da arte em benchmarks bem conhecidos e no desafiador conjunto de dados de grande escala Veri-Wild, com uma estratégia de Re-Ranking mais rápida e eficiente em memória, além de uma abordagem robusta a ruídos e baseada em aprendizado de grande escala e conjuntos.
Acesse o artigo completo aqui.