A+ A- Acessibilidade
Buscar

Premiações Recod.ai

O mês de outubro foi marcado por importantes conquistas do time de pesquisadores do Recod.ai, tanto no Brasil como no exterior. Durante a International Conference on Computer Vision, realizada em Paris, Bruno Souza recebeu o prêmio de melhor artigo apresentado na edição de 2023!

O trabalho apresentado faz parte do doutorado desenvolvido por Bruno junto ao Recod.ai e IC – Unicamp e investiga a intersecção entre visão e linguagem no mundo computacional, explorando a complexidade da integração entre reconhecimento e raciocínio. A pesquisa envolve o desenvolvimento de soluções práticas para tarefas baseadas em Resposta Visual a Perguntas (VQA) que dependem de Gráficos de Cena (SGs) para perguntas com raciocínio complexas.

Confira abaixo o resumo do trabalho apresentado.

A intersecção entre visão e linguagem é de grande interesse devido ao foco crescente na integração perfeita entre reconhecimento e raciocínio. Os gráficos de cena (SGs) surgiram como uma ferramenta útil para análise de imagens multimodais, mostrando desempenho impressionante em tarefas como Resposta Visual a Perguntas (VQA). Neste trabalho, demonstramos que, apesar da eficácia dos gráficos de cena em tarefas de VQA, os métodos atuais que utilizam gráficos de cena anotados idealizados lutam para generalizar ao usar gráficos de cena previstos extraídos de imagens. Para resolver esse problema, apresentamos a estrutura SelfGraphVQA. Nossa abordagem extrai um gráfico de cena de uma imagem de entrada usando um gerador de gráfico de cena pré-treinado e emprega aumento de preservação semanticamente com técnicas auto-supervisionadas. Este método melhora a utilização de representações gráficas em tarefas de VQA, evitando a necessidade de dados anotados caros e potencialmente tendenciosos. Ao criar visualizações alternativas dos gráficos extraídos por meio de aumentos de imagens, podemos aprender incorporações conjuntas, otimizando o conteúdo informativo em suas representações usando uma abordagem contrastiva não normalizada. À medida que trabalhamos com SGs, experimentamos três estratégias distintas de maximização: regularização por nó, por gráfico e regularização por permutação-equivariante. Demonstramos empiricamente a eficácia do gráfico de cena extraído para VQA e demonstramos que essas abordagens melhoram o desempenho geral, destacando a importância da informação visual. Isto oferece uma solução mais prática para tarefas de VQA que dependem de SGs para questões de raciocínio complexas.