Autores
Anderson Rocha, Walter J. Scheirer, Christopher W. Forstall, Thiago Cavalcante, Antonio Theophilo, Bingyu Shen, Ariadne R. B. Carvalho e Efstathios Stamatatos.
Descrição
A base de dados foi construída através da busca, no Twitter, por palavras de função do Inglês, com resultados advindos de usuários falantes desse idioma. Os resultados foram utilizados para uma lista de usuários públicos dos quais pudemos extrair tweets utilizando a ferramenta Twitter API. Coletamos 10 milhões de tweets de 10 mil autores (a ferramenta permite a extração apenas dos 3200 tweets mais recentes de cada usuário), ao longo do período de 6 meses em 2014. Cada tweet contém, no máximo, 140 caracteres e inclui hashtags, citação de usuários e links. Como não podemos publicar as mensagens na íntegra, disponibilizamos os recursos relacionados à base de dados, fornecendo à comunidade um recurso padronizado para avaliação.
Publicação relacionada
A. Rocha; W. Scheirer; C. Forstall; T. Cavalcante; A. Theophilo; B. Shen; A. Carvalho; E. Stamatatos. Authorship Attribution for Social Media Forensics. In: IEEE Transactions on Information Forensics and Security, vol. 12, no. 1, pp. 5-33, Jan. 2017. [doi].