MINERAÇÃO DE TEXTOS NO TWITTER: APRENDIZADO DE MÁQUINA PARA CLASSIFICAÇÃO DA OPINIÃO POLÍTICA DOS USUÁRIOS
Mineração de texto
Classificação de dados
Twitter
Twitter (Site de relacionamentos)
Mineração de texto
Modelo estatístico
Marques, Thamires Louzada | Posted on:
2022
Abstract
Este projeto possui como finalidade realizar a coleta de um banco de dados supervisionado do Twitter e utilizar nele técnicas de mineração de textos, pré-processamento e aprendizado de máquina com algoritmos de classificação. O banco textual foi coletado e então tratado e transformado em uma matriz termo-documento, com a utilização de nuvens de palavras e análises de sentimentos para a parte exploratória. Foram utilizados quatro métodos de classificação: Árvore de Decisão, Floresta Aleatória, Gradient Boosting Machine e Extreme Gradient Boosting (XGBOOST). Esses métodos foram treinados em dois conjuntos de dados, com e sem balanceamento de classes. Nos resultados, foi possível observar que não houve grande diferença nas previsões dos modelos treinados nos dados balanceados e desbalanceados, o que contrariou o esperado de que a performance dos classificadores em dados balanceados traria ganhos expressivos na qualidade dos ajustes. Os resultados da especificidade foram baixos para todos os modelos estimados, e ao observar as matrizes de confusão, foi noticiado que havia uma grande quantidade de casos positivos sendo classificados como negativos, o que pode ser a motivação desses valores baixos. Os métodos de classificação que obtiveram melhores métricas médias foram os de boosting, com acurácia de 64,56%, sensibilidade de 97,25% e especificidade de 14,56%. Todos os conjuntos de dados e códigos desenvolvidos no R estão disponíveis no GitHub do projeto, criado pela autora https://github.com/thamirubs/tcc-uff.
[Texto sem Formatação]
[Texto sem Formatação]
Document type
Trabalho de conclusão de cursoSource
MARQUES, Thamires Louzada. Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários. 2022. 52 f. Trabalho de Conclusão de Curso (Graduação de Estatística) - Instituto de Matemática e Estatística, Universidade Federal Fluminense, Niterói, 2022.Subject(s)
Aprendizado de máquinaMineração de texto
Classificação de dados
Twitter (Site de relacionamentos)
Mineração de texto
Modelo estatístico