REPRESENTAÇÃO VETORIAL DE TEXTOS: DOC2VEC
Wor2Vec
BOW
Word Embedding
Algoritmo computacional
Word (Programa de computador)
Linguagem de programação de computador
Abstract
O objetivo principal deste trabalho é apresentar o algoritmo não supervisionado
para representação vetorial de documentos, Doc2vec, o qual consiste em associar cada
texto a um vetor numérico considerando seu contexto no corpus. Doc2Vec ´e uma extensão
do algoritmo Word2Vec, o qual também será apresentado neste trabalho. Através
de Doc2vec veremos a importância de considerar a relação semântica entre as palavras
com seu contexto. Finalmente, compararemos o desempenho de classificadores usando
representações vetoriais Doc2Vec com uma representação numérica que não considera a
relação entre as palavras com seu contexto, Bag of Word (BOW). Veremos que com a
representação de Doc2Vec todos os classificadores apresentaram um melhor desempenho
computacional.
[Texto sem Formatação]
[Texto sem Formatação]
Document type
Trabalho de conclusão de cursoSource
VALENOTTI, Gabriel Gonzalo Ledesma. Representação vetorial de textos: Doc2Vec. 2022. 38 f. Trabalho de Conclusão de Curso (Graduação em Matemática)- Instituto de Matemática e Estatística. Universidade Federal Fluminense, Niterói, 2022.Subject(s)
Doc2VecWor2Vec
BOW
Word Embedding
Algoritmo computacional
Word (Programa de computador)
Linguagem de programação de computador