WEB SCRAPING, UM CASO DE USO PARA COLETAR METADADOS DE ARTÍGOS CIENTÍFICOS PUBLICADOS NA BIBLIOTECA DIGITAL DA IEEE
Indexação
Automatização
Metadado
Sistema de informação
Biblioteca digital
Indexing
Automation
Abstract
Indexação é uma identificação de um documento para que ele consiga ser acessado quando desejado. Web Crawling é o processo responsável por varrer a internet extraindo todos os metadados para indexação, diferentemente do Web Scraping que é uma forma automatizada de entrar em um determinado site e extrair informações do mesmo. Por meio de processos automatizados, implementados utilizando um robô, o Web Scraping exporta dados de um site para um banco de dados ou uma planilha local para posterior recuperação e análise das informações extraídas. Devido à grande quantidade de dados de um site, esse processo facilita o armazenamento dos mesmos em um banco por possibilitar o acesso à grandes volumes de dados simultaneamente. O enfoque deste trabalho foi, através de um caso de uso, utilizar os benefícios do Web Scraping para chegar a uma solução viável para a indexação de artigos científicos. Para isso, foi desenvolvido um scraper que coleta metadados de artigos científicos e seus autores publicados na biblioteca IEEE Xplore e exporta os dados coletados para duas planilhas de formato CSV. Vamos abordar os conceitos de sociedade científica, indexação, Web Scraping e suas principais bibliotecas e ferramentas. O resultado deste trabalho oferece uma análise dos testes e resultados obtidos do scraper desenvolvido buscando a viabilidade de indexar as informações coletadas.
[Texto sem Formatação]
[Texto sem Formatação]
Document type
Trabalho de conclusão de cursoPublisher
Universidade Federal Fluminense
Source
TAVARES, Frederico; CUNHA, Letícia Mello. Web Scraping, um caso de uso para coletar metadados de artigos científicos publicados na biblioteca digital da IEEE. 2021. 19f. Trabalho de Conclusão de Curso (Graduação Sistemas de Informação) - Universidade Federal Fluminense, Niterói, 2021.Subject(s)
Web scrapingIndexação
Automatização
Metadado
Sistema de informação
Biblioteca digital
Indexing
Automation