Please use this identifier to cite or link to this item: https://app.uff.br/riuff/handle/1/21875
Title: Elaboração de modelo de previsão da evasão universitária na Universidade Federal Fluminense através de métodos de aprendizado de máquina
Authors: Gomes, Lucca Bevilacqua
metadata.dc.contributor.advisor: Pereira, Valdecy
metadata.dc.contributor.members: Rodrigues Filho, José
Roboredo, Marcos
Issue Date: 2021
Citation: GOMES, Lucca Bevilacqua. Elaboração de modelo de previsão da evasão universitária na Universidade Federal Fluminense através de métodos de aprendizado de máquina. 2021. 94f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Produção) - Universidade Federal Fluminense, Niterói, 2021.
Abstract: A evasão universitária é um tema importante para a educação, sobretudo pública. Ela impacta diversos grupos da sociedade. Entre os principais afetados é possível pensar nos discentes, na instituição de ensino, o mercado de trabalho e os corpos de pesquisa acadêmica. A evasão é uma questão multifacetada e complexa. Estas características dificultam abordagens práticas pra auxiliar a tomada de decisão de instituições para evitar que alunos evadam. No entanto, os avanços na tecnologia e nos campo da Ciência de Dados e Aprendizado de Máquina habilitaram pesquisadores ao redor do mundo a considerar algumas das variáveis relacionadas à questão em modelos preditivos. Estes modelos capacitam decisores com mais informações para tomarem melhores decisões. No Brasil, no entanto, esta prática ainda não é extensivamente explorada, principalmente com dados abertos ao invés de dados internos das Instituições de Ensino Superior (IES). Nesse sentido, o presente trabalho tem como objetivo de explorar a possibilidade de prever a evasão de alunos da graduação da Universidade Federal Fluminense (UFF), uma IES pública, a a partir de métodos de Aprendizado de Máquina. Além disso, verificou-se a viabilidade de se usar dados públicos abertos ao invés de dados administrativos dos sistemas internos da instituição. Para isso, foram utilizados os dados e microdados do Censo do Ensino Superior, divulgado todo ano pelo INEP, associado ao Ministério de Educação e Cultura do Brasil. Os dados foram processados e explorados com a linguagem de programação Python. A abordagem de previsão central foi a partir de árvores de decisão onde se comparam uma árvore que utilizava o algoritmo CART, e os métodos agregadores (ensembles) de árvores AdaBoost e Random Forest. O Método de Random Forest trouxe os melhores resultados, apresentando um AUC Score da curva PR de 0,853 contra um AUC de 0,353 de um modelo dummy. Seu Recall foi de 69,8% e acurácia (accuracy) foi de 84%. Este valor de acurácia foi considerado satisfatório quando comparado com resultados de outros trabalhos e considerando a natureza e o escopo dos dados utilizados. Também é possível concluir que este tipo de modelagem poderia ser extendida para outras IES no censo, uma vez que foram utilizados dados comuns a todas as instituições do censo.
metadata.dc.description.abstractother: University dropout is a major subject in education, especially public education. It impacts many groups in Society. Between the most affected, we can name students, the higher education institutions, the labor market, and academic research groups. Evasion is a multidimensional and complex issue. These traits made practical approaches towards helping institutional decision making to avoid the occurrence of dropouts more difficult to be implemented. However, technological advancements in technology and the Data Science and Machine Learning fields, enabled researchers around the world to consider some of the variables related to the issue in predictive modelling. These models help institutional decisionmakers to make better decisions. In Brazil, however, this practice is not yet widely explored, especially using public data instead of internal administrative data from the higher education institutions. Therefore, this work has the objective of evaluating the possibility of predicting student dropout occurrence in a public higher education institution, the Universidade Federal Fluminense (UFF), with Machine Learning methods. In a different approach from other works analyzed, the present work evaluated the possibility of using publicly available data instead of internal administrative data from the institution. Therefore, data from the “Censo do Ensino Superior” [Higher Education Census] that is annually publicized by the INEP, an instituition associated with Brazil’s Education and Culture Ministry was used. The data was processed and explored using Python. The main predictive approach was based on decision trees, in which a tree based on the CART algorithm, an AdaBoost ensemble and a Random Forest ensemble were compared. The Random Forest methos achieved the best results, having a Precision- Recall Curve’s AUC of 0,853 compared to the 0,353 AUC from a dummy model. Its Recall was 69,8% and overall accuracy was 84%. This value was considered acceptable comparing it to other works and considering the nature and the scope of the used data. It is also possible to conclude that a similar modelling could be implemented to other institutions in the census, since data that is common to all institutions is used.
URI: https://app.uff.br/riuff/handle/1/21875
Appears in Collections:TEP - Trabalhos de Conclusão de Curso - Niterói

Files in This Item:
File Description SizeFormat 
Trabalho de Conclusão - Lucca Bevilacqua.pdf3.45 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons