Uma Avaliação Sistemática de Técnicas de Aprendizado de Máquina Baseadas em Ensemble para Previsão de índices do Mercado de Ações Usando Séries Temporais Financeiras
Análise Comparativa,
Machine Learning,
Ensemble,
Série Temporal Financeira,
Mercado de índices.
proporcionando aos investidores visões valiosas sobre as tendências econômicas futuras de
um país a curto, médio e longo prazo. Esse tipo de predição tem sido realizado por meio de
modelos de aprendizado de máquina. Mas, particularmente, devido a volatilidade, o ruído e a
estocasticidade dos dados, tal investimento em predição tem sido mitigado satisfatoriamente
com o desenvolvimento de modelos ensemble. Esta variedade de modelos exige uma análise
comparativa sistemática para entender seus pontos fortes e limitações. Dessa forma, foi realizada
uma revisão sistemática da literatura voltada para a predição de índices da bolsa de
valores que utilizam séries temporais financeiras e abordagens de ensemble, com o objetivo
de mapear os principais artigos, autores, tipos de técnicas utilizadas e lacunas na literatura.
A literatura revela que muitas análises comparativas se restringem ao uso de métricas de desempenho
tradicionais, como MSE, RMSE, MAE e MAPE, o que pode introduzir vieses nas
comparações, além de frequentemente omitir testes estatísticos robustos, focar apenas em um
tipo de mercado e adotar um protocolo de comparação inadequado. Este estudo investiga como
diferentes técnicas de ensemble aprimoram a previsão em séries temporais financeiras, adotando
um protocolo meticuloso para eliminar vieses dos dados e padronizar comparações entre
metodologias. Além das métricas tradicionais, foi introduzida uma análise de custo-benefício
para uma avaliação mais abrangente da arquitetura de ensemble. O teste de hipótese de Wilcoxon
foi aplicado para validar as descobertas, juntamente com os testes de Friedman e Nemenyi,
que são utilizados para classificar todos os modelos. Os resultados apresentaram a importância
de executar os algoritmos em diferentes ambientes, como os selecionados IBOVESPA e S&P
500, além de indicar que os algoritmos de ensemble, especialmente as abordagens de Decomposição
e Sistemas Híbridos Residuais que utilizam o modelo CART como base, tem um bom
desempenho dependendo do tipo de ambiente adotado. Contudo, testes estatísticos nas métricas
tradicionais mostram desempenhos equivalentes ao modelo single CART, e na métrica
de custo-benefício estes modelos apresentam um rendimento ruim, mostrando assim que nem
sempre o aumento na complexidade dos modelos resulta em benefícios significativos.