Uma estratégia Multi-Start Simulated Annealing para o problema da organização de dados em data lake
Data Lake, Organização de dado, Simulated Annealing
O problema da organização do Data Lake compreende geração de estruturas de navegação de dados otimizada para reduzir o tempo do usuário, explorando todos os dados disponíveis. O objetivo é encontrar uma organização de dados que maximize a probabilidade esperada de descoberta de tabela durante a navegação pelo usuário. Para esse problema, propomos uma metaheurística de Simulated Anneling e o comparamos com a solução de literatura organizada em instâncias de referência. As instâncias são amostras de Socrata Open Data Lake com tópicos variados e dados abertos de entidades governamentais em todo o mundo. Para validar nossa proposta, realizamos uma análise estatística usando um teste não paramétrico, o que confirmou o domínio de nossa proposição em relação ao estado da arte. Nossa proposta foi mais eficiente e aumentou a probabilidade esperada de descoberta de tabela em até 15%.