Uma estratégia Multi-Start Simulated Annealing para o problema da organização de dados em data lake
Data Lake, Organização de dado, Simulated Annealing
Data Lake é a solução para Big Data que mais tem recebido atenção recentemente. Seu principal
recurso é lidar com grandes volumes de dados heterogêneos em seu formato bruto. No entanto, isso faz
acesso, gerenciamento e exploração de dados mais complexos. Tal desafio define a organização
problema organizacional. O problema da organização do Data Lake compreende navegação de dados otimizada
geração de estruturas para reduzir o tempo do usuário explorando todos os dados disponíveis. O objetivo é encontrar um organização de dados que maximiza a probabilidade esperada de descoberta de tabelas durante a navegação do usuário. Para este problema, propomos uma metaheurística de recozimento simulada e a comparamos com a Organize a solução da literatura em instâncias de benchmark. Também propomos uma variação mais eficiente que elimina cálculos excessivos. As instâncias são amostras do Socrata Open Data Lake com diversos tópicos e dados abertos de entidades governamentais em todo o mundo. Para validar nossas propostas, realizou análise estatística por meio de teste não paramétrico, que confirmou a dominância de
nossa proposta sobre o estado da arte. Nossa melhor proposta foi mais eficiente e aumentou o probabilidade esperada de descoberta de tabela de até 44%. Assim, nossa estratégia pode encontrar melhores soluções nos benchmarks avaliados mesmo sem analisar exaustivamente todos eles e de forma mais eficaz explorando o espaço das soluções