YoloSense8: detecçãoo e classificação de objetos em aplicaçõoes para deficientes visuais
Processamento de Linguagem Natural,
Visão Computacional,
Aprendizado Profundo,
Redes Neurais Convolucionais,
Detecção e Classificação de Objetos,
Segmentação Semântica,
Análise de Espaço Vazio,
Análise de Superfície,
Pessoas Cegas,
Descrição de imagem,
Pessoas com Baixa Visão,
Tecnologia Assistiva,
Inclusão e Acessibilidade
Este estudo aborda a concepção e implementação de uma aplicação assistiva avançada, destinada a proporcionar autonomia a indivíduos com deficiência visual através da descrição em áudio de cenas capturadas por imagens. Integrando a visão computacional com o processamento de linguagem natural (PLN), o sistema utiliza uma versão modificada da YOLO-v8, conhecida como yoloSense8, e o modelo de linguagem de grandes dimensões LLaMA, de código aberto, para a detecção e interpretação precisas de objetos, pessoas, letras e números em imagens. A combinação do dataset ImageNet, rico em categorias de objetos, com o EMNIST, focado em caracteres alfanuméricos, juntamente com técnicas de transferência de aprendizado, permite ao modelo abranger uma ampla gama de elementos visuais e textuais. A tecnologia de texto para fala (TTS) é empregada para transformar as descrições textuais geradas em áudio, enquanto uma interface de usuário baseada em voz permite interações intuitivas por meio de comandos de voz, facilitando o uso da aplicação por pessoas cegas. Este trabalho contribui para o campo das tecnologias assistivas, destacando o potencial das técnicas de visão computacional e PLN na criação de ferramentas inclusivas. Avaliamos o desempenho do sistema em uma série de cenários reais, demonstrando sua eficácia em fornecer descrições detalhadas e contextualmente relevantes das cenas. Os resultados indicam que o sistema oferece uma solução promissora para melhorar a percepção ambiental de usuários com deficiência visual, evidenciando a importância da continuidade da pesquisa na interseção dessas tecnologias avançadas.