EXTRAÇÃO MULTIMODAL DE CARACTERÍSTICAS DE PEÇAS DE ROUPA PARA SISTEMAS DE RECOMENDAÇÃO USANDO REDES NEURAIS PROFUNDAS
Este trabalho tem como objetivo auxiliar na identificação de atributos de peças de roupa usando uma estratégia multimodal e Deep Learning. Propomos o uso de imagens e descrições textuais não estruturadas para organizar catálogos de peças de roupa. Usamos estes dados para treinar arquiteturas de redes neurais profundas em problemas de classificação multi-classe, que em seguida sejam capazes de reconhecer automaticamente atributos a partir destes dois tipos de dado comumente encontrados em ambientes de comércio eletrônico. Forma experimentadas três classes de arquitetura: variações da arquitetura VGG para reconhecimento a partir de imagens; arquiteturas combinando camadas de embedding, convolucionais e LSTM para reconhecimento a partir de texto; e arquiteturas híbridas que combinam elementos de cada uma das arquiteturas anteriores. Usando uma base de dados que coletamos através de um Web Crawler de um grande site de e-commerce, mostramos em nossos experimentos que as arquiteturas híbridas conseguem um melhor resultado, por combinar ambas as modalidades de dados. Nossa metodologia possibilita a alimentação de sistemas de recomendação de peças de roupa, devido à possibilidade de compilação e estruturação dos dados do catálogo; além de servir para indicar descrições visuais e textuais insuficientes para um determinado atributo que possam ser melhoradas, quando os classificadores unimodais falham no reconhecimento deste atributo.
sistemas de recomendação; visão computacional; aprendizagem profunda; extração de características; moda.