Análise e processamento de sinais para identificação de idiomas em textos
Identificação de Lingagem; Redes Neurais Artificiais; Séries Temporais; LID; Processamento de sinais; Wavelet; Plano Causalidade Complexidade-Entropia; Bandt-Pompe
A identificação de idiomas (LID) em textos é uma tarefa central no Processamento de Linguagem Natural (PLN), especialmente desafiadora quando envolve línguas de origem comum, cujas estruturas linguísticas apresentam elevada similaridade. Métodos tradicionais, como aqueles baseados em n-grama, frequentemente enfrentam limitações significativas, como alta complexidade computacional e forte dependência de recursos linguísticos externos, como dicionários ou corpora anotados. Como alternativa a essas abordagens, propôs-se um método inovador baseado em processamento de sinais. Nessa abordagem, os textos são convertidos em séries temporais por meio da codificação de seus caracteres em valores UTF-8. Em seguida, os textos são agrupados utilizando o algoritmo K-means, tendo como critério a média dos valores codificados. Para cada grupo, são extraídas 32 características por meio da transformada wavelet packet, que então alimentam uma rede neural responsável pela classificação do idioma. Essa técnica demonstrou desempenho promissor, alcançando uma acurácia de 72,2\% em um corpus contendo 31 idiomas distintos.
A base teórica dessa metodologia remete ao plano de complexidade-entropia (CH), um arcabouço originalmente desenvolvido para distinguir entre sinais caóticos e processos estocásticos — ambos compartilhando propriedades estatísticas semelhantes, como espectros de potência de banda larga e funções de autocorrelação do tipo delta. O plano CH utiliza dois elementos principais: a entropia de Shannon (HS), que quantifica o grau de aleatoriedade da série, e a complexidade estatística de Jensen-Shannon (CJS), que avalia a estrutura correlacional subjacente. Ambos são calculados com base na distribuição ordinal de Bandt-Pompe, que permite capturar padrões dinâmicos sem a necessidade de suposições fortes sobre a distribuição dos dados. A analogia entre sinais caóticos e padrões linguísticos torna possível aplicar esse arcabouço teórico à tarefa de LID. A hipótese subjacente é que os idiomas manifestam "ritmos" e estruturas dinâmicas específicas que podem ser interpretadas como séries temporais, cujas características estatísticas possibilitam a sua representação em um espaço de complexidade-entropia. Nesse espaço, diferentes idiomas tendem a ocupar regiões distintas, viabilizando sua identificação por meio de métricas robustas e independentes de conhecimento linguístico explícito.