Ementa/Descrição: |
Técnicas de pré-processamento: tokenização, limpeza, remoção de stop words, stemização, etc. Modelos n-gram e aplicações. Medidas de similaridade de palavras e documentos: distância de Levenshtein, matriz termo-documento, bag of words, similaridade do cosseno, TF-IDF. Aprendizagem de Máquina para PLN: conceitos básicos, regressão logística, classificador Naïve-Bayes e SVM linear. Modelagem de tópicos, classificação e agrupamento de texto: espaços latentes, Alocação Latente de Dirichlet (LDA), análise semântica latente com SVD. Redes Neurais e vetores de palavras (word embeddings): word2vec e arquiteturas de redes neurais recorrentes (RNN). Reconhecimento de Entidades Nomeadas (NER). Etiquetagem gramatical de palavras. |