Ementa/Descrição: |
Técnicas de pré-processamento: tokenização, limpeza, remoção de stop words, stemização, etc.
Modelos n-gram e aplicações. Medidas de similaridade de palavras e documentos: distância de Levenshtein, matriz termo-documento, bag of words, similaridade do cosseno, TF-IDF.
Aprendizagem de Máquina para PLN: conceitos básicos, regressão logística, classificador Naïve-Bayes e SVM linear.
Modelagem de tópicos, classificação e agrupamento de texto: espaços latentes, Alocação Latente de Dirichlet (LDA), análise semântica latente com SVD. Redes Neurais e vetores de palavras (word embeddings): word2vec e arquiteturas de redes neurais recorrentes (RNN). Reconhecimento de Entidades Nomeadas (NER). Etiquetagem gramatical de palavras. |
Referências: |
Jurasky, Daniel, and James H. Martin. "Speech and Language Processing: An introduction to natural
language Processing." Computational Linguistics and Speech Recognition. Prentice Hall, New
Jersey (2000).
Shapiro, Stuart Charles, and Lucja M. Iwánska, eds. Natural language processing and knowledge
representation: language for knowledge and knowledge for language. Aaai Press, 2000.
Bird, Steven, Ewan Klein, and Edward Loper. Natural language processing with Python: analyzing text
with the natural language toolkit. " O'Reilly Media, Inc.", 2009.
Brownlee, Jason. Deep Learning for Natural Language Processing: Develop Deep Learning Models for
your Natural Language Problems. Machine Learning Mastery, 2017.
Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep learning. MIT press, 2016. |