Frank Coelho de Alcantara -2021
O preprocessamento de textos, antes da aplicação de algoritmos de processamento de linguagem natural. É indispensável para a redução do custo computacional envolvido e, muitas vezes, o fator responsável pelo sucesso ou fracasso.
Na aula passada, apresentei dois exemplos de uso das bibliotecas NLP e Spacy, nestes exemplos estavam aplicações de stemming, tokenização e lemarização.
Hoje vamos criar a nossa própria função para a criação de uma lista de stopwords.
Você deverá fazer uma função para a identificação de stopwords em português.
Para isso irá usar o algoritmo de subamostragem definido por Mikolov et. al.$$P(w_i) = 1-\sqrt{\frac{t}{f(w_i)}}$$
Use um texto longo e interessante, como a constituição, por exemplo. E observe o item 2.3 do trabalho de Mikolov
O link da sua implementação no Google Colab ou no Repl.it deve ser enviado aqui
Você precisará fazer a tokenização do corpus. Pode usar a NTLK, ou a Spacy para isso. Veja os exemplos da aula passada.
Beautiful Soup é uma excelente opção para fazer o parser de uma página web. E você pode ver um exemplo de uso Aqui
O uso de textos grandes e relevantes, torna o trabalho mais interessante.
A decisão de tornar este exercício intrigante é sua. Por exemplo, Todas as denúncias referentes a Operação Lava Jato estão disponíveis aqui.
Lembre-se o Stopwords é uma técnica para localizar tokens comuns. Geralmente o conhecimento novo e surpreendente se encontra nas palavras raras.