Stopwords - Na Prática

Frank Coelho de Alcantara -2021  

Racional

O preprocessamento de textos, antes da aplicação de algoritmos de processamento de linguagem natural. É indispensável para a redução do custo computacional envolvido e, muitas vezes, o fator responsável pelo sucesso ou fracasso.

Na aula passada, apresentei dois exemplos de uso das bibliotecas NLP e Spacy, nestes exemplos estavam aplicações de stemming, tokenização e lemarização.

Hoje vamos criar a nossa própria função para a criação de uma lista de stopwords.

Atividade Prática

Você deverá fazer uma função para a identificação de stopwords em português.

Para isso irá usar o algoritmo de subamostragem definido por Mikolov et. al.$$P(w_i) = 1-\sqrt{\frac{t}{f(w_i)}}$$

Use um texto longo e interessante, como a constituição, por exemplo. E observe o item 2.3 do trabalho de Mikolov

O link da sua implementação no Google Colab ou no Repl.it deve ser enviado aqui

Dicas

Você precisará fazer a tokenização do corpus. Pode usar a NTLK, ou a Spacy para isso. Veja os exemplos da aula passada.

Beautiful Soup é uma excelente opção para fazer o parser de uma página web. E você pode ver um exemplo de uso Aqui

O uso de textos grandes e relevantes, torna o trabalho mais interessante.

A decisão de tornar este exercício intrigante é sua. Por exemplo, Todas as denúncias referentes a Operação Lava Jato estão disponíveis aqui.

Lembre-se o Stopwords é uma técnica para localizar tokens comuns. Geralmente o conhecimento novo e surpreendente se encontra nas palavras raras.