[R-br] stemCompletion() package 'tm'

Fernando Gama f.fabiogama88 em gmail.com
Quarta Julho 9 09:20:38 BRT 2014


Olá pessoal.

Gostaria de saber quem já trabalhou com o stemCompletion() em seus projetos
e que poderia me ajudar na seguinte questão....
.
1. Crio uma cópia do corpus (pois utilizarei o próprio documento como um
dicionário).
2. Após este procedimento aplico o processo de stemming dos termos.
3. Logo em seguida utilizo o stemCompletion() para o preenchimento dos
termos.

1. *dictionary* <- corpus
    tdm_corpus <- Corpus(VectorSource(corpus))

2. tdm_corpus<-tm_map(tdm_corpus, *stemDocument*, language = "portuguese")
3. tdm_corpus<-tm_map(tdm_corpus, *stemCompletion*, dictionary=*dictionary*)

O processo de stemming é realizado normalmente, assim como o processo de
preenchimento dos termos o grande problema é que a medida que o número de
amostras aumenta o custo para realizar o prenchimento aumenta muito. Por
exemplo, em um  primeiro momento trabalhei com 100 documentos - foi rápido.
Porém, quando aumentei para 1000 demorou *consideravelmente*. Como é a
primeira vez que trabalho com isso e estou trabalhando com uma quantidade
de documentos significativa, gostaria de saber se de fato é isso que
acontece normalmente ou se existe alguma outra maneira de contornar este
problema.

Fico muito grato a quem contribuir de alguma maneira.

Abs,

Fernando.
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20140709/5e0417ae/attachment.html>


Mais detalhes sobre a lista de discussão R-br