<div dir="ltr"><div>Olá pessoal.</div><div> </div><div>Gostaria de saber quem já trabalhou com o stemCompletion() em seus projetos e que poderia me ajudar na seguinte questão....</div><div>.</div><div>1. Crio uma cópia do corpus (pois utilizarei o próprio documento como um dicionário).</div>
<div>2. Após este procedimento aplico o processo de stemming dos termos.</div><div>3. Logo em seguida utilizo o stemCompletion() para o preenchimento dos termos.</div><div> </div><div>1. <strong>dictionary</strong> <- corpus</div>
<div> tdm_corpus <- Corpus(VectorSource(corpus))</div><div> </div><div>2. tdm_corpus<-tm_map(tdm_corpus, <strong>stemDocument</strong>, language = "portuguese") <br>3. tdm_corpus<-tm_map(tdm_corpus, <strong>stemCompletion</strong>, dictionary=<strong>dictionary</strong>)</div>
<div> </div><div>O processo de stemming é realizado normalmente, assim como o processo de preenchimento dos termos o grande problema é que a medida que o número de amostras aumenta o custo para realizar o prenchimento aumenta muito. Por exemplo, em um primeiro momento trabalhei com 100 documentos - foi rápido. Porém, quando aumentei para 1000 demorou <strong>consideravelmente</strong>. Como é a primeira vez que trabalho com isso e estou trabalhando com uma quantidade de documentos significativa, gostaria de saber se de fato é isso que acontece normalmente ou se existe alguma outra maneira de contornar este problema.</div>
<div> </div><div>Fico muito grato a quem contribuir de alguma maneira.</div><div> </div><div>Abs,</div><div> </div><div>Fernando.</div></div>