<div dir="auto">Max,<div dir="auto">Sem uma amostra dos dados que são fonte do erro fica muito dificil de te ajudar.</div><div dir="auto"><br></div><div dir="auto">Problema de encoding, eu já tive inclusive, ao compilar um .rmd via atalho no rstudio e não por linha de comando.</div><div dir="auto"><br></div><div dir="auto">Por isto é complicado te ajudar sem ter um exemplo dos dados problemáticos </div><div dir="auto"><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">Em 27 de set de 2017 11:39 PM, "Max via R-br" <<a href="mailto:r-br@listas.c3sl.ufpr.br">r-br@listas.c3sl.ufpr.br</a>> escreveu:<br type="attribution"><blockquote class="quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div class="gmail_default" style="font-family:"trebuchet ms",sans-serif;font-size:small"><div class="gmail_default"><font color="#000000">Pessoal, boa noite!<br><br></font></div><div class="gmail_default"><font color="#000000">Com base em um exemplo pego na internet, tentei fazer uma nuvem de palavras de um arquivo notepad (peguei uma pequena matéria na internet e salvei, em .txt, com o nome SaoBento).<br></font></div><div class="gmail_default"><font color="#000000">O código tem funcionado quase corretamente. O problema é que eu não tenho tido sucesso em corrigir o <i>encoding</i> do texto.</font><br><br></div><div class="gmail_default"><font color="#000000">- Tentei usar</font><span style="color:rgb(7,55,99)"> <span style="color:rgb(153,0,255)"><span style="font-family:verdana,sans-serif"><span style="color:rgb(0,0,255)">encoding = "UTF-8"</span> <span style="font-family:"trebuchet ms",sans-serif"><font color="#000000">na linha do</font></span></span></span><span style="color:rgb(153,0,255)"><span style="font-family:verdana,sans-serif"><span style="color:rgb(0,0,255)"><span style="font-family:"trebuchet ms",sans-serif"> <span style="font-family:verdana,sans-serif">readlines</span><span style="color:rgb(0,0,0)">, mas sem sucesso.</span></span><br></span></span></span></span></div><div class="gmail_default" style="color:rgb(7,55,99)"><span style="color:rgb(153,0,255)"><span style="font-family:verdana,sans-serif"><span style="color:rgb(0,0,255)"><span style="font-family:"trebuchet ms",sans-serif"><span style="color:rgb(0,0,0)">- Também tentei usar</span></span> enc2native()<span style="font-family:"trebuchet ms",sans-serif"> <span style="color:rgb(0,0,0)">na última linha do passo 7, mas ocorre erro <span style="font-family:verdana,sans-serif"><span style="color:rgb(0,0,255)">argument is not a character vector</span></span>.</span></span></span></span></span><br><span style="color:rgb(153,0,255)"><span style="font-family:verdana,sans-serif"><span style="color:rgb(0,0,255)"><span style="font-family:"trebuchet ms",sans-serif"><span style="color:rgb(0,0,0)"></span></span></span></span></span></div><div class="gmail_default" style="color:rgb(7,55,99)"><span style="color:rgb(153,0,255)"><span style="font-family:verdana,sans-serif"><span style="color:rgb(0,0,255)"><span style="font-family:"trebuchet ms",sans-serif"><span style="color:rgb(0,0,0)">- Salvei o arquivo SaoBento.txt no Notepad++, usando UTF-8 e, também, a nuvem final acusou problemas de <i>encoding</i>.</span><br></span></span></span></span></div><div class="gmail_default" style="color:rgb(7,55,99);font-family:arial,sans-serif"><span style="font-family:"trebuchet ms",sans-serif"><span style="color:rgb(153,0,255)"><span style="color:rgb(0,0,255)"><span style="color:rgb(0,0,0)">- Deixei o arquivo SaoBento.txt salvo sozinho em uma pasta e, também, não tive sucesso em acertar o <i>encoding</i>.</span><br></span></span></span></div><div class="gmail_default" style="color:rgb(34,34,34);font-family:arial,sans-serif"><span style="font-family:"trebuchet ms",sans-serif"><span style="color:rgb(0,0,0)"><br></span></span></div><div class="gmail_default" style="color:rgb(34,34,34);font-family:arial,sans-serif"><span style="font-family:"trebuchet ms",sans-serif"><span style="color:rgb(0,0,0)">Sendo assim, gostaria de saber se alguém poderia fornecer uma dica de como posso driblar esse problema.<br><br></span></span></div><div class="gmail_default" style="color:rgb(34,34,34);font-family:arial,sans-serif"><span style="font-family:"trebuchet ms",sans-serif"><span style="color:rgb(0,0,0)">Agradeço pela atenção.<br><br></span></span></div><div class="gmail_default" style="color:rgb(34,34,34);font-family:arial,sans-serif"><span style="font-family:"trebuchet ms",sans-serif"><span style="color:rgb(0,0,0)">Saudações,<br></span></span></div><div class="gmail_default" style="color:rgb(34,34,34);font-family:arial,sans-serif"><span style="font-family:"trebuchet ms",sans-serif"><span style="color:rgb(0,0,0)">-Max Lara<br></span></span></div><div class="gmail_default" style="color:rgb(34,34,34);font-family:arial,sans-serif"><span style="font-family:"trebuchet ms",sans-serif"><span style="color:rgb(0,0,0)"><br></span></span></div><div class="gmail_default" style="color:rgb(34,34,34);font-family:arial,sans-serif"><span style="font-family:"trebuchet ms",sans-serif"><span style="color:rgb(0,0,0)">PS: A variável "AQUI_ERRO" é onde leio o texto "distorcido".</span></span></div><div class="gmail_default" style="color:rgb(7,55,99)"><span style="color:rgb(0,0,0)"> </span><br>#=============================<wbr>=================<br># WORDCLOUD<br>#=============================<wbr>=================<br><br><b>#1) INSTALL REQUIRED PACKAGES</b><br>install.packages("tm") <wbr> #for text mining<br>install.packages("SnowballC") <wbr> #for text stemming<br>install.packages("wordcloud") <wbr> #wordcloud generator<br>install.packages("RColorBrewer<wbr>") #color palletes<br><br><b>#2) LOAD REQUIRED PACKAGES</b><br>library("tm")<br>library("SnowballC")<br>library("wordcloud")<br>library("RColorBrewer")<br><br><b>#3) TEXT MINING</b><br>#LOAD THE TEXT (SAVED LOCALLY)<br>text <- readLines(file.choose())<br><br><b>#4) LOAD THE DATA AS A CORPUS</b><br>docs <- Corpus(VectorSource(text)) <wbr> #VectorSource() function creates a corpus of character vectors<br>docs <- tm_map(docs, PlainTextDocument)<br><br><b>#5) TEXT TRANSFORMATION</b><br>#tm_map() function (to replace, for instance, special characters from the text).<br>#Replacing "/", "@" and "|" with space:<br> <br>toSpace <- content_transformer(function (x , pattern ) gsub(pattern, " ", x))<br>docs <- tm_map(docs, toSpace, "/")<br>docs <- tm_map(docs, toSpace, "@")<br>docs <- tm_map(docs, toSpace, "\\|")<br><br><b>#6) TEXT CLEANING</b><br>#tm_map() (remove unnecessary white space, to convert the text to lower case)<br>#Removing common stopwords<br><br>docs <- tm_map(docs, content_transformer(tolower)) <wbr> #Convert the text to lower case<br>docs <- tm_map(docs, removeNumbers) <wbr> #Remove numbers<br>docs <- tm_map(docs, removeWords, stopwords("portuguese")) #Remove Portuguese common stopwords<br>docs <- tm_map(docs, removePunctuation) <wbr> #Remove punctuations<br>docs <- tm_map(docs, stripWhitespace) <wbr> #Eliminate extra white spaces<br>docs <- tm_map(docs, stemDocument) <wbr> #Text stemming<br><br><b>#7) BUILD A TERM-DOCUMENT MATRIX (TDM)</b><br>#TDM is a table containing the frequency of the words.<br>#Column names are words<br>#Rown names are documents<br><br>dtm <- TermDocumentMatrix(docs)<br>terms(dtm)<br>m <- as.matrix(dtm)<br>v <- sort(rowSums(m),decreasing=TRU<wbr>E)<br>d <- data.frame(word = names(v),freq=v) <br>head(d, 10)<br><span style="color:rgb(255,0,0)">AQUI_ERRO</span> <- d$word<br><br><b>#8) GENERATE THE WORD CLOUD</b><br>wordcloud(<br> words = <span style="color:rgb(255,0,0)">AQUI_ERRO</span>, <br> freq = d$freq, <br> min.freq = 1,<br> max.words=200, <br> random.order=FALSE, <br> rot.per=0.35, <br> colors=brewer.pal(8, "Dark2"))<br></div></div></div>
<br>______________________________<wbr>_________________<br>
R-br mailing list<br>
<a href="mailto:R-br@listas.c3sl.ufpr.br">R-br@listas.c3sl.ufpr.br</a><br>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" rel="noreferrer" target="_blank">https://listas.inf.ufpr.br/<wbr>cgi-bin/mailman/listinfo/r-br</a><br>
Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" rel="noreferrer" target="_blank">http://www.leg.ufpr.br/r-br-<wbr>guia</a>) e forneça código mínimo reproduzível.<br></blockquote></div><br></div>