<div dir="ltr"><div class="gmail_default" style="font-family:trebuchet ms,sans-serif;font-size:small;color:rgb(7,55,99)">Pessoal, boa noite!<br><br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif;font-size:small;color:rgb(7,55,99)">Com base em um exemplo pego na internet, tentei fazer uma nuvem de palavras de um arquivo notepad (peguei uma pequena matéria na internet e salvei, em .txt, com o nome SaoBento).<br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif;font-size:small;color:rgb(7,55,99)">O código tem funcionado quase corretamente. O problema é que eu não tenho tido sucesso em corrigir o <i>encoding</i> do texto.<br><br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif;font-size:small;color:rgb(7,55,99)">- Tentei usar <span style="color:rgb(153,0,255)"><span style="font-family:verdana,sans-serif"><span style="color:rgb(0,0,255)">encoding = "UTF-8"</span> <span style="font-family:trebuchet ms,sans-serif"><font color="#000000">na linha do</font></span></span></span><span style="color:rgb(153,0,255)"><span style="font-family:verdana,sans-serif"><span style="color:rgb(0,0,255)"><span style="font-family:trebuchet ms,sans-serif"> <span style="font-family:verdana,sans-serif">readlines</span><span style="color:rgb(0,0,0)">, mas sem sucesso.</span></span><br></span></span></span></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif;font-size:small;color:rgb(7,55,99)"><span style="color:rgb(153,0,255)"><span style="font-family:verdana,sans-serif"><span style="color:rgb(0,0,255)"><span style="font-family:trebuchet ms,sans-serif"><span style="color:rgb(0,0,0)">- Também tentei usar</span></span> enc2native()<span style="font-family:trebuchet ms,sans-serif"> <span style="color:rgb(0,0,0)">na última linha do passo 7, mas ocorre erro <span style="font-family:verdana,sans-serif"><span style="color:rgb(0,0,255)">argument is not a character vector</span></span>.</span></span></span></span></span><br><span style="color:rgb(153,0,255)"><span style="font-family:verdana,sans-serif"><span style="color:rgb(0,0,255)"><span style="font-family:trebuchet ms,sans-serif"><span style="color:rgb(0,0,0)"></span></span></span></span></span></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif;font-size:small;color:rgb(7,55,99)"><span style="color:rgb(153,0,255)"><span style="font-family:verdana,sans-serif"><span style="color:rgb(0,0,255)"><span style="font-family:trebuchet ms,sans-serif"><span style="color:rgb(0,0,0)">- Salvei o arquivo SaoBento.txt no Notepad++, usando UTF-8 e, também, a nuvem final acusou problemas de <i>encoding</i>.</span><br></span></span></span></span></div><div class="gmail_default" style="font-size:small;color:rgb(7,55,99)"><span style="font-family:trebuchet ms,sans-serif"><span style="color:rgb(153,0,255)"><span style="color:rgb(0,0,255)"><span style="color:rgb(0,0,0)">- Deixei o arquivo SaoBento.txt salvo sozinho em uma pasta e, também, não tive sucesso em acertar o <i>encoding</i>.</span><br></span></span></span></div><div class="gmail_default" style="font-size:small"><span style="font-family:trebuchet ms,sans-serif"><span style="color:rgb(0,0,0)"><br></span></span></div><div class="gmail_default" style="font-size:small"><span style="font-family:trebuchet ms,sans-serif"><span style="color:rgb(0,0,0)">Sendo assim, gostaria de saber se alguém poderia fornecer uma dica de como posso driblar esse problema.<br><br></span></span></div><div class="gmail_default" style="font-size:small"><span style="font-family:trebuchet ms,sans-serif"><span style="color:rgb(0,0,0)">Agradeço pela atenção.<br><br></span></span></div><div class="gmail_default" style="font-size:small"><span style="font-family:trebuchet ms,sans-serif"><span style="color:rgb(0,0,0)">Saudações,<br></span></span></div><div class="gmail_default" style="font-size:small"><span style="font-family:trebuchet ms,sans-serif"><span style="color:rgb(0,0,0)">-Max Lara<br></span></span></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif;font-size:small;color:rgb(7,55,99)"><span style="color:rgb(0,0,0)">  </span><br>#==============================================<br>#                             WORDCLOUD<br>#==============================================<br><br><b>#1) INSTALL REQUIRED PACKAGES</b><br>install.packages("tm")                         #for text mining<br>install.packages("SnowballC")             #for text stemming<br>install.packages("wordcloud")             #wordcloud generator<br>install.packages("RColorBrewer")        #color palletes<br><br><b>#2) LOAD REQUIRED PACKAGES</b><br>library("tm")<br>library("SnowballC")<br>library("wordcloud")<br>library("RColorBrewer")<br><br><b>#3) TEXT MINING</b><br>#LOAD THE TEXT (SAVED LOCALLY)<br>text <- readLines(file.choose())<br><br><b>#4) LOAD THE DATA AS A CORPUS</b><br>docs <- Corpus(VectorSource(text))          #VectorSource() function creates a corpus of character vectors<br>docs <- tm_map(docs, PlainTextDocument)<br><br><b>#5) TEXT TRANSFORMATION</b><br>#tm_map() function (to replace, for instance, special characters from the text).<br>#Replacing "/", "@" and "|" with space:<br>  <br>toSpace <- content_transformer(function (x , pattern ) gsub(pattern, " ", x))<br>docs <- tm_map(docs, toSpace, "/")<br>docs <- tm_map(docs, toSpace, "@")<br>docs <- tm_map(docs, toSpace, "\\|")<br><br><b>#6) TEXT CLEANING</b><br>#tm_map() (remove unnecessary white space, to convert the text to lower case)<br>#Removing common stopwords<br><br>docs <- tm_map(docs, content_transformer(tolower))                #Convert the text to lower case<br>docs <- tm_map(docs, removeNumbers)                                     #Remove numbers<br>docs <- tm_map(docs, removeWords, stopwords("portuguese"))   #Remove Portuguese common stopwords<br>docs <- tm_map(docs, removePunctuation)                                #Remove punctuations<br>docs <- tm_map(docs, stripWhitespace)                                     #Eliminate extra white spaces<br>docs <- tm_map(docs, stemDocument)                                       #Text stemming<br><br><b>#7) BUILD A TERM-DOCUMENT MATRIX (TDM)</b><br>#TDM is a table containing the frequency of the words.<br>#Column names are words<br>#Rown names are documents<br><br>dtm <- TermDocumentMatrix(docs)<br>terms(dtm)<br>m <- as.matrix(dtm)<br>v <- sort(rowSums(m),decreasing=TRUE)<br>d <- data.frame(word = names(v),freq=v) <br>head(d, 10)<br><span style="color:rgb(255,0,0)">AQUI_ERRO</span> <- d$word<br><br><b>#8) GENERATE THE WORD CLOUD</b><br>wordcloud(<br>  words = <span style="color:rgb(255,0,0)">AQUI_ERRO</span>, <br>  freq = d$freq, <br>  min.freq = 1,<br>  max.words=200, <br>  random.order=FALSE, <br>  rot.per=0.35, <br>  colors=brewer.pal(8, "Dark2"))<br><br><br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif;font-size:small;color:rgb(7,55,99)"><u><b>saída:</b></u><br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif;font-size:small;color:rgb(7,55,99)"><img src="cid:ii_15ec0f15ad52aad6" alt="Inline image 1" style="margin-right: 0px;" height="315" width="331"><br><br></div></div>