<div dir="ltr"><div class="gmail_default" style="font-family:"trebuchet ms",sans-serif;font-size:small"><div class="gmail_default" style=""><font color="#000000">Pessoal, boa noite!<br><br></font></div><div class="gmail_default" style=""><font color="#000000">Com base em um exemplo pego na internet, tentei fazer uma nuvem de palavras de um arquivo notepad (peguei uma pequena matéria na internet e salvei, em .txt, com o nome SaoBento).<br></font></div><div class="gmail_default" style=""><font color="#000000">O código tem funcionado quase corretamente. O problema é que eu não tenho tido sucesso em corrigir o <i style="">encoding</i> do texto.</font><br><br></div><div class="gmail_default" style=""><font color="#000000">- Tentei usar</font><span style="color:rgb(7,55,99)"> <span style="color:rgb(153,0,255)"><span style="font-family:verdana,sans-serif"><span style="color:rgb(0,0,255)">encoding = "UTF-8"</span> <span style="font-family:"trebuchet ms",sans-serif"><font color="#000000">na linha do</font></span></span></span><span style="color:rgb(153,0,255)"><span style="font-family:verdana,sans-serif"><span style="color:rgb(0,0,255)"><span style="font-family:"trebuchet ms",sans-serif"> <span style="font-family:verdana,sans-serif">readlines</span><span style="color:rgb(0,0,0)">, mas sem sucesso.</span></span><br></span></span></span></span></div><div class="gmail_default" style="color:rgb(7,55,99)"><span style="color:rgb(153,0,255)"><span style="font-family:verdana,sans-serif"><span style="color:rgb(0,0,255)"><span style="font-family:"trebuchet ms",sans-serif"><span style="color:rgb(0,0,0)">- Também tentei usar</span></span> enc2native()<span style="font-family:"trebuchet ms",sans-serif"> <span style="color:rgb(0,0,0)">na última linha do passo 7, mas ocorre erro <span style="font-family:verdana,sans-serif"><span style="color:rgb(0,0,255)">argument is not a character vector</span></span>.</span></span></span></span></span><br><span style="color:rgb(153,0,255)"><span style="font-family:verdana,sans-serif"><span style="color:rgb(0,0,255)"><span style="font-family:"trebuchet ms",sans-serif"><span style="color:rgb(0,0,0)"></span></span></span></span></span></div><div class="gmail_default" style="color:rgb(7,55,99)"><span style="color:rgb(153,0,255)"><span style="font-family:verdana,sans-serif"><span style="color:rgb(0,0,255)"><span style="font-family:"trebuchet ms",sans-serif"><span style="color:rgb(0,0,0)">- Salvei o arquivo SaoBento.txt no Notepad++, usando UTF-8 e, também, a nuvem final acusou problemas de <i>encoding</i>.</span><br></span></span></span></span></div><div class="gmail_default" style="color:rgb(7,55,99);font-family:arial,sans-serif"><span style="font-family:"trebuchet ms",sans-serif"><span style="color:rgb(153,0,255)"><span style="color:rgb(0,0,255)"><span style="color:rgb(0,0,0)">- Deixei o arquivo SaoBento.txt salvo sozinho em uma pasta e, também, não tive sucesso em acertar o <i>encoding</i>.</span><br></span></span></span></div><div class="gmail_default" style="color:rgb(34,34,34);font-family:arial,sans-serif"><span style="font-family:"trebuchet ms",sans-serif"><span style="color:rgb(0,0,0)"><br></span></span></div><div class="gmail_default" style="color:rgb(34,34,34);font-family:arial,sans-serif"><span style="font-family:"trebuchet ms",sans-serif"><span style="color:rgb(0,0,0)">Sendo assim, gostaria de saber se alguém poderia fornecer uma dica de como posso driblar esse problema.<br><br></span></span></div><div class="gmail_default" style="color:rgb(34,34,34);font-family:arial,sans-serif"><span style="font-family:"trebuchet ms",sans-serif"><span style="color:rgb(0,0,0)">Agradeço pela atenção.<br><br></span></span></div><div class="gmail_default" style="color:rgb(34,34,34);font-family:arial,sans-serif"><span style="font-family:"trebuchet ms",sans-serif"><span style="color:rgb(0,0,0)">Saudações,<br></span></span></div><div class="gmail_default" style="color:rgb(34,34,34);font-family:arial,sans-serif"><span style="font-family:"trebuchet ms",sans-serif"><span style="color:rgb(0,0,0)">-Max Lara<br></span></span></div><div class="gmail_default" style="color:rgb(34,34,34);font-family:arial,sans-serif"><span style="font-family:"trebuchet ms",sans-serif"><span style="color:rgb(0,0,0)"><br></span></span></div><div class="gmail_default" style="color:rgb(34,34,34);font-family:arial,sans-serif"><span style="font-family:"trebuchet ms",sans-serif"><span style="color:rgb(0,0,0)">PS: A variável "AQUI_ERRO" é onde leio o texto "distorcido".</span></span></div><div class="gmail_default" style="color:rgb(7,55,99)"><span style="color:rgb(0,0,0)">  </span><br>#=============================<wbr>=================<br>#                             WORDCLOUD<br>#=============================<wbr>=================<br><br><b>#1) INSTALL REQUIRED PACKAGES</b><br>install.packages("tm")        <wbr>                 #for text mining<br>install.packages("SnowballC") <wbr>            #for text stemming<br>install.packages("wordcloud") <wbr>            #wordcloud generator<br>install.packages("RColorBrewer<wbr>")        #color palletes<br><br><b>#2) LOAD REQUIRED PACKAGES</b><br>library("tm")<br>library("SnowballC")<br>library("wordcloud")<br>library("RColorBrewer")<br><br><b>#3) TEXT MINING</b><br>#LOAD THE TEXT (SAVED LOCALLY)<br>text <- readLines(file.choose())<br><br><b>#4) LOAD THE DATA AS A CORPUS</b><br>docs <- Corpus(VectorSource(text))    <wbr>      #VectorSource() function creates a corpus of character vectors<br>docs <- tm_map(docs, PlainTextDocument)<br><br><b>#5) TEXT TRANSFORMATION</b><br>#tm_map() function (to replace, for instance, special characters from the text).<br>#Replacing "/", "@" and "|" with space:<br>  <br>toSpace <- content_transformer(function (x , pattern ) gsub(pattern, " ", x))<br>docs <- tm_map(docs, toSpace, "/")<br>docs <- tm_map(docs, toSpace, "@")<br>docs <- tm_map(docs, toSpace, "\\|")<br><br><b>#6) TEXT CLEANING</b><br>#tm_map() (remove unnecessary white space, to convert the text to lower case)<br>#Removing common stopwords<br><br>docs <- tm_map(docs, content_transformer(tolower)) <wbr>               #Convert the text to lower case<br>docs <- tm_map(docs, removeNumbers)                <wbr>                     #Remove numbers<br>docs <- tm_map(docs, removeWords, stopwords("portuguese"))   #Remove Portuguese common stopwords<br>docs <- tm_map(docs, removePunctuation)            <wbr>                    #Remove punctuations<br>docs <- tm_map(docs, stripWhitespace)              <wbr>                       #Eliminate extra white spaces<br>docs <- tm_map(docs, stemDocument)                 <wbr>                      #Text stemming<br><br><b>#7) BUILD A TERM-DOCUMENT MATRIX (TDM)</b><br>#TDM is a table containing the frequency of the words.<br>#Column names are words<br>#Rown names are documents<br><br>dtm <- TermDocumentMatrix(docs)<br>terms(dtm)<br>m <- as.matrix(dtm)<br>v <- sort(rowSums(m),decreasing=TRU<wbr>E)<br>d <- data.frame(word = names(v),freq=v) <br>head(d, 10)<br><span style="color:rgb(255,0,0)">AQUI_ERRO</span> <- d$word<br><br><b>#8) GENERATE THE WORD CLOUD</b><br>wordcloud(<br>  words = <span style="color:rgb(255,0,0)">AQUI_ERRO</span>, <br>  freq = d$freq, <br>  min.freq = 1,<br>  max.words=200, <br>  random.order=FALSE, <br>  rot.per=0.35, <br>  colors=brewer.pal(8, "Dark2"))<br></div></div></div>