<div>Caro Walmes, não consegui reproduzir intralmente seu código, mas o comando abaixo funcionou pra mim, usando Windows. (Eu copiei o texto do email, não sei se vai funcionar com o texto gerado pelo seu código. </div>
<div> </div>
<div>> iconv("Matemática - EstatÃstica: Conceito e frequências - YouTube", from="utf-8")<br>[1] "Matemática - Estatística: Conceito e frequências - YouTube"<br><br>Abs.<br></div>
<div class="gmail_quote">Em 7 de junho de 2013 09:49, walmes . <span dir="ltr"><<a href="mailto:walmeszeviani@gmail.com" target="_blank">walmeszeviani@gmail.com</a>></span> escreveu:<br>
<blockquote style="BORDER-LEFT:#ccc 1px solid;MARGIN:0px 0px 0px 0.8ex;PADDING-LEFT:1ex" class="gmail_quote"><font face="trebuchet ms,sans-serif">Saudações,<br><br>Estou fazendo um estudo com vídeos do youtube. A partir dos links eu retiro informações deles, como o título. No entanto, não estou conseguindo acertar o encoding, seja para ler corretamente a página ou para tranformar as strings após a leitura. Com o CMR abaixo eu leio o código de um vídeo do youtube e pego seu título, o problema é que os acentos não são corretamente representados, e eu preciso que sejam. Tentei atribuir um encoding na readLines() mas nenhum dos usados (latin1 e utf-8) funcionaram. Tentei usar a iconv() mas sem sucesso. Uso ubuntu 12.04. Sessão R está no CMR.<br>
<br><span style="FONT-FAMILY:courier new,monospace">library(XML)<br><br># lê a página do vídeo com esse endereço<br>lines <- readLines("<a href="http://www.youtube.com/watch?v=P3m6rJR2yDI" target="_blank">http://www.youtube.com/watch?v=P3m6rJR2yDI</a>")<br>
# lines <- readLines("<a href="http://www.youtube.com/watch?v=P3m6rJR2yDI" target="_blank">http://www.youtube.com/watch?v=P3m6rJR2yDI</a>", encoding=?)<br><br># organiza<br>h <- htmlTreeParse(lines, asText=TRUE, useInternalNodes=TRUE)<br>
summary(h)<br><br># pega o título do vídeo<br>n <- unlist(getNodeSet(doc=h, path="//title", fun=xmlValue))<br>n<br><br>Encoding(n)<br><br># retira os caracteres estranhos substituindo por vazio<br>iconv(nap, from="UTF-8", to="ASCII", sub="")<br>
# iconv(n, from=?, to=?)<br><br><b><span style="COLOR:rgb(204,0,0)"># Como sai<br># "Matemática - EstatÃstica: Conceito e frequências - YouTube"<br><br># Como eu gostaria<br># "Matemática - Estatística: Conceito e frequências - YouTube"</span></b><br>
</span><br><span style="FONT-FAMILY:courier new,monospace">## > sessionInfo()<br>## R version 3.0.1 (2013-05-16)<br>## Platform: i686-pc-linux-gnu (32-bit)<br><br>## locale:<br>## [1] LC_CTYPE=pt_BR.UTF-8 LC_NUMERIC=C <br>
## [3] LC_TIME=pt_BR.UTF-8 LC_COLLATE=pt_BR.UTF-8 <br>## [5] LC_MONETARY=pt_BR.UTF-8 LC_MESSAGES=pt_BR.UTF-8 <br>## [7] LC_PAPER=C LC_NAME=C <br>## [9] LC_ADDRESS=C LC_TELEPHONE=C <br>
## [11] LC_MEASUREMENT=pt_BR.UTF-8 LC_IDENTIFICATION=C <br><br>## attached base packages:<br>## [1] stats graphics grDevices utils datasets methods base <br><br>## other attached packages:<br>## [1] XML_3.96-1.1<br>
<br>## loaded via a namespace (and not attached):<br>## [1] compiler_3.0.1 tools_3.0.1 <br>## > <br></span><br>Alguém saberia solucionar esse problema?<br>Desde já grato.<br><br>Walmes.<br><br clear="all"></font>
<div><span style="FONT-FAMILY:trebuchet ms,sans-serif">==========================================================================</span><br style="FONT-FAMILY:trebuchet ms,sans-serif"><span style="FONT-FAMILY:trebuchet ms,sans-serif">Walmes Marques Zeviani</span><br style="FONT-FAMILY:trebuchet ms,sans-serif">
<span style="FONT-FAMILY:trebuchet ms,sans-serif">LEG (Laboratório de Estatística e Geoinformação, 25.450418 S, 49.231759 W)</span><br style="FONT-FAMILY:trebuchet ms,sans-serif"><span style="FONT-FAMILY:trebuchet ms,sans-serif">Departamento de Estatística - Universidade Federal do Paraná</span><br style="FONT-FAMILY:trebuchet ms,sans-serif">
<span style="FONT-FAMILY:trebuchet ms,sans-serif">fone: <a href="tel:%28%2B55%29%2041%203361%203573" target="_blank" value="+554133613573">(+55) 41 3361 3573</a></span><br style="FONT-FAMILY:trebuchet ms,sans-serif"><span style="FONT-FAMILY:trebuchet ms,sans-serif">VoIP: (3361 3600) 1053 1173</span><br style="FONT-FAMILY:trebuchet ms,sans-serif">
<span style="FONT-FAMILY:trebuchet ms,sans-serif">e-mail: <a href="mailto:walmes@ufpr.br" target="_blank">walmes@ufpr.br</a><br>skype: walmeszeviani<br style="FONT-FAMILY:trebuchet ms,sans-serif"></span><span style="FONT-FAMILY:trebuchet ms,sans-serif">twitter: @walmeszeviani</span><br style="FONT-FAMILY:trebuchet ms,sans-serif">
<span style="FONT-FAMILY:trebuchet ms,sans-serif">homepage: <a href="http://www.leg.ufpr.br/~walmes" target="_blank">http://www.leg.ufpr.br/~walmes</a></span><br style="FONT-FAMILY:trebuchet ms,sans-serif"><span style="FONT-FAMILY:trebuchet ms,sans-serif">linux user number: 531218</span><br style="FONT-FAMILY:trebuchet ms,sans-serif">
<span style="FONT-FAMILY:trebuchet ms,sans-serif">==========================================================================</span></div><br>_______________________________________________<br>R-br mailing list<br><a href="mailto:R-br@listas.c3sl.ufpr.br">R-br@listas.c3sl.ufpr.br</a><br>
<a href="https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br" target="_blank">https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br</a><br>Leia o guia de postagem (<a href="http://www.leg.ufpr.br/r-br-guia" target="_blank">http://www.leg.ufpr.br/r-br-guia</a>) e forneça código mínimo reproduzível.<br>
</blockquote></div><br><br clear="all"><br>-- <br>Marcos F. Silva<br><a href="http://sites.google.com/site/marcosfs2006" target="_blank">http://sites.google.com/site/marcosfs2006</a>