[R-br] encoding de páginas web readLines XML
Marcos Silva
marcosfs2006 em gmail.com
Sexta Junho 7 10:21:20 BRT 2013
Caro Walmes, não consegui reproduzir intralmente seu código, mas o comando
abaixo funcionou pra mim, usando Windows. (Eu copiei o texto do email, não
sei se vai funcionar com o texto gerado pelo seu código.
> iconv("Matemática - EstatÃstica: Conceito e frequências - YouTube",
from="utf-8")
[1] "Matemática - Estatística: Conceito e frequências - YouTube"
Abs.
Em 7 de junho de 2013 09:49, walmes . <walmeszeviani em gmail.com> escreveu:
> Saudações,
>
> Estou fazendo um estudo com vídeos do youtube. A partir dos links eu
> retiro informações deles, como o título. No entanto, não estou conseguindo
> acertar o encoding, seja para ler corretamente a página ou para tranformar
> as strings após a leitura. Com o CMR abaixo eu leio o código de um vídeo do
> youtube e pego seu título, o problema é que os acentos não são corretamente
> representados, e eu preciso que sejam. Tentei atribuir um encoding na
> readLines() mas nenhum dos usados (latin1 e utf-8) funcionaram. Tentei usar
> a iconv() mas sem sucesso. Uso ubuntu 12.04. Sessão R está no CMR.
>
> library(XML)
>
> # lê a página do vídeo com esse endereço
> lines <- readLines("http://www.youtube.com/watch?v=P3m6rJR2yDI")
> # lines <- readLines("http://www.youtube.com/watch?v=P3m6rJR2yDI",
> encoding=?)
>
> # organiza
> h <- htmlTreeParse(lines, asText=TRUE, useInternalNodes=TRUE)
> summary(h)
>
> # pega o título do vídeo
> n <- unlist(getNodeSet(doc=h, path="//title", fun=xmlValue))
> n
>
> Encoding(n)
>
> # retira os caracteres estranhos substituindo por vazio
> iconv(nap, from="UTF-8", to="ASCII", sub="")
> # iconv(n, from=?, to=?)
>
> *# Como sai
> # "Matemática - EstatÃstica: Conceito e frequências - YouTube"
>
> # Como eu gostaria
> # "Matemática - Estatística: Conceito e frequências - YouTube"*
>
> ## > sessionInfo()
> ## R version 3.0.1 (2013-05-16)
> ## Platform: i686-pc-linux-gnu (32-bit)
>
> ## locale:
> ## [1] LC_CTYPE=pt_BR.UTF-8 LC_NUMERIC=C
> ## [3] LC_TIME=pt_BR.UTF-8 LC_COLLATE=pt_BR.UTF-8
> ## [5] LC_MONETARY=pt_BR.UTF-8 LC_MESSAGES=pt_BR.UTF-8
> ## [7] LC_PAPER=C LC_NAME=C
> ## [9] LC_ADDRESS=C LC_TELEPHONE=C
> ## [11] LC_MEASUREMENT=pt_BR.UTF-8 LC_IDENTIFICATION=C
>
> ## attached base packages:
> ## [1] stats graphics grDevices utils datasets methods
> base
>
> ## other attached packages:
> ## [1] XML_3.96-1.1
>
> ## loaded via a namespace (and not attached):
> ## [1] compiler_3.0.1 tools_3.0.1
> ## >
>
> Alguém saberia solucionar esse problema?
> Desde já grato.
>
> Walmes.
>
> ==========================================================================
> Walmes Marques Zeviani
> LEG (Laboratório de Estatística e Geoinformação, 25.450418 S, 49.231759 W)
> Departamento de Estatística - Universidade Federal do Paraná
> fone: (+55) 41 3361 3573
> VoIP: (3361 3600) 1053 1173
> e-mail: walmes em ufpr.br
> skype: walmeszeviani
> twitter: @walmeszeviani
> homepage: http://www.leg.ufpr.br/~walmes
> linux user number: 531218
> ==========================================================================
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
--
Marcos F. Silva
http://sites.google.com/site/marcosfs2006
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20130607/9623aceb/attachment.html>
Mais detalhes sobre a lista de discussão R-br