[R-br] encoding de páginas web readLines XML
walmes .
walmeszeviani em gmail.com
Sexta Junho 7 09:49:49 BRT 2013
Saudações,
Estou fazendo um estudo com vídeos do youtube. A partir dos links eu retiro
informações deles, como o título. No entanto, não estou conseguindo acertar
o encoding, seja para ler corretamente a página ou para tranformar as
strings após a leitura. Com o CMR abaixo eu leio o código de um vídeo do
youtube e pego seu título, o problema é que os acentos não são corretamente
representados, e eu preciso que sejam. Tentei atribuir um encoding na
readLines() mas nenhum dos usados (latin1 e utf-8) funcionaram. Tentei usar
a iconv() mas sem sucesso. Uso ubuntu 12.04. Sessão R está no CMR.
library(XML)
# lê a página do vídeo com esse endereço
lines <- readLines("http://www.youtube.com/watch?v=P3m6rJR2yDI")
# lines <- readLines("http://www.youtube.com/watch?v=P3m6rJR2yDI",
encoding=?)
# organiza
h <- htmlTreeParse(lines, asText=TRUE, useInternalNodes=TRUE)
summary(h)
# pega o título do vídeo
n <- unlist(getNodeSet(doc=h, path="//title", fun=xmlValue))
n
Encoding(n)
# retira os caracteres estranhos substituindo por vazio
iconv(nap, from="UTF-8", to="ASCII", sub="")
# iconv(n, from=?, to=?)
*# Como sai
# "Matemática - EstatÃstica: Conceito e frequências - YouTube"
# Como eu gostaria
# "Matemática - Estatística: Conceito e frequências - YouTube"*
## > sessionInfo()
## R version 3.0.1 (2013-05-16)
## Platform: i686-pc-linux-gnu (32-bit)
## locale:
## [1] LC_CTYPE=pt_BR.UTF-8 LC_NUMERIC=C
## [3] LC_TIME=pt_BR.UTF-8 LC_COLLATE=pt_BR.UTF-8
## [5] LC_MONETARY=pt_BR.UTF-8 LC_MESSAGES=pt_BR.UTF-8
## [7] LC_PAPER=C LC_NAME=C
## [9] LC_ADDRESS=C LC_TELEPHONE=C
## [11] LC_MEASUREMENT=pt_BR.UTF-8 LC_IDENTIFICATION=C
## attached base packages:
## [1] stats graphics grDevices utils datasets methods base
## other attached packages:
## [1] XML_3.96-1.1
## loaded via a namespace (and not attached):
## [1] compiler_3.0.1 tools_3.0.1
## >
Alguém saberia solucionar esse problema?
Desde já grato.
Walmes.
==========================================================================
Walmes Marques Zeviani
LEG (Laboratório de Estatística e Geoinformação, 25.450418 S, 49.231759 W)
Departamento de Estatística - Universidade Federal do Paraná
fone: (+55) 41 3361 3573
VoIP: (3361 3600) 1053 1173
e-mail: walmes em ufpr.br
skype: walmeszeviani
twitter: @walmeszeviani
homepage: http://www.leg.ufpr.br/~walmes
linux user number: 531218
==========================================================================
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20130607/595675ea/attachment.html>
Mais detalhes sobre a lista de discussão R-br