[R-br] encoding de páginas web readLines XML

walmes . walmeszeviani em gmail.com
Sexta Junho 7 11:01:34 BRT 2013


Senhores, suas sugestões resolveram o problema, no caso, usando encodingo
para htmlTreeParse. Vejam.

> library(XML)
>
> lines <- readLines("http://www.youtube.com/watch?v=P3m6rJR2yDI")
>
> h <- htmlTreeParse(lines, asText=TRUE, useInternalNodes=TRUE)
> n <- unlist(getNodeSet(doc=h, path="//title", fun=xmlValue))
> n
[1] "Matemática - Estatística: Conceito e frequências - YouTube"
> iconv(n, from="UTF-8")
[1] "Matemática - Estatística: Conceito e frequências - YouTube"
> enc2native(n)
[1] "Matemática - Estatística: Conceito e frequências - YouTube"
>
> h <- htmlTreeParse(lines, asText=TRUE, useInternalNodes=TRUE,*encoding="utf-8"
*)
> n <- unlist(getNodeSet(doc=h, path="//title", fun=xmlValue))
> n
[1] "Matemática - Estatística: Conceito e frequências - YouTube"
>

Grato à todos.
Walmes.

==========================================================================
Walmes Marques Zeviani
LEG (Laboratório de Estatística e Geoinformação, 25.450418 S, 49.231759 W)
Departamento de Estatística - Universidade Federal do Paraná
fone: (+55) 41 3361 3573
VoIP: (3361 3600) 1053 1173
e-mail: walmes em ufpr.br
skype: walmeszeviani
twitter: @walmeszeviani
homepage: http://www.leg.ufpr.br/~walmes
linux user number: 531218
==========================================================================
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20130607/9f697a9d/attachment.html>


Mais detalhes sobre a lista de discussão R-br