[R-br] encoding de páginas web readLines XML

Paulo Justiniano paulojus em leg.ufpr.br
Sexta Junho 7 10:07:35 BRT 2013


alem disto Walves serias bom vr qual encoding sua sessao estao usando 
(provavelmente utf-8 nativo no linux)

vc tentou enc2native() ?



On Fri, 7 Jun 2013, Marcos Silva wrote:

> Caro Walmes, não consegui reproduzir intralmente seu código, mas o comando abaixo funcionou pra mim, usando Windows. (Eu copiei o texto do
> email, não sei se vai funcionar com o texto gerado pelo seu código. 
>   
> > iconv("Matemática - Estatística: Conceito e frequências - YouTube", from="utf-8")
> [1] "Matemática - Estatística: Conceito e frequências - YouTube"
> 
> Abs.
> Em 7 de junho de 2013 09:49, walmes . <walmeszeviani em gmail.com> escreveu:
>       Saudações,
>
>       Estou fazendo um estudo com vídeos do youtube. A partir dos links eu retiro informações deles, como o título. No entanto, não
>       estou conseguindo acertar o encoding, seja para ler corretamente a página ou para tranformar as strings após a leitura. Com o
>       CMR abaixo eu leio o código de um vídeo do youtube e pego seu título, o problema é que os acentos não são corretamente
>       representados, e eu preciso que sejam. Tentei atribuir um encoding na readLines() mas nenhum dos usados (latin1 e utf-8)
>       funcionaram. Tentei usar a iconv() mas sem sucesso. Uso ubuntu 12.04. Sessão R está no CMR.
>
>       library(XML)
>
>       # lê a página do vídeo com esse endereço
>       lines <- readLines("http://www.youtube.com/watch?v=P3m6rJR2yDI")
>       # lines <- readLines("http://www.youtube.com/watch?v=P3m6rJR2yDI", encoding=?)
>
>       # organiza
>       h <- htmlTreeParse(lines, asText=TRUE, useInternalNodes=TRUE)
>       summary(h)
>
>       # pega o título do vídeo
>       n <- unlist(getNodeSet(doc=h, path="//title", fun=xmlValue))
>       n
>
>       Encoding(n)
>
>       # retira os caracteres estranhos substituindo por vazio
>       iconv(nap, from="UTF-8", to="ASCII", sub="")
>       # iconv(n, from=?, to=?)
>
>       # Como sai
>       # "Matemática - Estatística: Conceito e frequências - YouTube"
>
>       # Como eu gostaria
>       # "Matemática - Estatística: Conceito e frequências - YouTube"
>
>       ## > sessionInfo()
>       ## R version 3.0.1 (2013-05-16)
>       ## Platform: i686-pc-linux-gnu (32-bit)
>
>       ## locale:
>       ##  [1] LC_CTYPE=pt_BR.UTF-8       LC_NUMERIC=C             
>       ##  [3] LC_TIME=pt_BR.UTF-8        LC_COLLATE=pt_BR.UTF-8   
>       ##  [5] LC_MONETARY=pt_BR.UTF-8    LC_MESSAGES=pt_BR.UTF-8  
>       ##  [7] LC_PAPER=C                 LC_NAME=C                
>       ##  [9] LC_ADDRESS=C               LC_TELEPHONE=C           
>       ## [11] LC_MEASUREMENT=pt_BR.UTF-8 LC_IDENTIFICATION=C      
>
>       ## attached base packages:
>       ## [1] stats     graphics  grDevices utils     datasets  methods   base    
>
>       ## other attached packages:
>       ## [1] XML_3.96-1.1
>
>       ## loaded via a namespace (and not attached):
>       ## [1] compiler_3.0.1 tools_3.0.1  
>       ## >
>
>       Alguém saberia solucionar esse problema?
>       Desde já grato.
>
>       Walmes.
>
>       ==========================================================================
>       Walmes Marques Zeviani
>       LEG (Laboratório de Estatística e Geoinformação, 25.450418 S, 49.231759 W)
>       Departamento de Estatística - Universidade Federal do Paraná
>       fone: (+55) 41 3361 3573
>       VoIP: (3361 3600) 1053 1173
>       e-mail: walmes em ufpr.br
>       skype: walmeszeviani
>       twitter: @walmeszeviani
>       homepage: http://www.leg.ufpr.br/~walmes
>       linux user number: 531218
>       ==========================================================================
> 
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
> 
> 
> 
> 
> --
> Marcos F. Silva
> http://sites.google.com/site/marcosfs2006
>


Mais detalhes sobre a lista de discussão R-br