[R-br] Problemas com Encoding

Rodrigo Coster rcoster em gmail.com
Quinta Dezembro 6 09:07:32 BRST 2012


Aqui funcionou assim:

html <- readHTMLTable("C:\\Users\\rcoster\\Desktop\\teste.htm")
html <- html[[3]][, c('V1', 'V2')]

head(html)
html[,1] = iconv(html[,1],'UTF-8','latin1')
html[,2] = iconv(html[,2],'UTF-8','latin1')
head(html)

E tenha um pouco de paciência, enviar um email a meia noite e esperar que
já tenham respondido as 9 da manhã é um pouco d+, nao acha?


2012/12/6 Marcos Silva <marcosfs2006 em gmail.com>

>
> Em 5 de dezembro de 2012 23:43, Marcos Silva <marcosfs2006 em gmail.com>escreveu:
>
> Caros amigos,
>>
>> Estou tentando usar o pacote XML para ler alguns dados em tabelas
>> existentes em páginas html.
>> Especificamente, estou tentando ler páginas da previdência social
>> contendo informações sobre o CRP (Certificado de Regularidade
>> Previdenciária)
>> O problema é que estou obtendo uns caracteres estranhos, coisas do tipo
>> "Situação".
>> Estou fazendo da seguinte forma:
>>
>> library(XML)
>> html <- readHTMLTable("F:\\Regime
>> Próprio\\html\\ExtratoPrevidenciario.htm")
>> html <- html[[3]][, c('V1', 'V2')]
>>
>> Já tentei o iconv() sem resultado. Já tentei ler após mudar a opção
>> "encoding" em options().
>>
>> Ah, estou usando o windows velho de guerra... sorry... :)
>>
>> A página pode ser vista no seguinte link:
>>
>>
>> http://www1.previdencia.gov.br/sps/app/crp/ExtratoRegularidadeRegimes.asp?CD_CNPJ=28695658000184&time=23:24:56&Rel=N-L-R-D-S-E-P
>>
>> Se alguém tiver alguma idéia de corrigir...
>>
>> Desde já obrigado.
>>
>> Abs.
>>
>> --
>> Marcos F. Silva
>> http://sites.google.com/site/marcosfs2006
>>
>
>
>
> --
> Marcos F. Silva
> http://sites.google.com/site/marcosfs2006
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20121206/59d84085/attachment.html>


Mais detalhes sobre a lista de discussão R-br