[R-br] Problema ao ler arquivo UTF-16 com nulos

Paulo Justiniano paulojus em leg.ufpr.br
Quarta Outubro 31 16:46:17 BRST 2012


O site do leg está em uma rapida manutencao e já retorna


On Wed, 31 Oct 2012, Roberto de Pinho wrote:

> o guia foi movido?
> http://www.leg.ufpr.br/r-br-guia
>
>                                                                Not Found
> 
> The requested URL /r-br-guia was not found on this server.
> 
> 
> 
> 2012/10/31 Walmes Zeviani <walmeszeviani em gmail.com>
>       Não envie arquivos anexados nas mensagens. Forneça um CMR. Para isso hospede seu arquivo na web ou passe o dput() do mesmo.
>       Leia o guia de postagem.
>
>       À disposição.
>       Walmes.
>
>       ==========================================================================
>       Walmes Marques Zeviani
>       LEG (Laboratório de Estatística e Geoinformação, 25.450418 S, 49.231759 W)
>       Departamento de Estatística - Universidade Federal do Paraná
>       fone: (+55) 41 3361 3573
>       VoIP: (3361 3600) 1053 1173
>       e-mail: walmes em ufpr.br
>       skype: walmeszeviani
>       twitter: @walmeszeviani
>       homepage: http://www.leg.ufpr.br/~walmes
>       linux user number: 531218
>       ==========================================================================
> 
>
>       2012/10/31 Fátima Lima Paula <fatima.lima.paula em gmail.com>
>             Tente salvar o arquivo em .csv (separado por vírgulas) e leia peloread.csv2.
> Acho que vai conseguir.
> Fátima
> 
> Em 31 de outubro de 2012 11:22, Roberto de Pinho <robertodepinho em gmail.com> escreveu:
>       Caros, 
> Estou tentando ler o arquivo de servidores disponível no portal da transparência.
> 
>> http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoDePlanilha.asp?origem=Servidores&Planilha=0
>  - mais de 200MB) 
> 
> É um CSV  codificado em UTF-16.
> 
> No entanto, ele reconhece prematuramente fins de linhas em algumas linhas quando encontra campos com nulo [00 00]. Há
> valores não nulos não sendo lidos após campos nulos que provocam o reconhecimento de fim de linha.
> 
> Alguém saberia como poderia fazer com que o R possa ler este arquivo?
> 
> Estou lendo o arquivo com:
> 
> servidores = read.table("teste.csv", header = T, sep="\t",quote="",stringsAsFactors=T,fileEncoding="UTF-16", fill=T)
> 
> o fill=T estou sando para evitar que dê erro de diferente numero de campos. 
> 
> Envio, em anexo, um extrato das primeiras linhas do arquivo. 
> 
> 
> Obrigado pela atenção. 
> 
> ====
> Sequencia de bytes que provocam o reconhecimento de nova linha:
> 
> 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00
> 00 09 00 00 00 09 00 00 00 09 00
> 
> 
> 
> 
> 
> 
> --
> Roberto de Pinho
> robertodepinho em gmail.com
> http://www.ascoisas.com http://lattes.cnpq.br/4816166073408660
> 
> 
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
> 
> 
> 
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
> 
> 
> 
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
> 
> 
> 
> 
> --
> Roberto de Pinho
> robertodepinho em gmail.com
> http://www.ascoisas.comhttp://lattes.cnpq.br/4816166073408660
> 
> 
>


Mais detalhes sobre a lista de discussão R-br