[R-br] Problema ao ler arquivo UTF-16 com nulos

Fátima Lima Paula fatima.lima.paula em gmail.com
Quarta Outubro 31 12:27:36 BRST 2012


Tente salvar o arquivo em .csv (separado por vírgulas) e leia pelo
read.csv2.
Acho que vai conseguir.
Fátima

Em 31 de outubro de 2012 11:22, Roberto de Pinho
<robertodepinho em gmail.com>escreveu:

> Caros,
>
> Estou tentando ler o arquivo de servidores disponível no portal da
> transparência.
>
> (
>
> http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoDePlanilha.asp?origem=Servidores&Planilha=0 - mais de 200MB)
>
> É um CSV  codificado em UTF-16.
>
> No entanto, ele reconhece prematuramente fins de linhas em algumas linhas
> quando encontra campos com nulo [00 00]. Há valores não nulos não sendo
> lidos após campos nulos que provocam o reconhecimento de fim de linha.
>
> Alguém saberia como poderia fazer com que o R possa ler este arquivo?
>
> Estou lendo o arquivo com:
>
> servidores = read.table("teste.csv", header = T,
> sep="\t",quote="",stringsAsFactors=T,fileEncoding="UTF-16", fill=T)
>
> o fill=T estou sando para evitar que dê erro de diferente numero de
> campos.
>
> Envio, em anexo, um extrato das primeiras linhas do arquivo.
>
>
> Obrigado pela atenção.
>
> ====
> Sequencia de bytes que provocam o reconhecimento de nova linha:
>
> 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09
> 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00
>
>
>
>
>
>
> --
> Roberto de Pinho
> robertodepinho em gmail.com
> http://www.ascoisas.com
> http://lattes.cnpq.br/4816166073408660
>
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20121031/12845a35/attachment.html>


Mais detalhes sobre a lista de discussão R-br