[R-br] Problema ao ler arquivo UTF-16 com nulos
Roberto de Pinho
robertodepinho em gmail.com
Quarta Outubro 31 11:22:33 BRST 2012
Caros,
Estou tentando ler o arquivo de servidores disponível no portal da
transparência.
(
http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoDePlanilha.asp?origem=Servidores&Planilha=0
- mais de 200MB)
É um CSV codificado em UTF-16.
No entanto, ele reconhece prematuramente fins de linhas em algumas linhas
quando encontra campos com nulo [00 00]. Há valores não nulos não sendo
lidos após campos nulos que provocam o reconhecimento de fim de linha.
Alguém saberia como poderia fazer com que o R possa ler este arquivo?
Estou lendo o arquivo com:
servidores = read.table("teste.csv", header = T,
sep="\t",quote="",stringsAsFactors=T,fileEncoding="UTF-16", fill=T)
o fill=T estou sando para evitar que dê erro de diferente numero de campos.
Envio, em anexo, um extrato das primeiras linhas do arquivo.
Obrigado pela atenção.
====
Sequencia de bytes que provocam o reconhecimento de nova linha:
09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09
00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00
--
Roberto de Pinho
robertodepinho em gmail.com
http://www.ascoisas.com
http://lattes.cnpq.br/4816166073408660
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20121031/f68bbdb8/attachment.html>
-------------- Próxima Parte ----------
Um anexo não-texto foi limpo...
Nome: teste.csv
Tipo: text/csv
Tamanho: 52944 bytes
Descrição: não disponível
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20121031/f68bbdb8/attachment.csv>
Mais detalhes sobre a lista de discussão R-br