[R-br] Problema ao ler arquivo UTF-16 com nulos

Roberto de Pinho robertodepinho em gmail.com
Quarta Outubro 31 16:12:43 BRST 2012


CMR:

url = "
https://doc-0c-9c-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7deffksulhg5h7mbp1/vpmci49343n9hbakrkf8spssbvdm5bf9/1351706400000/13580050277620078750/*/0B7_ApnYB_M44WnA4UHpOVDZKWjQ?e=download
"

#leitura incompleta
x = read.table(url, header = T,
sep="\t",quote="",stringsAsFactors=T,fileEncoding="UTF-16", fill=T)

#leitura com erro
y = read.table(url, header = T,
sep="\t",quote="",stringsAsFactors=T,fileEncoding="UTF-16", fill=F)




2012/10/31 Walmes Zeviani <walmeszeviani em gmail.com>

> Não envie arquivos anexados nas mensagens. Forneça um CMR. Para isso
> hospede seu arquivo na web ou passe o dput() do mesmo. Leia o guia de
> postagem.
>
> À disposição.
> Walmes.
>
> ==========================================================================
> Walmes Marques Zeviani
> LEG (Laboratório de Estatística e Geoinformação, 25.450418 S, 49.231759 W)
> Departamento de Estatística - Universidade Federal do Paraná
> fone: (+55) 41 3361 3573
> VoIP: (3361 3600) 1053 1173
> e-mail: walmes em ufpr.br
> skype: walmeszeviani
> twitter: @walmeszeviani
> homepage: http://www.leg.ufpr.br/~walmes
> linux user number: 531218
> ==========================================================================
>
>
>
> 2012/10/31 Fátima Lima Paula <fatima.lima.paula em gmail.com>
>
>> Tente salvar o arquivo em .csv (separado por vírgulas) e leia pelo
>> read.csv2.
>> Acho que vai conseguir.
>> Fátima
>>
>> Em 31 de outubro de 2012 11:22, Roberto de Pinho <
>> robertodepinho em gmail.com> escreveu:
>>
>>>  Caros,
>>>
>>> Estou tentando ler o arquivo de servidores disponível no portal da
>>> transparência.
>>>
>>> (
>>>
>>> http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoDePlanilha.asp?origem=Servidores&Planilha=0 - mais de 200MB)
>>>
>>> É um CSV  codificado em UTF-16.
>>>
>>> No entanto, ele reconhece prematuramente fins de linhas em algumas
>>> linhas quando encontra campos com nulo [00 00]. Há valores não nulos não
>>> sendo lidos após campos nulos que provocam o reconhecimento de fim de linha.
>>>
>>> Alguém saberia como poderia fazer com que o R possa ler este arquivo?
>>>
>>> Estou lendo o arquivo com:
>>>
>>> servidores = read.table("teste.csv", header = T,
>>> sep="\t",quote="",stringsAsFactors=T,fileEncoding="UTF-16", fill=T)
>>>
>>> o fill=T estou sando para evitar que dê erro de diferente numero de
>>> campos.
>>>
>>> Envio, em anexo, um extrato das primeiras linhas do arquivo.
>>>
>>>
>>> Obrigado pela atenção.
>>>
>>> ====
>>> Sequencia de bytes que provocam o reconhecimento de nova linha:
>>>
>>> 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00
>>> 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09
>>> 00
>>>
>>>
>>>
>>>
>>>
>>>
>>> --
>>> Roberto de Pinho
>>> robertodepinho em gmail.com
>>> http://www.ascoisas.com
>>> http://lattes.cnpq.br/4816166073408660
>>>
>>>
>>> _______________________________________________
>>> R-br mailing list
>>> R-br em listas.c3sl.ufpr.br
>>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>>> código mínimo reproduzível.
>>>
>>
>>
>> _______________________________________________
>> R-br mailing list
>> R-br em listas.c3sl.ufpr.br
>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>> código mínimo reproduzível.
>>
>
>
> _______________________________________________
> R-br mailing list
> R-br em listas.c3sl.ufpr.br
> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
> código mínimo reproduzível.
>



-- 
Roberto de Pinho
robertodepinho em gmail.com
http://www.ascoisas.com
http://lattes.cnpq.br/4816166073408660
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20121031/44e41a46/attachment.html>


Mais detalhes sobre a lista de discussão R-br