[R-br] Problema ao ler arquivo UTF-16 com nulos

Daniel Marcelino dmsilva.br em gmail.com
Quarta Outubro 31 18:24:48 BRST 2012


E se tudo der certo,
corte a conexao depois.

unlink(temp)


2012/10/31 Daniel Marcelino <dmsilva.br em gmail.com>

> Tenta assim:
>
>
> temp <- tempfile()
> > download.file("
> http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoDePlanilha.asp?origem=Servidores&Planilha=0
> ",temp)
> trying URL '
> http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoDePlanilha.asp?origem=Servidores&Planilha=0
> '
> Content type 'application/x-zip-compressed' length 284100659 bytes (270.9
> Mb)
> opened URL
>
> ===============================================================================
> =====
>
> data1 <- read.delim(unz(temp,
> "20120930_Servidores.csv"),header=TRUE,sep="\t",  fill=TRUE)
>
> data2 <- read.delim(unz(temp,
> "20120930_Observacoes_Servidores.csv"),header=TRUE,sep="\t",  fill=TRUE)
>
> data3 <- read.delim(unz(temp,
> "20120930_Remuneracao_Servidores.csv"),header=TRUE,sep="\t",  fill=TRUE)
>
> data4 <- read.delim(unz(temp,
> "20120930_Jetom_Servidores.csv"),header=TRUE,sep="\t",  fill=TRUE)
>
>
> Daniel
>
>
>
> 2012/10/31 Roberto de Pinho <robertodepinho em gmail.com>
>
>> obrigado.
>>
>>
>>
>> 2012/10/31 Paulo Justiniano <paulojus em leg.ufpr.br>
>>
>>> O site do leg está em uma rapida manutencao e já retorna
>>>
>>>
>>>
>>> On Wed, 31 Oct 2012, Roberto de Pinho wrote:
>>>
>>>  o guia foi movido?
>>>> http://www.leg.ufpr.br/r-br-**guia <http://www.leg.ufpr.br/r-br-guia>
>>>>
>>>>                                                                Not Found
>>>>
>>>> The requested URL /r-br-guia was not found on this server.
>>>>
>>>>
>>>>
>>>> 2012/10/31 Walmes Zeviani <walmeszeviani em gmail.com>
>>>>       Não envie arquivos anexados nas mensagens. Forneça um CMR. Para
>>>> isso hospede seu arquivo na web ou passe o dput() do mesmo.
>>>>       Leia o guia de postagem.
>>>>
>>>>       À disposição.
>>>>       Walmes.
>>>>
>>>>       ==============================**==============================**
>>>> ==============
>>>>       Walmes Marques Zeviani
>>>>       LEG (Laboratório de Estatística e Geoinformação, 25.450418 S,
>>>> 49.231759 W)
>>>>       Departamento de Estatística - Universidade Federal do Paraná
>>>>       fone: (+55) 41 3361 3573
>>>>       VoIP: (3361 3600) 1053 1173
>>>>       e-mail: walmes em ufpr.br
>>>>       skype: walmeszeviani
>>>>       twitter: @walmeszeviani
>>>>       homepage: http://www.leg.ufpr.br/~walmes
>>>>       linux user number: 531218
>>>>       ==============================**==============================**
>>>> ==============
>>>>
>>>>
>>>>       2012/10/31 Fátima Lima Paula <fatima.lima.paula em gmail.com>
>>>>             Tente salvar o arquivo em .csv (separado por vírgulas) e
>>>> leia peloread.csv2.
>>>> Acho que vai conseguir.
>>>> Fátima
>>>>
>>>> Em 31 de outubro de 2012 11:22, Roberto de Pinho <
>>>> robertodepinho em gmail.com> escreveu:
>>>>       Caros,
>>>> Estou tentando ler o arquivo de servidores disponível no portal da
>>>> transparência.
>>>>
>>>> (
>>>> http://arquivos.**portaldatransparencia.gov.br/**
>>>> PortalTransparenciaEscolheTipo**DePlanilha.asp?origem=**
>>>> Servidores&Planilha=0<http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoDePlanilha.asp?origem=Servidores&Planilha=0>
>>>>  - mais de 200MB)
>>>>
>>>> É um CSV  codificado em UTF-16.
>>>>
>>>> No entanto, ele reconhece prematuramente fins de linhas em algumas
>>>> linhas quando encontra campos com nulo [00 00]. Há
>>>> valores não nulos não sendo lidos após campos nulos que provocam
>>>> o reconhecimento de fim de linha.
>>>>
>>>> Alguém saberia como poderia fazer com que o R possa ler este arquivo?
>>>>
>>>> Estou lendo o arquivo com:
>>>>
>>>> servidores = read.table("teste.csv", header = T, sep="\t",quote="",**
>>>> stringsAsFactors=T,**fileEncoding="UTF-16", fill=T)
>>>>
>>>> o fill=T estou sando para evitar que dê erro de diferente numero de
>>>> campos.
>>>>
>>>> Envio, em anexo, um extrato das primeiras linhas do arquivo.
>>>>
>>>>
>>>> Obrigado pela atenção.
>>>>
>>>> ====
>>>> Sequencia de bytes que provocam o reconhecimento de nova linha:
>>>>
>>>> 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00
>>>> 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00
>>>> 00 09 00 00 00 09 00 00 00 09 00
>>>>
>>>>
>>>>
>>>>
>>>>
>>>>
>>>> --
>>>> Roberto de Pinho
>>>> robertodepinho em gmail.com
>>>> http://www.ascoisas.com http://lattes.cnpq.br/**4816166073408660<http://lattes.cnpq.br/4816166073408660>
>>>>
>>>>
>>>> ______________________________**_________________
>>>> R-br mailing list
>>>> R-br em listas.c3sl.ufpr.br
>>>> https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br>
>>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>)
>>>> e forneça código mínimo reproduzível.
>>>>
>>>>
>>>>
>>>> ______________________________**_________________
>>>> R-br mailing list
>>>> R-br em listas.c3sl.ufpr.br
>>>> https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br>
>>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>)
>>>> e forneça código mínimo reproduzível.
>>>>
>>>>
>>>>
>>>> ______________________________**_________________
>>>> R-br mailing list
>>>> R-br em listas.c3sl.ufpr.br
>>>> https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br>
>>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>)
>>>> e forneça código mínimo reproduzível.
>>>>
>>>>
>>>>
>>>>
>>>> --
>>>> Roberto de Pinho
>>>> robertodepinho em gmail.com
>>>> http://www.ascoisas.comhttp://**lattes.cnpq.br/**4816166073408660<http://lattes.cnpq.br/4816166073408660>
>>>>
>>>>
>>>>
>>> _______________________________________________
>>> R-br mailing list
>>> R-br em listas.c3sl.ufpr.br
>>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>>> código mínimo reproduzível.
>>>
>>
>>
>>
>> --
>> Roberto de Pinho
>> robertodepinho em gmail.com
>> http://www.ascoisas.com
>> http://lattes.cnpq.br/4816166073408660
>>
>>
>> _______________________________________________
>> R-br mailing list
>> R-br em listas.c3sl.ufpr.br
>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>> código mínimo reproduzível.
>>
>
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20121031/76c7da79/attachment.html>


Mais detalhes sobre a lista de discussão R-br