[R-br] Problema ao ler arquivo UTF-16 com nulos

Daniel Marcelino dmsilva.br em gmail.com
Quarta Outubro 31 19:02:53 BRST 2012


Resolvido:
você precisa acrescentar os seguintes paramentros nos comandos que eu
enviei anteriormente:

fileEncoding = "latin1", as.is = TRUE


Você pode também abrir os dados de seu computador assim:

data1 <- read.delim(file.choose(),header=TRUE,sep="\t",  fill=TRUE,
fileEncoding = "latin1", as.is = TRUE)



2012/10/31 Daniel Marcelino <dmsilva.br em gmail.com>

> E se tudo der certo,
> corte a conexao depois.
>
> unlink(temp)
>
>
>
> 2012/10/31 Daniel Marcelino <dmsilva.br em gmail.com>
>
>> Tenta assim:
>>
>>
>> temp <- tempfile()
>> > download.file("
>> http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoDePlanilha.asp?origem=Servidores&Planilha=0
>> ",temp)
>> trying URL '
>> http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoDePlanilha.asp?origem=Servidores&Planilha=0
>> '
>> Content type 'application/x-zip-compressed' length 284100659 bytes (270.9
>> Mb)
>> opened URL
>>
>> ===============================================================================
>> =====
>>
>> data1 <- read.delim(unz(temp,
>> "20120930_Servidores.csv"),header=TRUE,sep="\t",  fill=TRUE)
>>
>> data2 <- read.delim(unz(temp,
>> "20120930_Observacoes_Servidores.csv"),header=TRUE,sep="\t",  fill=TRUE)
>>
>> data3 <- read.delim(unz(temp,
>> "20120930_Remuneracao_Servidores.csv"),header=TRUE,sep="\t",  fill=TRUE)
>>
>> data4 <- read.delim(unz(temp,
>> "20120930_Jetom_Servidores.csv"),header=TRUE,sep="\t",  fill=TRUE)
>>
>>
>> Daniel
>>
>>
>>
>> 2012/10/31 Roberto de Pinho <robertodepinho em gmail.com>
>>
>>> obrigado.
>>>
>>>
>>>
>>> 2012/10/31 Paulo Justiniano <paulojus em leg.ufpr.br>
>>>
>>>> O site do leg está em uma rapida manutencao e já retorna
>>>>
>>>>
>>>>
>>>> On Wed, 31 Oct 2012, Roberto de Pinho wrote:
>>>>
>>>>  o guia foi movido?
>>>>> http://www.leg.ufpr.br/r-br-**guia <http://www.leg.ufpr.br/r-br-guia>
>>>>>
>>>>>                                                                Not
>>>>> Found
>>>>>
>>>>> The requested URL /r-br-guia was not found on this server.
>>>>>
>>>>>
>>>>>
>>>>> 2012/10/31 Walmes Zeviani <walmeszeviani em gmail.com>
>>>>>       Não envie arquivos anexados nas mensagens. Forneça um CMR. Para
>>>>> isso hospede seu arquivo na web ou passe o dput() do mesmo.
>>>>>       Leia o guia de postagem.
>>>>>
>>>>>       À disposição.
>>>>>       Walmes.
>>>>>
>>>>>       ==============================**==============================**
>>>>> ==============
>>>>>       Walmes Marques Zeviani
>>>>>       LEG (Laboratório de Estatística e Geoinformação, 25.450418 S,
>>>>> 49.231759 W)
>>>>>       Departamento de Estatística - Universidade Federal do Paraná
>>>>>       fone: (+55) 41 3361 3573
>>>>>       VoIP: (3361 3600) 1053 1173
>>>>>       e-mail: walmes em ufpr.br
>>>>>       skype: walmeszeviani
>>>>>       twitter: @walmeszeviani
>>>>>       homepage: http://www.leg.ufpr.br/~walmes
>>>>>       linux user number: 531218
>>>>>       ==============================**==============================**
>>>>> ==============
>>>>>
>>>>>
>>>>>       2012/10/31 Fátima Lima Paula <fatima.lima.paula em gmail.com>
>>>>>             Tente salvar o arquivo em .csv (separado por vírgulas) e
>>>>> leia peloread.csv2.
>>>>> Acho que vai conseguir.
>>>>> Fátima
>>>>>
>>>>> Em 31 de outubro de 2012 11:22, Roberto de Pinho <
>>>>> robertodepinho em gmail.com> escreveu:
>>>>>       Caros,
>>>>> Estou tentando ler o arquivo de servidores disponível no portal da
>>>>> transparência.
>>>>>
>>>>> (
>>>>> http://arquivos.**portaldatransparencia.gov.br/**
>>>>> PortalTransparenciaEscolheTipo**DePlanilha.asp?origem=**
>>>>> Servidores&Planilha=0<http://arquivos.portaldatransparencia.gov.br/PortalTransparenciaEscolheTipoDePlanilha.asp?origem=Servidores&Planilha=0>
>>>>>  - mais de 200MB)
>>>>>
>>>>> É um CSV  codificado em UTF-16.
>>>>>
>>>>> No entanto, ele reconhece prematuramente fins de linhas em algumas
>>>>> linhas quando encontra campos com nulo [00 00]. Há
>>>>> valores não nulos não sendo lidos após campos nulos que provocam
>>>>> o reconhecimento de fim de linha.
>>>>>
>>>>> Alguém saberia como poderia fazer com que o R possa ler este arquivo?
>>>>>
>>>>> Estou lendo o arquivo com:
>>>>>
>>>>> servidores = read.table("teste.csv", header = T, sep="\t",quote="",**
>>>>> stringsAsFactors=T,**fileEncoding="UTF-16", fill=T)
>>>>>
>>>>> o fill=T estou sando para evitar que dê erro de diferente numero de
>>>>> campos.
>>>>>
>>>>> Envio, em anexo, um extrato das primeiras linhas do arquivo.
>>>>>
>>>>>
>>>>> Obrigado pela atenção.
>>>>>
>>>>> ====
>>>>> Sequencia de bytes que provocam o reconhecimento de nova linha:
>>>>>
>>>>> 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00
>>>>> 00 09 00 00 00 09 00 00 00 09 00 00 00 09 00 00
>>>>> 00 09 00 00 00 09 00 00 00 09 00
>>>>>
>>>>>
>>>>>
>>>>>
>>>>>
>>>>>
>>>>> --
>>>>> Roberto de Pinho
>>>>> robertodepinho em gmail.com
>>>>> http://www.ascoisas.com http://lattes.cnpq.br/**4816166073408660<http://lattes.cnpq.br/4816166073408660>
>>>>>
>>>>>
>>>>> ______________________________**_________________
>>>>> R-br mailing list
>>>>> R-br em listas.c3sl.ufpr.br
>>>>> https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br>
>>>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>)
>>>>> e forneça código mínimo reproduzível.
>>>>>
>>>>>
>>>>>
>>>>> ______________________________**_________________
>>>>> R-br mailing list
>>>>> R-br em listas.c3sl.ufpr.br
>>>>> https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br>
>>>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>)
>>>>> e forneça código mínimo reproduzível.
>>>>>
>>>>>
>>>>>
>>>>> ______________________________**_________________
>>>>> R-br mailing list
>>>>> R-br em listas.c3sl.ufpr.br
>>>>> https://listas.inf.ufpr.br/**cgi-bin/mailman/listinfo/r-br<https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br>
>>>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-**guia<http://www.leg.ufpr.br/r-br-guia>)
>>>>> e forneça código mínimo reproduzível.
>>>>>
>>>>>
>>>>>
>>>>>
>>>>> --
>>>>> Roberto de Pinho
>>>>> robertodepinho em gmail.com
>>>>> http://www.ascoisas.comhttp://**lattes.cnpq.br/**4816166073408660<http://lattes.cnpq.br/4816166073408660>
>>>>>
>>>>>
>>>>>
>>>> _______________________________________________
>>>> R-br mailing list
>>>> R-br em listas.c3sl.ufpr.br
>>>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>>>> código mínimo reproduzível.
>>>>
>>>
>>>
>>>
>>> --
>>> Roberto de Pinho
>>> robertodepinho em gmail.com
>>> http://www.ascoisas.com
>>> http://lattes.cnpq.br/4816166073408660
>>>
>>>
>>> _______________________________________________
>>> R-br mailing list
>>> R-br em listas.c3sl.ufpr.br
>>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
>>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça
>>> código mínimo reproduzível.
>>>
>>
>>
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://listas.inf.ufpr.br/pipermail/r-br/attachments/20121031/d4999fc1/attachment.html>


Mais detalhes sobre a lista de discussão R-br